Вычислительные HPC-кластеры

c365653d5f532dca5709326f5a97468d.png

HPC кластеры (HPC Cluster — High-performance computing cluster)) используются в вычислительных целях, в частности в научных исследованиях и расчетных задачах. Вычислительный кластер – представляет из себя массив серверов (вычислительных узлов или так называемых нодов) объединенных коммуникационной сетью и размещенных в отдельной стойке. Вычислительный узел имеет несколько многоядерных процессоров, свою оперативную память и работает под управлением своей операционной системы. Наиболее распространенным является использование однородных кластеров, где все узлы абсолютно одинаковы по своей архитектуре и производительности.

Важным этапом является проектирование кластера, где в качестве технических требований к вычислительному кластеру рассматриваются его характеристики (производительность, эффективность, масштабируемость и т.д.) В этом случае, в соответствии с техническими требованиями и дополнительными ограничениями (бюджетом проекта), производится расчет и выбираются значения параметров аппаратной части кластера: выбор параметров вычислительного узла(разрядность, количество процессоров, объем памяти, объем кэша и т.д.), количество вычислительных узлов, характеристики коммуникационного оборудования,выбираются управляющий узел и параметры сети. Наша компания предлагает проектирование и поставку "под ключ" кластерных вычислительных систем различного назначения и уровня производительности.

Типовые задачи для расчетных кластеров:


Расчетное моделирование и анализ выполняемое на HPC-кластере в некоторых областях промышленности позволяет избежать дорогостоящих и длительных циклов разработки типа «проектирование — изготовление — испытания».

Компоненты HPC-кластера

Вычислительный узел кластера

Вычислительный узел - это многопроцессорный, многоядерный компьютер, на котором выполняются задачи пользователя. Это основа вычислительного кластера от его выбора будет зависеть вся производительность и возможность дальнейшего расширения. Производительность вычислительного нода определяется тактовой частотой, поколением и количеством ядер используемых процессоров. При этом количество ядер не всегда являются приоритетом. Оперативную память в любом программном обеспечение рекомендуется использовать с коррекцией ошибок из расчета 4-8GB на одно ядро процессора. Задача пользователя может занимать один вычислительный узел, несколько вычислительных узлов или все вычислительные узлы. Одновременное выполнение нескольких задач на одном процессорном ядре вычислительного узла не допускается (вычислительные ресурсы кластера делятся между задачами с точностью до процессорного ядра).

HPC_server_node.jpg

hpc_head_node.jpg

Управляющий узел HPC кластера

Управляющий узел - это высокопроизводительный сервер который может объединять в себе несколько функций: планировщика, front-end, мониторинг и т.д Для координирования заданий, выполняемых на разных узлах, используется планировщик. Планировщик выявляет доступные ресурсы, назначает и распределяет задания, отслеживает общее состояние выполнения заданий. Мониторинг компонент программно-аппаратного комплекса и оказание управляющих воздействий на него являются критически важными для организации высокопроизводительных распределенных вычислений. Пользователь и администратор кластера нуждаются в информации о том, как выполняется задание, какое влияние оно оказывает на вычислительную систему в целом. При проектировании кластеров стоит учитывать, что головной узел являющийся управляющим узлом, в ряде задач активно участвует в выполнении расчетов. Данный узел должен оснащаться всеми интерконнектами наравне с вычислительными узлами – он является первым вычислителем в списке ресурсов планировщика очереди задач. Использование быстродействующих SSD дисков или массивов на их основе может в разы сократить время выполнения расчета. Головной узел/узел постановки задачи на расчет должен иметь в 2-3 раза больше оперативной памяти, чем остальные узлы кластера.


Вычислительный узел c GPU

Вычисления с GPU-ускорением предлагают беспрецедентную производительность приложений благодаря тому, что GPU обрабатывает части приложения, требующие большой вычислительной мощности, при этом остальная часть приложения выполняется на CPU. С точки зрения пользователя, приложение просто работает значительно быстрее. Простой способ понять разницу между CPU и GPU – это сравнить то, как они выполняют задачи. CPU состоит из нескольких ядер, оптимизированных для последовательной обработки данных. CPU состоит из нескольких ядер, оптимизированных для последовательной обработки данных, в то время как GPU (NVIDIA TESLA) состоит из тысяч более мелких и энергоэффективных ядер, созданных для обработки нескольких задач одновременно. Полный модельный ряд GPU - серверов доступен в разделе Высокопроизводительные вычисления.

вычислительный сервер GPU


mellanox_hpc.jpg

Интерконнект HPC-кластера

Коммутационные решения Mellanox повышают эффективность центров обработки данных за счет своей высокой пропускной способности и низкой задержки. Эти факторы приводят к ускорению доставки данных приложениям и более полному раскрытию потенциала производительности систем. Данный тип интерконнекта не только гарантирует максимальные показатели быстродействия, но и обеспечивает полностью аппаратное функционирование сети. Таким образом, даже интенсивный обмен данными по сети интерконнект не приводит к загрузке процессоров вычислительных серверов.


Система хранения данных

Все результаты вычислений, а так же массив промежуточных данных получаемых в ходе вычислений, необходимо где-то хранить и без эффективной и надежной и производительной Системы Хранения Данных не обойтись. СХД в принципе можно объединить с управляющим сервером, либо подключить как внешнее устройство с быстрым интерконнектом типа Fibre Channel, SAS. Объем хранения можно наращивать по мере необходимости используя твердотельные накопители SSD или обычные SATA накопители.

HPC_storage.jpg


APC_hpc.jpg

ИБП и резервирование

Источник бесперебойного питания обязательная часть построения кластера. Важная информация для вас может быть потеряна в результате проблем по цепи питания. ИБП включают в себя программное обеспечение, которое автоматически и безопасно выключит HPC кластер, даже если вас нет рядом в тот момент, когда произойдет незапланированное отключение электричества. Резервирование питания не менее важная часть, вычислительные узлы, коммутаторы, имеют возможность установки дополнительных блоков питания. Экономить на стабильной и безопасной работе мы не рекомендуем.

Отправить запрос