Жидкость охлаждает мощные серверы лучше воздуха на 17%

Максим Наговицын26.04.20262098

В погоне за сверхумным ИИ инженеры наконец-то поняли, что обдувать раскаленные чипы вентилятором — все равно что тушить лесной пожар из пульверизатора.

Жидкость охлаждает мощные серверы лучше воздуха на 17%
Стоечное охлаждение: визуальный контраст между «горячим» воздушным контуром и прямым жидкостным отводом тепла от чипов. Источник иллюстрации: нейросеть

Америка прямо сейчас вкладывает огромные деньги в строительство так называемых «фабрик искусственного интеллекта». если проще, это многомиллиардные серверные, где тренируют и запускают большие нейросети. Но инженеры из Университета Атлантик (Колледж инженерии и компьютерных наук Флоридского Атлантического университета) выяснили любопытную вещь: старый способ охлаждения эти фабрики убивает. И нашли решение, которое опубликовано на сайте компании NVIDIA.

Секрет в том, чтобы не обдувать железо вентиляторами, а охлаждать его жидкостью — напрямую подводя ее к чипу. Обычный воздух хуже отводит тепло, и процессоры вынуждены сбавлять скорость, чтобы не расплавиться. Системы с прямым жидкостным охлаждением, наоборот, позволяют выжать из графических процессоров (GPU) на 17% больше вычислений. При этом один серверный узел начинает потреблять на 16% меньше энергии. Для дата-центра, где стоят 2–5 тысяч таких узлов, экономия на счетах за электричество составит от 2,25 до 11,8 миллиона долларов в год.

Исследование проводил Арслан Мунир (доктор философии, профессор кафедры электротехники и компьютерных наук) вместе с коллегами из Johnson Controls и Национальной лаборатории имени Лоуренса в Беркли. Они гоняли тяжелые задачи на мощных системах NVIDIA HGX H100.

Мы доказали, что жидкое охлаждение — это не просто тюнинг. Оно позволяет держать процессоры в холоде и на максимуме постоянно, без сбросов частоты. Это основа для настоящих фабрик ИИ будущего, — объясняет Арслан Мунир.

Их результаты выходят на свет в удачный момент. По данным американских отчетов, в ближайшие годы в ИИ-инфраструктуру вольют больше 400 миллиардов доллари США.

Оборудование ЦОД для циркуляции теплоносителя: чиллеры, магистрали и стойки в едином инженерном ландшафте. Источник иллюстрации: нейросеть
Оборудование ЦОД для циркуляции теплоносителя: чиллеры, магистрали и стойки в едином инженерном ландшафте. Источник иллюстрации: нейросеть

Эти центры станут хребтом для прорывов в медицине, обороне, транспорте и климате. Но прямо сейчас они пожирают электричество как прожорливые монстры.

Наша работа показывает, как перехитрить главные узкие места современных кластеров — жару и неэффективное питание. Можно снизить расходы, уменьшить вред для экологии и увеличить вычислительную плотность на тех же площадях, — говорит декан колледжа Стелла Баталма (доктор философии).

Вот сухие цифры из исследования в пересказе простых слов:

  • Температура: на «жидкости» чипы греются до 46–54 градусов, на воздухе — до 55–71. Разница огромная.
  • Скорость обучения больших нейросетей выросла на 1,4%, а общая производительность — на 17%.
  • Один серверный узел на жидкостном охлаждении потребляет на 1 киловатт меньше. Умножьте это на тысячи узлов — центр экономит 15–20% всей энергии.
  • Годовая экономия на электричестве может доходить до 11,8 миллиона долларов.

Жидкость переносит тепло от чипов к центральным системам, без шума вентиляторов и с меньшим углеродным следом. Это позволяет честнее измерять PUE (коэффициент эффективности использования энергии) и не врать про зеленость.

Анализ стоимости и доступности

Такое охлаждение дороже в установке. Вам нужны специальные распределительные блоки, трубки, чиллеры, контроль герметичности. Начальные вложения могут быть на 30–50% выше, чем у воздушных систем. Однако долгосрочная экономия на электричестве и возможность упихать больше серверов в ту же площадь окупают затраты за 1–2 года. Пока эта технология доступна в основном корпорациям вроде Google, Microsoft или государственным ЦОДам. Для обычного геймера с одним мощным компьютером прямое жидкостное охлаждение на процессор существует (готовые системы от EKWB, Corsair), но стоит дорого и требует сноровки при установке. Протечка убьет железо.

Что было раньше

До этого исследования все знали, что вода охлаждает лучше воздуха. Это не открытие. Но проблема была в том, чтобы масштабировать жидкостное охлаждение на тысячи серверов в одном здании, не создавая адский лабиринт из трубок и не рискуя потопом. Старые системы либо обливали жидкостью весь сервер (расточительно), либо пускали воду только на корпус. Прорыв этого исследования — доказательство на реальных NVIDIA H100, что прямое охлаждение чипа в плотной стойке дает стабильный прирост производительности без троттлинга (снижения частот из-за перегрева). Раньше эффективность жидкостного охлаждения для ИИ-стоек была теоретической. Теперь это цифры с конкретной экономией 11,8 миллиона долларов. Это не маленький шажок, а технико-экономическое обоснование, которое заставит проектировщиков ЦОДов менять стандарты.

Этичность и возможный вред

Работа этически нейтральна — инженеры решают проблему перегрева и перерасхода энергии. Потенциальный вред косвенный. Более эффективное охлаждение означает, что компании смогут запускать еще более прожорливые нейросети, не оглядываясь на счета. Технология снижает стоимость тренировки больших моделей, что ускоряет гонку вооружений в ИИ. Это может привести к более быстрому появлению мощных систем, которые используют для слежки, создания дипфейков или автоматизации оружия. если раньше суперкомпьютер упирался в лимит по охлаждению, теперь этот лимит сдвигается, и человечество получит более интеллектуальные, но потенциально опасные алгоритмы быстрее.

Погружная ванна и прямой подвод к чипу: два пути снятия тепла при разной цене и сложности. Источник иллюстрации: нейросеть
Погружная ванна и прямой подвод к чипу: два пути снятия тепла при разной цене и сложности. Источник иллюстрации: нейросеть

Когда каждый сможет попробовать разработку

Обычный человек уже может купить систему жидкостного охлаждения на центральный процессор за 150–300 долларов. Но это не то же самое, что в исследовании. Полноценные «фабрики ИИ» на жидкостном охлаждении начнут вводить в строй в течение 1–2 лет в крупных облачных провайдерах (Amazon AWS, Microsoft Azure). Пользователи смогут арендовать там вычислительную мощность через интернет.

Сравнение с аналогами

Есть два конкурента. Первый — погружное охлаждение, когда сервер целиком макают в бак с диэлектрической жидкостью (как масло, но не токопроводящее). Оно еще эффективнее, чем прямой подвод к чипу, но стоит бешеных денег, очень тяжелое и требует перепроектирования серверов. Второй конкурент — гибридные системы (воздух + холодные пластины на самых горячих чипах), которые уже применяются. Исследование FAU сравнивает именно классический воздух и прямой подвод жидкости к чипу. Прямая жидкость бьет обычный воздух по всем параметрам, но уступает погружному охлаждению по максимальному отводу тепла, хотя выигрывает по цене и сложности внедрения.

Критика разработки

В тексте не сказано про надежность. Воздушные системы работают годами без обслуживания. Жидкостные — это насосы, клапаны, резиновые прокладки, которые текут и забиваются. Статистика отказов у них выше. Одна протечка в стойке стоимостью миллион долларов — и вы выключаете всю фабрику на несколько дней. Исследование не учитывает затраты на превентивное обслуживание, замену охлаждающей жидкости и риск человеческой ошибки при монтаже. Кроме того, насосы и чиллеры тоже жрут электричество, хотя и меньше, чем тысячи вентиляторов. В расчетах экономии 16% на уровне узла могли не учесть энергию на циркуляцию жидкости по всему зданию. Подвох: в реальных условиях экономия может оказаться на 5–7% ниже, а риски потопа — выше, чем в лабораторных тестах.

Ранее ученые разработали метариал, который на 72% эффективнее термопаст.

Подписаться: Телеграм | Дзен | Вконтакте


Хайтек


Лента новостей

Пресс-релизы