Как отметил Люк Маккиннон, старший вице-президент и управляющий директор по Азии компании NextDC, одними из ключевых факторов изменения инфраструктуры ЦОД являются требования передовых ИИ-моделей. Современные логические модели ИИ могут генерировать в 50 раз больше токенов и требовать в 150 раз больше вычислительной мощности по сравнению с предыдущими версиями. Это приводит к значительному увеличению плотности и потребности в охлаждении и электропитании.
Сунил Гупта, соучредитель и генеральный директор компании Yotta Data Services, также подчеркнул, что ИИ-модели, работающие на графических процессорах (GPU), требуют значительно больше энергии. Если традиционные рабочие нагрузки ЦП могут потреблять 6-10 кВт на стойку, то рабочие нагрузки ИИ могут потреблять до 50 кВт, а в будущем, с учетом новых графических процессоров, эта цифра может достигнуть 250 кВт на стойку. Это требует кардинальных изменений в системах охлаждения и инфраструктуре ЦОД, в частности, внедрения жидкостного охлаждения.
Переход от традиционных вычислительных нагрузок к поддержке ИИ-моделей требует значительных усилий по модернизации существующих ЦОД. Юджин Сео из CapitaLand отметил, что хотя технически возможно преобразовать обычный облачный центр в ЦОД для ИИ, это связано с большими капитальными затратами и сложностью в управлении. Установка новых систем охлаждения, например, распределительных блоков жидкостного охлаждения, требует значительных инвестиций и может привести к оттоку клиентов.
Сетевые требования для ИИ также существенно изменяются. Майлз Танг из China Unicom Global указал на необходимость высокоскоростных соединений для кластеров ИИ и на важность наличия нескольких источников питания для энергоемких серверов. Ашер Линг из Princeton Digital Group отметил, что одним из ключевых факторов является доступ к возобновляемым источникам энергии, что становится неотъемлемой частью устойчивости инфраструктуры.
«ЦОД является продолжением системы распределения энергии, и возобновляемые источники энергии для ЦОД и распределение энергии — это две стороны одной медали», — добавил Линг.
Проектирование ЦОД для ИИ еще более усложняется из-за различий между рабочими нагрузками для обучения ИИ и их инференсом (выводом). Обучение ИИ требует высокоскоростного трафика внутри ЦОД, поскольку данные активно обрабатываются. В отличие от этого, инференс генерирует больше трафика между пользователем и сервером, требуя минимальной задержки и близости к конечному потребителю. Это стало важным аспектом, который может привести к переносу части вычислительных нагрузок на периферийные устройства, чтобы минимизировать задержки.
Ожидается, что в будущем будет наблюдаться появление новых сегментов графических процессоров, которые смогут обрабатывать меньшие блоки рабочих нагрузок ИИ параллельно. Маккиннон предложил внедрение жидкостного охлаждения как услуги для управления высокими затратами на инфраструктуру ИИ. Однако быстрые темпы развития технологий графических процессоров могут сделать текущие решения инфраструктуры устаревшими, что приведет к неопределенности на рынке.
Гупта предупредил, что темпы изменения технологий могут привести к проблемам с окупаемостью инвестиций в инфраструктуру, построенную для поддержки нынешних чипов. Сроки контрактов на графические процессоры часто составляют менее года, что делает рынок ИИ-инфраструктуры неопределенным.
Если вам понравился материал, кликните значок - вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал - не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!