Энергоемкие чипы ИИ ждут расплаты, а чипмейкеры обещают «эффективность
30.04.2024 | Фекла Дербинова
Новейший мегачип Nvidia, Blackwell, по общему мнению, является чудом современности. Он имеет 200 миллиардов транзисторов и обещает достаточную вычислительную мощность, чтобы справиться с самыми большими моделями ИИ, когда тысячи этих GPU будут объединены в мегацентре обработки данных.
Но Blackwell и другие мощные чипы-ускорители, выходящие на рынок, заставляют людей нервничать - особенно операторов дата-центров и коммунальных служб, а также регулирующих органов по всему миру. Одна из версий одного чипа Blackwell для центров обработки данных потребляет 1 200 ватт электроэнергии, что является безумным количеством энергии по сравнению с тем, что было всего несколько лет назад. Во многом благодаря росту числа чипов-ускорителей некоторые центры обработки данных строят собственные электростанции, чтобы справиться с нагрузкой, а регулирующие органы в Амстердаме и других городах Европы сообщают центрам обработки данных, что они не могут расширяться из-за ограниченных поставок электроэнергии.
Не только графические процессоры Nvidia являются гаргантюанскими. Blackwell - часть тенденции, охватывающей все компании, занимающиеся разработкой чипов. Даже гипермасштабируемые компании и автопроизводители, такие как Tesla, разрабатывают свои собственные чипы, часто нарушая законы физики для повышения энергоэффективности с помощью 3D-конструкций и чипсетов. Чип Dojo компании Tesla состоит из 25 чиплетов. Такие подходы к проектированию чипов помогают повысить энергоэффективность, но центры обработки данных тем временем продолжают расти, чтобы поддерживать ИИ, включая GenAI. В настоящее время центры обработки данных потребляют от 1,5 % до 2 % электроэнергии в мире, и подавляющее большинство этой энергии приходится на микросхемы и печатные платы, которые их поддерживают. Рост энергопотребления центров обработки данных представляет собой хоккейную клюшку.
«Тенденция не является устойчивой»
«В индустрии чипов наметилась тенденция, которая не является устойчивой», - говорит Анри Ришар, президент компании Rapidus в Америке. Компания строит фабрику по производству микросхем по 2-нм техпроцессу на севере Японии при многомиллиардной поддержке японского правительства.
«Много лет назад мы говорили, что нельзя поднимать мощность до 150 ватт, а сейчас мы уже достигли 1200 ватт! Что-то должно измениться. Если взять эту кривую роста и спроецировать на будущее, то мы просто не можем иметь чипы мощностью 3 киловатта", - сказал Ричард в интервью Fierce Electronics из своего американского офиса в Санта-Кларе, Калифорния.
По его словам, сокращение технологических узлов чипов с 10 нм до 5 нм и 2 нм является частью решения проблемы. Однако с учетом уменьшения преимуществ закона Мура «возникает необходимость в иной архитектуре систем и чипов, которая позволит решить проблему концентрации энергии и ограничит возможности охлаждения», - добавил он. Даже погружное охлаждение затрудняет питание чипов электричеством». Чиплеты станут одним из способов балансировки между передней и задней частями».
В своем блоге, который разбудил некоторые элементы мира, помешанного на ИИ, генеральный директор Arm Рене Хаас недавно написал о том, что будущие рабочие нагрузки ИИ станут более масштабными, что приведет к необходимости увеличения количества вычислений и мощности. «Поиск путей снижения энергопотребления для этих крупных центров обработки данных имеет первостепенное значение для достижения прорывов в обществе и реализации перспектив ИИ», - сказал он. «Другими словами, нет электричества - нет ИИ».
С чем сталкиваются центры обработки данных при использовании энергопотребляющих микросхем
В центре обработки данных с тысячами чипов Blackwell и других процессоров нагрузка на электричество становится огромной, заставляя инженеров метаться в поисках доступной энергии в местах, где ее не хватает, даже с помощью возобновляемых источников энергии - солнечной, ветровой, гидроэлектрической или геотермальной. После того, как на территории, расположенной к западу от Вашингтона, в округе Лаудон (штат Вирджиния), появится достаточное количество электроэнергии, беспокойство усугубляется тем, что происходит внутри десятков горячих серверных стоек. Инженеры предлагают новые способы сохранить печатные платы и микросхемы достаточно холодными, чтобы они не загорелись и не расплавились, что приведет к катастрофе для жизненно важных данных, дорогостоящего оборудования и корпоративных доходов.
Возникла целая индустрия охлаждения центров обработки данных для защиты от тепла, выделяемого серверами и их энергоемкими микросхемами. Жидкостное охлаждение серверных стоек превратилось в целое искусство; один из новейших подходов - погружение в воду целых центров обработки данных, что заставляет задуматься о том, как центр обработки данных подключается к электричеству под водой, когда рядом находятся люди. Тем временем гипермасштабируемые компании планируют построить небольшие ядерные реакторы или другие генераторы энергии вблизи своих центров обработки данных, чтобы обеспечить надежное и обильное энергоснабжение.
Инвесторы сходят с ума от желания получить больше энергии для центров обработки данных: Генеральный директор OpenAI Сэм Альтман только что вложил 20 миллионов долларов в Exowatt, энергетический стартап, ориентированный на центры обработки данных с искусственным интеллектом. Для обеспечения оптимального охлаждения чипов может потребоваться технология воздушного охлаждения, которая потребляет больше энергии, что усугубляет проблему. Тем не менее, как правило, половина электроэнергии, необходимой центру обработки данных, уходит на освещение процессоров - от GPU до CPU, NPU и всего того, что станет следующим чипом TLA. Сопутствующие схемы и платы увеличивают потребление энергии.
Дженсен Хуанг из Nvidia определяет долгосрочные перспективы ускорителей ИИ
Генеральный директор Nvidia Дженсен Хуанг и многие другие руководители полупроводниковых компаний оправдывают, возможно, справедливо, завышенную мощность современных чипов-ускорителей, таких как Blackwell, в сравнении с огромной вычислительной мощностью ИИ и GenAI и тем влиянием, которое эти технологии окажут на будущие поколения компаний и клиентов при создании новых фармацевтических препаратов, анализе климата, автономных транспортных средств и роботов и многом другом. Он и его инженерные команды часто говорят о законах физики и о том, какие металлы и другие материалы, а также архитектуры чипов могут распределять тепло, выделяемое электричеством, проходящим через серверную стойку, а затем и через целые акры серверных стоек.
Современные чипы от Nvidia, Intel, AMD, Qualcomm, облачных провайдеров и растущей армии небольших дизайнерских компаний обеспечивают огромную плотность печатных плат, благодаря чему серверы и серверные стойки занимают меньше места, а производительность одного сервера в разы больше терафлопсов, чем всего год назад. Производительность на ватт обычно выражается в TFLOPS/watt, чтобы было легче сравнивать системы и чипы от разных производителей.
Рассуждения Хуанга на CadenceLIVE о продольности
Хуанг говорил об этой плотности и связанных с ней затратах энергии на CadenceLIVE в Кремниевой долине в апреле, рассказывая о том, что такая плотность вычислений оправдана преимуществами ИИ для всей популяции пользователей. «Помните, вы проектируете чип один раз, а поставляете его триллион раз», - сказал он в беседе у камина. «Вы проектируете центр обработки данных один раз, но экономите 6 % энергии... которой пользуется миллиард человек». Хуанг, конечно же, говорил обо всей экосистеме, выходящей далеко за рамки мощности одного Blackwell или другого GPU, используемого в более широкой категории ускоренных вычислений. Он изложил свою точку зрения в нескольких предложениях, но это стоит того, чтобы прочитать:
«Энергопотребление ускоренных вычислений невероятно высоко, потому что компьютеры невероятно плотные», - говорит Хуанг. «Любая оптимизация энергопотребления напрямую приводит к увеличению производительности, повышению производительности, получению прибыли или экономии. При той же производительности вы могли бы получить что-то меньшее». Управление энергопотреблением в ускоренных вычислениях напрямую отражается на всех тех вещах, которые вас волнуют».
«Ускоренные вычисления - это десятки тысяч серверов общего назначения, потребляющих в 10 раз, 20 раз больше затрат и в 20 раз, 30 раз больше энергии, и превращение их в нечто невероятно плотное. Поэтому плотность ускоренных вычислений - это причина, по которой люди думают, что они требуют много энергии и стоят много денег. Но если смотреть с точки зрения ISO [международный стандарт] выполненной работы или пропускной способности, то на самом деле вы экономите огромное количество денег. Именно по этой причине, поскольку масштабирование процессоров замедлилось, нам необходимо переходить к ускоренным вычислениям, потому что вы не сможете продолжать масштабироваться традиционным способом. Ускоренные вычисления просто необходимы».
Позже в той же беседе с генеральным директором Cadence Анирудхом Девганом Хуанг добавил: «ИИ действительно помогает людям экономить энергию... Как бы мы нашли еще 6 % экономии [в одном из примеров Cadence] или 10-кратную экономию, которая была бы невозможна без ИИ? Так что вы вкладываете деньги в обучение модели один раз, а затем миллионы инженеров могут воспользоваться ее преимуществами, и миллиарды людей на протяжении десятилетий будут наслаждаться экономией».
«Это способ думать о затратах и инвестициях не только по отдельности, но и, говоря языком здравоохранения, в долгосрочной перспективе. Вы должны... смотреть на экономию денег, экономию энергии в долгосрочной перспективе, на всем протяжении не только создаваемых продуктов, но и того, как вы проектируете продукты, какие продукты вы создаете и какое влияние оказывают эти продукты. Если посмотреть на это с точки зрения долгосрочных перспектив, то ИИ окажет нам огромную помощь в борьбе с изменением климата, снижении энергопотребления, повышении энергоэффективности и так далее».
Мнения за пределами Nvidia
Другие светила в области разработки и производства чипов, помимо Хуанга, также недавно высказали свое мнение. Генеральный директор TSMC КК Вэй в ходе последнего звонка по поводу прибыли компании сказал следующее: «Почти все новаторы в области ИИ сотрудничают с TSMC, чтобы удовлетворить ненасытный спрос на энергоэффективные вычислительные мощности, связанные с ИИ». Ключевое слово: «ненасытный».
Генеральный директор Cadence Девган в беседе с Хуангом отметил, что модели ИИ могут иметь 1 триллион параметров, что сравнимо со 100 триллионами синапсов, или связей, в человеческом мозге. По его прогнозам, создание очень большой модели ИИ, сравнимой с человеческим мозгом, - лишь вопрос времени. Для этого потребуется «огромное количество программных вычислений, вся инфраструктура поиска данных и вся энергетическая инфраструктура», - сказал он.
Компания Cadence производит и поддерживает ряд способов повышения энергоэффективности ускорителей (которые Nvidia использовала при разработке Blackwell) и разработала систему цифрового двойника, помогающую центрам обработки данных проектировать свою работу более эффективно.
Компания AMD поставила перед собой цель увеличить энергоэффективность своих продуктов в 30 раз к 2025 году, основываясь на базовом уровне ускоренных вычислительных узлов 2020 года. Представленный в прошлом году ускоритель MI300X еще больше приблизил компанию к этой цели. В блоге, опубликованном в прошлом году Сэмом Наффзигером (Sam Naffziger), старшим вице-президентом и технологическим архитектором продуктов AMD, описывается достигнутый прогресс.
Наффцигер предупредил, что индустрия не может полагаться только на меньшие транзисторы и нуждается в целостном подходе к проектированию, включающем упаковку, архитектуру, память, программное обеспечение и многое другое.
Нейроморфные технологии Intel
Intel также активно продвигает энергоэффективность. Совсем недавно компания объявила о создании крупнейшей в мире нейроморфной системы для обеспечения устойчивого ИИ. Система под кодовым названием Hala Point использует процессор Intel Loihi 2 и может поддерживать до 20 квадриллионов операций в секунду, конкурируя с графическими и центральными процессорами. Пока что она применяется исключительно в исследовательских целях.
В описании Intel к Hala Point утверждается, что вся система потребляет не более 2600 ватт энергии, что чуть больше, чем в два раза больше, чем у Nvidia; Blackwell: «Hala Point объединяет 1 152 процессора Loihi 2, произведенных на 4-х технологическом узле Intel, в шестирэковом корпусе для центра обработки данных размером с микроволновую печь. Система поддерживает до 1,15 миллиарда нейронов и 128 миллиардов синапсов, распределенных по 140 544 нейроморфным вычислительным ядрам, потребляя максимум 2 600 ватт энергии. Также в систему встроено более 2 300 процессоров x86 для вспомогательных вычислений».
Дженнифер Хаффстетлер (Jennifer Huffstetler), директор по устойчивому развитию продукции Intel, сообщила Fierce Electronics по электронной почте: «Intel рассматривает будущие вычислительные технологии в качестве решения для рабочих нагрузок ИИ, а именно нейроморфные, которые обещают обеспечить большую вычислительную производительность при гораздо меньшем энергопотреблении. Требования к вычислениям только растут, особенно с новыми рабочими нагрузками ИИ. Чтобы обеспечить требуемую производительность, энергопотребление графических и центральных процессоров также растет».
Intel уже применяет трехсторонний подход к повышению эффективности, включающий оптимизацию моделей ИИ, программного и аппаратного обеспечения. По оценкам Хаффстетлера, благодаря аппаратным средствам инновации Intel позволят сэкономить 1000 тераватт-часов в период с 2010 по 2020 год. Ускорители Gaudi обеспечивают удвоение энергоэффективности, а процессоры Xeon Scalable - 2,2-кратное увеличение энергоэффективности. (Xeon предназначены для центров обработки данных, периферийных устройств и рабочих станций). По ее словам, грядущие ускорители Gaudi 3 обеспечивают в среднем на 50 % лучшую эффективность вычислений и на 40 % лучшую энергоэффективность вычислений. Intel также занимается жидкостным охлаждением, которое может обеспечить 30-процентную экономию энергии по сравнению с воздушным охлаждением в центре обработки данных.
Да, большая «эффективность», но....
Несмотря на все усилия крупных разработчиков чипов, дилемма с энергопотреблением остается реальной. Да, в центре обработки данных может быть меньше стоек с новейшими ускорителями, что приведет к снижению энергопотребления, но рост ИИ означает, что компании будут стремиться только расширять вычислительные возможности - больше серверов, больше стоек, больше энергопотребления. «Новые чипы имеют большую производительность на ватт, да, но модели ИИ также растут, поэтому не очевидно, что общая потребность в электроэнергии сильно снизится», - говорит Джек Голд, аналитик-основатель J. Gold Associates.
В то время как Blackwell в форм-факторе GB200 со стойками жидкостного охлаждения потребляет 1200 Вт на чип, Голд отметил, что типичный чип ИИ потребляет лишь половину - 650 Вт мощности. Он подсчитал потребление энергии следующим образом: Добавьте память, межсоединения и контроллер процессора, и эта цифра может подскочить до 1 киловатта для каждого модуля. В недавнем примере Meta, которая в один момент развернула 10 000 модулей (и еще много других), только для этого количества потребуется 10 мегаватт энергии. Город размером с Кливленд с населением 3 миллиона человек потребляет около 5 000 мегаватт, так что, по сути, один центр обработки данных такого размера, как у Meta, будет потреблять 2 % городской энергии. Обычная электростанция может вырабатывать около 500 мегаватт.
«Суть в том, что центры обработки данных с искусственным интеллектом действительно сталкиваются с проблемами, пытаясь найти места, где есть достаточно энергии и достаточно дешевой энергии, чтобы обеспечить необходимое потребление», - говорит Голд. Стоимость электроэнергии - самая большая статья расходов в центре обработки данных после капитальных затрат на оборудование.
Боб О'Доннелл, аналитик-основатель компании Technalysis, сказал, что в некоторой степени понимает «продольный» аргумент Хуанга в пользу энергопотребления чипов для ИИ, представленный на мероприятии Cadence. «Чипы-ускорители действительно потребляют больше энергии, но в долгосрочной перспективе они приносят больше пользы для окружающей среды, фармацевтики и других областей, поскольку все, что вы узнаете, - сказал он Fierce. «Они чрезвычайно плотные, но по сравнению с другими вариантами они более энергоэффективны».
«Резюме таково: мощности для чипов ИИ уделяется огромное количество внимания со стороны множества различных игроков. Проблема не будет решена и не исчезнет из-за огромного спроса на большую мощность. Но возможности GenAI настолько велики, что люди чувствуют потребность в их реализации».