AMD, Intel и другие предлагают UALink для подключения и масштабирования чипов искусственного интеллекта

30.05.2024 | Фекла Дербинова

Ожидается, что в ближайшие годы чипы ускорителей ИИ заполонят центры обработки данных, и они будут наиболее мощными и полезными, если их соединить вместе, чтобы создать больший масштаб и вычислительную мощность. Именно поэтому Nvidia предлагает NVLink, который обеспечивает взаимосвязь GPU в центрах обработки данных, но что делать, если вы не используете чипы Nvidia?

Над ответом на этот вопрос работает целая толпа известных компаний - AMD, Broadcom, Cisco, Google, Hewlett Packard Enterprise (HPE), Intel, Meta и Microsoft. Эти компании договорились о создании нового открытого метода - потенциального отраслевого стандарта на базе Ethernet под названием Ultra Accelerator Link (UALink) - для поддержки высокоскоростных соединений между ускорителями ИИ с низкой задержкой. Как говорится в заявлении группы, она работает над «спецификацией для определения высокоскоростного межсоединения с низкой задержкой для масштабируемой связи между ускорителями и коммутаторами в вычислительных капсулах ИИ».

Джек Голд, основатель и главный аналитик J. Gold Associates, отметил по электронной почте: «ИИ требует ОЧЕНЬ большой пропускной способности, особенно в подсистемах памяти. Поэтому все, что может ускорить пропускную способность межсоединений, поможет вам обрабатывать больше пакетов ИИ и ускорить общую рабочую нагрузку».

Это позиционирует UALink как претендента на то, что делает Nvidia с NVLink (и, в некоторой степени, InfiniBand, которая связывает серверы и устройства хранения данных и аспекты которой Nvidia использовала в NVLink после приобретения игрока InfiniBand компании Mellanox). UALink также станет частью вселенной вариантов подключения внутри ЦОД, которая дополнительно включает такие технологии, как стандарт последовательной шины расширения PCI Express (PCIe) и протокол Compute Express Link (CXL), рассматриваемый в основном как метод объединения и подключения процессоров.

«Суть всего этого сводится к тому, что собственная технология (Nvidia) против промышленного стандарта (UA Link)», - говорит Голд. «Большинство компаний, создающих инфраструктуру, не хотят переходить на NVLink, потому что Nvidia контролирует эту технологию». Голд также назвал NVLink «дорогой технологией, требующей значительного количества энергии».

Спецификация UALink 1.0, которая, как ожидают ее разработчики, будет доступна в третьем квартале этого года, позволит подключать до 1024 ускорителей в рамках вычислительной капсулы ИИ, а также напрямую загружать и сохранять память между ускорителями, такими как GPU, в той же капсуле.

Форрест Норрод, исполнительный вице-президент и генеральный менеджер подразделения Data Center Solutions Group компании AMD, заявил, что UALink, скорее всего, будет использоваться для соединения ускорителей ИИ одной марки в рамках одной серверной среды, а не для «гетерогенного» соединения ускорителей разных марок или использования на всей территории центра обработки данных или между центрами обработки данных.

«Мы не предполагаем, что это будет использоваться в центрах обработки данных или, тем более, за океаном», - сказал он. «Это для жестко оптимизированного домена... относительно локального домена... но также не обязательно только для одной стойки».

Норрод добавил: «UA-связь очень жестко определена, чтобы быть чрезвычайно эффективной, как с точки зрения коммуникаций, так и с точки зрения площади кремния, и быть энергоэффективным механизмом для соединения ускорителей. Поэтому в нем нет многих функций и возможностей, которые можно найти в CXL или PCI Express. Он ориентирован именно на этот конкретный случай использования, поскольку, по нашему мнению, позволяет гораздо эффективнее масштабировать ускорители».

Компании, объединившиеся для анонса UALink, называют себя UALink Promoter Group, а также сформировали консорциум UALink и сделают спецификацию UALink доступной для нынешних и будущих членов консорциума.

Они анонсировали UALink в ходе видеозвонка, в котором приняли участие представители разных компаний, которых вряд ли можно увидеть собранными на одном экране. Но, по крайней мере, AMD и Intel объединяет то, что они живут в тени доминирования Nvidia на рынке ИИ, по крайней мере, пока. Тем не менее, консорциум UALink не планирует исключать Nvidia из своих рядов. На вопрос, возьмет ли группа трубку, если Nvidia позвонит, Норрод ответил: «Конечно. Открытый стандарт именно таков - он открыт для других людей, которые хотят присоединиться. Все члены этой группы промоутеров в течение некоторого времени довольно четко заявляли о поддержке открытых стандартов, и я думаю, что в экосистеме ведутся активные разговоры на эту тему, и мы просто оставляем все как есть».

Голд заключил: «Организация по стандартизации [консорциум UALink] надеется построить систему на базе промышленного стандарта Ethernet, что сделает технологию менее дорогой, а поскольку это открытая технология, у нее будет несколько поставщиков (что также является преимуществом в отношении стоимости и мощности, поскольку существует конкуренция). И они считают, что смогут конкурировать на скорости NVLink или даже выше (особенно по мере перехода к оптическому интерконнекту). Я ожидаю, что в какой-то момент в ближайшие несколько лет NVLink исчезнет, и основной межсоединение перейдет к UALink или его преемникам, поскольку производители систем примут открытый отраслевой стандарт».