Экскурсия в лабораторию Amazon: как чип Trainium покоряет OpenAI, Anthropic и даже Apple

Сразу после того, как гендиректор Amazon Энди Джасси объявил о грандиозной сделке на 50 миллиардов долларов с OpenAI, компания пригласила меня на закрытую экскурсию в лабораторию разработки чипов — сердце этой сделки. Почти всё оплатили они сами.

Инфраструктурный чип Amazon под названием Trainium, созданный в этом центре, привлекает внимание экспертов. Его считают возможной альтернативой решениям NVIDIA, особенно в сфере недорогого вывода ИИ-моделей (inference) — одного из главных узких мест в индустрии.

Любопытство взяло верх — я согласился.

Моими гидами стали директор лаборатории Кристофер Кинг (справа на фото), директор по инженерии Марк Кэрролл (слева) и Дорон Аронсон — представитель PR-команды, организовавший визит.

AWS была основной облачной платформой для Anthropic с самых ранних дней существования лаборатории. Эта связь оказалась настолько прочной, что выдержала и появление Microsoft в качестве партнёра Anthropic, и растущее сотрудничество Amazon с OpenAI.

Согласно новой сделке, AWS станет эксклюзивным провайдером Frontier — инструмента OpenAI для создания ИИ-агентов, который может стать ключевым продуктом компании, если агенты действительно станут такими же масштабными, как ожидают в Кремниевой долине. Правда, пока неясно, насколько надёжна эта эксклюзивность: по данным Financial Times, Microsoft считает, что сделка нарушает её собственные договорённости с OpenAI, по которым Редмонд получает доступ ко всем технологиям компании.

Что же делает AWS такой привлекательной для OpenAI? В рамках сделки Amazon обязалась поставить 2 гигаватта вычислительных мощностей на чипах Trainium. Это колоссальный объём, особенно учитывая, что Anthropic и собственный сервис Amazon Bedrock уже используют Trainium быстрее, чем Amazon успевает их производить.

Trainium: от обучения к выводу

По данным Amazon, в мире уже развернуто 1,4 миллиона чипов Trainium трёх поколений. Более миллиона из них — это Trainium2, на которых работает Claude от Anthropic.

Изначально Trainium создавался для ускорения и удешевления обучения моделей — задача, которая была особенно актуальна пару лет назад. Но сейчас фокус сместился на вывод (inference) — процесс генерации ответов ИИ-моделями. Именно он сейчас является главным узким местом в индустрии.

Trainium2 уже обслуживает большую часть трафика на сервисе Bedrock, который помогает корпоративным клиентам Amazon создавать ИИ-приложения и использовать разные модели в одном интерфейсе.

«Наша клиентская база растёт так быстро, как мы только успеваем наращивать мощности», — сказал Кинг. — «Bedrock однажды может стать таким же масштабным, как EC2».

Trainium против NVIDIA

Помимо того, что Trainium — это альтернатива дефицитным GPU от NVIDIA, Amazon утверждает, что новые чипы в специализированных серверах Trn3 UltraServer обходятся на 50% дешевле при сопоставимой производительности по сравнению с классическими облачными серверами.

Вместе с выходом Trainium3 в декабре команда AWS также разработала новые коммутаторы Neuron. Кэрролл называет это сочетание революционным.

«Это даёт нам кое-что огромное, — сказал Кэрролл. — Коммутаторы позволяют каждому чипу Trainium3 общаться с каждым в меш-конфигурации, снижая задержки. Именно поэтому Trainium3 бьёт рекорды — особенно по соотношению цены и производительности».

Когда речь идёт о триллионах токенов в день, такие улучшения имеют критическое значение.

В 2024 году о достижениях команды Amazon неожиданно открыто высказалась даже Apple. Директор по ИИ компании публично рассказал, как Apple использует чип Graviton — энергоэффективный ARM-процессор, первый прорывной продукт этой команды. Также были отмечены Inferentia — чип для вывода — и упомянут Trainium, который тогда только появился.

Эти чипы — классический «амазоновский» подход: посмотреть, что покупают клиенты, и создать собственную, более дешёвую альтернативу.

Но у чипов всегда была проблема: стоимость перехода. Приложения под NVIDIA требуют переписывания архитектуры — трудоёмкий процесс, который отпугивает разработчиков.

Однако команда AWS с гордостью сообщила, что Trainium теперь поддерживает ПайТорч (PyTorch) — популярный фреймворк для создания ИИ-моделей, включая многие из тех, что размещены в библиотеке Хаггинг Фэйс (Hugging Face).

«Достаточно изменить одну строку кода, перекомпилировать и запустить на Trainium», — сказал Кэрролл.

Другими словами, Amazon активно подтачивает доминирование NVIDIA.

В этом месяце AWS также объявила о партнёрстве с Cerebras Systems, интегрировав их чипы для вывода в серверы на базе Trainium. Результат — сверхмощная, низколатентная ИИ-платформа.

Серверы, охлаждение и «Nitro»

Амбиции Amazon выходят за рамки самих чипов. Команда проектирует и серверы, на которых они работают. Включая компоненты сети, систему виртуализации Nitro, передовые решения для жидкостного охлаждения и так называемые сэндовые платформы (sleds) — подносы, на которых всё это размещается.

Всё это — ради контроля над стоимостью и производительностью.

«Bring-up»: ночь, шлифовка и пицца

Подразделение Amazon по разработке чипов появилось в 2015 году после покупки израильской компании Annapurna Labs за 350 миллионов долларов. С тех пор команда более 10 лет создаёт чипы для AWS, сохранив при этом название и корни Annapurna — логотип повсюду в офисе.

Лаборатория расположена в блестящем здании с хромированными окнами в районе «The Domain» в Остине — зоне с магазинами и ресторанами, которую иногда называют «кремниевой долиной Техаса».

Офисы выглядят типично для IT-компаний: кабинеты, зоны общения, переговорки. Но в глубине этажа — настоящая лаборатория с панорамным видом на город.

Помещение размером с два больших зала заставлено стеллажами и шумит от вентиляторов. Это что-то среднее между школьной мастерской и голливудской съёмочной площадкой, только инженеры в джинсах, а не в белых халатах.

Здесь не производят чипы, так что защитных костюмов не требуется. Trainium3 — это передовой 3-нанометровый чип, произведённый TSMC, лидером в этой технологии. Другие чипы выпускает Marvell.

Зато здесь происходит магия «bring-up» — первого включения чипа после его создания.

«Silicon bring-up — это как большая ночная вечеринка, — объяснил Кинг. — Вы остаётесь здесь, как на замке. После 18 месяцев работы вы впервые включаете чип, чтобы проверить, работает ли он».

Команда даже сняла процесс запуска Trainium3 и выложила на YouTube.

Спойлер: всё проходит не без проблем.

Прототип Trainium3 изначально был с воздушным охлаждением. Но финальная версия — с жидкостным, что даёт энергетические преимущества и стало настоящим инженерным подвигом.

Во время bring-up выяснилось, что размеры крепления чипа к радиатору не совпадают — чип нельзя было включить.

Команда не растерялась: «Мы сразу взяли шлифовальный станок и начали стачивать металл», — рассказал Кинг. Чтобы не мешать атмосфере вечеринки с пиццей, инженеры ушли шлифовать в переговорку.

«Проблемы, бессонные ночи — это и есть суть bring-up», — сказал Кинг.

В лаборатории даже есть сварочный стол. Инженер Айзек Гевара продемонстрировал, как приваривает крошечные микросхемы под микроскопом. Это настолько сложная работа, что сам Кэрролл открыто признал: он не смог бы так, — что вызвало смех коллег.

Здесь же — как собственные, так и коммерческие инструменты для тестирования и анализа чипов.

Сэндовые платформы — звёзды лаборатории

Но настоящая звезда лаборатории — целый ряд сэндов (sleds), демонстрирующих каждое поколение.

Это подносы, в которые устанавливаются чипы Trainium, процессоры Graviton и сопутствующие компоненты. Сложите их в стойку вместе с собственными коммутаторами — и получите системы, лежащие в основе успеха Claude от Anthropic.

Один из таких сэндов был показан на конференции AWS re:invent в декабре.

Доверие от Anthropic и OpenAI

Я ожидал, что гиды будут хвастаться сделкой с OpenAI. Но они этого не делали.

Возможно, из-за юридической неопределённости вокруг соглашения. Но скорее всего — потому что инженеры, которые сейчас работают над Trainium4, пока мало взаимодействовали с OpenAI. Их повседневная задача — удовлетворять потребности Anthropic и самого Amazon.

Сейчас основная часть чипов Trainium2 задействована в Project Rainier — одном из крупнейших в мире кластеров для ИИ, запущенном в конце 2025 года с 500 тысячами чипов. Его использует Anthropic.

Однако в офисе на стене висел монитор с цитатой о том, как OpenAI будет использовать Trainium. Гордость была — хоть и сдержанная.

Помимо лаборатории, у команды есть собственный частный дата-центр для тестирования. Он находится недалеко, но не в инфраструктуре AWS — это сторонняя площадка, где не запускают клиентские нагрузки.

Безопасность — на высшем уровне: строгие протоколы входа и доступа к зоне Amazon.

Система охлаждения настолько шумная, что обязательны беруши, а воздух пропитан резким запахом нагретого металла. Обычному человеку там находиться неприятно.

Там — ряды серверов со сэндами, заполненными новейшими кастомными чипами Amazon: Graviton CPU, жидкостно-охлаждаемый Trainium3, Nitro — всё работает в унисон. Жидкость циркулирует по замкнутому циклу, что снижает экологическое воздействие, утверждают инженеры.

Так выглядит современный сервер Trn3 UltraServer: сэнды сверху и снизу, а посередине — коммутаторы Neuron. Инженер Дэвид Мартинес-Дарроу как раз проводит обслуживание одного из сэндов.

Внимание к команде всегда было высоким, но в последнее время оно резко усилилось.

Гендиректор Amazon Энди Джасси лично следит за лабораторией и публично хвалит её продукты, как заботливый отец. В декабре он заявил, что Trainium уже стал многомиллиардным бизнесом для AWS и назвал его одной из самых перспективных технологий компании. Он также упомянул чип, объявляя о сделке с OpenAI.

Инженеры чувствуют давление. Перед каждым запуском нового чипа они работают 24/7 в течение трёх-четырёх недель, чтобы устранить все проблемы до массового производства и развёртывания в дата-центрах.

«Очень важно как можно быстрее доказать, что это работает, — сказал Кэрролл. — Пока у нас это получается неплохо».

Читать оригинал