Локальный ИИ: сборка железа для локального инференса

Локальный ИИ: сборка железа для локального инференса

В этой статье мы рассмотрим процесс сборки железа для локального инференса, в частности, для модели gpt-oss-120b. Мы пройдем через различные этапы сборки, от выбора материнской платы и видеокарт до апгрейда процессора и оперативной памяти.

Модель для тестирования

Мы будем тестировать модель gpt-oss-120b с квантизацией Q8_K_XL. Эта модель является MoE-моделью, поэтому ее скорость деградирует при заполнении контекста.

Видеокарты

Мы рассмотрим несколько вариантов видеокарт, включая Tesla P40, RTX 3090 TI и RTX 3090.

Комплект: корпус + ETH B75 + БП

Мы соберем комплект, состоящий из корпуса, материнской платы ETH B75 и блока питания.

Плата H510 Pro BTC+

Мы рассмотрим материнскую плату H510 Pro BTC+, которая имеет более новые сокеты и поддерживает более быстрые видеокарты.

Еще одна RTX 3090 и новый БП

Мы добавим еще одну видеокарту RTX 3090 и новый блок питания, чтобы увеличить скорость инференса.

Как ускорить загрузку модели?

Мы рассмотрим способы ускорения загрузки модели, включая использование более быстрого диска и оптимизацию подключения.

Финальный апгрейд: CPU + RAM + БП

Мы произведем финальный апгрейд процессора, оперативной памяти и блока питания, чтобы достичь максимальной скорости инференса.

Какова цена?

Мы подсчитаем стоимость всей сборки и сравним ее с облачным инференсом.

В итоге, мы получим сборку, способную загружать модель gpt-oss-120b за 2 минуты и генерировать ответы со скоростью ~100 т/с.

Читать оригинал