Как уместить 62 ГБ в 15 ГБ: Партизанский MLOps на примере Gemma 4 31B

Как уместить 62 ГБ в 15 ГБ: Партизанский MLOps на примере Gemma 4 31B

В этой статье мы рассмотрим, как заставить работать новейшую Gemma 4 31B, которая весит 62 ГБ, на бесплатном Kaggle с лимитом диска в 57 ГБ.

Введение

Мы живем в эпоху, когда модели растут быстрее, чем наши возможности их качать. Но математику не заблокируешь.

Проблема

Gemma 4 31B в float16 весит ~62 ГБ. Лимит диска на Kaggle — 57,6 ГБ.

Нам нужно скачать 62 ГБ, квантовать их в 4 бита и выгрузить результат.

Техно-хаки

Мы применили тактику «Выжженная земля», используя квантование «на лету» и операцию «Аннигиляция кэша».

Результат

Теперь 31-миллиардная модель весит всего 18,3 ГБ и доступна для всех.

Читать оригинал