Open source-экосистемы: как Группа Т-Технологии развивает AI/ML-решения

Open source-экосистемы: как Группа Т-Технологии развивает AI/ML-решения

В интервью — Анатолий Потапов, руководитель группы фундаментальных технологий LLM, и Даниил Гаврилов, возглавляющий исследования в области искусственного интеллекта в Группе Т-Технологии. Они рассказали о развитии open source-проектов, стратегии исследований и роли технологического сообщества в росте компании.

О профессиональной экспертизе

Анатолий Потапов: Руковожу группой фундаментальных технологий LLM — командами, отвечающими за весь цикл дообучения больших языковых моделей. Мы работаем как над внутренними продуктами — промптингом, саппортом, LLM-агентами, — так и над open source-проектами. В компании уже больше семи лет, ранее занимался анализом намерений пользователей в ботах поддержки.

Даниил Гаврилов: Возглавляю научные исследования в AI. Окончил СПбГУ по специальности «прикладная математика и информатика», работал в VK и Replika, а с 2021 года — в исследовательском отделе Т-Банка. Спустя три года возглавил лабораторию AI-исследований.

Открытые модели и стратегия open source

Группа Т-Технологии активно развивает open source в AI: в прошлом году были представлены модели T-Pro 2.0 и T-One. Это уже третий крупный релиз, включающий не только модели, но и библиотеки, датасеты, бенчмарки.

Анатолий Потапов: Open source в компании существовал и раньше, но с появлением AI-проектов он стал более заметным. Наши первые релизы — T-lite и библиотека Turbo Alignment — стали манифестом нашей стратегии: мы подтвердили, что можем создавать собственные базовые решения. Это инициатива команд, которую поддерживает топ-менеджмент.

Изначально мы не ставили цели привлечь внимание или улучшить бренд. Просто хотели поделиться наработками с инженерным сообществом. Но вскоре заметили, что open source положительно влияет на технобренд и найм — количество откликов в ML-команды резко выросло.

Даниил Гаврилов: В исследованиях мы изначально работаем в open source. Это необходимо: исследования должны быть воспроизводимыми и прозрачными. Это не выбор — это часть процесса.

Анатолий Потапов: В AI сильна культура открытости: индустрия во многом строится на открытых моделях, датасетах и статьях. Это напрямую влияет на наш подход.

Bottom-up инициативы и ценность для индустрии

Даниил Гаврилов: Топ-менеджмент понимает важность контрибьюта. Это расходы, но мы видим в них инвестиции в развитие инженерного сообщества.

Анатолий Потапов: Мотивация команды после первых релизов сильно выросла. Мы с удовольствием тратим на такие проекты личное время. Компания помогает с ресурсами, но баланс между бизнес-задачами и open source мы выстраиваем сами.

Для нас важно быть полезными индустрии. Не каждая компания может заниматься глубоким дообучением LLM. Многие российские игроки монетизируют модели через B2B или API. Мы выбрали другой путь: разработка уже окупилась за счёт роста эффективности внутренних процессов. Поделившись решениями, мы помогаем менее крупным игрокам их переиспользовать.

Открытые инструменты и их роль в продуктах

Анатолий Потапов: Помимо моделей, мы выпускаем инструменты — например, библиотеку Turbo Alignment для дообучения LLM, бенчмарки и датасеты, включая синтетический кросс-доменный датасет для рекомендательных систем.

То, что мы выкладываем — ReBased, CORL, Headless-AD и другие проекты — необходимо для воспроизводимости исследований. Часто публикуем сопутствующие инструменты и исходники, которые, по нашему мнению, полезны сообществу: например, кернелы для обучения. Они становятся частью научного вклада и выходят в open source.

Анатолий Потапов: Turbo Alignment, созданный в коллаборации с исследовательской командой, стал востребованным инструментом как внутри компании, так и за её пределами. Такие решения превращаются в переиспользуемые «кубики», приносящие пользу в разных проектах. Исследования работают аналогично — они создают долгосрочную ценность.

Исследования и вывод решений в продакшен

Даниил Гаврилов: У нас два направления: научная лаборатория, где я руковожу фундаментальными исследованиями, и RnD-центр, занимающийся прикладными задачами под бизнес-линии. Эти направления разные, потому что передовые технологии сложно развивать, сосредоточившись только на конкретных продуктах.

Фундаментальные исследования требуют долгосрочного видения. Научные публикации — это способ «заземлить» промежуточный прогресс. Параллельно RnD-команды собирают решения из актуальных наработок. Если результат убедителен, он может стать основой научной статьи.

Анатолий Потапов: Такой подход помогает формировать в компании центр притяжения для инженеров. Здесь рождаются совместные прикладные проекты.

Даниил Гаврилов: Мы стараемся писать статьи так, чтобы они были понятны и интересны практикам, а не только учёным.

Обучение аудитории и развитие сообщества

Мы используем свои модели и инструменты на выездных мероприятиях, например, в Сириусе. Менторы проводят занятия на основе наших решений — это помогает привлекать стажёров, уже знакомых с нашим стеком. Чем шире наши решения распространяются, тем чаще к нам приходят кандидаты, владеющие ими. Получаем обратную связь от компаний и энтузиастов — это помогает нам развиваться.

Даниил Гаврилов: Такие активности доступны в первую очередь крупным организациям из-за высоких ресурсных требований. Но они важны: научные конференции уровня А* валидируют наши результаты. А образовательные инициативы — курсы в университетах, лекции — развивают сообщество и поднимают общий уровень экспертизы в стране.

Анатолий Потапов: Сейчас в индустрии стало меньше прозрачности: тренинг-репорты LLM всё чаще напоминают whitepaper, а не руководства к воспроизведению. Мы, напротив, публикуем подробные отчёты — с проблемами, нюансами, выводами. Получаем обратную связь: наши материалы читают и используют даже крупные игроки. Так мы влияем на развитие всей отрасли.

Взаимодействие с сообществом

Анатолий Потапов: Каждый релиз сопровождаем детальным тренинг-репортом. Ведём аккаунт на Hugging Face, выступаем на конференциях, проводим мастер-классы для студентов и школьников. Работаем с аудиторией на 360 градусов.

Координация open source-проектов

Анатолий Потапов: Пока AI-центр фактически выполняет функции open source program office, хотя формально такой структуры нет. Идеи часто идут снизу — от команд, которые понимают, чем можно поделиться. На уровне центра или выше происходит согласование.

Даниил Гаврилов: У нас ситуативный подход. Команды сами формируют стратегию исследований.

Анатолий Потапов: У нас есть внутренние цели по развитию продуктов. В процессе появляются артефакты, которые могут быть полезны сообществу. Мы их готовим, согласовываем и публикуем.

Лицензии и правила игры

Анатолий Потапов: Мы используем максимально пермиссивные лицензии — Apache 2.0 и MIT. В отличие от других российских бигтехов, мы не ограничиваем коммерческое использование наших решений.

Даниил Гаврилов: С точки зрения исследований, открытость и воспроизводимость обязательны. Поэтому мы также отдаём предпочтение Apache 2.0.

Коллаборации и внешний вклад

Анатолий Потапов: Основная работа ведётся внутри компании. Но есть коллаборации — например, с Альянсом в сфере ИИ, где совместно создаём бенчмарки. Также взаимодействуем с другими российскими проектами: обмениваемся опытом, валидируем результаты. Внешние организации пока не участвуют напрямую, но на периферии есть важные партнёрства.

Ценность open source для экосистемы

Анатолий Потапов: Наши базовые модели скачали более 220 тыс. раз с Hugging Face, прирост — около 20 тыс. в месяц. Это значит, что наши решения используются. Получаем обратную связь от компаний — это помогает улучшать модели и приоритизировать R&D.

Open source укрепляет бренд: мы показываем, что являемся технологическим лидером. Это привлекает сильных инженеров, которые выбирают нас за уровень решений.

Я ориентируюсь на то, насколько нам удаётся привлекать квалифицированных специалистов и как наши работы распространяются в сообществе — в том числе за рубежом. Важно, как на них реагирует международное сообщество.

Это системная работа с сообществом, которую многие недооценивают. Когда мы только начинали, было по паре заявок от студентов. Сейчас — сотни. Эти активности в комплексе позволяют нам добиваться успехов в нескольких направлениях.

Читать оригинал