Nous Research, стартап в области искусственного интеллекта с открытым исходным кодом, поддерживаемый криптовалютной венчурной фирмой Paradigm, в понедельник выпустил новую модель конкурентного программирования, которая, по ее словам, соответствует или превосходит несколько более крупных проприетарных систем - обучение всего за четыре дня с использованием 48 новейших графических процессоров Nvidia B200.
Модель под названием NousCoder-14B — еще одна новинка в многолюдной области помощников по программированию с помощью искусственного интеллекта, но она появилась в особенно напряженный момент: Claude Code, инструмент агентного программирования от конкурирующей компании Anthropic, доминирует в дискуссиях в социальных сетях с Нового года, а разработчики публикуют затаенные отзывы о его возможностях. Одновременные разработки подчеркивают, как быстро развивается разработка программного обеспечения с помощью искусственного интеллекта — и насколько яростно компании, большие и малые, конкурируют за то, что, по мнению многих, станет основополагающей технологией написания программного обеспечения.
тип:embedded-entry-inlineid:74cSyrq6OUrp9SEQ5zOUSl
NousCoder-14B достигает точности 67,87 процента на LiveCodeBench v6, стандартизированной оценке, которая тестирует модели задач конкурентного программирования, опубликованной в период с августа 2024 года по май 2025 года. Этот показатель представляет собой улучшение на 7,08 процентных пункта по сравнению с базовой моделью, на которой он обучался, Alibaba Qwen3-14B, согласно техническому отчету Nous Research, опубликованному вместе с выпуском.
«Я дал Клоду Коду описание проблемы, он сгенерировал то, что мы создали в прошлом году, за час», — написала Джаана Доган, главный инженер Google, ответственный за API Gemini, в вирусном посте на X на прошлой неделе, который отразил преобладающие настроения вокруг инструментов кодирования AI. Доган описывала распределенную систему оркестровки агентов, на разработку которой ее команда потратила год — систему, которую Клод Код аппроксимировал из подсказки из трех абзацев.
Сопоставление поучительно: в то время как Claude Code от Anthropic захватил воображение демонстрациями комплексной разработки программного обеспечения, Nous Research делает ставку на то, что альтернативы с открытым исходным кодом, обученные на проверяемых проблемах, могут закрыть этот пробел — и что прозрачность в построении этих моделей имеет такое же значение, как и исходные возможности.
Как Nous Research создала модель кодирования искусственного интеллекта, которую может повторить каждый
Что отличает релиз NousCoder-14Br от анонсов многих конкурентов, так это его радикальная открытость. Nous Research опубликовала не только веса моделей, но и полную среду обучения с подкреплением, набор тестов и средства обучения, построенные на базе платформы Atropos, что позволяет любому исследователю, обладающему достаточными вычислительными ресурсами, воспроизвести или расширить работу.
«Открытый исходный код стека Atropos обеспечивает необходимую инфраструктуру для воспроизводимых рассуждений на уровне олимпиад», — отметил один из обозревателей X, подытоживая его значение для академического сообщества и сообщества разработчиков открытого исходного кода.
Модель обучал Джо Ли, научный сотрудник Nous Research и сам бывший программист. Технический отчет Ли раскрывает неожиданно личный аспект: он сравнил траекторию совершенствования модели со своим собственным путешествием по Codeforces, платформе соревновательного программирования, где участники получают рейтинги на основе результатов соревнований.
Основываясь на приблизительных оценках, сопоставляющих результаты LiveCodeBench с рейтингами Codeforces, Ли подсчитал, что улучшение NousCoder-14B — примерно с диапазона рейтингов 1600–1750 до 2100–2200 — отражает скачок, на который ему потребовалось почти два года непрерывной практики в возрасте от 14 до 16 лет. Модель выполнила эквивалентный результат за четыре дня.
«Наблюдение за финальным тренировочным забегом было совершенно сюрреалистическим опытом», — написал Ли в техническом отчете.
Но Ли поспешил отметить важную оговорку, которая касается более широких вопросов эффективности ИИ: за эти два года он решил примерно 1000 задач, тогда как для модели требовалось 24 000. Люди, по крайней мере на данный момент, остаются гораздо более эффективными учениками, использующими выборку.
Внутри системы обучения с подкреплением, которая обучает 24 000 задачам соревновательного программирования.
Процесс обучения NousCoder-14B открывает окно во все более сложные методы, которые исследователи используют для улучшения способностей ИИ к рассуждению посредством обучения с подкреплением.
Этот подход основан на том, что исследователи называют «проверяемым вознаграждением» — системе, в которой модель генерирует решения для кода, эти решения выполняются на основе тестовых примеров, а модель получает простой двоичный сигнал: правильный или неправильный. Эта петля обратной связи, хотя концептуально проста, требует значительной инфраструктуры для масштабирования.
Nous Research использовала Modal, платформу облачных вычислений, для параллельного выполнения изолированного кода. Каждая из 24 000 задач обучения в среднем содержит сотни тестовых примеров, и система должна убедиться, что сгенерированный код выдает правильные выходные данные в рамках ограничений по времени и памяти — 15 секунд и 4 гигабайта соответственно.
В обучении использовалась методика под названием DAPO (оптимизация политики динамической выборки), которая, как обнаружили исследователи, работала немного лучше, чем альтернативы в их экспериментах. Ключевое нововведение включает в себя «динамическую выборку» — отказ от обучающих примеров, в которых модель либо решает все попытки, либо терпит неудачу во всех попытках, поскольку они не дают полезного градиентного сигнала для обучения.
Исследователи также внедрили «итеративное расширение контекста», сначала обучив модель с контекстным окном из 32 000 токенов, а затем расширив ее до 40 000 токенов. Во время оценки расширение контекста примерно до 80 000 токенов дало наилучшие результаты: точность достигла 67,87 процента.
Возможно, самое важное то, что конвейер обучения перекрывает вывод и проверку — как только модель генерирует решение, она начинает работу над следующей проблемой, пока проверяется предыдущее решение. Такая конвейерная обработка в сочетании с асинхронным обучением, при котором несколько экземпляров модели работают параллельно, максимизирует использование оборудования в дорогих кластерах графических процессоров.
Надвигающаяся нехватка данных, которая может замедлить развитие модели кодирования ИИ
В техническом отчете Ли спрятан вывод, имеющий большое значение для будущего развития ИИ: набор обучающих данных для NousCoder-14B включает «значительную часть всех легкодоступных и проверяемых задач конкурентного программирования в стандартизированном формате набора данных».
Другими словами, в этой конкретной области исследователи приближаются к пределу высококачественных обучающих данных.
«Общее количество задач по соревновательному программированию в Интернете примерно того же порядка», — написал Ли, имея в виду 24 000 задач, используемых для обучения. «Это говорит о том, что в области конкурентного программирования мы подошли к пределу высококачественных данных».
Это наблюдение отражает растущую обеспокоенность всей отрасли ИИ по поводу ограничений данных. В то время как вычисления продолжают масштабироваться в соответствии с хорошо понятными экономическими и инженерными принципами, данные обучения «все более конечны», как выразился Ли.
«Похоже, что некоторые из наиболее важных исследований, которые необходимо провести в будущем, будут в области генерации синтетических данных и эффективных алгоритмов и архитектур данных», — заключил он.
Эта проблема особенно остра для соревновательного программирования, поскольку в этой области требуются задачи с известными правильными решениями, которые можно проверить автоматически. В отличие от задач на естественном языке, где достаточно человеческой оценки или прокси-метрик, код либо работает, либо нет, что значительно усложняет генерацию синтетических данных.
Ли определил одно потенциальное направление: обучение моделей не только для решения проблем, но и для создания решаемых проблем, что обеспечивает форму самостоятельной игры, аналогичную методам, которые оказались успешными в игровых системах искусственного интеллекта. «Как только постановка синтетических задач будет решена, игра с самим собой станет очень интересным направлением», — написал он.
Ставка на 65 миллионов долларов на то, что искусственный интеллект с открытым исходным кодом сможет конкурировать с крупными технологиями
Nous Research заняла особую позицию в сфере искусственного интеллекта: компания стремится выпускать версии с открытым исходным кодом, которые конкурируют с проприетарными альтернативами, а иногда и превосходят их.
В апреле 2025 года компания привлекла 50 миллионов долларов в рамках раунда, возглавляемого Paradigm, венчурной фирмой, ориентированной на криптовалюту, основанной соучредителем Coinbase Фредом Эрсамом. По некоторым данным, общий объем финансирования достиг $65 млн. Инвестиции отражают растущий интерес к децентрализованным подходам к обучению искусственному интеллекту — области, в которой Nous Research разработала свою платформу Psyche.
Предыдущие выпуски включают Hermes 4, семейство моделей, которые, как мы сообщили, «превосходят ChatGPT без ограничений по контенту», и DeepHermes-3, который компания описала как первую «модель с возможностью включения», позволяющую пользователям активировать расширенные возможности мышления по требованию.
Компания культивирует особую эстетику и сообщество, что вызывает некоторый скептицизм по поводу того, может ли стиль затмить содержание. «Конечно, я поверю компании, производящей аниме-игры. Хватит максимизировать производительность ffs», — написал один критик на X, имея в виду брендинг Nous Research в стиле аниме и отраслевую практику оптимизации производительности для эталонных показателей.
Другие подняли технические вопросы. «По результатам тестов Nemotron лучше», — заметил один из комментаторов, имея в виду семейство языковых моделей Nvidia. Другой спросил, является ли NousCoder-14B «агентно-ориентированным кодированием или просто одноразовым кодированием» — различие, которое важно для практической разработки программного обеспечения, где итерация на основе обратной связи обычно дает лучшие результаты, чем одиночные попытки.
Что, по мнению исследователей, должно произойти дальше, чтобы инструменты кодирования ИИ продолжали совершенствоваться
Релиз включает в себя несколько направлений будущей работы, которые намекают на то, куда могут двигаться исследования в области кодирования ИИ.
Многоходовое обучение с подкреплением возглавляет список. В настоящее время модель получает только окончательное двоичное вознаграждение — пройдено или не пройдено — после генерации решения. Но проблемы конкурентного программирования обычно включают в себя публичные тестовые примеры, которые обеспечивают промежуточную обратную связь: ошибки компиляции, неправильные выходные данные, нарушения ограничений по времени. Модели обучения, учитывающие эту обратную связь при нескольких попытках, могут значительно повысить производительность.
Контроль длины ответа также остается проблемой. Исследователи обнаружили, что неправильные решения, как правило, длиннее правильных, а длина ответов быстро перенасыщает доступные контекстные окна во время обучения — закономерность, которую различные алгоритмические модификации не смогли устранить.
Пожалуй, наиболее амбициозно Ли предложил «генерацию проблем и самостоятельную игру» — модели обучения как решению, так и созданию проблем программирования. Это напрямую решит проблему нехватки данных, позволяя моделям создавать свои собственные учебные программы.
«Люди отлично умеют генерировать интересные и полезные задачи для других конкурентоспособных программистов, но похоже, что в возможностях LLM по-прежнему существует значительный пробел в создании творческих задач», — написал Ли.
Модель теперь доступна на Hugging Face под лицензией Apache 2.0. Для исследователей и разработчиков, которые хотят продолжить эту работу, Nous Research опубликовала рядом с ней полный набор обучающих программ Atropos.
То, на что Ли потребовалось два года юношеских усилий — подняться от новичка с рейтингом 1600 до конкурента с рейтингом 2100 на Codeforces — ИИ воспроизвел за 96 часов. Ему нужно было 1000 задач. На модель потребовалось 24 000. Но достаточно скоро эти системы могут научиться писать свои собственные задачи, обучаться самостоятельно и полностью оставить позади человеческие ориентиры.
Вопрос больше не в том, смогут ли машины научиться программировать. Вопрос в том, станут ли они скоро лучшими учителями, чем мы когда-либо были.