Kaggle Benchmarks: как платформа стала площадкой для тестирования ИИ

Habr AI 19 апр 2026

В ML/DS-сообществе часто звучит фраза: «Kaggle уже не тот». Ностальгия по прошлым временам понятна, но очевидно, что вся индустрия претерпевает глубокие изменения — и Kaggle с ней тоже трансформируется. Девиз платформы сменился с «Your Home for Data Science» на «The World's AI Proving Ground».

Новый этап: бенчмарки вместо соревнований

В 2026 году Kaggle окончательно перешёл под эгиду AI Frontier от Google DeepMind. Основным изменением стал запуск раздела Benchmarks и инструментария Kaggle Benchmarks SDK. Это фреймворк и инфраструктура, позволяющие создавать тесты любой сложности, объединять их в комплексные бенчмарки и запускать крупные модели в равных условиях.

Пользователи могут реализовать любые тесты, метрики и логику их выполнения. Несколько тестов объединяются в один бенчмарк. Результаты включают логи, JSON-файлы, метрики, сравнения и лидерборды. Данные и код можно оставить в приватном датасете или сделать публичными.

На апрель 2026 года доступно около 40 моделей — все популярные решения представлены. Участникам выделяется еженедельный бюджет на запуск моделей, полностью покрываемый платформой. При необходимости его можно увеличить по запросу.

Бенчмарки становятся ключевым направлением для Kaggle. Количество традиционных соревнований сократилось и в ближайшее время вряд ли вырастет. Это реальность, независимо от отношения к ней опытных кагглеров. Пока за участие в бенчмарках не начисляются медали.

Конкурс от DeepMind: путь к ИИ общего назначения

Недавно завершился первый конкурс бенчмарков под названием Measuring Progress Toward AGI — Cognitive Abilities, организованный DeepMind. В нём приняли участие чуть более 1000 человек.

Конкурс включал пять треков, посвящённых когнитивным способностям моделей:

Learning — могут ли модели усваивать и применять новые знания, а не просто воспроизводить обученное?
Metacognition — осознают ли модели свои знания и границы незнания?
Attention — способны ли модели концентрироваться на важном и игнорировать второстепенное?
Executive Functions — могут ли модели планировать, подавлять импульсы и гибко адаптироваться?
Social Cognition — способны ли модели понимать социальные ситуации, а не просто генерировать вежливый текст?

К каждому бенчмарку требовалось приложить код и описание (writeup). Анализ райтапов выявил три интересных наблюдения:

много сильных идей от людей, далёких от DS и ИИ;
сложность и перегруженность формулировок — нейрослоп;
отсутствие в числе участников большинства сильных кагглеров.

Личный опыт: бенчмарк про внимание

Я участвовал в треке Attention. Мой бенчмарк TraceQuest: City Detective Benchmark родился из простого вопроса: могут ли ИИ-модели одновременно обрабатывать изображения, логику и временные связи, не теряя внимания к деталям — как это умеют делать, например, восьмилетние дети?

За основу была взята настольная игра MicroMacro: Город улик. В ней — огромная чёрно-белая карта города с ~10 000 деталями и более чем 400 персонажами. Каждая детективная история — это цепочка из 5–10 вопросов, связанных событиями: ограбление, погоня, смена транспорта и т.д.

Я связался с создателем игры и пригласил его в команду, не ожидая ответа. Но за три дня до финала он согласился. Дальше — будто в тумане: днём работа, ночью Kaggle. Сам бенчмарк создавался легко, но написание райтапа оказалось сложнее.

Сейчас на Kaggle важнее, чем многие думают, принципы Keep it simple и сторителлинг.

Итоги и перспективы

Удивительно, насколько широкий спектр исследований поведения и эффективности больших моделей можно реализовать относительно просто. Порог входа значительно снизился, но порог выхода — наоборот, стал выше.

Интересно, в каком направлении движутся такие организации, как Kaggle, Anthropic и DeepMind. Их фокус смещается от соревнований к глубокому пониманию когнитивных способностей ИИ.

Читать оригинал

Kaggle Benchmarks: как платформа стала площадкой для тестирования ИИ

Новый этап: бенчмарки вместо соревнований

Конкурс от DeepMind: путь к ИИ общего назначения

Личный опыт: бенчмарк про внимание

Итоги и перспективы

Kaggle Benchmarks. «Kaggle уже не тот...»