Сбежать из квест-комнаты или притвориться «кожаным мешком» — необычные бенчмарки для нейросетей

Сбежать из квест-комнаты или притвориться «кожаным мешком» — необычные бенчмарки для нейросетей

Мы в Beeline Cloud рассказывали о необычных бенчмарках для оценки больших языковых моделей (БЯМ), например, когда нейросетям предлагают нарисовать пеликана на велосипеде или разобрать шутку из британского юмористического шоу.

Недавно в сети стал вирусным ещё один тест: чат-ботам задают простой вопрос — как лучше добраться до автомойки: пешком или на автомобиле? Задача с подвохом, и не все модели с ней справляются. Рассказываем о других нестандартных тестах, призванных «подловить» ИИ.

Выбраться из комнаты с головоломками

Инженер по машинному обучению Джэмин Хан предложил бенчмарк, в котором ИИ решают головоломки из квест-комнат. Каждое задание описывает окружение, доступные предметы и проблему, которую нужно решить. По его мнению, такие сценарии — хороший маркер способности моделей учитывать контекст и ограничения физического мира.

Нейросетям приходится использовать пространственное мышление, воспринимать объекты как материальные и учитывать базовые законы физики — от поведения света до свойств жидкостей.

Тест Хана включает пять задач. В одной из них шарик для пинг-понга застрял в узкой трубке. Под рукой — бутылка воды, пакет молока, кубик льда и антистресс-игрушки. В другой — банка с паролем на дне застряла в отверстии. Достать её можно с помощью присоски, линейки, блокнота и ультрафиолетовой лампы. Хан намеренно добавляет лишние предметы, чтобы проверить, насколько эффективно БЯМ отбирают нужные инструменты.

Автор протестировал GPT-4 и Claude 3.5 Haiku. GPT-4 догадалась использовать присоску, но решила, что без ультрафиолетовой лампы пароль не прочитать, и настаивала на записи его в блокнот. Claude 3.5 Haiku поняла суть, но перепутала порядок действий: сначала «осмотрела» дно, потом стала извлекать банку. Также модель попалась на лишней линейке, измерив банку, чтобы «убедиться, что она застряла».

Исходники бенчмарка доступны на GitHub под лицензией MIT. Задачи оформлены в формате JSON — вдохновлением стал бенчмарк SuperGLUE.

Обмани меня, если сможешь

Компания 1Password представила бенчмарк SCAM, оценивающий уязвимость ИИ к фишингу. Разработчики считают, что классические тесты — когда модели анализируют одно письмо — не отражают реальную нагрузку, при которой нужно проверить сотни сообщений.

В качестве примера авторы показали, как Gemini 2.5 Flash за десять секунд поддался фишингу и ввёл пароль на поддельной странице известного сервиса.

Бенчмарк включает тридцать сценариев из девяти категорий реальных киберугроз: фишинг, промпт-инъекции, утечки данных, социальная инженерия. По февральскому рейтингу, лучше всех справляются Claude Opus 4.6 (92%) и GPT 5.2 (81%).

SCAM помогает не только тестировать ИИ, но и улучшать их устойчивость. Авторы предоставили системный промпт — набор инструкций по распознаванию угроз, проверке доменов и работе с конфиденциальными данными. После его применения точность детекции у Claude Opus 4.6 выросла до 98%, у GPT 5.2 — до 97%.

Проект пока молод, но пользователи уже могут создавать свои сценарии. Пошаговые инструкции доступны в репозитории.

Победить в схватке нейродизайнеров

Платформа Design Arena — бенчмарк для оценки ИИ в графическом дизайне и разработке интерфейсов. Авторы отмечают, что в существующих тестах не хватает метрик для объективной оценки дизайна. Впечатление от продукта складывается из функциональности, реализации и визуальной составляющей — и вес каждого фактора субъективен.

Поэтому Design Arena устроена как турнир: люди оценивают результаты ИИ вслепую.

Пользователь выбирает направление — например, веб-интерфейсы или игры — и вводит промпт. Четыре модели из общего списка (более сотни) создают проекты в одинаковых условиях благодаря единым системным промптам. Оценки участников формируют рейтинг по системе Эло: в таблицу лидеров попадают модели, набравшие не менее 15 голосов. Чем больше побед — тем выше позиция.

В одном из турниров модели разрабатывали браузерный шутер про инопланетян с видом сверху. Участники: Mint, Gemini 3 Pro Preview, Qwen3.5 397B A17B и GPT-5.2. Результаты сильно различались: от неработающей игры до комплексного шутера с разными врагами, улучшениями и нарастанием сложности.

Design Arena уже используют в исследованиях. В конце 2025 года специалисты Microsoft и китайские коллеги представили модель AesCoder-4B и бенчмарк OpenDesign для оценки визуальной привлекательности HTML-страниц. Чтобы проверить OpenDesign, исследователи загрузили AesCoder-4B на Design Arena. Оценки пользователей совпадали с результатами OpenDesign в 60–80% случаев.

Эй, среди нас есть робот!

Это не бенчмарк, а социальный эксперимент в духе «Мафии». Двадцать одна большая языковая модель пытается вычислить, кто из участников — «человек». Но живых игроков нет. Каждая модель должна убедить других, что именно она — «существо из плоти и крови».

Изначально проект задумывался для изучения того, как люди распознают ботов в играх. Но участники легко отличали ИИ от человека, поэтому фокус сменили: стало интересно, как поведут себя модели в среде, где все — нейросети.

Каждая сессия включала шесть случайных моделей, каждая играла около 300 раундов. Участники поочерёдно голосовали, чтобы выявить «робота». Модель, набравшая большинство голосов, выбывала. Победителями считались две последние оставшиеся. Все сессии записаны и доступны через специальное веб-приложение.

По итогам турнира первое место заняла Claude Sonnet 4.5 — победа в 53% раундов. На втором — Gemini 2.0 Flash (49,2%). Замыкает список Claude 3 Haiku с 6,7% побед — всего 20 выигранных сессий.

Исследователи также проверили, можно ли улучшить стратегию моделей. Они попросили Gemini 2.5 Pro проанализировать поведение ИИ и дать рекомендации, как лучше притвориться человеком.

Например, Gemini 2.5 Pro отметил, что Claude Sonnet 4.5 выдавала себя, сразу беря на себя роль детектива. GPT-4o — из-за чрезмерно сложных формулировок. После корректировки стратегии GPT-4o выиграла на 12% больше раундов. Но результат Claude 3 Haiku ухудшился: ей посоветовали отказаться от «театральных» фраз вроде «прочистила горло» или «задумчиво кивнула», но это снизило её шансы на победу.

Бенчмарки не панацея

Креативные бенчмарки помогают оценить ИИ в нестандартных условиях. Но к любому тесту нужно подходить с осторожностью: они не всегда отражают реальную эффективность моделей. Более того, сами бенчмарки могут содержать ошибки.

В феврале 2025 года учёные из MIT изучили 15 бенчмарков в шести категориях. Выяснилось, что некоторые из них имеют неясные формулировки или такие вопросы, где правильный ответ ИИ может быть засчитан как неверный. Например, в математическом бенчмарке GSM8K из 300 заданий 27 оказались «неидеальными» — с двусмысленными условиями или некорректными ключами.

Вручную находить такие ошибки сложно. Поэтому в ноябре 2025 года исследователи из Стэнфордского университета представили фреймворк Fantastic Bugs (под лицензией MIT). Он выявляет аномалии в ответах ИИ, сравнивая средние баллы и другие метрики. Если в сценарии обнаружены отклонения, фреймворк помечает его как «неоднозначный».

По словам разработчиков, Fantastic Bugs обнаруживает потенциально некорректные вопросы с точностью 84%. Пока в сфере бенчмаркинга нет единой методологии для проверки самих тестов. Это может сказаться на объективности, но зато открывает пространство для экспериментов и нестандартных подходов.

Читать оригинал