Таблица лидеров «Вы не можете играть», финансируемая компаниями, которые она оценивает

Модели искусственного интеллекта (artificial intelligence) быстро множатся, а конкуренция становится всё жёстче. Когда вокруг так много игроков, кто из них окажется лучшим — и кто принимает это решение? Арена (Arena), ранее известная как LM Arena, превратилась в неофициальную публичную таблицу лидеров передовых больших языковых моделей (LLM), влияя на финансирование, запуски продуктов и PR-кампании. Всего за семь месяцев стартап вырос из исследовательского проекта Калифорнийского университета в Беркли в компанию с оценкой 1,7 миллиарда долларов.

Как платформа стала центром оценки ИИ

Ребекка Беллан, ведущая подкаста Equity, поговорила с соучредителями Арены — Анастасиосом Ангелопулосом и Вэй-Лин Чиангом — о том, как их платформа стала главным ориентиром в мире передовых моделей искусственного интеллекта. Они рассказали, как строят нейтральный эталон оценки, несмотря на то что проект поддерживают как раз те компании, которые в него попадают — такие как OpenAI, Google и Anthropic.

Почему «играть» в Арену сложнее, чем проходить тесты

Сооснователи объяснили, как работает Арена, и почему её подход сложнее и объективнее статических тестов. Ключевой концепцией стала «структурная нейтральность» — принцип, при котором ни один участник не может напрямую повлиять на результаты. Благодаря этому рейтинг сохраняет доверие, даже когда в нём участвуют коммерческие гиганты.

Кто лидирует и почему

Сейчас в рейтинге Арены впереди — Клод (Claude), особенно в юридических и медицинских сценариях. Это показывает, насколько важна специализация моделей. При этом платформа уже выходит за рамки простого чата: ведётся тестирование агентов, кодирования и способности моделей решать реальные задачи.

Новый корпоративный продукт

Команда запускает корпоративное решение, позволяющее компаниям использовать Арену для внутренней оценки своих моделей и инструментов. Это расширяет платформу за счёт новых сценариев применения — от разработки до внедрения в бизнес-процессы.

Читать оригинал