Аспиранты, ставшие судьями индустрии искусственного интеллекта

Модели искусственного интеллекта (AI) быстро множатся, а конкуренция становится всё жёстче. Когда вокруг так много игроков, кто определяет, кто лучший — и кто вообще принимает это решение? Платформа Arena, ранее известная как LM Arena, превратилась в неофициальную таблицу лидеров передовых языковых моделей (LLM), влияя на финансирование, запуски продуктов и PR-стратегии компаний. Всего за семь месяцев стартап прошёл путь от исследовательского проекта Калифорнийского университета в Беркли до оценки в 1,7 миллиарда долларов.

От лаборатории к индустриальному стандарту

В эпизоде подкаста TechCrunch’s Equity Ребекка Беллан беседует с сооснователями Arena — Анастасиосом Ангелопулосом и Вэй-Лин Чиангом. Они рассказывают, как команда аспирантов смогла создать, по их словам, нейтральный эталон оценки, несмотря на то что компании, которые они тестируют, одновременно выступают и как спонсоры.

Как работает Arena

  • Платформа основана на принципе «живого» сравнения: модели соревнуются в реальном времени, и в неё нельзя «сыграть» так, как в статический тест.
  • Основатели подчёркивают концепцию «структурной нейтральности» — даже получая финансирование от таких гигантов, как ОпенЭйАй (OpenAI), Google и Anthropic, они утверждают, что сохраняют объективность.
  • Arena выходит за рамки простого чат-тестирования: новые инструменты позволяют оценивать способность моделей работать в роли агентов, писать код и решать прикладные задачи.
  • В экспертных рейтингах по юридическим и медицинским кейсам на данный момент лидирует Клод (Claude).
  • Команда делает ставку на то, что следующая волна лидеров — это не просто модели, а автономные агенты, способные выполнять сложные многошаговые задачи.
Читать оригинал