Во второй части цикла — подробный разбор публикации от команды Transformer Circuit из компании Anthropic, посвящённой внутренней «биологии» языковых моделей.
Исследование внутренних механизмов Claude
В работе исследуется, как модель Клод 3.5 Хайку (Claude 3.5 Haiku) — облегчённая версия производственной модели от Anthropic — обрабатывает информацию в разных контекстах. Основной инструмент анализа — методология трассировки цепей (circuit tracing), позволяющая отслеживать, какие именно компоненты нейросети активируются при решении конкретных задач.
Цель — не просто описать поведение модели, а понять, какие внутренние механизмы стоят за её выводами: как она выделяет значения, передаёт информацию между слоями и принимает решения.
Кто стоит за исследованием
Работа выполнена крупной командой исследователей из Anthropic, в числе которых Джек Линдси, Уэс Герни, Эммануэль Амейсен, Брайан Чен, Адам Пирс, Николас Л. Тёрнер, Крейг Ситро и другие. В проекте участвовали специалисты по интерпретируемости моделей, инженеры и учёные, работающие в области машинного обучения (machine learning).
Мы исследуем внутренние механизмы, используемые Клод 3.5 Хайку в различных контекстных сценариях, применяя методологию трассировки цепей.
Где почитать
Полную публикацию можно найти на официальном сайте Transformer Circuits: transformer-circuits.pub.