Как я сделал Claude мультимодальным, подключив к нему Qwen Omni

Как я сделал Claude мультимодальным, подключив к нему Qwen Omni

Claude не работает с видео напрямую. Ни одна модель от Anthropic не поддерживает визуальные данные, что создаёт проблему для визуальных задач. Можно, конечно, нарезать видео на кадры и анализировать их по отдельности, но тогда теряется динамика — контекст движения исчезает. Для художника или аниматора это критично: хочется отправить видео-референс и получить разбор анимации, камеры, освещения или дизайна.

У меня была конкретная задача: 29 сгенерированных видео с анимацией персонажа нужно было классифицировать и описать. Делать это вручную — нудно и долго. Тогда я вспомнил про Qwen Omni, который уже использую для создания цифрового персонажа-ассистента. И решил: а почему бы не объединить их?

Claude отлично запускает Python-код, парсит текст и принимает решения. Возникла идея моста: Claude отправляет видео в Qwen, получает текстовый анализ и работает с ним как с обычным контекстом.

Мост: один файл, одна зависимость

Всё решение — в одном файле: qwen_bridge.py, всего 226 строк. Единственная зависимость — dashscope, официальный SDK от Alibaba. Работает на Python 3.9+ под Mac, Linux и Windows.

Логика проста: передаёшь путь к файлу и промпт, скрипт определяет тип (видео или изображение), конвертирует путь в file URI и отправляет запрос в Qwen через DashScope API. В ответ — текстовый анализ.

Важно: Qwen обрабатывает видео как набор кадров. Чем больше кадров — тем больше токенов и дороже запрос. По умолчанию используется 2 кадра в секунду (FPS), этого достаточно в большинстве случаев. Для длинных видео можно снизить до 0.5 FPS и сэкономить вчетверо.

Есть поддержка multi-turn: первый запрос — общий разбор, затем можно уточнять: «а какое освещение?», «какая камера?». Qwen помнит контекст, что удобно, если не знаешь заранее, на что именно обращать внимание.

Как это выглядит на практике

У меня было 29 видео в папке Kling_References. Я написал Claude:

У меня 29 видео в папке Kling_References. Рассортируй каждое по категориям анимации: Idle, Listening, Thinking, Talking, Greeting, AFK. Используй Qwen для анализа.

Claude (с подключённым плагином) сгенерировал батч-скрипт, который автоматически прогнал все файлы через мост. Для каждого видео Qwen получил промпт с задачей классификации и описания.

Результат: все видео были разложены по папкам и сопровождены отчётом. Оказалось, что не хватает анимаций типа Listening с расслабленным кивком и Talking с жестами одной руки. Вручную я бы этого не заметил — к тридцатому видео глаз уже «замыливается».

Вся задача заняла около десяти минут, включая настройку плагина.

Плагин, чтобы не объяснять каждый раз

Чтобы не прописывать логику каждый раз, я создал плагин. Он состоит из двух файлов:

  • SKILL.md — инструкция для Claude. Описывает, на какие фразы реагировать (например, «разбери видео», «что в этом клипе», «classify these videos»), как вызывать мост и как действовать при ошибках. После установки Claude сам понимает, когда нужно задействовать Qwen.
  • plugin.json — манифест с двумя слэш-командами: /analyze-video для явного анализа файла и /qwen-setup — мастер настройки, который проверяет Python, устанавливает dashscope и тестирует подключение.

По умолчанию используется модель qwen-omni-plus-latest. Можно переключиться через флаг --model или просто сказать: «используй turbo, мне не нужно максимальное качество».

Как поставить

Если вы используете Claude Code или Cowork:

  • Скачайте .plugin из релизов и перетащите в окно Cowork.

Требуется API-ключ:

  1. Зарегистрируйтесь на Alibaba Model Studio (международная версия) или DashScope (Китай).
  2. Создайте API-ключ.
  3. Установите его как переменную окружения: export DASHSCOPE_API_KEY=ваш_ключ.
  4. Проверьте подключение через команду /qwen-setup.

Готово. Теперь Claude может анализировать видео.

Решение не идеальное — это костыль, основанный на Qwen. Но оно работает. Если вы работаете с визуальным контентом и хотите анализировать видео, оставаясь в экосистеме Claude — это пока лучший вариант. Остаётся надеяться, что Anthropic в будущем добавит мультимодальность в свои front-tier модели.

Исходный код: github.com/kirillbrsnkv/give-claude-eyes

Читать оригинал