Claude не работает с видео напрямую. Ни одна модель от Anthropic не поддерживает визуальные данные, что создаёт проблему для визуальных задач. Можно, конечно, нарезать видео на кадры и анализировать их по отдельности, но тогда теряется динамика — контекст движения исчезает. Для художника или аниматора это критично: хочется отправить видео-референс и получить разбор анимации, камеры, освещения или дизайна.
У меня была конкретная задача: 29 сгенерированных видео с анимацией персонажа нужно было классифицировать и описать. Делать это вручную — нудно и долго. Тогда я вспомнил про Qwen Omni, который уже использую для создания цифрового персонажа-ассистента. И решил: а почему бы не объединить их?
Claude отлично запускает Python-код, парсит текст и принимает решения. Возникла идея моста: Claude отправляет видео в Qwen, получает текстовый анализ и работает с ним как с обычным контекстом.
Мост: один файл, одна зависимость
Всё решение — в одном файле: qwen_bridge.py, всего 226 строк. Единственная зависимость — dashscope, официальный SDK от Alibaba. Работает на Python 3.9+ под Mac, Linux и Windows.
Логика проста: передаёшь путь к файлу и промпт, скрипт определяет тип (видео или изображение), конвертирует путь в file URI и отправляет запрос в Qwen через DashScope API. В ответ — текстовый анализ.
Важно: Qwen обрабатывает видео как набор кадров. Чем больше кадров — тем больше токенов и дороже запрос. По умолчанию используется 2 кадра в секунду (FPS), этого достаточно в большинстве случаев. Для длинных видео можно снизить до 0.5 FPS и сэкономить вчетверо.
Есть поддержка multi-turn: первый запрос — общий разбор, затем можно уточнять: «а какое освещение?», «какая камера?». Qwen помнит контекст, что удобно, если не знаешь заранее, на что именно обращать внимание.
Как это выглядит на практике
У меня было 29 видео в папке Kling_References. Я написал Claude:
У меня 29 видео в папке Kling_References. Рассортируй каждое по категориям анимации: Idle, Listening, Thinking, Talking, Greeting, AFK. Используй Qwen для анализа.
Claude (с подключённым плагином) сгенерировал батч-скрипт, который автоматически прогнал все файлы через мост. Для каждого видео Qwen получил промпт с задачей классификации и описания.
Результат: все видео были разложены по папкам и сопровождены отчётом. Оказалось, что не хватает анимаций типа Listening с расслабленным кивком и Talking с жестами одной руки. Вручную я бы этого не заметил — к тридцатому видео глаз уже «замыливается».
Вся задача заняла около десяти минут, включая настройку плагина.
Плагин, чтобы не объяснять каждый раз
Чтобы не прописывать логику каждый раз, я создал плагин. Он состоит из двух файлов:
- SKILL.md — инструкция для Claude. Описывает, на какие фразы реагировать (например, «разбери видео», «что в этом клипе», «classify these videos»), как вызывать мост и как действовать при ошибках. После установки Claude сам понимает, когда нужно задействовать Qwen.
- plugin.json — манифест с двумя слэш-командами:
/analyze-videoдля явного анализа файла и/qwen-setup— мастер настройки, который проверяет Python, устанавливает dashscope и тестирует подключение.
По умолчанию используется модель qwen-omni-plus-latest. Можно переключиться через флаг --model или просто сказать: «используй turbo, мне не нужно максимальное качество».
Как поставить
Если вы используете Claude Code или Cowork:
- Скачайте
.pluginиз релизов и перетащите в окно Cowork.
Требуется API-ключ:
- Зарегистрируйтесь на Alibaba Model Studio (международная версия) или DashScope (Китай).
- Создайте API-ключ.
- Установите его как переменную окружения:
export DASHSCOPE_API_KEY=ваш_ключ. - Проверьте подключение через команду
/qwen-setup.
Готово. Теперь Claude может анализировать видео.
Решение не идеальное — это костыль, основанный на Qwen. Но оно работает. Если вы работаете с визуальным контентом и хотите анализировать видео, оставаясь в экосистеме Claude — это пока лучший вариант. Остаётся надеяться, что Anthropic в будущем добавит мультимодальность в свои front-tier модели.
Исходный код: github.com/kirillbrsnkv/give-claude-eyes