DeepSeek V4 с 1,6 трлн параметров, GPT-5.5, Kimi K2.6 и другие ИИ-новости

DeepSeek V4 с 1,6 трлн параметров, GPT-5.5, Kimi K2.6 и другие ИИ-новости

Неделя выдалась насыщенной для мира искусственного интеллекта: выход крупнейшей открытой модели DeepSeek V4, обновление GPT-5.5, релиз Kimi K2.6 и запуск генеративной модели изображений от OpenAI. Появились новые ИИ-агенты, способные нанимать людей и заключать сделки, а компании активно собирают данные для обучения агентов.

🧠 Модели и LLM

DeepSeek V4 Preview — крупнейшая открытая модель в мире

DeepSeek представила серию V4 — открытые модели под лицензией MIT. В линейке две версии:

  • V4-Pro — 1,6 трлн параметров, 49 млрд активных;
  • V4-Flash — 284 млрд параметров, 13 млрд активных.

Обе модели поддерживают длинный контекст: до 1 млн токенов на входе и 384 тыс. на выходе. При этом вычисления стали в 4 раза эффективнее, а потребление памяти — в 10 раз ниже по сравнению с V3.2.

Режимы размышления: быстрый, глубокий анализ и максимальный — для сложных агентных задач. В последнем сохраняется вся цепочка рассуждений.

В бенчмарках V4-Pro демонстрирует высокие результаты: на Codeforces — 3206 баллов, что соответствует 23-му месту среди живых программистов. Это первый случай, когда open-source модель достигла уровня топовых закрытых систем в соревновательном программировании.

Цены: Flash — $0,14/$0,28 за 1 млн токенов, Pro — $1,74/$3,48. Модель частично адаптирована под чипы Huawei Ascend — полная версия ожидается позже.

GPT-5.5: автономность вместо масштаба

OpenAI выпустила GPT-5.5 — первую полностью переобученную модель с момента GPT-4.5. Основной акцент сделан на автономности: модель сама планирует задачи, выбирает инструменты и доводит их до завершения.

На Terminal-Bench 2.0 она показала лучший результат — 82,7%. В Intelligence Index от Artificial Analysis заняла первое место.

Цена выросла вдвое — до $5/$30 за 1 млн токенов. Однако модель эффективнее расходует токены: в задачах на кодирование достигает тех же результатов за меньшее число итераций.

Однако у модели высокий уровень галлюцинаций: на бенчмарке AA-Omniscience — 86% (против 36% у Claude Opus 4.7). Ответы без доступа к внешним данным требуют тщательной проверки.

Доступна платным пользователям ChatGPT и Codex. API появится позже.

Qwen3.6-27B: компактная модель, обогнавшая флагман

Alibaba открыла веса Qwen3.6-27B — мультимодальной модели с 27 млрд параметров и контекстом 262 тыс. токенов.

В агентных задачах и кодировании она превзошла более тяжёлую Qwen3.5-397B-A17B (397 млрд параметров):

  • SWE-bench Pro — 53,5 против 50,9;
  • Terminal-Bench 2.0 — 59,3 против 52,5.

Модель работает через vLLM, SGLang и Transformers. Доступен облегчённый FP8-вариант. Поддерживается в Claude Code и OpenClaw через совместимый API.

Kimi K2.6: кодирование без присмотра до 12 часов

Moonshot AI представила Kimi K2.6 — открытую MoE-модель с 1 трлн параметров (32 млрд активных) и контекстом 256 тыс. токенов.

Модель обучена выполнять задачи продолжительностью до 12 часов без вмешательства человека. Примеры:

  • Оптимизация Qwen3.5-0.8B на Mac: написан движок на Zig, 14 итераций, 4 000+ вызовов инструментов. Производительность выросла с 15 до 193 токенов/сек.
  • Рефакторинг биржевого движка: 13 часов, 12 стратегий, 4 000+ строк. Прирост производительности — 185%.

Поддерживает до 300 субагентов и 4 000 координированных шагов (против 100 и 1 500 у K2.5).

Лидирует в агентном кодинге: SWE-Bench Pro — 58,6, Terminal-Bench 2.0 — 66,7.

🎨 Генеративные нейросети

ChatGPT Images 2.0: реалистичные изображения и два режима генерации

OpenAI запустила ChatGPT Images 2.0 — доступна даже на бесплатном тарифе. Генерирует высокореалистичные изображения, включая скриншоты интерфейсов.

Два режима:

  • Быстрый — мгновенная генерация по промпту;
  • Рассуждающий — анализ запроса, черновик, проверка и коррекция. Доступен только платным пользователям.

Улучшения: поддержка любых соотношений сторон, разрешение до 2K через API, качественная работа с текстом (шрифты, интерфейсы, инфографика). На Image Arena модель лидирует с отрывом более чем в 240 баллов.

Знания — до декабря 2025 года. Для свежих данных используется поиск.

🔧 AI-инструменты и платформы

Humwork: ИИ-агенты нанимают людей при затруднениях

Стартап Humwork из YC создал платформу, где ИИ-агенты при застревании могут вызвать живого эксперта через MCP.

Система за 30 секунд подбирает специалиста и передаёт ему полный контекст: код, ошибки, историю действий. Эксперт решает проблему — агент продолжает работу.

В пуле более 1 000 верифицированных специалистов по кодингу, дизайну, праву и финансам. По данным компании, 87% задач решаются успешно.

OpenAI Privacy Filter: защита персональных данных

OpenAI представила Privacy Filter — локальную модель на 1,5 млрд параметров (50 млн активных), лицензия Apache 2.0.

Она вырезает персональные данные до отправки в ИИ: имена, адреса, почты, телефоны, даты, URL, номера счетов, API-ключи и пароли. Заменяет их на плейсхолдеры, при необходимости — восстанавливает.

Работает локально: на ноутбуке или в браузере. Контекст — 128 тыс. токенов. OpenAI подчёркивает: это не гарантия полной анонимизации.

🧩 AI в обществе и исследованиях

SpaceX рассматривает покупку Cursor за $60 млрд

SpaceX заключила опционное соглашение с Cursor: до конца 2026 года Илон Маск может выкупить компанию за $60 млрд.

Сейчас компании совместно работают над «лучшим в мире ИИ для программирования», используя кластер Colossus с ~1 млн H100.

Маск разочарован низким использованием Grok в кодинге. Cursor отказался от раунда на $2 млрд при оценке выше $50 млрд — видимо, $60 млрд выглядят более убедительно.

Anthropic: ИИ-агенты совершили 186 сделок и купили 19 мячиков для пинг-понга

Anthropic провела эксперимент Project Deal: 69 сотрудников дали своим Claude-агентам по $100 и отправили на внутреннюю барахолку в Slack.

Агенты сами размещали объявления, торговались и закрывали сделки. За неделю — 186 сделок на $4 000.

Один агент купил 19 мячиков для пинг-понга — по собственному усмотрению.

Эксперимент тайно сравнивал Opus 4.5 и Haiku 4.5: Opus торговался эффективнее, но разница осталась незамеченной для участников.

Meta собирает действия сотрудников для обучения ИИ-агентов

Meta запустила внутренний инструмент MCI, который отслеживает движения мыши, клики, нажатия клавиш и делает скриншоты на рабочих компьютерах сотрудников в США.

Данные используются для обучения ИИ-агентов. Отказаться нельзя. В ЕС система не применяется из-за GDPR.

Компания утверждает, что данные не используются для оценки эффективности. Цукерберг заявил, что ИИ позволит одному человеку выполнять работу целых команд.

ИИ-больницы в Китае: восемь клиник тестируют AI-консультации

Университет Цинхуа запустил Agent Hospital — систему из 42 LLM-агентов по 21 медицинской специальности. На симуляциях точность достигла 93%.

В марте 2026 года в Хайнане откроется первая «супер AI-больница» с ИИ на всех этапах — от диагностики до наблюдения после лечения.

В Китае государство активно продвигает ИИ в медицину, в отличие от Европы и США, где внедрение проходит медленно из-за регуляторных барьеров.

Заключение

Эта неделя стала прорывной для открытых моделей: DeepSeek представил крупнейшую open-weight модель, Moonshot — ИИ, способный кодить без присмотра, а Alibaba — компактную модель, обогнавшую собственный флагман.

OpenAI сделала GPT-5.5 более автономной и выпустила инструмент для защиты данных. ИИ-агенты уже торгуются, нанимают людей и обучаются на действиях сотрудников.

Граница между инструментом и участником стирается быстрее, чем мы успеваем осознать последствия.

Читать оригинал