OpenAI выкупила Sky — теперь в Codex лучшая система управления компьютером, которую я видел

OpenAI выкупила Sky — теперь в Codex лучшая система управления компьютером, которую я видел

На днях OpenAI представила обновлённое приложение Codex для Mac. Среди множества нововведений особое внимание привлекает встроенный инструмент управления macOS, позволяющий агенту взаимодействовать с несколькими приложениями одновременно. Это происходит в фоновом режиме с помощью так называемых «параллельных курсоров»: действия выполняются без переключения окон и отвлечения пользователя. По сути, эта функция — прямое воплощение технологии стартапа Sky, который позже был приобретён OpenAI вместе со всей командой разработчиков.

Под словом «буквально» я не имею в виду просто сходство. Если включить плагин управления компьютером в Codex и заглянуть в файл конфигурации config.toml, можно обнаружить строку: /Users/username/.codex/plugins/cache/openai-bundled/computer-use/1.0.750/Codex Computer Use.app/Contents/SharedSupport/SkyComputerUseClient.app/Contents/MacOS/SkyComputerUseClient. Именно здесь находится исполняемый файл приложения Sky — теперь он официально стал частью Codex и отвечает за всё взаимодействие с интерфейсом.

Лучшая система управления компьютером в ИИ-агентах

Я тестировал Sky ещё до того, как команда присоединилась к OpenAI. И сейчас могу с уверенностью сказать: в Codex реализована лучшая система управления компьютером из всех, что я видел в ИИ-агентах. Она превосходит даже оригинальный Sky, который, хоть и был хорош, работал заметно медленнее — в основном из-за использования моделей Claude от Anthropic.

Сегодня даже GPT-5.4 в Codex действует быстрее, чем Sky в свои лучшие времена. А при включении скоростного режима или использовании модели GPT-5.3-Codex-Spark от Cerebras производительность достигает космических высот по сравнению с решениями 2025 года.

Как это работает: доступ внутрь интерфейса

Большинство аналогичных систем — например, в Claude или в расширении Personal Computer от Perplexity — полагаются на запись экрана и AppleScript. Они либо имитируют клики по изображению, либо вызывают osascript через терминал для выполнения базовых действий.

Codex пошёл другим путём — наследуя подход Sky. Ключ к успеху лежит в использовании функций универсального доступа (Accessibility) в macOS. Эта технология изначально создавалась для вспомогательных инструментов, таких как экранные дикторы, и позволяет стороннему ПО считывать иерархию элементов интерфейса — так называемое дерево AX.

Разработчики Codex используют эту возможность по-новому: вся структура окна превращается в контекст для языковой модели. Это означает, что агент не просто «видит» экран — он понимает, из чего состоит интерфейс.

Глубокое понимание, а не догадки

Увидеть приложение — это только половина задачи. Вторая — проанализировать дерево AX, принять решение и отдать команду. Здесь всё решает качество модели.

Технология, лежащая в основе Sky, напоминает работу UI Browser — мощного, хотя и устаревшего инструмента для анализа элементов macOS. Codex использует тот же фундамент: во время работы можно заметить, как модель GPT-5.4 анализирует дерево универсального доступа, извлечённое из приложения.

Эти фреймворки никогда не предназначались для автоматизации. Они выдают огромные объёмы текста о каждом элементе интерфейса, причём данные могут быть неструктурированными и скрыты глубоко в XML-подобной иерархии — иногда на двадцать уровней вложенности. Но именно здесь Codex проявляет себя во всей красе.

Покупка Sky стала для OpenAI гроссмейстерским ходом. Codex видит приложения «изнутри» и управляет ими с гораздо большей точностью, чем системы, полагающиеся на скриншоты и координаты кликов. При необходимости он может использовать AppleScript как резервный вариант, но основная ставка сделана на более надёжный и глубокий механизм.

Новый виртуальный курсор и фоновая работа

Одной из новинок, которой не было в Sky, стал виртуальный курсор. Команда Codex разработала для него целую систему: курсор может «вилять», показывая, что модель размышляет, выбирать нестандартные траектории и даже подстраивать цвет под обои рабочего стола. Такая внимание к деталям напоминает подход Apple.

Я тестировал Codex весь день. Хотя он пока не дотягивает по скорости до опытного пользователя, он действует с высокой точностью и, главное, в фоне. Это делает его идеальным помощником для автоматизации рутины в приложениях без API, консольных команд или полноценной поддержки AppleScript.

Практические примеры

Я дал задание: «Включи последний альбом той странной группы в масках из Квебека, название которой я вечно забываю». Оба агента — Personal Computer от Perplexity и Codex — верно определили исполнителя. Но при попытке управлять приложением «Музыка» Perplexity не смог нажать кнопку воспроизведения. Codex же уверенно открыл альбом и запустил его с помощью виртуального курсора.

Ещё одна задача: собрать сводку из Slack, Ivory и Unread. Codex использовал параллельные курсоры, прокрутил ленты, открыл посты и выдал цельный отчёт. Я мог бы сделать это сам, но автоматизация, работающая на фоне, оказалась невероятно удобной.

Ещё шесть часов Codex улучшает мой инструмент Shortcuts Playground. Он не просто генерирует код — он сам находит файлы .shortcut в Finder, устанавливает их, тестирует и выявляет ошибки. К настоящему моменту он успешно установил десятки команд, проверил каждую и теперь анализирует сбои, чтобы скорректировать инструкции.

Итог

Плагин управления компьютером в Codex — это мощный эволюционный скачок по сравнению с тем фундаментом, который я видел в Sky год назад. OpenAI довела технологию до ума и значительно расширила её возможности.

Хотелось бы, чтобы этот плагин появился и в основном клиенте ChatGPT для Mac, который до сих пор использует устаревшую интеграцию Work with Apps. Но пока я с удовольствием пользуюсь Codex, предпочитая его медлительным и менее способным чат-ботам конкурентов. И, главное, я рад, что наработки Sky попали в хорошие руки.

Читать оригинал