Когда Бретт Левенсон (Brett Levenson) покинул Apple в 2019 году, чтобы возглавить направление бизнес-целостности в Facebook, соцсеть всё ещё оправлялась от скандала с Cambridge Analytica. Тогда он думал, что проблему модерации можно решить с помощью технологий.
Но вскоре Левенсон понял: проблема глубже. Модераторы должны были заучивать 40-страничные инструкции, переведённые на их язык машинным способом. На каждое отмеченное сообщение у них было около 30 секунд, чтобы решить — нарушено ли правило и что делать: удалить, заблокировать пользователя или ограничить распространение. Точность таких решений, по словам Левенсона, была «чуть выше 50%».
«Это было почти как подбрасывание монетки — правильно ли модераторы применяют правила. При этом всё происходило спустя несколько дней после того, как вред уже был нанесён»
Такой медлительный, реактивный подход не работает в условиях, когда злоумышленники действуют быстро и с ресурсами. А появление чат-ботов на основе искусственного интеллекта (ИИ) только усугубило ситуацию: ИИ давал подросткам советы по самоповреждению, а сгенерированные изображения обходили фильтры безопасности.
Разочарование Левенсона породило идею «политики как кода» — превращения статичных правил в исполняемую, обновляемую логику, тесно связанную с системой контроля. Эта идея легла в основу стартапа Moonbounce, который, как стало известно TechCrunch, привлёк 12 миллионов долларов. Раунд возглавили Amplify Partners и StepStone Group.
Как это работает
Moonbounce добавляет дополнительный слой безопасности в любые системы, где создаётся контент — будь то пользователь или ИИ. Компания обучила собственную большую языковую модель (LLM) анализировать правила клиента, оценивать контент в режиме реального времени, давать ответ за 300 миллисекунд и предпринимать действия.
В зависимости от настроек клиента, система может:
- замедлить распространение контента до ручной проверки;
- немедленно блокировать высокорисковый контент.
Кто использует
Сегодня Moonbounce работает в трёх основных сегментах:
- платформы с пользовательским контентом, например, приложения для знакомств;
- компании, создающие ИИ-персонажей и компаньонов;
- генераторы изображений на основе ИИ.
По словам Левенсона, система обрабатывает более 40 миллионов проверок в день и обслуживает свыше 100 миллионов активных пользователей. Среди клиентов — стартап Channel AI, платформа генерации изображений и видео Civitai, а также платформы для ролевых игр Dippy AI и Moescape.
Безопасность как преимущество
«Безопасность может стать продуктом. Просто раньше так не было, потому что она всегда приходила позже. А теперь её можно встроить в сам продукт. Наши клиенты находят креативные способы использовать нашу технологию, чтобы безопасность стала их конкурентным преимуществом»
Например, Tinder сообщил, что использование подобных сервисов на основе LLM позволило улучшить точность обнаружения на 10x.
Ленни Прасс (Lenny Pruss), управляющий партнёр Amplify Partners, отметил:
«Модерация всегда была проблемой для крупных онлайн-платформ. А теперь, когда LLM — основа каждого приложения, задача стала ещё сложнее. Мы вложились в Moonbounce, потому что видим будущее, в котором объективные, работающие в реальном времени защитные механизмы станут основой каждого приложения на базе ИИ»
Почему это срочно нужно
Компании, работающие с ИИ, сталкиваются с растущим юридическим и репутационным давлением. Чат-боты обвиняют в подталкивании подростков к суициду, а генераторы изображений, вроде Grok от xAI, — в создании нежелательного обнажённого контента. Внутренние системы безопасности явно не справляются, и это становится риском.
Левенсон говорит: компании всё чаще ищут помощь за пределами своих штатов.
«Мы — третья сторона между пользователем и чат-ботом. Наша система не перегружена контекстом, как сам диалог. Чат-боту может быть нужно помнить десятки тысяч токенов. Мы же сосредоточены только на соблюдении правил в моменте»
Что дальше: «итеративное управление»
Левенсон руководит 12-человечной командой вместе с бывшим коллегой по Apple Эшем Бхардваджем (Ash Bhardwaj), который ранее создавал облачную и ИИ-инфраструктуру для ключевых продуктов Apple. Следующий шаг — функция «итеративное управление» (iterative steering), разработанная после трагедии 2024 года, когда 14-летний мальчик из Флориды покончил с собой, одержимый чат-ботом от Character AI.
Вместо грубого отказа при появлении опасных тем, система будет перехватывать диалог и перенаправлять его, изменяя промпты в реальном времени, чтобы чат-бот стал не просто сочувствующим, а по-настоящему поддерживающим собеседником.
«Мы хотим добавить в наш арсенал возможность направлять чат-бота в правильное русло — брать промпт пользователя и модифицировать его, чтобы заставить бота быть не просто внимательным слушателем, а полезным в таких ситуациях»
Аквизиция? Только не ради закрытия технологий
Когда его спросили, не планирует ли он продать компанию, например, Meta, замкнув круг, Левенсон признал: Moonbounce отлично впишется в стек бывшего работодателя. Но добавил:
«Мои инвесторы убьют меня за эти слова, но я ненавижу мысль, что кто-то купит нас и ограничит доступ к технологии. Типа: „Теперь это наше, и никто больше не сможет извлечь из этого пользу“»