OpenAI анонсировала набор промтов, которые помогут разработчикам сделать свои приложения безопаснее для подростков. Эти политики безопасности можно использовать вместе с её открытой моделью для фильтрации вредного контента — gpt-oss-safeguard (в дальнейшем — ГПТ-ОСС-сейфгард).
Теперь разработчикам не нужно изобретать систему безопасности с нуля. Новые промты помогут защитить пользователей от контента, связанного с жестоким насилием и сексуальными темами, вредными стандартами внешности, опасными челленджами, ролевыми играми с романтическим или агрессивным уклоном, а также от доступа к запрещённым для несовершеннолетних товарам и услугам.
Поскольку политики реализованы в виде промтов, их можно адаптировать под другие модели, хотя максимальную эффективность они покажут внутри экосистемы OpenAI.
Для создания этих инструментов OpenAI сотрудничала с организациями по безопасности в цифровой среде — Common Sense Media и everyone.ai.
«Такие промт-ориентированные политики задают реальный минимум безопасности для всей экосистемы. А поскольку они открыты, их можно улучшать и адаптировать со временем», — отметил Робби Торни (Robbie Torney), руководитель направления оценки ИИ-рисков в Common Sense Media.
В своём блоге OpenAI признала, что даже опытные команды сталкиваются с трудностями при превращении целей безопасности в чёткие рабочие правила.
«Это может приводить к пробелам в защите, непоследовательному применению фильтров или чрезмерной блокировке контента, — говорится в сообщении компании. — Чёткие и хорошо проработанные политики — это основа эффективных систем безопасности».
OpenAI подчёркивает, что эти меры не решают всех сложных задач в области безопасности ИИ. Но они продолжают предыдущие инициативы компании, включая родительский контроль, возрастные оценки и обновлённые Model Spec — правила поведения больших языковых моделей с пользователями младше 18 лет.
Сама OpenAI не идеальна в этом вопросе. Компанию уже обвиняют в нескольких судебных исках: семьи погибших от самоубийств утверждают, что их родные вступили в опасные отношения с ЧатГПТ (ChatGPT), обойдя защитные механизмы. Никакие системы не всесильны. Но новые открытые политики — шаг вперёд, особенно для независимых разработчиков, которым не хватает ресурсов на создание собственных решений.