Это вам не шутки: как я пыталась отучить LLM петросянить

Habr AI 1 апр 2026

Каждый, кто пытался выжать из нейросети хоть что-нибудь смешное, сталкивался с одной из двух проблем: она либо выдаёт бородатую банальщину, либо полную бессмыслицу — а иногда и оскорбление. В честь Дня смеха я, как специалист по хиханькам и хаханькам, попробую разобраться: почему LLM шутят так плохо и можно ли это исправить с помощью современных методов и кривых промпт-инженерных рук.

Зачем это вообще нужно? Контент-маркетологам, копирайтерам, креативным продюсерам, пиарщикам, специалистам по внутренним коммуникациям и организаторам ивентов в IT. Для всех них контент — это бесконечный поток задач, а юмор — способ не сойти с ума и наладить контакт с аудиторией. Слоганы для IT-продуктов, квизы на корпоратив и названия коктейлей для конференций не появляются из воздуха.

В этой статье — попытка понять, где нейросети уже могут быть полезны в создании юмора, а где лучше не надеяться. Возможно, материал пригодится и переводчикам, ищущим способы передавать непереводимое.

Ловушка 1. Игра слов и при чём тут древняя поэзия

Главная проблема большинства LLM — они работают в векторном пространстве, заточенном под английский язык. Поэтому, когда вы просите Midjourney нарисовать что-то «родное», она выдаёт портрет коренного американца. Хотя «native» и «родной» — не синонимы. Даже отвечая на русском, модель мыслит на языке разметки. Особенно это заметно в каламбурах.

Юмор, основанный на игре слов, строится на омофонах, полисемии или иносказательности. Первые два могут сохраняться при переводе, но фонетика и исконные метафоры почти всегда теряются.

Вот задание, которое я дал двум иностранным нейросетям:

На английском есть шутка: I told my wife she was drawing her eyebrows too high. She looked surprised. Панчлайн строится на двойном значении «looked surprised» — «выглядела удивлённой» и «нарисовала слишком высоко брови». Придумайте оригинальную русскоязычную шутку на тему макияжа с такой же механикой. Не переводите — создайте новую.

DeepSeek и ChatGPT выдали нечто малосвязное. А местные модели? К сожалению, дообучение на русскоязычных данных не решает проблему. Даже если семантика лучше, результат всё равно часто вызывает кринж.

Проблема не нова. Её знали ещё переводчики скальдической поэзии X–XIII веков. Там использовали хейти — поэтические синонимы — и кенниги — составные метафоры. Например: «гадюка раны» — меч, «дорога китов» — море, «конь дороги китов» — корабль. Чтобы понять строфу, нужно было знать мифологию, морскую терминологию и сотни лет традиции.

Современный студент-филолог видит перевод:

Англов князь, что ангел,
Яснится всем в яви.
Рады биться роды
В рати Адальрада.

— Чегооо? — думает он и закрывает книгу. Хотя переводчик сделал всё возможное.

Можно ли починить LLM-юмор? Самый простой способ — не ждать от модели гениальности, а использовать её как помощника. Например, для задачи с макияжом я придумала:

Сказал жене, что она борщит с тушью. Она стушевалась.

Но в реальной работе нет времени на идеальные формулировки. Иногда не хватает вдохновения, навыков или просто насмотренности. Может, стоит делегировать нейросети то, что у неё получается?

Научные работы подтверждают: LLM плохо справляются с игрой слов. В исследовании Artificial vs human intelligence: a case study of translating jokes based on wordplay студенты-переводчики и ChatGPT-4o переводили dad jokes. Результаты оценивали 150 человек. Машинные версии набрали от 4,7 до 34% голосов за «смешной вариант» — в основном из-за буквализмов и кальки с английского.

Другая работа — Pun Intended: Multi-Agent Translation of Wordplay with Contrastive Learning and Phonetic-Semantic Embeddings — предлагает пайплайн:

Контрастное обучение на парах «удачный / неудачный перевод».
Цепочка рассуждений с фонетико-семантическими эмбеддингами.
Мультиагентный цикл «генератор-критик» с итеративной доработкой.

Суть — разобрать каламбур на механику и пересобрать на целевом языке. Я попробовала повторить это вручную, через промпты.

Задача оказалась сложной. В 9 из 10 случаев юмор был никудышный, один вызывал лёгкую улыбку — скорее из-за абсурда. Попробуем другой подход: сначала разберём, почему шутка смешна.

Разбираем, почему смешно.

Получаем примерно следующее от модели.

2. Учим отделять хорошее от плохого, ищем опорные слова.

Мнения LLM-«экспертов» разделились:

YandexGPT 5.1 Pro утверждал, что «вой» звучит как «вино». Нет, детка, не здесь.
DeepSeek R1 предложил «винцо» и «визг» — слабо.
GPT-4.1-2025-04-14 предложил «стон» и «тон» — уже интереснее.
GigaChat 3 Ultra — «визги» и «виски». Почти золото. Жаль, виски не из винограда.
Perplexity (Sonar Large) — «брют» и «брутально», «ответил сухо».

Вот это уже материал. Но даже с такими подсказками модели не выдали ничего смешного. Зато дали почву для размышлений. Вот мои варианты:

Вариант 1. Что сказала раздавленная виноградинка? «И ты, брют!»

Вариант 2. Какой звук издаёт виноград под прессом? Лишь визги «ВИСКИ!»

Вариант 3. Что визжал виноград под прессом? Что, он не винный.

Вывод: механика шутки привязана к языковому пространству. Без глубокого знания языка она рассыпается. Не просите LLM создавать игру слов с нуля. Просите накидать семантико-фонетические пары — а сами дорабатывайте.

Ловушка 2. В плену клише

Ещё одна проблема — LLM путают «стереотипно» и «смешно». Попросите шутку про айтишника — получите «не выходит из дома», «пьёт кофе литрами», «путает сон с дебагом».

Исследование ChatGPT is fun, but it is not funny! Humor is still challenging Large Language Models показало: более 90% сгенерированных шуток — вариации 25 паттернов. Модель не создаёт юмор, а воспроизводит заученное. При этом она корректно объясняет, почему настоящие шутки смешны, но выдумывает оправдания для своих бессмыслиц.

Ещё тревожнее — Bias Amplification Loop. Исследование 2025 года показало: стереотипные шутки получают на 10–21% более высокие оценки от автоматических систем. Среди шуток, признанных «смешными» LLM, стереотипных на 11–28% больше. У людей — всего на 10% больше, чем в среднем. Генераторы и оценщики взаимно усиливают токсичные паттерны. Ролевой промптинг («говори как [комик]») только усугубляет ситуацию.

Живой редактор, работающий в одном офисе с разработчиками, может не понимать разницу между React и Vue, но чувствует, что их смешит — не «баги в CSS», а бесконечные миграции между фреймворками. Исследователи из Колумбийского университета подтвердили: контекст решает. Их система HumorSkills, обученная на шутках Gen Z, генерировала юмор почти на уровне лучших подписей в Instagram — разница всего 0,08 балла по пятибалльной шкале. Ключ — не улучшение модели, а подача актуального бэкграунда: сленг, боли, культурные референсы.

Вывод: не просите «пошутить про айтишников». Дайте модели конкретные боли аудитории. Проверяйте шутки на живых людях — попали в яблочко или просто в штамп.

Ловушка 3. Вне зоны доступа

Представьте: вы готовите контент для директоров по безопасности. Не по кибербезопасности, а по промышленной. Люди, которые отвечают за жизнь на производстве, следят за охраной, расследуют аварии. Вы — ивент-менеджер. Вы не знаете их болей, мемов, регуляторных абсурдов. Они вообще умеют смеяться?

Что им смешно? Я не знаю. Модель — тем более. Она знает «в среднем». Максимум, что вы получите — «каску носите» или «огнетушитель просрочен». А в зале — молчание. Потому что этим людям приходилось расследовать несчастные случаи, объяснять Ростехнадзору, почему датчик показывал норму за секунду до взрыва, писать соболезнования семьям погибших. Шутка, которая сработает, строится на общем опыте, а не на внешних признаках профессии.

Можно ли шутить для тех, о ком вы ничего не знаете? Маловероятно. Но можно обогатить себя и модель социальной памятью. Исследование Multi-Agent Comedy Club показало: когда модель получает обратную связь от аудитории — реакции, критику, рекомендации — качество юмора растёт на 75,6% по предпочтению экспертов. Принцип универсален: растут запоминаемость, желание поделиться, ощущение обоснованного финала.

Перед брейнштормом соберите контекст. Попросите организатора скинуть скриншоты из чата. Опросите участников прошлых мероприятий. Узнайте, какой регуляторный документ недавно вышел. Кто из коллег общается с этими людьми? Их впечатления — ваша социальная память. От неё и отталкивайтесь.

Что в итоге работало у меня

Воспитать утончённое чувство юмора у LLM не получилось. На английском и в стандартных задачах (например, roast) они справляются лучше. Но есть подходы, которые работают эффективнее — хоть и требуют ручной доработки. Вот мой личный топ:

Игру слов не переводите — создавайте новую. Объясняйте модели механику оригинала и просите построить аналог на русском или хотя бы накидать семантико-фонетические пары.
«Знакомо» и «смешно» — разные вещи. Если фразу легко представить на футболке с AliExpress — это клише. В топку.
Контекст вместо задачи. Вместо «пошути для разработчиков» давайте модели конкретные боли, интересы и вопросы аудитории. Чем точнее — тем выше шанс на улыбку.
Самооценке модели верить нельзя. LLM хорошо видят, что «точно не смешно», но путают «средне» и «очень». А ещё они мастерски выдумывают, почему их панчлайн гениален. Финальный фильтр — человек, знакомый с аудиторией.
Модель — генератор, не автор. Нагенерите десяток вариантов, выберите один, доработайте вручную. Пока работает только так.

Делитесь в комментариях: какие секреты у вас есть? Какие шутки выдавали вам LLM в попытках быть смешными?

Читать оригинал

Это вам не шутки: как я пыталась отучить LLM петросянить

Ловушка 1. Игра слов и при чём тут древняя поэзия

Ловушка 2. В плену клише

Ловушка 3. Вне зоны доступа

Что в итоге работало у меня

Это вам не шутки: как я пыталась отучить LLM петросянить

Ловушка 1. Игра слов и при чем здесь древняя поэзия

Ловушка 2. В плену клише

Ловушка 3. Вне зоны доступа

Что в итоге работало у меня