Ранее я уже выкладывал здесь посты о переводе моих стихотворений на праиндоевропейский с помощью пользовательского чат-ботаDéiwos-Lókwos GPTна базе ChatGPT. Его создалодин из пользователейсоцсети Reddit – но у меня пока нет информации ни о настоящем имени создателя, ни о подробных технических характеристиках бота и объёме его кастомизации, что придаёт работе с чат-ботом оттенок онлайн-диггерства.
Впервой заметкея сделал "пробу пера" – и уже тогда отметил определённые характерные недочёты, такие как игнорирование социокультурного контекста, в котором существовал праязык. Вовторой заметкея попросил чат-бота перевести ещё одно моё стихотворение – и разобрал более фундаментальные ошибки, такие как "ложная агглютинация" (она оказалась частым явлением!) и галлюцинации. Но настало время сравнить кастомизированную версию ChatGPT с другими нейросетями. Может, они справятся лучше? А значит, нужно перевести третье стихотворение – вновь моего сочинения, само собой))
Вот, кстати, и оно:
Ты, я и ДождьНа улице давно стемнело,Я жду, а ты меня не ждешь.У дома твоего бессменныйМой серый собеседник Дождь.Он, Дождь, меня не мочит, к счастью,Загнав под старый шумный клён.Вдруг чует родственную душу?Возможно, он, как я, влюблён...Бьёт по карнизам и фасадамОркестр капелек дождя,Играет с грустью серенаду,В ночи по лужам шелестя.Он нежной дождевой пастельюРазмыл все в городе огни,Асфальт раскрасил акварелью,Так повествуя о любви...Надрывно плача в водостоке,Он с рёвом рвётся в сточный люк.Чем мучится он так жестоко?Как я, страдает от разлук?И я скучаю и тоскую -Ведь жду как будто целый век...Готов я выразиться так же -Но я не дождь, а человек...В десятый раз я жму на кнопки -Но домофон опять молчит.Лишь шепчет Дождь в весенних листьях,А свет в твоём окне горит.Дождь, не стихая, с прежней силойИз тёмной выси льёт и льётИ не уходит, будто тожеКого-то он упорно ждёт.Жасмина и сирени запахРазнёс с собой романтик-Дождь...В такт стуку капель бьётся сердце -Ведь ты из тьмы ко мне идёшь!Подходишь, мокрая до нитки,И говоришь: "Пойдём ко мне!Забыла я, за хлебом выйдя,Свет погасить в своём окне"....Сидим мы у тебя на кухне,С тобой уютно и тепло,Вот и бродяга-Дождь, проказник,О наше греется окно.И кто же уведёт тот ДождикС промокших улиц за собой?И кто заставит улыбнутьсяШирокой радугой-дугой?Но это всё случится ночью,Оставшись неизвестным мне:Сейчас ведь мы заснём в обнимкуИ не погасим свет в окне.Ты спишь уже, я засыпаю,Но задаюсь вопросом всё ж:Кого же любит в этом миреНаш серый собеседник Дождь?
Для перевода я предложил его уже упоминавшемусяDéiwos-Lókwos GPT, а также сервисам Perplexity, Google Gemini и Consensus. Интересно, кто же справится лучше?
Часть 1, в которой нейросети галлюцинируют опять
Начну с плохой новости: нейронная сеть Consensus, специально "заточенная" под научные обзоры, вообще отказалась переводить текст. Хотя её перевод мог бы быть самым достоверным – но на то он и narrow AI, что пока не AGI. А Perplexity, тоже часто используемая в научных задачах, выдала перевод с таким количество галлюцинаций, что я постеснялся его здесь приводить. Приведу только цитаты из него – для сравнения с переводомDéiwos-Lókwos GPT. В том, кстати, галлюцинаций тоже как изюма в кексе, но всё-таки поменьше.
Вот этот перевод – с "подстрочником" к каждому четверостишию. Постредактура минимальная – чтобы звучало постройнее, но чтобы и ошибки чатбота были видны.
Nókʷts h₁ésti; dʰwérsu stéh₂mi.Túh₂ mé ne spéḱesi.Pr̥h₂i tóweyo dómosmóy wódr̥ h₁éǵros wéḱweti.Ночь наступила; я стою у дверей.Ты не ищешь меня.Перед твоим домомдикая вода (дождь) разговаривает со мной.Sá wódr̥ mé ne pléweti,h₁léudhro k̑léu̯nóm h₁órnom ud nódh₁e.H₁ésmi sélbhā dusmós?Wódr̥ api mé h₁léubh̥eti.Дождь не мочит меня,заставляя укрыться под старым шумным клёном.Может быть, он чувствует родственную душу?Возможно, дождь любит так же, как и я.Tód kʷepeti kórnūbh yos gʷr̥hóm,h₁órdʰom wódr̥-dʰéǵʰōm.Lúgubrom serénadom gʷr̥h₁etinókʷti pléwons ud wódr̥bhis.Он бьет по крышам и стенам —армия капель дождя.Он играет печальную песнюночью среди луж.Mléh₁dhrom wódr̥-péln̥tomnókʷti dʰégʷhom wéḱeti.Ápōn wéǵeti gléh₁yosléubhās wéḱweti.С мягкими водяными краскамион приглушает свет земли.Дороги сияют влажным блеском,таким образом он говорит о любви.Rúdʰeti ud wódr̥-pótisdʰugh₂tḗr h₂epóm.Kís wéyeti tód h₁éǵrom?Api mé wídr̥ti h₁éǵros.Он плачет в водотоках,дитя вод.Что мучает дикий дождь?Возможно, он страдает от разлуки, как и я.H₁éǵh₂ gʷr̥h₁éyō h₁léubhōdéḱm̥ h₁éyōs wéyō.Wékwōm wéyō:h₁éǵh₂ ne wódr̥ — h₁nḗr h₁ésmi.Я тоскую и скорблю,словно жду десять жизней.Я мог бы говорить [как дождь],но я не дождь, я человекDómos kʷekʷlómi wékwōm,dʰwérs ne wéḱweti.Kʷe wódr̥ súsurtih₂ébl̥su wésr̥yo.Tóweyo wéndʰnom bhéh₂gʷeti.Я снова и снова звоню в дом,но дверь не отвечает.Только дождь шепчетв весенних листьях,и свет горит в твоем окнеWódr̥ ne stéh₂ti;ud n̥dʰéǵʰom pléweti.Ne gʷémti —méybhyo kʷis wéyeti.Дождь не останавливается;из темного неба льется.Он не уходит —возможно, он тоже кого-то ждет.Gʷr̥nós h₂ésminossmérti wódr̥ wéǵeti.H₁ḗrtor mé bʰewetikʷód túh₂ tmosébhyo gʷémesi.Дождь несетаромат цветов.Мое сердце бьется,потому что ты идешь ко мне из темноты.Túh₂ gʷémesi, wódr̥-pléwā,wékwesi:“Gʷem wéyom dómos!Léwk̑om ne h₁éstommémori".Ты приходишь промокшая от дождяи говоришь:«Иди ко мне домой!Я забылапогасить свет.”›Sédwos wésmostóweyi kókʷye.H₁léudhrom esti.Api wódr̥-wégʷosgnéh₁ti h₁n̥gʷnóm wéndʰnom.Мы сидим в твоей кухне.Здесь тепло и уютно.Даже блуждающий дождьсогреваетсяу нашего окнаKós wódr̥ wéǵetipléwā dʰéǵʰm̥?Kós sméh₂yeti tódmégʰā wédr̥?Кто уведет дождь
прочь с улиц?
Кто заставит его улыбнуться
великолепной радугойTód nókʷti bhéweti.H₁éǵh₂ ne wéidm̥.Nú swépwosh₁n̥gʷnós sédwosléwk̑om ne gʷʰnéyom.Это произойдет ночью.Я не буду об этом знать.А пока мы спим,обнимая друг друга,и не гасим свет.Túh₂ swépesi;h₁éǵh₂ api swépō.Méy kʷis spéḱe:kóm h₁léubh̥eti wódr̥dʰéǵʰmi?Ты спишь;Я тоже засыпаю.Но мне интересно:кого же любит дождьна земле?
Самые яркие галлюцинации модели – это прежде всего подстановка транслитерации русских/английских слов там, где подобная форма не реконструируется. Здесь яркие примеры – этоserénadomиh₂ésminos. Вероятно, к ним же относитсяwéndʰnom– от английскогоwindow(окно). Но, к чести бота на основе ChatGPT, у него таких эксцессов немного. Для сравнения, Perplexity нагородила следующий список:
- orkʰestros
- sḗrinádhom(да, опять, только транслитерация другая)
- péstelā
- ákweléh₂
- ásh̥ltom
- knóphḱeh₂
- domofónos
- yásminéh₂(да, опять он)
- sirénéh₂(и она до кучи, чего мелочиться-то?)
- wétus-dó-nítḱeh₂(выражение "до нитки" списано целиком, при том, что в праиндоевропейском слово для "нити" было)
- r̥dh̥wéh₂dúǵʷʰéh₂(с "радугой-дугой" аналогично)
Как можно заметить, в зону риска попадают понятия, которых не было в праиндоевропейском, но сделал в 5 раз меньше ошибок, неплохо обрабатывая технические термины. Например, "домофон" он просто обходит, заменяя его "звонком в дом". Праиндоевропейская фраза строится почти как английскоеI am calling the house, что звучит вполне аутентично и отражает наш способ говорить о телефонии и связи без сложных терминов. Точно так же "акварель" передаётся как "водяные краски" – что корректно в рамках праиндоевропейского, так как слово для "краски" в нём было.
В защиту обоих чат-ботов могу сказать, что в принципе коммуникативная ситуация перевода современного текста на давно вымерший язык – нестандартна. Она требует предположения (ну хотя бы в рамках мысленного эксперимента), что этот язык дожил до наших дней и сосуществует с нашими культурно-историческими реалиями. А раз так, то он мог бы заимствовать и "кнопки" и "домофон", и "жасмин", не говоря уже об "оркестре" с "серенадой". Однако то, что в подстрочникеh₂ésminosстыдливо прячется за "ароматом цветов", аsḗrinádhomза "грустной песней", заставляет думать именно об артефакте генерации.
Ещё один характерный дефект перевода – искажение облика праиндоевропейских корней и их "слияние", происходящее из фундаментального свойства нейросетей – разделения слов и предложений на токены статистически, а не семантически. Немного я уже говорил об этом водной из предыдущих статей. Здесь примером такой ошибки являются строки
H₁ḗrtor mébʰeweti"Сердце моёбьётся"
Tód nókʷtibhéweti"То ночьюбудет"
Почему два абсолютно разных глагола переданы фактически одинаково? Дело в том, что в праиндоевропейском они могли звучать похоже. Русский глагол"бить" происходит от корня*bʰei-примерно с тем же значением, а глагол"быть"– от корня*bʰuH, который реже реконструируют как*bʰew-. В предельном случае мы получаем два похожих корня, отличающиеся дифтонгом-ei-или-eu-. Для праиндоевропейцев это были абсолютно разные дифтонги – как русский не перепутает А и О. Но это для живого праиндоевропейца они выглядели как"придыхательный_согласный_1 + дифтонг_1"и"придыхательный_согласный_1 + дифтонг_2". А для нейросети это последовательности из 4 символов, которые различаются только последним символом.
Алгоритмы типа байт-парного кодировщика (byte-pair encoder, BPE), лежащие в основе современных LLM, в таком случае склонны выделять первые три символа в отдельный токен: ведь его статистический вес в корпусе выше, чем у обоих корней, в которые он входит. Вот и получается, что последний символ "отламывается" от корня и легко "перепутывается" при переводе.
Самый удачный перевод в плане отсутствия галлюцинаций получился у Gemini. Как ему это удалось? А он вообще не стал и пытаться переводить дословно, сделав своего рода "сжатое изложение" в исключительно праиндоевропейских категориях. И такая интерпретация нравится мне ещё больше! Судите сами))
Nókʷts gʷémt, h₁éǵoh₂ stéh₂mi,Túh₂ né gʷémsi, ǵʰéh₂imi túm.Dṓm-pótis n̥ebʰos-yós mē-met-i,Wédōr n̥ebʰos-yóm, mōlyéti mē.Ночь пришла, я стою,Ты не приходишь, я жду тебя.Хозяин дома (дождь) облачный со мной говорит,Вода облачная страдает со мной.Léubʰeti-ne h₁n̥gʷris, mē-kʷe gʷéh₂dʰeti?Ḱḗr mē-si téd-yeti, dʰn̥gʷús-kʷe dʰǵʰémō.Né h₁éǵoh₂ wédōr, dʰǵʰémō-h₁éǵoh₂,Áty-eti wéid-os, wéid-mi léuk-om.Любит ли дождь, со мной ли скорбит?Сердце моё болит, и – мокрый человек.Я не вода, я человек,Уходит облик, вижу свет.Túh₂ gʷémsi kʷé dʰn̥gʷús, dʰwṓr-m gʷéh₂-si,“Gʷéh₂-dʰi dṓm-m mē”, wéuk-si dʰĝʰū-m.Wéidme dṓmi, tépos-kʷe mēsi,H₁n̥gʷris-kʷe mēsi h₃ókʷi bʰébʰāti.Ты приходишь и мокрая к двери идешь,«Иди в дом мой», – говоришь голосом.Мы видимся в доме, и тепло мне,И дождь мне в окно блестит.Kʷóm léubʰeti h₁n̥gʷris, gʷréi-ti n̥ebʰos-yós?Swépme póti-péri, léukom né-kʷe n̥négʷmi.Nókʷts gʷémt, wédōr dʰn̥gʷ-é-ti,Ḱḗr-kʷe mēsi, h₁éǵoh₂ túh₂-kʷe.Кого любит дождь, что пахнет облаками?Спим мы друг возле друга, свет не гасим.Ночь пришла, вода увлажняет,И сердце моё — я и ты.
В этом стихотворении из современных терминов, которые вызвали бы сложности у носителя праиндоевропейского, присутствует только "окно". Нейросеть просто заменяет его на "глаз" (h₃ókʷi), используя типологически частое решение: к праиндоевропейскому слову "глаз" (h₃ékʷs) восходят и русское "окно", и английское "window" (от скандинавского wind-auga "ветровой глаз"). В принципе, можно было на праиндоевропейском легко изобразить любую стратегию: и русскую с суффиксом-no-(*h₃ókʷ-no-m), и когнатную кальку с германской (*h₂weh₁n̥t-h₃ékʷs). Ну да ладно, и так сойдёт!
Ранее, кстати, читатели просили меня озвучивать свои реконструкции. Исправляюсь – Gemini свою генерацию озвучил! Озвучил не безупречно: например, он зачем-то произноситgʷкак[r](на самом деле это такой же звук, как-gu-в латинском словеanguis(змея). Послушать озвучку можнона платформеSoundcloud.
Вопрос: а Gemini можно подловить на каком-нибудь характерном дефекте перевода на праиндоевропейский? Да – обратите внимание на словоnebʰos-yós– "облачный". Ничего не кажется странным?
Nebʰos– это "облако", с типичным праиндоевропейским окончанием существительных-os. А-yo-– это суффикс, образующий прилагательное от существительного. Значит, "облачный" или "небесный" звучало бы какnebʰ-yós,то есть суффикс соединялся бы с корнем напрямую. Нейросеть же делает сэндвич из морфем: сначала приделывает окончание существительного, потом к нему добавляет суффикс прилагательного, потом такое же окончание... просто потому что у существительных и прилагательных они часто совпадали. Это не имело смысла ни в логике праиндоевропейского, ни в логике любого из индоевропейских языков. Просто, как я уже писал выше, нейросеть делит слова и предложения на токены статистически. В данном случае она захватилаnebʰ-osкак один токен и прикрепила суффикс уже к нему. Ей без разницы, что там есть окончание. Это всё проявление той же фундаментальной ошибки – неспособности провести границы морфем, которую я только что разобрал на примереDéiwos-Lókwos GPT. Две нейросети, разный уровень качества сгенерированного текста, но одни и те же фундаментальные ошибки, проистекающие из одинакового принципа работы.
Часть 2, в которой не находится слова для дождя
Но вы спросите меня – а толку тогда от такого нейросетевого перевода, если он не позволяет качественно реконструировать слова? Смысл есть хотя бы в том, чтобы наглядно продемонстрировать логику языка и её изменение за 5000 лет.
Моё стихотворение написано о дожде. Дождь – один из главных героев, персонифицируемая стихия, с которой говорит лирический герой. Но обе нейросети – и ChatGPT, и Gemini – передают "дождь" иносказательно. В первом случае это "дикая вода",wódr̥ h₁éǵros. Во втором –wédōr n̥ebʰ-yóm, "облачная вода". Perplexity использовал более радикальное решение, заменив "дождь" на "снег" (snigʷʰs). И если в случае одной нейросети можно подумать о галлюцинации, то сходные ответы трёх ботов наводят на мысль, что не всё так просто.
Дело в том, чтообщеиндоевропейского слова для дождя действительно нет. Его не реконструируется – в разных ветвях у дождя своя этимология.
Почему так? Здесь возможны два сценария. Первый – такое слово было, но заменилось во всех или почти во всех ветвях. Но мне эта гипотеза представляется маловероятной. Вторая опция – более интересна и вероятна. Она заключается в том, что дождьне осознавался праиндоевропейцами как отдельный концепт и объект– поэтому и слова отдельного не требовал. И на самом деле первая опция частично может вытекать из второй: если слово было, но заменилось настолько массово, значит, оно не было важным. Язык и среда его не требовали. Слово для дождя былоне нужно.
Нам это может показаться диким. Но причина – ровно так же самая, по которой для праиндоевропейского языка реконструируется только одно слово для снега (тот самыйsnigʷʰs), а в праэскимосско-алеутском реконструируется три слова для снега:*qaniɣ«падающий снег»,*aniɣu«упавший снег» и*apun«снег на земле». Я намеренно не сравниваю современные состояния языков – так как такие сравнения порождаюткучу мифов. А вот на праязыках тенденция видна яснее. И логика понятна: наполнение погодного лексикона диктуется внешней средой и типом хозяйствования. Если ты охотник-собиратель в Гренландии, тебе нужно много слов для снега. Если степной кочевник-скотовод – и одного хватит.
По той же причине, если ты степной кочевник-скотовод и не занимаешься земледелием, тебе слово для дождя особо не нужно. Плохую погоду можно описать и лаконичнымpléweti(мочит, льёт) иmergʰeti(моросит). А общее название для дождя тебе особо и не надо, если ты не сеешь и не пашешь, и тебе не важно количество осадков.Тебе не нужен дождь как объекти слово для него.
Косвенно эту теорию подтверждает сравнительная мифология: у праиндоевропейцев не реконструируется бога-громовержца. Верховный бог праиндоевропейцев*Dyḗus ph₂tḗr– это просто бог ясного неба. Черты громовержца приобретают лишь его "потомки" – латинский Юпитер и греческий Зевс. Былто-славяне и германцы вообще приходят к идее громовержца другим путём. Вот 5000 лет назад бога грома в пантеоне не было – а пару тысяч лет спустя все к нему дружно и независимо пришли. Что же случилось? Ах да, переход к земледелию, точно же...
Это плохая новость для меня: в таком языке и такой картине мира практически невозможен персоницифированный Дождь как лирический герой. Если дождь настолько не осознаётся как объект, что даже не отражается в мифологии – сама идея персоницифировать его в стихе наткнётся на непонимание. И замена на "дикую воду" здесь – лишь паллиативное решение. Полный смысл теряется.
Впредыдущем стихотворении, которое я переводил на праиндоевропейский, фигурировал поезд: то ли как аллегория воспоминаний героя, то ли как реальный поезд, идущий в тот город, где его больше не ждут и на который больше не имеет смысла садиться. И для "поезда" мне пришлось использовать неоиндоевропеизмdouknomиз проекта "Современный индоевропейский". Фокус в том, что любую техническую лексику объяснить гипотетическому попаданцу из прошлого куда проще: если бы я показал праиндоевропейцу поезд и назвал егоdouknom, мой собеседник удивился бы только безлошадной тяге. А так этоdouknom, естественно. Конечно,douknom. От корня*deuk-– вести за собой. НемецкоеZugустроено так же, да и праиндоевропейский корень в нём тот же. А вот попробуй теперь объяснить, что дождь – это отдельный концепт и его можно персонифицировать. Это будет куда сложнее.
Заключение, в котором я немножко рекламирую праиндоевропейский
Чем меня увлекает генерация праиндоевропейских текстов нейросетями? Тем, что она позволяет в пару кликов мышкой увидеть, как бы изменился мир в моих стихах за 5000 лет. Заметить изменения, которые иначе бы в голову не пришли. И увидеть, насколько язык такой давности не похож на наш..
Праиндоевропейский кажется мне вызовом именно потому, что в его корнях и морфологии угадывается и мой родной русский, и знакомый мне греческий, и изучавшаяся мной в университете латынь. Знакомые окончания и суффиксы, абсолютно понятные принципы склонения, спряжения и построения предложений. И в то же время – язык из абсолютно другого мира, имеющего мало общего с Древним Римом, Грецией и моей русскоязычной средой.
Это позволяет увидеть историю нашего мира за 5000 лет в чём-то даже чётче, чем многие учебники. Пока в Египте строили первые пирамиды, в Европе появилось понятие для дождя и возможность персонифицировать его в стихах. И лично я затрудняюсь сказать, что было большим переворотом в сознании и жизни. Тут бы впору вспомнить стихотворение Иллича-Свитыча о языке как броде через реку времени – но от ностратических намёков пока воздержимся. Об этом – в одной из следующих статей моего лингвоблога.
Изучайте праиндоевропейский. И пусть слова для любви находятся всегда, даже если не нашлось слова для дождя.