Ингушский язык — один из нахских языков кавказской семьи, родной для примерно 400–500 тысяч человек. На нём говорят в Ингушетии, частично в Чечне и диаспоре по всей России. Язык живой и имеет государственный статус, но его цифровое присутствие долго оставалось минимальным: разрозненные PDF-словари, несколько сообществ в соцсетях, почти ничего пригодного для повседневного использования.
Так появилсяPaydaDosh— открытая лингвистическая платформа, которая сегодня является крупнейшим онлайн-словарём ингушского языка.
Что сейчас есть на платформе
- 66 524 словарных статьис переводами, грамматическими пометами, формами, примерами и озвучками
- Параллельный корпус— предложения из реальных текстов, выровненные с русским переводом: исторический роман «Магас Благословенный» Иссы Кодзоева (34 156 предложений), ингушский фольклор (9 477 предложений), классика мировой литературы в переводе на ингушский — Пушкин, Тургенев, Свифт, Киплинг
- 2 156 пословицс переводом, разбитых по 16 тематическим разделам: труд, семья, честь, эздел, мудрость, старшие, дружба и другие
- 171 притчас параллельным переводом, составитель — И. А. Дахкильгов
- Разговорник— сотни готовых фраз, сгруппированных по ситуациям
- Раздел «Вопросы»(Хаттараш) — сообщество отвечает на вопросы по грамматике, переводу и произношению; ответы носителей языка помечаются отдельно
- ИИ-помощник— к каждому вопросу автоматически формируется предварительный ответ на основе словаря и грамматики
- Telegram-боти два Android-приложения, одно из которых работает полностью офлайн
Всё бесплатно и открыто для использования.
Откуда берутся данные
Основа словаря — проект «Словарный свод ингушского языка» (ghalghay.github.io). Поверх него PaydaDosh интегрировал и продолжает пополнять данные из широкого круга лексикографических источников — от классических словарей начала XX века до узкоспециализированных тематических изданий:
- Ужахов М. Г.Ингушско-русский словарь, 1927
- Мальсагов З. К.Ингушский терминологический сборник, 1933
- Картоев М. У.Краткий словарь ингушской общественно-политической лексики, 1995
- Ингушско-русский словарь неизвестного составителя
- Johanna Nichols.Ingush-English and English-Ingush Dictionary, Routledge Curzon, 2004 — с переводом на русский, выполненным Ахмедом Бековым
- Куркиев А. С.Ингушско-русский словарь: 11 142 слова, 2005
- Хайров Б. А.Наименование древнего и средневекового оружия на ингушском языке, 2012
- Дударов А.-М. М.Земледелие ингушей, 2015
- Барахоева Н. М., Кодзоев Н. Д., Хайров Б. А.Ингушско-русский и русско-ингушский словарь терминов, 2016
- Кодзоев Н. Д.Словарь компьютерных терминов (английско-ингушско-русский), 2016
- Тариева Л. У.Русско-ингушский словарь антонимов, 2017
- Кодзоев И.Толковый словарь архаизмов и малоупотребительных слов ингушского языка, 2018
- Кодзоев Н. Д.Медицина. Русско-ингушский словарь, 2019
- Кодзоев Н. Д.Русско-ингушский словарь (около 22 500 слов), 2021
- Гандаур-Эги М. Х., Хайров Б. А.Устаревшая лексика ингушского языка(УЛИЯ), Ингушский НИИ гуманитарных наук им. Ч. Э. Ахриева
- Детский журнал «СелаӀад» («Радуга») — словари из 294 номеров
- Названия месяцев, астрономические термины, словарь к тафсиру Корана и другие тематические источники
Каждая статья привязана к источнику с сокращённым кодом — это важно для исследователей, которые хотят проверить первоисточник.
Как это работает технически
Нечёткий поиск с учётом морфологии.Ингушский — язык с эргативным строем, развитой падежной системой и глагольными классами. Поиск умеет находить слово по словоформе, а точные совпадения приоритизируются над производными формами. Для языка, где одно слово может давать десятки форм, это принципиально.
Связка корпуса и словаря.Каждое предложение в корпусе привязано к конкретным словарным статьям. Кликнув на слово в тексте, попадаешь в его карточку. И наоборот: в карточке слова видны живые примеры употребления из корпуса с переводом. Поиск работает как по ингушскому тексту, так и по русскому переводу.
ИИ в разделе вопросов.К каждому новому вопросу по грамматике или переводу система автоматически формирует предварительный ответ — это снижает порог входа и помогает в момент, когда живые носители ещё не успели ответить. Правильные ответы голосованием поднимаются выше, лучший ответ отмечает автор вопроса.
Синхронизация сайта и Telegram.История поиска, избранное и связанные функции работают согласованно между сайтом и ботом для авторизованных пользователей. Новые фразы из разговорника появляются и на сайте, и в боте одновременно.
Пользовательский вклад с модерацией.Любой зарегистрированный пользователь может предложить новое слово, пример употребления или озвучку. Редактор проверяет качество перевода и корректность привязки, после одобрения материал попадает в общую базу — и на сайт, и в офлайн-приложение при следующем обновлении.
Почему параллельный корпус — это не просто красиво
Параллельный перевод «Слова о полку Игореве» на ингушский — это 218 выровненных предложений, по которым можно изучать синтаксис ингушского в сравнении с хорошо изученным русским текстом. «Капитанская дочка» — ещё 2 918 предложений с переводом. Для малых языков Кавказа подобных выровненных корпусов практически не существует, и каждый такой текст — реальный ресурс для вычислительной лингвистики и обучения языковых моделей.
Что дальше
- Расширение корпуса: больше оригинальных ингушских текстов
- Развитие ИИ-ответов с учётом специфики ингушской грамматики
- Инструменты для изучающих язык: флешкарты и квизы уже есть в мобильном приложении, хотим перенести их на сайт
Если вы занимаетесь вычислительной лингвистикой, документацией языков или просто интересуетесь малыми языками — всё открыто наpaydadosh.ru.
Будем рады вопросам в комментариях — особенно от тех, кто работал с эргативными языками, строил корпуса для языков с нестандартной графикой или подключал ИИ к лингвистическим платформам.