Сбор ингушского языка: словарь, корпус и ИИ в одном проекте

Ингушский язык — один из нахских языков кавказской семьи, родной для примерно 400–500 тысяч человек. На нём говорят в Ингушетии, частично в Чечне и диаспоре по всей России.

Так появился PaydaDosh — открытая лингвистическая платформа, которая сегодня является крупнейшим онлайн-словарём ингушского языка.

Что сейчас есть на платформе

  • 66 524 словарных статей с переводами, грамматическими пометами, формами, примерами и озвучками
  • Параллельный корпус — предложения из реальных текстов, выровненные с русским переводом
  • 2 156 пословиц с переводом, разбитых по 16 тематическим разделам
  • 171 притча с параллельным переводом
  • Разговорник — сотни готовых фраз, сгруппированных по ситуациям
  • Раздел «Вопросы» — сообщество отвечает на вопросы по грамматике, переводу и произношению
  • ИИ-помощник — к каждому вопросу автоматически формируется предварительный ответ на основе словаря и грамматики

Всё бесплатно и открыто для использования.

Откуда берутся данные

Основа словаря — проект «Словарный свод ингушского языка». Поверх него PaydaDosh интегрировал и продолжает пополнять данные из широкого круга лексикографических источников.

  • Ужахов М. Г. Ингушско-русский словарь, 1927
  • Мальсагов З. К. Ингушский терминологический сборник, 1933
  • Картоев М. У. Краткий словарь ингушской общественно-политической лексики, 1995

Каждая статья привязана к источнику с сокращённым кодом.

Как это работает технически

Нечёткий поиск с учётом морфологии. Ингушский — язык с эргативным строем, развитой падежной системой и глагольными классами.

Связка корпуса и словаря. Каждое предложение в корпусе привязано к конкретным словарным статьям.

Почему параллельный корпус — это не просто красиво

Параллельный перевод «Слова о полку Игореве» на ингушский — это 218 выровненных предложений, по которым можно изучать синтаксис ингушского в сравнении с хорошо изученным русским текстом.

Что дальше

  • Расширение корпуса: больше оригинальных ингушских текстов
  • Развитие ИИ-ответов с учётом специфики ингушской грамматики
Читать оригинал