На пути к лезгинскому онлайн-переводчику

В последние годы интернет переживает подлинную революцию, связанную с развитием нейросетей и искусственного интеллекта на их базе.

Эти перемены не обошли стороной и такую сферу интернета, как лингвистические технологии. Все современные онлайн-переводчики работают на базе обучающихся нейросетей, для которых каждый новый перевод — это пища для дальнейшего улучшения качества.

Конечно же, наилучшее качество перевода достигается для больших европейских языков — английского, русского, испанского, немецкого и других с их огромными перекрестными массивами данных. Специалисты говорят, что совсем скоро переводы между этими языками будут вполне адекватны тем, которые делал бы человек.

Но с каждым годом технические возможности и доступность нейросетевых технологий растут — и теперь очередь дошла до относительно небольших языков.

Учитывая важность цифровизации в современных условиях, вопрос создания онлайн-переводчиков для языков народов России взяло под свою опеку Федеральное агентство по делам национальностей в сотрудничестве с компанией «Яндекс».

На данный момент в Яндекс-переводчике, помимо русского, присутствуют еще 8 языков России: башкирский, марийский луговой, марийский горный, осетинский, татарский, удмуртский, чувашский, якутский. В течение трех лет в крупнейшем российском онлайн-переводчике должны появиться еще порядка 20 новых языков. Соответствующая работа в данный момент ведется в целом ряде регионов.

Республика Дагестан в языковом вопросе, как известно, стоит особняком. Это регион с самым большим языковым разнообразием в России, и создание онлайн-переводчиков для каждого из них — долгий процесс.

Тем не менее, при объединении усилий федерального центра, регионов, научных центров, общественных организаций и языковых активистов данная задача вполне реализуема.

Напомним, что в мае этого года в Москве в офисе компании «Яндекс» прошла стратегическая сессия «Информационные технологии и языки народов России», организованная Домом народов России при поддержке ФАДН России. Среди прочих, в ней принимали участие и представители ФЛНКА. Одним из итогов обсуждений стала предварительная договоренность о том, что в 2025 году, если будут пройдены все промежуточные этапы, ФЛНКА сможет способствовать включению лезгинского языка в Яндекс-переводчик.

Основной задачей, которую необходимо реализовать для преодоления своеобразного «порога вхождения» в Яндекс-переводчик — создать корпус из 100 тысяч параллельных переводов предложений с русского на лезгинский. Это минимальное значение — чем больше будет переводов, тем лучше будет конечный продукт. При этом сами эти предложения важно взять из специального русско-английского корпуса размером в 1 миллион предложений, разработанного «Яндексом». Все эти данные обрабатываются искусственным интеллектом, который сам с помощью сложных математических моделей определяет внутренние закономерности языка и учится переводить. Даже сами разработчики подобных IT-продуктов признаются, что для них все это тоже порой выглядит как своеобразная магия.

Примечательно, что в данный момент активно развивается открытый проект по созданию онлайн-переводчика, который создала и ведет группа молодых лезгинских энтузиастов — специалистов в сфере IT, в частности, искусственного интеллекта. Эта команда называет себя просто — Lezghian Community (Лезгинское сообщество).

Данный проект создан уже на совершенно иной платформе под названием Huggingface. Команда проекта уже загрузила в свою базу данных для обучения искусственного интеллекта большие массивы текстов, включая все статьи из лезгинской Википедии, имеющуюся в открытом доступе литературу на лезгинском языке и даже перевод Библии.

Принцип здесь тот же самый — необходимо создать достаточно большое число (чем больше, тем лучше) качественных параллельных переводов предложений. Потом все эти предложения загрузят в нейросеть — и можно пользоваться переводчиком!

Основной инструмент пополнения базы данных переводов — специально разработанный для этой цели телеграм-бот, который позволяет в интерактивном режиме участвовать в проекте любому пользователю мессенджера телеграм.

При активации бота он высылает пользователю случайное предложение на русском языке. Достаточно ввести в ответном сообщении перевод и отправить его. Желательно делать это регулярно, и поэтому модераторы создали специальное ежедневное напоминание для переводчиков.

Как подчеркнул в беседе с ФЛНКА один из инициаторов и моторов проекта Саид Азизов (да, это именно тот вундеркинд из Каспийска, который в 17 лет победил в Международном конкурсе по искусственному интеллекту), главные принципы деятельности Lezghian Community — исключительно некоммерческий характер и полная открытость на всех этапах. Тем не менее, как уверяют авторы проекта, это совершенно не значит, что в итоге в переводчике будут хаотичные переводы низкого качества. Обязательным этапом станет специальная модерация и проверка всего корпуса профессионалами. И в решении задачи привлечения профессионалов — знатоков языка — свою поддержку окажет ФЛНКА.

Кроме того, самых активных и профессиональных переводчиков ждут вознаграждения.

Отметим, что буквально спустя несколько дней после объявления о начале работы бота для создания онлайн-переводов база предложений уже насчитывает несколько тысяч — то ли еще будет! Уже сейчас, даже на базе имеющегося небольшого количества переводов, функционирует открытый прототип переводчика – каждый может убедиться в этом, перейдя по ссылке.

Учитывая, что для создания переводчика на любой из упомянутых платформ необходимо решить примерно одну и ту же задачу, представляется наилучшим решением консолидировать усилия всех заинтересованных сторон для формирования максимально большого и качественного корпуса параллельных текстовых переводов.

Этот же корпус может быть использован в дальнейшем для включения лезгинского языка еще и в «Гугл-переводчик», самый большой и известный среди подобных сервисов.

А уж у кого в итоге перевод окажется лучше — определят пользователи.

Таким образом, нет сомнений, что уже в обозримом будущем благодаря общим усилиям и новым технологиям удастся создать лезгинский онлайн-переводчик — один из важных и долгожданных инструментов для сохранения, популяризации и развития родного языка.