В Москве прошла первая стратегическая сессия «Информационные технологии и языки народов России».
13.06.2024В современном мире, чтобы язык сохранялся и полноценно функционировал, он должен быть представлен в интернете и на нём должен регулярно создаваться новый контент. Участники сессии обсудили разные способы реализации государственной политики в сфере поддержки языков коренных народов России в киберпространстве. Грамота.Ру выделила самое интересное.
Александр Антонов, руководитель группы оценки качества переводов в «Яндексе», рассказал о внедрении в «Яндекс Переводчик» языков народов России. На первых этапах развития машинного перевода лингвисты и программисты ориентировались на двуязычные словари и базовые правила перевода, а по мере развития технологий стали использовать языковые модели, фразовые таблицы и перевод с помощью нейросетей. Перевод, сделанный нейросетью, гораздо больше похож на выполненный человеком.
https://disk.yandex.ru/i/aEgdKFZZWuyirA
Для внедрения в онлайн-переводчик нового языка нужны данные, прежде всего параллельные корпусы: чем больше корпус параллельных предложений, тем выше качество перевода. Для среднего корпуса нужно хотя бы 600–700 тыс. предложений. Для популярных языков вроде английского и французского есть миллионы предложений и фраз.
В «Яндекс Переводчике» сто языков, из них несколько — языки народов России (включая башкирский, татарский, удмуртский, чувашский и якутский).
Основное «топливо» для переводных пар с новыми языками составляют корпусы активистов. Ещё одно важное усовершенствование — контрастное дообучение, когда носитель языка проверяет и исправляет переводы, чтобы потом показать программе, какой перевод хороший, а какой плохой.
Старший менеджер продукта в НКРЯ Ирина Виноградова отметила, что в Национальном корпусе представлены такие языки народов России, как башкирский, бурятский и хакасский (в работе чувашский и карельский). НКРЯ — это 49 корпусов, в том числе 28 параллельных. В НКРЯ представлены новые технологии разметки, пять видов поиска, полезные инструменты для исследователей и преподавателей.
Тексты, попадающие в корпус, проходят оцифровку, вычитку, токенизацию (разбивку на слова), нейроразметку морфологии и синтаксиса, морфологический анализ, разметку семантики и в самом конце объединение модели и индексацию. Одна из уникальных возможностей — поиск сразу на двух языках с параллельной выдачей.
Айгиз Кунафин, разработчик умной колонки на башкирском языке «Һомай», поделился личной историей: старший сын хорошо говорит по-башкирски, а младшая дочь уже только понимает, но не говорит на нём, из-за чего разрывается цепочка передачи языка. Большая проблема — отсутствие в достаточном количестве контента на родном для детей этническом языке. [Умай или Юмай — древняя тюркская и монгольская богиня, а также это имя девушки, которая озвучивает колонку].
Так как умная колонка «Алиса» от «Яндекса» пока не поддерживает башкирский язык, Айгиз решил создать своё устройство со схожими функциональными возможностями. Башкирская колонка умеет отвечать на вопросы, поддерживать диалог, сказать, который час, дать прогноз погоды и поставить таймер.
В будущем колонка «Һомай» сможет выполнять функции домашнего репетитора, помогая ребёнку найти решение самостоятельно, а не давая ему готовый ответ.
Айгиз Кунафин получил грант (6 млн рублей) от правительства Республики Башкортостан, который позволит развивать продукт. Отдельные команды в рамках общей платформы будут работать над созданием колонок на татарском, марийском, казахском и чувашском языках.
Заместитель руководителя сервиса «Яндекс Поиск по архивам» Андрей Михеев объяснил, как с помощью этого инструмента найти информацию о своих предках, если они жили на территории Российской империи. В архиве можно искать по фамилии, имени, отчеству и месту жительства, поиск выдаст оригинальный документ и расшифровку текста.
Самая большая проблема для разработчиков — распознавание рукописного текста. Нейросеть может распознать даже трудночитаемые печатные тексты (на это она натренирована), но не всегда рукописные — каждый почерк уникален, над этой задачей ещё предстоит работать.
В архиве есть материалы не только на русском, но и на языках, которые использовали народы Российской империи: иврите, немецком, польском, латинском, есть данные из Центрального государственного архива Республики Дагестан. Такие тексты пока тоже распознаю́тся плохо, но не исключено, что в перспективе каждый житель России сможет узнать, кто были его предки вплоть до XVIII века.
Портал «Грамота.ру», сетевое СМИ, свидетельство о регистрации СМИ: ЭЛ № ФС 77 - 84700, выдано 10.02.2023; функционирует при финансовой поддержке Министерства цифрового развития, связи и массовых коммуникаций Российской Федерации.