Телефоны: +7 (925) 0020022
+7 (903) 7697179

От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна.

18.09.2023

Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем сегодняшнем материале.

  • Новые корпуса и пополнения

Невозможно представить себе корпус без текстов. За последние пару лет в НКРЯ не только появились новые коллекции, делающие его ещё более репрезентативным, но и целые новые корпуса.

Панхронический корпус

Один из наиболее важных новых корпусов — панхроническийhttps://ruscorpora.ru/corpus/panchron Как можно догадаться из названия, в корпусе присутствуют тексты разных периодов времени, от средневековых до современных. Чтобы подготовить его, лингвисты и разработчики объединили данные трёх исторических корпусовдревнерусского, старорусского и корпуса берестяных грамот — и основного корпуса. Это делает возможным составлять запросы, релевантные для нескольких веков развития русского языка. Грамматические признаки в новом корпусе унифицированы для всех корпусов, а искать можно по любой из форм слова: нормализованной раннедревнерусской (сълати), позднедревнерусской/старорусской (слати) или в современном русском облике (слать).

СКРИНШОТЫ ЗАПРОСОВ И РЕЗУЛЬТАТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna/

Примеры из XI века и XXI века.

Пример запроса: Имена собственные на -славъ: Ссылка: https://ruscorpora.ru/s/epoQd

Пример из XXI века

Русская классика

Произведения русских классических писателей, разумеется, присутствовали в корпусе и ранее. Тем не менее, добавление полных собраний сочинений в основной корпус могло бы негативно повлиять на сбалансированность корпуса. В собраниях сочинений тексты, в том числе и весьма объёмные, очень часто печатаются в нескольких вариантах: так заинтересованный читатель может проследить, как менялся текст от первоначальной правки к изданию. Однако для сбалансированного корпуса такие повторы становятся ненужным дублированием данных.

Новый корпус «Русская классика» https://ruscorpora.ru/corpus/classics позволяет максимально полно представить наследие русской классики без каких-либо ограничений: например, включить даже черновики и редакционные варианты произведений.

Пример запроса: Поиск оборота «она немедленно же» показывает, что он действительно характерен только для произведений Лескова. Ссылка: https://ruscorpora.ru/s/bWyge

СКРИНШОТЫ ЗАПРОСОВ И РЕЗУЛЬТАТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna/

От 2 до 15

Чтобы создать корпус детской литературы «От 2 до 15», https://ruscorpora.ru/corpus/kids был проведён масштабный опрос среди детей, подростков и их родителей. В ходе опроса авторы собрали информацию о самых популярных произведениях среди детей разных возрастов. Для каждого произведения была проведена разметка с помощью нейросетевых технологий: книги были разбиты на фрагменты, и для каждого фрагмента был предсказан возраст, в котором будет понятен этот текст.

В корпус вошли 75 наиболее популярных прозаических произведений зарубежных и отечественных авторов.

Пример запроса:

Можно, например, изучить несловарные формы в книгах о Гарри Поттере — в примеры из выдачи вошли не только имена собственные, но и специфичные для книг понятия, например, квиддич или зельеварение.

Ссылка на запрос: https://ruscorpora.ru/s/bDjBe

СКРИНШОТЫ ЗАПРОСОВ И РЕЗУЛЬТАТЫ СМ. ЗДЕСЬ: https://https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna/

Корпус блогов

Корпус записей из блогов и социальных сетей https://nofollow появился совсем недавно (пришлось дополнять статью в процессе работы над ней :)) и явно будет очень активно развиваться: например, разработчики планируют ввести разметку эмоджи и поиск по ним.

Уже сейчас можно исследовать диалоговую природу текстов: смотреть как на сами записи, так и на комментарии к ним.

И, конечно же, материал блогов и социальных сетей серьёзно отличается от текстов других корпусов.

СКРИНШОТЫ ЗАПРОСОВ И РЕЗУЛЬТАТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna/

Другие пополнения

Кроме того, были существенно дополнены и расширены и другие корпуса: в 2022 году объем НКРЯ вырос на 470 млн словоупотреблений и сейчас достигает более 1,5 миллиардов. Появились и новые параллельные корпуса: например, румынский и португальский.

Новые функции.

Другим направлением по развитию корпуса стало внедрение новых функций, как в поиске, так и в описании корпусов.

Автоматическое снятие омонимии

Для того, чтобы качественно оценивать статистические метрики в НКРЯ, а значит, внедрять большую часть нового функционала, нужно было решить проблемы неснятой морфологической омонимии. Например, слово «пирога» может быть и родительным падежом от «пирог», и именительным от лодки «пирога».

Раньше корпус делился на «снятник» и «неснятник» — для относительно небольшой части текстов основного корпуса омонимия была снята вручную. Но за последние годы нейросети научились разрешать омонимию настолько хорошо, что стало возможным сделать это для всего корпуса. С помощью нейросетевой программы РуБик морфологическая разметка была улучшена и обновлена.

Сейчас версии с омонимией, снятой РуБиком, доступны для основного корпуса и корпуса региональных СМИ.

Поиск коллокаций

Ранее в НКРЯ были доступны два основных вида поиска: поиск точной формы слова и лексико-грамматический поиск. В первом случае пользователь получал в выдаче только те примеры, в которых слово встречалось в форме, заданной в запросе. В лексико-грамматическом поиске можно было искать слово по лемме (начальной форме слова, например, по слову «кот» в выдаче попадались «коты», «котом» или «коту»), а также задавать грамматические, семантические и другие признаки (например, падеж или число для существительного, время или лицо для глагола).

Поиск коллокаций отличается от других видов поиска тем, что помимо употреблений интересующего пользователя слова ищутся также слова, с которыми оно часто встречается вместе. Например, со словом «блок» часто встречаются такие прилагательные, как «избирательный» или «прогрессивный», а «системный» даже не попал в первую десятку.

Ссылка на запрос: https://https://ruscorpora.ru/s/eEkNb

СКРИНШОТЫ ЗАПРОСОВ И РЕЗУЛЬТАТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna

Частотность в выдаче

Частотность, таблицу которой мы показали вам выше — ещё одна новая функция. Теперь в выдаче можно найти не только список примеров (отрывками из текста или конкордансом), но и информацию о наиболее частотных употреблениях форм слова или словосочетаний.

Например, форма «дождичка» достаточно популярна для слова «дождичек» — сказывается популярность идиомы «после дождичка в четверг».

Ссылка на запрос: https://ruscorpora.ru/s/dGmya

СКРИНШОТЫ ЗАПРОСОВ И РЕЗУЛЬТАТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna

Портрет корпуса

Кроме изменений в поиске и выдаче, дополнены и описания самих корпусов. Теперь пользователь может, нажав на кнопку «Об этом корпусе», получить основную информацию: описание корпуса и его особенностей, частотный словарь корпуса и статистику.

Описание корпуса

В описании указан состав корпуса, описание его разметки — морфологической и метатекстовой, а также релевантные публикации.

СКРИНШОТЫ СМ. ЗДЕСЬ: https://https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna

Описание на примере древнерусского корпуса

Частотный словарь

500 самых частотных лемм корпуса — чаще всего это служебные слова.

Частотный словарь для основного корпуса https://ruscorpora.ru/corpus/main/frequency-dictionary:

СКРИНШОТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna

Статистика

Показаны статистические характеристики корпуса: можно посмотреть, например, на распределение текстов по метаатрибутам.

Статистика корпуса на примере основного https://ruscorpora.ru/corpus/main/stats :

СКРИНШОТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna

Портрет подкорпуса

В портрете подкорпуса содержатся те же функции, что и в портрете корпуса, но теперь они сравниваются с исходным корпусом.

Например, посмотрим на разницу между полным вариантом основного корпуса и его подкорпуса, https://ruscorpora.ru/s/e0K7d отобранного с признаками «художественные тексты, место и время действия — ирреальный мир». В этом примере слова отсортированы по изменению ранга: так, чтобы видеть значимые лексические отличия.

Слова, которые заметно чаще встречаются в художественных текстах, чем во всем корпусе:

А ещё, например, в подкорпусе одновременно больше доля текстов, где автор — мужчина, и текстов, где автор — женщина: кажется неинтуитивным, но дело в том, что для всего корпуса больше доля текстов, где автор неизвестен.

СКРИНШОТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna

Портрет слова

Инструмент для тех, кто хочет собрать всю информацию об интересующем их слове.

Такой функционал уже был ранее в других национальных корпусах, теперь же исследовать слова можно и на материале русского языка.

В портрете слова есть:

        • облако слов с похожими по смыслу словами (близкие по смыслу слова находятся с помощью векторной семантики)

       • краткая информация о слове (лемма, грамматическая и семантическая информация, ссылка на словарное определение)

       • распределение употреблений слова по годам

       • статистика текстов по метаатрибутам

        • примеры употребления слова

Слова, похожие на «чипсы»:

СКРИНШОТЫ СМ. ЗДЕСЬ: https://https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna

До 1960-х чипсов не существовало (по крайней мере, в русскоязычных текстах в НКРЯ):

А в 1960-х появились в журнале «Химия и жизнь»:

И другие новые вещи

        • Возможно, вы уже заметили, но теперь в НКРЯ можно делать удобные и короткие ссылки на запрос. Например, такие: https://ruscorpora.ru/s/bk1xe

       • На странице «Инструменты преподавателя» (https://ruscorpora.ru/page/tools-tutor/) есть ссылки на упражнения на основе НКРЯ и другие материалы для учителей

       • Мобильная версия сайта — практически так же удобно, как с компьютера, а ещё можно искать слово «кот» прямо из метро

СКРИНШОТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna

Отдельно отметим, что этот материал охватывает многие из изменений, но всё же не претендует на то, чтобы быть исчерпывающим.

Во-первых, часть из этих изменений могут быть достаточно специальными или не слишком заметными рядовому пользователю: например, появление автоматической синтаксической разметки в региональном корпусе или увеличение размера выгрузки (документа с примерами, который пользователь может скачать на своё устройство). И во-вторых, в самом Национальном корпусе русского языка освещаются все значительные изменения в корпусе.

Документация корпуса, как и сам портал, тоже развивается постоянно.

Автор: Мария Подрядчикова. Редактор: Вера Шимко. «Системный Блокъ» — издание о цифровых технологиях в гуманитарных науках, искусстве, образовании и не только. «Системный Блокъ» – финалист премии «Просветитель» 2019 года.

https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna/