От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна.
18.09.2023Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем сегодняшнем материале.
-
Новые корпуса и пополнения
Невозможно представить себе корпус без текстов. За последние пару лет в НКРЯ не только появились новые коллекции, делающие его ещё более репрезентативным, но и целые новые корпуса.
Панхронический корпус
Один из наиболее важных новых корпусов — панхронический: https://ruscorpora.ru/corpus/panchron Как можно догадаться из названия, в корпусе присутствуют тексты разных периодов времени, от средневековых до современных. Чтобы подготовить его, лингвисты и разработчики объединили данные трёх исторических корпусов — древнерусского, старорусского и корпуса берестяных грамот — и основного корпуса. Это делает возможным составлять запросы, релевантные для нескольких веков развития русского языка. Грамматические признаки в новом корпусе унифицированы для всех корпусов, а искать можно по любой из форм слова: нормализованной раннедревнерусской (сълати), позднедревнерусской/старорусской (слати) или в современном русском облике (слать).
СКРИНШОТЫ ЗАПРОСОВ И РЕЗУЛЬТАТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna/
Примеры из XI века и XXI века.
Пример запроса: Имена собственные на -славъ: Ссылка: https://ruscorpora.ru/s/epoQd
Пример из XXI века
Русская классика
Произведения русских классических писателей, разумеется, присутствовали в корпусе и ранее. Тем не менее, добавление полных собраний сочинений в основной корпус могло бы негативно повлиять на сбалансированность корпуса. В собраниях сочинений тексты, в том числе и весьма объёмные, очень часто печатаются в нескольких вариантах: так заинтересованный читатель может проследить, как менялся текст от первоначальной правки к изданию. Однако для сбалансированного корпуса такие повторы становятся ненужным дублированием данных.
Новый корпус «Русская классика» https://ruscorpora.ru/corpus/classics позволяет максимально полно представить наследие русской классики без каких-либо ограничений: например, включить даже черновики и редакционные варианты произведений.
Пример запроса: Поиск оборота «она немедленно же» показывает, что он действительно характерен только для произведений Лескова. Ссылка: https://ruscorpora.ru/s/bWyge
СКРИНШОТЫ ЗАПРОСОВ И РЕЗУЛЬТАТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna/
От 2 до 15
Чтобы создать корпус детской литературы «От 2 до 15», https://ruscorpora.ru/corpus/kids был проведён масштабный опрос среди детей, подростков и их родителей. В ходе опроса авторы собрали информацию о самых популярных произведениях среди детей разных возрастов. Для каждого произведения была проведена разметка с помощью нейросетевых технологий: книги были разбиты на фрагменты, и для каждого фрагмента был предсказан возраст, в котором будет понятен этот текст.
В корпус вошли 75 наиболее популярных прозаических произведений зарубежных и отечественных авторов.
Пример запроса:
Можно, например, изучить несловарные формы в книгах о Гарри Поттере — в примеры из выдачи вошли не только имена собственные, но и специфичные для книг понятия, например, квиддич или зельеварение.
Ссылка на запрос: https://ruscorpora.ru/s/bDjBe
СКРИНШОТЫ ЗАПРОСОВ И РЕЗУЛЬТАТЫ СМ. ЗДЕСЬ: https://https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna/
Корпус блогов
Корпус записей из блогов и социальных сетей https://nofollow появился совсем недавно (пришлось дополнять статью в процессе работы над ней :)) и явно будет очень активно развиваться: например, разработчики планируют ввести разметку эмоджи и поиск по ним.
Уже сейчас можно исследовать диалоговую природу текстов: смотреть как на сами записи, так и на комментарии к ним.
И, конечно же, материал блогов и социальных сетей серьёзно отличается от текстов других корпусов.
СКРИНШОТЫ ЗАПРОСОВ И РЕЗУЛЬТАТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna/
Другие пополнения
Кроме того, были существенно дополнены и расширены и другие корпуса: в 2022 году объем НКРЯ вырос на 470 млн словоупотреблений и сейчас достигает более 1,5 миллиардов. Появились и новые параллельные корпуса: например, румынский и португальский.
Новые функции.
Другим направлением по развитию корпуса стало внедрение новых функций, как в поиске, так и в описании корпусов.
Автоматическое снятие омонимии
Для того, чтобы качественно оценивать статистические метрики в НКРЯ, а значит, внедрять большую часть нового функционала, нужно было решить проблемы неснятой морфологической омонимии. Например, слово «пирога» может быть и родительным падежом от «пирог», и именительным от лодки «пирога».
Раньше корпус делился на «снятник» и «неснятник» — для относительно небольшой части текстов основного корпуса омонимия была снята вручную. Но за последние годы нейросети научились разрешать омонимию настолько хорошо, что стало возможным сделать это для всего корпуса. С помощью нейросетевой программы РуБик морфологическая разметка была улучшена и обновлена.
Сейчас версии с омонимией, снятой РуБиком, доступны для основного корпуса и корпуса региональных СМИ.
Поиск коллокаций
Ранее в НКРЯ были доступны два основных вида поиска: поиск точной формы слова и лексико-грамматический поиск. В первом случае пользователь получал в выдаче только те примеры, в которых слово встречалось в форме, заданной в запросе. В лексико-грамматическом поиске можно было искать слово по лемме (начальной форме слова, например, по слову «кот» в выдаче попадались «коты», «котом» или «коту»), а также задавать грамматические, семантические и другие признаки (например, падеж или число для существительного, время или лицо для глагола).
Поиск коллокаций отличается от других видов поиска тем, что помимо употреблений интересующего пользователя слова ищутся также слова, с которыми оно часто встречается вместе. Например, со словом «блок» часто встречаются такие прилагательные, как «избирательный» или «прогрессивный», а «системный» даже не попал в первую десятку.
Ссылка на запрос: https://https://ruscorpora.ru/s/eEkNb
СКРИНШОТЫ ЗАПРОСОВ И РЕЗУЛЬТАТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna
Частотность в выдаче
Частотность, таблицу которой мы показали вам выше — ещё одна новая функция. Теперь в выдаче можно найти не только список примеров (отрывками из текста или конкордансом), но и информацию о наиболее частотных употреблениях форм слова или словосочетаний.
Например, форма «дождичка» достаточно популярна для слова «дождичек» — сказывается популярность идиомы «после дождичка в четверг».
Ссылка на запрос: https://ruscorpora.ru/s/dGmya
СКРИНШОТЫ ЗАПРОСОВ И РЕЗУЛЬТАТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna
Портрет корпуса
Кроме изменений в поиске и выдаче, дополнены и описания самих корпусов. Теперь пользователь может, нажав на кнопку «Об этом корпусе», получить основную информацию: описание корпуса и его особенностей, частотный словарь корпуса и статистику.
Описание корпуса
В описании указан состав корпуса, описание его разметки — морфологической и метатекстовой, а также релевантные публикации.
СКРИНШОТЫ СМ. ЗДЕСЬ: https://https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna
Описание на примере древнерусского корпуса
Частотный словарь
500 самых частотных лемм корпуса — чаще всего это служебные слова.
Частотный словарь для основного корпуса https://ruscorpora.ru/corpus/main/frequency-dictionary:
СКРИНШОТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna
Статистика
Показаны статистические характеристики корпуса: можно посмотреть, например, на распределение текстов по метаатрибутам.
Статистика корпуса на примере основного https://ruscorpora.ru/corpus/main/stats :
СКРИНШОТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna
Портрет подкорпуса
В портрете подкорпуса содержатся те же функции, что и в портрете корпуса, но теперь они сравниваются с исходным корпусом.
Например, посмотрим на разницу между полным вариантом основного корпуса и его подкорпуса, https://ruscorpora.ru/s/e0K7d отобранного с признаками «художественные тексты, место и время действия — ирреальный мир». В этом примере слова отсортированы по изменению ранга: так, чтобы видеть значимые лексические отличия.
Слова, которые заметно чаще встречаются в художественных текстах, чем во всем корпусе:
А ещё, например, в подкорпусе одновременно больше доля текстов, где автор — мужчина, и текстов, где автор — женщина: кажется неинтуитивным, но дело в том, что для всего корпуса больше доля текстов, где автор неизвестен.
СКРИНШОТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna
Портрет слова
Инструмент для тех, кто хочет собрать всю информацию об интересующем их слове.
Такой функционал уже был ранее в других национальных корпусах, теперь же исследовать слова можно и на материале русского языка.
В портрете слова есть:
• облако слов с похожими по смыслу словами (близкие по смыслу слова находятся с помощью векторной семантики)
• краткая информация о слове (лемма, грамматическая и семантическая информация, ссылка на словарное определение)
• распределение употреблений слова по годам
• статистика текстов по метаатрибутам
• примеры употребления слова
Слова, похожие на «чипсы»:
СКРИНШОТЫ СМ. ЗДЕСЬ: https://https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna
До 1960-х чипсов не существовало (по крайней мере, в русскоязычных текстах в НКРЯ):
А в 1960-х появились в журнале «Химия и жизнь»:
И другие новые вещи
• Возможно, вы уже заметили, но теперь в НКРЯ можно делать удобные и короткие ссылки на запрос. Например, такие: https://ruscorpora.ru/s/bk1xe
• На странице «Инструменты преподавателя» (https://ruscorpora.ru/page/tools-tutor/) есть ссылки на упражнения на основе НКРЯ и другие материалы для учителей
• Мобильная версия сайта — практически так же удобно, как с компьютера, а ещё можно искать слово «кот» прямо из метро
СКРИНШОТЫ СМ. ЗДЕСЬ: https://sysblok.ru/linguistics/ot-drevnerusskogo-do-korpusa-blogov-kak-izmenilsja-nacionalnyj-korpus-russkogo-jazyka-posle-redizajna
Отдельно отметим, что этот материал охватывает многие из изменений, но всё же не претендует на то, чтобы быть исчерпывающим.
Во-первых, часть из этих изменений могут быть достаточно специальными или не слишком заметными рядовому пользователю: например, появление автоматической синтаксической разметки в региональном корпусе или увеличение размера выгрузки (документа с примерами, который пользователь может скачать на своё устройство). И во-вторых, в самом Национальном корпусе русского языка освещаются все значительные изменения в корпусе.
-
Про все основные новости можно прочесть здесь: https://ruscorpora.ru/news , а разобраться с тем, как работать с корпусом, если вы новичок, — здесь: https://ruscorpora.ru/page/manual/
Документация корпуса, как и сам портал, тоже развивается постоянно.
Автор: Мария Подрядчикова. Редактор: Вера Шимко. «Системный Блокъ» — издание о цифровых технологиях в гуманитарных науках, искусстве, образовании и не только. «Системный Блокъ» – финалист премии «Просветитель» 2019 года.