Работа с Национальным корпусом русского языка (НКРЯ)

Национальный корпус русского языка -- это большая коллекция текстов разных веков и жанров с морфологической разметкой и поисковым интерфейсом.

НКРЯ представляет русский язык в наиболее полном виде: во всём многообразии жанров, стилей, территориальных и социальных вариантов и содержит все типы письменных и устных текстов, представленных в русском языке. В Корпусе собраны художественные тексты разных жанров от Фонвизина до Улицкой, поэзия с конца 18 века, публицистика XX-XXI веков (особенно широко представлена публицистика последних 40 лет), научная литература всех направлений (точные, естественные и гуманитарные науки), официально-деловые тексты: заявления, служебные записки, инструкции, тексты бытовых жанров: мемуары, дневниковые записи, личная переписка, фрагменты интернет-чатов, записи устной разговорной речи, а также записи устной речи из фильмов, диалектные тексты и др._ [studiorum]_

Чтобы лучше оценить объемы и многообразие данных в НКРЯ, можно посмотреть статистику.

Тексты размечены по следующим параметрам:

А чтобы было проще в них ориентироваться, НКРЯ разбит на подкорпуса:

основной
синтаксический
газетный
параллельный
обучающий
диалектный
поэтический
устный
акцентологический
мультимедийный
мультипарк
исторический

Исторический корпус содержит тексты на древнерусском языке, в** синтаксическом корпусе** помимо морфологических характеристик слов указаны их синтаксические связи в предложении, в** поэтическом** имеется особая разметка для строфики и рифмы, а параллельный корпус представляет собой собрание одинаковых текстов на каких-либо двух языках (русский и французский, русский и китайский, русский и бурятский и т.п.)

У НКРЯ есть собственный образовательный портал, на котором вы найдете мануал по работе с корпусом с пошаговыми инструкциями и скриншотами по разным видам поиска (слово, словосочетание, слово с определенными грамматическими характеристиками...) и созданию собственных подкорпусов (это нужно, чтобы ограничить набор текстов, в которых вы будете искать какое-то слово, по годам или по жанрам, например) .

Поисковая выдача выглядит вот так: списком даются тексты (они называются документами) и примеры с ключевым словом, найденные в них.

Также в скобках указано, снята омонимия или нет: если да, то у слова будет один грамматический разбор, выбранный разметчиком, а если нет, значит вы увидите несколько возможных разборов, сгенерированных машиной. Чтобы посмотреть грамматические характеристики слова, нужно просто нажать на него: во всплывающем окне будет указана его лемма (она же словарная форма), грамматический разбор и семантический класс.

Грамматический разбор состоит из нескольких элементов, которые называются граммемами, или грамматическими тегами и могут принимать разные значения: например, часть речи (существительное, глагол, прилагательное...), число (единственное, множественное), падеж (именительный, родительный...). Со списком обозначений граммем и их расшифровками можно ознакомиться на странице с описанием морфологической разметки. Синтаксическую разметку, в свою очередь, можно посмотреть вот тут, а семантическую -- тут.

Помимо стандартной выдачи можно посмотреть результаты в формате **KWIC **(Key Word In Context), в котором отображается правый и левый контекст ключевого слова. Все примеры выравниваются по ключевому слову, поэтому выдачу в таком формате очень удобно анализировать.

Небольшую выборку из результатов поиска можно скачать либо в стандартном формате XML (в котором, кстати, хранятся все тексты корпуса), либо в специальном XML, адаптированном под табличные процессоры Excel и Open Office. Панель скачивания результатов выдачи расположена в самом низу страницы.

Открыв такой файл, вы увидите результаты поиска в формате KWIC, разбитые по колонкам "левый контекст", "центральное слово", "пунктуация", "правый контекст", "источник текста". Если вы хотите поближе познакомиться с XML-разметкой, можно почитать вот этот мануал от Microsoft.

Кроме того, НКРЯ умеет смотреть статистику употребления слова по годам и строить по ней графики. Если навести курсор на график, можно увидеть значение** ipm** (items per million), или относительную частоту употребления за определенный год для данного слова. Частота ipm определяется как количество употреблений слова за год, поделенное на объем корпуса за этот год и умноженное на 1 миллион. Под графиком приведены таблицы с абсолютным количеством употреблений за определенный период времени. Перейти к графику можно либо по ссылке "Посмотреть статистику" на странице выдачи, либо вот здесь.

Чем меньше значение сглаживания, тем более ломаной будет линия на графике. Ниже приведены графики, построенные по одним и тем же данным со сглаживанием 0 и 20.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

seminar-6.md

seminar-6.md

Работа с Национальным корпусом русского языка (НКРЯ)

Files

seminar-6.md

Latest commit

History

seminar-6.md

File metadata and controls

Работа с Национальным корпусом русского языка (НКРЯ)