-
Notifications
You must be signed in to change notification settings - Fork 5
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
Showing
28 changed files
with
232 additions
and
0 deletions.
There are no files selected for viewing
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,65 @@ | ||
# Работа с Национальным корпусом русского языка \(НКРЯ\) | ||
|
||
[Национальный корпус русского языка](http://www.ruscorpora.ru/) -- это большая [коллекция тексто](http://ruscorpora.ru/corpora-structure.html)в разных веков и жанров с морфологической разметкой и поисковым интерфейсом. | ||
|
||
НКРЯ представляет русский язык в наиболее полном виде: во всём многообразии жанров, стилей, территориальных и социальных вариантов и содержит все типы письменных и устных текстов, представленных в русском языке. В Корпусе собраны художественные тексты разных жанров от Фонвизина до Улицкой, поэзия с конца 18 века, публицистика XX-XXI веков \(особенно широко представлена публицистика последних 40 лет\), научная литература всех направлений \(точные, естественные и гуманитарные науки\), официально-деловые тексты: заявления, служебные записки, инструкции, тексты бытовых жанров: мемуары, дневниковые записи, личная переписка, фрагменты интернет-чатов, записи устной разговорной речи, а также записи устной речи из фильмов, диалектные тексты и др._ \[studiorum\]_ | ||
|
||
Чтобы лучше оценить объемы и многообразие данных в НКРЯ, можно посмотреть [статистику](http://ruscorpora.ru/corpora-stat.html). | ||
|
||
Тексты размечены по следующим[ параметрам](http://ruscorpora.ru/corpora-parameter.html): | ||
|
||
![](/assets/rnc1.png) | ||
|
||
А чтобы было проще в них ориентироваться, НКРЯ разбит на подкорпуса: | ||
|
||
* [основной](http://ruscorpora.ru/search-main.html) | ||
* [синтаксический](http://www.ruscorpora.ru/search-syntax.html) | ||
* [газетный](http://www.ruscorpora.ru/search-paper.html) | ||
* [параллельный](http://www.ruscorpora.ru/search-para.html) | ||
* [обучающий](http://www.ruscorpora.ru/search-school.html) | ||
* [диалектный](http://www.ruscorpora.ru/search-dialect.html) | ||
* [поэтический](http://www.ruscorpora.ru/search-poetic.html) | ||
* [устный](http://www.ruscorpora.ru/search-spoken.html) | ||
* [акцентологический](http://www.ruscorpora.ru/search-accent.html) | ||
* [мультимедийный](http://www.ruscorpora.ru/search-murco.html) | ||
* [мультипарк](http://www.ruscorpora.ru/search-multiparc.html) | ||
* [исторический](http://www.ruscorpora.ru/search-old_rus.html) | ||
|
||
**Исторический** корпус содержит тексты на древнерусском языке, в** синтаксическом корпусе** помимо морфологических характеристик слов указаны их синтаксические связи в предложении, в** поэтическом** имеется особая разметка для строфики и рифмы, а **параллельный корпус** представляет собой собрание одинаковых текстов на каких-либо двух языках \(русский и французский, русский и китайский, русский и бурятский и т.п.\) | ||
|
||
У НКРЯ есть [собственный образовательный портал](http://studiorum-ruscorpora.ru/), на котором вы найдете [мануал по работе с корпусом](http://studiorum-ruscorpora.ru/help/) с пошаговыми инструкциями и скриншотами по разным видам поиска \(слово, словосочетание, слово с определенными грамматическими характеристиками...\) и созданию собственных подкорпусов \(это нужно, чтобы ограничить набор текстов, в которых вы будете искать какое-то слово, по годам или по жанрам, например\) . | ||
|
||
Поисковая выдача выглядит вот так: списком даются тексты \(они называются **документами**\) и примеры с ключевым словом, найденные в них. | ||
|
||
![](/assets/rnc22.png) | ||
|
||
Также в скобках указано, снята **омонимия** или нет: если да, то у слова будет один грамматический разбор, выбранный разметчиком, а если нет, значит вы увидите несколько возможных разборов, сгенерированных машиной. Чтобы посмотреть грамматические характеристики слова, нужно просто нажать на него: во всплывающем окне будет указана его **лемма** \(она же словарная форма\), грамматический разбор и семантический класс. | ||
|
||
![](/assets/rnc3.png) | ||
|
||
Грамматический разбор состоит из нескольких элементов, которые называются **граммемами**, или **грамматическими тегами** и могут принимать разные значения: например, часть речи \(существительное, глагол, прилагательное...\), число \(единственное, множественное\), падеж \(именительный, родительный...\). Со списком обозначений граммем и их расшифровками можно ознакомиться на [странице с описанием морфологической разметки](http://ruscorpora.ru/corpora-morph.html). Синтаксическую разметку, в свою очередь, можно посмотреть [вот тут](http://ruscorpora.ru/instruction-syntax.html), а семантическую -- [тут](http://ruscorpora.ru/corpora-sem.html). | ||
|
||
![](/assets/rnc4.png) | ||
|
||
Помимо стандартной выдачи можно посмотреть результаты в формате **KWIC **_\(Key Word In Context\),_ в котором отображается правый и левый **контекст** ключевого слова. Все примеры выравниваются по ключевому слову, поэтому выдачу в таком формате очень удобно анализировать. | ||
|
||
![](/assets/rnc5.png) | ||
|
||
Небольшую выборку из результатов поиска можно скачать либо в стандартном формате **XML** \(в котором, кстати, хранятся все тексты корпуса\), либо в специальном XML, адаптированном под табличные процессоры Excel и Open Office. Панель скачивания результатов выдачи расположена в самом низу страницы. | ||
|
||
![](/assets/rnc6.png) | ||
|
||
Открыв такой файл, вы увидите результаты поиска в формате KWIC, разбитые по колонкам "левый контекст", "центральное слово", "пунктуация", "правый контекст", "источник текста". Если вы хотите поближе познакомиться с XML-разметкой, можно почитать [вот этот мануал](https://support.office.com/ru-ru/article/XML-для-начинающих-A87D234D-4C2E-4409-9CBC-45E4EB857D44) от Microsoft. | ||
|
||
![](/assets/rnc7.png) | ||
|
||
Кроме того, НКРЯ умеет смотреть статистику употребления слова по годам и строить по ней графики. Если навести курсор на график, можно увидеть значение** ipm** _\(items per million\)_, или **относительную частоту употребления** за определенный год для данного слова. Частота ipm определяется как количество употреблений слова за год, поделенное на объем корпуса за этот год и умноженное на 1 миллион. Под графиком приведены **таблицы с абсолютным количеством** употреблений за определенный период времени. Перейти к графику можно либо по ссылке "Посмотреть статистику" на странице выдачи, либо [вот здесь](http://ruscorpora.ru/ngram.html). | ||
|
||
![](/assets/rnc8.png) | ||
|
||
Чем меньше значение сглаживания, тем более ломаной будет линия на графике. Ниже приведены графики, построенные по одним и тем же данным со сглаживанием 0 и 20. | ||
|
||
![](/assets/rnc9.png) | ||
|
||
![](/assets/rnc10.png) | ||
|
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -0,0 +1,79 @@ | ||
### AntConc | ||
|
||
[Download AntConc](http://www.laurenceanthony.net/software/antconc/) | ||
|
||
С помощью данной программы можно производить поиск и подсчет различных элементов текста, анализировать частотность и контекст употребления словоформ, словосочетаний и морфем, сравнивать употребительность словоформ в разных текстах. | ||
|
||
Отсутствие морфологического анализатора частично компенсируется возможностью подключения пользовательского списка лемм. Программа может быть использована для получения привязанных к заданной предметной области словарных минимумов, списков устойчивых сочетаний \(в том числе терминологических\), выборок к тематическим группам слов. | ||
|
||
Проще говоря, это программа, которая позволяет создать собственный корпус. Чтобы загрузить файл в меню _File_ нажимаем «Open File» \(файл должен быть в формате .txt/.xml/.html\). | ||
|
||
1.Открываем во второй сверху строке меню кнопку «Word List» \(вторяя слева\) и нажимаем кнопку «Start» \(внизу ближе к левому краю\). Программа выстроит все словоформы текста в порядке частотности | ||
|
||
2.Можно сортировать и по другим критериям. Если вместо «Sort by Freq» \(в самом низу\) выбрать «Sort by Word», произойдет сортировка по алфавиту, если выбрать «Sort by Word End», сортировка пойдет по концу слов. | ||
|
||
3.Если к тому же поставим галочку между фразами «Sort by» и «Invert Order», то сортировка пойдет в обратном порядке — от редких слов к частым или от _я_ до _а_. | ||
|
||
4.Можно кликнуть из списка любое слово, начнется его автоматический поиск в окне _Concordance_. | ||
|
||
**Конкорданс **– это список всех употреблений заданного языкового выражения \(например, слова\) в контексте, возможно, со ссылками на источник. | ||
|
||
\(В НКРЯ нечто похожее было тогда, когда мы выводили в KWIC.\) | ||
|
||
Если открыто окно _Concordance_, искомое слово можно ввести в окошко, находящееся между кнопкой «Start» и фразой «Search Term» и нажать «Start». Будет происходить поиск данного слова в контекстах. | ||
|
||
![](/assets/antconc1.png) | ||
|
||
Если убрать галочку над тем же окошком между словами «Search Term» и «Words», можно будет искать не только конкретную форму слова, но и похожие формы: например, пишем пункт — выйдет пункта, пункты и т. п. | ||
|
||
Кроме того можно использовать следующие специальные символы: | ||
|
||
![](/assets/antconc2.png) | ||
|
||
![](/assets/antconc3.png) | ||
|
||
![](/assets/antconc5.png) | ||
|
||
Вы можете сохранить результаты вашего поиска в отдельный файл: во вкладке _File_ –> «Save Output». | ||
|
||
**График конкорданса \(Concordance Plot\). **В этом инструменте все адреса для каждого элемента поиска представлены в виде «штрих-кода», указывающего на место в файле, где находится элемент. График позволяет увидеть, какие файлы включают искомый элемент. Он также может быть использован для определения места, где сталкиваются искомый элемент и кластер. Во вкладке _File View_ вы можете посмотреть расширенный контекст, в котором встречается искомое слово. | ||
|
||
![](/assets/antconc6.png) | ||
|
||
**Кластеры \(Clusters\). **Инструмент _кластеры_ используется для создания упорядоченного списка кластеров, которые появляются вокруг поиска в целевом файле, перечисленные в левой части главного окна. С помощью функции _Cluster Size_ мы можем изменять длину искомой последовательности. _Search Term Position_ задаёт позицию искомого слова внутри N-граммы. | ||
|
||
![](/assets/antconc7.png) | ||
|
||
**Коллокации \(Collocates\)**. Кластеры показывают N-граммы, которые встречаются в тексте \(т.е. слова, которые стоят рядом друг с другом непосредственно\), тогда как в списке коллокаций мы видим слова, которые статистически часто встречаются с искомым словом \(слова, находящиеся в «окне поиска» – _Window Span_\). | ||
|
||
Freq\(R\) насколько часто встречается данное слово справа от искомого | ||
|
||
Freq\(L\) насколько часто встречается данное слово слева от искомого | ||
|
||
Freq насколько часто встречается данное слово вместе с искомым | ||
|
||
Stat вероятность того, что данные слова встретятся вместе относительно того насколько часто они встречаются по отдельности. | ||
|
||
![](/assets/antconc8.png) | ||
|
||
**Список слов. **Данный инструмент подсчитывает все слова в корпусе и представляет их в упорядоченном списке. Это позволяет быстро найти, какие слова употребляются наиболее часто в корпусе. | ||
|
||
**Список ключевых слов. **В дополнение к созданию списка слов, с помощью _AntConc_ можно сравнить слова в целевом файле со словами, которые появляются в «базисном корпусе», чтобы создать список "Ключевых слов", которые являются наиболее частыми \(или редкими\) в целевых файлах. | ||
|
||
### Полезные ссылки | ||
|
||
[NGram Viewer User Guide](http://gf.nsu.ru/www/wp-content/uploads/2015/11/Google-Books-NGram-Viewer.pdf) | ||
|
||
[Sketch Engine User Guide](https://www.sketchengine.co.uk/user-guide/user-manual/) | ||
|
||
[Advanced Usage of Google NGram Viewer](https://books.google.com/ngrams/info#) | ||
|
||
[AntConc User Guide](http://www.laurenceanthony.net/software/antconc/resources/help_AntConc321_english.pdf) | ||
|
||
[AntConc Help](http://www.laurenceanthony.net/software/antconc/releases/AntConc352/help.pdf) | ||
|
||
[AntConc handout](https://hfroehlich.files.wordpress.com/2014/05/corpus-linguistics-with-antconc-hgf-handout.pdf) | ||
|
||
[Corpus Analysis with AntConc](https://programminghistorian.org/lessons/corpus-analysis-with-antconc)[ ](https://programminghistorian.org/lessons/corpus-analysis-with-antconc)\(tutorial\) | ||
|
||
[Sample Corpus](https://www.dropbox.com/s/cmt0m8wxcj78hh8/sample_corpus.txt?dl=0) |
Oops, something went wrong.