Skip to content

Commit

Permalink
add seminars 7-10
Browse files Browse the repository at this point in the history
  • Loading branch information
ancatmara committed Apr 12, 2019
1 parent 704808e commit aead891
Show file tree
Hide file tree
Showing 28 changed files with 232 additions and 0 deletions.
Binary file added assets/antconc1.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/antconc2.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/antconc3.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/antconc5.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/antconc6.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/antconc7.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/antconc8.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/ngrams1.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/ngrams2.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/ngrams3.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/ngrams4.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/rnc1.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/rnc10.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/rnc2.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/rnc22.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/rnc3.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/rnc4.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/rnc5.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/rnc6.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/rnc7.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/rnc8.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/rnc9.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/sketch1.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/sketch2.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added assets/sketch3.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
65 changes: 65 additions & 0 deletions seminar-7.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,65 @@
# Работа с Национальным корпусом русского языка \(НКРЯ\)

[Национальный корпус русского языка](http://www.ruscorpora.ru/) -- это большая [коллекция тексто](http://ruscorpora.ru/corpora-structure.html)в разных веков и жанров с морфологической разметкой и поисковым интерфейсом.

НКРЯ представляет русский язык в наиболее полном виде: во всём многообразии жанров, стилей, территориальных и социальных вариантов и содержит все типы письменных и устных текстов, представленных в русском языке. В Корпусе собраны художественные тексты разных жанров от Фонвизина до Улицкой, поэзия с конца 18 века, публицистика XX-XXI веков \(особенно широко представлена публицистика последних 40 лет\), научная литература всех направлений \(точные, естественные и гуманитарные науки\), официально-деловые тексты: заявления, служебные записки, инструкции, тексты бытовых жанров: мемуары, дневниковые записи, личная переписка, фрагменты интернет-чатов, записи устной разговорной речи, а также записи устной речи из фильмов, диалектные тексты и др._ \[studiorum\]_

Чтобы лучше оценить объемы и многообразие данных в НКРЯ, можно посмотреть [статистику](http://ruscorpora.ru/corpora-stat.html).

Тексты размечены по следующим[ параметрам](http://ruscorpora.ru/corpora-parameter.html):

![](/assets/rnc1.png)

А чтобы было проще в них ориентироваться, НКРЯ разбит на подкорпуса:

* [основной](http://ruscorpora.ru/search-main.html)
* [синтаксический](http://www.ruscorpora.ru/search-syntax.html)
* [газетный](http://www.ruscorpora.ru/search-paper.html)
* [параллельный](http://www.ruscorpora.ru/search-para.html)
* [обучающий](http://www.ruscorpora.ru/search-school.html)
* [диалектный](http://www.ruscorpora.ru/search-dialect.html)
* [поэтический](http://www.ruscorpora.ru/search-poetic.html)
* [устный](http://www.ruscorpora.ru/search-spoken.html)
* [акцентологический](http://www.ruscorpora.ru/search-accent.html)
* [мультимедийный](http://www.ruscorpora.ru/search-murco.html)
* [мультипарк](http://www.ruscorpora.ru/search-multiparc.html)
* [исторический](http://www.ruscorpora.ru/search-old_rus.html)

**Исторический** корпус содержит тексты на древнерусском языке, в** синтаксическом корпусе** помимо морфологических характеристик слов указаны их синтаксические связи в предложении, в** поэтическом** имеется особая разметка для строфики и рифмы, а **параллельный корпус** представляет собой собрание одинаковых текстов на каких-либо двух языках \(русский и французский, русский и китайский, русский и бурятский и т.п.\)

У НКРЯ есть [собственный образовательный портал](http://studiorum-ruscorpora.ru/), на котором вы найдете [мануал по работе с корпусом](http://studiorum-ruscorpora.ru/help/) с пошаговыми инструкциями и скриншотами по разным видам поиска \(слово, словосочетание, слово с определенными грамматическими характеристиками...\) и созданию собственных подкорпусов \(это нужно, чтобы ограничить набор текстов, в которых вы будете искать какое-то слово, по годам или по жанрам, например\) .

Поисковая выдача выглядит вот так: списком даются тексты \(они называются **документами**\) и примеры с ключевым словом, найденные в них.

![](/assets/rnc22.png)

Также в скобках указано, снята **омонимия** или нет: если да, то у слова будет один грамматический разбор, выбранный разметчиком, а если нет, значит вы увидите несколько возможных разборов, сгенерированных машиной. Чтобы посмотреть грамматические характеристики слова, нужно просто нажать на него: во всплывающем окне будет указана его **лемма** \(она же словарная форма\), грамматический разбор и семантический класс.

![](/assets/rnc3.png)

Грамматический разбор состоит из нескольких элементов, которые называются **граммемами**, или **грамматическими тегами** и могут принимать разные значения: например, часть речи \(существительное, глагол, прилагательное...\), число \(единственное, множественное\), падеж \(именительный, родительный...\). Со списком обозначений граммем и их расшифровками можно ознакомиться на [странице с описанием морфологической разметки](http://ruscorpora.ru/corpora-morph.html). Синтаксическую разметку, в свою очередь, можно посмотреть [вот тут](http://ruscorpora.ru/instruction-syntax.html), а семантическую -- [тут](http://ruscorpora.ru/corpora-sem.html).

![](/assets/rnc4.png)

Помимо стандартной выдачи можно посмотреть результаты в формате **KWIC **_\(Key Word In Context\),_ в котором отображается правый и левый **контекст** ключевого слова. Все примеры выравниваются по ключевому слову, поэтому выдачу в таком формате очень удобно анализировать.

![](/assets/rnc5.png)

Небольшую выборку из результатов поиска можно скачать либо в стандартном формате **XML** \(в котором, кстати, хранятся все тексты корпуса\), либо в специальном XML, адаптированном под табличные процессоры Excel и Open Office. Панель скачивания результатов выдачи расположена в самом низу страницы.

![](/assets/rnc6.png)

Открыв такой файл, вы увидите результаты поиска в формате KWIC, разбитые по колонкам "левый контекст", "центральное слово", "пунктуация", "правый контекст", "источник текста". Если вы хотите поближе познакомиться с XML-разметкой, можно почитать [вот этот мануал](https://support.office.com/ru-ru/article/XML-для-начинающих-A87D234D-4C2E-4409-9CBC-45E4EB857D44) от Microsoft.

![](/assets/rnc7.png)

Кроме того, НКРЯ умеет смотреть статистику употребления слова по годам и строить по ней графики. Если навести курсор на график, можно увидеть значение** ipm** _\(items per million\)_, или **относительную частоту употребления** за определенный год для данного слова. Частота ipm определяется как количество употреблений слова за год, поделенное на объем корпуса за этот год и умноженное на 1 миллион. Под графиком приведены **таблицы с абсолютным количеством** употреблений за определенный период времени. Перейти к графику можно либо по ссылке "Посмотреть статистику" на странице выдачи, либо [вот здесь](http://ruscorpora.ru/ngram.html).

![](/assets/rnc8.png)

Чем меньше значение сглаживания, тем более ломаной будет линия на графике. Ниже приведены графики, построенные по одним и тем же данным со сглаживанием 0 и 20.

![](/assets/rnc9.png)

![](/assets/rnc10.png)

79 changes: 79 additions & 0 deletions seminar-8.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,79 @@
### AntConc

[Download AntConc](http://www.laurenceanthony.net/software/antconc/)

С помощью данной программы можно производить поиск и подсчет различных элементов текста, анализировать частотность и контекст употребления словоформ, словосочетаний и морфем, сравнивать употребительность словоформ в разных текстах.

Отсутствие морфологического анализатора частично компенсируется возможностью подключения пользовательского списка лемм. Программа может быть использована для получения привязанных к заданной предметной области словарных минимумов, списков устойчивых сочетаний \(в том числе терминологических\), выборок к тематическим группам слов.

Проще говоря, это программа, которая позволяет создать собственный корпус. Чтобы загрузить файл в меню _File_ нажимаем «Open File» \(файл должен быть в формате .txt/.xml/.html\).

1.Открываем во второй сверху строке меню кнопку «Word List» \(вторяя слева\) и нажимаем кнопку «Start» \(внизу ближе к левому краю\). Программа выстроит все словоформы текста в порядке частотности

2.Можно сортировать и по другим критериям. Если вместо «Sort by Freq» \(в самом низу\) выбрать «Sort by Word», произойдет сортировка по алфавиту, если выбрать «Sort by Word End», сортировка пойдет по концу слов.

3.Если к тому же поставим галочку между фразами «Sort by» и «Invert Order», то сортировка пойдет в обратном порядке — от редких слов к частым или от _я_ до _а_.

4.Можно кликнуть из списка любое слово, начнется его автоматический поиск в окне _Concordance_.

**Конкорданс **– это список всех употреблений заданного языкового выражения \(например, слова\) в контексте, возможно, со ссылками на источник.

\(В НКРЯ нечто похожее было тогда, когда мы выводили в KWIC.\)

Если открыто окно _Concordance_, искомое слово можно ввести в окошко, находящееся между кнопкой «Start» и фразой «Search Term» и нажать «Start». Будет происходить поиск данного слова в контекстах.

![](/assets/antconc1.png)

Если убрать галочку над тем же окошком между словами «Search Term» и «Words», можно будет искать не только конкретную форму слова, но и похожие формы: например, пишем пункт — выйдет пункта, пункты и т. п.

Кроме того можно использовать следующие специальные символы:

![](/assets/antconc2.png)

![](/assets/antconc3.png)

![](/assets/antconc5.png)

Вы можете сохранить результаты вашего поиска в отдельный файл: во вкладке _File_> «Save Output».

**График конкорданса \(Concordance Plot\). **В этом инструменте все адреса для каждого элемента поиска представлены в виде «штрих-кода», указывающего на место в файле, где находится элемент. График позволяет увидеть, какие файлы включают искомый элемент. Он также может быть использован для определения места, где сталкиваются искомый элемент и кластер. Во вкладке _File View_ вы можете посмотреть расширенный контекст, в котором встречается искомое слово.

![](/assets/antconc6.png)

**Кластеры \(Clusters\). **Инструмент _кластеры_ используется для создания упорядоченного списка кластеров, которые появляются вокруг поиска в целевом файле, перечисленные в левой части главного окна. С помощью функции _Cluster Size_ мы можем изменять длину искомой последовательности. _Search Term Position_ задаёт позицию искомого слова внутри N-граммы.

![](/assets/antconc7.png)

**Коллокации \(Collocates\)**. Кластеры показывают N-граммы, которые встречаются в тексте \(т.е. слова, которые стоят рядом друг с другом непосредственно\), тогда как в списке коллокаций мы видим слова, которые статистически часто встречаются с искомым словом \(слова, находящиеся в «окне поиска» – _Window Span_\).

Freq\(R\) насколько часто встречается данное слово справа от искомого

Freq\(L\) насколько часто встречается данное слово слева от искомого

Freq насколько часто встречается данное слово вместе с искомым

Stat вероятность того, что данные слова встретятся вместе относительно того насколько часто они встречаются по отдельности.

![](/assets/antconc8.png)

**Список слов. **Данный инструмент подсчитывает все слова в корпусе и представляет их в упорядоченном списке. Это позволяет быстро найти, какие слова употребляются наиболее часто в корпусе.

**Список ключевых слов. **В дополнение к созданию списка слов, с помощью _AntConc_ можно сравнить слова в целевом файле со словами, которые появляются в «базисном корпусе», чтобы создать список "Ключевых слов", которые являются наиболее частыми \(или редкими\) в целевых файлах.

### Полезные ссылки

[NGram Viewer User Guide](http://gf.nsu.ru/www/wp-content/uploads/2015/11/Google-Books-NGram-Viewer.pdf)

[Sketch Engine User Guide](https://www.sketchengine.co.uk/user-guide/user-manual/)

[Advanced Usage of Google NGram Viewer](https://books.google.com/ngrams/info#)

[AntConc User Guide](http://www.laurenceanthony.net/software/antconc/resources/help_AntConc321_english.pdf)

[AntConc Help](http://www.laurenceanthony.net/software/antconc/releases/AntConc352/help.pdf)

[AntConc handout](https://hfroehlich.files.wordpress.com/2014/05/corpus-linguistics-with-antconc-hgf-handout.pdf)

[Corpus Analysis with AntConc](https://programminghistorian.org/lessons/corpus-analysis-with-antconc)[ ](https://programminghistorian.org/lessons/corpus-analysis-with-antconc)\(tutorial\)

[Sample Corpus](https://www.dropbox.com/s/cmt0m8wxcj78hh8/sample_corpus.txt?dl=0)
Loading

0 comments on commit aead891

Please sign in to comment.