add seminars 7-10

ancatmara · Apr 12, 2019 · aead891 · aead891
1 parent 704808e
commit aead891
Show file tree

Hide file tree

Showing 28 changed files with 232 additions and 0 deletions.
diff --git a/assets/antconc1.png b/assets/antconc1.png
diff --git a/assets/antconc2.png b/assets/antconc2.png
diff --git a/assets/antconc3.png b/assets/antconc3.png
diff --git a/assets/antconc5.png b/assets/antconc5.png
diff --git a/assets/antconc6.png b/assets/antconc6.png
diff --git a/assets/antconc7.png b/assets/antconc7.png
diff --git a/assets/antconc8.png b/assets/antconc8.png
diff --git a/assets/ngrams1.png b/assets/ngrams1.png
diff --git a/assets/ngrams2.png b/assets/ngrams2.png
diff --git a/assets/ngrams3.png b/assets/ngrams3.png
diff --git a/assets/ngrams4.png b/assets/ngrams4.png
diff --git a/assets/rnc1.png b/assets/rnc1.png
diff --git a/assets/rnc10.png b/assets/rnc10.png
diff --git a/assets/rnc2.png b/assets/rnc2.png
diff --git a/assets/rnc22.png b/assets/rnc22.png
diff --git a/assets/rnc3.png b/assets/rnc3.png
diff --git a/assets/rnc4.png b/assets/rnc4.png
diff --git a/assets/rnc5.png b/assets/rnc5.png
diff --git a/assets/rnc6.png b/assets/rnc6.png
diff --git a/assets/rnc7.png b/assets/rnc7.png
diff --git a/assets/rnc8.png b/assets/rnc8.png
diff --git a/assets/rnc9.png b/assets/rnc9.png
diff --git a/assets/sketch1.png b/assets/sketch1.png
diff --git a/assets/sketch2.png b/assets/sketch2.png
diff --git a/assets/sketch3.png b/assets/sketch3.png
diff --git a/seminar-7.md b/seminar-7.md
@@ -0,0 +1,65 @@
+# Работа с Национальным корпусом русского языка \(НКРЯ\)
+
+[Национальный корпус русского языка](http://www.ruscorpora.ru/) -- это большая [коллекция тексто](http://ruscorpora.ru/corpora-structure.html)в разных веков и жанров с морфологической разметкой и поисковым интерфейсом.
+
+НКРЯ представляет русский язык в наиболее полном виде: во всём многообразии жанров, стилей, территориальных и социальных вариантов и содержит все типы письменных и устных текстов, представленных в русском языке. В Корпусе собраны художественные тексты разных жанров от Фонвизина до Улицкой, поэзия с конца 18 века, публицистика XX-XXI веков \(особенно широко представлена публицистика последних 40 лет\), научная литература всех направлений \(точные, естественные и гуманитарные науки\), официально-деловые тексты: заявления, служебные записки, инструкции, тексты бытовых жанров: мемуары, дневниковые записи, личная переписка, фрагменты интернет-чатов, записи устной разговорной речи, а также записи устной речи из фильмов, диалектные тексты и др._ \[studiorum\]_
+
+Чтобы лучше оценить объемы и многообразие данных в НКРЯ, можно посмотреть [статистику](http://ruscorpora.ru/corpora-stat.html).
+
+Тексты размечены по следующим[ параметрам](http://ruscorpora.ru/corpora-parameter.html):
+
+![](/assets/rnc1.png)
+
+А чтобы было проще в них ориентироваться, НКРЯ разбит на подкорпуса:
+
+* [основной](http://ruscorpora.ru/search-main.html)
+* [синтаксический](http://www.ruscorpora.ru/search-syntax.html) 
+* [газетный](http://www.ruscorpora.ru/search-paper.html)
+* [параллельный](http://www.ruscorpora.ru/search-para.html)
+* [обучающий](http://www.ruscorpora.ru/search-school.html)
+* [диалектный](http://www.ruscorpora.ru/search-dialect.html)
+* [поэтический](http://www.ruscorpora.ru/search-poetic.html)
+* [устный](http://www.ruscorpora.ru/search-spoken.html)
+* [акцентологический](http://www.ruscorpora.ru/search-accent.html)
+* [мультимедийный](http://www.ruscorpora.ru/search-murco.html)
+* [мультипарк](http://www.ruscorpora.ru/search-multiparc.html)
+* [исторический](http://www.ruscorpora.ru/search-old_rus.html)
+
+**Исторический** корпус содержит тексты на древнерусском языке, в** синтаксическом корпусе** помимо морфологических характеристик слов указаны их синтаксические связи в предложении, в** поэтическом** имеется особая разметка для строфики и рифмы, а **параллельный корпус** представляет собой собрание одинаковых текстов на каких-либо двух языках \(русский и французский, русский и китайский, русский и бурятский и т.п.\)
+
+У НКРЯ есть [собственный образовательный портал](http://studiorum-ruscorpora.ru/), на котором вы найдете [мануал по работе с корпусом](http://studiorum-ruscorpora.ru/help/) с пошаговыми инструкциями и скриншотами по разным видам поиска \(слово, словосочетание, слово с определенными грамматическими характеристиками...\) и созданию собственных подкорпусов \(это нужно, чтобы ограничить набор текстов, в которых вы будете искать какое-то слово, по годам или по жанрам, например\) .
+
+Поисковая выдача выглядит вот так: списком даются тексты \(они называются **документами**\) и примеры с ключевым словом, найденные в них.
+
+![](/assets/rnc22.png)
+
+Также в скобках указано, снята **омонимия** или нет: если да, то у слова будет один грамматический разбор, выбранный разметчиком, а если нет, значит вы увидите несколько возможных разборов, сгенерированных машиной. Чтобы посмотреть грамматические характеристики слова, нужно просто нажать на него: во всплывающем окне будет указана его **лемма** \(она же словарная форма\), грамматический разбор и семантический класс.
+
+![](/assets/rnc3.png)
+
+Грамматический разбор состоит из нескольких элементов, которые называются **граммемами**, или **грамматическими тегами** и могут принимать разные значения: например, часть речи \(существительное, глагол, прилагательное...\), число \(единственное, множественное\), падеж \(именительный, родительный...\). Со списком обозначений граммем и их расшифровками можно ознакомиться на [странице с описанием морфологической разметки](http://ruscorpora.ru/corpora-morph.html). Синтаксическую разметку, в свою очередь, можно посмотреть [вот тут](http://ruscorpora.ru/instruction-syntax.html), а семантическую -- [тут](http://ruscorpora.ru/corpora-sem.html).
+
+![](/assets/rnc4.png)
+
+Помимо стандартной выдачи можно посмотреть результаты в формате **KWIC **_\(Key Word In Context\),_ в котором отображается правый и левый **контекст** ключевого слова. Все примеры выравниваются по ключевому слову, поэтому выдачу в таком формате очень удобно анализировать.
+
+![](/assets/rnc5.png)
+
+Небольшую выборку из результатов поиска можно скачать либо в стандартном формате **XML** \(в котором, кстати, хранятся все тексты корпуса\), либо в специальном XML, адаптированном под табличные процессоры Excel и Open Office. Панель скачивания результатов выдачи расположена в самом низу страницы.
+
+![](/assets/rnc6.png)
+
+Открыв такой файл, вы увидите результаты поиска в формате KWIC, разбитые по колонкам "левый контекст", "центральное слово", "пунктуация", "правый контекст", "источник текста". Если вы хотите поближе познакомиться с XML-разметкой, можно почитать [вот этот мануал](https://support.office.com/ru-ru/article/XML-для-начинающих-A87D234D-4C2E-4409-9CBC-45E4EB857D44) от Microsoft.
+
+![](/assets/rnc7.png)
+
+Кроме того, НКРЯ умеет смотреть статистику употребления слова по годам и строить по ней графики. Если навести курсор на график, можно увидеть значение** ipm** _\(items per million\)_, или **относительную частоту употребления** за определенный год для данного слова. Частота ipm определяется как количество употреблений слова за год, поделенное на объем корпуса за этот год и умноженное на 1 миллион. Под графиком приведены **таблицы с абсолютным количеством** употреблений за определенный период времени. Перейти к графику можно либо по ссылке "Посмотреть статистику" на странице выдачи, либо [вот здесь](http://ruscorpora.ru/ngram.html).
+
+![](/assets/rnc8.png)
+
+Чем меньше значение сглаживания, тем более ломаной будет линия на графике. Ниже приведены графики, построенные по одним и тем же данным со сглаживанием 0 и 20.
+
+![](/assets/rnc9.png)
+
+![](/assets/rnc10.png)
+
diff --git a/seminar-8.md b/seminar-8.md
@@ -0,0 +1,79 @@
+### AntConc
+
+[Download AntConc](http://www.laurenceanthony.net/software/antconc/)
+
+С помощью данной программы можно производить поиск и подсчет различных элементов текста, анализировать частотность и контекст употребления словоформ, словосочетаний и морфем, сравнивать употребительность словоформ в разных текстах.
+
+Отсутствие морфологического анализатора частично компенсируется возможностью подключения пользовательского списка лемм. Программа может быть использована для получения привязанных к заданной предметной области словарных минимумов, списков устойчивых сочетаний \(в том числе терминологических\), выборок к тематическим группам слов.
+
+Проще говоря, это программа, которая позволяет создать собственный корпус. Чтобы загрузить файл в меню _File_ нажимаем «Open File» \(файл должен быть в формате .txt/.xml/.html\).
+
+1.Открываем во второй сверху строке меню кнопку «Word List» \(вторяя слева\) и нажимаем кнопку «Start» \(внизу ближе к левому краю\). Программа выстроит все словоформы текста в порядке частотности
+
+2.Можно сортировать и по другим критериям. Если вместо «Sort by Freq» \(в самом низу\) выбрать «Sort by Word», произойдет сортировка по алфавиту, если выбрать «Sort by Word End», сортировка пойдет по концу слов.
+
+3.Если к тому же поставим галочку между фразами «Sort by» и «Invert Order», то сортировка пойдет в обратном порядке — от редких слов к частым или от _я_ до _а_.
+
+4.Можно кликнуть из списка любое слово, начнется его автоматический поиск в окне _Concordance_.
+
+**Конкорданс **– это список всех употреблений заданного языкового выражения \(например, слова\) в контексте, возможно, со ссылками на источник.
+
+\(В НКРЯ нечто похожее было тогда, когда мы выводили в KWIC.\)
+
+Если открыто окно _Concordance_, искомое слово можно ввести в окошко, находящееся между кнопкой «Start» и фразой «Search Term» и нажать «Start». Будет происходить поиск данного слова в контекстах.
+
+![](/assets/antconc1.png)
+
+Если убрать галочку над тем же окошком между словами «Search Term» и «Words», можно будет искать не только конкретную форму слова, но и похожие формы: например, пишем пункт — выйдет пункта, пункты и т. п.
+
+Кроме того можно использовать следующие специальные символы:
+
+![](/assets/antconc2.png)
+
+![](/assets/antconc3.png)
+
+![](/assets/antconc5.png)
+
+Вы можете сохранить результаты вашего поиска в отдельный файл: во вкладке _File_ –&gt; «Save Output».
+
+**График конкорданса \(Concordance Plot\). **В этом инструменте все адреса для каждого элемента поиска представлены в виде «штрих-кода», указывающего на место в файле, где находится элемент. График позволяет увидеть, какие файлы включают искомый элемент. Он также может быть использован для определения места, где сталкиваются искомый элемент и кластер. Во вкладке _File View_ вы можете посмотреть расширенный контекст, в котором встречается искомое слово.
+
+![](/assets/antconc6.png)
+
+**Кластеры \(Clusters\). **Инструмент _кластеры_ используется для создания упорядоченного списка кластеров, которые появляются вокруг поиска в целевом файле, перечисленные в левой части главного окна. С помощью функции _Cluster Size_ мы можем изменять длину искомой последовательности. _Search Term Position_ задаёт позицию искомого слова внутри N-граммы.
+
+![](/assets/antconc7.png)
+
+**Коллокации \(Collocates\)**. Кластеры показывают N-граммы, которые встречаются в тексте \(т.е. слова, которые стоят рядом друг с другом непосредственно\), тогда как в списке коллокаций мы видим слова, которые статистически часто встречаются с искомым словом \(слова, находящиеся в «окне поиска» – _Window Span_\).
+
+Freq\(R\) насколько часто встречается данное слово справа от искомого
+
+Freq\(L\) насколько часто встречается данное слово слева от искомого
+
+Freq насколько часто встречается данное слово вместе с искомым
+
+Stat вероятность того, что данные слова встретятся вместе относительно того насколько часто они встречаются по отдельности.
+
+![](/assets/antconc8.png)
+
+**Список слов. **Данный инструмент подсчитывает все слова в корпусе и представляет их в упорядоченном списке. Это позволяет быстро найти, какие слова употребляются наиболее часто в корпусе.
+
+**Список ключевых слов. **В дополнение к созданию списка слов, с помощью _AntConc_ можно сравнить слова в целевом файле со словами, которые появляются в «базисном корпусе», чтобы создать список "Ключевых слов", которые являются наиболее частыми \(или редкими\) в целевых файлах.
+
+### Полезные ссылки
+
+[NGram Viewer User Guide](http://gf.nsu.ru/www/wp-content/uploads/2015/11/Google-Books-NGram-Viewer.pdf)
+
+[Sketch Engine User Guide](https://www.sketchengine.co.uk/user-guide/user-manual/)
+
+[Advanced Usage of Google NGram Viewer](https://books.google.com/ngrams/info#)
+
+[AntConc User Guide](http://www.laurenceanthony.net/software/antconc/resources/help_AntConc321_english.pdf)
+
+[AntConc Help](http://www.laurenceanthony.net/software/antconc/releases/AntConc352/help.pdf)
+
+[AntConc handout](https://hfroehlich.files.wordpress.com/2014/05/corpus-linguistics-with-antconc-hgf-handout.pdf)
+
+[Corpus Analysis with AntConc](https://programminghistorian.org/lessons/corpus-analysis-with-antconc)[ ](https://programminghistorian.org/lessons/corpus-analysis-with-antconc)\(tutorial\)
+
+[Sample Corpus](https://www.dropbox.com/s/cmt0m8wxcj78hh8/sample_corpus.txt?dl=0)