Skip to content

Latest commit

 

History

History
84 lines (48 loc) · 9.73 KB

seminar-9.md

File metadata and controls

84 lines (48 loc) · 9.73 KB

Корпусные приложения

N-gram Viewer

N-грамма — последовательность из n слов. Последовательность из двух последовательных элементов часто называют биграмма, последовательность из трёх элементов называется триграмма. Не менее четырёх и выше элементов обозначаются как N-грамма, N заменяется на количество последовательных элементов: 4-граммы, 5-граммы и т.д.

Использование данных при поиске и построении графиков ограничено N-граммами: для построения графика N-грамма должна встречаться в соответствующем корпусе не менее 40 раз.

Частотность – процент искомой единицы от числа соответствующих единиц (слово относительно всех слов, биграммы относительно всех биграмм и т.д.).

О кнопках

  • case-insensitive — при установке флажка в окне система не различает заглавные и строчные буквы;
  • between ... and ... — между ... и... (окно указания временного периода, вводится год начала исследования и конца исследования);
  • from the corpus — из корпуса (выбрать из выпадающего меню)

  • with smoothing — со сглаживанием (выбрать из выпадающего меню);
  • search lots of books – искать в массивах книг (кнопка команды на поиск и построение графика).

Кроме построения графиков, система представляет ссылки к текстам, найденным по запросам. Как правило, это библиографические описания книг и фрагменты текстов с выделением в них цветом заданных N-грамм. В некоторых случаях доступен полный текст книги в графическом формате.

Запросы

Чтобы получить сравнить частотности нескольких единиц, запишите их через запятую.

По умолчанию поиск осуществляется с учетом регистра: если вы хотите это изменить, поставьте соответствующий флажок.

По умолчанию осуществляется поиск конкретных словоформ (как Точный поиск в НКРЯ), если вы хотите искать все словоформы, припишите _INF в конце слова (например: птица_INF).

Если вместо одного из слов поставить астериск, то буду показаны 10 самых частотных биграмм со вторым словом:

Искать можно не только конкретные слова, но их грамматические характеристики.

Cравнение Google NGrams и НКРЯ (данные за 2012 год)

Характеристика НКРЯ Google books (rus_2012)
Объем корпуса (число документов) 85 996 591 310
Число словоупотреблений 229 968 798 67 137 666 353
Единицы частоты употребления N-грамм IPM (Instances per million – число употреблений N-граммы на миллион словоупотреблений) Проценты (число употреблений N-граммы на сто употреблений последовательностей той же длины)
Система письма Большинство текстов основного корпуса частично представлены в современной системе письма, но некоторая часть текстов – в старой орфографии Тексты представлены как в современной , так и в старой системе письма. Однако при поиске текстов в старой системе письма имеются проблемы
Операции над графиками невозможны возможны
Возможности отбора материала создание пользовательских подкорпусов по разным критериям Отбор материала и построение графиков осуществляется только по году издания.

Операции над графиками

Суммирование (сложение) графиков (стол+стола+столов)

Операция позволяет суммировать значения каждой точки двух или более графиков. Для осуществления операции поисковые слова вводятся в окно через знак +, например: лошадь + лошади +лошадей.

Вычитание графиков (перст-палец)

Операция позволяет вычитать из значения каждой точки графика, значение той же по горизонтали точки другого графика. С помощью этой операции можно представить, насколько частота встречаемости одной N-граммы больше (меньше) другой, и как это различие менялось во времени. Для осуществления операции поисковые слова вводятся в окно через знак «-», например, вежливость-корректность. Все выражение следует взять в круглые скобки: (вежливость-корректность). При этой операции вся кривая или её часть может находиться в области отрицательных значений.

Умножение графиков (марксизм*100), марксизм

Операция позволяет умножать на n значения всех точек графика. Операция умножения позволяет сделать сопоставимым поведение кривых, значения которых отличаются на несколько порядков. Слова в поисковое окно вводятся следующим образом: слово знак «*» множитель, например, лемматизация*100.

Деление графиков (сапоги/валенки),сапоги,валенки

Делить значение каждой точки графика на значение точки другого графика, имеющий ту же координату горизонтальной оси. Операция позволяет установить, во сколько раз один термин встречается чаще другого.Слова в поисковое окно вводятся следующим образом: слово – делимое, знак «/», слово – делитель, например сапоги/валенки.

Примечание. Операцию деления нельзя использовать по тому же типу, что операцию умножения. Выражение "Время/100" означает, что система покажет, во сколько раз в текстах БД слово «время» встречается чаще (реже) чем цифра 100, а не уменьшит результат в сто раз. Это делает невозможной операцию вычисления средней встречаемости нескольких терминов.

SketchEngine

SketchEngine – система, позволяющая изучать сочетаемость слов на основе корпусов разных языков, причем не просто по соседству в тексте, а по грамматическим отношениям.