Параллельные корпуса — особый типом корпусов, собрания эквивалентных друг другу текстов на разных языках (от двух), иными словами — оригинальных и переводных текстов.
Между единицами оригинального и переводного текста (обычно — между предложениями) с помощью специальной процедуры устанавливается соответствие; эта процедура называется выравниванием, а тексты, соответственно, выровненными.
- Переводоведение
- Контрастивные исследования
- Преподавание
- Типологические исследования
- Машинный перевод
- translation memory
- word sense disambiguation
В уже знакомом вам НКРЯ немало параллельных корпусов:
- английский
- армянский
- белорусский
- болгарский
- бурятский
- испанский
- итальянский
- китайский
- латышский
- литовский
- немецкий
- русская классика в немецких переводах
- польский
- украинский
- французский
- шведский
- эстонский
- многоязычный
Плюс: при поиске в параллельных корпусах доступны все те же опции, что и в моноязычных (например, лексико-грамматический поиск).
Минус: подсвечивается только слово-запрос, а его соответствия в других языках не подсвечиваются. Вот пример поиска в многоязычном параллельном корпусе.
OPUS (open parallel corpus) создан в Университете Хельсинке и включает в себя, в числе прочего, следующие корпуса:
- Europarl Corpus — корпус документов Европарламента с 1996 г. по сей день Включает документы на 21 языке: французский, итальянский, испанский, португальский, румынский, английский, нидерландский, немецкий, датский, шведский, болгарский, чешский, польский, словацкий, словенский, финский, венгерский, эстонский, латышский, литовский, греческий.
- Европейская конституция, языки: cs, da, de, el, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pl, pt, sk, sl, sv
- Корпус субтитров, языки не только европейские, есть русский: bg, cs, da, de, el, es, et, fi, fr, he, hr, hu, is, it, ja, lt, nl, no, pl, pt, pt_br, ro, ru, sk, sl, sv, tr, zh (в 2018 году корпус обновился, теперь там еще больше языков, чем перечислено здесь).
Табличка с кодами языков для справок. :)
В OPUS'е свой язык поисковых запросов для лексико-грамматического поиска (можно задать формы слов, синтаксические структуры и т.п.) под названием CQP. Вот краткая справка по использованию поискового интерфейса и общая информация о корпусе.
Интерфейс не очень user-friendly, зато много ссылок на внешние полезные ресурсы.
Linguee позиционируется как словарь, но на самом деле параллельный корпус. Впрочем, значения/переводы слов он тоже выдает.
Состоит из веб-текстов, при этом официальные переводы (например, разная открытая документация ЕС, ЮНЕСКО и т.п.) маркируются как «проверенные», а неофициальные (с сайтов газет и т.п.) — как «непроверенные».
Для русского единственная пара — английский, а вот для других языков все гораздо разнооразнее (за счет той самой документации).
Даже буквы с диакритиками, специфическими для выбранного языка, можно вводить с экрана!
Ярким примером интереса лингвистических исследований является так называемая лингвоспецифичная лексика. Для «лингвоспецифичного» слова (если таковые существуют) предполагается, что моделей перевода будет много, в среднем на каждую будет приходиться сравнительно немного контекстов, а частота самой частотной из них не будет сильно отличаться от остальных (и он будет занимать лишь небольшой процент от общего числа соответствий).
В. Набоков о слове «тоска»:
No single word in English renders all the shades of toska. At its deepest and most painful, it is a sensation of great spiritual anguish, often without any specific cause. At less morbid levels it is a dull ache of the soul, a longing with nothing to long for, a sick pining, a vague restlessness, mental throes, yearning. In particular cases it may be the desire for somebody of something specific, nostalgiaa, love-sickness. At the lowest level it grades into ennui, boredom.
Как доказать/опровергнуть эту мыль корпусными методами?
- Выдвигаем гипотезу: «N — лингвоспецифическое слово».
- Придумываем несколько переводов на целевой язык
- Ищем слово из языка-источника в параллельном корпусе и считаем разные переводы
- Сравниваем с каким-нибудь нелингвоспецфичным словом из того же семантического поля (например, из «страсть», которая вместе с «тоской» находится в семантическом поле «чувства».
Итак, для тоски у нас есть примерно 55 переводов (однокоренные слова считаются одной единицей перевода): aching/heartache/ache/ached, agony, angst, anguish, blue, boring/bored/bore/boredom, brood, depressed/depressing/depression, desire, desolation, despairing/despair, disappointment, distracted, distress/distressed, dreary/drearily, dull, eagerly, ennui, feeling, feverish excitement, gloom/gloomy, hankering, homesickness/homesick, hopelessness, hunger, impatience, lingering, loneliness/lonesome/lonely, longing/longingly, low, lust, melancholy, misery/miserably/miserable/, missing, missing/missed, mope, nostalgic/nostalgia, nuisance, oppression, pitiful/pity, restlessness, sadness/sad/sadly/saddened, sickness/sick/sickened, sinking, sorrow, spleen, tedium, tired, toska, untoward, weary, wistfully/wistful, woe, wrench, yearning/yearned.
- Отношение абсолютной частоты самой частотной модели перевода (F(Mmax)) к количеству различных моделей (NumM);
- Средняя частота вхождений на одну модель (F(O)/NumM), где F(O) — общее количество вхождений);
- Отношение абсолютной частоты самой частотной модели перевода к частоте второй (F(Mmax)/F(Msec));
- Отношение абсолютной частоты самой частотной модели перевода к общему количеству вхождений (F(Mmax)/F(O)).
В работе над подготовкой корпуса параллельных текстов важнейшим этапом является выравнивание текстов, что в общем случае означает выделение в текстах оригинальном и переводном соответствующих друг другу фрагментов.
На каких уровнях текстов могут сополагаться фрагменты параллельных текстов?
- Тексты
- Абзацы
- Предложения
- Слова и словосочетания (для translation memory)
В основу выделения отрезков, между которыми устанавливается соответствие, берётся деление на предложения в оригинале (разбиение в переводе нередко бывает другим). В частности, предложения в переводе могут меняться местами, вклиниваться друг в друга и т. п. В таком случае несколько предложений оригинала и перевода объединяются в пару минимальных соответствующих друг другу отрезков. Важно отметить, что художественный перевод отмечен высокой степенью вольности на разных уровнях, и при составлении и анализе параллельного корпуса это постоянно приходится учитывать. Причины этого разнообразны — общая установка ряда переводчиков, роль автора, участвующего в творческом пересоздании авторизованного перевода (в частности, он может и сам выступать переводчиком), а нередко и цензурные причины. Возможны также просто ошибки перевода, вызванные, в частности, интерференцией.
Но во всех ли случаях нам нужно объединять фрагменты в одну единицу соответствия? Если мы говорим о лингвистическом корпусе как о источнике реальных языковых данных, в естественных условиях, то нам нужно сохранять исходных порядок предложений в текстах, мы и вынуждены объединять фрагменты.
Но как мы уже говорили выше, параллельный корпус может быть ресурсом для translation memory, где установление соответствий минимальных единиц речи более предпочтительно. Тут в случае, когда предложения идут в разном порядке, имело бы смысл поставить в соответствующем порядке.
Ручное выравнивание: пользователь загружает тексты в программу, просматривает целиком, постепенно разбивая тексты на фрагменты с при помощи предусмотренных в программе операций (разбить фрагмент на два, объединить фрагменты в один и т.п.)
Это бесплатно и просто, но приходится просматривать все глазами и долго щелкать мышкой.
Ручное выравнивание параллельных текстов требует больших затрат и усилий по времени. Альтернативой выравниванию вручную выступают ряд алгоритмов автоматического выравнивания параллельных текстов. Хотя результаты реализаций этих алгоритмов не могут конкурировать по точности с результатами ручного выравнивания, при построении крупного корпуса параллельных текстов, предварительное использование таких алгоритмов может значительно сократить количество дальнейшей ручной работы и ускорить процесс построения корпуса больших объемов. Современные методы автоматического выравнивания работают с высокой точностью, которая варьируется в зависимости от жанров и языковых пар.
Например, параллельные тексты жанров, которым свойственна высокая клишированность и строгая структура текста (официальные документы, деловые письма) выравниваются с точностью под 100%. Немецко-китайские тексты выравниваются хуже, чем румыно-молдавские. При этом выровненные автоматически корпуса даже без последующей ручной проверки уже могут использоваться как готовый ресурс. При объеме оригинального корпуса в 1 млн словоупотреблений и точности выравнивания 70% у вас уже будет корпус 700 тыс. слов!
Первые реализации автоматического выравнивания стали появляться в начале 90х годов. Прорывом стало применения статистических методов. Ключевой идеей этих методов была следующая гипотеза: длинное предложение вероятнее переводится длинным, короткое — коротким, следовательно между длинами оригинального и переводного текста существуют сильная кореляция. Чем длиннее текст, тем длиннее будет его перевод. Программным образом фрагменты текстов нужного уровня (на уровне предложений) выравниваются во всевозможных вариантах, после чего выбирается самый оптимальный вариант с точки зрения соотношений длин. Очевидно?
Параллельно с этим применялись подходы выравнивания, использующие лексическую информацию, уступающие статистическим методам, но тем не менее эффективные. Эти методы применяли автоматический поиск в текстах соответствий из словаря (двуязычный глоссарий) или поиск когнатов. Под когнатом подразумевают употребление токенов (слов), которые графически или как-то иначе идентичны в текстах на разных языках. Это могут быть даты, имена собственные, специфичные пунктуационные символы или даже слова со схожим написанием. Когнаты можно сравнить с якорями выравнивания, надежно указывают на некоторые точные точки соответствия двух текстов.
Date of birth: 1992/02/19
出生日期: 1992/02/19
Michael Jackson est un chanteur, danseur-chorégraphe, auteur-compositeur-interprète, acteur et réalisateur américain.
Michael Jackson was an American singer, songwriter, and dancer.
Современные гибридные методы достигают высокой точности благодаря комбинации статистического и «лексического» подходов. Автоматический выравниватель соотносит длины текстов, их фрагментов, обращая внимание на наличие лексических соответствий в текстах. Примером такой гибридной реализации является программный ресурс Hunalign, который можно напрямую использовать в своем программном коде.
При наличии словаря для конкретной пары языков алгоритм комбинирует применение сопоставления длин текста и предложений и использование информации из словаря. В случае, если словарь для конкретной пары языков отсутствует, то алгоритм совершает два шага. На первом предложения выравниваются с сопоставлением их длин, после чего на основе полученного выравнивания автоматически формируется словарь, с помощью которого производится доводка первичного выравнивания.
Один из самых доступных и популярных способов работы с Hunalign – программа c графическим интерфейсом LF Aligner, которая использует внутри себя Hunalign.
Параллельный корпус может быть ресурсом для translation memory, где установление соответствий минимальных единиц речи более предпочтительно, в таких случаях полезны такие алгоритмы автоматического выравнивания, которые способны найти фрагменты соответствий даже, когда фрагменты занимают совершенно разные позиции относительно текста.
Таким алгоритмом является Champollion. Разработчики приняли во внимание, что часто переводы не являются эквивалентными по типу предложение к предложению, а содержат большое количество добавлений и опущений. Подходящее соотношение длин предложений не является достаточным свидетельством соответствия предложений в случае, если не было обнаружено соответствие на уровне лексики. Кроме этого, словам в лексиконе, с которым алгоритм сопоставляет предложения, присваиваются веса, обратные их частотности в тексте. В отличии от других алгоритмов (например, Hunalign), использующих переводные лексиконы, в которых все вхождения слов из словаря вносят одинаковый вклад при вычислении соответствующих предложений в тексте, Champollion присваивает бо́льшие веса менее частотным словам, и меньшие веса более частотным. (то есть служебные слова, местоимения, предлоги, союзы, частицы имеют меньший вес, так как выше вероятность случайного совпадения их эквивалентов в текстах). Но Champollion нам не подходит, мы сохраняем текст.
Вероятно самый удобный выравниватель — продукт эстонского стартапа Skuuper, который называется Skuuper Cleaner. Он выравнивает тексты автоматически, но при этом работает онлайн. Кроме того, он имеет опцию выбора алгоритма выравнивания Hunalign и Champollion. Именно этот выравниватель сейчас используется при выравнивании текстов для параллельных корпусов НКРЯ.
Вот подробная инструкция по работе с ним.
NB! Сейчас Skuuper переезжает на новый сервер и временно недоступен, но скоро он вернется!
Бесплатная версия YouAlign позволяет выравнивать тексты объемом до 1Мб и скачивать их в специальном xml-подобном формате .tmx (Translation Memory eXchange), с которым работают все выравниватели. Для скачивания текстов необходимо зарегистрироваться.
Нам удобнее скачать файлы не в tmx, а в LogiTerm (HTML).
Такой документ легко открыть в браузере и скопировать выровненный текст в виде двух колонок в Excel для дальнейшей работы.
Если скопированный из html текст вставляется в одну строчку, нужно выбрать "специальную вставку": Главная > Вставка > Специальная вставка (Ctrl+Alt+V на Windows, Ctrl+Cmd+V на MacOS).