Выложенные в подкаталоге Data файлы в формате csv с табуляцией в качестве разделителя содержат начальную часть статистики сочетаемости для 2, 3 и 4-грамм слов. Каждая запись дает числовую оценку того, насколько слова вместе (в пределах некоторого задаваемого окна) употребляются чаще, чем порознь. Например, файл mutual_info_2_ru.dat-head.tsv содержит записи:
об этом 0.00116073817480356
_num_ года 0.00106854864861816
может быть 0.000995978713035584
_num_ году 0.000842034991364926
_num_ _num_ 0.000812682905234396
у него 0.000775158114265651
у нас 0.000720254320185632
у меня 0.00065116147743538
потому что 0.000616979028563946
ничего не 0.000597607053350657
самом деле 0.000565686321351677
сих пор 0.000559956533834338
не было 0.000548108830116689
Сборка статистики выполнялась программой, исходники которой выложены в этом репозитории.