Copyright (c) 2019 Essential Data, s.r.o.
Toto dielo je možné používať v súlade s textami nasledujúcich licencií:
- GNU Affero General Public License, verzia 3
- Creative Commons Attribution-ShareAlike 4.0 International
- GNU Free Documentation License 1.3
Viac informácií v súbore LICENSE.
Essential Data pracuje s jazykom, s dátami a na zaujímavých projektoch. Pozrite si aktuálne otvorené pozície a pracujte v skvelom tíme plnom šikovných ľudí.
Najjednoduchší spôsob skompilovania je pomocou
mvn package
Možno budete musieť nastaviť premennú prostredia
JAVA_HOME=/usr/lib/jvm/java-8-oracle
alebo obdobne.
Ak chcete vytvoriť FST súbor nanovo, použite:
wget -O - 'http://korpus.sk/attachments/morphology_database/ma-2015-02-05.txt.xz' | xzcat > morph-sk.txt
java -cp target/lucene-fst-lemmatizer-0.5.1-jar-with-dependencies.jar sk.essentialdata.lucene.analysis.fst.FSTBuilder -f morph-sk.txt -o slovaklemma.fst
java -cp target/lucene-fst-lemmatizer-0.5.1-jar-with-dependencies.jar sk.essentialdata.lucene.analysis.fst.FSTBuilder -f morph-sk.txt -o slovaklemma_ascii.fst --ascii
java -cp target/lucene-fst-lemmatizer-0.5.1-jar-with-dependencies.jar sk.essentialdata.lucene.analysis.fst.FSTBuilder -d ../target -o slovaklemma.fst
java -cp target/lucene-fst-lemmatizer-0.5.1-jar-with-dependencies.jar sk.essentialdata.lucene.analysis.fst.FSTBuilder -d ../target -o slovaklemma_ascii.fst --ascii
Takto spustíme fstutils:
java -jar target/fstutils-0.5.1-jar-with-dependencies.jar
Usage: fstutils lemmatize <path-to-fst> <options>, where options are:
-e: echo when a word is not in the dictionary, e.g. 'foo bar' -> 'foo bar'.
Without the -e option it is 'foo bar' -> 'bar'
Ak chceme zlematizovať stdin, použitie napr. takto:
java -jar target/fstutils-0.5.1-jar-with-dependencies.jar lemmatize fst/slovaklemma.fst -e
Tento príkaz dá všetky slová, ktoré má v slovníku do základného tvaru, ostatné len vypíše.
- Súbory
target/fstutils-0.5.1-jar-with-dependencies.jar
afst/slovaklemma.fst
skopírujte o priečinkainstanceDir/lib
(v štandardnej inštalácii SOLR na LinuxeinstanceDir=/var/solr/data/your-core-name/data
) - V súbore
instanceDir/conf/schema.xml
v oboch sekciáchanalyzer
nahraďte riadok
<filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/>
(alebo obdobný) riadkom
<filter class="sk.essentialdata.lucene.analysis.fst.FSTTokenFilterFactory" fst="lib/slovaklemma.fst"/>
Možno budete musieť zadať absolútnu cestu k súboru, napr. /var/solr/data/your-core-name/lib/slovaklemma.fst
- Reštartujte SOLR a reindexujte obsah
- Github spoločnosti Essential Data - obsahuje naše open-source projekty (aj) pre prácu s jazykom
- Zaujímavé odkazy na slovenské NLP - obsahuje zozbierané odkazy na nástroje a zdroje pre prácu so slovenským jazykom