multilingualtokenizer

A trivial punctuation-based sentence splitter and tokenizer for multi-lingual data.

Requires python3 and the regex package. Install with pip install regex or conda install regex.

Usage:

python trivialssplitter.py FILE > OUTPUT.s

python tinytokenizer.py FILE > OUTPUT.s
python tinytokenizer.py --conll FILE > OUTPUT.t

The --conll option outputs one token per line. Default is to have one sentence per line.

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
License		License
README.md		README.md
punct_from_religious_corpora.tsv		punct_from_religious_corpora.tsv
tinynormalizer.py		tinynormalizer.py
tinytokenizer.py		tinytokenizer.py
trivialssplitter.py		trivialssplitter.py

Provide feedback