Skip to content

Commit

Permalink
Utils: Add Stanza's Sindhi dependency parser
Browse files Browse the repository at this point in the history
  • Loading branch information
BLKSerene committed Oct 29, 2024
1 parent 3860f8b commit d9a412f
Show file tree
Hide file tree
Showing 4 changed files with 9 additions and 2 deletions.
3 changes: 3 additions & 0 deletions CHANGELOG.md
Original file line number Diff line number Diff line change
Expand Up @@ -19,6 +19,9 @@
<div align="center"><h1>📄 Changelog</h1></div>

## [3.6.0](https://github.com/BLKSerene/Wordless/releases/tag/3.6.0) - ??/??/2024
### 🎉 New Features
- Utils: Add Stanza's Sindhi dependency parser

### 📌 Bugfixes
- File Area: Fix Open Files - Encoding
- Utils: Fix Wordless's Japanese kanji tokenizer
Expand Down
5 changes: 3 additions & 2 deletions tests/tests_nlp/tests_stanza/test_stanza_snd.py
Original file line number Diff line number Diff line change
Expand Up @@ -19,14 +19,15 @@
from tests.tests_nlp.tests_stanza import test_stanza

def test_stanza_snd():
results_pos_tag = [('سنڌي', 'NOUN'), ('(', 'PUNCT'), ('/', 'NUM'), ('ˈsɪndi', 'PROPN'), ('/', 'NUM'), ('[6]सिन्धी,', 'PUNCT'), ('Sindhi', 'NOUN'), (')', 'PUNCT'), ('ھڪ', 'NUM'), ('ھند', 'PROPN'), ('-', 'PUNCT'), ('آريائي', 'ADJ'), ('ٻولي', 'NOUN'), ('آھي', 'AUX'), ('جيڪا', 'DET'), ('سنڌ', 'PROPN'), ('جي', 'ADP'), ('تاريخي', 'ADJ'), ('خطي', 'NOUN'), ('۾', 'ADP'), ('سنڌي', 'NOUN'), ('ماڻھن', 'NOUN'), ('پاران', 'ADP'), ('ڳالھائي', 'VERB'), ('وڃي', 'VERB'), ('ٿي', 'AUX'), ('.', 'PUNCT')]
results_pos_tag = [('سنڌي', 'NOUN'), ('(', 'PUNCT'), ('/', 'PUNCT'), ('ˈsɪndi', 'PROPN'), ('/', 'PUNCT'), ('[6]सिन्धी,', 'PUNCT'), ('Sindhi', 'PROPN'), (')', 'PUNCT'), ('ھڪ', 'NUM'), ('ھند', 'PROPN'), ('-', 'PUNCT'), ('آريائي', 'ADJ'), ('ٻولي', 'NOUN'), ('آھي', 'AUX'), ('جيڪا', 'DET'), ('سنڌ', 'PROPN'), ('جي', 'ADP'), ('تاريخي', 'ADJ'), ('خطي', 'NOUN'), ('۾', 'ADP'), ('سنڌي', 'NOUN'), ('ماڻھن', 'NOUN'), ('پاران', 'ADP'), ('ڳالھائي', 'VERB'), ('وڃي', 'VERB'), ('ٿي', 'AUX'), ('.', 'PUNCT')]

test_stanza.wl_test_stanza(
lang = 'snd',
results_sentence_tokenize = ['سنڌي (/ˈsɪndi/[6]सिन्धी, Sindhi)ھڪ ھند-آريائي ٻولي آھي جيڪا سنڌ جي تاريخي خطي ۾ سنڌي ماڻھن پاران ڳالھائي وڃي ٿي.', 'سنڌي پاڪستان جي صوبي سنڌ جي سرڪاري ٻولي آھي.', '[7][8][9] انڊيا ۾، سنڌي وفاقي سرڪار پاران مڃتا حاصل ڪيل ٻولين يعني شيڊيولڊ ٻولين مان ھڪ آھي.', 'گھڻا سنڌي ڳالھائيندڙ پاڪستان جي صوبي سنڌ، ڀارت جي رياست گجرات جي علائقي ڪڇ ۽ مھاراشٽر جي علائقي الھاس نگر ۾ رھن ٿا.', 'ڀارت ۾ بچيل ڳالھائيندڙ سنڌي ھندو آھن جن پاڪستان جي آزادي کان بعد 1948ع ۾ ڀارت ۾ رھائش اختيار ڪئي ۽ باقي سنڌي سڄي دنيا جي مختلف علائقن ۾ رھن ٿا.', 'سنڌي ٻولي پاڪستان جي صوبن سنڌ، بلوچستان ۽ پنجاب، سان گڏوگڏ ڀارت جي رياستن راجستان، پنجاب ۽ گجرات ۾ ڳالھائي وڃي ٿي.', 'ان سان گڏوگڏ ھانگ ڪانگ، عمان، انڊونيشيا، سنگاپور، گڏيل عرب اماراتون، گڏيل بادشاھت ۽ آمريڪا ۾ لڏي ويل جماعتن پاران بہ ڳالھائي وڃي ٿي.', '[10]'],
results_word_tokenize = ['سنڌي', '(', '/', 'ˈsɪndi', '/', '[6]सिन्धी,', 'Sindhi', ')', 'ھڪ', 'ھند', '-', 'آريائي', 'ٻولي', 'آھي', 'جيڪا', 'سنڌ', 'جي', 'تاريخي', 'خطي', '۾', 'سنڌي', 'ماڻھن', 'پاران', 'ڳالھائي', 'وڃي', 'ٿي', '.'],
results_pos_tag = results_pos_tag,
results_pos_tag_universal = results_pos_tag
results_pos_tag_universal = results_pos_tag,
results_dependency_parse = [('سنڌي', 'ٻولي', 'nsubj', 12), ('(', 'ˈsɪndi', 'punct', 2), ('/', 'ˈsɪndi', 'punct', 1), ('ˈsɪndi', 'سنڌي', 'conj', -3), ('/', 'ˈsɪndi', 'punct', -1), ('[6]सिन्धी,', 'ˈsɪndi', 'punct', -2), ('Sindhi', 'سنڌي', 'conj', -6), (')', 'Sindhi', 'punct', -1), ('ھڪ', 'ھند', 'nummod', 1), ('ھند', 'ٻولي', 'nmod', 3), ('-', 'آريائي', 'cc', 1), ('آريائي', 'ھند', 'conj', -2), ('ٻولي', 'ٻولي', 'root', 0), ('آھي', 'ٻولي', 'cop', -1), ('جيڪا', 'ڳالھائي', 'mark', 9), ('سنڌ', 'خطي', 'nmod', 3), ('جي', 'سنڌ', 'case', -1), ('تاريخي', 'خطي', 'amod', 1), ('خطي', 'ڳالھائي', 'obl', 5), ('۾', 'خطي', 'case', -1), ('سنڌي', 'ماڻھن', 'nmod', 1), ('ماڻھن', 'ڳالھائي', 'obl', 2), ('پاران', 'ماڻھن', 'case', -1), ('ڳالھائي', 'ٻولي', 'acl:relcl', -11), ('وڃي', 'ڳالھائي', 'compound', -1), ('ٿي', 'ڳالھائي', 'aux', -2), ('.', 'ڳالھائي', 'punct', -3)]
)

if __name__ == '__main__':
Expand Down
1 change: 1 addition & 0 deletions wordless/wl_settings/wl_settings_default.py
Original file line number Diff line number Diff line change
Expand Up @@ -2081,6 +2081,7 @@ def init_settings_default(main):
'san': 'stanza_san',
'gla': 'stanza_gla',
'srp_latn': 'stanza_srp_latn',
'snd': 'stanza_snd',
'slk': 'stanza_slk',
'slv': 'spacy_slv',
'hsb': 'stanza_hsb',
Expand Down
2 changes: 2 additions & 0 deletions wordless/wl_settings/wl_settings_global.py
Original file line number Diff line number Diff line change
Expand Up @@ -1211,6 +1211,7 @@ def init_settings_global():
_tr('wl_settings_global', 'Stanza - Sanskrit dependency parser'): 'stanza_san',
_tr('wl_settings_global', 'Stanza - Scottish Gaelic dependency parser'): 'stanza_gla',
_tr('wl_settings_global', 'Stanza - Serbian (Latin script) dependency parser'): 'stanza_srp_latn',
_tr('wl_settings_global', 'Stanza - Sindhi dependency parser'): 'stanza_snd',
_tr('wl_settings_global', 'Stanza - Slovak dependency parser'): 'stanza_slk',
_tr('wl_settings_global', 'Stanza - Slovene dependency parser'): 'stanza_slv',
_tr('wl_settings_global', 'Stanza - Sorbian (Upper) dependency parser'): 'stanza_hsb',
Expand Down Expand Up @@ -3371,6 +3372,7 @@ def init_settings_global():
'san': ['stanza_san'],
'gla': ['stanza_gla'],
'srp_latn': ['stanza_srp_latn'],
'snd': ['stanza_snd'],
'slk': ['stanza_slk'],

'slv': [
Expand Down

0 comments on commit d9a412f

Please sign in to comment.