Utils: Add Stanza's Sindhi dependency parser

BLKSerene · Oct 29, 2024 · d9a412f · d9a412f
1 parent 3860f8b
commit d9a412f
Show file tree

Hide file tree

Showing 4 changed files with 9 additions and 2 deletions.
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -19,6 +19,9 @@
 <div align="center"><h1>📄 Changelog</h1></div>
 
 ## [3.6.0](https://github.com/BLKSerene/Wordless/releases/tag/3.6.0) - ??/??/2024
+### 🎉 New Features
+- Utils: Add Stanza's Sindhi dependency parser
+
 ### 📌 Bugfixes
 - File Area: Fix Open Files - Encoding
 - Utils: Fix Wordless's Japanese kanji tokenizer

diff --git a/tests/tests_nlp/tests_stanza/test_stanza_snd.py b/tests/tests_nlp/tests_stanza/test_stanza_snd.py
@@ -19,14 +19,15 @@
 from tests.tests_nlp.tests_stanza import test_stanza
 
 def test_stanza_snd():
-    results_pos_tag = [('سنڌي', 'NOUN'), ('(', 'PUNCT'), ('/', 'NUM'), ('ˈsɪndi', 'PROPN'), ('/', 'NUM'), ('[6]सिन्धी,', 'PUNCT'), ('Sindhi', 'NOUN'), (')', 'PUNCT'), ('ھڪ', 'NUM'), ('ھند', 'PROPN'), ('-', 'PUNCT'), ('آريائي', 'ADJ'), ('ٻولي', 'NOUN'), ('آھي', 'AUX'), ('جيڪا', 'DET'), ('سنڌ', 'PROPN'), ('جي', 'ADP'), ('تاريخي', 'ADJ'), ('خطي', 'NOUN'), ('۾', 'ADP'), ('سنڌي', 'NOUN'), ('ماڻھن', 'NOUN'), ('پاران', 'ADP'), ('ڳالھائي', 'VERB'), ('وڃي', 'VERB'), ('ٿي', 'AUX'), ('.', 'PUNCT')]
+    results_pos_tag = [('سنڌي', 'NOUN'), ('(', 'PUNCT'), ('/', 'PUNCT'), ('ˈsɪndi', 'PROPN'), ('/', 'PUNCT'), ('[6]सिन्धी,', 'PUNCT'), ('Sindhi', 'PROPN'), (')', 'PUNCT'), ('ھڪ', 'NUM'), ('ھند', 'PROPN'), ('-', 'PUNCT'), ('آريائي', 'ADJ'), ('ٻولي', 'NOUN'), ('آھي', 'AUX'), ('جيڪا', 'DET'), ('سنڌ', 'PROPN'), ('جي', 'ADP'), ('تاريخي', 'ADJ'), ('خطي', 'NOUN'), ('۾', 'ADP'), ('سنڌي', 'NOUN'), ('ماڻھن', 'NOUN'), ('پاران', 'ADP'), ('ڳالھائي', 'VERB'), ('وڃي', 'VERB'), ('ٿي', 'AUX'), ('.', 'PUNCT')]
 
     test_stanza.wl_test_stanza(
         lang = 'snd',
         results_sentence_tokenize = ['سنڌي (/ˈsɪndi/[6]सिन्धी, Sindhi)ھڪ ھند-آريائي ٻولي آھي جيڪا سنڌ جي تاريخي خطي ۾ سنڌي ماڻھن پاران ڳالھائي وڃي ٿي.', 'سنڌي پاڪستان جي صوبي سنڌ جي سرڪاري ٻولي آھي.', '[7][8][9] انڊيا ۾، سنڌي وفاقي سرڪار پاران مڃتا حاصل ڪيل ٻولين يعني شيڊيولڊ ٻولين مان ھڪ آھي.', 'گھڻا سنڌي ڳالھائيندڙ پاڪستان جي صوبي سنڌ، ڀارت جي رياست گجرات جي علائقي ڪڇ ۽ مھاراشٽر جي علائقي الھاس نگر ۾ رھن ٿا.', 'ڀارت ۾ بچيل ڳالھائيندڙ سنڌي ھندو آھن جن پاڪستان جي آزادي کان بعد 1948ع ۾ ڀارت ۾ رھائش اختيار ڪئي ۽ باقي سنڌي سڄي دنيا جي مختلف علائقن ۾ رھن ٿا.', 'سنڌي ٻولي پاڪستان جي صوبن سنڌ، بلوچستان ۽ پنجاب، سان گڏوگڏ ڀارت جي رياستن راجستان، پنجاب ۽ گجرات ۾ ڳالھائي وڃي ٿي.', 'ان سان گڏوگڏ ھانگ ڪانگ، عمان، انڊونيشيا، سنگاپور، گڏيل عرب اماراتون، گڏيل بادشاھت ۽ آمريڪا ۾ لڏي ويل جماعتن پاران بہ ڳالھائي وڃي ٿي.', '[10]'],
         results_word_tokenize = ['سنڌي', '(', '/', 'ˈsɪndi', '/', '[6]सिन्धी,', 'Sindhi', ')', 'ھڪ', 'ھند', '-', 'آريائي', 'ٻولي', 'آھي', 'جيڪا', 'سنڌ', 'جي', 'تاريخي', 'خطي', '۾', 'سنڌي', 'ماڻھن', 'پاران', 'ڳالھائي', 'وڃي', 'ٿي', '.'],
         results_pos_tag = results_pos_tag,
-        results_pos_tag_universal = results_pos_tag
+        results_pos_tag_universal = results_pos_tag,
+        results_dependency_parse = [('سنڌي', 'ٻولي', 'nsubj', 12), ('(', 'ˈsɪndi', 'punct', 2), ('/', 'ˈsɪndi', 'punct', 1), ('ˈsɪndi', 'سنڌي', 'conj', -3), ('/', 'ˈsɪndi', 'punct', -1), ('[6]सिन्धी,', 'ˈsɪndi', 'punct', -2), ('Sindhi', 'سنڌي', 'conj', -6), (')', 'Sindhi', 'punct', -1), ('ھڪ', 'ھند', 'nummod', 1), ('ھند', 'ٻولي', 'nmod', 3), ('-', 'آريائي', 'cc', 1), ('آريائي', 'ھند', 'conj', -2), ('ٻولي', 'ٻولي', 'root', 0), ('آھي', 'ٻولي', 'cop', -1), ('جيڪا', 'ڳالھائي', 'mark', 9), ('سنڌ', 'خطي', 'nmod', 3), ('جي', 'سنڌ', 'case', -1), ('تاريخي', 'خطي', 'amod', 1), ('خطي', 'ڳالھائي', 'obl', 5), ('۾', 'خطي', 'case', -1), ('سنڌي', 'ماڻھن', 'nmod', 1), ('ماڻھن', 'ڳالھائي', 'obl', 2), ('پاران', 'ماڻھن', 'case', -1), ('ڳالھائي', 'ٻولي', 'acl:relcl', -11), ('وڃي', 'ڳالھائي', 'compound', -1), ('ٿي', 'ڳالھائي', 'aux', -2), ('.', 'ڳالھائي', 'punct', -3)]
     )
 
 if __name__ == '__main__':

diff --git a/wordless/wl_settings/wl_settings_default.py b/wordless/wl_settings/wl_settings_default.py
@@ -2081,6 +2081,7 @@ def init_settings_default(main):
                 'san': 'stanza_san',
                 'gla': 'stanza_gla',
                 'srp_latn': 'stanza_srp_latn',
+                'snd': 'stanza_snd',
                 'slk': 'stanza_slk',
                 'slv': 'spacy_slv',
                 'hsb': 'stanza_hsb',

diff --git a/wordless/wl_settings/wl_settings_global.py b/wordless/wl_settings/wl_settings_global.py
@@ -1211,6 +1211,7 @@ def init_settings_global():
                 _tr('wl_settings_global', 'Stanza - Sanskrit dependency parser'): 'stanza_san',
                 _tr('wl_settings_global', 'Stanza - Scottish Gaelic dependency parser'): 'stanza_gla',
                 _tr('wl_settings_global', 'Stanza - Serbian (Latin script) dependency parser'): 'stanza_srp_latn',
+                _tr('wl_settings_global', 'Stanza - Sindhi dependency parser'): 'stanza_snd',
                 _tr('wl_settings_global', 'Stanza - Slovak dependency parser'): 'stanza_slk',
                 _tr('wl_settings_global', 'Stanza - Slovene dependency parser'): 'stanza_slv',
                 _tr('wl_settings_global', 'Stanza - Sorbian (Upper) dependency parser'): 'stanza_hsb',
@@ -3371,6 +3372,7 @@ def init_settings_global():
             'san': ['stanza_san'],
             'gla': ['stanza_gla'],
             'srp_latn': ['stanza_srp_latn'],
+            'snd': ['stanza_snd'],
             'slk': ['stanza_slk'],
 
             'slv': [