Injongo Dataset

A Multicultural Intent Detection and Slot-filling Dataset for 16 African Languages

language = [
    "amh", "ewe", "hau", "ibo", "kin", 
    "lin", "lug", "orm", "sna", "sot", 
    "swa", "twi", "wol", "xho", "yor", "zul"
]

Data Location

The Injongo dataset is available at Masakhane-NLU: Conversation AI and Benchmark datasets for African languages

Raw Data: data/output: csv format for the raw dataset, including logical_form and spans

Item Example: split,domain,intent,text,spans,logical_form test,banking,balance,በ አባይ ባንክ አካውንት ለሶፋ የሚሆን ገንዘብ አለኝ,"2:9:SL:BANK_NAME,17:19:SL:SHOPPING_ITEM",[IN:balance [SL:BANK_NAME አባይ ባንክ] [SL:SHOPPING_ITEM ሶፋ] ]

Package Install

pip install -e .

Additional Dependencies:

More details of code can be explored with numbered jupyter notebooks (*.ipynb).

Environment Variables (.env file)

OPENAI_API_KEY=sk-proj-
GEMINI_API_KEY=ABCD

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
data/output		data/output
figures		figures
scripts		scripts
src/mlds		src/mlds
.gitignore		.gitignore
1. Data Processing.ipynb		1. Data Processing.ipynb
1.2 Data Insight.ipynb		1.2 Data Insight.ipynb
1.3 Merge Entity and Combine Intent.ipynb		1.3 Merge Entity and Combine Intent.ipynb
1.4 Data Insight 2.ipynb		1.4 Data Insight 2.ipynb
1.5 English Data.ipynb		1.5 English Data.ipynb
1.6 Convert to XtreamUp.ipynb		1.6 Convert to XtreamUp.ipynb
1.7 Extended English Data.ipynb		1.7 Extended English Data.ipynb
1.8 Translate to English.ipynb		1.8 Translate to English.ipynb
2. Train.ipynb		2. Train.ipynb
3. Infer.ipynb		3. Infer.ipynb
4. Evaluate.ipynb		4. Evaluate.ipynb
LICENSE		LICENSE
README.md		README.md
analysis.out		analysis.out
pyproject.toml		pyproject.toml
requirments.txt		requirments.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Injongo Dataset

Data Location

Raw Data: data/output: csv format for the raw dataset, including logical_form and spans

Package Install

Environment Variables (.env file)

About

Releases

Packages

Languages

License

McGill-NLP/Injongo

Folders and files

Latest commit

History

Repository files navigation

Injongo Dataset

Data Location

Raw Data: data/output: csv format for the raw dataset, including logical_form and spans

Package Install

Environment Variables (.env file)

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages