OSLO로 Polyglot 분산 학습하기

대규모 분산학습라이브러리인 OSLO의 TensorParallel을 사용하여 모델을 쪼개서 학습하는 예제.

스펙

모델 : EleutherAI Polyglot-ko 1.3B 데이터셋 : KorQuADv1

OSLO 설치

case1. 파일사용

bash install.sh

case2. 수동설치

git clone https://github.com/EleutherAI/oslo.git
git checkout 85a4ff11816f8319a7344f1e596dd6b3e7592034

cd oslo
pip install --editable .

학습하기 (싱글노드, 4gpu)

python -m torch.distributed.launch --nproc_per_node=4 finetune.py

학습하기 (멀티노드, 8gpu=4gpu x 2)

# 1번노드
python -m torch.distributed.launch --nnodes=2 --node_rank=0 --nproc_per_node=4 --master_addr=${YOUR_NODE_ADDRESS} --master_port=${PORT} finetune.py

# 2번노드
python -m torch.distributed.launch --nnodes=2 --node_rank=1 --nproc_per_node=4 --master_addr=${YOUR_NODE_ADDRESS} --master_port=${PORT} finetune.py

참고

--nnodes : 전체 노드 개수
--node_rank : 노드의 우선순위, 0이 마스터노드
--nproc_per_node : 노드당 프로세스(gpu)개수

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.gitignore		.gitignore
README.md		README.md
finetune.py		finetune.py
install.sh		install.sh
merge_checkpoint.py		merge_checkpoint.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

OSLO로 Polyglot 분산 학습하기

스펙

OSLO 설치

case1. 파일사용

case2. 수동설치

학습하기 (싱글노드, 4gpu)

학습하기 (멀티노드, 8gpu=4gpu x 2)

참고

About

Releases

Packages

Languages

jason9693/polyglot-finetuning-oslo

Folders and files

Latest commit

History

Repository files navigation

OSLO로 Polyglot 분산 학습하기

스펙

OSLO 설치

case1. 파일사용

case2. 수동설치

학습하기 (싱글노드, 4gpu)

학습하기 (멀티노드, 8gpu=4gpu x 2)

참고

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages