- 중간 보고서 작성
- 강화학습 공부
- REINFORCE
- Actor-Critic
- PPO
-
RL4LM
-
TextRL
- FTP 서버 연결 구현
- 파일 계층 리스트 기입
- 테스트 코드 작성
- 테스트
- Human Feedback / Training을 위한
sqlalchemy
쿼리문 작성 - Human Feedback & Summarization DB 생성
-
chat_gpt
혹은clova_api
를 이용한 요약 코드 작성(쿼리문 작성 선행) - RLHF를 위한 가벼운 챗봇 기반 인터페이스 개발
- 챗봇 플랫폼 결정
- API 문서 여부 확인
- 입출력 구현
- DB 구현
-
text
Preprocessing (원문에 적용)
text_preprocessing_func(text: str) -> str
- Whitespace remove(
\n\n
,\n \n
, etc.)
- Whitespace remove(
-
summary
Preprocessing (요약문에 적용)
summary_preprocessing_func(text: str) -> str
\-
(1)
은 제거,(1)
이 아닌(숫자)
는,
로 대체
조금 더 보강 필요
summary_preprocessing_func1(text: str) -> str
-
숫자.
형태로 되어 있을 때 앞에 개행문자 추가 -
숫자.
이 문장 시작에 있을 때, 가장 가까운 조항을 찾아서제n조의 숫사 항에서
으로 바꾸기 -
갑
,을
,병
,정
뒤에 공백이 있을때 제거
summary_preprocessing_func2(text: str) -> str
-
- Main Model(Summarization Model) 학습
- Huggingface - PyTorch 연결부 작성
- PyTorch Base 학습 코드 작성
- 모델 학습 및 하이퍼파라미터 튜닝
- Evaluation Model 학습 코드 작성
- Huggingface - PyTorch 연결부 작성
- PyTorch Base 학습 코드 작성
- Fine-Tuning 헤드 설계 및 작성
- Classsifier or Regressor?
- 모델 학습 및 하이퍼파라미터 튜닝
- Reinforcement Learning 코드 작성
- BLEU, ROUGE 테스트 코드
- BLEU
- ROUGE
resources.md
로 옮김.