-
Notifications
You must be signed in to change notification settings - Fork 9
/
Copy pathtodo
50 lines (31 loc) · 1.54 KB
/
todo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
데이터셋 자체 검증 ( 기존 데이터셋 변환한것과 self-play로 만든거 변환한것
mcts only reward 로 테스트해보기
- reward값 어떻게 나눌지 더 고민(왕먹은거와 일반 먹은것)
- 데이터셋코드 이전코드로 변경하기 -> 혹은 더 단순하게 구조바꾸기
mcts 성능 최적화
- float16으로 전체 변경해서 inference 속도 비교해보기
action수 다를경우 디버깅 기능
학습을 테스트데이터셋도 만들고 옵티마이져도 선택할수 있또록하고 학습된거 테스트툴 만들어보기
root에서 select할때 방문없는거부터 접근하는거 랜덤으로 바꾸기
#비긴 경우 점수비교해서 낮게주기
-> 테스트해서 데이터셋 만들어진거 검사하기
reward decay
#inference value + reward? (가중치 다르게 두기?)
-> 테스트
데이터셋검증툴
학습검증툴
모델만 테스트 실제데이터로
-> 데이터 만 검증
1. selfplay
2. 실제 기보
병렬 코드 디버깅
병렬 sftp 로 다운받아오는 기능 구현
초반 액션 확률 노이즈 추가한거 검토하기
mcts 성능 테스트
-- 캐싱하기 시간 건당 테스트해보기? ( legal actions, 승패확인, 반복수, inference )
-- 좀더 깔끔하게 모듈화
-- 주요 부분 주석달기
value decay? 고려해보기 (외부와 mcts 내부까지도)
- mcts 게임안끝나도 reward로 value값 세팅하도록
- mcts reward계산 decay 되도록 계산하기
1. 루트 노드에서는 모든 엣지를 한번씩은 방문하도록?