-
Notifications
You must be signed in to change notification settings - Fork 0
Quoridor Pseudo Code
- 자신의 앞줄 중간에 말을 놓는다.
-
$\left( {turnNnumber % 2} \right) + 1$ 번째 플레이어가 말을 움직이거나 벽을 세운다. -
$turnNum + 1$ 을 한다. - 2~3번 과정을 게임이 끝날때 까지 반복한다.
게임은 임의의 말이 반대편 첫줄에 도착하면 종료된다.
Initial
FOR until game is over
목적 보상을 극대화하기 위한 action을 예측한다.
이때
이때
이때
DQN알고리즘은 관측 시퀀스에 따른 상관관계를 없애기 위해 replay 방식의 학습을 진행하며
이때 각 관측경험 experience를
이 경험에 대한 데이터들은
이 에이전트를 학습 시키기 위해서는 손실합수(=비용함수)가 필요한데 이 비용함수는 다음과 같다.
이 수식에서
또한
Algorithm: DQN with experience replay.
Initialize replay memory D to capacity N
Initialize target action-value function
Initialize action-value function
For
Initailize sequence
For
With probability
otherwise select
Execute action
Set
Store transition
Sample random minibatch of transitions
If episode terminates at step j+1: Set
Else: Set
Perform a gradient descent step on
Every
End For
End For