pytorch
diff --git a/‎reinforcement_learning/reinforce.py‎
Lines changed: 10 additions & 10 deletions b/‎reinforcement_learning/reinforce.py‎
Lines changed: 10 additions & 10 deletions
@@ -43,33 +43,33 @@ def forward(self, x):
  return F.softmax(action_scores)
 
 
-model = Policy()
-optimizer = optim.Adam(model.parameters(), lr=1e-2)
+policy = Policy()
+optimizer = optim.Adam(policy.parameters(), lr=1e-2)
 
 
 def select_action(state):
  state = torch.from_numpy(state).float().unsqueeze(0)
- probs = model(Variable(state))
+ probs = policy(Variable(state))
  action = probs.multinomial()
- model.saved_actions.append(action)
+ policy.saved_actions.append(action)
  return action.data
 
 
 def finish_episode():
  R = 0
  rewards = []
- for r in model.rewards[::-1]:
+ for r in policy.rewards[::-1]:
  R = r + args.gamma * R
  rewards.insert(0, R)
  rewards = torch.Tensor(rewards)
  rewards = (rewards - rewards.mean()) / (rewards.std() + np.finfo(np.float32).eps)
- for action, r in zip(model.saved_actions, rewards):
+ for action, r in zip(policy.saved_actions, rewards):
  action.reinforce(r)
  optimizer.zero_grad()
- autograd.backward(model.saved_actions, [None for _ in model.saved_actions])
+ autograd.backward(policy.saved_actions, [None for _ in policy.saved_actions])
  optimizer.step()
- del model.rewards[:]
- del model.saved_actions[:]
+ del policy.rewards[:]
+ del policy.saved_actions[:]
 
 
 running_reward = 10
@@ -80,7 +80,7 @@ def finish_episode():
  state, reward, done, _ = env.step(action[0,0])
  if args.render:
  env.render()
- model.rewards.append(reward)
+ policy.rewards.append(reward)
  if done:
  break