From 2aa6ad6e0b893cdfe40715a855842a2fb041be07 Mon Sep 17 00:00:00 2001
From: Ryan Sullivan <ryanpnavillus@gmail.com>
Date: Fri, 8 Nov 2024 07:27:24 -0500
Subject: [PATCH] PLR setup but slow

---
 reinforcement_learning/clean_pufferl.py | 2 +-
 syllabus_wrapper.py                     | 2 ++
 2 files changed, 3 insertions(+), 1 deletion(-)

diff --git a/reinforcement_learning/clean_pufferl.py b/reinforcement_learning/clean_pufferl.py
index 5dceef8c..cc62d425 100644
--- a/reinforcement_learning/clean_pufferl.py
+++ b/reinforcement_learning/clean_pufferl.py
@@ -313,7 +313,7 @@ def evaluate(data):
                     next_lstm_state[0][:, env_id],
                     next_lstm_state[1][:, env_id],
                 )
-
+            print("puffer shape", o.shape)
             actions, logprob, value, next_lstm_state = data.policy_pool.forwards(
                 o.to(data.device), next_lstm_state
             )
diff --git a/syllabus_wrapper.py b/syllabus_wrapper.py
index 849d7c62..95796fd7 100644
--- a/syllabus_wrapper.py
+++ b/syllabus_wrapper.py
@@ -105,6 +105,8 @@ def _prepare_state(self, state):
             new_state.append(np.stack(padded_obs.values()))
 
         state = torch.Tensor(np.stack(new_state)).to(self.device)
+        print("syllabus shape", state.shape)
+
         return state
 
     def _set_eval_mode(self):