try new experiment

Learning-and-Intelligent-Systems · Dec 31, 2023 · 84fc092 · 84fc092
1 parent 735c950
commit 84fc092
Show file tree

Hide file tree

Showing 2 changed files with 42 additions and 41 deletions.
diff --git a/scripts/configs/active_sampler_learning.yaml b/scripts/configs/active_sampler_learning.yaml
@@ -17,22 +17,22 @@ APPROACHES:
     FLAGS:
       explorer: "active_sampler"
       active_sampler_explore_task_strategy: "success_rate"
-      active_sampler_explore_use_ucb_bonus: False
-  success_rate_explore_no_ucb:
-    NAME: "active_sampler_learning"
-    FLAGS:
-      explorer: "active_sampler"
-      active_sampler_explore_task_strategy: "success_rate"
-      active_sampler_explore_use_ucb_bonus: False
-  random_score_explore:
-    NAME: "active_sampler_learning"
-    FLAGS:
-      explorer: "active_sampler"
-      active_sampler_explore_task_strategy: "random"
-  random_nsrts_explore:
-    NAME: "active_sampler_learning"
-    FLAGS:
-      explorer: "random_nsrts"
+      active_sampler_explore_use_ucb_bonus: True
+  # success_rate_explore_no_ucb:
+  #   NAME: "active_sampler_learning"
+  #   FLAGS:
+  #     explorer: "active_sampler"
+  #     active_sampler_explore_task_strategy: "success_rate"
+  #     active_sampler_explore_use_ucb_bonus: False
+  # random_score_explore:
+  #   NAME: "active_sampler_learning"
+  #   FLAGS:
+  #     explorer: "active_sampler"
+  #     active_sampler_explore_task_strategy: "random"
+  # random_nsrts_explore:
+  #   NAME: "active_sampler_learning"
+  #   FLAGS:
+  #     explorer: "random_nsrts"
   # maple_q:
   #   NAME: "maple_q"
   #   FLAGS:
@@ -61,13 +61,13 @@ ENVS:
   #     cover_target_widths: '[0.008,0.008,0.008,0.008,0.008,0.008,0.008,0.008,0.008,0.008]'
   #     active_sampler_learning_feature_selection: all
   #     active_sampler_learning_explore_pursue_goal_interval: 1
-  grid_row:
-    NAME: "grid_row"
-    FLAGS:
-      max_num_steps_interaction_request: 150
-      active_sampler_learning_explore_length_base: 100000  # effectively disable
-      active_sampler_learning_feature_selection: all
-      active_sampler_learning_explore_pursue_goal_interval: 1
+  # grid_row:
+  #   NAME: "grid_row"
+  #   FLAGS:
+  #     max_num_steps_interaction_request: 150
+  #     active_sampler_learning_explore_length_base: 100000  # effectively disable
+  #     active_sampler_learning_feature_selection: all
+  #     active_sampler_learning_explore_pursue_goal_interval: 1
   ball_and_cup_sticky_table:
     NAME: "ball_and_cup_sticky_table"
     FLAGS:
@@ -85,6 +85,7 @@ ENVS:
       active_sampler_learning_explore_length_base: 100000  # effectively disable
       active_sampler_learning_feature_selection: oracle
       active_sampler_learning_explore_pursue_goal_interval: 1
+      max_num_steps_interaction_request: 200
 ARGS:
   - "debug"
 FLAGS:
@@ -100,7 +101,7 @@ FLAGS:
   active_sampler_learning_model: "myopic_classifier_mlp"
   active_sampler_learning_use_teacher: False
   online_nsrt_learning_requests_per_cycle: 1
-  max_num_steps_interaction_request: 100
+  # max_num_steps_interaction_request: 100
   num_online_learning_cycles: 10
   sesame_task_planner: "fdopt-costs"
   sesame_grounder: "fd_translator"

diff --git a/scripts/plotting/create_active_sampler_learning_plots.py b/scripts/plotting/create_active_sampler_learning_plots.py
@@ -81,23 +81,23 @@ def _derive_per_task_average(metric: str,
 # The keys of the outer dict are plot titles.
 # The keys of the inner dict are (legend label, marker, df selector).
 PLOT_GROUPS = {
-    "Regional Bumpy Cover": [
-        ("Planning Progress", "green", lambda df: df["EXPERIMENT_ID"].apply(
-            lambda v: "regional_bumpy_cover-planning_progress_explore" in v)),
-        ("Task Repeat", "orange", lambda df: df["EXPERIMENT_ID"].apply(
-            lambda v: "regional_bumpy_cover-task_repeat_explore" in v)),
-        ("Fail Focus Non-UCB", "brown", lambda df: df["EXPERIMENT_ID"].apply(
-            lambda v: "regional_bumpy_cover-success_rate_explore_no_ucb" in v)
-         ),
-        ("Fail Focus UCB", "red", lambda df: df["EXPERIMENT_ID"].apply(
-            lambda v: "regional_bumpy_cover-success_rate_explore_ucb" in v)),
-        ("Task-Relevant", "purple", lambda df: df["EXPERIMENT_ID"].apply(
-            lambda v: "regional_bumpy_cover-random_score_explore" in v)),
-        ("Random Skills", "blue", lambda df: df["EXPERIMENT_ID"].apply(
-            lambda v: "regional_bumpy_cover-random_nsrts_explore" in v)),
-        ("MAPLE-Q", "silver", lambda df: df["EXPERIMENT_ID"].apply(
-            lambda v: "regional_bumpy_cover-maple_q" in v)),
-    ],
+    # "Regional Bumpy Cover": [
+    #     ("Planning Progress", "green", lambda df: df["EXPERIMENT_ID"].apply(
+    #         lambda v: "regional_bumpy_cover-planning_progress_explore" in v)),
+    #     ("Task Repeat", "orange", lambda df: df["EXPERIMENT_ID"].apply(
+    #         lambda v: "regional_bumpy_cover-task_repeat_explore" in v)),
+    #     ("Fail Focus Non-UCB", "brown", lambda df: df["EXPERIMENT_ID"].apply(
+    #         lambda v: "regional_bumpy_cover-success_rate_explore_no_ucb" in v)
+    #      ),
+    #     ("Fail Focus UCB", "red", lambda df: df["EXPERIMENT_ID"].apply(
+    #         lambda v: "regional_bumpy_cover-success_rate_explore_ucb" in v)),
+    #     ("Task-Relevant", "purple", lambda df: df["EXPERIMENT_ID"].apply(
+    #         lambda v: "regional_bumpy_cover-random_score_explore" in v)),
+    #     ("Random Skills", "blue", lambda df: df["EXPERIMENT_ID"].apply(
+    #         lambda v: "regional_bumpy_cover-random_nsrts_explore" in v)),
+    #     ("MAPLE-Q", "silver", lambda df: df["EXPERIMENT_ID"].apply(
+    #         lambda v: "regional_bumpy_cover-maple_q" in v)),
+    # ],
     "Grid 1D Environment": [
         ("Planning Progress", "green", lambda df: df["EXPERIMENT_ID"].apply(
             lambda v: "grid_row-planning_progress_explore" in v)),