Emerge-Lab · eugenevinitsky · May 19, 2026
diff --git a/models/4_19_26_rocket/description.txt b/models/4_19_26_rocket/description.txt
@@ -0,0 +1 @@
+This model was trained by Valentin. It is compatible with the repo at commit a41e5a69ca0ecc9c34c20409146475213d044c12 but not after that!
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_001000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_001000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_003000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_003000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_004000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_004000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_005000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_005000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_008000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_008000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_010000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_010000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_011000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_011000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_012854.pt b/models/4_19_26_rocket/rocket-baseline-scaling/best_models/best_trainer_state_012854.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/config.yaml b/models/4_19_26_rocket/rocket-baseline-scaling/config.yaml
@@ -0,0 +1,205 @@
+agent_index: null
+controlled_exp:
+  train:
+    ent_coef:
+      values:
+      - 0.01
+      - 0.005
+    learning_rate:
+      values:
+      - 0.001
+      - 0.003
+      - 0.01
+env:
+  action_type: discrete
+  agent_obs_max_dist: 100.0
+  boundary_segment_dropout: 0.5
+  collision_behavior: 1
+  compute_eval_metrics: false
+  control_mode: control_vehicles
+  dt: 0.1
+  dynamics_model: jerk
+  goal_radius: 2.0
+  goal_speed: 100.0
+  inactive_agent_threshold: 0.4
+  init_mode: create_all_valid
+  init_steps: 0
+  lane_segment_dropout: 0.4
+  map_dir: /gcs/valeo-cp2386-datasets/pufferdrive/v1.2/
+  max_agents_per_env: 120
+  max_boundary_segment_observations: 80
+  max_goal_position: 120.0
+  max_lane_segment_observations: 80
+  max_partner_observations: 16
+  max_position: 120.0
+  max_road_segment_length: 10.0
+  max_road_segment_width: 5.0
+  max_traffic_control_distance: 100.0
+  max_traffic_control_observations: 4
+  max_veh_len: 15.0
+  max_veh_width: 10.0
+  max_waypoint_spacing: 40.0
+  min_agents_per_env: 1
+  min_waypoint_spacing: 20.0
+  num_agents: 1024
+  num_maps: 8
+  num_target_waypoints: 3
+  offroad_behavior: 1
+  partner_blindness_prob: 0.0
+  phantom_braking_duration: 10
+  phantom_braking_prob: 0.0
+  phantom_braking_trigger_prob: 0.0
+  resample_frequency: 128000000
+  reward_ade: 0.0
+  reward_center_bias: 0.0
+  reward_comfort: 0.05
+  reward_conditioning: false
+  reward_goal: 1.0
+  reward_lane_align: 0.03
+  reward_lane_center: 0.0038
+  reward_offroad_collision: 1.5
+  reward_overspeed: 0.05
+  reward_randomization: false
+  reward_reverse: 0.01
+  reward_stop_line: 1.0
+  reward_timestep: 2.5e-05
+  reward_vehicle_collision: 1.5
+  reward_vel_align: 1.0
+  reward_velocity: 0.0025
+  road_obs_behind_dist: 20.0
+  road_obs_front_dist: 120.0
+  road_obs_side_dist: 30.0
+  scenario_length: 1280
+  simulation_mode: gigaflow
+  spawn_initial_speed: 0.0
+  target_type: static
+  termination_mode: 1
+  traffic_control_scope: 0
+  traffic_light_behavior: 1
+env_name: puffer_drive
+eval:
+  backend: PufferEnv
+  eval_interval: 25
+  human_replay_control_mode: '"control_sdc_only" ; Control only the self-driving car'
+  human_replay_eval: false
+  human_replay_num_agents: 64 ; This equals the number of scenarios, since we control
+    one agent in each
+  map_dir: pufferlib/resources/drive/binaries/eval
+  multi_scenario_eval: false
+  multi_scenario_num_scenarios: 250
+  multi_scenario_simulation_mode: replay
+  num_agents: 512
+  wosac_aggregate_results: True ; Only return aggregate results across all scenes
+  wosac_control_mode: '"control_wosac"  ; Control the tracks to predict'
+  wosac_goal_radius: 2.0 ; Can shrink goal radius for WOSAC evaluation
+  wosac_init_mode: '"create_all_valid"  ; Initialize from the tracks to predict'
+  wosac_init_steps: 10 ; When to start the simulation
+  wosac_num_agents: 256  ; Total number of WOSAC agents to evaluate
+  wosac_num_rollouts: 32  ; Number of policy rollouts per scene
+  wosac_realism_eval: false
+  wosac_sanity_check: false
+eval_simulation: null
+fps: 15
+gif_path: eval.gif
+git:
+  commit_hash: null
+  commit_message: null
+  is_dirty: null
+load_id: null
+load_model_path: null
+local_rank: 0
+max_runs: 200
+max_suggestion_cost: 3600
+neptune: false
+neptune_name: pufferai
+neptune_project: ablations
+num_carla_maps: 8
+num_scenarios: 3
+package: ocean
+policy:
+  actor_hidden_size: 512
+  actor_num_layers: 0
+  backbone_hidden_size: 512
+  backbone_num_layers: 4
+  critic_hidden_size: 512
+  critic_num_layers: 0
+  dropout: 0.0
+  encoder_gigaflow: true
+  input_size: 128
+  split_network: false
+policy_name: Drive
+render: 0
+render_mode: auto
+render_obs: 0
+rnn:
+  hidden_size: 512
+  input_size: 512
+rnn_name: null
+save_frames: 0
+sweep:
+  downsample: 10
+  goal: maximize
+  method: Protein
+  metric: score
+tag: null
+tb: true
+train:
+  adam_beta1: 0.9
+  adam_beta2: 0.999
+  adam_eps: 1.0e-08
+  adv_filter_ewma_beta: 0.25
+  adv_filter_threshold_scale: 0.01
+  adv_sampling_prio_alpha: 0.8499999999999999
+  adv_sampling_prio_beta0: 0.8499999999999999
+  anneal_lr: true
+  batch_size: auto
+  bptt_horizon: 128
+  checkpoint_interval: 1000
+  clip_coef: 0.2
+  compile: false
+  compile_fullgraph: true
+  compile_mode: max-autotune-no-cudagraphs
+  cpu_offload: false
+  data_dir: /pufferdrive/training_output/
+  device: 0
+  ent_coef: 0.01
+  gae_lambda: 0.95
+  gamma: 0.999
+  learning_rate: 0.0005
+  log_interval: 1
+  max_grad_norm: 0.5
+  max_minibatch_size: 98304
+  minibatch_size: 98304
+  name: pufferai
+  normalize_rewards: true
+  obs_only: true
+  optimizer: adamw
+  ppo_granularity: auto
+  precision: float32
+  project: ablations
+  render: false
+  render_interval: 1000
+  render_map: none
+  seed: 42
+  show_grid: false
+  show_human_logs: true
+  show_lasers: false
+  torch_deterministic: false
+  total_timesteps: 75000000000
+  update_epochs: 2
+  use_rnn: false
+  vf_clip_coef: null
+  vf_coef: 0.5
+  vtrace_c_clip: 1
+  vtrace_rho_clip: 1
+vec:
+  backend: Multiprocessing
+  batch_size: auto
+  num_envs: 48
+  num_workers: auto
+  seed: 42
+  zero_copy: true
+video_path: videos
+wandb: false
+wandb_group: debug
+wandb_project: pufferlib
diff --git a/...scaling/events.out.tfevents.1775950510.cmle-training-workerpool0-13479849b3-0-mltf4.151.0 b/...scaling/events.out.tfevents.1775950510.cmle-training-workerpool0-13479849b3-0-mltf4.151.0
diff --git a/...scaling/events.out.tfevents.1775950511.cmle-training-workerpool0-13479849b3-0-mltf4.153.0 b/...scaling/events.out.tfevents.1775950511.cmle-training-workerpool0-13479849b3-0-mltf4.153.0
diff --git a/...scaling/events.out.tfevents.1775950512.cmle-training-workerpool0-13479849b3-0-mltf4.152.0 b/...scaling/events.out.tfevents.1775950512.cmle-training-workerpool0-13479849b3-0-mltf4.152.0
diff --git a/...scaling/events.out.tfevents.1775950512.cmle-training-workerpool0-13479849b3-0-mltf4.154.0 b/...scaling/events.out.tfevents.1775950512.cmle-training-workerpool0-13479849b3-0-mltf4.154.0
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_001000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_001000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_002000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_002000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_003000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_003000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_004000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_004000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_005000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_005000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_006000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_006000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_007000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_007000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_008000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_008000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_009000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_009000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_010000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_010000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_011000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_011000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_012000.pt b/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_012000.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_012854.pt b/models/4_19_26_rocket/rocket-baseline-scaling/models/model_puffer_drive_012854.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/puffer_drive_20260411-233508.pt b/models/4_19_26_rocket/rocket-baseline-scaling/puffer_drive_20260411-233508.pt
diff --git a/models/4_19_26_rocket/rocket-baseline-scaling/trainer_state.pt b/models/4_19_26_rocket/rocket-baseline-scaling/trainer_state.pt
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1 @@
		This model was trained by Valentin. It is compatible with the repo at commit a41e5a69ca0ecc9c34c20409146475213d044c12 but not after that!