ALFWorld Experiments

Cross-source consensus on ALFWorld Experiments from 1 sources and 6 claims.

1 sources · 6 claims

Benefits

The predictive analysis used 100 ALFWorld valid_seen groups across six task types. — Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL
Tier 1 found a 13.25% rollout wall-clock reduction from gating. — Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL
Tier 2 found a 32.2% off-policy training-time reduction from gating. — Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL
Tier 3 found a 10.7% average on-policy wall-clock reduction across four seeds. — Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL
Tier 1 measured rollout-time saving using 100 tasks run under baseline and gated conditions. — Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL
Tier 3 did not show a statistically significant held-out success improvement at four seeds. — Selective Rollout: Mid-Trajectory Termination for Multi-Sample Agent RL