MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation (ICML 2024)

一句话总结:首个评估 LLM agent 端到端跑 ML 实验的 benchmark,覆盖 CIFAR-10 / Kaggle / BabyLM 等 13 个任务;Claude v3 Opus 基于 ReAct-style agent 拿下最高 37.5% 平均 success rate,但成功率在老数据集到最新 Kaggle 之间从 100% 跌到 0%,显露长程规划和幻觉是主要瓶颈。

问题

机器学习研究的核心是实验迭代:给定任务,研究者设计方法、写代码、跑实验、读结果、再改进。这一过程需要大量先验知识、能写出可跑代码、能诊断失败原因——门槛很高。传统 AutoML 和 NAS 把搜索空间限定在超参和架构内,很难覆盖完整实验流程。

随着 LLM 在代码和推理上进步,一个自然问题是:能不能让 LLM agent 像研究员一样端到端做 ML 实验? 已有的 AutoGPT、ReActReflexion 等 agent 框架尚未在 ML 实验这类需要多轮代码编辑 + 执行 + 诊断的长程任务上被系统评估过;AgentBench、WebArena 等测 agent 的环境也不涉及真实 ML 研究。这篇论文填补了这一缺口。

核心方法

Benchmark 框架(§2):每个任务由三样东西定义——任务描述(目标 + 提交格式)、starter files(数据 + 基线代码 + 数据说明)、evaluator(给最终提交打分)。Agent 在一个 file-system workspace 里反复动作,直到提交 submission.csv 或超时。

动作集(Table 1):两类动作——

  • Primitive:List / Read / Write / Append / Copy / Inspect Script Lines / Undo Edit / Execute Script / Final Answer
  • Compound(含独立 LM call):Understand File(按 query 读文件 + LM 摘要)、Edit Script / Edit Script Segment(按指令改代码)

13 个任务(Table 2):分四类——

  • Canonical:CIFAR-10、IMDb、ogbn-arxiv
  • Classic Kaggle:house-price、spaceship-titanic
  • Recent Kaggle(2022-08 后发布,潜在 OOD):parkinsons-disease、fathomnet、feedback、identify-contrails
  • Recent Research:CLRS、BabyLM
  • Code Improvement:llama-inference、vectorization

Agent 设计(§3):基于 ReAct 增强的 prompting agent。每步 prompt 包含所有动作说明、任务描述、最近 3 步 历史。LM 按固定格式输出五块:Reflection(反思上一步,借鉴 Reflexion)、Research Plan and Status(高层规划 + 当前进度)、Fact Check(核对 Plan 里的 claim 是被执行验证的还是被幻觉出来的)、ThoughtAction + Action Input(JSON)。Fact Check 是关键——作者发现 preliminary 里 LM 常在没跑代码的情况下就声称性能提升,Fact Check 要求 agent 显式区分 confirmed vs guessed。

评估维度

  • Competence:是否在 8 次 trial 里把性能 metric 比 baseline 提高 ≥10%(success rate)
  • Average improvement:所有有效提交的平均提升百分比
  • Efficiency:总 token 数 + wall-clock 时间

关键结果

  • Claude v3 Opus 最强,平均 success rate 37.5%(8 run × 13 task),明显好于 GPT-4(19.2%)、GPT-4-turbo(26.0%)、Gemini Pro(18.3%)、Mixtral(3.8%)。
  • task 间差异极大:house-price / spaceship-titanic 100%,但 parkinsons-disease、fathomnet、BabyLM、vectorization 全部 0%——越新越难的任务越挫败,提示训练数据污染在老任务上起作用。
  • GPT-4 平均 metric 提升 41.3% 比 Claude v3 Opus 的 26.1% 更高,但靠 identify-contrails 一个 task 把均值拉起来;整体 Claude v3 Opus 更稳定。
  • AutoGPT / LangChain ReAct 对比:本文 agent 在 GPT-4-turbo 上 26.0% vs AutoGPT 2.9% vs LangChain 1.0%;Claude v3 Opus 上 37.5% vs 13.5% vs 33.7%——Research Plan + Fact Check 两个槽位显著降低幻觉。
  • Cost:GPT-4-turbo 全 benchmark 约 600 万 token ≈ 231,可靠性仍是落地瓶颈
  • CIFAR-10 错误模式分析:Bad Plan、Hallucination、Response Format Error、Submission Format Error、Small Improvement 各占一部分;GPT-4 比 Claude v3 Opus 更易幻觉和坏规划。

相关