开云体育中国官方网站

开云体育官网 Meta

新智元报谈

裁剪：倾倾

【新智元导读】要是畴昔的某天，AI智能体不错给我方调参数，修bug，会发生什么？

就在这两天，斯坦福IRIS Lab的博士生Yoonho Lee聚拢MIT、威斯康星大学的照管者放出一篇新论文，把AI智能体优化的逻辑翻了个个儿。

作家气势十分豪华。导师是机器东谈主学习明星学者Chelsea Finn，献媚者里还有DSPy框架作家Omar Khattab。

依然，公共卷模子自己的参数目、稽查数据、RLHF。但Meta-Harness别有肺肠：救助模子运行的那层「脚手架」不异决定死活。

这些东西以前全靠东谈主工调。当今，Meta-Harness让AI我方来干这活。

伸开剩余92%

按捺十分圆善：Claude Haiku 4.5的胜利率达到37.6%，登顶扫数Haiku智能体榜首；Claude Opus 4.6更是达到76.4%，仅次于榜一ForgeCode。

模子是商品，Harness决定成败

harness指的是一整套基础设施：系统教唆词、用具界说、重试逻辑、落魄文处分、子代理融合、生命周期钩子。

模子自己只是个大脑，harness才是让这个大脑颖异活的体魄。

这个主见在2026年俄顷爆火，业界终于相识到，并吞个模子，换个harness，性能差距不错大到离谱。

2月，工程师Can Bölük作念了个实验。

他只改裁剪容貌，不动模子，15个LLM的编码性能栽植了5到14个百分点，输出token还减少了约20%。

更夸张的是，GPT-4 Turbo只是换了一种裁剪容貌，准确率就从26%飙升到59%。

不异的模子，性能差了一倍多，惟一变量是harness。

Agent = Model + Harness，成了最热点的趋势

模子提供智能，harness让智能变得有用。

Claude Code、Codex在作念并吞件事：悉心计算harness来弥补模子的短板。

那么问题来了，harness工程咫尺高度依赖东谈主工。

工程师到手动写教唆词、调用具接口、计算重试战略，然后跑测试、看日记、猜那里出了问题、改代码、再跑测试。

这个轮回费时沉重，而况好多失败花样根底不是东谈主能拖沓会诊的。

Meta-Harness想作念的，即是把这个轮回自动化。

400倍信息量：AI我方「复盘+迭代」

Meta-Harness尝试着给优化器看更多东西。听起来通俗，但这恰正是昔时扫数要领的瓶颈。

论文这张对比表，列出了主流文本每一步能看到若干落魄文：

Meta-Harness 与主流优化要领的落魄文不雅察量对比。

Self-Refine只看最近一次输出加自我品评，梗概1000 token；

OPRO看昔时几轮的决议和分数，梗概2000 token；

TextGrad、AlphaEvolve、GEPA这些更先进的要领，也就在8000到26000 token之间。

Meta-Harness呢？最高1000万token，差距是400倍。

为什么需要这样多？因为harness工程产生的失败花样，经常藏在实践轨迹的细节里。

一个任务跑失败了，原因可能是十步之前的某个用具调用复返了截断的输出，导致后续推理全歪。

要是优化器只可看到一个「失败」的标量分数，约略一段压缩过的摘抄，它根底没法定位问题。

Meta-Harness的作念法，是给proposer一个完整的文献系统。

这个文献系统里装着扫数历史候选harness的源代码、每一轮的实践轨迹、大喊日记、诞妄信息、超时作为、评分按捺。

Proposer不错用grep、cat这些圭臬用具我方去翻，想看哪个文献就看哪个，想搜哪个曲折词就搜哪个。

优化器不再是在固定prompt上作念推理，而是一个会检索信息、浏览历史、裁剪代码的代理。

proposer用的是Claude Code，它不需要被喂压缩过的信息，它有才略我方决定看什么、如何看。

扫数这个词搜索轮回很直白：

Proposer读取文献系统里的历史记载

分析哪些任务失败了、失败原因是什么

针对性地重写harness代码

新harness跑测试，按捺写回环件系统

轮回不时

Proposer读取文献系统里的历史记载

分析哪些任务失败了、失败原因是什么

针对性地重写harness代码

新harness跑测试，按捺写回环件系统

轮回不时

Meta-Harness 中枢优化闭环暗示图。Proposer 从“包含全部历史申饬”的文献系统读取完整轨迹（①），提议新的 Harness 代码 → 结合 LLM 实践任务并评估（②）→ 将 Proposed Code、Reasoning Traces、Eval Score 等全部日记存回环件系统（③），杀青自我迭代。

论文展示了一个19任务子集上的搜索经过。

从Terminus-KIRA基线的28.5%起步，到第7轮迭代就涨到了46.5%。

Meta-Harness 在 19 任务子集上的迭代优化经过。从 Terminus-KIRA 基线 28.5% 的胜利率起步，开云体育官方网站第 7 轮迭代达到 46.5%，展示了通过完整实践轨迹会诊杀青的高效 harness 优化。

每一轮都基于具体的实践轨迹作念「反事实会诊」——要是我那时这样处理，按捺会不会不一样？

举个例子，第7轮的创新是在第一次LLM调用之前先跑一条shell大喊，把环境依赖信息注入到运行prompt里。

加一条大喊，免却不必的试错。这种程度的会诊精度，靠压缩摘抄是作念不到的。

89个任务，小模子登顶

Meta-Harness分了三个场景作念了测试：文天职类、数学推理、代码代理。

代码代理用的基准是TerminalBench-2，它包含89个Docker化任务，隐秘代码翻译、散布式机器学习确立、系统编程、生物信息学、密码分析等规模。

每个任务都是二元评分，跑5次取平均，难度尽头高。

因为它们需要长程自主实践、处理复杂依赖、应付截断的结尾输出，还得有尽头的规模学问。

这个基准被险些扫数主流前沿实验室用来猜度代码代理的实验才略，是继SWE-bench之后又一个被庸俗认同的「真正职责」测试集。

Meta-Harness的作念法是优化完整的编码harness，包括系统教唆词、用具界说、完成检测逻辑、落魄文处分，全部都在优化规模内。

Proposer会读取每个任务的实践轨迹，会诊失败花样，然后提议针对性竖立。

按捺，Claude Haiku 4.5的胜利率达到37.6%，在扫数Haiku 4.5代理中名循序一，卓绝第二名Goose的35.5%

Claude Opus 4.6的胜利率高达76.4%，在扫数Opus 4.6代理中名循序二，仅次于ForgeCode的81.8%

需要强调的是，Haiku是Claude系列里最轻量的版块，参数目远小于Opus。

传统念念路下，小模子即是不如大模子，性能天花板是硬伤。

但Meta-Harness讲明注解，通过优化harness，小模子的天花板不错被权贵举高。

Meta-Harness 端到端优化按捺精良。（左）在文天职类任务上，Meta-Harness 以少许的评估次数就超越了 ACE、OpenEvolve 等先前哨法；（右）在 TerminalBench-2 基准上，Meta-Harness 优化的 Claude Haiku 4.5 harness 达到 37.6% 通过率，超越扫数已报谈的 Haiku 4.5 harness（包括 Goose 35.5% 和 Terminus-KIRA 33.7%），杀青小模子登顶。

不啻代码：文天职类和数学推理不异灵验

Meta-Harness不单在代码任务上管用。

在文天职类场景下，照管者用了三个数据集：LawBench（215个类别）、Symptom2Disease（22个类别）、USPTO-50k（180个类别），模子是GPT-OSS-120B。

跑了20轮进化迭代，每轮2个候选，悉数产出40个候选harness。

最好发现的harness在测试集上达到48.6%准确率，比之前的SOTA要领ACE进步7.7个百分点。

以至它的老本更低——Meta-Harness只用了45.5K落魄文token，而ACE用了203K。

Meta-Harness 在文天职类任务上的阐扬。

照管者还作念了平直对比实验，把Meta-Harness和两个代表性的要领搜索要领放在一皆，给不异的proposer和评估预算。

按捺是，Meta-Harness用十分之一的评估次数就追平了它们的最终准确率，而最终准确率还比它们进步10个百分点以上。

Harness Optimizer 搜索程度对比。Meta-Harness（红色弧线）在少许的 Harness Evaluations 下快速达到最高性能，权贵优于 OpenEvolve、TTTDiscover、ACE 等要领，展现了完整实践轨迹带来的效果上风。

原因即是OpenEvolve和PUCT都把历史压缩成固定的prompt容貌，丢掉了实践轨迹。Meta-Harness保留了一切。

在数学推理场景下，Meta-Harness搜索的是检索增强的推理战略。

语料库里有卓绝50万谈题，来自8个开源数据集。

照管者在250谈题的搜索集上进化出一个检索harness，然后在200谈IMO级别的题目上测试，还独特用了5个搜索时从未见过的模子。

单一发现的检索harness在5个新模子上平均栽植了4.7个百分点（从34.1%到38.8%），而况是在模子不变的情况下。

Meta-Harness 检索战略的跨模子挪动才略。

这讲明Meta-Harness发现的战略是可挪动的，不是只对特定模子灵验的过拟抓段。

模子才略的竞争正在插足一个新阶段开云体育官网。

发布于：北京市大发官方网站手机app