你的位置: 开云体育中国官方网站 > 胜负盘 > 开云体育官网 Meta
热点资讯

开云体育官网 Meta

发布日期:2026-04-05 10:24    点击次数:131

开云体育官网 Meta

新智元报谈

裁剪:倾倾

【新智元导读】要是畴昔的某天,AI智能体不错给我方调参数,修bug,会发生什么?

就在这两天,斯坦福IRIS Lab的博士生Yoonho Lee聚拢MIT、威斯康星大学的照管者放出一篇新论文,把AI智能体优化的逻辑翻了个个儿。

作家气势十分豪华。导师是机器东谈主学习明星学者Chelsea Finn,献媚者里还有DSPy框架作家Omar Khattab。

依然,公共卷模子自己的参数目、稽查数据、RLHF。但Meta-Harness别有肺肠:救助模子运行的那层「脚手架」不异决定死活。

这些东西以前全靠东谈主工调。当今,Meta-Harness让AI我方来干这活。

伸开剩余92%

按捺十分圆善:Claude Haiku 4.5的胜利率达到37.6%,登顶扫数Haiku智能体榜首;Claude Opus 4.6更是达到76.4%,仅次于榜一ForgeCode。

模子是商品,Harness决定成败

harness指的是一整套基础设施:系统教唆词、用具界说、重试逻辑、落魄文处分、子代理融合、生命周期钩子。

模子自己只是个大脑,harness才是让这个大脑颖异活的体魄。

这个主见在2026年俄顷爆火,业界终于相识到,并吞个模子,换个harness,性能差距不错大到离谱。

2月,工程师Can Bölük作念了个实验。

他只改裁剪容貌,不动模子,15个LLM的编码性能栽植了5到14个百分点,输出token还减少了约20%。

更夸张的是,GPT-4 Turbo只是换了一种裁剪容貌,准确率就从26%飙升到59%。

不异的模子,性能差了一倍多,惟一变量是harness。

Agent = Model + Harness,成了最热点的趋势

模子提供智能,harness让智能变得有用。

Claude Code、Codex在作念并吞件事:悉心计算harness来弥补模子的短板。

那么问题来了,harness工程咫尺高度依赖东谈主工。

工程师到手动写教唆词、调用具接口、计算重试战略,然后跑测试、看日记、猜那里出了问题、改代码、再跑测试。

这个轮回费时沉重,而况好多失败花样根底不是东谈主能拖沓会诊的。

Meta-Harness想作念的,即是把这个轮回自动化。

400倍信息量:AI我方「复盘+迭代」

Meta-Harness尝试着给优化器看更多东西。听起来通俗,但这恰正是昔时扫数要领的瓶颈。

论文这张对比表,列出了主流文本每一步能看到若干落魄文:

Meta-Harness 与主流优化要领的落魄文不雅察量对比。

Self-Refine只看最近一次输出加自我品评,梗概1000 token;

OPRO看昔时几轮的决议和分数,梗概2000 token;

TextGrad、AlphaEvolve、GEPA这些更先进的要领,也就在8000到26000 token之间。

Meta-Harness呢?最高1000万token,差距是400倍。

为什么需要这样多?因为harness工程产生的失败花样,经常藏在实践轨迹的细节里。

一个任务跑失败了,原因可能是十步之前的某个用具调用复返了截断的输出,导致后续推理全歪。

要是优化器只可看到一个「失败」的标量分数,约略一段压缩过的摘抄,它根底没法定位问题。

Meta-Harness的作念法,是给proposer一个完整的文献系统。

这个文献系统里装着扫数历史候选harness的源代码、每一轮的实践轨迹、大喊日记、诞妄信息、超时作为、评分按捺。

Proposer不错用grep、cat这些圭臬用具我方去翻,想看哪个文献就看哪个,想搜哪个曲折词就搜哪个。

优化器不再是在固定prompt上作念推理,而是一个会检索信息、浏览历史、裁剪代码的代理。

proposer用的是Claude Code,它不需要被喂压缩过的信息,它有才略我方决定看什么、如何看。

扫数这个词搜索轮回很直白:

Proposer读取文献系统里的历史记载

分析哪些任务失败了、失败原因是什么

针对性地重写harness代码

新harness跑测试,按捺写回环件系统

轮回不时

Proposer读取文献系统里的历史记载

分析哪些任务失败了、失败原因是什么

针对性地重写harness代码

新harness跑测试,按捺写回环件系统

轮回不时

Meta-Harness 中枢优化闭环暗示图。Proposer 从“包含全部历史申饬”的文献系统读取完整轨迹(①),提议新的 Harness 代码 → 结合 LLM 实践任务并评估(②)→ 将 Proposed Code、Reasoning Traces、Eval Score 等全部日记存回环件系统(③),杀青自我迭代。

论文展示了一个19任务子集上的搜索经过。

从Terminus-KIRA基线的28.5%起步,到第7轮迭代就涨到了46.5%。

Meta-Harness 在 19 任务子集上的迭代优化经过。从 Terminus-KIRA 基线 28.5% 的胜利率起步,开云体育官方网站第 7 轮迭代达到 46.5%,展示了通过完整实践轨迹会诊杀青的高效 harness 优化。

每一轮都基于具体的实践轨迹作念「反事实会诊」——要是我那时这样处理,按捺会不会不一样?

举个例子,第7轮的创新是在第一次LLM调用之前先跑一条shell大喊,把环境依赖信息注入到运行prompt里。

加一条大喊,免却不必的试错。 这种程度的会诊精度,靠压缩摘抄是作念不到的。

89个任务,小模子登顶

Meta-Harness分了三个场景作念了测试:文天职类、数学推理、代码代理。

代码代理用的基准是TerminalBench-2,它包含89个Docker化任务,隐秘代码翻译、散布式机器学习确立、系统编程、生物信息学、密码分析等规模。

每个任务都是二元评分,跑5次取平均,难度尽头高。

因为它们需要长程自主实践、处理复杂依赖、应付截断的结尾输出,还得有尽头的规模学问。

这个基准被险些扫数主流前沿实验室用来猜度代码代理的实验才略,是继SWE-bench之后又一个被庸俗认同的「真正职责」测试集。

Meta-Harness的作念法是优化完整的编码harness,包括系统教唆词、用具界说、完成检测逻辑、落魄文处分,全部都在优化规模内。

Proposer会读取每个任务的实践轨迹,会诊失败花样,然后提议针对性竖立。

按捺,Claude Haiku 4.5的胜利率达到37.6%,在扫数Haiku 4.5代理中名循序一,卓绝第二名Goose的35.5%

Claude Opus 4.6的胜利率高达76.4%,在扫数Opus 4.6代理中名循序二,仅次于ForgeCode的81.8%

需要强调的是,Haiku是Claude系列里最轻量的版块,参数目远小于Opus。

传统念念路下,小模子即是不如大模子,性能天花板是硬伤。

但Meta-Harness讲明注解,通过优化harness,小模子的天花板不错被权贵举高。

Meta-Harness 端到端优化按捺精良。(左)在文天职类任务上,Meta-Harness 以少许的评估次数就超越了 ACE、OpenEvolve 等先前哨法;(右)在 TerminalBench-2 基准上,Meta-Harness 优化的 Claude Haiku 4.5 harness 达到 37.6% 通过率,超越扫数已报谈的 Haiku 4.5 harness(包括 Goose 35.5% 和 Terminus-KIRA 33.7%),杀青小模子登顶。

不啻代码:文天职类和数学推理不异灵验

Meta-Harness不单在代码任务上管用。

在文天职类场景下,照管者用了三个数据集:LawBench(215个类别)、Symptom2Disease(22个类别)、USPTO-50k(180个类别),模子是GPT-OSS-120B。

跑了20轮进化迭代,每轮2个候选,悉数产出40个候选harness。

最好发现的harness在测试集上达到48.6%准确率,比之前的SOTA要领ACE进步7.7个百分点。

以至它的老本更低——Meta-Harness只用了45.5K落魄文token,而ACE用了203K。

Meta-Harness 在文天职类任务上的阐扬。

照管者还作念了平直对比实验,把Meta-Harness和两个代表性的要领搜索要领放在一皆,给不异的proposer和评估预算。

按捺是,Meta-Harness用十分之一的评估次数就追平了它们的最终准确率,而最终准确率还比它们进步10个百分点以上。

Harness Optimizer 搜索程度对比。Meta-Harness(红色弧线)在少许的 Harness Evaluations 下快速达到最高性能,权贵优于 OpenEvolve、TTTDiscover、ACE 等要领,展现了完整实践轨迹带来的效果上风。

原因即是OpenEvolve和PUCT都把历史压缩成固定的prompt容貌,丢掉了实践轨迹。Meta-Harness保留了一切。

在数学推理场景下,Meta-Harness搜索的是检索增强的推理战略。

语料库里有卓绝50万谈题,来自8个开源数据集。

照管者在250谈题的搜索集上进化出一个检索harness,然后在200谈IMO级别的题目上测试,还独特用了5个搜索时从未见过的模子。

单一发现的检索harness在5个新模子上平均栽植了4.7个百分点(从34.1%到38.8%),而况是在模子不变的情况下。

Meta-Harness 检索战略的跨模子挪动才略。

这讲明Meta-Harness发现的战略是可挪动的,不是只对特定模子灵验的过拟抓段。

模子才略的竞争正在插足一个新阶段开云体育官网。

发布于:北京市大发官方网站手机app

----------------------------------