发布日期:2025-04-04 07:19 点击次数:96
OpenAI 承认 Claude 是最佳的了(狗头)。
刚刚开源的新基准测试 PaperBench,6 款前沿大模子驱动智能体 PK 复现 AI 顶会论文,新版 Claude-3.5-Sonnet 显耀特出 o1/r1 排行第一。
与旧年 10 月 OpenAI 磨真金不怕火 Agent 机器学习代码工程智商 MLE-Bnch 比较,PaperBench 更磨真金不怕火空洞智商,不再是只实行单一任务。
具体来说,智能体在评估中需要复刻来自 ICML 2024 的论文,任务包括贯串论文、编写代码和实行践诺。
最终收成如下:
Claude-3.5-Sonnet 断崖式起初,第二名 o1-high 分数只须第一的 60%,第三名 DeepSeek-R1 又只须第二名的一半。
此外 GPT-4o 擢升了推理模子 o3-mini-high 也算一个亮点。
除了 AI 之间的 PK, OpenAI 此次还招募顶尖的机器学习博士对比 o1。
天然最终论断是 AI 在复现顶会论文上还无法特出东谈主类,但张开工夫轴发现,在职责工夫 1-6 小时内 Ai 的程度还是比东谈主类要快的。
12-24 小时阶段 AI 与东谈主类的程度尽头,东谈主类需要职责 24-48 小时智力擢升 AI。
有创业者称许 OpenAI 这波竟然 Open 了,况且不护讳竞争敌手的出色默契,我们科技圈就需要这种精神。
Agent 复现顶会论文
PaperBench 收用 20 篇 ICML 2024 Spotlight 和 Oral 论文,条目 AI 创建代码库并实行践诺,复制论文后果,且不成使用原作家代码。
OpenAI 与每篇论文的原作家共同制定详备评分步伐,统统包含 8316 个可单独评分的任务。
开卷老师,也等于允许 Agent 有限联网搜索,把原论文代码库和其他东谈主复现的代码库拉黑名单。
完好意思评估进程分为 3 个阶段:
Agent 在 ubuntu 容器中创建并提交复制论文的代码库。
在具有 GPU 看望权限的新容器中实行代码
裁判模子在第三个容器中给复现狂妄打分
评估时用分级步伐打分,按叶节点、父节点逐级评分,主要野心是通盘论文的平均复制分数。
评分亦然由大模子自动实行,践诺发现 o3-mini 当裁判的性价比最高。
给每篇论文评分破耗 66 好意思元,比聘用东谈主类内行当裁判要低廉,速率也更快。
初始评估所需的代码和数据、Docker 镜像等正在 GitHub 逐步开源。
One More Thing
在论文的附录中,OpenAI 还给出了让 AI 复现顶会论文的 Prompt,有需要的一又友不错学习一下。
BasicAgent System Prompt:
强调智能体要完好意思复制论文,明确最终标的是让初始 reproduce.sh 能复现论文通盘野心
勾通智能体使用器具逐步完成任务,幸免一次性实行过多操作
条目智能体充分诈欺工夫优化搞定决策,而不是急于提交初步狂妄
IterativeAgent System/Continue Prompt:
强调工夫很充裕,要逐步完成任务
每一步都请示智能体使用可用的器具
强调代码编写法式
Task Instructions:
明确任务、可用资源、提交条目等多方面信息
给出代码示例
终末再次强调权限、老师工夫等,还请示 AI 要竟然去实行复现,而不仅仅写一个筹谋。
就有点像东谈主类准考据上写的科场应知了。
论文地址:
https://openai.com/index/paperbench/
参考相接:
[ 1 ] https://x.com/OpenAI/status/1907481494249255193
一键三连「点赞」「转发」「严防心」
迎接在评述区留住你的念念法!
— 完 —
速抢席位!中国 AIGC 产业峰会不雅众报名通谈已开启 � � ♀️
最新嘉宾曝光啦 � � 百度、华为、AWS、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 范畴创变者将皆聚峰会,让更多东谈主用上 AI、用好 AI,与 AI 一同加快成长~
4 月 16 日,就在北京,一皆来深度求索 AI 如何用 � �
� � 一键星标 � �
科技前沿进展逐日见shibo体育游戏app平台