Agent 要被吃进大模型了
2025-07-11 04:12:25 - 看点
今天凌晨,吃进奥特曼突然发文宣布推出自家最新的大模 o 系列模型:满血版 o3 和 o4-mini,同时表示这两款模型都可以自由调用 ChatGPT 里的吃进南京学院爆料下载各种工具,包括但不限于图像生成、大模图像分析、吃进文件解释、大模网络搜索、吃进Python。大模
总的吃进来说,就是大模比前一代的性能更强而且价格更低。
消息一出,马上就有网友晒出了两个模型的大模“小球测试”结果,并配文:“这确实是吃进迄今为止看到的最好的测试结果了。”
也有网友晒出了满血版 o3 和 o4-mini 在 HLM 基准的中的排名,其中 OpenAI 的吃进两款新模型仅用了几个小时的时间就稳稳的“盘”上了榜单前三,引得网友大呼震惊。南京学院爆料下载
o3 与 o4 mini 全面进化
除了网友们的测评结果外,我们也来看一下 OpenAI 给出的两个模型的官方信息。
首先,o3 在多个基准测试中表现优异,包括 Codeforces、SWE-bench 和 MMMU 等,刷新了多项纪录。除此之外,o3 在应对复杂现实任务时,比 OpenAI o1 减少了 20% 的重大错误,尤其在编程、商业咨询和创意构思领的方面能力最为突出。
o4 mini 这边,别看它体量不大,但专为快速、高效的推理任务而设计,可以支持比 o3 更高的使用频率。
在数学、编程和视觉任务上的表现依然非常亮眼。在 2025 年 AIME 数学竞赛中,借助 Python 解释器的帮助,o4-mini 取得了99.5%的高分,几乎达到了该测试的满分水平。专家评估同样显示,它在非 STEM 任务以及信息科学领域的表现已经超越了 o3-mini。
此外,o3 和 o4-mini 首次实现了将图像直接融入思维链的能力,它们不仅“看得见”图像,更能“通过图像思考”。这带来了视觉与文本推理的全新融合方式,显著提升了它们在多模态任务中的表现。
关于这点,OpenAI 图像推理研究员 Jiahui Yu 发文称:“自最初推出 o 系列以来,“图像思考”始终是我们在感知领域的核心战略之一。早期发布的 o1 vision,曾为这一方向提供了初步的探索与预览;而如今,随着 o3 和 o4-mini 的发布,这一战略终于以更为成熟和完整的形式落地。多模态能力的持续演进,不仅推动了模型在理解世界方式上的跃升,也成为 OpenAI 实现 AGI 愿景中不可或缺的关键一环。”
模型性能毋庸置疑,而关于这两款模型可以自由调用 ChatGPT 里的各种工具的能力,OpenAI 首席研究官 Mark Chen 也发文表示:一旦推理模型学会了端到端地使用工具,它们就会变得更加强大,而最新的 o 系列模型正在“向未来迈出的质的一步”。
所谓“质的一步”,无非是将大模型的能力扩展到目前最火的 Agent 领域,值得一提的是,这已经不是 OpenAI 第一次向 Agent 领域进发了。
今年年初,OpenAI 接连推出 Operator 和 Deep Research 两个产物宣告向 Agent 进发,在此之前,他们还推出过一个类似于代办助手的 Agent 产物 —— ChatGPT tasks,来试了试水花。
而这次的满血版 o3 和 o4 mini 则是支持直接调用 ChatGPT 里的各种工具,从之前的“聪明大脑”直接进化为了“灵巧双手”。
有网友在试过了 o3 最新模型的调用能力后表示,模型帮他做了一些需要跨工具才能完成的工作,这让他感觉到了 Agent 给人们带来的便捷。
OpenAI 做 Agent,得天独厚
关于如何才能做出真正的 Agent,目前坊间的主流观点是:强化学习加基座模型。
但在 Agent 的实际研发中,大多数专注于 Agent 的公司并不具备自研基座模型的能力,能够组建强化学习团队的更是凤毛麟角。它们唯一的机会,往往在于依靠强悍的工程能力持续打磨产物体验,或通过差异化定位,探索某些功能层面的创新。
然而,由于缺乏底层模型的掌控权,这样的努力终究只是为自己在与大模型公司的赛道上争取些许缓冲时间。正因如此,那些具备训练基础模型能力的公司,在开发 Agent 时,往往能够实现事半功倍的效果,占据天然优势。
巧合的是,Deep Research 团队曾在多次访谈中强调,他们认为基于强化学习的端到端训练是当前 Agent 工艺变革的关键所在,原因在于强化学习能够有效突破传统 AI 系统在复杂场景中面临的灵活性不足和泛化能力受限的问题。
在此基础上,叠加 OpenAI 本身在基础模型上的强大优势,或许不久之后,Agent 就会被吃进 ChatGTP 的某个版本之中。
一位长期从事 Agent 方向的研究人员曾对 AI 科技评论表示:“用强化学习训练 Agent,本质上更像是将语言模型的能力在特定环境中进行定向强化和适配。也就是说,强化学习更多是在帮助语言模型在某一特定场景中“训得很好”。然而,目前许多学术研究仍停留在使用较基础的 base model 进行环境内训练,这样的工作即便做到极致,其成果也往往只是某个环境下的“特化版本”,难以实现跨环境的泛化能力,因此其实际意义和应用价值仍然有限。”
顺着这个点往下看,不难发现其实 OpenAI 已经同时掌握了基础模型和训练方式,拥有从底层能力到上层产物的完整控制权,也因此在定价方便拥有了更大的自主权。
例如,Deep Research 的 Agent 以每月 200 美金的价格对外订阅,全部收入可以留在体系内部,而那些依赖第三方模型的独立 Agent 团队,不仅受到 API 成本和模型性能波动的限制,在产物定价上也显得捉襟见肘。
“略知皮毛”不如洞彻本质,“套壳”并不是长久之计,这么一看,OpenAI 做 Agent,就得天独厚。
开源 Codex CLI
新模型之外,OpenAI 还开源了一款本地代码智能体:Codex CLI。它是一个轻量级的编码助手,可直接在客户的终端命令行中运行,为的是充分发挥 o3、o4-mini 等模型的推理能力,紧密连接本地开发环境,未来还会支持 GPT 4.1 等其他模型。
值得一提的是,它甚至支持通过截图或手绘草图进行多模态编程,直接刷新了代码交互与内容理解的边界。
雷峰网(公众号:雷峰网)观察到,为了测试这个功能,在发布会的实况中,开发人员还现场用 Codex CLI 展示了一波实施摄影的 ASCII 画面,让不少实况间网友大呼:“Intresting!”参考链接:
https://x.com/sama/status/1912558495997784441
https://news.ycombinator.com/item?id=43707719#43711155
https://github.com/openai/codex
https://x.com/jhyuxm/status/1912562461624131982
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
SCOW 首次亮相 HPC China 2022,以算网融合助力“东数西算”工程发展

12月13日,以“新算力 新赋能 新未来”为主题的2022 CCF全国高性能计算学术年会CCF HPC China 2022)在线上正式召开。作为高性能计算领域全球最具影响力的三大超算盛会之一,大会邀
《特里斯坦与伊索尔德》排练向观众开放 瓦格纳巅峰7月上演

来源标题:《特里斯坦与伊索尔德》排练向观众开放 瓦格纳巅峰7月上演《特里斯坦与伊索尔德》首次排练现场。解放日报记者 董天晔 摄“《特里斯坦与伊索尔德》将动机精准嵌入剧情转折点,使音乐成为戏
中国戏曲演出暨优秀电视纪录片展映活动在塞尔维亚举行
来源标题:中国戏曲演出暨优秀电视纪录片展映活动在塞尔维亚举行6月16日,在塞尔维亚首都贝尔格莱德中国文化中心,塞尔维亚演员展示当地传统舞蹈科罗舞。新华社发王韡摄)新华社贝尔格莱德6月17日电记者石中玉
非遗“顶流”点燃交大校园!柴门小童携千年技艺引爆青春传承热浪

来源标题:非遗“顶流”点燃交大校园!柴门小童携千年技艺引爆青春传承热浪2025年6月14日,文化和自然遗产日当天,上海交通大学校园内掀起了一场前所未有的非遗热潮。作为今年非遗日唯一获准进入交大的传统文
相声演员杨少华去世,曾登上春晚

9日下午,记者从相声演员苗阜、天津知名相声主持人小佀老师处获悉,相声演员杨少华去世,享年94岁。苗阜在个人微博悼念杨少华:一辈子了!走好杨少华,1931年出生于北京,中国内地相声男演员。杨少华早年家庭
阿里鱼与中央美术学院深度合作,助力中央美院毕业季IP开发创新

来源标题:阿里鱼与中央美术学院深度合作,助力中央美院毕业季IP开发创新以“逐光而行”为主题的中央美术学院毕业作品展(后称“央美毕业展”)正在如火如荼地进
《服饰与美容VOGUE》打造度假IP——“VOGUE Vacation”于三亚盛大启幕

来源标题:《服饰与美容VOGUE》打造度假IP——“VOGUE Vacation”于三亚盛大启幕仲夏伊始,海风轻拂。适逢《服饰与美容VOGUE》二十周年之际,时尚的叙事边界被再度拓展。6月5日至6月6
《紫川之光明王》今日收官 杨旭文刘宇宁张铭恩三兄弟重新收回远州失地

来源标题: 《紫川之光明王》今日收官 杨旭文刘宇宁张铭恩三兄弟重新收回远州失地今日,由爱奇艺出品,尚世影业、慈文传媒、灵河文化联合出品,张萌总导演,卫立洲导演,田良良、陈晨总编剧,杨旭文、刘宇宁领衔主
外交部:美对铜加征关税不符合任何一方利益

财联社7月10日电,据央视新闻,当地时间7月9日,特朗普宣布对铜征50%关税。今天,中国外交部发言人毛宁对此表示:这个问题我们立场非常明确,我们一贯反对泛化国家安全概念,我们也始终认为关税战、贸易战没
网易云音乐推出“毕业福利季”活动 会员、iPad、游戏道具等丰富福利免费送

来源标题:网易云音乐推出“毕业福利季”活动 会员、iPad、游戏道具等丰富福利免费送6月9日,网易云音乐宣布“毕业福利季”主题活动正式上线,推出送会员福利、游戏联动福利、好歌福
北京人艺话剧《张居正》折射时代风云

来源标题:北京人艺话剧《张居正》折射时代风云北京人艺话剧《张居正》6月10日起在首都剧场再次上演。该剧透过一代名臣的生前身后,折射出一个时代的风云,由熊召政编剧,冯远征、闫锐导演。熊召政创作的小说《张
首部以网暴为题材的原创音乐剧《无法访问》将上演 直面“网络暴力”对谈“N种解法”

来源标题:首部以网暴为题材的原创音乐剧《无法访问》将上演 直面“网络暴力”对谈“N种解法”原创音乐剧《无法访问》剧照。6月20日至21日,国内首部以“网络暴力”为题材的原创音乐