搜索
当前所在位置:首页 >> 百科

【越南外籍技师恋爱记录】GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

发布时间:2025-09-13 11:08:00 作者:d 点击:3 【 字体:

天下武功唯快不破,竟的接棒但 OpenAI 不走寻常路,革命新出的由o研究 o1 系列宣告天下:

我们更慢,但更强了。最重

o1 要花更多的竟的接棒时间思考问题,再做出反应,革命越南外籍技师恋爱记录但在复杂推理层面直接窜了几个档位。由o研究

在国际数学奥林匹克 (IMO) 资格考试中,最重GPT-4o 仅正确解决了 13% 的竟的接棒问题,而 o1 得分为 83%。革命

好家伙,由o研究这数学水平,最重上一次见面还是竟的接棒小学生,现在直接博士毕业了?革命

OpenAI 也很得意,表示 o1 已经达到AI能力新高度了,由o研究所以直接把计数重置到1,开启新的大模型系列 OpenAI o1。

本次 OpenAI o1系列分为三个型号,老师与同事翻车全集最强但还未发布的 o1,o1 的预览版 o1-preview,和性价比最高的轻量版 o1-mini。

之前的 GPT 系列还被诟病更新“挤牙膏”,没想到 OpenAI 一直都是老样子,不鸣则已一鸣惊人,直接给 AI 界来了个大大大地震。

综合网络对于 o1 的报道和评论,我们注意到几个关键信息:

这可能是Scaling Law提出以来,LLM领域最重要的发现。这一进展的核心是推理时间和参数规模两条曲线的协同作用,而不是单一曲线;

与强化学习的完美结合,可能为我们指明了通往人工通用智能(AGI)的有效路径(此前AI科技评论8月28日曾举办《大模型时代的强化学习》网络研讨会,讨论了强化学习与大模型的结合,感兴趣的朋友点击下方链接进行回看);

o1 并非 GPT-4o 的升级版本,目前仍然无法解决像黎曼假设这样极其复杂或开放的问题,也没能解决幻觉问题。

OpenAI 对大模型的这次重新构想,无疑将对大模型的未来走向和整个AI领域的格局产生深远影响。


OpenAI的又一里程碑

奥特曼表示,o1 是他们迄今为止功能最强大、最一致的模型系列,只是使用的时候要花更多时间(凡尔赛了)。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

如图所示,o1 在绝大多数重推理任务中显著优于 GPT-4o

正在休长假、沉寂了一个月的 OpenAI 的另一位联创 Greg Brockman 洋洋洒洒写了一长段推文,表扬了 o1 的超强性能,并特别指出 o1 是第一个使用强化学习训练的模型,会在回答问题之前进行深入的思考。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

lmsys 也马上在 Chatbot Arena 更新了 o1-preview 和 o1-mini,欢迎大家测试。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

参与研发o1的 Shengjia Zhao 很谦虚地表示,o1 并不是完美的,也不会适合所有事情。不过人们能感受到它潜力无限,并再一次感受到 AGI。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

Jim Fan 认为,o1 透露出的研究进展可能是自 2022 年 OG Chinchilla 缩放定律以来 LLM 研究中最重要的发现。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

他还提到了两篇近期发表的关于 Scaling Law 的论文,并指出 OpenAI 早已意识到这一点,并通过 o1 证实了这些发现。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现


大模型+强化学习=AGI?

大模型与强化学习的结合是近几年来的热门研究方向之一。

大模型的泛化能力和背景知识与强化学习的交互学习和任务优化相结合,可以创建出能够更好地适应复杂环境、解决多任务问题、并提供更高效和可解释决策的智能系统。这种互补性使得两者的结合成为推动人工智能发展的重要方向。

o1 大模型的发布,首次证明了语言模型可以进行真正的强化学习。而 OpenAI 的一位研究员说,o1 证明了强化学习才是通往 AGI 道路上的必备要素(RL研究者狂喜)

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

OpenAI 另一位专注推理的研究员也说,通过强化学习,o1 能够在做出反应进行“思考”,让他们不用再受预训练的瓶颈限制,终于可以做扩展推理计算了。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

强化学习和LLM可以说是非常适配了,只不过在 o1 之前还没有人能用 LLM 真正实现强化学习。

之前就有人说,模仿是 LLM 训练的基础,而模仿其实就是强化学习的问题。

DeepMind 的新论文也有提到,与监督学习相比,强化学习可以更好地利用序列结构、在线数据并进一步提取奖励。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

领导 DeepMind 强化学习研究小组的David Silver,也在前段时间的演讲中强调,“需要重新关注强化学习,才能走出 LLM 低谷。”


局限

不过,一众好评声中,也有人指出了 o1 存在的一些问题。

Andrej Karpathy 在测试后发推特说,o1-mini 还是有大模型的老毛病,问它黎曼假设这类复杂问题就偷懒逃避。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

Gary Marcus 认为 o1 并不是通用人工智能(AGI),甚至离 AGI 还很远。

他尖锐地点出了 o1 的八条问题,从多个方面批评了o1模型的细节披露不足、改进不够全面,认为实际测试与宣传间存在差距,并提醒消费者要慎重。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

Hugging Face 的 CEO 也表示,AI 并不是在思考,只是在在“处理”、“运行预测”……和谷歌或者计算机做的事情是一样的。这种技术系统是人类的错误印象,只是廉价的骗术和营销手段,让人误以为它比实际更聪明。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

OpenAI 自己也承认了 o1 的不足。在一些自然语言任务测试中,尤其是写作能力方面,GPT-4o 还是更胜一筹。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

并且,o1 的推理依然存在缺陷,在实现质的提升的同时也没能解决LLM的幻觉问题。

著名程序员、Django Web 框架的联合创建者 Simon Willison 在推特上收集在 GPT-4o 上推理失败,但在 o1 成功的例子,只找到了几个让他满意的案例。他认为从推理来看,o1 并不是 GPT-4o 的升级版。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

他在博客中写道,o1 并不是简单的 GPT-4o 升级版,而是通过在成本和性能方面引入重大权衡,换取了更进一步的推理能力。

很明显,o1 和 GPT-4o 代表大模型的两个不同方向。OpenAI 也提到,以后会分别研发升级两个模型,这意味着,过去适用于 GPT-4o 的 Prompt 技巧未必同样适用于 o1。


实测

那么,o1 的表现到底怎么样呢?

在 Toqan 的排行榜中,我们可以看到 OpenAI O1 模型在 ProLLM StackUnseen 基准测试中表现出来的水平,比 SOTA 要高出 20%。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

elvis 做了详细测试,他提到 o1-preview 能够一次性解决很多难以回答的问题,包括很多当前大型语言模型(LLMs)难以处理的数学问题。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

他的完整测试视频已经上传YouTube,可以点击以下链接观看:

https://www.youtube.com/watch?v=xJJ2h3wQByg

OpenAI 首席研究官 Bob McGrew 在The Verge的采访中说,“从根本上说,o1 是一种新的模型模式,能够解决真正困难的问题,从而达到与人类相似的智能水平。”雷峰网雷峰网(公众号:雷峰网)

o1-preview和o1 mini已经带给我们这么多惊喜,不敢想最后发布的o1到底能有多强悍,让我们拭目以待。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

阅读全文
相关推荐

AI医疗应用又有新进展,支付宝开放“AI就医助理”解决方案

AI医疗应用又有新进展,支付宝开放“AI就医助理”解决方案
AI在医疗场景的应用又有新进展。4月2日,支付宝发布“AI就医助理”解决方案,利用AI大模型、数字人等技术,助力医疗机构为患者提供覆盖就医前、中、后的“AI陪伴就诊”服务。雷峰网(公众号:雷峰网)了解 ...

SIGGRAPH Asia 2024:传统与创新并存,3D 生成与具身智能热度上升

SIGGRAPH Asia 2024:传统与创新并存,3D 生成与具身智能热度上升
作者丨朱可轩编辑丨陈彩娴今日,历时四天12.3-12.6)的第十七届 SIGGRAPH Asia 在东京正式闭幕,本届围绕的主题为「Curious Minds」,无论是参与注册的人数还是论文投稿数都创 ...

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
清华和上交的最新论文中,上演了一场“学术打假”的戏码。文中研究者们对当前“纯 RL 有利于提升模型推理能力”的主流观点提出了相反的意见。通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟 ...

最受欢迎开源大模型,为什么是通义?

最受欢迎开源大模型,为什么是通义?
开源与闭源之争早已非新奇的话题,但毋庸置疑的是,开源极大地促进了大模型技术发展和生态繁荣。大模型被认为是最烧钱的技术,训练一个大模型往往需要大量的数据、计算资源,导致训练成本巨大,众所周知GPT-3的 ...

李彦宏在百度世界2023:我们即将进入一个AI原生的时代

李彦宏在百度世界2023:我们即将进入一个AI原生的时代
“大模型带来的智能涌现,这是我们开发AI原生应用的基础。”10月17日,李彦宏在百度世界2023上表示。当天,李彦宏以《手把手教你做AI原生应用》为主题发表演讲,发布文心大模型4.0版本,并带来新搜索 ...

香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈

香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈
作者丨朱可轩编辑丨陈彩娴去年年底,全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World 发布,在机器人领域引起了广泛关注。AgiBot Worldht ...

拓元智慧完成近亿元人民币Pre

拓元智慧完成近亿元人民币Pre
作者 | 赖文昕编辑 | 陈彩娴近日,拓元智慧X-Era AI)宣布成功完成 Pre-A 轮融资,融资金额接近一亿人民币。此轮融资由粤科金融集团、鹏城愿景基金、红鸟启航基金等投资机构共同参与。早在 2 ...

联想黄山:「超智融合」成算力新趋势,联想打造异构智算平台

联想黄山:「超智融合」成算力新趋势,联想打造异构智算平台
9月24日至26日,第20届CCF全国高性能计算学术年会CCF HPC China 2024)在武汉市中国光谷科技会展中心正式开幕。本次大会上,联想以“异构智算 稳定高效”为主题,携“一横五纵”算力基 ...

四个月融两轮,千寻智能获 2 亿元天使轮融资;大模型公司卓世科技获亿元人民币 B+ 轮融资;小鹏机器手首次亮相丨AI情报局

四个月融两轮,千寻智能获 2 亿元天使轮融资;大模型公司卓世科技获亿元人民币 B+ 轮融资;小鹏机器手首次亮相丨AI情报局
今日融资快报四个月融两轮,具身智能机器人公司千寻智能获得2亿人民币天使轮融资千寻智能创始人兼CEO韩峰涛在机器人行业拥有十余年丰富经验,曾任珞石机器人联合创始人&CTO,是国内高性能轻型工业机 ...

拓元智慧完成近亿元人民币Pre

拓元智慧完成近亿元人民币Pre
作者 | 赖文昕编辑 | 陈彩娴近日,拓元智慧X-Era AI)宣布成功完成 Pre-A 轮融资,融资金额接近一亿人民币。此轮融资由粤科金融集团、鹏城愿景基金、红鸟启航基金等投资机构共同参与。早在 2 ...

王威廉最新创业项目:世界上第一个用于芯片设计和验证的 AI 智能体来了

王威廉最新创业项目:世界上第一个用于芯片设计和验证的 AI 智能体来了
今年 AI 智能体简直火得不行,各种初创公司像雨后春笋般冒出,光是 Y Combinator 一家今年就已经投资了 94 家相关初创公司。怪不得吴恩达说:“AI 智能体工作流程将在今年推动 AI 的巨 ...

对话UCL青年教授赵湖斌:可穿戴式DOT如何重塑脑机接口

对话UCL青年教授赵湖斌:可穿戴式DOT如何重塑脑机接口
我们应当如何实时监控自己大脑的健康状态?以马斯克的Neuralink为代表的侵入式脑机接口,过植入大脑皮层的线状电极直接读取神经信号,实现了高精准度信号采集和脑际交互。但是,侵入式脑机接口方案的风险也 ...
返回顶部