搜索
当前所在位置:首页 >> 综合

【广州师范大学偷拍下载】推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

发布时间:2025-09-13 13:27:21 作者:rvfvr 点击:669 【 字体:

2025 年 1 月 20 日 Kimi k1.5 正式发布,推特伴随着技术报告的热帖公布,有网友表示:“这应该是作团全球范围内,除 OpenAI 之外的项技公司首次实现 o1 正式版的多模态推理性能了吧!”

一时间,推特Kimi k1.5 成了话题王者。热帖广州师范大学偷拍下载

但在一个月后的作团 2 月 24 日,X 上出现了一篇关于 Kimi k1.5 的项技技术爆料帖,博主直言 k1.5 所用到的推特强化学习算法,其实是热帖借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的技术。

消息一出,作团瞬间吸引了数万人关注。项技

推特热帖:k1.5 很牛,推特因为借鉴了 UCLA 与 CMU 合作团队的热帖这项技术

Kimi k1.5 背后的 SPPO 技术

在这则爆料中,博主 Yue Wu 先是作团对 SPPO 进行了简单解释,并且附上了相关论文(https://arxiv.org/abs/2405.00675),简单来说,SPPO是一种自博弈算法,最初的动机来源于刻画广泛意义上的人类偏好,并且使用了如下图所示的平方损失函数:

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的<strong>北京师范大学偷拍视频下载</strong>这项技术

值得一提的是,点开论文链接,你会发现原来 Yue Wu  和 Zhiqing Sun 同为这篇文章的第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

紧接着,他开始对 SPPO 技术进行解析:

通过迭代求解上式中的 theta_t,我们可以得到一个与人类偏好对齐良好的语言模型。SPPO 使用胜率(红色部分)作为奖励,并用常数近似基线(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

让我们感兴趣的是,我们发现它与 RLHF 目标的策略梯度有着深层的联系:如果我们直接用普通的策略梯度优化 RLHF (人类反馈强化学习)目标会怎样?根据策略梯度定理,策略梯度实际上也具有平方损失形式(蓝色项是策略梯度中的基线):

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

从数学上,我们证明了 SPPO 的平方损失等价于普通策略梯度的一种半在线变体:

SPPO 中的胜率充当奖励函数(红色部分)。

分区函数项自然地成为(软)值函数(蓝色部分)。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

那么这到底意味着什么呢?

标准策略梯度(PPO、GRPO、REINFORCE)在每一步都收集遵循当前策略的样本。

SPPO 在每次迭代开始时只采样一次,然后通过平方损失进行优化。

这使得 SPPO 成为一种轻量级的 RLHF 方法——无需即时生成!

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

上述分析揭示了大型语言模型(LLM)后训练阶段一个有趣的发展趋势:

离线 DPO(IPO、KTO 等)取代 RLHF(奖励模型 + 强化学习)

迭代 DPO、SPPO 等方法将离线方法转化为在线对齐方法

更加精细的迭代 → 回归到在线强化学习

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

鉴于 GRPO(Deepseek-R1)和平方损失(Kimi k1.5)的成功,端到端强化学习的强大作用愈发凸显,或许在大型语言模型(LLM)后训练阶段无需额外技巧——价值函数、广义优势估计(GAE),甚至梯度裁剪都无需使用。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

另一个简单但有趣的发现是,他们发现 SPPO 暗中在词汇级别优化最优最大熵策略。其平方损失隐含地最小化了学习到的策略与最优词汇级别策略之间的 KL 散度。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

在我们后续的研究 GPO 中,我们直接最小化相对奖励与对数比率之间的平方损失。这两项工作中的平方损失等价于策略梯度,但它是以迭代的方式进行的。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

SPPO 技术背后的科研大牛

除了提出助力 Kimi k1.5 大获成功的 SPPO 技术外,Wu Yue 也是一个学术背景很强的科研大牛。他本科期间师从北京大学的王立威教授,博士期间师从加利福尼亚大学洛杉矶分校的顾全全教授,目前以博士后研究员的身份在普林斯顿大学人工智能实验室继续着自己的科研之路。推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

除此之外,2023 年至今他一共参与发布了 9 篇 Paper,其中 3 篇均为第一作者。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

强大的学术背景之外,Wu Yue 的实习经历也非常加分。2022 年至 2024 年,他分别在 NEC 美研院、字节美国 AI lab和 Meta 工作实习。在 NEC 美研院期间,Wu Yue 从事个性化联邦学习研究,并开发了一种基于混合模型的方法,该方法被 ICML 2023 接受发表;在字节美国 AI lab 时,他专注于药物发现领域的多构象生成,将分子动力学的物理先验纳入基于扩散的生成模型,相关成果被 ICML 2024 接受;来到 Meta 后,Wu Yue 又致力于词汇级别奖励建模和新架构设计,用于一般人类偏好和一般偏好优化,为生成式人工智能的发展做出了贡献。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术雷峰网(公众号:雷峰网)还了解到,与他同为第一作者的 Zhiqing Sun ,目前已经从 CMU 毕业,并在今年 2 月加入 OpenAI。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

阅读全文
相关推荐

牵手五大顶尖高校教授 “云阙智能”打造AIGC智囊团

牵手五大顶尖高校教授   “云阙智能”打造AIGC智囊团
大模型竞争已进入白热化阶段,盲目卷资源已不再是长久之计,AI 创业公司的可持续性和科学性则是更重要的考量因素。在这一背景下,背靠强大高校,有科研能力、学术资源和充足的后备人才作为补充,变得愈发重要。2 ...

Babel 张海龙:AI Agent 将铸就一支“钢铁雄师”

Babel 张海龙:AI Agent 将铸就一支“钢铁雄师”
作者:赖文昕编辑:陈彩娴在刚刚结束的英伟达 GTC 大会上,CEO 黄仁勋描绘了一幅在 AI 大模型影响下软件开发的新蓝图:未来做软件不太可能重头开始写一大堆代码。“很可能你会组建一支 AI 团队。” ...

曝阶跃星辰正在进行估值20亿美元融资;OpenAI放宽股票限制;Suno和Udio遭三大唱片公司起诉丨AI情报局

曝阶跃星辰正在进行估值20亿美元融资;OpenAI放宽股票限制;Suno和Udio遭三大唱片公司起诉丨AI情报局
融资快报曝阶跃星辰正进行新一轮融资:阶跃星辰由微软前全球副总裁姜大昕创办,在自研大模型、应用产品先后亮相后,垒起更大的雪球。据悉,阶跃星辰正在进行一轮估值20亿美元的新融资,阿里巴巴再次出现在布局传闻 ...

2024年IEEE Fellow名单揭晓:「视觉智能」领域十余位华人学者入选!

2024年IEEE Fellow名单揭晓:「视觉智能」领域十余位华人学者入选!
近日,国际电气与电子工程师协会IEEE)公布了2024年新晋Fellow名单。本次共从被提名的949名候选人中选出323名IEEE Fellow,其中华人学者有116位,占总人数的36%左右。IEEE ...

李开复宣布筹组中文版 ChatGPT 公司“Project AI 2.0”

李开复宣布筹组中文版 ChatGPT 公司“Project AI 2.0”
作者丨New Bing编辑丨AI科技评论1背景3月19日下午4点半,创新工场董事长兼CEO李开复在朋友圈宣布,正在亲自筹组Project AI 2.0,这是创新工场塔尖孵化即先在策略层面设定特定技术主 ...

新生与对话,华东师范大学上海人工智能金融学院举办首届学术年会

新生与对话,华东师范大学上海人工智能金融学院举办首届学术年会
华东师范大学上海人工智能金融学院举办首届学术年会2024年5月31日至6月1日,华东师范大学上海人工智能金融学院首届学术年会在华东师范大学普陀校区科学会堂举行。来自4大洲18位人工智能、金融领域以及跨 ...

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力
最近谷歌发布的 Gemini 格外引人注目,其号称是第一个在各种任务中可与 OpenAI 的 ChatGPT 相媲美的大模型。报道显示,Gemini 的“Ultra”版本在各种任务上都优于 GPT-4 ...

「焦虑」的体育教育,「救场」的AI体育

「焦虑」的体育教育,「救场」的AI体育
人工智能正迈入一个崭新的细分时代。随着技术不断成熟,应用日渐规范,以普惠之姿出现的AI,已成为各行各业的关键驱动力,其中AI之于教育,是一个令人兴奋的话题。教育事关国家未来的根基,AI技术的应用,在促 ...

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
清华和上交的最新论文中,上演了一场“学术打假”的戏码。文中研究者们对当前“纯 RL 有利于提升模型推理能力”的主流观点提出了相反的意见。通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟 ...

Sora 发布两周后,关于 Sora 的一些冷思考

Sora 发布两周后,关于 Sora 的一些冷思考
两周前的今天,北京时间 2 月 16 日,OpenAI 、谷歌、Meta、Stability 都在这一时间节点前后发布文生视频模型成果,但只有 OpenAI 的 Sora 在这场角逐中破圈而出,成功抢 ...

百川智能首款 AI 应用主打懂搜索,但王小川不做搜索 2.0

百川智能首款 AI 应用主打懂搜索,但王小川不做搜索 2.0
「雷峰网(公众号:雷峰网)」二十多年前,搜索引擎的发明极大地方便了人们获取信息,很快搜索引擎便成为互联网时代第一流量入口,谷歌、百度更是凭借搜索引擎在 PC 互联网时代占据统治地位,成为两大巨头,多年 ...

体育中考「上难度」,视觉 AI 下场「减负」

体育中考「上难度」,视觉 AI 下场「减负」
“组织体育中考30年了,今年是第一年没有遇到12345投诉的考试。”“监考17年,第一次能准点吃饭,提前下班。”上面这些评价,来自今年北京市部分体育中考考场裁判老师。每年3月到5月,是各地学校组织体育 ...
返回顶部