Pieter Abbeel 新工作“大世界模型”:轻松玩转1小时长影片,一对一QA影片内容细节
2025-07-11 09:54:28 - 趣趣
作者:赖文昕
编辑:陈彩娴
自3天前Sora发布以来,新工小时细节由图灵奖得主、世界Meta首席科学家Yann LeCun提出的模型长沙大学实拍推荐“世界模型”又一次引起了广泛关注。
“世界模型”作为Sora的轻松一大核心亮点,被OpenAI写在工艺报告中。玩转但Sora是长影否真的如Open AI所说,是片对一个世界模型,却引起了行业内的影片争论。
在Yann LeCun的内容愿景中,世界模型是新工小时细节一个能够学习世界如何运作的内在规律的内部模型,可以更快速地学习,世界为完成复杂任务做出计划,模型并且随时应对不熟悉的轻松新情况,所以它很有可能克服目前限制最先进的玩转AI系统增长的难关。
而在这场争论持续之际,长影 UC Berkeley(加州大学伯克利分校)发布了一项名为“Large World Model(LWM)”的最新研究成果,今日已成功登上GitHub榜首。
值得一提的长沙大学实拍推荐是,两位华人学者Hao Liu和Wilson Yan为共同一作,指导老师是吴恩达开门大弟子、伯克利机器智能实验室主任Pieter Abbeel与计算机副教授Matei Zaharia。两位教授的谷歌学术引用次数均十分耀眼,分别高达13.8万次与7.4万次。
论文链接:https://arxiv.org/pdf/2402.08268.pdf
为了应对由于内存限制、计算复杂性和信息集有等重大挑战,这个团队构建了一个由不同影片和书籍组成的大型信息集,以Hao Liu先前提出的RingAttention工艺为基础,对长序列进行可伸缩训练,并将上下文大小从4K逐渐增加到100万tokens,一次可以分析1小时长度的影片。
100万token,1小时长影片,它还开源
大模型的增长进程快得令人惊叹,但是仍存在不少工艺痛点。比如,目前的语言模型无法理解世界上某些难以用语言描述的问题,且难以处理复杂冗长的任务。
针对这个难题,该团队提出了“Large World Model(LWM)”,因为影片序列能提供语言和静态图像中没有的、有价值的时间信息,这使得它们对于语言的联合建模具有特别作用。这样的模型可以更好地理解人类文本知识和物理世界,从而实现更广泛的机器智能能力来帮助人类。
这个“大世界模型”是否确如其名呢?
在研究报告的开篇,团队便自信展示了LWM与GPT-4V、Gemini Pro Vision与Video-LLaVA的对比结果:将长达1小时的油管影片输入并根据影片内容细节提问后,只有LWM能提供准确的答复。
而除了能读懂理解长影片外,LWM在超长文本任务的表现同样亮眼。LWM 可以高精度地检索 1M 上下文中的事实。 针对Gemini Pro 和 GPT-4各自的最大上下文长度(32K 和 128K)进行单针检索比较时,LWM在各个指标上的表现均大幅领先。
团队对LWM的研究成果作出了以下总结:
该研究在长影片和语言序列上训练了一个拥有极大上下文尺寸的 transformers 模型,从而设立了新的检索任务和长影片理解方面的标杆。
为了克服视觉 - 语言训练带来的挑战,该研究采取了以下措施,包括使用掩码序列以混合不同长度的序列、损失加权以平衡语言和视觉、以及使用模型生成的问答信息来处理长序列对话。
通过 RingAttention、掩码序列打包等方法,可以训练数百万长度的多模态序列。
完全开源 7B 参数系列模型,其能够处理超过 100 万 token 的长文本文档(LWM-Text、LWM-Text-Chat)和影片(LWM、LWM-Chat)。
分阶段的渐进式训练,模型能力逐步升级
是什么训练方法让LWM具备如此亮眼的能力呢?
LWM的训练步骤主要分为两个阶段:第一阶段是学习长上下文语言模型(Learning Long-Context Language Models),第二阶段是学习长上下文视觉-语言模型(Learning Long-Context Vision-Language Models)。
第一阶段时,团队将研究重点分为了上下文扩展、训练步骤、聊天微调和语言结果评估四个部分。
在上下文扩展中,他们使用RingAttention工艺,通过分块计算和序列并行,理论上可以扩展到无限上下文,仅受限于可用设备数量。
RingAttention作为一个环形结构来组织blocks,这样每个block只需要与其相邻的block进行通信、交换信息,此结构能够大大减少通信开销。
分块计算则是将长序列分割成多个较小的blocks,每个block包含固定数量的tokens。这样,模型只需要计算每个block内的注意力权重,而不是整个序列。
在训练过程中,序列并行的方法可以并行处理多个block,每个block由不同的GPU处理,使模型能在多个设备上同时处理序列的不同部分,从而提高了训练效率。
同时,由于RingAttention 支持渐进式训练,让模型可以从处理较短的序列开始,然后逐步增加序列长度。于是团队就采用了渐进式训练方法,从32K tokens开始,逐步增加到1M tokens,以有效扩展上下文大小。这意味着此方法有助于模型逐步学习处理更长序列的能力,同时保持训练效率。
到了训练步骤的部分,团队会初始化模型参数,然后逐步增加上下文长度,分为32K、128K、256K、512K和1M tokens共5个阶段,且在每个阶段,会使用不同版本的Books3信息集进行训练,这些信息集经过过滤,以适应当前的上下文长度。
针对聊天微调,团队构建了模型生成的问答信息集,通过将文档分割成固定大小的block,然后使用短上下文语言模型生成问题和答案对。而在长上下文长度(如32K tokens)下,则是通过连接相邻的block和在序列末尾添加相关的问答对来构建单个32K tokens的示例。
在第一阶段的最后,团队对于LWM的语言能力进行了单针检索、多针检索、多文本评估和聊天评估。
值得一提的是,此研究还对比了具有 4K 上下文的 Llama2-7B 模型与LWM-Text(从 32K 到 1M)的语言能力。 评估涵盖了各种语言任务,证明扩大上下文大小不会作用短上下文任务的性能。结果表明,LWM在32K 到 1M长度下各任务中表现得同样好,甚至更好。
这一证据表明上下文扩展不存在负面作用,突显了模型适应不同任务要求而不会在较短上下文中损失效率的能力。
在完成语言模型的训练后,团队开启了他们的第二阶段——学习长上下文视觉-语言模型。在此阶段中,团队也将研究工作分为三个板块,即视觉架构修改、训练步骤和评估结果。
对于视觉架构修改,他们使用了预训练的VQGAN将图像和影片帧转换为离散tokens,并且引入新的tokens来区分文本生成的结束和视觉生成的开始,以及影片帧的结束。
而在训练步骤中,团队从LWM-Text-1M文本模型开始初始化,然后在大量结合文本-图像和文本-影片信息上进行渐进式训练。他们分别在1K、8K、32K、128K和1M tokens的序列长度上进行训练,同样地,每个阶段都是从先前的较短序列长度阶段初始化。
在最终的评估结果上,团队在长影片理解、图像理解和短影片理解等任务上评估了LWM的模型性能并展示了其在处理长影片和图像生成方面的优秀能力。
结语
Sora在2024年拉响了大模型比拼的第一枪,使得文生影片工艺跃为时下焦点,也让“世界模型”变得似乎不再遥不可及。
在应对长文本、影片甚至是多模态工艺时,世界模型对物理世界规律的理解与应用,或将成为各家大模型选手能否在角逐中取胜的关键。
雷峰网(公众号:雷峰网)AI 科技评论将持续关注大模型领域动态,欢迎添加anna042023,交流认知,互通有无
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
尹锡悦再被捕,或“牢底坐穿”

韩国首尔中央地方法院10日凌晨签发对前总统尹锡悦的逮捕令。负责调查紧急戒严事件的特检组随后实施逮捕。这是尹锡悦获释4个月后再次被捕。当地时间2025年7月9日,韩国首尔,韩国前总统尹锡悦中)抵达法院,
启明创投发布2024生成式AI十大展望

7月6日,由启明创投主办的2024世界人工智能大会WAIC)“启明创投·创业与投资论坛——超级模型、超级应用、超级机遇”在上海世博中心红厅成功举办。大语言模型、多模态模型、具身智能和生成式AI应用领域
Groq获贝莱德3亿美元投资,最新估值22亿美元;Hayden AI获9000万美元C轮融资丨AI情报局

融资快报Groq 获贝莱德 3 亿美元投资,最新估值 22 亿美元Groq 创始人Jonathan Ross,毕业于纽约大学,曾在谷歌 X 实验室参与多个项目,包括 Tensor Processing
宇树亮相2024世界机器人大会,王兴兴解答人形机器人规划

2024年8月21日,北京亦庄举行了盛大的2024世界机器人大会。宇树公司凭借强大的技术实力和创新成果在会场上展露头角,带来了消费级四足机器人Go2和它的新型号Go2-W轮足版本,工业级四足机器人B2
超 50 位两院院士、200 位青年科学家!2023「青年科学家 50² 论坛」深圳举办

9月24日,由南方科技大学、腾讯公司共同主办的第三届“青年科学家50²论坛”在深圳开幕。韩启德、窦贤康、薛其坤、潘建伟等知名科学家,超过50位两院院士,20位大学校长、副校长,50多位新基石研究员,近
早鸟倒计时3天丨院士领衔、重磅嘉宾云集!中国大模型大会(CLM2024)诚邀您共同探索中国大模型之路!详细日程公开

近年来,以GPTs为代表的大语言模型引起了全球各界的广泛关注,与之相关的新研究、新产品竞相绽放,颠覆了人们对于人工智能的理解,大模型技术正在引领科技创新的新潮流!为推动大语言模型以及基于大模型的自然语
边缘人工智能提供商 Gcore 获 6000 万美元融资;马斯克开训最大 AI 集群,目标年底开发全球最强 AI丨AI情报局

今日融资快报边缘人工智能、云、网络和安全解决方案提供商Gcore获6000万美元A轮融资Gcore 的云基础设施专为边缘而构建,为边缘的 LLM 训练和人工智能应用程序的推理提供支持。融资由Warga
Viggle 获 a16z 领投 1900 万美元;华为启动 AI 百校计划,解决高校算力问题;字节成立大模型研究院丨AI情报局

今日融资快报AI视频生成公司 Viggle 获1900万美元投资,a16z领投Viggle 已完成由 Andreessen Horowitz 领投的 1900 万美元 A 轮融资,Two Small
DALL·E 3 推理能力炸裂提升,OpenAI 抢跑「ChatGPT 原生」

时隔一年半,OpenAI 直接玩了个大的,把文生图和 ChatGPT 做了结合,带着最新版本 DALL·E 3 来了。DALL·E 3 的巨大飞跃主要体现在两大方面。第一,只需要提示词,ChatGPT
从 Snapchat 离开的人

时代的幸运儿,天生的梦想家。王孝宇、李佳、杨建朝建立Snap 研究院美国移动互联网独角兽 Snap 曾因公司从成立到上市花了不到 5 年时间的财富故事风靡全球,但鲜少有人知道,它的人工智能研究院最早是
奇瑞 1 亿元成立 AI 机器人新公司;AI Infra 公司趋境科技获天使融资;地平线组建具身智能实验室丨AI情报局

今日融资快报奇瑞汽车1亿成立科技新公司,含多项AI业务天眼查App显示,安徽开阳科技有限公司成立,法定代表人为尹同跃,注册资本1亿人民币,经营范围含网络与信息安全软件开发、智能机器人的研发、人工智能基
AI 图像生成平台 LiblibAI 融资总额达数亿元;Meta 曝训练 Llama 3 每 3 小时「罢工」一次丨AI情报局

今日融资快报AI 图像生成平台 Liblib AI 融资总额达数亿元 AI图像生成平台 LiblibAI哩布哩布AI一年内,已经完成了三轮融资,总金额达数亿元人民币,天使轮投资方为源码资本、高榕创投和