搜索
当前所在位置:首页 >> 休闲

【女助理被老板潜规则记录】Pieter Abbeel 新工作“大世界模型”:轻松玩转1小时长视频,一对一QA视频内容细节

发布时间:2025-09-13 13:29:59 作者:ptww 点击:8976 【 字体:


作者:赖文昕

编辑:陈彩娴

自3天前Sora发布以来,新工小时细节由图灵奖得主、世界视频Meta首席科学家Yann LeCun提出的模型“世界模型”又一次引起了广泛关注。

“世界模型”作为Sora的轻松一大核心亮点,被OpenAI写在技术报告中。玩转但Sora是长视女助理被老板潜规则记录否真的如Open AI所说,是频对一个世界模型,却引起了行业内的内容争论。


在Yann LeCun的新工小时细节愿景中,世界模型是世界视频一个能够学习世界如何运作的内在规律的内部模型,可以更快速地学习,模型为完成复杂任务做出计划,轻松并且随时应对不熟悉的玩转新情况,所以它很有可能克服目前限制最先进的长视AI系统发展的难关。

而在这场争论持续之际,频对 UC Berkeley(加州大学伯克利分校)发布了一项名为“Large World Model(LWM)”的最新研究成果,今日已成功登上GitHub榜首。

值得一提的北京技校晚自习是,两位华人学者Hao Liu和Wilson Yan为共同一作,指导老师是吴恩达开门大弟子、伯克利人工智能实验室主任Pieter Abbeel与计算机副教授Matei Zaharia。两位教授的谷歌学术引用次数均十分耀眼,分别高达13.8万次与7.4万次。

论文链接:https://arxiv.org/pdf/2402.08268.pdf


为了应对由于内存限制、计算复杂性和数据集有等重大挑战,这个团队构建了一个由不同视频和书籍组成的大型数据集,以Hao Liu先前提出的RingAttention技术为基础,对长序列进行可伸缩训练,并将上下文大小从4K逐渐增加到100万tokens,一次可以分析1小时长度的视频。


100万token,1小时长视频,它还开源

大模型的发展进程快得令人惊叹,但是仍存在不少技术痛点。比如,目前的语言模型无法理解世界上某些难以用语言描述的问题,且难以处理复杂冗长的任务。

针对这个难题,该团队提出了“Large World Model(LWM)”,因为视频序列能提供语言和静态图像中没有的、有价值的时间信息,这使得它们对于语言的联合建模具有特别作用。这样的模型可以更好地理解人类文本知识和物理世界,从而实现更广泛的人工智能能力来帮助人类。

这个“大世界模型”是否确如其名呢?

在研究报告的开篇,团队便自信展示了LWM与GPT-4V、Gemini Pro Vision与Video-LLaVA的对比结果:将长达1小时的油管视频输入并根据视频内容细节提问后,只有LWM能提供准确的答复。

而除了能读懂理解长视频外,LWM在超长文本任务的表现同样亮眼。LWM 可以高精度地检索 1M 上下文中的事实。 针对Gemini Pro 和 GPT-4各自的最大上下文长度(32K 和 128K)进行单针检索比较时,LWM在各个指标上的表现均大幅领先。


团队对LWM的研究成果作出了以下总结:

该研究在长视频和语言序列上训练了一个拥有极大上下文尺寸的 transformers 模型,从而设立了新的检索任务和长视频理解方面的标杆。

为了克服视觉 - 语言训练带来的挑战,该研究采取了以下措施,包括使用掩码序列以混合不同长度的序列、损失加权以平衡语言和视觉、以及使用模型生成的问答数据来处理长序列对话。

通过 RingAttention、掩码序列打包等方法,可以训练数百万长度的多模态序列。

完全开源 7B 参数系列模型,其能够处理超过 100 万 token 的长文本文档(LWM-Text、LWM-Text-Chat)和视频(LWM、LWM-Chat)。


分阶段的渐进式训练,模型能力逐步升级

是什么训练方法让LWM具备如此亮眼的能力呢?

LWM的训练步骤主要分为两个阶段:第一阶段是学习长上下文语言模型(Learning Long-Context Language Models),第二阶段是学习长上下文视觉-语言模型(Learning Long-Context Vision-Language Models)。

第一阶段时,团队将研究重点分为了上下文扩展、训练步骤、聊天微调和语言结果评估四个部分。

在上下文扩展中,他们使用RingAttention技术,通过分块计算和序列并行,理论上可以扩展到无限上下文,仅受限于可用设备数量。

RingAttention作为一个环形结构来组织blocks,这样每个block只需要与其相邻的block进行通信、交换信息,此结构能够大大减少通信开销。

分块计算则是将长序列分割成多个较小的blocks,每个block包含固定数量的tokens。这样,模型只需要计算每个block内的注意力权重,而不是整个序列。

在训练过程中,序列并行的方法可以并行处理多个block,每个block由不同的GPU处理,使模型能在多个设备上同时处理序列的不同部分,从而提高了训练效率。


同时,由于RingAttention 支持渐进式训练,让模型可以从处理较短的序列开始,然后逐步增加序列长度。于是团队就采用了渐进式训练方法,从32K tokens开始,逐步增加到1M tokens,以有效扩展上下文大小。这意味着此方法有助于模型逐步学习处理更长序列的能力,同时保持训练效率。

到了训练步骤的部分,团队会初始化模型参数,然后逐步增加上下文长度,分为32K、128K、256K、512K和1M tokens共5个阶段,且在每个阶段,会使用不同版本的Books3数据集进行训练,这些数据集经过过滤,以适应当前的上下文长度。

针对聊天微调,团队构建了模型生成的问答数据集,通过将文档分割成固定大小的block,然后使用短上下文语言模型生成问题和答案对。而在长上下文长度(如32K tokens)下,则是通过连接相邻的block和在序列末尾添加相关的问答对来构建单个32K tokens的示例。

在第一阶段的最后,团队对于LWM的语言能力进行了单针检索、多针检索、多文本评估和聊天评估。

值得一提的是,此研究还对比了具有 4K 上下文的 Llama2-7B 模型与LWM-Text(从 32K 到 1M)的语言能力。 评估涵盖了各种语言任务,证明扩大上下文大小不会影响短上下文任务的性能。结果表明,LWM在32K 到 1M长度下各任务中表现得同样好,甚至更好。


这一证据表明上下文扩展不存在负面影响,突显了模型适应不同任务要求而不会在较短上下文中损失效率的能力。

在完成语言模型的训练后,团队开启了他们的第二阶段——学习长上下文视觉-语言模型。在此阶段中,团队也将研究工作分为三个板块,即视觉架构修改、训练步骤和评估结果。

对于视觉架构修改,他们使用了预训练的VQGAN将图像和视频帧转换为离散tokens,并且引入新的tokens来区分文本生成的结束和视觉生成的开始,以及视频帧的结束。

而在训练步骤中,团队从LWM-Text-1M文本模型开始初始化,然后在大量结合文本-图像和文本-视频数据上进行渐进式训练。他们分别在1K、8K、32K、128K和1M tokens的序列长度上进行训练,同样地,每个阶段都是从先前的较短序列长度阶段初始化。

在最终的评估结果上,团队在长视频理解、图像理解和短视频理解等任务上评估了LWM的模型性能并展示了其在处理长视频和图像生成方面的优秀能力。

结语

Sora在2024年拉响了大模型比拼的第一枪,使得文生视频技术跃为时下焦点,也让“世界模型”变得似乎不再遥不可及。

在应对长文本、视频甚至是多模态技术时,世界模型对物理世界规律的理解与应用,或将成为各家大模型选手能否在角逐中取胜的关键。


雷峰网(公众号:雷峰网)AI 科技评论将持续关注大模型领域动态,欢迎添加anna042023,交流认知,互通有无


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

Pieter Abbeel 新工作“大世界模型”:轻松玩转1小时长视频,一对一QA视频内容细节

阅读全文
相关推荐

仅用 53 秒,商汤办公小浣熊就能助你化身高级打工人

仅用 53 秒,商汤办公小浣熊就能助你化身高级打工人
作者丨郭思编辑丨陈彩娴继推出ChatGPT后,龙年伊始,OpenAI公司又推出了最新人工智能文生视频大模型Sora,其火爆效果被誉为即将重塑视频内容创作的未来。而无论是ChatGPT还是Sora,众多 ...

李开复宣布筹组中文版 ChatGPT 公司“Project AI 2.0”

李开复宣布筹组中文版 ChatGPT 公司“Project AI 2.0”
作者丨New Bing编辑丨AI科技评论1背景3月19日下午4点半,创新工场董事长兼CEO李开复在朋友圈宣布,正在亲自筹组Project AI 2.0,这是创新工场塔尖孵化即先在策略层面设定特定技术主 ...

多模态大模型「卷」向智能文档,只为解放打工人的双手

多模态大模型「卷」向智能文档,只为解放打工人的双手
文档是重要的信息存储载体之一,人们每天接触和使用文档的频率也越来越高。相对应地,用户对文档处理和图像内容的安全要求逐渐提升,智能文档技术面临的挑战也更大。随着 AI 行业迈入大模型时代,这个问题出现了 ...

阿里云造「生态」,能让开发者实现「大模型创业自由」吗?

阿里云造「生态」,能让开发者实现「大模型创业自由」吗?
“这一波大模型浪潮,与十年前移动互联网元年的样子很像。”7月6日,在上海举办的一场AI Hackathon上,主办方告诉雷峰网。十年前,当移动互联网兴起的时候,各互联网公司及相关机构时常组织类似的编程 ...

英伟达 Jim Fan:复刻NLP的成功路,用通用模型开启具身智能的GPT

英伟达 Jim Fan:复刻NLP的成功路,用通用模型开启具身智能的GPT
还记得那只“骑”瑜伽球的机械狗吗?过马路,走草地都稳稳当当,就算瑜伽球被放气也能如履平地。怪不得之前有网友惊叹:机器人马上就要统治世界了吧?赋予这只 Unitree Go1 的四足机器人能骑瑜伽球能力 ...

万兴科技正式布局AIGC赛道 首款AIGC产品万兴AI绘画开启公测

万兴科技正式布局AIGC赛道 首款AIGC产品万兴AI绘画开启公测
11月10日,2022全球元宇宙大会“数字人技术与应用场景专场论坛”举办,元宇宙创作者经济A股上市公司万兴科技300624.SZ)在论坛中正式宣布与优链时代达成战略合作。结合万兴科技在视频领域的长期积 ...

杨幂38岁生日,热巴悼念完于朦胧立马送祝福,惠英红卡点晒合照

杨幂38岁生日,热巴悼念完于朦胧立马送祝福,惠英红卡点晒合照
9月12日,杨幂迎来了自己的38岁生日。对于杨幂而言,今年的生日氛围有点特殊,因为她的好友于朦胧去世了。9月11日,于朦胧坠楼身故,年仅37岁。消息传出,震惊全网,大家不敢相信,纷纷表示惋惜。在确认于 ...

异构智能体自主协作,大模型扮演了什么角色?

异构智能体自主协作,大模型扮演了什么角色?
2700 年地球巨型的垃圾场上,仅剩下机器人瓦力重复着收集、压缩垃圾的每一天,枯燥日常中,它诞生了自我意识,对人类影像画面中交流产生好奇、感受到自己作为最后一个机器人的孤独。直至一个更聪明、更敏捷的探 ...

独家回应丨阿里 VP 贾扬清将离职创业,将瞄准 AI 架构方向

独家回应丨阿里 VP 贾扬清将离职创业,将瞄准 AI 架构方向
作者丨New Bing编辑丨董子博据悉,阿里巴巴集团副总裁贾扬清将于近期离职创业,他的创业方向将聚焦于人工智能架构领域,目前已获得了首轮融资意向。贾扬清是国际知名的AI科学家,来到阿里体系前,曾在谷歌 ...

AI 也能被 Cosplay,太强了

AI 也能被 Cosplay,太强了
作者丨王晓然编辑丨陈彩娴前几天小红书刷到一个#布一样模仿秀#的COS活动,诸多博主脑洞大开地COS着最新上线的小布数智人家族——菜头萌宠秒变布卷卷、天真萌娃COS布欣怡、紫发萌妹附身布若曦,还跟手机里 ...

实测:ChatGPT的翻译能力怎么样?

实测:ChatGPT的翻译能力怎么样?
在今天,狂热追捧ChatGPT,仿佛已经成为了一种“政治正确”。ChatGPT一出,学界、工业界无不惊为天人。一位研究机构的资深研究员就对AI科技评论说过:“ChatGPT出来,直接给我们整不会了—— ...

异构智能体自主协作,大模型扮演了什么角色?

异构智能体自主协作,大模型扮演了什么角色?
2700 年地球巨型的垃圾场上,仅剩下机器人瓦力重复着收集、压缩垃圾的每一天,枯燥日常中,它诞生了自我意识,对人类影像画面中交流产生好奇、感受到自己作为最后一个机器人的孤独。直至一个更聪明、更敏捷的探 ...
返回顶部