100天后,阶跃星辰交出了第二份答卷

2025-07-11 06:10:35 - 风事


今年 3 月,天后「借着」 2024 全球开发者先锋大会的阶跃交出场子,「国内最后一家通用大模型公司」——阶跃星辰发布了 Step 系列通用大模型,星辰包括 Step-1 千亿参数语言大模型、第份答卷Step-1V 千亿参数多模态大模型以及 Step-2 万亿参数 MoE 语言大模型预览版,天后正式进入大众视野,阶跃交出并成功跻身国内六大大模型独角兽行列。星辰

另外五家分别是第份答卷月之暗面、智谱、天后MiniMax、阶跃交出百川、星辰零一万物。第份答卷

当时雷峰网(公众号:雷峰网)就报道过,天后阶跃星辰给外界的阶跃交出第一印象是低调、神秘,星辰虽然早在 2023 年就成立,但出现在公众视野的也只有微软出身的 CEO 姜大昕,对于团队核心成员、工艺进展、产物研发等信息,外界一概不知。直到临近一周年之际,正式提交第一份成绩单的时候,一切才浮出水面。

当然,这一份成绩很是亮眼,一举将国内大模型卷到万亿参数赛道(预览版)。可即便如此,阶跃星辰依旧低调。

进入 2024 年以来,大模型行业的热闹明显更为多样化,大模型落地应用的主旋律下,行业模型、端侧模型变热;世界模拟器 Sora 的亮相,引爆多模态大模型的流行;走得更早更靠前的 OpenAI 迟迟没有将 GPT-5 公之于众,发布的 GPT-4o,虽然有强大交互能力,但也未能化解大众对其工艺进化速度放缓的质疑、失望……

围绕「工艺信仰派」VS「市场信仰派」、「模型做大」VS「模型做小」、「Scaling Law 是不是第一性原理」等话题,各路大儒「辩经」不止……

仔细看,阶跃星辰的声音似乎很少。

为此,当雷峰网得知阶跃星辰也将出席此次的 WAIC 时,充满期待、好奇,希望探究一下阶跃星辰是如何看待当下关于 AGI 的各种共识与非共识问题。

不过没想到的是,这次「借着」 WAIC 的场子,阶跃星辰又交出了第二份答卷——发布 Step-2 万亿 MoE 语言大模型正式版、Step-1.5V 多模态大模型、Step-1X 图像生成大模型。

而此次的产物升级,距离上次仅仅过去 100 天。

将国内大模型升级到「万亿参数时代」的Step-2长啥样

3 个多月前,当阶跃星辰宣布 Step-2 万亿参数 MoE 语言大模型预览版的时候,大家很是好奇,想一览其真实面目。而今天,在 WAIC 大会现场,吊足了大家胃口的 Step-2 万亿参数 MoE 语言大模型正式版亮相了,它采用当前热门的 MoE (Mixture of Experts)架构,又称「混合专家」,是一种模块化的稀疏激活,可以让模型在增大参数规模的同时,计算成本远低于相同参数规模下的稠密模型,实现高效训练。

目前,在通往 AGI 的道路上,业界大多数人坚信 Scaling Law 定律——模型越大,性能越强,阶跃星辰也是其中一家。但是现实问题是,模型的升级迭代离不开算力的支撑,而算力的不足和匮乏,显然是当下业界为数不多的共识之一。

因此,在意识到 MoE 可以解决这一难题时,一些大模型从业者相继推出基于 MoE 架构的大模型,比如国外的Mistral AI、 xAI,国内的 MiniMax、元象科技、DeepSeek AI、阶跃星辰等。而阶跃星辰是其中少有的、早早将 MoE 架构用在万亿参数规模大模型的玩家。

姜大昕告诉雷峰网,阶跃星辰在完成 Step 系列千亿模型的训练后,就开始开始训练万亿模型。而想把模型参数扩大到万亿的话,MoE 几乎是一个必选项。「就像做科研或者做工程,很多决策就是各个维度之间的最佳平衡,MoE 也是在性能、参数量、训练成本、推理成本这些维度权衡下的最佳选择。」

而在设计 Step-2 MoE 架构的过程中,阶跃星辰还对运算规则架构进行了创新。

具体而言,当前 MoE 模型的训练方式主要有两种,一种是基于已有模型通过 upcycle(向上复用)开始训练,即将一个已经训练好的大模型的前馈神经网络权重复制若干份,每一份作为一个 expert(专家),组合后就可以把一个非 MoE 模型变成 MoE 模型,参数量增大的同时,算力需求会小几个量级,训练效率高。但弊端是上限低,基于拷贝复制得到的 MoE 模型容易造成专家同质化严重。

另一种是从头开始训练,很显然,缺点在于训练难度高,但优势是能够获得更高的模型上限。

而阶跃星辰的选择是完全自主研发从头开始训练,通过部分专家共享参数、异构化专家设计等创新 MoE 架构设计,让 Step-2 中的每个“专家模型”都得到充分训练。结果就是不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了当前市面上的大部分 Dense 模型。

此外,在 Step-2 训练过程中,阶跃星辰系统团队还突破了 6D 并行、极致显存运营、完全自动化运维等关键工艺,让整体的训练过程更为高效。

据阶跃星辰透露,目前,Step-2 万亿参数 MoE 语言大模型在数理逻辑、编程、中文知识、英文知识、指令跟随等方面体感全面逼近 GPT-4。

100天后,阶跃星辰交出了第二份答卷

此次,除了 Step-2 万亿参数 MoE 语言大模型,阶跃星辰还发布了 Step-1.5V 多模态大模型,在多模理解和生成统一的工艺路线上实现了快速突破。

在理解上,相较于此前的 Step-1V 多模态大模型, Step-1.5V 的优势主要体现在三个方面。

一是感知能力全面提升,创新图文混排训练方法;能够理解复杂图表、流程图、准确感知物理空间复杂的几何位置;能够处理高分辨率和极限长宽比的图像。二是基于最新的 Step-2 万亿参数模型当老师,推理能力大幅提升,能够根据图像内容进行各类高级推理任务,如解答数学题、编写代码、创作诗歌等。三是具备出色的影片理解能力,不仅能够准确识别影片中的物体、人物和环境,还能够理解影片的整体氛围和人物情绪。

在生成上,阶跃星辰发布 Step-1X 图像生成大模型,全链路自研的 DiT(Diffusion Models with transformer)模型架构, 可支持 600M、2B 和 8B 三种不同的参数量;具备更好的文本 prompt 和生成图片的语义对齐能力、 指令跟随能力。另外,该模型还支持针对中国元素的深度优化,使生成内容更适合国人的审美风格。

比如,阶跃星辰在会场展示的「AI+大闹天宫」现场互动,游戏背后调用了多个阶跃星辰自研的 Step 系列大模型,融合了图像理解、风格迁移、图像生成、剧情创作等多种能力,丰富立体地展现了阶跃星辰行业领先的多模态水平。

动画片《大闹天宫》大家一定很熟悉,而今年正是《大闹天宫》制作完成 60 周年之际。

因此,在这一具有关键纪念意义的时刻,阶跃星辰团队联合上影推出了「AI+大闹天宫」这一款 AI 互动体验产物,试图将最先进的 AIGC 和大模型工艺与《大闹天宫》情境深度融合,用当代的全新视角来展现中国传统文化的魅力、回顾经典动画作品的艺术成就,同时也为广大创作者打开更为广阔的想象空间、创作空间。

具体而言,在互动过中,客户需要上传一张个人照片,基于大模型生成的剧情选择角色,并与之交谈,运算规则会识别照片的特征,然后结合《大闹天宫》的画风和角色进行风格迁移生成新的肖像。同时,还将根据客户的选择和回答进一步分析客户的「MBTI」人格,给客户在天庭「安排」一个差事。

整体交互过程好玩有趣,且极具个性化,吸引了现场大量观众的参与互动。

感兴趣的朋友,可以扫描下方图片二维码参与互动体验,「测测你是哪路神仙」。

100天后,阶跃星辰交出了第二份答卷

阶跃星辰攀顶 AGI 的决心

阶跃星辰在 3 月推出的 Step 系列模型,是将近酝酿了一年的成果,而现在距离上一次不过一百天,就实现了对Step 系列模型矩阵的全新升级。可以看出来,在通往 AGI 的漫长旅途中,阶跃星辰这是从「走路入场」变为「跑步前进」了。

当前,尽管业界一次次探讨、争论 AGI 的定义、路径,但不可否认,在这两个问题上,至今并未形成一个明确而具体的共识,甚至在未来的一段时间内也不会有,每个路线上的攀登者都认为自己将会是最终达到 AGI 终点的选手。姜大昕也是这样认为的。

从成立一开始,阶跃星辰就明确了自身通往 AGI 的路线图——单模态—多模态—多模态理解和生成的统一—世界模型—AGI。

换句话说,就是以实现 AGI 为目标,专注研发多模态基础大模型,基于自研基础大模型打造新一代「AI +」应用。

在这过程中,姜大昕认为,攀登 AGI 巅峰「万亿参数」和「多模融合」缺一不可!

怎么理解?

一方面,多模态理解和生成的统一是通向 AGI 的必经之路。

另一方面,模型参数量决定模型能力上限,Scaling Law 全面跨入万亿参数是通向 AGI 的另一核心。这也是为什么当初在完成 Step 系列千亿模型的训练后,阶跃星辰就马不停蹄开始训练万亿模型。

据了解,此次阶跃星辰 Step 系列通用大模型获得了 WAIC 2024 SAIL 之星称号。SAIL 奖(Super AI Leader,卓越机器智能引领者)是 WAIC 最高奖项,致力于从全球范围发掘在机器智能领域中具有高度认可和美誉、并具有提升人类福祉意义的项目。

不仅是模型要做好,在应用上,阶跃星辰也没有松懈。从成立之初,阶跃星辰的策略就是工艺和产物「两手抓」。因为姜大昕坚信,模型需要应用作为牵引和信息的补充,具体到某个应用的时候一定要通过模型与它深度绑定,这样应用才能做到极致,反之亦然。

「我不觉得一个光做应用的公司,没有一个模型跟它深度绑定的话,它能做到极致。」

为此,基于 Step 系列大模型,阶跃星辰通过自研产物和生态合作产物逐渐形成丰富的产业应用生态圈,并在重点行业领先落地。

比如跃问和冒泡鸭,这是阶跃星辰自研产物的两个代表。跃问是一款 AI 聊天类应用,定位为个人效率助手;冒泡鸭则是一款由剧情和角色构成的 AI 开放世界,可以为客户提供娱乐和社交。据了解,目前,两款产物均已全面开放使用。

而在生态合作方面,阶跃星辰已在金融、网络文学、知识支持、游戏、数字人、影视等领域与合作伙伴达成深度合作,共同探索面向 C 端客户的创新应用。

比如这次现场展示的「大闹天宫」AI 互动体验,就是阶跃携手上影在影视领域达成的生态合作伙伴关系,全程由AI 多模态大模型生成,以大闹天宫 IP 动画为情景,以 AI + IP 生动展示多模态大模型的底座能力。

接下来,阶跃星辰还将继续积极探索,并持续扩大生态圈,结交更多生态伙伴。

写在最后

今年 3 月份,阶跃星辰作为新星正式亮相时,凭借在大模型领域的工艺实力,一举改变了彼时大模型的「五虎」格局,成功上位,成为「六大独角兽」一员。

如今,阶跃星辰的万亿参数大模型正式亮相,并不断获得行业、资本市场的认可,或许在不久后,国内大模型的格局、位置,又该动一动了。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

100天后,阶跃星辰交出了第二份答卷

- END -

4659

浪潮信息彭震:AI+是目标也是机会,要推动AI成为百行千业的生产力

浪潮信息彭震:AI+是目标也是机会,要推动AI成为百行千业的生产力

去年以来,ChatGPT引爆了新一轮的AI浪潮,随后国内大模型进入“百模大战”的热闹中。如今,一年多过去,国内外的大模型开启了不同的叙事方式,OpenAI已在酝酿GPT5,继续探求通往AGI的路径,而

腾讯在线视频马延琨:跳出“长短”,以“横竖屏”重构剧集生态

腾讯在线视频马延琨:跳出“长短”,以“横竖屏”重构剧集生态

来源标题:腾讯在线视频马延琨:跳出“长短”,以“横竖屏”重构剧集生态6月23日,2025腾讯视频影视年度发布在上海举行。会上,腾讯在线视频联席总裁兼首席运营官马延琨分享了腾讯视频2025年的平台策略,

潮玩无界:泡泡玛特以中国设计链接全球艺术生态

潮玩无界:泡泡玛特以中国设计链接全球艺术生态

来源标题: 潮玩无界:泡泡玛特以中国设计链接全球艺术生态在全球潮玩产业的版图上,一个来自中国的名字正以惊人的速度重构潮流文化的叙事逻辑。从首尔弘大街头的艺术快闪店,到巴黎卢浮宫旁的沉浸式体验空间,从曼

李静、刘璇共话新平衡之约

李静、刘璇共话新平衡之约

来源标题:李静、刘璇共话"新平衡之约"近日,2025养固健"新平衡之约•国风盛典"在江苏无锡拈花湾盛大启幕。在这场中华养生文化盛典上,养固健以四季为笔,用文化为墨,在光影交织中勾勒出一幅"新

第十六届信息安全高级论坛暨2024 RSAC热点研讨会圆满落幕

第十六届信息安全高级论坛暨2024 RSAC热点研讨会圆满落幕

6月7日,由中国计算机学会主办,中国计算机学会计算机安全专委会、绿盟科技集团、360集团承办的“第十六届信息安全高级论坛暨2024 RSAC热点研讨会”在北京圆满落幕。大会汇聚政、产、学、研各方力量,

北京京剧院汇集强大主创阵容 新编现代京剧《野火春风斗古城》8月首演

北京京剧院汇集强大主创阵容 新编现代京剧《野火春风斗古城》8月首演

来源标题:北京京剧院汇集强大主创阵容 新编现代京剧《野火春风斗古城》8月首演自1958年小说出版至今,《野火春风斗古城》先后以电影、电视剧、歌剧、评剧等形式被改编,6月18日,北京京剧院汇集强大主创阵

与经典相逢,绘光影未来!“2025中国影视之夜”邀您赴约

与经典相逢,绘光影未来!“2025中国影视之夜”邀您赴约

来源标题:与经典相逢,绘光影未来!“2025中国影视之夜”邀您赴约筑梦光影世界,讲好中国故事。6月28日21:00,由中央广播电视总台上海总站与央视频联合主办、茅台1935独家冠名的“20

舞台剧《圆缘小济·神镜2049》杭州成功首演 引爆舞台剧未来想象

舞台剧《圆缘小济·神镜2049》杭州成功首演 引爆舞台剧未来想象

来源标题:舞台剧《圆缘小济·神镜2049》杭州成功首演 引爆舞台剧未来想象2025年6月21日,作为第二届钱塘国际戏剧节参演剧目的多媒体互动沉浸式舞台剧《圆缘小济・神镜 2049》在杭州金沙湖大剧院完

《姐妹不打烊》6月10日开播,“七乐美”欢乐集结,以东方之礼巡游壮阔山河!

《姐妹不打烊》6月10日开播,“七乐美”欢乐集结,以东方之礼巡游壮阔山河!

来源标题:《姐妹不打烊》6月10日开播,“七乐美”欢乐集结,以东方之礼巡游壮阔山河!友情不惧时间,快乐永不打烊。由抖音和傲椒文化联合重磅推出的全女嘉宾治愈系旅行综艺《姐妹不打烊》已于6 月 10 日

花西子全国首家购物中心店亮相上海 打造国货美妆消费新场景

花西子全国首家购物中心店亮相上海 打造国货美妆消费新场景

来源标题:花西子全国首家购物中心店亮相上海 打造国货美妆消费新场景仲夏申城,消费“热力”十足,上海各大商圈陆续迎来全球品牌首发、首秀、首展活动,再掀消费热潮。在这股强劲的市场活

华语歌声越南洋|《音你而来2》圆满收官:跨文化传播综艺的新范式

华语歌声越南洋|《音你而来2》圆满收官:跨文化传播综艺的新范式

来源标题:华语歌声越南洋|《音你而来2》圆满收官:跨文化传播综艺的新范式 “行山海,玩音乐,觅知音”,在全球文化交流日益频繁的当下,以音乐为纽带打破文化隔阂、突破娱乐边界,探访

腾讯在线视频马延琨:跳出“长短”,以“横竖屏”重构剧集生态

腾讯在线视频马延琨:跳出“长短”,以“横竖屏”重构剧集生态

来源标题:腾讯在线视频马延琨:跳出“长短”,以“横竖屏”重构剧集生态6月23日,2025腾讯视频影视年度发布在上海举行。会上,腾讯在线视频联席总裁兼首席运营官马延琨分享了腾讯视频2025年的平台策略,