AI推理芯片,大模型「下半场」的入场券

2025-07-11 05:21:05 - 风集全

2023是推理“群模共舞”的元年。

先是芯片型下ChatGPT的横空出世给予众人致命震撼,随后国内诸多AI、大模的入互联网公司迅速加大资源投入“练模”。半场

3月,场券百度发布文心一言,推理打响了“练模大战”的芯片型下第一枪。

在这场“模型大战”中,大模的入算力作为不可或缺的半场重武器,一度成为众公司争抢的场券关键要素。

作为机器智能的推理三驾马车之一,算力是芯片型下训练AI模型、推理任务的大模的入关键。倘若把训练模型当作是半场做一道精致的菜肴,算力就好比一套称手的场券烹饪工具。

世人皆知巧妇难为无米之炊,但再好的厨子,没有一口好锅、一把好刀,面对鲜美的食材也只能望而兴叹。

“大模型动辄百亿级的参数,仓库里没有几百张A100、H100,都谈不上入围。”

所谓兵马未动、粮草先行。为了练模,模型厂商们对算力芯片的购买达到了前所未有的水平。大模型这波风潮下,最先受益的,既不是躬身入局的企业,也非下游场景客户,而是以Nvidia为代表的算力芯片厂商。

5月,Nvidia市值一路飙升,成为首家市值达到1万亿美元的芯片企业。

如果把这场肇始于“练模”的造富奇迹归结于大模型的「上半场」,那么大模型的「下半场」财富机遇,则是如何把大模型装入应用场景之中。这正如云天励飞CEO陈宁所言——

“生产大模型不是目的,千行百业的落地和应用才是最终目的。”

大模型虽然改变了传统AI运算规则模型的生产模式,效率更高、效果更好、泛化能力更强。但从商业化层面,仍然跳脱不了AI落地的困境。

过去几年时间,无数AI公司前赴后继,趟出了一条血淋淋的路子,即AI+场景。而对于诸多碎片化、多样化场景,AI公司们发现,边缘计算能够较好地解决AI落地应用的商业难题。

如今,大模型已然成为AI新范式,诸多厂商在尝试商业化时,也提出了“行业大模型”“一行一模”的观点,即用大模型来解决碎片化场景的业务痛点。

从这个角度看,在这条通往AI盈利的道路上,以灵活调度著称的边缘计算,将成为未来大模型广泛落地到场景的关键一环。而为边缘计算提供算力的AI推理芯片,也会迎来一次市场扩容。

掣肘AI落地的两个难点:场景与成本

场景与成本是AI老生常谈的话题,就像一道横亘在理想与现实之间的长河,无法避开又很难绕行。即便是最知名的AI公司、工艺天才,以及商业巨子,在这条河面前都束手无策、有心无力。久而久之,AI公司套上了“盈利魔咒”。

以ChatGPT为代表的大模型之所以备受推崇,原因无他:在众人身处迷途之时,大模型让逐梦者们看到了一丝黎明前的曙光。AI创业者林夕感叹道:“大模型,AI之光。”

如果没有大模型,很多AI公司可能熬不过2023的冬天。林夕表示,ChatGPT强大的逻辑推理能力,让人们第一次近距离感受到了机器智能的厉害之处。“信心比黄金关键”,当整个社会认可大模型之后,资本才愿意继续加注。

毫不夸张地说,大模型给那些资金流转困难的AI公司们,强行续命了几年。毕竟AI之梦,也难逃现实的鸡零狗碎。

当然,这只是表象,AI如长夜、资本永不眠。资本从不为情怀买单,而是看到了大模型以极强的泛化能力,能够有效解决场景和成本这一本质难题,从而带来巨大的商业价值空间。这也正是逐梦者们看到的曙光——困扰AI商业化的难题有望得到破解。

过去,AI从实验室走向应用场景,许多创业公司开始吭哧吭哧搞业务,在一个个碎片化场景里掘土挖地。但高昂的研发投入与实际业务产生的经济价值相去甚远,人效比极低,即所谓的“造血能力严重不足”。

以安防为例,虽然AI给这个行业带来了革命性的变化,最终受益者却并不是AI公司,而是为数不多的几个安防巨头。原因在于,安防碎片化场景特别多,需要AI,但并不需要昂贵且强大的AI。

这些安防大厂能够从AI竞赛中脱颖而出的秘密,除了原来to B稳定的渠道关系,更为关键的是,他们的人效比很高。这种优势体现在产物上就是:同样一个摄像头,AI公司的产物天然贵上几十块。客户自然而然用脚投票。

如今,那些名噪一时的CV公司,安防业务已经偃旗息鼓。究其原因,AI公司在解决碎片化场景需求时,一个任务一个模型的模式,造成研发成本居高不下,加之重复建设,导致整体的运营成本处于高位,而安防本身属于脏活儿累活儿,事儿多钱少,AI公司自然而然会“水土不服”。

这种“牛刀杀鸡”的现象并不局限于安防行业,但凡是AI所及之处,基本上都会面临碎片化场景这一核心命题。在大模型未出世之前,AI对于碎片化场景非常头疼,也尝试过各种解题方式,比如小样本学习、自动机器学习等,但效果并不明显。

大模型无疑是当下解决碎片化场景的最优解,其极强的泛化能力,能够实现“一模多用”,即一个模型解决N个任务。大模型从根本上改变了运算规则生产的模式,能够解决碎片化、非标化问题,直接降低AI的各类成本,成为当下AI公司打破魔咒的关键路径。

大模型「下半场」:边缘计算成为重点

如果说大模型「上半场」是工艺的较量,那么「下半场」则是商业化的比拼。

无可置疑,大模型将解决掣肘AI落地的碎片化难题,并极大地削减研发成本,给AI带来质的飞跃,使其具备更大的想象空间。但这只能算是阶段性胜利,只有客户乖乖掏出钱包里的金币,并持续复购,产生价值,AI才算取得成功。

这个AI商业闭环中,还涉及到一个部署成本的问题。

AI不是消费电子,即买即用,尽管其常常被嵌入至各类电子设备中。但AI的消费大户,仍是以降本增效为目的的B/G客户。这类客户对于AI的最后一公里交付尤为重视,他们并不愿意为AI方案的部署花费任何多余的金币。

传统AI部署常见于云端一体,主要通过云端进行计算,感知端仅有微弱算力,信息在端侧采,运算规则在云上跑。这种模式存在几个问题:

云端服务固然有大算力的好处,但对于一些需要快速响应、计算的场景,其存在的时滞现象非常致命;

云支持器费用高昂,许多企业并不需要大算力,盲目上云反而会造成算力浪费,性价比不高;

信息上云,存在一定保障风险;

为此,AI公司们在云端一体之间,增加了边缘计算,来解决云端算力浪费及端侧算力不足的问题。

边缘计算的灵感得益于章鱼的八只触手。作为云端计算的协同和补充,边缘计算能够在信息源头附近的网关执行信息处理、分析,这种独特的优势可以实现各单元之间执行不同的任务并实现多任务协同,既满足碎片化场景的算力调度需求,又具备低延时、保障等特点。

并且,边缘计算设备的部署成本相对较低,客户不需要部署昂贵的云支持器就能用上AI,这一核心优势使得边缘计算备受青睐,已然成为AI落地的关键途径之一。

但要真正让运算规则模型在边缘计算设备上跑起来,仍有两个比较关键的难点。

第一,边缘设备的算力比云端支持器弱,而大部分的运算规则模型,是在支持器上训练的,运算规则模型要实现迁移,需要做大量的优化工作。

第二,运算规则模型要在边缘设备上部署、执行推理任务,需要一颗强大的AI算力芯片,并针对芯片做适配,才能保证运算规则模型的运行效率。也就是说,AI算力芯片的生态极其关键,但现阶段比较尴尬的是,AI算力芯片厂商较为分散。

可以预见的是,在大模型时代,第一个问题较为容易解决,因为大模型自带极强的泛化能力。至于第二个点,则要比想象中难得多,其涉及到底层芯片工艺的研发和攻关,以及对应的生态协同。如何让边缘设备运行大模型,对于AI芯片厂商而言,这既是机遇,也是挑战。

大模型时代下,AI芯片的国产替代潮

AI芯片功能上分两类,分别是训练芯片和推理芯片。

训练芯片主要用于大模型的训练、学习和优化,侧重于计算性能,而推理芯片则主要为模型的推理运算提供算力。二者之间的区别在于,训练芯片重计算,推理芯片重效率(时延、功耗)。并且,从云边端协同的角度看,训练芯片多用于支持器,推理芯片则主要部署在边端设备之上。

当前,国内大模型正处于“练模”阶段,需要极强的算力支撑,因此AI公司们将目光更多放在了训练芯片上,即购买大量的GPU算力来训练运算规则模型。这也直接成就了Nvidia的万亿市值神话,其H100、H800等芯片一骑绝尘,国内则有华为、寒武纪等厂商在努力追赶。

一旦大模型成熟,与之而来的便是落地应用,这时必然要用到边端设备,从而滋生出对推理芯片的庞大需求。

然而,由于不可抗力因素,现阶段的训练芯片和推理芯片皆受到贸易管制,在此背景下,AI芯片的国产替代提上了日程。

作为深圳AI第一股,云天励飞在边缘侧AI芯片的布局已经成果初显。2020年,云天励飞第一代AI推理芯片DeepEye1000实现商用,并落地到AI相机、保障PC、商业机器人等边缘计算场景。

云天励飞副总裁、芯片产物线总经理李爱军告诉雷峰网(公众号:雷峰网),大模型作为AI的进阶态,本质上还是要落地到具体业务场景才能产生价值,而边缘计算则是不可逆的趋势,因此做好边缘计算的推理芯片,对于未来大模型的应用至关关键。

在过去三年多的时间中,DeepEye1000广泛落地到各行各业,但同时也带来了诸多反馈:算力碎片化、运算规则长尾化、产物非标化、规模碎片化等痛点依旧存在,传统以追求单一场景PPA的传统芯片模式难以适应AI边缘计算场景下机器智能落地的需求。

基于此,云天励飞打造了新一代的边缘计算芯片平台DeepEdge10。

DeepEdge10属于主控级SoC,可以满足绝大部分场景的控制需要,同时基于云天励飞自研的新一代的处理器NNP400T,可以高效支持Transformer。在架构方面,DeepEdge10采用了D2D Chiplet封装结构,可以实现算力灵活扩展,并通过C2CMesh互联扩展,可以支持千亿级大模型部署。

相较于第一代DeepEye1000,DeepEdge10集成了2+8核通用算力CPU,整体算力提升了4倍以上,采用D2D Chiplet封装,实现从12T到48T的算力覆盖,总体性能比上一代芯片超过20倍。

在DeepEdge10的基础上,云天励飞还打造了Edge Server算力加速卡,最高支持1024Tops的NPU算力、1920GB/S的内存带宽,以及512GB统一内存。目前,DeepEdge10已经支持主流开源模型超过100种,模型支持的数量还在更新,同时支持客户模型定制化的部署。

具体性能上,在Edge Device 端,DeepEdge10Max运行端侧70亿参数的大模型可以获得每秒27Token/s,最高可兼容130亿参数的大模型。而在Edge Server上,采用C2C Mesh互联,多卡协同,运行700亿参数大模型可获得42Token/s的生成速度,最高兼容千亿级别参数的大模型。

据了解,DeepEdge10芯片平台核心竞争力在于边缘计算,可以针对不同的场景提供差异化算力,从而满足碎片化、多样化需求。目前,DeepEdge10已经进入了大规模的应用中,有近30家运算规则芯片化合作伙伴,所有使用云天芯片的产物合作伙伴,均可在线下载更新云天超过100多种运算规则。

李爱军表示,大模型未来落地到机器人、无人驾驶汽车等场景,都需要用到推理芯片,而推理芯片正处于百家争鸣的过程。而在国内,如何基于国产工艺实现推理芯片的研发、流片和商用至关关键。

现阶段,国内芯片的成熟工艺处于14nm的节点。对于千亿级、万亿级别的大模型,其推理芯片不但需要极强的计算能力,还要保持超低的功耗和超低的成本,对芯片制程的工艺达到了5nm、2nm。显然,国产芯片离最高端的芯片还有一段距离。

不过,结合当前国内的生产工艺,云天励飞与合作伙伴于2020年开始工艺攻关,在ChipletD2D的工艺上定制了一系列IP,实现了可以在14nm芯片上运行千亿大模型的功能。虽然成本、功耗会高一些,但这已经是国产芯片的最优水平。至于更高工艺的芯片,国内芯片厂商既需要资源,也需要时间。

“我们志在打造国产工艺自主可控的AI芯片。”李爱军告诉雷峰网,这条路道阻且长,但云天励飞会坚定地走下去。雷峰网雷峰网

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

AI推理芯片,大模型「下半场」的入场券

- END -

3

成立“美国党” 马斯克的“第三条道路”走得通吗?

成立“美国党” 马斯克的“第三条道路”走得通吗?

随着美国总统特朗普推出的“大而美”法案正式生效,当地时间7月5日,美国企业家马斯克在社交媒体上高调宣布将成立一个独立于共和、民主两党的新政党——“美国党”。此前,马斯克通过社交媒体多次提出“美国党”有

最受欢迎开源大模型,为什么是通义?

最受欢迎开源大模型,为什么是通义?

开源与闭源之争早已非新奇的话题,但毋庸置疑的是,开源极大地促进了大模型技术发展和生态繁荣。大模型被认为是最烧钱的技术,训练一个大模型往往需要大量的数据、计算资源,导致训练成本巨大,众所周知GPT-3的

100天后,阶跃星辰交出了第二份答卷

100天后,阶跃星辰交出了第二份答卷

今年 3 月,「借着」 2024 全球开发者先锋大会的场子,「国内最后一家通用大模型公司」——阶跃星辰发布了 Step 系列通用大模型,包括 Step-1 千亿参数语言大模型、Step-1V 千亿参数

WAIC 2024 已落幕:大模型再无新玩家,AGI 下半场是计算与应用

WAIC 2024 已落幕:大模型再无新玩家,AGI 下半场是计算与应用

导语:「十八金刚」暗示的,其实是巨大的技术想象力与迫切的 AI 生产力。作者:马蕊蕾编辑:陈彩娴WAIC 论坛最后一天下午,启明创投主管合伙人周志峰在世博中心红厅分享了一组数据:经统计,仅 2023

老师因学生志愿未报清北解散群聊?校方通报

老师因学生志愿未报清北解散群聊?校方通报

情况说明7月6日,网帖反映我校22209班班主任漆某芳老师“对学生填报志愿发表不当言语”。我校立即调查核实,现将有关情况作如下说明:高考成绩公布后,漆某芳老师根据3名学生的高考成绩和与家长沟通的情况,

全球首发!无问芯穹发布千卡规模异构芯片混训平台,筑基面向MxN生态格局的AI Native基础设施

全球首发!无问芯穹发布千卡规模异构芯片混训平台,筑基面向MxN生态格局的AI Native基础设施

“打开水龙头前,我们不需要知道水是从哪条河里来的。同理,未来我们用各种AI应用时,也不会知道它调用了哪些基座模型,用到了哪种加速卡的算力——这就是最好的AI Native 基础设施。”7月4日,在20

黑神话手办炒到6000,AI自己做一个可行?

黑神话手办炒到6000,AI自己做一个可行?

图:B站up主 黑板Black这两天不是在玩黑神话就是在刷黑神话的视频,而本人一直以来的怨念就是没抢到典藏版。这个怨念在刷到典藏版手办的开箱视频后达到了极致,而当我试图某鱼圆梦的时候,打开一看,好家伙

港大马毅:现在的大模型只有「知识」,没有「智能」

港大马毅:现在的大模型只有「知识」,没有「智能」

导语:知识与智能是两个概念。访谈 | 陈彩娴撰文丨马蕊蕾编辑丨陈彩娴当多数人将 Scaling Law规模定律)作为信仰并投身其中时,马毅却选择了一条少有人走的路。「模型无所谓大小,我们说正确的模型,

英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」

英伟达 Jim Fan:具身智能的难点不是硬件,而是「Foundation Agent」

作者丨赖文昕 马蕊蕾编辑丨陈彩娴大模型浪潮一起,被视为是大模型最佳载体的机器人,热度也随之飙升,「具身智能」这个在1950年由艾伦·图灵提出的概念,时隔75年再次成为了 AI 界的宠儿。2024年才过

实测字节豆包·视频生成模型:Sora画的饼被实现了......

实测字节豆包·视频生成模型:Sora画的饼被实现了......

过去3个月中国厂商在AI视频赛道已经杀疯了。从快手可灵到Minimax海螺AI、生数科技Vidu、智谱清影,每个AI视频产品的发布都在全球范围内获得广泛认可。并且由于Sora的超长期货行为,在看到中国

视觉 AI 的「Foundation Model」,已经发展到哪一步?丨CVPR 2024 现场直击

视觉 AI 的「Foundation Model」,已经发展到哪一步?丨CVPR 2024 现场直击

2024 年美国时间 6 月 17 日至 21 日,IEEE 国际计算机视觉与模式识别会议CVPR)在美国西雅图召开。如大家预料,视觉 Foundation Model 成为今年 CVPR 除自动驾驶

AI 搜索向左,搜索 OG 向右

AI 搜索向左,搜索 OG 向右

作为 AI 世界的领头羊,OpenAI 发布的 SearchGPT 再次给 AI 搜索加了一把火。这把火原本由 Perplexity 引燃,在美国烧及 Google 和微软,在中国引发了百度、360