搜索
当前所在位置:首页 >> 综合

【夜总会客人合集】若愚科技:基于多模态大模型的机器人“大脑”领导者

发布时间:2025-09-13 13:31:51 作者:uayt 点击:26431 【 字体:

当前,大脑“四肢发达、若愚头脑简单”的科技传统机器人已经无法满足千行百业“机器代人”的需求,迫切期待机器人从单一场景自动化向复杂场景智能化的基于拐点出现。传统机器人实现高阶智能的多模的机关键是更加智能的机器人“大脑”。近日,模型夜总会客人合集工业和信息化部印发了《人形机器人创新发展指导意见》(以下简称《指导意见》),器人机器人产业链上下游企业迎来重大利好,领导特别是大脑针对机器人“大脑”提出更高要求。

在此背景下,若愚由哈尔滨工业大学(深圳)(以下简称“哈工深”)创立的科技多模态大模型研发企业——深圳若愚科技有限公司(以下简称“若愚科技”),以其卓越的基于技术实力和前瞻性的市场洞察力,引起了业界的多模的机广泛关注。若愚科技与哈工深共建人工智能联合实验室,模型形成由顶尖专家领衔的器人多层次、多学科研究团队,在多模态大模型、自然语言处理、具身智能和大模型量化与压缩等各个领域均有着深入的研究和理解。同时,团队依托深圳哈深资产经营管理公司孵化,享受学校政策支持和资源保障,机器人学科一直是上海师范学院宿舍哈工大的优势学科,学校持股团队为团队发展提供了稳定的资金来源和丰富的机器人上下游资源。团队的可靠背景也为合作伙伴提供了信心和保障。

面对机遇与挑战,若愚科技认为,将机器人“大脑”作为落地载体,是以新一代多模态大模型技术为底座的AI公司的“最佳选择”。多模态大模型技术将推动机器人“大脑”快速升级,其进化速度远超机器人本体,或将在未来2至3年内越过技术成熟点,进入规模化产业落地阶段。

将机器人“大脑”作为落地载体成“最佳选择”

目前,人工智能技术的发展正面临着大量跨模态任务的挑战,“基于多模态的预训练大模型将成为人工智能基础设施”,这一观点成为业内共识。市面上的大模型把提升多模态和多任务方面能力作为主要发力方向,而这也是机器人“大脑”在实际应用中“得分高低”的重要衡量指标,将机器人“大脑”(尤其是人形机器人“大脑”)作为落地载体,往往成为以新一代大模型技术为底座的AI公司的“最佳选择”。

机器人“大脑”可以利用多模态大模型技术,实现视觉、听觉、触觉、语言等多种信息的融合和处理,从而提高机器人的智能水平和交互能力。这与《指导意见》提出的“开发基于人工智能大模型的人形机器人‘大脑’,增强环境感知、行为控制、人机交互能力,推动云端和边缘端智能协同部署”的目标是一致的。

但从现实发展状况来看,现有的机器人公司往往依赖于外部的大型模型工具,如GPT-3、GPT-4等,然而这些外部模型并未针对机器人的特定数据进行训练,因此机器人的指令分解能力和执行成功率相对较低。外部大模型工具自身能力有限,使得机器人也受到相应的限制,无法实现真正的自主可控。所以表现优秀的大模型工具成为行业的焦点。

针对当前机器人行业深度发展所面临的诸多问题,若愚科技与哈工深共同研发具有完全自主知识产权的语言大模型和多模态大模型,掌握从0到1自主训练语言大模型与多模态大模型的技术,并得到工信部认证。其中,“若愚-九天”首次参评即连续数月登顶OpenCompass多模态大模型榜单,展现出若愚科技的强大研发实力。

以“若愚-九天”大模型为基底的机器人“大脑”在多个领域中展现出色的“智能”能力。“123亿参数”“1亿2千万图文对”“1.5万亿tokens”……一串串数字背后,是“若愚-九天”多模态大模型在各个维度的突破和优化。无论是逻辑推理、关系推理,还是感知能力方面,“若愚-九天”都能够准确地理解响应用户需求,甚至超越用户期待。

“早在成立之初,若愚科技便瞄准了机器人‘大脑’的方向,致力于为整个机器人生态赋能。”若愚科技CEO孙腾指出,《指导意见》提出的“开发基于人工智能大模型的人形机器人‘大脑’”和“围绕动态开放环境下人形机器人感知与控制”两个方面,与若愚科技深耕领域相匹配。

值得关注的是,相对于落地C端的激烈竞争,以及对超大规模数据、超强算力、超大规模用户触达的刚需,机器人“大脑”正处于起步阶段,未来上限更高、行业跨度更大、专业要求更高,竞争格局将会相对分散,这也从另一角度印证了选择机器人“大脑”为落地载体的合理性。

多模态大模型技术将推动机器人“大脑”快速升级

正如人类的“五感”互相连通、紧密协作,共同构成了人们对世界的认知体验,人工智能也朝着类似的方向发展,文字、语言、图像等不同数据类型(模态)的边界逐渐变得模糊。伴随着AI感知、交互和生成能力的快速发展,多模态大模型技术将推动机器人“大脑”快速升级。多模态大模型技术推动机器人“大脑”快速迭代升级的根本原因在于,模拟人类大脑处理信息方式是多模态模型技术的核心目标。通过融合不同感知模态,使机器人可以像人类一样来理解世界,以更为综合的方式来感知和生成信息,满足不同场景条件的实际需求。具体来讲,多模态大模型技术可以利用海量多媒体数据,实现对不同模态信息的深度理解和生成,提高机器人的认知能力和创造能力;可以利用强化学习和元学习等方法,实现对不同场景和任务的快速适应和优化,提高机器人的决策能力和执行能力;可以利用对话系统和情感分析等技术,实现对人类的语言和情感的理解和响应,提高机器人的沟通能力和共情能力。

从当前多模态大模型在现实场景中的表现可以证明,其运用在机器人“大脑”将大幅提高机器人环境感知、肢体运动、人机交互、任务规划等核心能力。例如,今年3 月份谷歌联合柏林工业大学团队推出的PaLM-E,是一种多模态具身视觉语言模型,不仅可以理解图像,还能理解、生成语言,可执行各种复杂的机器人指令而无需重新训练。PaLM-E还表现出了“正迁移”能力,即它可以将从一项任务中学到的知识和技能迁移到另一项任务中,从而与单任务机器人模型相比具有“显著更高的性能”。

对于若愚科技而言,多模态大模型“若愚-九天”能够处理文本、图像、音频和视频等不同类型数据的同时,还能打破各模态间的信息壁垒,将不同类型数据在“九天”中进行有效的整合交互,从而实现更深层次的信息理解,做到更加自然顺畅的人机对话。此外,若愚科技还实现了从人类知识到机器人世界的跨越。若愚科技联合哈工深把含有大量人类通用知识的语言基座大模型和多模态基座大模型对齐到以机器人为中心的世界,构建了多模态具身决策大模型,可充分利用基座模型中的人类知识,迅速泛化到不同机器人场景,实现了从人类知识到机器人世界的跨越。通过联合规划大模型与决策大模型,若愚科技成功突破了机器人的智能可控,为人工智能领域带来了新的突破口。

机器人“大脑”进化速度将远超机器人本体

机器人“大脑”的进化速度主要取决于大模型技术的发展速度,而大模型技术的发展速度又由计算能力和数据量的增长速度决定。目前这两者都呈现出加速的趋势,推动机器人“大脑”进化加速。机器人本体的进化速度主要取决于机械、电子、材料等领域的技术创新,而这些领域的技术突破受到物理、化学、生物等学科的限制,导致机器人本体的进化速度难以突破瓶颈。人类发育的规律和目前的AGI范式都表明“大脑”的技术进化速度会先于本体,再延伸至后续的商业化也是相同的发展路径。若愚科技预测,机器人‘大脑’技术成熟点将在未来2至3年内实现,从而进入到规模化产业落地阶段。届时,机器人将在制造业、民生领域等多个领域和场景中发挥重要作用。

“从产品化进程的角度看,目前人形机器人还处在早期,除部分细分领域如科研、接待展示等小规模落地外,其他场景都没有规模化落地,需要进一步探索落地场景和商业模式。”哈工深特聘校长助理,若愚科技首席科学家张民表示。目前,基于“若愚-九天”多模态大模型基座的垂直细分领域定制化模型已开始在各垂直领域陆续应用。例如,在智能捡练领域,多模态大模型具有自动识别各种颜色、形状等属性物体的能力,可提升工作效率;在工业组装领域,多模态大模型具有大量人类知识,可以自由切换产线,降低成本。这与《指导意见》提出的“聚焦3C、汽车等制造业重点领域,提升人形机器人工具操作与任务执行能力,打造人形机器人示范产线和工厂,在典型制造场景实现深度应用”的目标相符合,未来人形机器人将在制造业领域发挥重要作用。

新一代具身智能机器人必将成为人工智能领域的重要发展方向。《指导意见》的颁布为人形机器人产业发展提供了政策引导、技术支撑、市场空间等多方面保障,有助于推动整个机器人产业实现规模化、高质量、可持续的发展。未来,若愚科技将积极响应,加强技术创新和产品研发,拓展机器人的应用场景和市场空间,以机器人“大脑”为切入点为整个行业赋能,同时期待与更多合作伙伴共同探索机器人的发展可能性和潜在价值,为人类社会进步发展提供新动力和新选择。

雷峰网(公众号:雷峰网)

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

若愚科技:基于多模态大模型的机器人“大脑”领导者

阅读全文
相关推荐

实测丨年底了,我用 AI 做了一份年终总结。

实测丨年底了,我用 AI 做了一份年终总结。
去年11月,自由画布在百度世界大会上首次亮相,各种 AI 新招式也是吊足了人们的胃口。经过了一段时间的等待,我终于拿到了它的内测资格,成为了首批探索者。激动之余,我和自由画布的相关负责人讨教了一下用法 ...

这份“国家级超级计划”如何改变14亿中国人生活?

这份“国家级超级计划”如何改变14亿中国人生活?
让餐桌上的粮食更多让出行更快更便捷让跨省就医不再难……从“一五”到“十四五”中国接续实施的“五年规划”给14亿中国人的生活带来了哪些实际变化?新中国成立后我们为何要实行五年计划?中国“五年规划”的超强 ...

深夜,美元直线跳水,纳指再创历史新高!中国资产飙升,阿里巴巴大涨8%!重磅信息公布,交易员预计:美联储将降息

深夜,美元直线跳水,纳指再创历史新高!中国资产飙升,阿里巴巴大涨8%!重磅信息公布,交易员预计:美联储将降息
每经编辑|何小桃 张锦河北京时间9月11日晚,美股纳斯达克综合指数向上触及22000点,再创历史新高,最新报21992.57点,日内上涨0.49%。道琼斯指数涨1.20%,标普500指数涨0.63%, ...

安理会15国强烈谴责多哈袭击事件 呼吁各方抓住和平机遇

安理会15国强烈谴责多哈袭击事件 呼吁各方抓住和平机遇
当地时间9月11日,联合国安理会发表声明,对9月9日发生在卡塔尔首都多哈的袭击事件表示强烈谴责。声明称该袭击发生在一个关键调解方的领土上,对造成的平民伤亡深表遗憾。声明指出,安理会成员强调缓解紧张局势 ...

GRPO在《时空谜题》中击败o1、o3

GRPO在《时空谜题》中击败o1、o3
近日,海外大模型产品平台 OpenPipe 上发布了一项研究,阐述其如何通过 GRPO 在重度推理游戏《时空谜题》中超越R1、o1、o3-mini 等模型。研究作者分别为来自 Ender Resear ...

WAIC 2025 主论坛演讲 | MiniMax 创始人闫俊杰:每个人的 AI

WAIC 2025 主论坛演讲 | MiniMax 创始人闫俊杰:每个人的 AI
2025世界人工智能大会WAIC)于今日在上海开幕。作为全球人工智能领域的顶级盛会,本届大会以“智能时代 同球共济”为主题,汇聚全球智慧,展现中国方案。活动首日,MiniMax创始人、CEO闫俊杰先生 ...

WRC 观察丨VLA 能带来融资,但不能带来收入

WRC 观察丨VLA 能带来融资,但不能带来收入
“具身智能公司招聘的销售岗,比去年增长了近两倍。”2025年WRC比之往年更加人潮汹涌。这个风口上的行业透出的一隙金光吸引了无数“掘金者”——闻风而至的不止有机器人公司,还有行业猎头。有关具身智能量产 ...

于朦胧被传坠亡,物业说凌晨有人坠楼,现场图疑曝光

于朦胧被传坠亡,物业说凌晨有人坠楼,现场图疑曝光
来源:潇湘晨报【#于朦胧被传坠亡物业说凌晨有人坠楼#,#于朦胧被传坠亡现场图疑曝光#】9月11日,网传#于朦胧#在北京坠楼相关消息冲上热搜。截至发稿前于朦胧方未作回应。有网友爆料称是在朝阳区阳光上东小 ...

阿里云 all in AI 的决心

阿里云 all in AI 的决心
如何抓住 AI 的机会?这是进入大模型时代后,面对新的起点,各大云厂商在不断思考的问题。毋庸置疑,AI 与云已经成为紧密的拍档。大模型的迭代进化离不开云计算的支撑,而大模型的落地应用,给云计算勾勒了一 ...

中国等国能否说服俄罗斯谈判?外交部回应

中国等国能否说服俄罗斯谈判?外交部回应
中国和其他全球南方国家能否说服俄罗斯停止升级战争、坐下来谈判?外交部回应2025年9月10日外交部发言人林剑主持例行记者会,部分内容如下:乌通社记者:昨天,俄罗斯军队对顿涅茨克地区的亚罗瓦村发动空袭。 ...

WAIC 2025 主论坛演讲 | MiniMax 创始人闫俊杰:每个人的 AI

WAIC 2025 主论坛演讲 | MiniMax 创始人闫俊杰:每个人的 AI
2025世界人工智能大会WAIC)于今日在上海开幕。作为全球人工智能领域的顶级盛会,本届大会以“智能时代 同球共济”为主题,汇聚全球智慧,展现中国方案。活动首日,MiniMax创始人、CEO闫俊杰先生 ...

实测字节扣子空间:AI 播客比真人丝滑,Agent 能打 80% 的工

实测字节扣子空间:AI 播客比真人丝滑,Agent 能打 80% 的工
作者丨王悦编辑丨陈彩娴上个月,字节跳动旗下 Agent「扣子空间」上线之初,曾经一度被挤爆服务器,全网分享内测码。经过一个月时间的沉淀,AI 科技评论发现了扣子空间最新上线了一个新玩法—— 一键生成播 ...
返回顶部