实测豆包1.5后,看到了字节不走捷径的底气
2025-07-11 05:14:54 - 最新大瓜
2025 年 1 月,实测豆包大模型 1.5 全面上线火山方舟,豆包到字底气其中豆包通用模型 pro 在多个权威测评集综合得分优于GPT4o、节不径Claude 3.5 Sonnet 等业界一流模型,走捷模型效果达到全球领先水平。实测
通用模型 pro 实现了性能与推理成本极致平衡,豆包到字底气采用高效的节不径 MoE 模型结构,性能杠杆提升至 7 倍,走捷更有自研的实测高性能推理系统,可以达到 10 毫秒级低延迟。豆包到字底气并且,节不径豆包大模型 1.5 建了高度自主的走捷信息生产体系,未使用任何其他模型生成的实测信息。
除此之外,豆包到字底气豆包通用模型 pro、节不径豆包·视觉理解模型均有大幅增强,并发布豆包·实时语音模型。但豆包大模型 1.5 全产物,加量不加价,仍继续保持原有模型价格不变。
本文实测了豆包大模型 1.5 产物家族后,看到了字节不走捷径的底气。
一、综合能力优于业界一流模型
Doubao-1.5-pro 模型综合能力显著增强,在知识(MMLU_PRO、GPQA)、代码(McEval、FullStackBench)、推理(DROP)、中文(CMMLU、C-Eval)权威测评基准上获得最佳成绩,综合得分优于GPT-4o、Claude 3.5 Sonnet 等业界一流模型。
话不多说,先通过和其他行业内领先大模型的对比来直观感受一下。针对推理能力,设置一个大约在初级和中级水平的代码问题:问题:使用 Flask 框架创建一个简单的 Web API,包含以下两个端点:
/: 返回一个欢迎消息,例如 {"message": "Welcome to the API!"}。/add: 接受两个整数参数 a 和 b(通过查询参数传递),返回它们的和,例如 {"sum": 5}。
要求:
提供可运行的完整代码。说明如何在本地运行此代码并进行测试。
这一测试题所传达的需求明确清晰且聚焦于核心功能,但并未说明如何处理错误逻辑或参数类型。先来看GPT-4o 将如何应对:
可以看到 GPT-4o 的答案相对中规中矩,并针对问题本身包含的漏洞,给出了一个错误处理示例。再来看看 Doubao-1.5-pro 给出的答案:
显而易见,豆包关于代码问题的输出格式设置,会更贴近原生的编码界面。相较于 GPT-4o ,能够进行必要且详细的代码说明,并且在这一部分对参数类型问题就给出了预设和解答,即如果参数并不有效,状态代码就为400,然后才给出了运行代码并进行测试的方法。总体而言,Doubao-1.5-pro 相较于 GPT-4o 输出的代码会更加精细一点。
针对“知识能力”一项,将 Doubao-1.5-pro 和同为主打中文语境的一个国产模型进行对比,提出的问题是:唐代有哪些古诗中包含“过年”这件事?国内某大模型产物给出的答案是:
给出的答案数量有十个之多,但每个答案的颗粒度不够,仅包括作者和50字左右的大概介绍,于客户而言可能无法对提出的问题有深入的了解。
Doubao-1.5-pro 则相对完美地规避掉了这一问题。先在逻辑上进行了清晰的划分,给出了体现过年氛围与习俗与抒发过年时情感思绪的两个大方向,并且针对所给出的每一个答案的颗粒度也相对细些,包括了原文和解析,内容明显更丰富。
针对复杂问题的推理能力,Doubao-1.5-pro 在现实的中文语境中展现出了明显的优势,所提出的问题是:2025年上半年,我有3万元想进行理财,是选择中国建设银行还是选择中国工商银行?收益各是多少? Gemini 1.5 Flash 给出的回答如下:
也许是由于信息库的问题,Gemini 推理出的结果会相对空泛,并没有给出实质性的建议,也没有给出题目中要求的大致收益。而 Doubao-1.5-pro 的回答则具有针对性,并能够条理清晰、分门别类的给出针对活期类、定期类、特色理财产物的的不同收益,能够满足问题提出者对这一问题的基本需求。
中文能力方面,设置的问题是:请以爱情和轻舟已过万重山为主题,写一首七言律诗。Doubao-1.5-pro 的遣词造句明显优于 GPT-4o 等其他的模型,并能够更进一步给出首联、颔联、颈联、尾联解析。
而 GPT-4o 的中文能力则稍逊一节,回答得相对简单,词藻也较为朴素。
除了 Doubao-1.5-pro ,本次也发布了更加轻量化的 Doubao-1.5-lite 。Doubao-1.5-lite 具备极致的响应速度,适用于对时延有更高要求的场景,模型配合精调使用可以获得更优质的效果,并且在轻量版语言模型中处于领先水平,在综合(MMLU_pro)、推理(BBH)、数学(MATH)、专业知识(GPQA)权威测评指标持平或超越GPT-4omini,Cluade 3.5 Haiku。先来感受一下极致的推理和响应速度,提问一个中等难度的推理问题:有三个人分别穿着红、蓝、绿三种颜色的衣服,他们分别来自 A、B、C 三个城市。已知:穿红衣服的人不是来自 A 城市;穿蓝衣服的人来自 C 城市;来自 A 城市的人没有穿绿衣服。请问,这三个人分别来自哪个城市,穿着什么颜色的衣服?
在不省略已知条件、推理过程的情况下, Doubao-1.5-lite 输出答案仅用了 1.55 秒,这个推理时间确实极致。再提出一个更复杂的专业问题:请简述股票估值的三种主要方法(市盈率法、现金流折现法、净资产法),并分析在不同市场环境下,哪种方法更适用?
这是一道金融行业的专业知识题目。Doubao-1.5-lite 的回答内容详实,能够 cover 住垂直领域的专业知识,并且在面对庞杂的、体量大的问题时,总输出时长只有 6.77 秒,同样在一个低时延的水平范围内。
值得一提的是,Doubao-1.5-lite 模型效果比肩去年 9 月份发布的主力模型 Doubao-pro-32k-0828,这意味着客户可以用 lite 模型的成本,获得过去 pro 模型的效果。
无论是 Doubao-1.5-pro 还是 Doubao-1.5-lite,都是字节在追求模型性能与推理性能的极致平衡,也是字节一路积累下来的基本功的体现。
从训练和推理效率的角度出发,Doubao-1.5-pro 使用稀疏 MoE 架构。在预训练阶段,仅用较小参数激活的 MoE 模型,性能即可超过 Llama3.1-405B 等超大稠密预训练模型。豆包团队通过对稀疏度 Scaling Law 的研究,确定了性能和效率比较平衡的稀疏比例,并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能,等效 7 倍激活参数的Dense模型性能,远超业内 MoE 架构约 3 倍杠杆的常规效率。
基于 MoE 模型,豆包搭建了高性能推理系统,在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限中,表现出显著不同的计算与访存特征。针对四个不同象限,采用异构硬件结合不同的低精度优化策略,在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标。
更关键的是,在 PostTraining 阶段,豆包团队构建了一套完全自主的信息生产体系,将标注团队与模型 self play 工艺相结合,提升信息标注多样性和难度,确保信息来源的独立性和可靠性。在豆包大模型1.5的训练过程中,未使用任何其他模型生成的信息。这意味着,字节在踩踏实大模型训练的基本功、加大基础工程投入、放弃短期获利,这已经区别于世界范围内绝大多数不肯下“笨功夫”的大模型公司。
二、视觉推理、指令遵循达新高
本次发布中,豆包的视觉理解能力令人惊艳,具备市面上绝大多数 To C 的 AI Chatbot 并不具备精准的图像理解、识别、问答能力。Doubao-1.5-vision-pro 在多模态信息合成、动态分辨率、多模态对齐、混合训练上进行了全面的工艺升级,进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力,也拥有了更细腻的视觉描述能力。Doubao-1.5-vision-pro 的视觉能力在多个权威测评基准上取得了全球领先表现:
基于原生动态分辨率的架构设计,Doubao-1.5-vision-pro 能够支持任意分辨率和极端长宽比图像识别。因此,无论是高清大图还是低分辨率的小图,亦或是极端长宽比例的图像,模型都能实现精准的特征提取和高效的计算性能。先来看一下针对复杂图表的理解能力。给出如下图表,并向 Doubao-1.5-vision-pro 提问:该图表反映了什么内容?
从上述的回答中可以见得, Doubao-1.5-vision-pro 对图表内信息内容的解读是准确无误的,并能针对某些数值给出基本的关于趋势、显著性的结论。
针对低清晰度问题,给出如下一张清晰度低、分辨率低的界面,进而考察模型对其中内容识别和理解的准确程度。
从上述的回答中可知,Doubao-1.5-vision-pro 同样能够准确识别模糊内容,并做出基础的推理判断:客户正在为影片应用创意外观预设并进行色彩调整。再上一个难度,针对字迹潦草的手写图片,Doubao-1.5-vision-pro 能否准确识别?
不得不说,这个图片如果不仔细看的话,人眼都不一定能看清,而豆包则能提取道其中 95% 的关键词和主题,且识别出了部分关键词用蓝色笔标注来突出重点内容,并进一步总结该笔记聚焦于媒体研究领域。除了精准的识别能力,Doubao-1.5-vision-pro 也具备强大的多类型图片内容提取能力。
上传四张同一时期拍摄的照片,模型能在处理多张图片时获取关键要点,并总结出是“新年庆祝”的主题。复杂指令遵循能力也是 Doubao-1.5-vision-pro 的亮点,通过系统性的原子能力拆解和多维度指令的逻辑组合,在后训练阶段引入了多样化的视觉指令信息,从而激发模型的指令遵循能力,从容应对需要遵循更复杂指令的场景。
不仅视觉大模型的能力得到提升,本次豆包大模型1.5家族中还新推出了实时语音模型。该模型提出了新的 Speech2Speech 的端到端框架,不仅通过原生方法将语音和文本模态进行深度融合,同时还实现了语音对话中真正意义上的语音理解生成端到端,相比传统的 ASR+LLM+TTS 的级联方式,不仅拥有高理解力(高智商),还具备语音高表现力与高控制力,以及模型整体在回复内容和语音上的高情绪承接能力。
在语音多模态上,我们提出了新的 Speech2Speech 的端到端框架,不仅通过原生方法将语音和文本模态进行深度融合,同时还实现了语音对话中真正意义上的语音理解生成端到端,相比传统的 ASR+LLM+TTS 的级联方式,在对话效果上有质的飞跃。
可以说是一个情绪价值价值拉满、表现能力生动,也不怕被打断的豆包了。
三、豆包 1.5 发布后,AI 更普惠
2024 年 5 月,豆包主力模型就将推理输入价格降至“厘时代”,12 月火山引擎又让视觉理解模型价格进入“厘时代”。当下豆包大模型 1.5 继续保持原有模型价格不变,加量不加价,也会给火山引擎进一步做大 B 端市场带来更多可能性。
在这场旷日持久的大模型落地竞赛中,字节给行业留下的印象是“从容”。支撑豆包大模型全产物价格普惠的原因,是推理成本持续优化、毛利率的逐渐增加。据了解,豆包大模型去年大幅降价后,毛利率依然为正。其中,字节跳动最新推出的豆包大模型 1.5,在推理成本优化上取得进一步突破,在火山引擎上售卖 API 的 Doubao-1.5-pro,毛利率仍能达到较为可观的 50%。
不能只看到火山引擎中 API 价格下调的从容,更需要看到的是,豆包大模型团队所打造的综合高效模型架构、高性能推理体系、自建信息标注工程等深厚的工艺优势,以及对于大模型这条路不走捷径的长期主义战略。
更高性价比的支持也让火山引擎在商业化落地的过程中跑在前列。2024 年,火山引擎在汽车行业与梅赛德斯-奔驰、广汽集团、领克汽车等多家企业达成合作;在金融行业与招商银行、华泰证券、国信证券等企业进行智能体创新探索;在教育行业和浙江大学、南京大学打造了 AI 教育示范合作案例。
豆包大模型 1.5 的升级和火山引擎在 B 端市场的进一步拓展,二者生生相息、共同推进 AI 惠普。
雷峰网(公众号:雷峰网)雷峰网雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
- END -
大模型「点火」,AI for Science 提速

在生产环节中,95% 是一个分水岭。以人为对照标准,人工的准确率在 92% 至 98% 之间,因此,行业对机器容忍度的判别标准取之中位数,未达到 95% 的部分,无论是 80% 乃至 90% 的准确率
神舟十九号航天员乘组太空归来后首次公开亮相

2025年7月9日下午,中国航天员科研训练中心在北京航天城举行神舟十九号乘组与记者见面会。这是航天员蔡旭哲、宋令东、王浩泽返回60余天后,首次面向媒体与公众正式公开亮相,并分享了183天太空驻留的经历
男演员身份证照片引热议,证件照怎样拍才规范?

近日,有网友表示在上海一公园捡到了演员金世佳的身份证,喊话“金世佳你身份证掉了”,相关话题登上微博热搜。▲图片来自某社交媒体截图▲图片来自微博截图7月6日下午,@金世佳工作室 回应身份证丢失一事:已联
成都警情通报:华阳“人贩子”实为误认亲

成都市公安局天府新区分局7月10日发布警情通报称,7月5日12时许,该局接报警,称华阳街道发生疑似拐卖儿童纠纷。民警立即到场处置并开展调查。经调取监控、询问证人及涉事人员,现查明:郑某某女,32岁,存
AIGC:我不是元宇宙的附庸品

“你们是从什么时候开始注意到人类的?”“当第一个原始人开始仰望星空的时候。”AI 的类人猿,早已开始仰望人类。01 来自机器的审视在过去短短的两年间,算法从业者王超岳有过两次被 AI 震撼住的时刻。一
2D变3D,电影之城邀你“入画”

来源标题:2D变3D,电影之城邀你“入画”在陆家嘴百丽宫影城的主视觉海报前,一桌二椅皆成实景,影迷可以入内拍照留念,也可在此交谈、小憩。 上海国际电影节供图今年上海国际电影节,影迷不仅能站在主题海报前
《沙丘:觉醒》揭晓游戏中后期体验内容

来源标题:《沙丘:觉醒》揭晓游戏中后期体验内容Funcom最近的直播活动展示了为PvE和PvP玩家提供的丰富机制与体验内容《沙丘:觉醒》6月5日抢先体验即将开启6月10日正式全面上线)。近期,开发商F
商务部回应冯德莱恩涉华言论

7月10日,商务部召开例行新闻发布会。有记者提问,欧盟委员会主席冯德莱恩近日发表演讲,指责中国市场准入、补贴、政府采购、出口管制、产能过剩等问题。请问商务部对此有何评论?商务部新闻发言人何咏前表示,商
MediaTek 举办天玑开发者大会 MDDC2024,携手产业伙伴共创生成式 AI 新生态

2024年5月7日,MediaTek 举办天玑开发者大会2024MDDC 2024),本届大会以“AI予万物”为主题,深入研讨生成式 AI 技术为移动生态带来的变革与全新机遇。会上,MediaTek
今年将举办50多场演唱会 鸟巢放歌引爆双奥场馆新热潮

来源标题:今年将举办50多场演唱会 鸟巢放歌引爆双奥场馆新热潮5月23日至25日,凤凰传奇连续三场鸟巢演唱会引爆歌迷热情,共吸引近19万观众到场,国家体育场再次成为欢乐的海洋。今年以来,汪苏泷、张惠妹
创业板指涨逾1%,沪指站稳3500点上方

来源:财联社财联社7月9日电,指数持续走强,创业板指拉升涨逾1%,沪指涨0.35%,深成指涨0.60%。影视传媒、核聚变、机器人、军工等方向涨幅居前,沪深京三市上涨个股近3100只。股市动态:09:3
成都警情通报:华阳“人贩子”实为误认亲

成都市公安局天府新区分局7月10日发布警情通报称,7月5日12时许,该局接报警,称华阳街道发生疑似拐卖儿童纠纷。民警立即到场处置并开展调查。经调取监控、询问证人及涉事人员,现查明:郑某某女,32岁,存