实测豆包1.5后，看到了字节不走捷径的底气

2025-07-10 23:32:54 - 点台

2025 年 1 月，实测豆包大模型 1.5 全面上线火山方舟，豆包到字底气其中豆包通用模型 pro 在多个权威测评集综合得分优于GPT4o、节不径Claude 3.5 Sonnet 等业界一流模型，走捷模型效果达到全球领先水平。实测

通用模型 pro 实现了性能与推理成本极致平衡，豆包到字底气采用高效的节不径 MoE 模型结构，性能杠杆提升至 7 倍，走捷更有自研的实测高性能推理系统，可以达到 10 毫秒级低延迟。豆包到字底气并且，节不径豆包大模型 1.5 建了高度自主的走捷信息生产体系，未使用任何其他模型生成的实测信息。

除此之外，豆包到字底气豆包通用模型 pro、节不径豆包·视觉理解模型均有大幅增强，并发布豆包·实时语音模型。但豆包大模型 1.5 全产物，加量不加价，仍继续保持原有模型价格不变。

本文实测了豆包大模型 1.5 产物家族后，看到了字节不走捷径的底气。

一、综合能力优于业界一流模型

Doubao-1.5-pro 模型综合能力显著增强，在知识（MMLU_PRO、GPQA）、代码（McEval、FullStackBench）、推理（DROP）、中文（CMMLU、C-Eval）权威测评基准上获得最佳成绩，综合得分优于GPT-4o、Claude 3.5 Sonnet 等业界一流模型。

实测豆包1.5后，看到了字节不走捷径的底气

话不多说，先通过和其他行业内领先大模型的对比来直观感受一下。针对推理能力，设置一个大约在初级和中级水平的代码问题：问题：使用 Flask 框架创建一个简单的 Web API，包含以下两个端点：

/: 返回一个欢迎消息，例如 {"message": "Welcome to the API!"}。/add: 接受两个整数参数 a 和 b（通过查询参数传递），返回它们的和，例如 {"sum": 5}。

要求：

提供可运行的完整代码。说明如何在本地运行此代码并进行测试。

这一测试题所传达的需求明确清晰且聚焦于核心功能，但并未说明如何处理错误逻辑或参数类型。先来看GPT-4o 将如何应对：

可以看到 GPT-4o 的答案相对中规中矩，并针对问题本身包含的漏洞，给出了一个错误处理示例。再来看看 Doubao-1.5-pro 给出的答案：

显而易见，豆包关于代码问题的输出格式设置，会更贴近原生的编码界面。相较于 GPT-4o ，能够进行必要且详细的代码说明，并且在这一部分对参数类型问题就给出了预设和解答，即如果参数并不有效，状态代码就为400，然后才给出了运行代码并进行测试的方法。总体而言，Doubao-1.5-pro 相较于 GPT-4o 输出的代码会更加精细一点。

针对“知识能力”一项，将 Doubao-1.5-pro 和同为主打中文语境的一个国产模型进行对比，提出的问题是：唐代有哪些古诗中包含“过年”这件事？国内某大模型产物给出的答案是：

给出的答案数量有十个之多，但每个答案的颗粒度不够，仅包括作者和50字左右的大概介绍，于客户而言可能无法对提出的问题有深入的了解。

Doubao-1.5-pro 则相对完美地规避掉了这一问题。先在逻辑上进行了清晰的划分，给出了体现过年氛围与习俗与抒发过年时情感思绪的两个大方向，并且针对所给出的每一个答案的颗粒度也相对细些，包括了原文和解析，内容明显更丰富。

实测豆包1.5后，看到了字节不走捷径的底气

针对复杂问题的推理能力，Doubao-1.5-pro 在现实的中文语境中展现出了明显的优势，所提出的问题是：2025年上半年，我有3万元想进行理财，是选择中国建设银行还是选择中国工商银行?收益各是多少? Gemini 1.5 Flash 给出的回答如下：

实测豆包1.5后，看到了字节不走捷径的底气

也许是由于信息库的问题，Gemini 推理出的结果会相对空泛，并没有给出实质性的建议，也没有给出题目中要求的大致收益。而 Doubao-1.5-pro 的回答则具有针对性，并能够条理清晰、分门别类的给出针对活期类、定期类、特色理财产物的的不同收益，能够满足问题提出者对这一问题的基本需求。

实测豆包1.5后，看到了字节不走捷径的底气

中文能力方面，设置的问题是：请以爱情和轻舟已过万重山为主题，写一首七言律诗。Doubao-1.5-pro 的遣词造句明显优于 GPT-4o 等其他的模型，并能够更进一步给出首联、颔联、颈联、尾联解析。

实测豆包1.5后，看到了字节不走捷径的底气

而 GPT-4o 的中文能力则稍逊一节，回答得相对简单，词藻也较为朴素。

实测豆包1.5后，看到了字节不走捷径的底气

除了 Doubao-1.5-pro ，本次也发布了更加轻量化的 Doubao-1.5-lite 。Doubao-1.5-lite 具备极致的响应速度，适用于对时延有更高要求的场景，模型配合精调使用可以获得更优质的效果，并且在轻量版语言模型中处于领先水平，在综合（MMLU_pro）、推理（BBH）、数学（MATH）、专业知识（GPQA）权威测评指标持平或超越GPT-4omini，Cluade 3.5 Haiku。先来感受一下极致的推理和响应速度，提问一个中等难度的推理问题：有三个人分别穿着红、蓝、绿三种颜色的衣服，他们分别来自 A、B、C 三个城市。已知：穿红衣服的人不是来自 A 城市；穿蓝衣服的人来自 C 城市；来自 A 城市的人没有穿绿衣服。请问，这三个人分别来自哪个城市，穿着什么颜色的衣服？

实测豆包1.5后，看到了字节不走捷径的底气

在不省略已知条件、推理过程的情况下， Doubao-1.5-lite 输出答案仅用了 1.55 秒，这个推理时间确实极致。再提出一个更复杂的专业问题：请简述股票估值的三种主要方法(市盈率法、现金流折现法、净资产法)，并分析在不同市场环境下，哪种方法更适用？

实测豆包1.5后，看到了字节不走捷径的底气

这是一道金融行业的专业知识题目。Doubao-1.5-lite 的回答内容详实，能够 cover 住垂直领域的专业知识，并且在面对庞杂的、体量大的问题时，总输出时长只有 6.77 秒，同样在一个低时延的水平范围内。

值得一提的是，Doubao-1.5-lite 模型效果比肩去年 9 月份发布的主力模型 Doubao-pro-32k-0828，这意味着客户可以用 lite 模型的成本，获得过去 pro 模型的效果。

无论是 Doubao-1.5-pro 还是 Doubao-1.5-lite，都是字节在追求模型性能与推理性能的极致平衡，也是字节一路积累下来的基本功的体现。

从训练和推理效率的角度出发，Doubao-1.5-pro 使用稀疏 MoE 架构。在预训练阶段，仅用较小参数激活的 MoE 模型，性能即可超过 Llama3.1-405B 等超大稠密预训练模型。豆包团队通过对稀疏度 Scaling Law 的研究，确定了性能和效率比较平衡的稀疏比例，并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能，等效 7 倍激活参数的Dense模型性能，远超业内 MoE 架构约 3 倍杠杆的常规效率。

实测豆包1.5后，看到了字节不走捷径的底气

基于 MoE 模型，豆包搭建了高性能推理系统，在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限中，表现出显著不同的计算与访存特征。针对四个不同象限，采用异构硬件结合不同的低精度优化策略，在确保低延迟的同时大幅提升吞吐量，在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标。

更关键的是，在 PostTraining 阶段，豆包团队构建了一套完全自主的信息生产体系，将标注团队与模型 self play 工艺相结合，提升信息标注多样性和难度，确保信息来源的独立性和可靠性。在豆包大模型1.5的训练过程中，未使用任何其他模型生成的信息。这意味着，字节在踩踏实大模型训练的基本功、加大基础工程投入、放弃短期获利，这已经区别于世界范围内绝大多数不肯下“笨功夫”的大模型公司。

二、视觉推理、指令遵循达新高

本次发布中，豆包的视觉理解能力令人惊艳，具备市面上绝大多数 To C 的 AI Chatbot 并不具备精准的图像理解、识别、问答能力。Doubao-1.5-vision-pro 在多模态信息合成、动态分辨率、多模态对齐、混合训练上进行了全面的工艺升级，进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力，也拥有了更细腻的视觉描述能力。Doubao-1.5-vision-pro 的视觉能力在多个权威测评基准上取得了全球领先表现：

实测豆包1.5后，看到了字节不走捷径的底气

基于原生动态分辨率的架构设计，Doubao-1.5-vision-pro 能够支持任意分辨率和极端长宽比图像识别。因此，无论是高清大图还是低分辨率的小图，亦或是极端长宽比例的图像，模型都能实现精准的特征提取和高效的计算性能。先来看一下针对复杂图表的理解能力。给出如下图表，并向 Doubao-1.5-vision-pro 提问：该图表反映了什么内容？

实测豆包1.5后，看到了字节不走捷径的底气

从上述的回答中可以见得， Doubao-1.5-vision-pro 对图表内信息内容的解读是准确无误的，并能针对某些数值给出基本的关于趋势、显著性的结论。

针对低清晰度问题，给出如下一张清晰度低、分辨率低的界面，进而考察模型对其中内容识别和理解的准确程度。

实测豆包1.5后，看到了字节不走捷径的底气

从上述的回答中可知，Doubao-1.5-vision-pro 同样能够准确识别模糊内容，并做出基础的推理判断：客户正在为影片应用创意外观预设并进行色彩调整。再上一个难度，针对字迹潦草的手写图片，Doubao-1.5-vision-pro 能否准确识别？

实测豆包1.5后，看到了字节不走捷径的底气

不得不说，这个图片如果不仔细看的话，人眼都不一定能看清，而豆包则能提取道其中 95% 的关键词和主题，且识别出了部分关键词用蓝色笔标注来突出重点内容，并进一步总结该笔记聚焦于媒体研究领域。除了精准的识别能力，Doubao-1.5-vision-pro 也具备强大的多类型图片内容提取能力。

实测豆包1.5后，看到了字节不走捷径的底气

上传四张同一时期拍摄的照片，模型能在处理多张图片时获取关键要点，并总结出是“新年庆祝”的主题。复杂指令遵循能力也是 Doubao-1.5-vision-pro 的亮点，通过系统性的原子能力拆解和多维度指令的逻辑组合，在后训练阶段引入了多样化的视觉指令信息，从而激发模型的指令遵循能力，从容应对需要遵循更复杂指令的场景。

不仅视觉大模型的能力得到提升，本次豆包大模型1.5家族中还新推出了实时语音模型。该模型提出了新的 Speech2Speech 的端到端框架，不仅通过原生方法将语音和文本模态进行深度融合，同时还实现了语音对话中真正意义上的语音理解生成端到端，相比传统的 ASR+LLM+TTS 的级联方式，不仅拥有高理解力（高智商），还具备语音高表现力与高控制力，以及模型整体在回复内容和语音上的高情绪承接能力。

在语音多模态上，我们提出了新的 Speech2Speech 的端到端框架，不仅通过原生方法将语音和文本模态进行深度融合，同时还实现了语音对话中真正意义上的语音理解生成端到端，相比传统的 ASR+LLM+TTS 的级联方式，在对话效果上有质的飞跃。

可以说是一个情绪价值价值拉满、表现能力生动，也不怕被打断的豆包了。

三、豆包 1.5 发布后，AI 更普惠

2024 年 5 月，豆包主力模型就将推理输入价格降至“厘时代”，12 月火山引擎又让视觉理解模型价格进入“厘时代”。当下豆包大模型 1.5 继续保持原有模型价格不变，加量不加价，也会给火山引擎进一步做大 B 端市场带来更多可能性。

在这场旷日持久的大模型落地竞赛中，字节给行业留下的印象是“从容”。支撑豆包大模型全产物价格普惠的原因，是推理成本持续优化、毛利率的逐渐增加。据了解，豆包大模型去年大幅降价后，毛利率依然为正。其中，字节跳动最新推出的豆包大模型 1.5，在推理成本优化上取得进一步突破，在火山引擎上售卖 API 的 Doubao-1.5-pro，毛利率仍能达到较为可观的 50%。

不能只看到火山引擎中 API 价格下调的从容，更需要看到的是，豆包大模型团队所打造的综合高效模型架构、高性能推理体系、自建信息标注工程等深厚的工艺优势，以及对于大模型这条路不走捷径的长期主义战略。

更高性价比的支持也让火山引擎在商业化落地的过程中跑在前列。2024 年，火山引擎在汽车行业与梅赛德斯-奔驰、广汽集团、领克汽车等多家企业达成合作；在金融行业与招商银行、华泰证券、国信证券等企业进行智能体创新探索；在教育行业和浙江大学、南京大学打造了 AI 教育示范合作案例。

豆包大模型 1.5 的升级和火山引擎在 B 端市场的进一步拓展，二者生生相息、共同推进 AI 惠普。

雷峰网(公众号：雷峰网)雷峰网雷峰网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。