发布时间:2025-09-13 13:22:48 作者:samk 点击:11 【 字体:大中小 】
[雷峰网(公众号:雷峰网)]两周前,面壁面壁发布领先的新模型早开源大模型「Eurux-8x22B 」。相比口碑之作 Llama3-70B,于L越发布时间更早,比肩综合性能相当,理超尤其是面壁天津医科大学偷拍视频下载拥有更强的推理性能——刷新开源大模型推理性能 SOTA,堪称开源大模型中「理科状元」。新模型早激活参数仅 39B,于L越支持 64k 上下文,比肩相比 Llama3 速度更快、理超可处理更长文本。面壁
图注:面壁Eurux-8x22B 模型在 LeetCode 和 TheoremQA这两个具有挑战性的基准测试中,刷新开源大模型推理性能 SOTA。
图注:面壁Eurux-8x22B 模型综合性能比肩 LlaMa3-70B,超越开源模型 WizardLM-2-8x22b, Mistral-8x22b-Instruct,DeepSeek-67b,以及闭源模型 GPT-3.5-turbo。
Eurux-8x22B 由 Mistral-8x22B对齐而来。强劲战斗力,来自面壁 Ultra 对齐技术上新 UltraInterat 大规模、高质量对齐数据集。此前,面壁 Ultra 对齐系列数据集已经“强壮”了全球超 200 个大模型,堪称大模型上分神器。
Eurux-8x22B模型+对齐数据集,全家桶开源:
https://github.com/OpenBMB/Eurus
https://huggingface.co/openbmb/Eurux-8x22b-nca
复杂推理能力是体现大模型性能差异的最核心能力之一,也是大模型真正落地应用所需的关键能力所在。
Eurux-8x22B 在代码和数学等复杂推理的综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA,堪称「理科状元」。特别在 LeetCode (180道LeetCode真题)和 TheoremQA(美国大学水准的STEM题目)这两个具有挑战性的基准测试中,超过现有开源模型。
图注:Eurux-8x22B 在代码和数学等复杂推理综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA。
开源大模型「理科状元」Eurux-8x22B在实际应用中表现如何呢?
在近期 LeetCode 周赛,这一检验人类程序员编程能力的真实竞技场上:Eurux-8x22B 在 Python 编程方面取得综合排名超越了80% 的人类参赛选手的优秀成绩,成功解决四道算法题中的三道,可以初步通过互联网大厂的程序员编程面试。
下面是本次周赛中Eurux-8x22B对一道中等难度的算法题的真实解答:
除了代码能力优秀,Eurux-8x22B 解答数学题也是轻而易举。
例如给它一道高中排列组合题,Eurux-8x22B 首先给出了清晰的解题思路,然后一步步地拆解执行,再进行结果汇总,最后得到正确答案。
再考察它一道代数题,Eurux-8x22B 直击要害,运用二项式定理,清晰简洁地给出了正确的解答。
接着给它一道向量代数题,Eurux-8x22B 也能轻松拿下。
高考函数题可能是令很多人回忆起来就头疼的一类题,Eurux-8x22B 也能解答无误。
(需要说明的是,Eurux-8x22B 没有针对中文语料进行额外的微调和对齐!)
本次大模型「理科状元」 Eurux-8x22B 的优异表现,得益于来自面壁 Ultra 对齐技术的大规模、高质量对齐数据集UltraInteract上新。
好数据,才有好模型。此前,面壁 Ultra 对齐技术已经“强壮”了全球超 200 个大模型,堪称大模型上分神器。
➤ UltraInterat对齐数据集地址:
? https://github.com/OpenBMB/Eurus
UltraInteract是专门设计用于提升大模型推理能力的大规模、高质量的对齐数据集,包含了覆盖数学、代码和逻辑推理问题的12个开源数据集的86K条指令和220K偏好对,共有五十万(条)左右数据。相比而言,LLaMA 3-70B模型则是使用了千万量级的对齐数据,这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量。UltraInteract 数据集开源后在社区受到了广泛好评。
从领先的端侧模型「小钢炮」MiniCPM,到开源模型推理新 SOTA 的Eurux-8x22B,为什么面壁智能总能推出同等参数、性能更优的「高效大模型」?答案是,大模型是一项系统工程,而面壁作为国内极少数兼具大模型算法与 infra 能力的团队,拥有自研的全流程高效生产线:面壁 Ultra 对齐技术、Infra 工艺、独家「模型沙盒」实验和现代化数据工厂,从数据、训练到调校工艺环环相扣,一条优秀的大模型Scaling Law增长曲线由此而生。
Infra工艺方面,面壁构建了全流程优化加速工具套件平台ModelForce,可以实现 10 倍推理加速,90% 成本降低。
算法方面,通过上千次以上的「模型沙盒」实验,探索更加科学的训模方法。以小见大,寻找高效模型训练配置,实现模型能力快速形成。
➤ Eurux-8x22B模型GitHub地址:
https://github.com/OpenBMB/Eurus
➤ Eurux-8x22B模型HuggingFace地址:https://huggingface.co/openbmb/Eurux-8x22b-nc
➤ UltraInterat对齐数据集地址:
https://github.com/OpenBMB/Eurus
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
独家丨王慧文仍在招兵买马,意向收购两家清华 NLP 校友公司
加码AI生态 世纪华通加速建设“ALL IN AI”新框架
美国西南航空一波音客机因引擎故障紧急转降
火山引擎,「出击」Agent
CNCC 12月8日全线上召开,逾万注册参会者在线聚,直播人气近200万
华科大官网已撤下校友王腾资料页面
这份“国家级超级计划”如何改变14亿中国人生活?
知名网红民警“江宁婆婆”谈于朦胧去世排除刑事案件
实测丨年底了,我用 AI 做了一份年终总结。
PPIO亮相WAIC 2025,重磅推出Agentic AI基础设施服务平台
华科大官网已撤下校友王腾资料页面
多模态新旗舰MiniCPM
大模型「点火」,AI for Science 提速
泽连斯基会见美国乌克兰事务特使凯洛格
多模态新旗舰MiniCPM
Meta 重金抢人,明星云集就能复制 DeepSeek 的成功吗?
新加坡国立大学尤洋:高性能 AI 的突破丨GAIR 2023
香港首个商业AI展「AI+ Power 2025」盛大开幕,本地及海外行业精英齐聚共探AI发展
北京香山论坛基本准备就绪
中国等国能否说服俄罗斯谈判?外交部回应
JetBrains与阿里云战略合作发布JetBrains AI Assistant:聚焦中国市场开发者,实现开发效率代际提升
独家丨小鹏机器人团队“广招兵马”,原字节 Seed 陈杰已加入
大量无人机进入波兰领空,哪儿来的?
美众议院通过新版国防授权法案
大模型容易忽视的安全,火山方舟早就「刻」进了基因
于朦胧被传坠亡,物业说凌晨有人坠楼,现场图疑曝光
深夜,美元直线跳水,纳指再创历史新高!中国资产飙升,阿里巴巴大涨8%!重磅信息公布,交易员预计:美联储将降息
独家丨前阿里通义视觉负责人薄列峰,已加入腾讯混元团队
马斯克的「xAI」计划
机器人新势力估值断层加速,具身智能靠什么穿越风暴?
多模态新旗舰MiniCPM
媒体:武大杨某媛论文下架后再上架,知网应公开说明
实测字节扣子空间:AI 播客比真人丝滑,Agent 能打 80% 的工
郑州:全市非寄宿制中小学和幼儿园明日停课一天
重磅发布!新华医院联合商汤医疗推出AI儿童全科医生,“深思考”大医赋能儿科发展
群核科技发布3D高斯语义数据集,给机器人装上“空间大脑”