搜索
当前所在位置:首页 >> 探索

【天津医科大学偷拍视频下载】面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

发布时间:2025-09-13 13:22:48 作者:samk 点击:11 【 字体:

[雷峰网(公众号:雷峰网)]两周前,面壁面壁发布领先的新模型早开源大模型「Eurux-8x22B 」。相比口碑之作 Llama3-70B,于L越发布时间更早,比肩综合性能相当,理超尤其是面壁天津医科大学偷拍视频下载拥有更强的推理性能——刷新开源大模型推理性能 SOTA,堪称开源大模型中「理科状元」。新模型早激活参数仅 39B,于L越支持 64k 上下文,比肩相比 Llama3 速度更快、理超可处理更长文本。面壁

面壁新模型:早于Llama3、新模型早比肩 Llama3、于L越推理超越 Llama3!比肩

图注:面壁Eurux-8x22B 模型在 LeetCode 和 TheoremQA这两个具有挑战性的基准测试中,刷新开源大模型推理性能 SOTA。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

图注:面壁Eurux-8x22B 模型综合性能比肩 LlaMa3-70B,超越开源模型 WizardLM-2-8x22b, Mistral-8x22b-Instruct,DeepSeek-67b,以及闭源模型 GPT-3.5-turbo。

 

Eurux-8x22B 由 Mistral-8x22B对齐而来。强劲战斗力,来自面壁 Ultra 对齐技术上新 UltraInterat 大规模、高质量对齐数据集。此前,面壁 Ultra 对齐系列数据集已经“强壮”了全球超 200 个大模型,堪称大模型上分神器。

 

Eurux-8x22B模型+对齐数据集,全家桶开源:

https://github.com/OpenBMB/Eurus

https://huggingface.co/openbmb/Eurux-8x22b-nca

开源大模型「理科状元」

开源大模型「理科状元」

复杂推理能力是体现大模型性能差异的最核心能力之一,也是大模型真正落地应用所需的关键能力所在。

Eurux-8x22B 在代码和数学等复杂推理的综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA,堪称「理科状元」。特别在 LeetCode (180道LeetCode真题)和 TheoremQA(美国大学水准的STEM题目)这两个具有挑战性的基准测试中,超过现有开源模型。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

图注:Eurux-8x22B 在代码和数学等复杂推理综合性能方面超越 Llama3-70B,刷新开源大模型 SOTA。


开源大模型「理科状元」Eurux-8x22B在实际应用中表现如何呢?


在近期 LeetCode 周赛,这一检验人类程序员编程能力的真实竞技场上:Eurux-8x22B 在 Python 编程方面取得综合排名超越了80% 的人类参赛选手的优秀成绩,成功解决四道算法题中的三道,可以初步通过互联网大厂的程序员编程面试。


下面是本次周赛中Eurux-8x22B对一道中等难度的算法题的真实解答:

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!


除了代码能力优秀,Eurux-8x22B 解答数学题也是轻而易举。


例如给它一道高中排列组合题,Eurux-8x22B 首先给出了清晰的解题思路,然后一步步地拆解执行,再进行结果汇总,最后得到正确答案。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

再考察它一道代数题,Eurux-8x22B 直击要害,运用二项式定理,清晰简洁地给出了正确的解答。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

接着给它一道向量代数题,Eurux-8x22B 也能轻松拿下。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

高考函数题可能是令很多人回忆起来就头疼的一类题,Eurux-8x22B 也能解答无误。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

(需要说明的是,Eurux-8x22B 没有针对中文语料进行额外的微调和对齐!)

面壁 Ultra 对齐技术,大模型上分神器!

本次大模型「理科状元」 Eurux-8x22B 的优异表现,得益于来自面壁 Ultra 对齐技术的大规模、高质量对齐数据集UltraInteract上新。

好数据,才有好模型。此前,面壁 Ultra 对齐技术已经“强壮”了全球超 200 个大模型,堪称大模型上分神器。

 ➤  UltraInterat对齐数据集地址:

? https://github.com/OpenBMB/Eurus

UltraInteract是专门设计用于提升大模型推理能力的大规模、高质量的对齐数据集,包含了覆盖数学、代码和逻辑推理问题的12个开源数据集的86K条指令和220K偏好对,共有五十万(条)左右数据。相比而言,LLaMA 3-70B模型则是使用了千万量级的对齐数据,这从侧面证明了 UltraInteract 数据集的优质性——数据质量胜过数据数量。UltraInteract 数据集开源后在社区受到了广泛好评。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

从领先的端侧模型「小钢炮」MiniCPM,到开源模型推理新 SOTA 的Eurux-8x22B,为什么面壁智能总能推出同等参数、性能更优的「高效大模型」?答案是,大模型是一项系统工程,而面壁作为国内极少数兼具大模型算法与 infra 能力的团队,拥有自研的全流程高效生产线:面壁 Ultra 对齐技术、Infra 工艺、独家「模型沙盒」实验和现代化数据工厂,从数据、训练到调校工艺环环相扣,一条优秀的大模型Scaling Law增长曲线由此而生。

Infra工艺方面,面壁构建了全流程优化加速工具套件平台ModelForce,可以实现 10 倍推理加速,90% 成本降低。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

算法方面,通过上千次以上的「模型沙盒」实验,探索更加科学的训模方法。以小见大,寻找高效模型训练配置,实现模型能力快速形成。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

➤  Eurux-8x22B模型GitHub地址:

https://github.com/OpenBMB/Eurus

 ➤  Eurux-8x22B模型HuggingFace地址:https://huggingface.co/openbmb/Eurux-8x22b-nc

 ➤  UltraInterat对齐数据集地址:

https://github.com/OpenBMB/Eurus





雷峰网版权文章,未经授权禁止转载。详情见转载须知。

面壁新模型:早于Llama3、比肩 Llama3、推理超越 Llama3!

阅读全文
相关推荐

大模型容易忽视的安全,火山方舟早就「刻」进了基因

大模型容易忽视的安全,火山方舟早就「刻」进了基因
大模型时代,企业使用云上模型的痛点有哪些?你可能会说模型不够精准,又或者成本太高,但这些随着AI技术的快速发展,在不远的将来或许都不再是问题。比如成本,自豆包大模型首次将价格带进“厘”时代以来,行业纷 ...

于朦胧被传坠亡,物业说凌晨有人坠楼,现场图疑曝光

于朦胧被传坠亡,物业说凌晨有人坠楼,现场图疑曝光
来源:潇湘晨报【#于朦胧被传坠亡物业说凌晨有人坠楼#,#于朦胧被传坠亡现场图疑曝光#】9月11日,网传#于朦胧#在北京坠楼相关消息冲上热搜。截至发稿前于朦胧方未作回应。有网友爆料称是在朝阳区阳光上东小 ...

深夜,美元直线跳水,纳指再创历史新高!中国资产飙升,阿里巴巴大涨8%!重磅信息公布,交易员预计:美联储将降息

深夜,美元直线跳水,纳指再创历史新高!中国资产飙升,阿里巴巴大涨8%!重磅信息公布,交易员预计:美联储将降息
每经编辑|何小桃 张锦河北京时间9月11日晚,美股纳斯达克综合指数向上触及22000点,再创历史新高,最新报21992.57点,日内上涨0.49%。道琼斯指数涨1.20%,标普500指数涨0.63%, ...

独家丨前阿里通义视觉负责人薄列峰,已加入腾讯混元团队

独家丨前阿里通义视觉负责人薄列峰,已加入腾讯混元团队
AI 科技评论独家获悉,原通义实验室应用视觉团队负责人薄列峰已加入腾讯混元大模型团队,直接向腾讯副总裁兼混元项目负责人蒋杰汇报。据悉,薄列峰在今年 4 月 30 日从阿里离任,彼时曾有传闻称他已加盟某 ...

马斯克的「xAI」计划

马斯克的「xAI」计划
在马斯克的商业帝国中,每一块新增的拼图都不仅仅是战略的延伸,更是对未来的一次大胆延伸与规划。8月14日下午,这个帝国又迎来了一个历史性时刻——xAI 正式发布了新一代的 Grok 2 大模型。在LMS ...

机器人新势力估值断层加速,具身智能靠什么穿越风暴?

机器人新势力估值断层加速,具身智能靠什么穿越风暴?
“23 年后成立的中国具身智能创业公司的第一梯队,应该是在 25 亿到 30 亿人民币之间。”4 月中下旬,早期投资人朱红告诉 AI 科技评论。一个多月过去,各家估值或已有些许变化,但总体来说仍相差不 ...

多模态新旗舰MiniCPM

多模态新旗舰MiniCPM
今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档 ...

媒体:武大杨某媛论文下架后再上架,知网应公开说明

媒体:武大杨某媛论文下架后再上架,知网应公开说明
今年7月底以来,武汉大学图书馆事件当事人杨某媛的硕士学位论文一直是舆论场关注的焦点。目前,该论文在中国知网下载量已超过31万次以上,在文献来源为“武汉大学”的论文中高居第一。9月10日,这篇论文却在中 ...

实测字节扣子空间:AI 播客比真人丝滑,Agent 能打 80% 的工

实测字节扣子空间:AI 播客比真人丝滑,Agent 能打 80% 的工
作者丨王悦编辑丨陈彩娴上个月,字节跳动旗下 Agent「扣子空间」上线之初,曾经一度被挤爆服务器,全网分享内测码。经过一个月时间的沉淀,AI 科技评论发现了扣子空间最新上线了一个新玩法—— 一键生成播 ...

郑州:全市非寄宿制中小学和幼儿园明日停课一天

郑州:全市非寄宿制中小学和幼儿园明日停课一天
郑州市防汛抗旱指挥部决定于9月10日16时30分启动防汛四级应急响应。根据郑州市气象部门预报,受西太平洋副热带高压边缘暖湿气流和低涡切变线共同作用,10日夜里至11日郑州市有大范围降水过程,11日郑州 ...

重磅发布!新华医院联合商汤医疗推出AI儿童全科医生,“深思考”大医赋能儿科发展

重磅发布!新华医院联合商汤医疗推出AI儿童全科医生,“深思考”大医赋能儿科发展
2025 年 6 月 28 日,上海交通大学医学院附属新华医院奉贤院区正式起航。在开业仪式上,新华医院联合商汤医疗重磅发布基于商汤“深思考”大医·医疗大模型的AI 儿童全科医生,为基层儿科医生诊疗与儿 ...

群核科技发布3D高斯语义数据集,给机器人装上“空间大脑”

群核科技发布3D高斯语义数据集,给机器人装上“空间大脑”
7月25日,群核科技发布最新高质量3D高斯语义数据集InteriorGS,旨在为机器人和AI智能体提升空间感知能力。InteriorGS数据集及相应智能体解决方案将亮相2025世界人工智能大会。据悉, ...
返回顶部