搜索
当前所在位置:首页 >> 时尚

【杭州医科大学绯闻评价】苹果大模型最新论文:AFM 模型多维度评测「出炉」

发布时间:2025-09-13 13:57:22 作者:q 点击:445 【 字体:

编译 | 朱可轩

编辑 | 陈彩娴

不久前,苹果苹果在全球开发者大会(WWDC)上推出了最新个人智能系统 Apple Intelligence,大模多维度评可以深度集成到 iOS 18、型最新论iPadOS 18 和 macOS Sequoia 中,模型引起了 AI 业内人士、测出尤其是苹果杭州医科大学绯闻评价端侧智能领域的讨论。

苹果在 2024 年的大模多维度评一系列技术动作,被戏称为苹果为端侧 AI 所设计的型最新论“开卷考试”,即:大模型时代,模型AI 技术应如何在手机、测出平板等端侧设备上运营,苹果让手机变得更智能?大模多维度评

近日,苹果团队又在 arXiv 上更新了关于 Apple Intelligence 的型最新论最新论文,其中介绍了苹果用在 Apple Intelligence 上的模型两个基础语言模型,包括:一个在设备端运行的测出郑州高中曝光地址大约 30 亿参数的语言模型 AFM-on-device,以及一个在私有云计算上运行的大规模服务器语言模型 AFM-server。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

论文链接:https://arxiv.org/pdf/2407.21075

根据该论文,苹果开发的端侧大模型在语言理解、指令跟随、推理、写作与工具使用等多个任务上都有出色表现。同时,在保护用户数据隐私与安全上,苹果强调在后训练阶段不会使用用户的个人数据进行训练。

结果显示,苹果的 AFM 模型在指令遵循层面皆优于其他大模型,同时,从写作写作能力来看,在摘要总结方面,AFM 模型无论是端侧还是私有云也均要好于其他。而在安全性评估时,AFM 模型也比其他模型要更为负责。但是值得一提的是,AFM 模型的数学能力整体上来看较为一般。

研究发现

人类评估

在人类评估中,在端侧,AFM 仅输于 Llama-3-8B ,而与其他模型相比显然更优。据论文介绍,AFM 与 Phi-3-mini 相比,模型尺寸小了 25%,而胜率达47.7% ,AFM 甚至超出参数数量为两倍多的 Gemma-7B 和 Mistral-7B。而在私有云上,与GPT-3.5相比时,AFM 也具有一定竞争力,胜率超 50%。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

指令遵循

在指令级(Instruction-level)与提示级(Prompt-level)的评估中,无论是端侧还是私有云上,均为 AFM 模型表现最好。其指令级的得分分别为 85.7% 和 88.5%,而提示级的得分则分别为 79.3% 和 83.0%。

此外,苹果还使用了 AlpacaEval 2.0 LC 和 Arena Hard 作为基准进行评估。在私有云上,这两项测试中均为 GPT-4 的表现最优,其中,在 Arena Hard 测试中,GPT-4 的得分甚至倍超 AFM。在端侧的 AlpacaEval 2.0 LC 测试中,则为 Gemma-7B 评分最优,AFM 模型紧随其后。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

工具使用

苹果还测试了在调用工具使用基准测试中 AFM 模型的表现,分别从简单(Simple)、多重(Multiple)、并行(Parallel)、并行多重(Parallel Multiple)、相关性(Relevance)和平均(Average)几个纬度展开。

整体来看,AFM-server 表现较优,从测试结果上来看,在简单、多重、相关性、平均性维度中,AFM-server 均得分最高,分别为91.0、95.5、91.3、89.5。在并行多重维度中,AFM-server 得分 85.0,仅次于 Gemini-1.5-Pro-0514 的 88.0,且领先于 GPT-4 与 GPT-3.5。

但 AFM-on-device 表现则较为一般,在多重、并行多重、相关性及平均维度中,均要稍逊于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外,在并行维度中,AFM-server 和 AFM-on-device 的表现情况则都较为一般。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

写作能力分两块,一块是摘要总结,一块是长作文。其中,AFM 模型主要在摘要总结上表现较好,在端侧的表现优于 Mistral-7B、Gemma-7B、Phi-3-mini 与 Gemma-2B,在私有云上则优于 GPT-4、Mixtral-8x22B、DBRX Instruct 与 GPT-3.5:

苹果大模型最新论文:AFM 模型多维度评测「出炉」

数学能力上,苹果 AFM 模型的表现则一般,仅在端侧 MATH 基准上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 与 Mistral-7B,GSM8k 是 8-shot、MATH 是 4-shot:

苹果大模型最新论文:AFM 模型多维度评测「出炉」

负责任的 AI

在文本摘要总结功能中,苹果团队将 AFM 模型在邮件、信息与通知这三个应用上作了测试,分别从 5 个维度(仇恨言论、歧视、违法、色情、暴力)来评估模型的“好”与“差”。研究显示,苹果的 AFM 模型在“好”维度的表现均高于 Gemma-7B、Phi-3-8B 与 Llama-3-8B:

苹果大模型最新论文:AFM 模型多维度评测「出炉」

安全性评测

在有害输出上,苹果 AFM-on-device 的得分为 7.5%、AFM-server 的得分为 6.3%,得分越低、效果越好,远远高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B(其余得分均在 10% 以上):

苹果大模型最新论文:AFM 模型多维度评测「出炉」

在安全提示词上,人类评估,苹果的 AFM-on-device 模型表现优于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B,AFM-server 模型的表现也要远超 GPT-3.5、GPT-4 和 Llama-3-70B:雷峰网雷峰网(公众号:雷峰网)

苹果大模型最新论文:AFM 模型多维度评测「出炉」

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

苹果大模型最新论文:AFM 模型多维度评测「出炉」

阅读全文
相关推荐

奥特曼热捧华人AI制药公司获3.72亿美元融资;李开复称若AI取代工作,可以代言生发广告;AGI或使全球GDP翻倍丨AI情报局

奥特曼热捧华人AI制药公司获3.72亿美元融资;李开复称若AI取代工作,可以代言生发广告;AGI或使全球GDP翻倍丨AI情报局
融资快报Formation Bio宣布完成3.72 亿美元D轮融资:Formation Bio原名为TrialSpark)由华人Benjamine Liu和Linhao Zhang共同创立,是一家专注 ...

动态丨李志飞退回出门问问,“拖家带口”能做好大模型吗?

动态丨李志飞退回出门问问,“拖家带口”能做好大模型吗?
作者丨董子博编辑丨岑峰近日,有多方业界信源向AI科技评论披露,有意在AI大模型领域创业的李志飞,或已回到其原先创立的AI公司——出门问问,并选择再原有的公司继续AI大模型的创业。早先,在外界看来,与王 ...

万兴科技正式布局AIGC赛道 首款AIGC产品万兴AI绘画开启公测

万兴科技正式布局AIGC赛道 首款AIGC产品万兴AI绘画开启公测
11月10日,2022全球元宇宙大会“数字人技术与应用场景专场论坛”举办,元宇宙创作者经济A股上市公司万兴科技300624.SZ)在论坛中正式宣布与优链时代达成战略合作。结合万兴科技在视频领域的长期积 ...

杨幂38岁生日,热巴悼念完于朦胧立马送祝福,惠英红卡点晒合照

杨幂38岁生日,热巴悼念完于朦胧立马送祝福,惠英红卡点晒合照
9月12日,杨幂迎来了自己的38岁生日。对于杨幂而言,今年的生日氛围有点特殊,因为她的好友于朦胧去世了。9月11日,于朦胧坠楼身故,年仅37岁。消息传出,震惊全网,大家不敢相信,纷纷表示惋惜。在确认于 ...

三大模型巨头比拼思考“幻觉”:DeepSeek 不敌 ChatGPT,Gemini 用词最少

三大模型巨头比拼思考“幻觉”:DeepSeek 不敌 ChatGPT,Gemini 用词最少
近日,智利大学 CIAE 教育研究所的研究员 Roberto Araya 进行了 4 组对照实验:提供相同的提示词,让 Gemini 2.0 Flash、ChatGPT o3-mini、DeepSee ...

开源启智,筑梦未来!第四届OpenI/O启智开发者大会开幕

开源启智,筑梦未来!第四届OpenI/O启智开发者大会开幕
2023年2月24日,第四届OpenI/O启智开发者大会在深圳顺利开幕。本次活动由鹏城实验室、新一代人工智能产业技术创新战略联盟AITISA)主办,OpenI启智社区、中关村视听产业技术创新联盟AVS ...

将港中文建成中国计算机视觉黄埔军校的人

将港中文建成中国计算机视觉黄埔军校的人
他们在人生分岔路口的偶然选择,成就了自己,也成就了港中文。1、不速之客一九九七年,秋冬时分,位于中国科技大学西区教三楼最东面的信息处理中心迎来了两位「不速之客」。一位是中科大9406班的学生李学龙。彼 ...

大模型时代的三道鸿沟:数据、成本与想象力

大模型时代的三道鸿沟:数据、成本与想象力
跨入2023年,大模型兴起、诸多公司「跑步进场」的头几个月,大模型一边倒向 C 端类 ChatGPT 的研发,对成本、效率更敏感的企业客户似乎不在关注焦点。然而近两个月,情况发生了变化。基于医疗、金融 ...

两行代码解决大语言模型对话局限! 港中文贾佳亚团队联合MIT发布超长文本扩展技术

两行代码解决大语言模型对话局限!  港中文贾佳亚团队联合MIT发布超长文本扩展技术
代码和Demo地址:https://github.com/dvlab-research/LongLoRA论文地址:https://arxiv.org/pdf/2309.12307.pdf中途迷失、模型 ...

中国需要自己的ChatGPT!中文在线携手澜舟科技加码布局AIGC赛道

中国需要自己的ChatGPT!中文在线携手澜舟科技加码布局AIGC赛道
2月16日,在第十二届中国数字出版博览会上,国内领先的数字文化内容产业集团中文在线与业界领先的认知智能公司澜舟科技,举办了以“AIGC·未来内容、范式革命”为主题的圆桌论坛暨战略合作发布会。中文在线集 ...

大模型的AB面:厂商讲算力,企业要落地

大模型的AB面:厂商讲算力,企业要落地
ChatGPT发布不过半年,全球性AI再造已经拉开序幕,甚至一开场直接进入白热化竞争状态。据不完全统计,国内类似ChatGPT的产品已经有接近40个。面对这一波浪潮,不少企业已经率先开展行动,将大模型 ...

动态丨李志飞退回出门问问,“拖家带口”能做好大模型吗?

动态丨李志飞退回出门问问,“拖家带口”能做好大模型吗?
作者丨董子博编辑丨岑峰近日,有多方业界信源向AI科技评论披露,有意在AI大模型领域创业的李志飞,或已回到其原先创立的AI公司——出门问问,并选择再原有的公司继续AI大模型的创业。早先,在外界看来,与王 ...
返回顶部