搜索
当前所在位置:首页 >> 综合

【深圳医科大学绯闻体验】苹果发布多模态模型 Ferret

发布时间:2025-09-13 14:35:43 作者:xa 点击:58 【 字体:


编译 | 赖文昕

编辑 | 陈彩娴


大模型的苹果诞生,让科技巨头与创业公司们在新一轮的发布竞赛中再次鸣枪出发,OpenAI、多模Anthropic、态模Mistral等创业之星的苹果升起更是证明了在新技术的影响下,大厂并不存在绝对的发布深圳医科大学绯闻体验优势。

不久前,多模苹果叫停了启动十多年且投入数十亿美元的态模自动驾驶电动汽车项目,美国总部裁员了600多人,苹果另有近2000名员工转到AI部门。发布

然而,多模在目前市场上的态模主流智能手机品牌中,苹果几乎是苹果唯一一家尚未正式推出大模型的厂商。长期处在领头羊地位的发布苹果,似乎在大模型这一局中罕见地落后了。多模

4月8日,苹果发表了一个名为“Ferret-UI”的上海高中爆料评价新工作,这是一个能“看懂”手机屏幕上并能执行任务的多模态模型,专为增强对移动端 UI 屏幕的理解而定制,配备了引用(referring)、定位(grounding)和推理(reasoning)功能。


苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

论文链接:https://arxiv.org/pdf/2404.05719.pdf

半年前,苹果和哥伦比亚大学研究团队联合发布的多模态大模型“Ferret”就已具有较高的图文关联能力,而“Ferret-UI”则是更聚焦移动端、关注用户交互。

研究团队认为,Ferret-UI 具备了解决现有大部分通用多模态大模型所缺乏的理解用户界面 (UI) 屏幕并与其有效交互的能力。


UI 任务表现超越GPT-4V

将重点放在 UI 后,Ferret-UI 有何亮点呢?

苹果的团队比较了 Ferret-UI-base、Ferret-UI-anyres、Ferret 和 GPT-4V 在所有 UI 任务上的性能,并在高级任务上将开源的 UI 多模态模型 Fuyu 和 CogAgent 也纳入对比之中。

首先是基础的 UI 任务性能测试。

Ferret-UI 在大多数基础 UI 任务上都展现出了优越的性能,尤其是在与iPhone相关的任务上,除了“查找文本”任务外,它在所有任务上都超过了Ferret和GPT-4V。

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

在OCR(光学字符识别)、图标识别和控件分类等基础 UI 任务上,Ferret-UI 的平均准确率分别为72.9%、82.4%和81.4%,远超 GPT-4V 的平均准确率,后者分别为47.6%、61.3%和37.7%。

在安卓任务上,GPT-4V 的性能显著下降,特别是在定位任务上,这可能是因为安卓屏幕上的小部件更多且更小,使得定位任务更具挑战性。

值得一提的是,在OCR任务中,模型预测的是目标区域旁边的文本,而不是目标区域内的文本。这对于较小的文本和非常靠近其他内容的文本来说很常见。

而 Ferret-UI 却能够准确预测部分被切断的文本,即使在OCR模型返回错误文本的情况下也是如此。

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

在查找文本、查找图标和查找控件等定位任务上,Ferret-UI也展现出了优越的性能。

而在高级 UI 任务性能的比拼中,Ferret-UI 同样表现优秀。在详细描述(DetDes)、感知对话(ConvP)、交互对话(ConvI)和功能推断(FuncIn)等高级任务上,Ferret-UI 展现了与 GPT-4V 相当的性能,并且在某些任务上超过了GPT-4V。

而与开源UI多模态模型 Fuyu 和 CogAgent 相比,Ferret-UI 在大多数任务上均实现超过。特别是在 iPhone 平台上,Ferret-UI 的性能得分显著高于 Fuyu 和 CogAgent。

而且,尽管 Ferret-UI 的训练数据集没有包含特定的安卓数据,但它在安卓平台的高级任务上仍表现出了可观的性能,表明了模型具有在不同操作系统间的 UI 知识迁移能力。


Anyres 技术解决屏幕长宽比各异难题

那么,Ferret-UI 是如何做到在多项 UI 任务中表现出色的呢?

Ferret-UI 的一个关键创新是在 Ferret 的基础上引入了“任何分辨率”(any resolution,简称anyres)技术。这项技术是为了解决移动设备 UI 屏幕长宽比多样化的问题而提出的。

虽然 Ferret-UI-base 紧密遵循 Ferret 的架构,但 Ferret-UI-anyres 加入了额外的细粒度图像特征,尤其是一个预训练的图像编码器和投影层为整个屏幕生成图像特征。

对于根据原始图像长宽比获得的每个子图像,都会生成额外的图像特征;对于具有区域引用的文本,一个视觉采样器会生成相应的区域连续特征。

大型语言模型(LLM)则使用全图表示、子图表示、区域特征和文本嵌入来生成响应。

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

Ferret-UI-anyres架构

不过,Anyres 技术有何特别之处?

传统的模型可能需要固定大小的输入,但手机等移动设备的屏幕大小和长宽比各异,显然给模型的输入带来了挑战。

为了适应这一点,Ferret-UI 将屏幕分割成多个子图像,这样可以对每个子图像进行放大,从而捕捉到更多的细节。

具体来说,对于每个基于原始图像长宽比获得的子图像,都会生成额外的图像特征。对于具有区域引用的文本,视觉采样器会生成相应的区域连续特征。

这种方法不仅适用于不同长宽比的屏幕,还提高了模型对UI元素的细节识别能力,能够突出显示屏幕上的小型对象,如图标和文本,对于提高模型的识别和定位精度至关重要。

另外,苹果研究团队还设计了一个分层次的实验方法,从简单到复杂,以逐步提升 Ferret-UI 模型的能力。

从基础的识别和分类任务开始,Ferret-UI 模型建立了对 UI 元素的基本理解,学会了识别和分类 UI 元素,为处理更复杂的任务打下基础。

接着逐步过渡到需要更高层次理解的对话和推断任务。随着模型能力的提高,任务变得更加复杂,要求模型不仅要识别 UI 元素,还要理解它们的功能和上下文。高级任务的设计为模型提供了必要的背景知识和理解能力,使其能够处理复杂的UI交互。

分层次的任务设计不仅有助于模型逐步学习,还能够确保模型在面对更复杂的 UI 交互时具有足够的背景知识和理解能力。通过这种方式,Ferret-UI 能够更好地理解和响应用户的指令,提供更加准确和有用的交互。

从基础的识别和分类到高级的描述和推断,Ferret-UI 在面对真实世界中的UI交互时,能够提供准确和有用的响应。再结合 anyres 技术处理不同分辨率的屏幕,进一步增强了其在实际应用中的有效性和用户体验。


结语

面对当下激烈的大模型“厮杀”,科技巨头们亟需思考如何对市场战略和产品进行与时俱进的布局,苹果自然也不例外。

无论是Ferret-UI、Ferret-UI的前身 Ferret 还是旨在改善与语音助手交互的ReALM,苹果正一步步推进着能够读取屏幕信息的模型研究。

Ferret-UI 能够在移动设备上提供高质量的UI理解和交互,但它能否成为一个强大的工具,促使 iPhone 引入 AI,让苹果从稍显落后的境地反超呢?

让我们拭目以待。


雷峰网(公众号:雷峰网)本文作者 anna042023 将持续关注AI大模型领域的人事、企业、商业应用以及行业发展趋势,欢迎添加交流,互通有无。


雷峰网原创文章,未经授权禁止转载。详情见转载须知。

苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V

阅读全文
相关推荐

深谋科技独树一帜,发布高精度压电式六维力传感器「弹起」,满足多领域高动态力控需求

深谋科技独树一帜,发布高精度压电式六维力传感器「弹起」,满足多领域高动态力控需求
北京深谋科技有限公司近日发布了一款业界罕见的高精度压电式六维力传感器,名曰 “弹起” ,特别适配服务机器人、人形机器人、航空航天、医疗、工业自动化等对环境高动态交互和多维力控制要求极高的场景。该产品具 ...

最受欢迎开源大模型,为什么是通义?

最受欢迎开源大模型,为什么是通义?
开源与闭源之争早已非新奇的话题,但毋庸置疑的是,开源极大地促进了大模型技术发展和生态繁荣。大模型被认为是最烧钱的技术,训练一个大模型往往需要大量的数据、计算资源,导致训练成本巨大,众所周知GPT-3的 ...

王威廉最新创业项目:世界上第一个用于芯片设计和验证的 AI 智能体来了

王威廉最新创业项目:世界上第一个用于芯片设计和验证的 AI 智能体来了
今年 AI 智能体简直火得不行,各种初创公司像雨后春笋般冒出,光是 Y Combinator 一家今年就已经投资了 94 家相关初创公司。怪不得吴恩达说:“AI 智能体工作流程将在今年推动 AI 的巨 ...

Agent 要被吃进大模型了

Agent 要被吃进大模型了
今天凌晨,奥特曼突然发文宣布推出自家最新的 o 系列模型:满血版 o3 和 o4-mini,同时表示这两款模型都可以自由调用 ChatGPT 里的各种工具,包括但不限于图像生成、图像分析、文件解释、网 ...

大模型行至深处,「悟道」如何走好全面开源之路?

大模型行至深处,「悟道」如何走好全面开源之路?
2021年,智源发布了“悟道 1.0 ”与 “悟道 2.0”。“悟道 1.0”是当时中国首个超大模型,“悟道 2.0”发布时成为全球最大的智能模型,模型参数规模达到 1.75 万亿,是 OpenAI ...

百度Create AI开发者大会:李彦宏发布两大新模型、多款热门AI应用,帮助开发者全面拥抱MCP

百度Create AI开发者大会:李彦宏发布两大新模型、多款热门AI应用,帮助开发者全面拥抱MCP
4月25日,Create2025百度AI开发者大会在武汉隆重举办。百度创始人李彦宏发表了题为《模型的世界 应用的天下》的演讲。60分钟的演讲中,李彦宏发布了两大模型,多款热门AI应用,并宣布将帮助开发 ...

国行 iPhone 16 相机控制也接入视觉智能了!可一键调用阶跃星辰智能助手「跃问」

国行 iPhone 16 相机控制也接入视觉智能了!可一键调用阶跃星辰智能助手「跃问」
国内 iPhone 16 用户终于也能通过相机控制键调用视觉智能功能了,这意味着这一代苹果新机主打的 Apple 智能Apple Intelligence)不再只是空话。今年 iPhone 16 发布 ...

拓元智慧完成近亿元人民币Pre

拓元智慧完成近亿元人民币Pre
作者 | 赖文昕编辑 | 陈彩娴近日,拓元智慧X-Era AI)宣布成功完成 Pre-A 轮融资,融资金额接近一亿人民币。此轮融资由粤科金融集团、鹏城愿景基金、红鸟启航基金等投资机构共同参与。早在 2 ...

阿里 AI 实力获斯坦福权威报告盖章!通义千问贡献排名全球第三、中国第一

阿里 AI 实力获斯坦福权威报告盖章!通义千问贡献排名全球第三、中国第一
近日,斯坦福大学人工智能研究所发布了最新一期《2025年人工智能指数报告》。研究报告显示,在2024年度全球重要大模型中,中国贡献15项。从具体机构分布来看,谷歌与OpenAI各占7席并列榜首,阿里巴 ...

CMU 具身智能风云榜:从传统到全面

CMU 具身智能风云榜:从传统到全面
作者 | 赖文昕编辑 | 陈彩娴与位于宇宙中心硅谷湾区的伯克利、斯坦福不同,被视为锈带区复兴唯一希望的卡内基梅隆大学以下简称“CMU”)坐落在上世纪的工业重镇匹兹堡。计算机科学学院的机器人研究所以下简 ...

湾区聚力 开源启智

湾区聚力 开源启智
当下,全球数字化浪潮席卷而来,开源技术已成为科技创新和产业升级的关键驱动力。11月9-10日,以“湾区聚力 开源启智”为主题的2024 CCF中国开源大会在深圳隆重举行。本届大会由中国计算机学会主办, ...

百度Create AI开发者大会:李彦宏发布两大新模型、多款热门AI应用,帮助开发者全面拥抱MCP

百度Create AI开发者大会:李彦宏发布两大新模型、多款热门AI应用,帮助开发者全面拥抱MCP
4月25日,Create2025百度AI开发者大会在武汉隆重举办。百度创始人李彦宏发表了题为《模型的世界 应用的天下》的演讲。60分钟的演讲中,李彦宏发布了两大模型,多款热门AI应用,并宣布将帮助开发 ...
返回顶部