搜索
当前所在位置:首页 >> 知识

【老师私密合影完整版】CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

发布时间:2025-09-13 14:41:04 作者:v 点击:5 【 字体:


最近谷歌发布的最i综 Gemini 格外引人注目,其号称是新研第一个在各种任务中可与 OpenAI 的 ChatGPT 相媲美的大模型。

报道显示,合不还需Gemini 的谷歌“Ultra”版本在各种任务上都优于 GPT-4,而 Gemini 的努力“Pro”版本则与 GPT-3.5 不相上下。

针对两个当红炸子鸡的最i综老师私密合影完整版较量,美国卡内基梅隆大学近日展开了一项研究,新研深入探讨了谷歌 Gemini 的合不还需语言理解和生成能力,并将其与 OpenAI 的谷歌 GPT 系列作了对比,得到了有趣的努力结论——谷歌 Gemini 的综合性能与 ChatGPT 仍有较大差距。

CMU 最新研究:Gemini 综合不敌 ChatGPT,最i综谷歌还需努力

论文地址:https://arxiv.org/pdf/2312.11444.pdf


一、Gemini 仅媲美 GPT-3.5 Turbo

CMU 的合不还需这项研究主要探讨了两个问题:

其一,对 OpenAI GPT 和 Google Gemini 模型的谷歌能力进行了第三方客观比较,并提供了可重现的努力代码和完全透明的结果;

其二,对结果进行了更深入的研究,找出两类模型中某一类模型分别拥有的优势领域。

研究团队对测试各种语言能力的 10 个数据集进行了分析,包括推理、回答基于知识的问题、解决数学问题、洗浴中心小姐陪酒语言间翻译、生成代码以及充当指令遵循代理。

在所有的基准测试任务基础上,CMU 团队分析发现:

Gemini Pro 模型在模型大小和类别上与 GPT 3.5 Turbo 相当,其准确度一般与 GPT 3.5 Turbo 相当,但略逊于 GPT 3.5 Turbo,比 GPT 4 差很多。

Gemini Pro 的平均性能略低于 GPT 3.5 Turbo,尤其是在多选题的回答顺序偏差、多位数数学推理、过早终止智能体任务以及因激进的内容过滤而导致回答失败等方面存在问题。

在特别长和复杂的推理任务中,Gemini 的表现优于 GPT 3.5 Turbo,包括生成非英语语言以及处理更长、更复杂的推理链。而在不对回答进行过滤的任务中,Gemini 也善于使用多种语言。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

图为基准测试的主要结果(最佳模型以粗体显示,次佳模型以下划线显示。Mixtral 只对部分任务进行了评估。)


二、大模型关键能力分析

在大模型的几项关键能力上,团队的具体研究结果如下:

知识图谱问答能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在大模型的问答能力层面,从上图中可以看出每个模型在部分代表性任务上的表现,与 GPT 3.5 相比,Gemini Pro 在大多数任务上表现不佳,思维链提示降低了各子任务之间的差异。

团队又深入研究 Gemini Pro 性能低于/优于 GPT 的任务3.5 的差距,得出结论:

1)Gemini Pro 在 human_sexuality(社会科学)、formal_logic(人文科学)、elementary_mathematics(STEM)和 professional_medicine(专业领域)方面落后于 GPT 3.5。

2)在 Gemini Pro 优于 GPT 3.5 Turbo 的两项任务中,Gemini Pro 只取得了微弱的优势。

推理能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在推理能力层面, Gemini Pro 的整体准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo,但Gemini Pro 在更长、更复杂的问题上表现不佳,而 GPT 模型对此则更为稳健。

文中亦给出了 GPT 3.5 Turbo 性能超过 Gemini Pro 最多的任务:

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

数学能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

从数学推理的总体结果可以看出,在包含多种语言模式的 GSM8K、SVAMP 和 ASDIV 任务中,Gemini Pro 的准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo。

在 MAWPS 任务中,所有模型的准确率都超过了 90%,但 Gemini Pro 仍略逊于 GPT 模型。

代码生成能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

代码能力生成方面,在英语任务中,Gemini Pro 在较长的输入和输出方面表现较强。分析结果可以发现,在大多数使用库的情况下,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。

不过,在 matplotlib 的情况下,它的性能要优于 GPT 3.5 和 GPT 4,这表明 Gemini 在通过代码执行绘图可视化时具有更强的能力。

机器翻译能力

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

在翻译能力上,Gemini Pro 有 8 种语言的性能优于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下,Gemini Pro 在 20 种语言中的 8 种语言上的表现优于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 种语言上取得了最佳表现。不过,Gemini Pro 在大约 10 种语言对中表现出强烈的阻塞响应趋势。


雷峰网(公众号:雷峰网)雷峰网雷峰网

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

CMU 最新研究:Gemini 综合不敌 ChatGPT,谷歌还需努力

阅读全文
相关推荐

大模型时代下的数字安全答案,藏在一本实战指南里

大模型时代下的数字安全答案,藏在一本实战指南里
作者:郭思编辑:陈彩娴在大模型不断成熟的背景下,企业也日益倾向于在云端大规模应用AI技术。这一进程中,以往可能忽视的数据资源,突显出了前所未有的战略意义,数据的价值评估随之动态调整。与此同时,企业上云 ...

CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡

CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡
今年到CNCC现场参会的朋友,想必都对CNCC 2024举办所在地——超过6200亩的横店圆明新园印象深刻!虽然园内建筑身临其境,并且薅了主办方一把羊毛,免门票游览了圆明新园与横店多个著名旅游景点,但 ...

第一个走入全面AI化的行业,正在经历一次「系统升级」

第一个走入全面AI化的行业,正在经历一次「系统升级」
一年前,阿里巴巴国际站首次发布AI外贸产品时,AI行业还刚刚陷入“模型还是应用”的大辩论中。在彼时的采访中,阿里国际站总裁张阔对此没有丝毫迟疑:“模型不是稀缺的,真正稀缺的是好的应用。”这一判断下,仅 ...

谷歌计划将 Gemini 并入 Deepmind,下个月开始生效

谷歌计划将 Gemini 并入 Deepmind,下个月开始生效
刚刚,谷歌任命尼克·福克斯Nick Fox) 接替普拉巴卡尔·拉加万Prabhakar Raghavan )为搜索和广告主管,同时将 Gemini 团队转移到 DeepMind,整合了 AI 团队。据 ...

这份“国家级超级计划”如何改变14亿中国人生活?

这份“国家级超级计划”如何改变14亿中国人生活?
让餐桌上的粮食更多让出行更快更便捷让跨省就医不再难……从“一五”到“十四五”中国接续实施的“五年规划”给14亿中国人的生活带来了哪些实际变化?新中国成立后我们为何要实行五年计划?中国“五年规划”的超强 ...

GRPO在《时空谜题》中击败o1、o3

GRPO在《时空谜题》中击败o1、o3
近日,海外大模型产品平台 OpenPipe 上发布了一项研究,阐述其如何通过 GRPO 在重度推理游戏《时空谜题》中超越R1、o1、o3-mini 等模型。研究作者分别为来自 Ender Resear ...

Harrison Chase:独创AI智能体「认知架构」,定制+极简加减法双驱动

Harrison Chase:独创AI智能体「认知架构」,定制+极简加减法双驱动
七月初,OpenAI 一篇博文让AI智能体的热潮席卷全球,业界对 AI 智能体的兴趣达到了一个新的高度。智能体被视为大模型之后的又一热点。如在雷峰网公众号 AI 科技评论之前“具身智能十人谈”栏目对联 ...

为什么是梁文锋做出了DeepSeek?

为什么是梁文锋做出了DeepSeek?
这是2025年开年最火的科技明星,短短几天时间,梁文锋从小到大的种种过往都被展现在世人眼前,包括他来不及装修的新房以及在房子里睡觉用的帐篷,都成为了他独特个性的象征。独特个性固然为人津津乐道,但并不是 ...

阿里国际AI进展:日均调用量已破10亿次,获 WAIC 2025「SAIL之星」

阿里国际AI进展:日均调用量已破10亿次,获 WAIC 2025「SAIL之星」
7月26日,2025世界人工智能大会卓越人工智能引领者SAIL奖公布,阿里国际跨境电商AI解决方案Marco斩获本届SAIL之星,成为该领域的首个获得者。Marco由阿里国际AI Business团队 ...

反超 DeepSeek?马斯克「钞能力」砸出来的 Grok 3 终于上线了

反超 DeepSeek?马斯克「钞能力」砸出来的 Grok 3 终于上线了
2 月 16 号,马斯克在 X 上发布了一条自家 Grok 3 模型的发布预告。并配文“地球上最聪明的 AI”要来了。北京时间 2025 年 2 月 18 日中午,马斯克如约带领着 xAI 的工程师和 ...

MIT 具身智能达人志

MIT 具身智能达人志
作者 | 赖文昕编辑 | 陈彩娴「伟大的事情从来不是一个人做的,而是由一群人做的。」智驾向左,具身向右2015 年的一天,赵行走出 MIT的实验室,收到了浙大本科同级朋友董思远的消息,向同样涉足过光学 ...

IDEA研究院发布DINO

IDEA研究院发布DINO
计算机视觉技术在真实世界的应用场景十分广泛。然而,过去主流的小模型方案,难以应对碎片化、多变的长尾需求,限制了技术落地规模。源自自然语言研究的Transformer架构诞生后,视觉模型与之结合,走上一 ...
返回顶部