美图视觉大模型3.0：让设计师做甲方

2025-07-10 23:08:51 - 风点深

美图视觉大模型3.0：让设计师做甲方

作者：郭思

编辑：陈彩娴

ChatGPT之前，国内最近一次的视觉设计师AI热潮是以“AI四小龙”的增长为代表，但这些公司烧钱程度与落地产出的大模不匹配，令市场倍感失望。型让

时间来到2023年，甲方在ChatGPT 出来之后，美图市场再度火热，视觉设计师视觉大模型公司也如雨后春笋般不断涌现，大模据不完全信息统计，型让市面上现有的甲方视觉大模型公司共有三十余家。淘金者前仆后继，美图但相同的视觉设计师问题却仍然存在。

部分入局者好大喜功，大模产物未经雕琢就推上市，型让拉高客户期待值，甲方结果在真正使用过程中，却漏洞百出。

要想让客户对视觉大模型的声音从叹气变为欢呼，似乎需要一场新的革命。

2023年，10月9日，美图公司举办15周年生日会并发布自研AI视觉大模型MiracleVision(奇想智能)3.0版本。面世100天后，美图AI视觉大模型MiracleVision3.0将全面应用于美图旗下影像与设计产物，并将助力电商、广告、游戏、动漫、影视五大行业。

在生日会现场，美图CEO吴欣鸿不仅向与会者展示了美图视觉大模型MiracleVision(奇想智能)3.0版本的效果，也对产物和整个行业给出了自己的思考和见解。

「现如今视觉大模型普遍在生成效果上、结果可控性以及适用范围上还有很多待解决的问题。比如说对于成熟的大中型企业，他们对效果的精度要求很高。当前，大部分视觉大模型的生成效果与设计师的标准存在一定差距，甚至不少设计师会觉得AI味很重，一看就是生成的，很没诚意。」

市面上的大部分视觉大模型都在卷信息量和参数量。但美图认为，衡量能力的标准并非在追求参数指标，而是要抓住应用场景的核心需求，并且在商业模式上得到验证。

意简言赅，美图想做的，是一个离客户更近的大模型。

以设计师为主导的视觉大模型

大模型热度毋庸置疑，针对大模型产物发布的评测榜单也五花八门。

甚至有行业人士曾经就表示，现在市面上大家能看到的很多榜单信息背后很有可能是各家公司在前期调整过，刷榜现象是行业共识。

不顾实际效果的刷榜带来的弊端十分明显，这就像一个平日在学校只会迎合学校标准，而忽视了自己能力的「好学生」在基准测试时高分通过，表现优异，但实际应用中却还会犯一些非常基础的错误。

要想防止这种现象的频繁发生，或许确得从根源思考，在评判标准上下功夫。

究竟什么样的视觉大模型才是好用的？以什么样的标准来评价？

美图给出的答案是，榜单说的不算，吴欣鸿说的不算，只有设计师和客户说好用，才是真正好用的大模型。

带着这样的理念，美图视觉大模型最大的不同便是整个研发团队由设计师主导。

美团视觉大模型负责人是设计师许俊，对于大模型效果的呈现有没有在领域取得应用，作为设计师的他，标准非常高。

而对于整个美图团队而言，一切指令都以设计师的意见为先，当设计师说可以上，美图视觉大模型就上，设计师说不能上，团队就会继续进行调整。加上设计师自己得时刻使用，对于模型实际体验感肯定是最在意之人。

「他天天用我们的模型，我们的生成架构敢不快吗？天天催。」

作为一家以美为基因的公司，美图在美学上与客户产生的深厚链接，足以让美图视觉大模型团队以客户体验作为第一出发，进行大模型的评估，从而反推工艺上的研发。

从实际效果上来说，在发布会现场，我们通过各类效果的对比，着实看到了美图视觉大模型3.0的强大实力。

美图视觉大模型3.0：让设计师做甲方

图片由MiracleVision3.0生成，关键词：新闻现场，1记者，专注的眼神，城市街道，高清分辨率，科技感，现代，自然光，金属质地

以应用场景为例，身处传媒行业或者广告行业的小伙伴，都有过熬夜拼赶，花费巨大心力的设计稿发给「甲方爸爸」，却因对方一个NO字，需要重新进行返工重做的经历。

这其实和传统的设计工作模式相关，一个设计师，在创意脑暴后，寻找情绪版给甲方参考，确认后再由设计师进行具体设计，中间需要与甲方反复沟通确认，最终交付作品，耗时耗力。

传统的设计工作流，在创意脑暴后，寻找情绪版给甲方参考，确认后再由设计师进行具体设计，当然这中间需要与甲方反复沟通确认，最终交付作品。

美图视觉大模型的出现，带来了AI原生工作流。在创意脑暴后，AI能快速生成各种创意视觉供甲方确认，在确定最终创意后，再交由设计师与AI协同进行创意细化，很快能完成作品交付。

美图视觉大模型3.0：让设计师做甲方

在具体的功能上，美图将自研AI视觉大模型MiracleVision(奇想智能)的核心能力拆解为“奇思妙想”和“智能创作”两大特性。

「奇思妙想」主要聚焦于辅助客户提供创意方面，当客户输入关键词，MiracleVision可自动补充相关表述，如光影效果、质感、风格、图片质量等，让即使没有那么多年美术功底的普通客户也能一键生成大片。

当然，如果客户有更专业的需求，通过MiracleVision的「提示词精准控制」功能也可以轻松实现「近景」、「远景」、「顺光」、「逆光」等生成效果。

在「智能创作」层面，MiracleVision通过「深化创作」功能，可以进一步丰富作品细节和提升表现力。通过「AI画面扩展」功能让作品尺寸更大、细节更丰富。通过「局部修改」功能，对部分画面进行精准修改与调整。通过「分辨率提升」功能生成高清大图，让细节表现、色彩展示、物体辨识更加的精准和生动。

美图视觉大模型3.0：让设计师做甲方

MiracleVision将落地电商、广告、游戏、动漫、影视五大行业，希望能帮助五大行业「工作流提效」。

文科生的表面，理科生的内核

算力和信息、运算规则是大模型行业的三驾马车。

尽管老生常谈，但是这三个方面的基本功，却决定着大模型能否走得扎实且长远。

美图2015年成立了美图影像研究院（MT Lab），从那时起，便致力于影像工艺的研发与探索。在运算规则方面，美图影像实验室拥有在近十年的经验积累。

在算力方面，美图联合厂商合作，拥有雄厚的算力资源。在信息方面，美图有专业的设计师标准的信息，信息集比较高质量。其次是有标注，除了设计师还有一些美院合作的专业人士帮我们标注，还有艺术家们帮助审核。

在三个月前，MiracleVision绘画水平在前三个月其实还停留在一个初级阶段，如今的3.0版本已经能描绘出真实细腻的画面细节。

美图视觉大模型3.0：让设计师做甲方

而从6月份美图视觉大模型1.0发布到如今3.0上新，中间的每一步，美图都有着自己的考量。

从0到1阶段，美图考虑更多的是如何搭建这个平台，而在1.0版本发布后。高质量的信息集变成了美图的关注重点。信息怎么来，质量怎么保证？

美图的做法是，既然针对的是美学领域的视觉大模型，那集思广益，采集最专业的信息，邀请外部设计师包括艺术院校的老师和学生一起去构建比较高质量的信息集，从而使得美图在美学上达到比较好的状态。

如今美图视觉大模型3.0发布，如何保证效果的卓越？

第一点便是模型的可控性。不管是在细节的控制还是在局部的编辑都能达到客户想要的效果，在模型的工艺层面能达到一个很好的实现。

通用领域可控，那么一些十分专业的垂直领域，是否也同样可控呢？

这一点也是美图花费了大量心力去完善的地方，美图视觉大模型3.0十分注重垂直领域的效果精致度。

美图在发布会上坦言，如果做通用视觉大模型，把全网的各种图片进行训练，然后生成图片，这个事情很好做。

但难的是细分到各个场景里，这些图片不一定能用，比如电商细分下去分为特别多的品类，鞋子分运动鞋、帆布鞋、拖鞋。美图工艺团队对各个垂直领域效果进行训练、生成、调试，最后才得以在各个领域产生生产力。

拥有深厚美学功底的美图呈现给大家的是非常文艺的文科生形象，但对产物精雕细琢，不断内省的理科生思维，夯实了美图的工艺底座，也让美图的视觉大模型之路走得更加长远。

视觉模型新一轮增长飞轮背后

新一轮AI大模型浪潮中，每个公司都想分一份羹，但对于视觉这个专精深领域，却并不是所有公司都可以hold得住。

什么样的公司做视觉大模型会有优势？

对于这个问题的答案，很多人第一反应很可能是拥有深厚学术背景的工艺团队。

但在美图发布会现场，我们得到了一个全新的答案。

最懂视觉，与客户打交道的公司做视觉大模型的优势不可忽视。

大模型创业九死一生，巨大的成本投入是一方面，另一方面，没有实际的应用场景也是创业成功道路上的拦路虎。再好的工艺也得先活下来才有话语权。

大半年过去了，大模型浪潮大浪淘沙之下，存活下来的模型创意公司非常之少。最后只剩下比较成熟或者中型的公司存在，因为创业很关键的一点是做模型给谁用，给别人用的前提是中间要有一个应用层作为辅助和支撑。没有这些，那么创业团队需要从0开始推广应用，如果无法短时间获得成效，风险巨大。

而对于美图而言，这个问题并不存在。

拥有强大客户规模的美图已经拥有了现成的应用场景。模型研发-发布-应用-客户反馈-调整，闭环已经形成。

「我们所谓的增长飞轮，能够越推越好，这个是非常关键的，也是美图过去15年的厚积薄发在大模型时代的体现。」

对于美图视觉大模型3.0，美图团队给予它的期待是在可控性上持续发力。

美图视觉大模型3.0：让设计师做甲方

而看向更长远的未来，在吴欣鸿看来，视觉大模型应用普及将经历三个阶段：2024年之前为探索期，2024-2025年为高速增长期，2026-2030年为成熟期，随着视觉大模型在生产端的应用走向成熟，视觉大模型将助力千万设计场景，引领美学的升级与社会经济增长。

在这股竞争之潮中，当被问及深耕视觉领域的美图对自己的角色定位是什么时，吴欣鸿面带微笑，目光一如15年创立美图之初那般坚定，缓缓答道：

「相比起在同业竞争里面获得多大的地位，我们更加注重客户体验，以及自身能力的不断提升，即使是对标也是去对标我们认为全球最领先的产物，我们要一点点去接近乃至超越，因为对我们来说，视觉大模型的竞争才刚开始，做，是第一要义。」

雷峰网雷峰网(公众号：雷峰网) 雷峰网

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

- END -

1818

美图视觉大模型3.0：让设计师做甲方

以设计师为主导的视觉大模型

文科生的表面，理科生的内核

产业跑进数字世界，要先迈过安全这道坎

刚刚，云天励飞上市！

阿里与上交大提出 LLM 长文本计算新解法：可处理文本长达 1900k 字节、效率提升 2.4 倍

实测：ChatGPT的翻译能力怎么样？

《沙丘：觉醒》揭晓游戏中后期体验内容

实测：ChatGPT的翻译能力怎么样？

英伟达 Jim Fan：具身智能的难点不是硬件，而是「Foundation Agent」

“寒冬”还是“拂晓”？第四范式成功上市率先交卷

“从未宣布暂停对乌军援” 美方说法又变了

GAIR 2023 正式开幕：AI 如此绽放之时，昭示着熙春已至

阿里与上交大提出 LLM 长文本计算新解法：可处理文本长达 1900k 字节、效率提升 2.4 倍

AI 迈进深水区，谈落地、谁能带来新解法？