Google Gemini的AI图像模型获得“banana”升级

谷歌正在为其 Gemini 聊天机器人升级一种新的 AI 图像模型，让用户可以更精细地控制照片编辑，此举旨在赶上 OpenAI 流行的图像工具并从 ChatGPT 吸引用户。

该更新名为 Gemini 2.5 Flash Image，从周二开始向 Gemini 应用程序中的所有用户以及通过 Gemini API、Google AI Studio 和 Vertex AI 平台向开发人员推出。

Gemini的全新 AI 图像模型旨在根据用户的自然语言请求对图像进行更精确的编辑，同时保留面部、动物和其他细节的一致性，而大多数竞争对手的工具都难以做到这一点。例如，要求 ChatGPT 或 xAI 的 Grok 更改照片中某人衬衫的颜色，结果可能会导致面部扭曲或背景改变。

谷歌的新工具已经引起了人们的关注。最近几周，社交媒体用户对众包评估平台LMArena上一款令人印象深刻的AI图像编辑器赞不绝口。该模型以“nano-banana”的化名匿名出现在用户面前。

strange object spotted under the microscope over the weekend in the lab... pic.twitter.com/t1SBhqAnL0
— Demis Hassabis (@demishassabis) August 25, 2025

谷歌表示，该模型背后有其功劳（如果从所有与banana相关的暗示来看还不够明显的话），这实际上是其旗舰产品 Gemini 2.5 Flash AI 模型中的原生图像功能。谷歌表示，该图像模型在 LMArena 和其他基准测试中都处于领先地位。

谷歌 DeepMind 视觉生成模型产品负责人 Nicole Brichtova 在接受 TechCrunch 采访时表示：“我们确实在不断提高视觉质量以及模型遵循指令的能力。”

Brichtova 表示：“这次更新让编辑更加无缝，模型的输出可以用于任何你想用的地方。”

AI 图像模型已成为各大科技巨头的关键战场。OpenAI 于 3 月推出 GPT-4o 的原生图像生成器后，ChatGPT 的使用量一路飙升，这要归功于 AI 生成的吉卜力工作室表情包的狂热。OpenAI 首席执行官 Sam Altman 表示，这导致该公司的 GPU 性能“崩溃”。

为了跟上 OpenAI 和谷歌的步伐，Meta 上周宣布将从初创公司 Midjourney 获得 AI 图像模型授权。与此同时，由 a16z 投资的德国独角兽公司Black Forest Labs凭借其 FLUX AI 图像模型继续在基准测试中占据主导地位。

Gemini 令人印象深刻的 AI 图像编辑器或许能帮助谷歌缩小与 OpenAI 的用户差距。ChatGPT 目前每周用户数超过7 亿。在 7 月份的谷歌财报电话会议上，这家科技巨头的首席执行官 Sundar Pichai 透露，Gemini 的月用户数为4.5 亿 ——这意味着每周用户数甚至更低。

Brichtova 表示，谷歌专门设计了图像模型，充分考虑了消费者的使用场景，例如帮助用户将他们的家居和花园项目可视化。该模型还拥有更强大的“世界知识”，可以在一个提示中组合多个参考；例如，将沙发图像、客厅照片和调色板合并成一个统一的渲染图。

虽然 Gemini 的全新 AI 图像生成器让用户能够更轻松地制作和编辑逼真的图像，但该公司也设置了安全措施，限制用户的创作内容。谷歌过去在 AI 图像生成器的安全措施方面曾遇到过问题。该公司曾一度为 Gemini 生成的人物照片与历史数据不符而道歉，并彻底停用了该 AI 图像生成器。

现在，谷歌认为它已经取得了更好的平衡。

“我们希望赋予用户创造性的控制权，这样他们就能从模型中得到他们想要的东西，”布里希托娃说。“但这并非万能的。”

谷歌服务条款中关于生成人工智能的部分禁止用户生成“非自愿的亲密图像”。但 Grok 似乎没有类似的保障措施，它允许用户创建 AI 生成的类似名人（例如泰勒·斯威夫特）的露骨图像。

深度伪造图像的兴起让用户难以辨别网络上的真实内容，为了应对这种情况，Brichtova 表示，谷歌在 AI 生成的图像上添加了视觉水印，并在元数据中添加了标识符。然而，在社交媒体上浏览图片的用户可能不会留意这些标识符。

Google Gemini的AI图像模型获得“banana”升级

相关推荐

评论抢沙发

科技圈动态，尽在圈小蛙

官方TG频道

简繁切换

回顶部

相关推荐

评论 抢沙发

科技圈动态，尽在圈小蛙

官方TG频道

简繁切换

回顶部

评论抢沙发