谷歌Gemini 3 Pro发布：对标ChatGPT，开启AI多模态新竞争

发布时间： 2025-11-22 05:28:58

来源：保山日报网

　　

　　出品｜虎嗅科技组

　　作者｜余杨

　　编辑｜苗正卿

　　头图｜视觉中国

　　11月19日消息，谷歌正式上线旗舰版Gemini 3 Pro模型，宣称其编码和推理能力显著提升，同时减少了过度迎合用户的倾向。这一动作被外界视为谷歌对OpenAI旗下ChatGPT的直接回应，标志着AI领域新一轮竞争的升级。

　　作为谷歌迄今为止“最智能”、“最准确”的模型，Gemini 3 Pro首次向所有用户开放，并在发布首日即可体验。谷歌DeepMind高级总监兼产品负责人Tulsee Doshi表示，随着搜索引擎的持续进化，新模型将助力谷歌实现“人人皆可获取且人人皆可使用”的信息目标。

　　“这是朝着更丰富、更完整内容呈现迈出的一大步，而非仅停留在文字回复层面。”Doshi强调。

　　对标ChatGPT：Gemini 3 Pro的多模态突破

　　Gemini 3 Pro的核心优势在于其“原生多模态”特性，可同时处理文本、图像和音频，突破了传统文本-文本交互的局限。编码功能的增强使其能够生成更优质的视觉效果，在谷歌官方演示中，AI甚至完成了对RNA的流畅处理。

　　实际应用场景中，Gemini 3 Pro展现出强大能力：可翻译菜谱照片并生成食谱，还能根据视频讲座创建交互式学习卡片。在Gemini应用内，用户可通过内置的Canvas构建功能更全面的程序，支持“生成式界面”创建杂志式视觉格式或定制动态布局（目前处于测试阶段）。

　　搜索功能方面，Gemini 3 Pro可呈现图像、表格、网格等视觉元素，通过分解搜索问题并理解用户意图，挖掘“之前可能遗漏的新内容”。谷歌直言不讳地暗讽ChatGPT：“Gemini 3 Pro的回复摒弃陈词滥调，提供真正洞见，而非用户想听的内容。”

　　除交互升级外，该模型还强化了推理和智能代理能力，可完成复杂任务并“可靠地进行长期规划”。其支持的Gemini Agent实验性功能，能在应用内执行整理邮件、搜索预订旅行等操作。

　　谷歌此次推出的不仅是单一模型，更是一个覆盖AIGC、AI应用、AI搜索和AI Agent的全范围策略组合。

　　跑分数据：全面领先，直指竞争对手

　　在21项基准测试中，Gemini 3 Pro除OCR和代理编码稍弱外，其余指标均领先优势明显。谷歌特别强调了人类最终测试、终端工作台2.0和SimpleQA Verified三项指标，矛头直指Claude Sonnet4.5和GPT-5.1。　　

　　谷歌试图证明，Gemini 3 Pro在标准化知识生成、AI工具使用及“人工智能”核心指标上具备全方位优势。

　　Antigravity：构建“智能体优先”开发生态

　　与Gemini 3 Pro同步推出的，还有基于该模型及第三方模型的开发工具Antigravity。其设计理念面向“智能体优先的未来”，支持多智能体直接访问编辑器、终端和浏览器。

　　Antigravity的两大核心组件：

　　1. **工作验证机制**：通过生成“工件”（任务列表、计划、屏幕截图等）记录完成及待执行工作，便于用户验证，而非依赖完整的操作列表。

　　2. **双视图模式**：默认编辑器视图提供类似Cursor的IDE体验；管理器视图则可同时控制多个代理，实现自主协作，被谷歌比作“任务控制中心”。

　　用户还能在代理执行任务时留言反馈，代理可“从过去工作中学习”，保留代码片段或执行步骤。官方演示中，Antigravity构建并测试了航班跟踪应用，通过浏览器录制报告结果。

　　目前，Antigravity已推出公开预览版，兼容Windows、macOS和Linux系统。

　　谷歌此次布局远不止于模型发布，其开放性策略显露出构建从模型、应用到开发者的完整生态闭环的野心。多模态交互正将AI从“对话者”重塑为“执行者”，未来3D全景与沉浸式交互的竞争已隐约可见。

　　本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

　　本文来自虎嗅，原文链接：https://www.huxiu.com/article/4808031.html?f=wyxwapp