谷歌Gemini 3 Pro发布:对标ChatGPT,开启AI多模态新竞争
发布时间:
2025-11-22 05:28:58
来源: 保山日报网
出品|虎嗅科技组
作者|余杨
编辑|苗正卿
头图|视觉中国
11月19日消息,谷歌正式上线旗舰版Gemini 3 Pro模型,宣称其编码和推理能力显著提升,同时减少了过度迎合用户的倾向。这一动作被外界视为谷歌对OpenAI旗下ChatGPT的直接回应,标志着AI领域新一轮竞争的升级。
作为谷歌迄今为止“最智能”、“最准确”的模型,Gemini 3 Pro首次向所有用户开放,并在发布首日即可体验。谷歌DeepMind高级总监兼产品负责人Tulsee Doshi表示,随着搜索引擎的持续进化,新模型将助力谷歌实现“人人皆可获取且人人皆可使用”的信息目标。
“这是朝着更丰富、更完整内容呈现迈出的一大步,而非仅停留在文字回复层面。”Doshi强调。
对标ChatGPT:Gemini 3 Pro的多模态突破
Gemini 3 Pro的核心优势在于其“原生多模态”特性,可同时处理文本、图像和音频,突破了传统文本-文本交互的局限。编码功能的增强使其能够生成更优质的视觉效果,在谷歌官方演示中,AI甚至完成了对RNA的流畅处理。
实际应用场景中,Gemini 3 Pro展现出强大能力:可翻译菜谱照片并生成食谱,还能根据视频讲座创建交互式学习卡片。在Gemini应用内,用户可通过内置的Canvas构建功能更全面的程序,支持“生成式界面”创建杂志式视觉格式或定制动态布局(目前处于测试阶段)。
搜索功能方面,Gemini 3 Pro可呈现图像、表格、网格等视觉元素,通过分解搜索问题并理解用户意图,挖掘“之前可能遗漏的新内容”。谷歌直言不讳地暗讽ChatGPT:“Gemini 3 Pro的回复摒弃陈词滥调,提供真正洞见,而非用户想听的内容。”
除交互升级外,该模型还强化了推理和智能代理能力,可完成复杂任务并“可靠地进行长期规划”。其支持的Gemini Agent实验性功能,能在应用内执行整理邮件、搜索预订旅行等操作。
谷歌此次推出的不仅是单一模型,更是一个覆盖AIGC、AI应用、AI搜索和AI Agent的全范围策略组合。
跑分数据:全面领先,直指竞争对手
在21项基准测试中,Gemini 3 Pro除OCR和代理编码稍弱外,其余指标均领先优势明显。谷歌特别强调了人类最终测试、终端工作台2.0和SimpleQA Verified三项指标,矛头直指Claude Sonnet4.5和GPT-5.1。
谷歌试图证明,Gemini 3 Pro在标准化知识生成、AI工具使用及“人工智能”核心指标上具备全方位优势。
Antigravity:构建“智能体优先”开发生态
与Gemini 3 Pro同步推出的,还有基于该模型及第三方模型的开发工具Antigravity。其设计理念面向“智能体优先的未来”,支持多智能体直接访问编辑器、终端和浏览器。
Antigravity的两大核心组件:
1. **工作验证机制**:通过生成“工件”(任务列表、计划、屏幕截图等)记录完成及待执行工作,便于用户验证,而非依赖完整的操作列表。
2. **双视图模式**:默认编辑器视图提供类似Cursor的IDE体验;管理器视图则可同时控制多个代理,实现自主协作,被谷歌比作“任务控制中心”。
用户还能在代理执行任务时留言反馈,代理可“从过去工作中学习”,保留代码片段或执行步骤。官方演示中,Antigravity构建并测试了航班跟踪应用,通过浏览器录制报告结果。
目前,Antigravity已推出公开预览版,兼容Windows、macOS和Linux系统。
谷歌此次布局远不止于模型发布,其开放性策略显露出构建从模型、应用到开发者的完整生态闭环的野心。多模态交互正将AI从“对话者”重塑为“执行者”,未来3D全景与沉浸式交互的竞争已隐约可见。
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
本文来自虎嗅,原文链接:https://www.huxiu.com/article/4808031.html?f=wyxwapp
