在Gemini之前,我们有Google Assistant——可能是您在Google智能家居系统中听到过的声带,以及后来建成在手机中的声带。
Gemini是Google Assistant的进化版本。它被称为多模态AI模型,它能够处理来自多个来源的数据并“理解”所有这些信息的背景下。它可以识别图像,听录音,阅读书面信息并提供所有这些内容的简洁描述。然而,它不仅仅是一个AI模型,Gemini也是一款聊天机器人。
该AI于2023年12月推出,并逐渐吸收了其他Google项目。Google的原创聊天机器人Bard变成了Gemini本身,而Duet AI,在最初是为企业设计的,成为Gemini在Workspace中的版本。您还可以在许多手机、笔记本电脑等设备上找到Gemini。它可以替代您的Android手机上的Google助手,并且您还可以使用免费版在任何互联网浏览器中使用它。
最新版本Gemini 2.5 Pro目前可供所有用户使用,可以对您的问题进行“思考”并提供更全面的、针对性的回答。
Gemini与Google Assistant的区别是什么?
Tushar Mehta / Digital Trends

Gemini是一个完全成熟的LLM(大型语言模型),这意味着它具有比Google助手更多的功能。它能够进行自己的研究,并且可以处理和理解您输入的信息。
相反,Google助手是基于预设路线和受限处理能力的聊天机器人。如果您向其询问某些问题,它可能会提供已知答案,但不能真正思考。
Gemini能做什么?
Andy Boxall / Digital Trends
在理论上,Gemini几乎可以做任何事——除了物理任务之外,因为它还没有一个身体 yet。然而,这也许并不是很遥远的将来,因为Gemini Robotics(另一个Google部门)正在开发一款消费级机器人助手,它可以执行一些像折叠衣服、清洁家居或甚至打篮球这样的任务。
请记住,Gemini完全能够理解,但它只是需要物理界面才能实现这一点。要了解Gemini的具体能力,您需要根据您想要完成什么任务来调整输入提示。
视频制作

如果您订阅了Google AI Pro(提供更多功能的付费服务),则可以使用Veo 3工具通过几行文本来创建视频。
Andy Boxall / Digital Trends
目前,Veo 3可以生成8秒的4K分辨率短片。根据Google的说法,Veo 3可以像之前一样进行预先提示,并且是Veo 2的大幅改进——后者只能在720p上生成短片。
使用Veo 3,您可以添加声音效果、环境噪音甚至对话等内容。在此之上,Google声称Veo 3提供“最佳质量”,并在物理和现实感方面表现出色,而且其“幻觉”比竞争者少得多。这意味着您将更少地看到有太多手指的角色。
信息处理
Gemini可以同时检查到30,000行代码或约1500页文本。向其输入一部小说,它可以概括剧情,提取主题、讨论问题等内容。它还可以帮助识别代码中的漏洞,并辅助编程人员进行调试。
如果您向Gemini提供播客或录音文件,它可以为您监听并回答特定的问题,并提供时间戳以便您节省时间来处理信息。Gemini甚至能够与其他Google应用程序(如Gmail)集成,基于您邮箱中的内容生成行程表。

图像创建
Gemini还可以根据文本描述生成图像,它使用的Imagin 4是谷歌称为其“最高质量文本-图像模型”的工具。告诉它您想在图像中包含什么样的风格和其他相关信息,Gemini就可以生成从老式卡通到高分辨率的真实场景。
一旦生成了图像,您可以对其进行优化以更好地符合您的设想。
研究
Gemini最强大的能力之一是其Deep Research功能。它可以在几分钟内通过数百个不同来源找到您要找的答案。
例如,如果您询问Gemini寻找全球各地最佳海滩玻璃收藏地点,它就可以查阅从旅客博客到Google Maps用户评论等内容,然后给您一些推荐。之后,您还可以向它询问如何在这些地方购买最便宜的机票。
深度研究可以节省您数小时寻找信息时花费的时间,并且由于它提供了获取所用来源的信息,因此您也可以验证准确性。
要更改Gemini的设置将取决于您使用的设备。如果您通过Gemini应用程序,则可以点击您的资料照片或初始(如果您没有资料照片),然后选择“设置”。