工具介绍
Gemini 2.0 Flash 是谷歌最新发布的人工智能模型,它是 Gemini 2.0 系列的首个模型,具有以下特点和功能:
1. **多模态输入输出**:Gemini 2.0 Flash 支持图片、视频和音频等多模态输入,并且能够进行多模态输出,例如直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。
2. **性能提升**:与上一代模型 Gemini 1.5 Flash 相比,Gemini 2.0 Flash 在关键基准测试中的表现是1.5 Pro版本的两倍之快。
3. **原生工具调用**:Gemini 2.0 Flash 可以原生调用谷歌搜索、代码执行以及第三方用户定义的函数等工具。
4. **智能体时代**:谷歌CEO桑达尔·皮查伊表示,如果说Gemini 1.0的作用是整合和理解信息,那么Gemini 2.0能够做到让信息更加有用,为构建通用助手的愿景更进一步。
5. **AI Agent功能**:Gemini 2.0 系列模型主打 AI Agent 功能,在原本的功能之外,还加入了多项新的 Agent 功能。
6. **开发者体验**:从周三起,2.0 Flash的实验版本将通过Gemini API和谷歌的AI开发平台(AI Studio和Vertex AI)提供。然而,音频和图像生成功能仅对“早期接入合作伙伴”开放,并计划在明年1月全面推出。
7. **新输出模式**:开发人员将能够使用 Gemini 2.0 Flash 生成集成响应,这些响应可以包含文本、音频和图像 — 只需调用一次 API 即可完成。
8. **多模态实时API**:谷歌推出了新的多模态实时API,支持实时音频和视频流输入,并能同时使用多个组合工具,为用户带来更加丰富的交互体验。
9. **智能体研究原型**:谷歌还展示了三个智能体研究原型:Project Astra、Project Mariner和Jules,展现了智能体如何改变我们与数字世界的互动方式。
Gemini 2.0 Flash 的发布标志着谷歌在人工智能领域的进一步发展,特别是在多模态处理和智能体技术方面。
具备生成图像和音频、网页搜索、代码编写、游戏指导等多模态功能(图片和语音生成功能将于明年 1 月开放)
工具地址
网站:https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/