谷歌 Gemini 2.0 明年将推广多模态功能,它会带来哪些惊喜?
谷歌正式推出了新一代人工智能模型 Gemini 2.0。该模型具有更强大的多模态能力,不仅可以处理文本,还能支持图像、视频和音频等多种形式的输入,并实现多模态输出,如原生图像生成和多语言文本转语音(TTS)等。与 Gemini 1.5 Pro 相比,其速度显著提升,达到两倍之多,在多模态推理、复杂指令遵循和工具使用等方面进行了优化。该模型还支持调用 Google 搜索、代码执行等功能,在现实任务、网页交互和编码辅助等不同场景下表现出色。目前,Gemini 2.0 Flash 实验版本已向开发者开放,预计将于 2025 年 1 月全面推广其多模态功能,并推出多模态实时 API,为开发者提供更多应用支持。
