谷歌 Gemini 2.0 多模态功能有多强?明年会推广吗?
谷歌正式推出了新一代人工智能模型 Gemini 2.0,其展现出了更强大的多模态能力。它不仅支持文本输入,还可处理图像、视频和音频等多种形式的输入,并能进行多模态输出,如原生图像生成和多语言文本转语音(TTS)等。该模型速度较 Gemini 1.5 Pro 显著提升,达到两倍之多,在多模态推理、复杂指令遵循及工具使用等方面进行了优化。此外,它还支持调用 Google 搜索和代码执行等功能,在现实任务、网页交互和编码辅助等不同场景中有出色表现。目前,Gemini 2.0 Flash 实验版本已向开发者开放,预计 2025 年 1 月全面推广其多模态功能,并推出多模态实时 API,为开发者提供更多应用支持。
