谷歌在Gemini 3 Flash中引入了Agentic Vision能力,将图像理解从静态识别转变为智能体处理流程。这意味着模型不仅能“看”懂图像,还能像Agent一样进行主动的视觉推理与交互,极大提升了AI在复杂视觉任务中的自主性和实用性,代表了多模态AI的重要进化方向。
原文链接:Linux.do
谷歌在Gemini 3 Flash中引入了Agentic Vision能力,将图像理解从静态识别转变为智能体处理流程。这意味着模型不仅能“看”懂图像,还能像Agent一样进行主动的视觉推理与交互,极大提升了AI在复杂视觉任务中的自主性和实用性,代表了多模态AI的重要进化方向。
原文链接:Linux.do
评论前必须登录!
立即登录 注册