ChatGPT新增屏幕共享实测:手机端已支持实时指导,电脑端仍缺席

本文详细披露了在 ChatGPT 手机客户端中启用语音通话模式下屏幕共享功能的具体操作路径与实测体验。据用户反馈,实现该功能需首先在手机系统设置中手动开启悬浮窗、后台弹窗、画中图片、相机使用及录音等多项核心权限。完成授权后,用户需开启新对话并进入语音模式,通过菜单栏中的“共享屏幕”选项选择特定应用进行投屏。

实际测试表明,这一功能的落地显著提升了人机交互的实用性与即时性。借助屏幕视觉与语音听觉的双重输入,ChatGPT 能够实时观察用户操作并提供精准指导。例如,在浏览专业技术社区时,AI 可结合屏幕内容进行术语扫盲与适用性分析;在进行项目开发或技能学习时,AI 能够充当“实时教练”,现场指出操作错误并演示修正步骤。这种“所见即所得”的辅助方式,极大地简化了传统流程中反复截图、打字提问的繁琐环节。

然而,该功能目前仍存在明显的局限性。移动端仅支持单一应用程序的窗口共享,无法直接投屏整个手机桌面,且切换应用需要重新发起共享流程。此外,电脑端(包括 Windows 与 macOS)至今尚未开放屏幕及实时音频的同步共享能力,这与用户对于桌面端高效协作的强烈需求之间存在较大落差。

事件分析

此次功能的上线被视为大模型从单一的文本交互向多模态“实时代理”演进的重要标志。屏幕共享赋予了 AI 模型“视觉感知”能力,使其能够理解屏幕内容的上下文环境,从而提供更具针对性的操作建议。这种视觉与听觉的融合,解决了以往纯文本交互中因缺乏上下文而导致的沟通低效问题,特别是在技术指导、软件操作和远程协作等场景中,将 AI 的定位从被动查询的“搜索工具”转变为主动辅助的“智能体”。

尽管目前仅限于移动端且受限于单应用窗口,但这为未来的全平台全屏共享奠定了技术基础。一旦桌面端补齐屏幕与音频的实时同步能力,AI 将深度介入复杂的桌面工作流,真正实现“AI 驱动的结对编程”或“自动化办公”。当前的局限性可能源于操作系统权限管控及隐私安全策略的博弈,但随着端侧模型性能的提升与操作系统的适配,全场景的实时视听交互将是 AI 应用的必经之路。

💡 核心观点:屏幕共享补齐了AI感知能力的最后一块拼图,标志着交互模式从“问答”向“伴随式辅助”质变。

原文链接:Linux.do

C code80.ai · AI 编码 API 聚合 Claude / GPT 多模型统一接入,稳定不限速,按量计费,几行配置接入 Claude Code。 了解一下 ›

抢沙发

评论前必须登录!

立即登录   注册