OpenAI于近日正式推出备受期待的ChatGPT高级语音模式视频功能,允许用户在与ChatGPT对话时整合实时视频和屏幕共享。
实时视觉上下文与多功能应用
这项新功能通过添加实时视频和屏幕共享功能,为与ChatGPT的对话提供了更丰富的深度和“实时视觉上下文”。用户可以访问ChatGPT应用程序中的高级语音模式图标,然后选择左下角的视频按钮来启动实时视频。该功能不仅能够识别图像信息,例如识别植物种类并判断其健康状况,还能在提供家庭设计建议、辅导数学作业、甚至帮助用户回复短信等方面提供实时协助。
在OpenAI的演示中,ChatGPT不仅能够识别用户穿着,还能引导用户一步步完成冲泡咖啡的过程,并对用户的技巧进行反馈。通过屏幕共享功能,ChatGPT可以识别用户正在使用的应用程序(例如信息应用程序),理解发送的消息,并在用户请求后帮助撰写回复。此前在春季更新中,ChatGPT还展示了其根据面部表情解读情绪以及担任家教的能力,例如能够根据白板上的方程式(3x+1=4)提供求解x值的提示。
功能发布与区域限制
早在5月份的春季更新中,OpenAI就曾预告过ChatGPT将具备“跨文本、音频和视觉进行推理”的能力,但直到9月才正式推出高级语音模式,而视频功能则在本周才正式上线。OpenAI表示,视频和语音功能的推出时间比预期晚了数周。尽管该功能在春季更新演示期间出现了一些小问题,例如将员工误认为“木质表面”或试图在问题展示前就进行解答,但目前来看,该功能已得到显著改进。
目前,这项新视频功能正在向ChatGPT移动应用程序最新版本的Team以及大多数Plus和Pro用户推出。OpenAI表示,该功能暂未在欧盟、瑞士、冰岛、挪威和列支敦士登等地区推出,但公司会尽快使其在这些地区可用。
功能测试与未来展望
在实际测试中,ChatGPT展现出令人印象深刻的能力。例如,当用户向其展示办公室植物时,它能够准确描述叶尖的褐变和干燥情况,并将其识别为芦荟,与实际情况相符。这表明ChatGPT的图像识别和植物知识都达到了较高的水平。
总而言之,ChatGPT高级语音模式的视频功能的推出,标志着人工智能在多模态交互方面取得了新的突破。这项功能的实用性和便捷性,将进一步提升ChatGPT的用户体验,并为其在更多领域中的应用提供可能性。未来,随着技术的不断发展和完善,我们可以期待ChatGPT在视觉理解和人机交互方面展现出更强大的能力。
原创文章,作者:讯知在线,如若转载,请注明出处:http://mip.xzxci.cn/2024/12/15/35954.shtml