OpenAI为ChatGPT高级语音模式推出视频功能

讯知在线 • 2024年12月15日上午5:26 • 体育 • 0 views

OpenAI于近日正式推出备受期待的ChatGPT高级语音模式视频功能，允许用户在与ChatGPT对话时整合实时视频和屏幕共享。

实时视觉上下文与多功能应用

这项新功能通过添加实时视频和屏幕共享功能，为与ChatGPT的对话提供了更丰富的深度和“实时视觉上下文”。用户可以访问ChatGPT应用程序中的高级语音模式图标，然后选择左下角的视频按钮来启动实时视频。该功能不仅能够识别图像信息，例如识别植物种类并判断其健康状况，还能在提供家庭设计建议、辅导数学作业、甚至帮助用户回复短信等方面提供实时协助。

在OpenAI的演示中，ChatGPT不仅能够识别用户穿着，还能引导用户一步步完成冲泡咖啡的过程，并对用户的技巧进行反馈。通过屏幕共享功能，ChatGPT可以识别用户正在使用的应用程序（例如信息应用程序），理解发送的消息，并在用户请求后帮助撰写回复。此前在春季更新中，ChatGPT还展示了其根据面部表情解读情绪以及担任家教的能力，例如能够根据白板上的方程式（3x+1=4）提供求解x值的提示。

功能发布与区域限制

早在5月份的春季更新中，OpenAI就曾预告过ChatGPT将具备“跨文本、音频和视觉进行推理”的能力，但直到9月才正式推出高级语音模式，而视频功能则在本周才正式上线。OpenAI表示，视频和语音功能的推出时间比预期晚了数周。尽管该功能在春季更新演示期间出现了一些小问题，例如将员工误认为“木质表面”或试图在问题展示前就进行解答，但目前来看，该功能已得到显著改进。

目前，这项新视频功能正在向ChatGPT移动应用程序最新版本的Team以及大多数Plus和Pro用户推出。OpenAI表示，该功能暂未在欧盟、瑞士、冰岛、挪威和列支敦士登等地区推出，但公司会尽快使其在这些地区可用。

功能测试与未来展望

在实际测试中，ChatGPT展现出令人印象深刻的能力。例如，当用户向其展示办公室植物时，它能够准确描述叶尖的褐变和干燥情况，并将其识别为芦荟，与实际情况相符。这表明ChatGPT的图像识别和植物知识都达到了较高的水平。

总而言之，ChatGPT高级语音模式的视频功能的推出，标志着人工智能在多模态交互方面取得了新的突破。这项功能的实用性和便捷性，将进一步提升ChatGPT的用户体验，并为其在更多领域中的应用提供可能性。未来，随着技术的不断发展和完善，我们可以期待ChatGPT在视觉理解和人机交互方面展现出更强大的能力。

原创文章，作者：讯知在线，如若转载，请注明出处：http://mip.xzxci.cn/2024/12/15/35954.shtml