斯坦福李飞飞空间智能团队首次发布模型，实现一张图像生成交互式3D场景

讯知在线 • 2024年12月6日下午4:37 • 健康动态 • 0 views

斯坦福大学李飞飞团队发布开创性AI模型，实现单图片生成可交互3D场景

斯坦福大学人工智能领域先驱李飞飞领导的空间智能团队取得了一项重大突破，发布了第一个开创性的人工智能模型，能够将单张静态图像转换为身临其境的、可交互的3D场景。

这项技术，称为World Labs，代表了世界模型领域的最新进展，能够以一种前所未有的方式模拟和探索三维环境。与以前的AI工具不同，World Labs生成的3D场景具有交互性，可以根据用户的输入进行修改，从而打开了无数的创意和应用可能性。

即时生成和修改3D世界

World Labs的模型通过浏览器实时呈现生成场景，使用户可以通过箭头键或键盘移动，并使用鼠标进行单击和拖动以交互。借助一系列可操控的滑块，用户可以调节模拟景深和推拉变焦，为场景增添层次感和真实感。

此外，该模型允许用户调整摄像机的位置和视野，更改对象颜色，通过3D结构创建焦点效果，甚至创建自动运行的动态动画。这种交互性水平使创作者能够探索和修改场景，以满足他们的独特需求。

突破传统AI限制

与大多数AI模型预测像素不同，World Labs的模型直接预测3D场景。这种方法带来了几个显著优势：

* 持久性： 一旦生成场景，它就会一直存在，即使用户移开视线，它也不会改变。

* 实时控制： 用户可以立即控制场景，实时移动和操作它。

* 可操纵性： 用户可以关注细节，查看对象的内部或探索隐藏的空间。

改变数字内容创作

World Labs坚信，生成三维内容将成为制作电影、游戏、模拟器和其他数字呈现形式的未来。这种技术有潜力改变创意产业，为艺术家和创作者提供前所未有的工具来构建身临其境的和交互式的世界。

创始人和投资

World Labs由人工智能领域杰出人物联合创立，包括李飞飞、贾斯汀·约翰逊、克里斯托夫·拉斯纳和本·米尔登霍尔。该公司总部位于旧金山，已从包括杰弗里·辛顿、杰夫·迪安和埃里克·施密特在内的顶级投资者那里筹集了超过2.3亿美元的资金。

展望未来

目前，World Labs仍处于开发和测试阶段，但该公司已经邀请一些创作者将其集成到他们的工作流程中。创作者们已经发现，这项技术可以填补其创作过程中的空白，例如简化角色放置和精确的镜头调度。

World Labs相信，“3D原生生成AI是未来的缩影”，并计划在2025年推出其首款正式产品。该团队的目标是创建一个平台，使任何人，无论其技术技能如何，都能构建和交互式的3D世界。

对“元宇宙”的看法

World Labs的愿景与“元宇宙”的概念有一定的相似之处，但该公司强调，世界模型可以填补元宇宙的空白，提供真正可交互和引人入胜的内容。通过利用空间智能，World Labs旨在创造一种更自然和直观的交互方式，从而改变我们与数字世界的互动方式。

原创文章，作者：讯知在线，如若转载，请注明出处：http://mip.xzxci.cn/2024/12/06/29420.shtml