
Vibe Coding XR是一种快速原型开发工作流程,它将Gemini Canvas与开源XR Blocks框架相结合,能够将用户的自然语言提示直接转换为功能完整的交互式物理感知WebXR应用程序,支持Android XR平台,让创作者能够在桌面模拟环境和Android XR头戴设备上快速测试智能空间体验。
大语言模型和智能体工作流程正在改变软件工程和创意计算领域。我们正在见证"氛围编程"的兴起,大语言模型能够直接将人类意图转化为可运行的代码。像Gemini Canvas这样的工具已经让2D和3D网页开发成为可能。然而,扩展现实(XR)仍然难以普及。XR原型开发通常需要组合分散的感知管道、复杂的游戏引擎和底层传感器集成。
快速的氛围编程原型可以解决这个问题。它们帮助有经验的开发者直接在头戴设备中测试新的用户界面、3D交互和空间可视化。这种快速验证可以节省在最终可能被丢弃的想法上的数天工作。它也让构建交互式教育体验变得更容易,这些体验能够演示自然科学和力学原理。
今天,我们宣布推出Vibe Coding XR来填补这一空白。这个工作流程将Gemini作为创意伙伴,结合我们基于网页的XR Blocks框架。通过将Gemini的长上下文推理能力与专门的系统提示和精选代码模板相结合,系统能够自动处理空间逻辑。它将自然语言直接转换为功能完整、物理感知的Android XR应用程序,耗时不到60秒。
我们的团队将在ACM CHI 2026的谷歌展台进行现场演示。您也可以今天就在这里试用。
过去一年中,我们一直在迭代设计和改进Vibe Coding XR体验,使其无缝且易于访问。为了便于测试,我们还在桌面Chrome上提供"模拟现实"环境。这让创作者能够在部署到Android XR设备之前快速原型化和测试交互。许多高级感知功能,如深度感应、手部交互和物理效果,在Android XR上体验最佳。
我们的框架通过以下方式加速AI+XR原型开发:(A)让用户在桌面模拟现实环境中测试他们的"氛围编程"结果,(B)在Android XR头戴设备上部署相同的演示,支持身体和手部交互。
Vibe Coding XR利用Gemini的长上下文能力和思维过程,作为专业XR设计师和工程师。我们开发了专门的系统提示,向Gemini"教授"XR Blocks架构和示例,包括房间规模XR环境指南、包管理和XR交互最佳实践。
底层的XR Blocks框架建立在可访问的网页技术之上,如WebXR、three.js和LiteRT.js。其核心引擎管理空间计算所需的复杂子系统相互作用,包括环境感知、XR交互和AI集成。
我们通过氛围编程生成的示例原型展示了Vibe Coding XR工作流程的多样性:
氛围编程数学导师应用程序,让学生在3D中学习几何。
氛围编程物理实验室应用程序,实现动手物理实验。
氛围编程沉浸式化学应用程序,模拟交互式化学实验。
氛围编程薛定谔的猫应用程序,用于在XR中解释量子概念。
氛围编程XR排球应用程序,实现混合现实运动的快速原型开发。
氛围编程XR恐龙应用程序,实现混合现实游戏的快速原型开发。
我们还使用更具体的上下文进行提示,如使用NASA系外行星数据、程序化生成或在XR Blocks Gem中创建高分辨率纹理,并演示Vibe Coding XR过程中的迭代优化:
从左到右或从上到下:NASA星图的沉浸式可视化、城市地图的程序化生成、探索古埃及金字塔。
评估XR应用程序一直是一个挑战,主要因为它通常需要动手的设备端测试和主观的人类评估。为了测试我们Vibe Coding XR管道的有效性,我们构建了创建XR应用程序提示的初步数据集:VCXR60。
VCXR60来源于四次一小时的内部研讨会,包含20名谷歌参与者提供的60个独特提示。使用此数据集,我们测量了推理时间和一次性成功率,专门寻找XR Blocks模拟现实环境中的零错误执行。例如,一个简单的提示"创建一个美丽的蒲公英,当我拾取时它会飘散",在Gemini Flash中可能在20秒内完成,但与Gemini Pro相比有更高的运行时错误几率,因为处理动画和手部交互需要在思考过程中使用更多Token。
早期,我们发现大部分初始错误来自XR Blocks本身的错误或对不存在或已弃用API的幻觉,产生大约70%的成功率。这些见解推动了快速的六个月迭代周期。今天,经过11个主要版本发布,我们很高兴分享XR Blocks Gem v0.11.0在VCXR60数据集上的初步评估作为基线参考。
我们对开发者的主要建议:在进行高级XR原型开发时,使用"专业模式"能产生最可靠的结果。
Vibe Coding XR标志着朝向未来的关键一步,在这个未来中,空间计算的限制不是技术专长,而是创造力。通过将大语言模型的推理能力与XR Blocks的高级抽象相结合,我们弥合了转瞬即逝的想法与有形的物理感知现实之间的差距。
我们的团队持续致力于XR Blocks框架、基准测试和空间智能工作。我们邀请人机交互、AI和XR社区为Android XR上的XR Blocks生态系统做出贡献。您可以访问开源框架并在快速链接中试用实时演示,或来ACM CHI 2026参观我们的演示。
这项工作是谷歌多个团队的合作成果。该项目的主要贡献者包括Ruofei Du、Benjamin Hersh、David Li、Xun Qian、Nels Numan、Zhongyi Zhou、Yanhe Chen、Xingyue Chen、Jiahao Ren、Robert Timothy Bettridge、Faraz Faruqi、Xiang 'Anthony' Chen、Steve Toh和David Kim。以下研究人员和工程师为XR Blocks框架做出了贡献:David Li和Ruofei Du(同等主要贡献),Nels Numan、Xun Qian、Yanhe Chen和Zhongyi Zhou(同等次要贡献,按字母顺序排列),以及Evgenii Alekseev、Geonsun Lee、Alex Cooper、Brandon Jones、Min Xia、Scott Chung、Jeremy Nelson、Xiuxiu Yuan、Jolica Dias、Tim Bettridge、Benjamin Hersh、Michelle Huynh、Konrad Piascik、Ricardo Cabello和David Kim。我们进一步感谢Gemini Canvas和AI Studio团队的支持,包括但不限于:Tim Bettridge、Yan Li、Daniel Marques、Deven Tokuno、Levent Yilmaz、Saravana Rathinam、Samuel Petit、Mike Taylor-Cai、Ammaar Reshi和Robert Berry。我们要感谢Mahdi Tayarani、Max Dzitsiuk、Jim Ratcliffe、Patrick Hackett、Seeyam Qiu、Coco Fatus、Alon Hetzroni、Aaron Kim、Yinghua Yang、Brian Collins、Eric Gonzalez、Nicolás Pena Moreno、Yidang Zhang、Jamie Pepper、Yuhao He、Yi-Fei Li、Ziyi Liu、Jing Jin对我们早期提案和WebXR实验的反馈和讨论。我们感谢Tim Herrmann和Andrew Helton的深思熟虑的评审。我们感谢Maryam Sanglaji、Max Spear、Adarsh Kowdle、Guru Somadder、Shahram Izadi的方向性反馈和贡献。
Q&A
Q1:Vibe Coding XR是什么?它能做什么?
A:Vibe Coding XR是一种快速原型开发工作流程,它将Gemini Canvas与开源XR Blocks框架相结合,能够将用户的自然语言提示直接转换为功能完整的交互式物理感知WebXR应用程序,支持Android XR平台,让创作者能够在60秒内快速测试智能空间体验。
Q2:XR Blocks框架基于什么技术构建?
A:XR Blocks框架建立在可访问的网页技术之上,包括WebXR、three.js和LiteRT.js。其核心引擎管理空间计算所需的复杂子系统相互作用,包括环境感知、XR交互和AI集成,使开发者能够更容易地创建XR应用程序。
Q3:VCXR60数据集的评估结果如何?
A:VCXR60数据集包含60个独特提示,用于测试Vibe Coding XR的效果。评估显示,早期约70%的成功率主要受限于XR Blocks的错误和API幻觉问题。经过六个月的迭代改进和11个主要版本发布,使用"专业模式"的Gemini能产生最可靠的结果。
更新时间:2026-03-28
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号