Unity AI 2021实习生通过计算机视觉看未来

AI@Unity正在致力于机器人、计算机视觉和机器学习领域的深入研究和产品开发。而Unity为暑期实习生们提供的人工智能项目则更加具有真正的产品影响力。


Unity计算机视觉团队开发的感知包能够帮助用户使用Unity的实时3D引擎构建合成数据集。合成数据有助于计算机视觉开发人员在基于机器学习的视觉应用中通过消除偏差、产生边缘案例、增加多样性和完美标记图像来补充他们的真实数据集。另外Unity的专业团队还利用他们的专业知识和对合成数据进行研究,帮助用户自定义他们的数据集。


2021年夏天,Unity机器人团队的实习生们迎来了他们的首次工作,这为他们在Unity的工作中积攒了宝贵的经验。在下面的文章中我们将向大家分享他们所开发的项目和所获得的一些经验。


合成数据的弱监督实例分割


埃里克·克劳福德,麦吉尔大学计算机科学博士


Unity AI 2021实习生通过计算机视觉看未来


实例分割是一项计算机视觉任务,其目标是建立能够说出输入图像中哪些像素属于不同对象的模型。深度神经网络,如Mask R-CNN [1],是当前最先进的实例分割技术;然而,这些网络对数据的渴求令人难以置信,需要成千上万个标记的示例才能在现实世界的域中实现高性能实例分割。对于每个训练图像中的每个对象,神经网络使用两种标签:边界框(即指定对象位置的2D框)和分割遮罩(即指定哪些像素属于对象的图像大小的二进制遮罩)。这些标签通常由人工进行注释,对他们来说,分割遮罩比边界框需要更多的时间和精力。在这个项目中,Unity研究了是否有可能用相对较少的难以获得的分割掩码来训练深度实例分割网络,以及当分割掩码稀缺甚至不存在时,合成数据是否有助于提高性能。


作为第一步,我们正在试图回答以下问题:在真实数据(例如,COCO数据集)上,假设用户有许多边界框标签,那么这些标签中有多少部分需要伴有分割掩码标签才能实现高分割性能?最终我们发现,只有1%的数据用分段掩码标记(即完全标记),可以达到以下情况下达到的性能的近90%全部数据已完全标记(见图)。


Unity AI 2021实习生通过计算机视觉看未来


这个结果是令人兴奋的,因为它可以显著减少例如分割的标记负担。它也为未来的工作开辟了令人兴奋的途径。例如,我们能否使用合成数据来缩小1%完全标记和100%完全标记之间的剩余性能差距?我们可以用合成数据完全取代地面真实分割掩模吗?随着真实边界框数量的减少,使用合成数据的可行性将如何变化?在合成实例分割数据上训练的初步结果是有希望的。


数据集可视化工具


麦吉尔大学计算机科学系利奥波德·祖加蒂(Leopoldo Zugasti)


数据集可视化工具python工具允许用户探索和可视化利用Unity感知格式的计算机视觉数据集,例如,使用Unity感知包。这些数据集包含合成环境和对象的图像以及地面真实注释,包括:2D和3D边界框、语义和实例分割以及关键点。这些数据集用于训练计算机视觉人工智能模型,以完成目标检测或分类等任务。


数据集可视化工具使用户能够轻松高效地浏览这些数据集,并检查图像及其基础事实注释,可视化为多个可选的覆盖图。该工具可以在各种用例中帮助用户:


使用感知包创建用于数据集生成的统一3D环境本质上是迭代的,涉及对代码和场景的多轮修改,同时检查生成的数据集,以便微调并获得最佳结果。数据集可视化工具允许只需点击几下鼠标即可查看最新生成的数据集,从而大大加快了用户的迭代过程。


除了数据集生成工具,Unity还为客户提供符合其计算机视觉培训需求的定制数据集。这些客户可以使用数据集可视化工具轻松探索和验证我们提供的数据集,与尝试使用没有注释可视化功能的通用照片查看器相比,极大地改善了体验。


在创建这个工具的过程中,我有机会了解了计算机科学的许多主题,如人工智能、计算机网络、计算机图形学和网络开发。通过使用Unity提供的资源,我解决了几个意想不到且具有挑战性的问题,例如用不同的相机投影类型渲染3D盒子、自动解决端口冲突、创建与各种操作系统兼容的应用程序等等。


数据集预览功能


杰米·温(Jamie Won),皇后大学计算机工程专业


Unity AI 2021实习生通过计算机视觉看未来


AI@Unity通过提供创建大型合成数据集。我们已经发布了几个示例数据集,但之前用户需要下载并提取图像才能查看它们。这些数据集并不小,因此在客户检查数据集中的图像之前,会根据他们的带宽引入延迟。自定义数据集还要求用户在查看之前下载,这可能会降低数据的迭代速度。


数据集预览功能通过允许用户在下载前检查数据集样本来改善用户体验。如果数据集需要调整以满足用户需求,用户可以生成一个新的数据集,在下载前再次预览。在该功能中,用户可以修改每页显示的图像的大小和数量,以及放大每个图像。为了帮助用户检查图像,用户可以在缩放的图像上启用边界框,并根据需要更改框的颜色。


这个项目最有意思的部分是它是面向用户的。事实上,除了作为几乎所有用户都保证会使用的工具之外,它还被项目上的其他开发人员用来预览他们的工作!在学习和遵守组织的代码提交准则的同时,将一个特性集成到现有产品中是一项挑战,但最终,整个体验是一次令人满意的学习之旅。


探索深度图像的模拟间隙


滑铁卢大学计算机科学专业的布莱克·万贝罗


Unity AI 2021实习生通过计算机视觉看未来


找到足够大的、标记充分的数据集是机器学习专业人员面临的一个主要挑战。数据集的标签可能很耗费资源,可能包含不必要的偏见,或者不能代表真实世界。Unity通过利用渲染管道来产生合成标记数据集用于计算机视觉任务。我的实习重点是开发和研究合成深度图像,以替代从真实传感器收集的深度训练数据。用合成深度图像训练的机器学习模型在用真实数据测试时能表现良好吗?弥合差距需要什么程度的现实主义?


深度图是单通道图像,其中每个像素对应于从相机到构成像素的对象在相机的前向轴方向上的距离。我开发了一个贴标机,可以生成与Unity场景中相机视图相对应的深度图。为了评估深度图像的效用,我们正在创建合成数据集来训练用于单目标6D姿态估计的模型。我们正在研究两个最先进的模型和一个新颖的设计架构。数据集中的每个示例都包括彩色图像、深度图像、对象遮罩和由地面真实旋转和平移组成的对象姿势标签。然后,我们在真实世界图像的合成数据上测试了模型LineMOD的数据集。为了探索真实感的影响,我们还使用经过噪声模型修改的合成深度图像进行了实验。但关于此次实验的结果我们目前还没有得出最终结论。


如果合成深度训练集产生的令人满意的真实世界性能,用户可以将Unity的合成数据管道应用于更多种类的计算机视觉项目中。高质量的深度图像收集起来既耗费资源又繁琐,这使得合成数据成为一种有吸引力的项目。


装备自动化和尺寸调整


凯西·胡恩(Kathy Huynh),蒙特利尔ISART数字公司3D艺术项目组


计算机视觉训练需要大量的标记图像才能成功,但标记真实世界数据的过程既漫长又繁琐。为了解决这个问题,我们创建了自定义合成数据集,该数据集由Unity感知包支持。有了这项技术,我们可以创造一个充满各种物体和人物的各种各样的环境。通过随机化脚本,我们可以随机化物体的参数,例如对象的位置、旋转、动画、纹理和光照等。由于实时渲染逼真的3D场景,图像(帧)几乎是即时生成的。随着该项目解决了设备自动化和尺寸调整等问题,额外的功能也被不断添加到感知包中。该项目的目标是通过使用混合形状随机化控制器脚本和目前正在开发的其他操纵和蒙皮工具,随机化数字人类的混合形状并自动调整他们的参数。我们与客户密切合作,在四周内创建了他们需要的合成数据集。我们修改了现有的随机化控制器,并设置了内部和外部场景环境,包括人物和照明的随机化,以满足客户的需求。在对这项工作进行优先排序后,我能够将重点放在人物操纵和蒙皮自动化工具上。我希望在实习结束时完成一个骨骼放置工具,与一个皮肤自动化工具一起工作。


我在这两个项目上的经历都非常有益,因为我能够了解更多关于合成数据的知识,并在经理、导师和同事的支持下,在快节奏的环境中处理具有挑战性的问题。在客户项目中的工作最初是非常令人畏惧的,但结果证明它为我带来的却是无价的经验。反复查看他们的反馈很有启发性,因为机器学习与游戏开发有着不同的需求,在游戏开发中我有更多的经验。此外,我获得了更多关于高清渲染管道和着色器图形的知识,包括照明、后处理和创建随机纹理外观的着色器图形。我很快熟悉了Unity感知包,更具体地说,熟悉了随机化控制器的逻辑,这样我就可以根据需要修改它们。然后我用这些新发现的知识从头到尾重新编写了混合形状随机化控制器,它将网格作为新的混合形状添加到目标网格中,并随机化它们的权重。这教会了我更多关于混合形状以及Unity和感知的特定应用编程接口的知识。此外,我进一步深入研究了Houdini Python脚本,因为我致力于将顶点数据从Houdini中的网格导出到. json文件。这个文件将被交给Unity中的骨骼放置工具,该工具将获取顶点数据来计算预期的骨骼位置,并将它们生成到一个目标网格上,该网格的顶点标识与我们之前从其收集数据的网格的顶点标识相同。这个工具是我目前正在开发的,正如前面提到的,将在实习结束时完成。然后,生成的骨骼将用于使用蒙皮自动化工具对网格进行蒙皮,该工具目前由我的同事开发。总的来说,我获得了大量的技术知识,对此我非常感激,我期待着学习更多的知识来帮助Unity及其客户在合成数据生成方面取得成功!


三维捕捉模拟的编码优化

皮瑞亚卡(Priyanka),MSc,西蒙·弗雷泽大学科学(视觉计算)系


实时3D正在改变当今世界,为了创造最逼真的内容以获得沉浸式的3D体验,3D和体积捕捉是制作逼真复制品的基础。Unity Simulation平台正在通过体积和3D捕捉模拟技术为这个不断增长的市场铺平道路。由于3D捕捉仍然是相对较新的技术,因此需要大规模模拟来改进3D捕捉算法并创建最佳捕捉场景。对相机布局、场景、演员和灯光的详尽测试对于捕捉真实的模拟内容是必要的,但可能会非常耗费资源。该项目提供了一个最佳解决方案,并降低了希望在推进项目时就3D捕捉和体积视频模拟做出明智决策的客户进入的门槛。


这款3D和体积捕捉模拟器可帮助客户更好地了解其用例从端到端的整个过程,并在过程结束时可视化最终的3D内容。它是专门为减少和解决客户面临的问题而设计的,例如为体积捕捉场景找到最佳的摄像机布局,或者模拟对无限多种对象的捕捉。该模拟器使客户能够模拟多种设置并评估硬件部署,以便他们能够为大规模的硬件密集型技术(如3D和体积捕捉)做出明智的决策。可配置模拟器不仅提供了对过程的详细见解,还提供了运行多个随机实验的机会,以在不同的环境中生成源3D数据,这是优化、高质量3D内容生成的关键要求。


虽然我过去曾使用Unity构建游戏,但第一次使用3D内容捕捉和模拟令我感到难以置信且收获颇丰。在这次实习过程中,我很快学会了如何将3D内容集成到具有模拟器特定要求的引擎中,例如为更多样化的数据提供不同的场景选项、存储元数据和模拟传感器数据集,以及提供可修改的配置,使客户能够在各种情况下提高其3D捕捉解决方案的质量。随着全球体积视频市场的持续增长,我将很高兴看到Unity如何使用这一工具来帮助客户成功满足其3D捕捉需求!

展开阅读全文

页面更新:2024-06-12

标签:蒙皮   视觉   计算机   网格   实习生   体积   标记   深度   图像   对象   真实   客户   未来   工具   项目   数据   用户   游戏

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top