在虚拟现实内容中心成立新闻发布会上上海科技大学教授及叠境科技联合创始人马毅进行了一场名为《当人工智能遇上虚拟现实》的演讲,他将VR的图像发展分为了几步,阐述了人工智能和光场技术在各个阶段不同的作用。
以下是演讲的主要内容:
几何信息对于3D场景很重要
在VR设备解决了显示的问题之后,之后VR的重点一定是内容。VR的历史很长,从军事到商业各个方面,这里就不多赘述了。我首先要讲的是,创新企业如何把技术带进千家万户,把成本、规模做大、做好。
比较早的吸引眼球的VR技术是QuickTime推出的全景相机,这是1995年的情况,那个时代主要就是把照片对应的点找到,进行粘贴。而对于“眼睛好”的朋友来说,这样粘贴是有一定问题的,只能大概地保持场景的几何情况,在细节上是会有一些瑕疵的,在之后很长时间的技术目标就是怎么去最小化这些瑕疵。所以很长时间这种全景照片虽然是不错的,但是总让人感觉没有那么真实,老百姓可能一开始看这个挺震撼的,可是看多了总会感觉差那么几口气儿。
对于VR来说,我们对于一个场景的要求是一个场景的3D几何关系要正确,还有纹理、颜色等各方面要非常精确,这一点还远远达不到人的视觉要求。
随着数据科学的发展,尤其是海量高维数据的工具的发展,我们现在已经可以上千万个像素里提取整个场景里整体的几何信息,而且可以提取到非常精准,这就为VR和AR铺平了技术上的道路。
包括现在视频也可以用到相似的技术,你可以做一个全真的奥巴马的演讲,让他讲一段他从未说过的话,人眼几乎是分辨不出来的。
真正的VR或者AR是要让计算机去理解信息,不只是图片的信息,更多的是3D场景里几何的信息,并且要精确到人眼的数量级。
VR的第一步是真实浮现
虚拟现实可能是要分几步的,第一步就是真实浮现,我们如何将一个场景的几何信息等等真实地浮现出来。这就涉及到应用而不是局限于简简单单地重建,计算机需要对几何关系、相互关系动态关系、时空关系进行大量地理解。这才能做到最后的智能视觉,也就是计算机可以与人进行智能的交互。
这也就是说VR会与现在火热的AI产生很多联系的。
这里提到虚拟现实的第一步,大家都知道,人眼是对光的采集系统,但是人眼并不是传统课本上讲的“小孔成像”,事实上人眼更接近于光场相机,可以采集不同方向的光线。人眼其实是一个动态采集的过程,所以为了更好地去还原人眼对于3D场景的感知,更合理的手段应该是使用光场相机。从多个方向、多个角度,对光线进行采集和重现。
简单来说,用两台相机来模拟你的两个眼睛,不同物体在投影面的距离是不一样的,左右之间的距离差是不一样的。所以立体的效果是可以利用视差来实现的,所以我们得到很真实的3D立体效果我们是不需要把3D模型完全恢复出来,其实只需要得到很正确的有视差的两幅图就可以了。
你可以认为这是一种2.5D的虚拟现实,只要让人视觉上感觉是3D就可以了。而我们平时用全景相机采集到的都是单幅的图,是没有深度的,那么我们怎么产生立体效果呢,这就涉及到前期的一些工作。
根据使用场景来近似地生成两幅图,这两幅图形成一定的视差,来模拟左右眼所应该看到的光线,这是从一张全景图来生成成对的图片,让场景产生立体的效果。这种技术有一定的局限性,就是这个效果是基本假设所有物体都比较远,距离相似,但是基本还是可以看出一定的视觉效果的。
那么更进一步的可以将照相机一一匹配,围成一圈,得到一个360度的视差感受,在处理之后,来进行实时的播放。
VR为AI提供了一个大型的数据平台,单张的全景图片是没有深度信息的,那么我们怎么通过人工智能和数据追问的方法来恢复深度信息呢?这也是我们最近在做的一些工作。
通过单张的图片,我们可以提取很多结构化的信息,3D物体与平面的信息事实上是可以恢复出来的,因为人脑本身也是可以做到的,我们可以利用人工智能的方法来学习人的这种智能。
另外人本身可以通过常识来判断物体的大小,我们可以通过数据追问的方法根据视角来了解物体之间的距离。通过人工智能的方法,我们可以把单张的全景图片来把3D几何恢复得比较到位。
这种工具事实上已经远远了传统的建模工具,可以在像素级的海量高维数据上直接得到精准的、全局的几何信息和照相机定位,这方面的发展应该是很快的。
除了立体效果,人眼很神奇的功能是可以进行动态对焦的,实际上如果你在VR中任何一个角度看都是非常精准、非常清晰,人会认为看到的是假的。
因为人眼只有聚焦的地方是清晰的,而其他部分是模糊的,因此如果你所处的场景整体都是非常清晰的,你就会认为这个场景是计算机生成的,它还得不到一个真实的形状。
这也是国内外技术公司在解决的,怎么根据聚焦来调整清晰度,怎么来获取深度信息,并且根据深度来模糊化,要做到这些,你就必须要拿到整个场景的光场信息。麻省理工大学就根据这个进行了一个Virtual Eye project,现在技术发展之后,照相机可以做得越来越小,越来越高效。
下一步,如果你想去掉图像中的格点,你只需要3D的深度信息就可以了,甚至都不需要很精准,你可以用一个扫描仪。比如我们用扫描仪扫描上科大的会场,把大概的深度信息找到。把3D的模型和光场照相得到的阵列进行匹配,这种算法很简单,现在可以做的非常快。你可以聚焦到前排,也可以聚焦到后排,这种感受就和人眼感受到的自然场景非常接近了。
最终目标是还原3D建模
我们之前一直在讲2.5D,而我们最终的目标还是重建3D。对于如何采集3D,光场也可以提供非常好的技术工具,一个光场其实就是一个照相机阵列,通过光场相机我们可以获得各个角度大量的照片,在我们计算角度、照相机位置以及它们之间的关系时可以带来很多的优惠。
用计算机来恢复有自遮挡的、很复杂的物体其实是很难的。
用两个光场相机还原的效果已经比较接近真实了,当然你可以用一整个光场相机阵列来还原。这里大概演示用了100个静态的相机和100个动态的摄像机。
静态的相机可以用来做什么呢?
大概用一秒种来拍摄,用算法大概花不到一分钟,3D建模就可以直接传到手机上了。
这只是静态物体,动态就更复杂了。人是活动的,而照相机是不动的,最需要解决的就是遮挡,而且人的肢体还会形成自遮挡。那你如何得到一个完整的3D的动态场景?
我们运用了大量人工智能的方法,进行了多帧之间的对应,然后恢复,把模型补全以后再投影回去。我们可以用同样的系统在美国采集歌舞表演,然后在中国看到。实际上,现在我们的工程细节可以做得更好了。
而这只是物体的形状,有些时候人的关注不只在形状,而在它的光学性质,像玉、瓷器、金属等等。例如我们还原一个唐三彩,我们只是还原马的形状,然后随便上一下色,它看上去就会很假,你如何把它反光、细节等等反馈出来,这实际上就需要用到数据追问的方法。
我们用人工网络的方法采集了大量的数据来模拟陶瓷、唐三彩。完成的成品甚至比你在博物馆或者拿在手上看到的更清晰、精准。你可以把3D建模精准地放在苹果的ARKit里。
你可以用它来干什么呢?你可以用它来买东西,那些剁手党们可不止要剁一只手了,当然如果你有VR头显的话就可以看得更震撼,你可以用你采集到的物体和手机以及头显产生各种想象不到的结合。ARKit甚至把背景光也加入了,所以你是没有太假的感觉的。
这项技术也可以运用到影视领域,利用光场和VR制作的电影《Pippa’s Pan盼》入围了戛纳电影节。光场相机可以提供给艺术创作者更多的方式来表达,也提供了更多的了不起的讲故事的技术手段。