东江网热门内容: 东江时报 今日惠州 东江传媒 图片聚焦

AI根据“记忆”生成超逼真场景,游戏终于要以假乱真了

时间:2017-08-17 11:53   来源: 搜狐    作者:苏婉蓉

原标题:AI根据“记忆”生成超逼真场景,游戏终于要以假乱真了

编者按:最近十多年来,人工神经网络的研究工作不断深入,取得了很大的进展:在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题。这一次AI又一次向人类展现了极大的潜能。不仅能记忆,识别,甚至开始自己想像?!斯坦福大学的陈启峰利用人工神经网络生成了现实感极强的虚拟世界。但是,AI的想象要想呈现逼真的效果,不仅要技术,还需大量人力。本文编译自New Scientist发表的原题为“AI artist conjures up convincing fake worlds from memories”的文章。

AI根据“记忆”生成超逼真场景,游戏终于要以假乱真了

世界不思议

上图的照片是德国街道的景象。乍看上去像是行车记录仪拍下的模糊照片,或者是经过修图软件修过的快照,让照片看起来有点朦朦胧胧。

然而,你在Google地图上哪里也找不着这个地方。因为它是由人工神经网络“想象”出来并生成的图像,神经网络经过训练后,由它对真实街道的记忆拼接而成。

人工神经网络是由多个非常简单的处理单元彼此按某种方式相互连接而形成的计算机系统,该系统考其状态对外部输入信息的动态响应来处理信息。

--美国神经网络学家Hecht Nielsen对人工神经网络的定义

“图中没有一样东西真实存在。“加州斯坦福大学陈启峰说。事实上,他的AI通过大致的布局,知道图中每一个部分大概是什么物件。图像中心可能标记着“路”,途中其他地方可能写着“树“,”车“等等。这幅图是由AI艺术家用数字“绘制”的。

AI根据“记忆”生成超逼真场景,游戏终于要以假乱真了

左边是输入的图像语义布局,右边是生成的图片

陈启峰说,这项技术最终可能用来创造与真实世界非常相似的游戏世界。“运用深度学习来制作电子游戏或许是我们未来的发现。”他已经开始试着用算法来替代侠盗猎车手5的游戏世界了。

要做到逼真 前路漫漫

纽约康奈尔大学的Noah Snavely赞叹不已。他解释说,要实现逼真的人工世界是很难的,即使是现有的最棒的技术也做不到。陈启峰的系统的成果是他所见过的同类型实验结果中规模最大,细节最丰富的。

Snavely还说,这项技术能够让人们能够创造虚拟世界:先由人作描述,再用AI在虚拟现实中搭建这个世界。“如果只要通过描述便能够构造现实般逼真的世界,那就太棒了。“

陈启峰的系统首先处理一张它未“见过“的照片,照片上是现实中存在的街道。但是这张照片上做了标记,所以AI知道哪个部分是车,哪个部分是人,哪个部分是路等等。然后AI就用这张图的布局作为一个向导,来生成一张全新的图像。

AI根据“记忆”生成超逼真场景,游戏终于要以假乱真了

第一行是输入的语义布局,第二行是陈启峰AI得出的结果,第三行是别的系统得出的结果,可见陈启峰的AI得出的结果更具实感

这个AI接受三千张德国接到图片的“训练”后,当它处理到照片上标记这“车”到地方学习,他就用已有“知识”来独立生成一辆车。“我们想让这个网络记住他在数据中曾经看过什么。“陈启峰说。

英特尔的研究人员将在今年10月末在意大利威尼斯举行的计算机视觉*国际大会上展示他们的成果。

如梦如幻 似真非真

还有一个较小的室内家居数据库用以训练和测试这个算法,Snavely觉得要发挥这个算法的潜能, 需要一个能够真实反映世界多样性的数据集。但是,说起来容易做起来难,因为用于训练的图像中每个成分都需要人力亲手进行标记,即使是创造一个较小的数据集,由于其细节丰富,也需要大量人力。

AI根据“记忆”生成超逼真场景,游戏终于要以假乱真了

最左侧是给AI提供的语义布局,左二是AI得出的结果。右边三列是其他不同质量的效果。

陈启峰说,他的系统还需要经过漫长的努力才能够打造“真实“的世界。目前它生成的图像仍然朦朦胧胧,亦真亦幻,因为神经网络还无法将我们期待的细节巨细无遗地填充到照片中。陈启峰已经开始开发一个规模更大的系统,希望新系统的功能更完善。

然而,在虚拟现实中构建场景时,或许朦朦胧胧的质感并不是件坏事。Snavely说,我们对电影和游戏中精细现实的场景已经见怪不怪,习以为常,但是大家对虚拟现实精细程度没有抱有那么高的期待。“不需要做到完全跟现实一样”

AI根据“记忆”生成超逼真场景,游戏终于要以假乱真了

*计算机视觉是一个跨学科领域, 涉及如何使计算机“理解”数字图像或视频。从工程学的角度来看, 它的目标是将人类视觉系统的功能自动化。计算机视觉任务包括一系列方法,让计算机能获取、处理、分析和理解数字图像以及从真实世界中提取的高维数据,从而产生数字或符号信息。理解这个环境,意味着视觉图象 (视网膜的输入)转换成对世界的描述,这些描述可以与其他思考过程接口并引发适当的行动。这种对图像的理解,可看做是用几何、物理、统计学和学习理论构建出模型来解析图像数据中符号信息。计算机视觉的子域包括场景重建、事件检测、视频跟踪、目标识别、3D 位姿估计、学习、索引、运动估计和图像恢复。

有兴趣者可参见陈启峰论文