新闻、谎言、假影片(2-4)

2020-07-13 分类:物流人工 作者:
新聞、謊言、假影片(2/4)

人工智慧让每一个人都能轻易篡改影音,最大的威胁将是我们不再相信任何事。

(续前文)

电脑虚构场景

假影片的发展可追溯到1960年代,人们第一次想到可以利用电脑製作影像。1980 年代,这些特效成为主流,影迷看着这项技术与时俱进,从科幻电影到1994年「阿甘正传」(Forrest Gump)主角阿甘跟美国总统甘迺迪握了手,2016 年「星际大战外传:侠盗一号」(Rogue One)则是让已过世的演员库兴(Peter Cushing)和费雪(Carrie Fisher)身影重现。南加州大学的资讯科学助理教授黎颢(Hao Li)是扩增实境(AR)新创公司Pinscreen执行长,他表示,这项技术的目标一直是「创造可以上演任何故事的数位世界。我们如何能创造看似真实的东西,但实际上都是虚拟的?」

早期,这些图像大多出自艺术家,他们使用电脑建立3D模型,然后手工绘製纹路与其他细节;这个过程冗长,无法扩大规模。大约20 年前,一些电脑视觉研究人员开始以不同方式思考图像:与其花时间在个别模型上,何不教电脑根据资料建立模型?1997 年,美国区间研发公司(Interval Research Corporation)的科学家开发出「影片重写」(Video Rewrite)软体,能把既有影片分割成片段,然后重新编排。研究人员製作了一小段影片,内容是甘迺迪说:「我从未跟阿甘见过面。」不久之后,德国马克士普朗克生物模控研究所的科学家教导电脑从200张人脸的3D扫描资料集里抓取特徵,然后製作新的脸孔影像。

近来随着一种名为深度学习(deep learning)的AI进展,电脑视觉、资料与自动化之间最大的突破应该是在2012 年。1990 年代晚期的研究是使用静态资料,而且并未改善;深度学习则不同,不但可调整功能,而且会渐入佳境。德国马克士普朗克科学史研究所的博士后研究员李晓昌(Xiaochang Li,音译)表示,这项技术把脸孔影像这类物件简化成位元资料,「这时工程师会说,我们不再依据某物建立模型。我们对某物一无所知,只是运算资料来了解模式、建立模型。」

深度学习使用一道道简单的数学方程式,其数学模型称为类神经网路(neural network),深度学习随着时间精通任务。例如资讯科学家可以教深度学习工具辨识人脸,方法是输入成千上万张影像,而且逐次说明「这是一张脸」或「这不是一张脸」。之后,当这种工具接收到新的人脸影像,就能辨识出构成人脸特徵的模式,然后(从统计上)回应「这也是一张脸」。

接续推出的新技术能够虚构出看起来像真人脸孔的影像,其深度学习工具就是所谓的生成网路(generativenetwork)。运用的是相同逻辑:资讯科学家以成千上万张影像来训练生成网路,但生成网路是根据从範例中蒐集的模式来製作新脸孔影像。现在有些公司使用相同的策略来处理音档。今年稍早,Google发表Duplex,它是基于WaveNet软体的AI助理;Duplex能拨打电话,听起来像真人说话,还会加上语气停顿,例如「呃」、「嗯」。将来,製作政客的假影片或许就不需要皮尔这类演员。去年4月时,加拿大新创公司Lyrebird发表了音档範例,听起来就像欧巴马、川普、希拉蕊在说话,令人不寒而慄。

但生成网路需要巨量资料集进行训练,这可能耗费大量人力。改善虚构内容的下一步是教AI训练自己。2014 年,加拿大蒙特娄大学的研究人员以生成对抗网路(generative adversarial network, GAN)做到这一点,方法是让两个类神经网路进行对抗。其一是生成网路,负责製作假影像,另一是鉴别网路,学习辨别影像的真伪。在几乎没人监督的情况下,GAN透过对抗方式训练彼此;鉴别网路辨别生成网路所製作越来越逼真的假影像,而生成网路不断想骗过鉴别网路。GAN可以製作任何数位内容。加州大学柏克莱分校的科学家发展出一种GAN,可以把马的影像变成斑马影像,或是把莫内这类印象派艺术家的画作变成如相片般真实的景色。

今年5月,德国马克士普朗克资讯学研究所的研究人员和同事发表了「深度影片」(deep video),也是使用某种GAN。深度影片能让演员控制录製影片里其他人的嘴、眼和脸部动作,目前只能在肖像姿态(也就是一个人直视摄影机)下运作;如果演员头部摆动的幅度太大,影片会有明显的瑕疵,例如人脸影像周围出现模糊的像素。

GAN还无法在影片中建构複杂的场景,一如影片所呈现的真实场景。有时,GAN会在影像中虚构出奇怪的东西,例如人的额头有眼珠。不过今年2月,辉达(NVIDIA)公司的研究人员找到方法,让GAN能製作出高解析度的脸孔影像;他们先以解析度相对较小的相片训练GAN,然后由GAN逐步提高解析度。南加州大学的黎颢团队已经使用GAN製作出逼真的皮肤、牙齿和嘴巴影像,这些都是数位方法难以重建的部位。(待续)

延伸阅读:真伪莫辨的人像产生器;AI影像真假难辨;超逼真!AI自动影片生成

上一篇: 下一篇: