城市站点
> deepfake是什么意思(AI换脸术,Deepfake是如何做到天衣无缝的?)
详细内容

deepfake是什么意思(AI换脸术,Deepfake是如何做到天衣无缝的?)

时间:2022-08-16 10:49:37     人气:116     来源:www.zhongshaninfo.com     作者:爱发信息
概述:......

前段时间,一个叫做“将朱茵的黄蓉换成杨幂的脸”的热门话题在微博上爆火。原以为又是一波P图热潮引发的粉丝狂欢,没想到小智在浏览具体内容之后发现:这次换脸的形式不是图片,而是视频——

一位B站UP主用AI技术,将杨幂的脸“贴”在了朱茵饰演的黄蓉脸上。





说实话,看到视频和gif的小智真的被惊到了。

一方面,大幂幂的颜+朱茵的演技,这真的是神仙搭配呀!

另一方面,不同于传统观念里恶搞视频的“五毛特效”,这次的特效视频根本看不出P图痕迹,真实得宛如原作。



这到底是什么神奇操作?又运用了什么样的智能技术?小智立刻展开了调查。

Deepfake技术

原来,这种神奇的换脸效果使用的是一种叫做Deepfake的人工智能技术。

什么是Deepfake?

deepfake

Deepfake一词由“Deep learning”(深度学习)和“Fake”(假)组成,其含义是在图像或视频中把一个人的脸替换成另一个人的脸。这项技术的出现可以说是人脸交换技术的一个重要突破。



Deepfake中文网站


几年前的Deepfake技术并没有像现在这样广泛的获取渠道,技术门槛也比较高。后来,有人推出了Windows程序FakeApp,即使是对人工智能或是对视频剪辑一窍不通的外行,只需要一个GPU和一些训练数据,再通过按部就班的操作也能制作出换脸视频。

同时,Deepfake在GitHub 上也已经开源,这一系列的变化都大大降低了Deepfake的获取门槛。

技术原理

从技术角度而言,Deepfake是深度图像生成模型的一次成功应用。

在模型训练期间,先把目标人物A的脸抠出来,定位好A的五官位置,训练出一个“无论怎么扭曲和变化A的脸,最后都能生成正常的A脸”的网络。



http://www.jsyunjun.com/file/upload/tt1999/999.jpg

五官定位示意图


网络训练好后,我们再向其中输入B的脸。此时,在神经网络的逻辑看来,B的脸就是“以某种方式扭曲的A的脸”,需要它来进行“纠正”。并且数据越多,效果越好。

操作流程

在FakeApp上的具体的操作大体分为3个步骤:原始数据集获取,模型训练,视频生成。

首先,我们需要一个包含Nvidia GPU的个人电脑,至少4GB的存储空间。至于训练神经网络所需的材料,用户则需要提供至少几百张照片或者时长足够的视频,以便FakeApp从视频中提取所有帧。然后调整合适的参数,就可以开始训练了。



图片或视频上传操作


在训练过程中,FakeApp会显示一个分数,数值越大则表示训练结果的偏差越大。当这个值低于0.02时效果通常就OK了,此时可以停止训练程序。这一过程需要的总时长从十几到几十小时不等。

最后选择上面训练好的模型和需要的换脸视频,再设置合适的帧率,就可以得到一段自制Deepfake视频。

关键机制

其实AI换脸也不算是新鲜事,不过早期的换脸效果确实差强人意。



http://www.jsyunjun.com/file/upload/tt1999/999.jpg

你看得出换上的是谁的脸吗?


那使用Deepfake生成的人脸为何如此逼真?

这很大程度上归功于一种叫做GAN(生成式对抗网络)的关键机制。

在GAN中有两个机器学习模型,一个扮演“造假者”,在数据集上训练后生成假视频;另一个则扮演“检测者”,不断地检测这些假视频,一直到它再也不能检测出结果是假的。

此外,用于训练的数据集越大,做出的Deepfake视频越真实。这也是为什么我们看到的Deepfake视频中出现的人物几乎都是著名的政客和明星——他们有太多的公开视频素材可供训练了。



尼古拉斯·凯奇:作品太多怪我咯?


全网热议

AI换脸的话题引发了众多网友的热议。吃瓜群众们表示,这下“P图宝贝”们可以名正言顺地换脸,假装自己在演戏了。





还有群众表示,“最强狗仔”卓伟就要失业了,以后明星的八卦视频都可以直接甩锅给“恶意换脸”,再也不用承认了。

对于影视从业者来说,这也是个好消息。因为以现在的技术,一些大型数字特效公司想要将一位演员的面容“移植”到另一个身体上,至少需要几个月的时间。特效公司工业光魔的首席运营官约翰·诺尔表示,如果这项技术能达到令人满意的视觉效果,同时能大幅度提高制作效率、节省成本,那他们会很乐于尝试。



《速度与激情7》中使用特效“复活”了保罗·沃克


当然,也有不少网友对这一技术表示了担忧







同样感到担忧的还有政界人物。美国总统大选佛罗里达州候选人卢比奥曾表示:过去想要威胁美国,可能需要航母、核武器,还有洲际导弹。现在只需要登录互联网系统、银行系统、电网,甚至只要弄出一段足以以假乱真的虚假视频搞乱选举,就足以让美国陷入内乱。

莫慌,造假有破绽

这些担忧不无道理。

你永远不知道最厉害的技术会落到什么人的手里,况且这还是已经开源了的技术。

为了防范Deepfake背后的社会安全隐患,纽约大学的研究人员研究后发现:在Deepfake生成的虚假视频中,人物的头部动作和瞳孔颜色通常会很怪异,并且几乎不怎么眨眼。这成了目前Deepfake无法逃脱的bug。



观察原视频和造假视频对应的关键帧,可以看出,假脸人物在原视频的眨眼处并没有眨眼


据了解,这一bug并非来自算法本身的问题,而是它使用的数据集。

当训练深层神经网络时,我们使用的是来自网络的静态图像。即便是像尼古拉斯·凯奇这样的公众人物,他的大多数照片也都是睁着眼睛的,一般很少有人会有大量的闭眼照。既然数据集中几乎没有眨眼图像,那么Deepfake就无法“学会眨眼”,或者眨眼的时长和频率都远小于正常人。

这样的进展,可以算是“魔高一尺,道高一丈”了。




科技时代,“技术造假”和“技术打假”必会进行旷日持久的战争。在鼓励研究人员找出“打假”方法的同时,小智觉得,我们还需要呼吁停止滥用技术以及传播相应的恶性作品。


毕竟,科技的发展不仅需要顶尖科学家们的努力攻克,还需要芸芸大众的共同维护。


编辑:Sue

图片来源于网络,版权归原作者所有,如有侵权请联系删除

(声明: 网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。 )
  • 编辑:袁榭 拉燕

    新智元导读】虽然DeepFake能令人置信地换脸,但没法同样换好头发。现在浙大瑞典研究者都扩宽思路,用GAN或CNN来另外生成逼真的虚拟发丝。


    DeepFake技术面世的2010年间末叶,正好赶上了川普时代。


    无数搓手打算用DeepFake来好好恶搞大总统一下的玩梗人,在实操中遇到了一个不大不小的障碍:


    各家DeepFake类软件,可以给图像换上金毛闯王的橙脸,但那头不羁的金发实在让AI都生成不出令人置信的替代品。




    看,是不是那头毛就让DeepFake产品露馅了。


    DeepFake搞得定换脸,也搞不定换头发


    其实这是老问题遇到了新挑战。如何栩栩如生地复现人像模特的头发,这是一个自希腊-罗马时代的雕像师开始就很觉棘手的难题。


    人脑袋平均有大概100000根头发丝,并且因为颜色和折射率的不同,在超过一定的长度后,即使在计算机时代也只能用复杂物理模型进行模拟,来进行图像移动和重组。


    目前,只有自20世纪末以来的传统CGI技术可以做到这一点。



    2017年的CGI头发模型处理结果


    当下的DeepFake技术还是不太能解决这个问题。数年来,DeepFaceLab也只发布一个仅仅能捕捉短发的「头部全体毛发」模型,发部还是僵硬的。这还是一款在业内领先的软件包。


    最近,DFL的合作伙伴FaceSwap做出了BiseNet语义分割模型,能

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    使用户在deepfake输出图像中包括到耳部和头发的图形细节呈现。


    这两套软件包都来自2017年Deepfakes的源代码,在当时颇受争议。


    就算现在DeepFake模型要呈现的头发图像非常短,输出结果的质量往往也很差,头像好像是叠加上去的一样,不像是浑然一体的图像一部分。


    用GAN来生成毛发


    目前,业界用来模拟人像使用最多的两种办法,一个是神经辐射场技术(Neural Radiance Fields)。NeRF可以从多个视角捕捉画面,之后可以将这些视角的3D成像封装在可探索的神经网络AI里。


    另一种办法则是生成对抗网络(GAN),GAN在人类图像合成方面比NeRF更加先进,即使是NeRF在2020年才出现。


    NeRF对3D几何图形的推测性理解,将使其能够以较高的保真度和一致性,对图案场景进行复制。哪怕当前没有施加物理模型的空间、或者准确来说和摄像头视角无关的变化,所收集的数据导致的变形都是一样的。


    不过就目前来看,NeRF模拟人类发丝运动模拟的能力并不出色。


    与NeRF不同,GAN天然就有个几乎致命的劣势。GAN的潜在空间并不会自然包含对3D信息的理解。


    因此,3D可感知的GAN所生成的人脸合成图像,在近几年成了图像生成研究的热点问题。而2019年的InterFaceGAN是最主要的突破之一。

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    deepfake


    然而,即使是在InterFaceGAN展示上的精心挑选的图像结果,也都表明:在时间的一致性的表现上,神经网络AI生成发丝图像达到令人满意的一致性依然是一项艰巨的挑战,应用在VFX图像工作流程中仍然性能不可靠。



    用InterFaceGAN换脸后,头像上的发丝出现蒸腾效果


    越来越明显的是,通过操控神经网络AI潜在空间进行的连贯视图生成,可能是一种类似炼金术的技术。


    越来越多的论文中不得不另辟蹊径,将基于CGI的3D信息作为稳定的和规范化的约束,纳入GAN的工作流程。


    CGI元素可以由3D形式的中间图形元表示,比方说「蒙皮多人线性模型」(SMPL,Skinned Multi-Person Linear Model)。


    又或是应用和NeRF模式相近的3D推断技

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    术得出,在这种技术中,图像的几何元素是从源图像和源视频中评估出来的。


    就在本周,悉尼科技大学的ReLER实验室、AAII研究所、阿里达摩院以及浙江大学的研究者合作发布了一项论文,描述了用于3D可感知图像合成的「多视角连贯性生成性对抗网络」(MVCGAN)。



    MVCGAN生成的头像


    MVCGAN包含了一个「生成辐射场网络」(GRAF)AI,它可以在GAN中提供几何限制。理论上来讲,这个组合可以说实现了任何基于GAN的方法的最逼真虚拟头发输出结果。



    MVCGAN生成的带发丝头像与其他模型生成头像的对比


    从上图可以看出,在极端发丝参数下,除MVCGAN外,其他模型的图像结果都产生不可置信的扭曲


    不过,在CGI工作流程中,以时间为基础的虚拟发丝重建依然是一项挑战。


    因此业界尚无理由相信,传统的、基于几何图形的办法,能够在可预见将来能把具有时间一致性的发丝图形合成带入AI的潜在空间中。


    用CNN生成稳定的虚拟头发数据


    不过,瑞典查尔默斯理工学院三位研究人员即将发表的论文,或许还可以为「用神经网络生成人发图像」的研究提供新进展。


    这篇题为《用卷积神经网络实时进行毛发滤镜》的论文即将在2022年5月份的重要学术会议「交互式3D图形和游戏盛会」上发表。




    该系统由一个基于自动编码器的神经网络AI作为基础,该神经网络AI能够实时评估生成的虚拟发丝图案分辨率,包括发丝在虚拟空间中自动产生的阴影和头发厚度呈现。此自动编码器的随机数种子来自于由OpenGL几何体生成的有限随机数样本。


    由这种方法途径,就可以只渲染有限数量的、具有随机透明度的样本,然后训练U-net来重建原始图像。




    该神经网络在PyTorch上进行训练,可以在6-12小时内完成训练达到收敛,具体市场取决于神经网络体量和输入特征值的数量。然后将训练的参数(权重)用于图像系统的实时实现。


    训练数据集,则是通过以随机距离、姿势以及不同的照明条件,来渲染数百张直发和波浪发型的实际图片而生成的。


    样本中的发丝半透明度数值,是从在超采样分辨率条件下、以随机透明度渲染的图像平均求得的。


    原始的高分辨率数据,先被降采样,以适应网络和硬件限制;然后在典型的自动编码器工作流程中进行上采样,以提高清晰度。




    利用从训练模型派生的算法的「实时」软件,作为此AI模型的实时推理应用程序,采用了NVIDIA CUDA、cuDNN和OpenGL的混合。


    初始输入特征值被转储到OpenGL的多重采样颜色缓冲区中,其处理结果在CNN中继续处理前会分流到cuDNN张量,然后这些张量将会被复制回「实时」OpenGL纹理中,以施加到最终图像中。


    这个AI的实时运行硬件是一张NVIDIA RTX 2080显卡,产生的图像分辨率是1024x1024像素。


    由于头发颜色的数据值与神经网络AI处理的最终值是完全分离的,因此改变头发颜色是一项容易的任务,尽管虚拟发丝的渐变和条纹等效果仍然将在未来构成挑战。




    结论


    探索自动编码器或GAN的潜在空间,仍然更类似于靠直觉的驾帆船,而非精确驾驶。只有在最近的时段,业界才开始看到在NeRF、GAN和非deepfake(2017)自动编码器框架等方法中生成「更简单」的几何形状(如人脸)的可靠结果。


    人类头发显著的结构复杂性,加上需要结合当前物理模型和图像合成方法无法提供的其他特征,表明头发合成不太可能仍然只是一般面部合成模型中的一个集成组件。此任务需要复杂的、专用的和独立的神经网络AI来完成,即使这些神经网络最终可能会被纳入更广泛、更复杂的面部合成框架中。


    参考资料:

    https://www.unite.ai/tackling-bad-hair-days-in-human-image-synthesis/

    https://arxiv.org/pdf/2204.06307.pdf



  • delight


    (? ̄△ ̄)?

    每天晚上一篇英语知识普及

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    英语罐头


    本文是我的第50篇英语知识文章

    今天我们来谈一些“不好”的知识

    不知道什么时候,大家都喜欢给别人一些惊喜,例如说秘密准备一个生日Party,给生日的人一个惊喜。更喜欢说一句:”surprise!“

    然而,现在到处都在说surprise,却显得非常不惊喜哦

    一.我的思绪都要爆炸拉!

    blow sb‘s mind 非常惊讶,兴奋

    (If something blows your mind, you find it very exciting and unusual)

    blow常常会表示”吹,刮“的意思,但同时,也有”炸毁,摧毁“的意思,因此,blow sb's mind表示非常兴奋,发现与日常一样的惊喜(连脑袋的意识都要炸掉了,可以不兴奋吗?)

    There was one scene in the film that really blew my mind.

    电影里面有一个场景让我非常兴奋。


    二.我的脸都要被炸飞拉!

    除了脑袋被炸飞之外,其实脸也是可以被炸飞的哦~

    blow up in sb's face 搞砸,告吹

    (To have a plan go wrong or awry)

    当然这并不是说真的把你的脸给炸飞(又不是恐怖组织),而是说,你原先的计划,或者事情并不按预想的剧本走,因此被搞砸了。

    All my plans blew up in my face.

    我的全部计划都搞砸了。


    三.这个也是大吃一惊!

    其实除了第一个blow关于吃惊的说法,还有另外一个关于惊喜,吃惊的说法:

    blow away 让某人大吃一惊

    (Informal to surprise or please someone very much)

    很多人在看见这个词汇,会以为是风把东西吹走或者是赶某人走的意思,但是真正的意思是指某人非常吃惊的意思

    The loud noise from the concert blew me away.

    演唱会的歌声让我非常吃惊。

    大家还有其他关于blow的词汇吗?可以在留言处留下你的评论哦!


    http://www.jsyunjun.com/file/upload/tt1999/999.jpg


    感谢大家的阅读,我是罐头菌

    快乐英语学习,放眼全球资讯,欢迎关注英语罐头




  • 阅读全文
    分享