城市站点
> deepfake换脸教程(DeepFake换头术升级:浙大新模型,GAN出一头秀发)
详细内容

deepfake换脸教程(DeepFake换头术升级:浙大新模型,GAN出一头秀发)

时间:2022-08-16 10:48:44     人气:274     来源:www.zhongshaninfo.com     作者:爱发信息
概述:......

编辑:袁榭 拉燕

新智元导读】虽然DeepFake能令人置信地换脸,但没法同样换好头发。现在浙大瑞典研究者都扩宽思路,用GAN或CNN来另外生成逼真的虚拟发丝。


DeepFake技术面世的2010年间末叶,正好赶上了川普时代。


无数搓手打算用DeepFake来好好恶搞大总统一下的玩梗人,在实操中遇到了一个不大不小的障碍:


各家DeepFake类软件,可以给图像换上金毛闯王的橙脸,但那头不羁的金发实在让AI都生成不出令人置信的替代品。




看,是不是那头毛就让DeepFake产品露馅了。


DeepFake搞得定换脸,也搞不定换头发


其实这是老问题遇到了新挑战。如何栩栩如生地复现人像模特的头发,这是一个自希腊-罗马时代的雕像师开始就很觉棘手的难题。


人脑袋平均有大概100000根头发丝,并且因为颜色和折射率的不同,在超过一定的长度后,即使在计算机时代也只能用复杂物理模型进行模拟,来进行图像移动和重组。


目前,只有自20世纪末以来的传统CGI技术可以做到这一点。



2017年的CGI头发模型处理结果


当下的DeepFake技术还是不太能解决这个问题。数年来,DeepFaceLab也只发布一个仅仅能捕捉短发的「头部全体毛发」模型,发部还是僵硬的。这还是一款在业内领先的软件包。


最近,DFL的合作伙伴FaceSwap做出了BiseNet语义分割模型,能

http://www.jsyunjun.com/file/upload/tt1999/999.jpg

使用户在deepfake输出图像中包括到耳部和头发的图形细节呈现。


这两套软件包都来自2017年Deepfakes的源代码,在当时颇受争议。


就算现在DeepFake模型要呈现的头发图像非常短,输出结果的质量往往也很差,头像好像是叠加上去的一样,不像是浑然一体的图像一部分。


用GAN来生成毛发


目前,业界用来模拟人像使用最多的两种办法,一个是神经辐射场技术(Neural Radiance Fields)。NeRF可以从多个视角捕捉画面,之后可以将这些视角的3D成像封装在可探索的神经网络AI里。


另一种办法则是生成对抗网络(GAN),GAN在人类图像合成方面比NeRF更加先进,即使是NeRF在2020年才出现。


NeRF对3D几何图形的推测性理解,将使其能够以较高的保真度和一致性,对图案场景进行复制。哪怕当前没有施加物理模型的空间、或者准确来说和摄像头视角无关的变化,所收集的数据导致的变形都是一样的。


不过就目前来看,NeRF模拟人类发丝运动模拟的能力并不出色。


与NeRF不同,GAN天然就有个几乎致命的劣势。GAN的潜在空间并不会自然包含对3D信息的理解。


因此,3D可感知的GAN所生成的人脸合成图像,在近几年成了图像生成研究的热点问题。而2019年的InterFaceGAN是最主要的突破之一。

http://www.jsyunjun.com/file/upload/tt1999/999.jpg

deepfake


然而,即使是在InterFaceGAN展示上的精心挑选的图像结果,也都表明:在时间的一致性的表现上,神经网络AI生成发丝图像达到令人满意的一致性依然是一项艰巨的挑战,应用在VFX图像工作流程中仍然性能不可靠。



用InterFaceGAN换脸后,头像上的发丝出现蒸腾效果


越来越明显的是,通过操控神经网络AI潜在空间进行的连贯视图生成,可能是一种类似炼金术的技术。


越来越多的论文中不得不另辟蹊径,将基于CGI的3D信息作为稳定的和规范化的约束,纳入GAN的工作流程。


CGI元素可以由3D形式的中间图形元表示,比方说「蒙皮多人线性模型」(SMPL,Skinned Multi-Person Linear Model)。


又或是应用和NeRF模式相近的3D推断技

http://www.jsyunjun.com/file/upload/tt1999/999.jpg

术得出,在这种技术中,图像的几何元素是从源图像和源视频中评估出来的。


就在本周,悉尼科技大学的ReLER实验室、AAII研究所、阿里达摩院以及浙江大学的研究者合作发布了一项论文,描述了用于3D可感知图像合成的「多视角连贯性生成性对抗网络」(MVCGAN)。



MVCGAN生成的头像


MVCGAN包含了一个「生成辐射场网络」(GRAF)AI,它可以在GAN中提供几何限制。理论上来讲,这个组合可以说实现了任何基于GAN的方法的最逼真虚拟头发输出结果。



MVCGAN生成的带发丝头像与其他模型生成头像的对比


从上图可以看出,在极端发丝参数下,除MVCGAN外,其他模型的图像结果都产生不可置信的扭曲


不过,在CGI工作流程中,以时间为基础的虚拟发丝重建依然是一项挑战。


因此业界尚无理由相信,传统的、基于几何图形的办法,能够在可预见将来能把具有时间一致性的发丝图形合成带入AI的潜在空间中。


用CNN生成稳定的虚拟头发数据


不过,瑞典查尔默斯理工学院三位研究人员即将发表的论文,或许还可以为「用神经网络生成人发图像」的研究提供新进展。


这篇题为《用卷积神经网络实时进行毛发滤镜》的论文即将在2022年5月份的重要学术会议「交互式3D图形和游戏盛会」上发表。




该系统由一个基于自动编码器的神经网络AI作为基础,该神经网络AI能够实时评估生成的虚拟发丝图案分辨率,包括发丝在虚拟空间中自动产生的阴影和头发厚度呈现。此自动编码器的随机数种子来自于由OpenGL几何体生成的有限随机数样本。


由这种方法途径,就可以只渲染有限数量的、具有随机透明度的样本,然后训练U-net来重建原始图像。




该神经网络在PyTorch上进行训练,可以在6-12小时内完成训练达到收敛,具体市场取决于神经网络体量和输入特征值的数量。然后将训练的参数(权重)用于图像系统的实时实现。


训练数据集,则是通过以随机距离、姿势以及不同的照明条件,来渲染数百张直发和波浪发型的实际图片而生成的。


样本中的发丝半透明度数值,是从在超采样分辨率条件下、以随机透明度渲染的图像平均求得的。


原始的高分辨率数据,先被降采样,以适应网络和硬件限制;然后在典型的自动编码器工作流程中进行上采样,以提高清晰度。




利用从训练模型派生的算法的「实时」软件,作为此AI模型的实时推理应用程序,采用了NVIDIA CUDA、cuDNN和OpenGL的混合。


初始输入特征值被转储到OpenGL的多重采样颜色缓冲区中,其处理结果在CNN中继续处理前会分流到cuDNN张量,然后这些张量将会被复制回「实时」OpenGL纹理中,以施加到最终图像中。


这个AI的实时运行硬件是一张NVIDIA RTX 2080显卡,产生的图像分辨率是1024x1024像素。


由于头发颜色的数据值与神经网络AI处理的最终值是完全分离的,因此改变头发颜色是一项容易的任务,尽管虚拟发丝的渐变和条纹等效果仍然将在未来构成挑战。




结论


探索自动编码器或GAN的潜在空间,仍然更类似于靠直觉的驾帆船,而非精确驾驶。只有在最近的时段,业界才开始看到在NeRF、GAN和非deepfake(2017)自动编码器框架等方法中生成「更简单」的几何形状(如人脸)的可靠结果。


人类头发显著的结构复杂性,加上需要结合当前物理模型和图像合成方法无法提供的其他特征,表明头发合成不太可能仍然只是一般面部合成模型中的一个集成组件。此任务需要复杂的、专用的和独立的神经网络AI来完成,即使这些神经网络最终可能会被纳入更广泛、更复杂的面部合成框架中。


参考资料:

https://www.unite.ai/tackling-bad-hair-days-in-human-image-synthesis/

https://arxiv.org/pdf/2204.06307.pdf

(声明: 网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。 )
  • 来源:the verge

    编辑:LRS

    【新智元导读】一向宣称保证内容真实性的Adobe最近发布了一个新项目Morpheus,可以给视频中的人物换表情、换胡子,但官方拒绝承认这是Deepfake,并且表示这个项目还在评估中,并不一定能最终上线。


    Deepfake类的技术对图像、音频和视频编辑的软件生态产生了巨大影响,让图像、视频的造假成本直线降低,也产生了很多娱乐玩法。


    但作为图像、视频处理行业的巨头,为什么Adobe仍然没有类似的功能上线?


    答案很简单,Adobe一直在仔细地审查这项技术的应用前景,以及所带来的后果。




    最近Adobe在它的年度设计大会上放出了一项新的预览功能Project Morpheus,这项功能实际上是2020年大会上发布的神经网络滤镜(Neural

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    Filters)的视频版,这些滤镜通过使用机器学习来调整图像人物的外观、年龄、头发颜色,甚至面部表情。


    除了人以外,神经滤镜还可以用于风格迁移,把正常的图像换成梵高风格。




    还能够使用内容感知颜色来自动着色黑白照片。使用超级缩放滤镜,可以在放大时增加某些肖像区域的分辨率,这个功能还可以解决由JPEG压缩引起的质量损失,或者使照片的主题元素更清晰,从而更加醒目等。


    但把如此繁杂的功能加入到可视化界面中还需要一定的时间,还需要设计更多的教程、提示以及搜索功能。


    Morpheus能够对视频做出相似的调整,并且还添加了一些新的滤镜,例如可以为视频中的人物改变胡须形状、添加眼镜等。




    虽然生成的效果并不是完美的,并且相比Deepfake实际能做的事情来说非常有限,例如只能对图片进行微调,并不能直接换脸。而且该功能只是一个原型,无法保证它肯定会上线在Adobe软件中,Adobe目前也仍在调研这项技术是否会产生负面影响。


    Adobe发言人表示:与Adobe Max Sereaks一样,

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    Project Morpheus是实验室和工程团队的探索性和前瞻性技术,这些概念证明的想法并不一定会出现在产品中。我们的创新必须与责任相互平衡,以确保Adobe的技术是对客户和社会有利的。Adobe的AI技术发展是由责任感、使命感和公开透明共同驱使的。


    尽管Project Morpheus 实际上就是一个Deepfake 的工具,但由于deepfake 的口碑一向不太好,很容易让消费者往色情、政治上面联想,不利于商业宣传,所以Adobe 并没有公开声明这是一个Deepfake 工具。


    Adobe在内容真实性上一向很较真。


    2019年,Abobe首次发布内容真实性倡议(Content Authenticity Initiative),该项目旨在借助纽约时报和推特的帮助,试图减少仍然在网络上传播的、被修改过的图像的数量。


    Adobe表示,该技术通过对图像元数据进行标记和加密,以帮助公众妥善保存和验证图像、视频和其他内容的真实性。


    外媒Wired杂志也认为该计划可以帮助像Twitter和Facebook这样的社交媒体网络鉴别图像真伪,并且Facebook将他们已经上线用来标记误导图像的自动化系统提供支持。这项技术也可以帮助你鉴别朋友圈的图像是否真的来自你的朋友。


    2021年末,这项技术将开启beta测试,能够让摄影师、艺术家将他们独特的数据加入到图像细节编辑文件的历史记录中。


    今年年初,「蚂蚁呀嘿」火遍全网,背后用到的技术就是Deepfake。



    http://www.jsyunjun.com/file/upload/tt1999/999.jpg


    只需要输入一张图像和一个名为Avatarify的app就能让静态的图片动起来,做着相同的动作,共同说着「蚂蚁呀嘿」。




    但仅用7天Avatarify在国内就被火速下架了,因为这类的软件被滥用则会侵犯其他用户的隐私权,甚至可能会用于诈骗。




    尽管生成的假视频十分逼真,但AI程序实际上并不懂真实世界,所以在细节上很容易看出来是假的,也有一些肉眼分辨假脸的技巧。


    下图中这个人头顶位置出现的大块的怪异斑点的现象在AI生成的图像中很常见,与几年前谷歌的DeepDream实验的表现一致。




    假脸上的配饰也是一个突破口。但是,当你看这个人的耳朵时,会发现图像略微不对称。一侧头发显得模糊而

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    且看上去很奇怪,且一只耳朵上没有耳环。


    算法不具备常识,并且不懂规则,比如不知道耳环一般要两只耳朵都戴。因此,AI算法有时无法生成足够真实的面部特征或首饰等。


    AI算法也不知道正常人应该有多少颗牙以及这些牙齿的朝向。一般AI算法不会选择多角度描绘出这些牙齿的样貌,而是乱来一气,下面图中的虚假头像的牙齿就是典型例子。




    下面这张图可能稍微难辨别一点,但如果你仔细看她的牙,会发现她中间第三颗牙异常地小,而且耳朵也非常不自然,所以这也是一张生成的假头像。




    下图中的女性的衣服明显有问题,注意这张图片的背景也很奇怪,此外右侧的头发和耳环部分都很不自然,而且耳环只有一只。




    下图中人物的衣服实在太奇怪了,图中左侧的耳朵上并未戴耳环等配饰,但衣服上方却出现了一个悬在空中的“不明装饰物”,这种现象在AI生成的虚假图像中也不少见。


    deepfake

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg



    既然Adobe 只玩真实,相信这个功能上线后也不会让大家失望。


    参考资料:

    https://www.theverge.com/2021/10/27/22748508/adobe-deepfake-tool-max-project-morpheus

  • 这个词通常描述用人工智能或合成媒体技术篡改过的视频,通常被称为Deepfake。研究人员和立法者担心,这些经过数字处理的视频可能会被替换,而传播假信息的阴险方法将会猖ramp。但是,如果我们不小心的话,这些进步可能会付出巨大的代价:同等的基础技术也可能导致欺骗。

    几十年来,计算机软件已使人们能够管理照片和视频或从头开始创建假图像。通常为经过Adobe Photoshop或After Effects之类的软件培训的专家保留的过程。现在,人工智能技术正在简化策略,从而减少了篡改数字图像所需

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    的价值,时间和技能。这些AI系统自行学习,通过分析数千个真实图像来构建伪图像;意味着他们将要处理大量的工作量。这也表明人们可以制造比他们需要的更多的假货。

    用于创建深层伪造的技术仍然是相当新的,因此结果通常易于逃避。技术是一个不可阻挡的不断发展的领域。尽管这些工具可能会检测到这些虚假视频,但深度欺诈也在不断发展,但一些研究人员担心它们不会随时准备前进。

    视频收藏可能是计算机数字欺骗的提纲。通过检查所有这些图像,人工智能系统确定了观察假货的方式。Facebook还试图与假货作斗争,让演员制作假视频,然后将其发布给外部研究人员。一家名为Dessa的

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    加拿大公司的工程师专注于AI,最近他们测试了使用Google的合成视频制作的Deepfake检测器。它可以识别几乎完美的Google视频。但是,一旦他们在从网上获取的Deepfake视频上测试了检测器,它就会有40%的时间失败。这非常令人震惊,我们正在制造某种邪恶,甚至我们都无法阻止。

    研究员Niessner博士正在努力开发能够自动识别并扣除深层造假的系统,这通常是同一枚硬币的另一面。检测人员通过分析图像来学习其技能。检测器也可以大大改善。Niessner博士和其他研究人员说,但这需要无休止的最新数据流,这些数据代表互联网上使用的最新Deepfake技术。收集和共享适当的数据通常很困难;例子很少,并且出于隐私和版权的原因,公司将不会总是与

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    外部研究人员共享数据。

    deepfake

    Deepfake技术的成本不仅仅是理论上的。合成声音正被用于大型欺诈交易,据称人造面孔支持间谍活动。尽管面临着挑战,以共同破解Beta级质量的软件,

    http://www.jsyunjun.com/file/upload/tt1999/999.jpg

    但所有这些都是如此。使用合成媒体的障碍仍然太大,以至于该技术无法吸引大多数恶意行为者,但是由于它已经从错误的Beta版转移到数十亿人的手中,因此我们有责任通过使其成为最坏情况来避免尽可能地使用伪造品来邪恶。最后,随着我们未来的发展,我们没有发布的技术也随之发展。人工智能是一种重要的贡献者,被用作“武器”会加剧事情的发展。因此,也许我们想重新思考AI的责任和道德规范(等等?道德规范!)


  • 阅读全文
    分享