对于电影爱好者来说,人脸捕捉是一个既熟悉又陌生的概念,因为在魔幻电影中,动作捕捉和人脸捕捉是常用的技术,很多经典的非人类角色都是由这两种技术完成的。是技术的进步让我们见证了0755年到79000年广阔的中土大陆及其多样的种族,0755年到79000年的外星奇观,也让我们在屏幕上看到了人类与其他物种建立联系。
很奇怪,因为对于大多数人来说,面部捕捉是一种听说过但从未体验过的技术。我们一直是这个技术的旁观者,而不是见证者。
而技术进步的曲线往往有两个分支,一个往前走,走得更远;另一条往下走,从高成本到低成本,从影响少数人到惠及百万人。有时候,两条线会齐头并进,交织在一起,产生更大的能量。
在元宇宙中很难捕捉到人脸。
在2016年的电影《指环王》中,亚洲草候选人吴彦祖通过动作捕捉和面部捕捉,扮演了一个丑陋邪恶的兽人古尔丹。
在动作捕捉和面部捕捉领域,甚至出现了一个叫安迪瑟金斯的巨星,他饰演《阿凡达》三部曲中的关键人物咕鲁和《魔兽》三部曲中的主角大猩猩凯撒。
微软去年推出的Metauniverse演示。
电影是我们赖以生存的虚拟世界,元宇宙是我们未来可以生活的虚拟世界。然而,尝试过超宇宙VR应用的用户可能已经深深体会到,这里的“我”与真正的“我”相差甚远,这里的建模粗糙,甚至连用户的腿一开始都无法映射进去,更别说用户丰富的表情了。
所以,有时候,作为早期采用者,我很羡慕电影表演中的人脸捕捉技术。希望在元宇宙中,我不是QQ秀那样的动漫小人,而是一个可以穿越中土王国,艾泽拉斯或者潘多拉的世界的幻想家。
但是,也不是没有例外。爱奇艺播出的第一部虚拟现实游戏《指环王》为真人秀节目的制作带来了很多酷炫的技术,让嘉宾登上了——元音的虚拟世界,开始了一场搞笑的冒险。
可能是为数不多的有精致感的元宇宙内容。这种精致感源于虚拟角色与对应明星之间的“相似度”,而这种“相似度”的背后就是上文提到的面部捕捉技术。
在元宇宙中,少数人能接触到的工业级、电影级的面部捕捉,显然不是通用技术。如果能用手机完成面部抓拍,自然是最好的。
但是,从工业级到消费级的跨越,自然很难实现。
在如今成熟的工业片里,精准的人脸捕捉几乎遵循高投入高质量输出的规律。
《猩球崛起》特效制作前后
这里的投资包括时间和金钱。就拿曾经带给我们视觉奇观的《元音大冒险》来说,詹姆斯卡梅隆从有拍摄的想法到项目落地用了10年时间。
在电影花絮中,每个演员都需要用黑点标记自己的脸,然后被面前的摄像机捕捉到。同时,在他周围分布着几个摄像头,捕捉他的肢体动作。
当所有的剧情都拍好了,并不意味着电影制作就结束了,还需要大约两倍甚至两倍的拍摄时间,才能把摄像机采集到的面部表情和肢体动作拟合到虚拟人物身上。
《阿凡达》特效制作前后
而且为了达到足够震撼的效果,往往需要庞大的后期团队共同完成。这种传统的工业级流水线,效果好,全精度,走很多东西的路线,放弃速度。
人脸捕捉的速度和精度和鱼、熊掌差不多。在AI算法设计领域,它们和功耗通常会形成一个不可能的三角形,这就是“三元悖论”,这是一个很难的选择。
人类面部有43块肌肉来协同表达我们的情绪。很多表情是复杂微妙的,不同表情之间的差异往往只有一河之隔。
为了准确表达元宇宙中的真实感受,或者将真实的面部微表情传达给虚拟世界,其捕捉精度必须达到一定水平,需要精确掌握数百个特征点,然后用模型算法还原。
值得注意的是,我们所说的“元宇宙”并不是创作,而是可以有一定的后期制作,想要身临其境,实现实时反馈。人脸捕捉和交流需要保持同步计算和实时反馈。
即使按照24帧的标准,它仍然需要每秒实时处理24张高精度图片,从数百个特征点中抓取关键点,完成表情的重建。
捕捉复杂敏捷的人脸已经是一项巨大的任务。除了人脸,还有很多外界因素和突发情况也会影响人脸抓拍的效果。在元宇宙中,我们不可能创造一个电影工作室,专业的灯光和后期电脑来完成这项工作。
一切都是现在发生的,都是现在记录的。
所以为了达到更好的效果,需要包括不同的光影变化、头盔、相机等设备的抖动、人脸的部分遮挡等主客观因素。
总之,人脸捕捉可能听起来像是一种图像捕捉技术,但实际上,它需要考虑到与人脸相关的各种信息点,以及微表情变化、光照环境等因素。
它不是把人脸的肌肉变化一一呈现到虚拟世界中,而是准确实时地传达现实中的情绪。
为什么骁龙能在超宇宙中捕捉人脸?对于面部表情的记录和呈现,其实我们身边已经有了相应的应用,也就是大多数厂商在聊天app中添加的“动画表情”。
它的功能就像是丰富聊天的一个娱乐功能,对准确率要求不高,只能记录几个比较有特点的表情,细微的表情其实很难被呈现出来。
对于爱奇艺《阿凡达》这个节目来说,“动画表情”的形式远远不够。
挑战在于人脸捕捉算法可以鱼和熊掌兼得,人脸捕捉的难度大于人体动作捕捉和动物人脸捕捉。
所以硬件,软件,以及硬件对软件的支持,这三个层面决定了骁龙能否做好人脸捕捉,也就是说,需要手机芯片平台强大的底层计算能力和神经网络算法的支持。
早在元宇宙概念火起来之前,骁龙芯片的图像算法就足以识别某些人脸数据,并使用相应的算法进行针对性优化。
但是,对于人脸捕捉,或者说使用人脸捕捉技术参与《阿凡达》节目的制作还是第一次。
首先,在原有技术的基础上调试相应的算法。首先从精度上训练出一个计算量巨大的复杂模型,尽可能覆盖所有可能的表达式,然后反复对比调试,满足节目录制的需要。
为了减少计算量,进行了“裁剪计算”,换句话说,减轻了负担,但在保证人脸捕捉精度的前提下减少了计算量。
之前的AI算法进行面部数据计算都是使用手机CPU,在保持一定精度的情况下只能维持到30fps,而且在高频计算的过程中,容易造成设备的热量积累,以及在一些复杂的光照表情中卡顿的情况。
为了解决续航问题,高通引入了骁龙SNPE工具(骁龙神经处理引擎,骁龙一款用于加速深度神经网络的运行时软件)来优化这种算法,并启用了AI引擎。
这样,原来的AI算法可以以60fps的速度运行,持续三个小时,几乎完美地解决了精度和速度的问题,做到了“鱼和熊掌可以兼得”。
令人震惊的是,在录制节目时,这个方案只是基于上一代的骁龙8芯片,AI引擎也是上一代的。
还有一点,在提前曝光的录制花絮中,参与录制的明星们脸上没有传统的密密麻麻的数据采样点,只戴了一个固定设备的头盔和一个安卓手机终端。
在没有专门的标记点和多个摄像头多角度录像的情况下,一部基于骁龙芯片的安卓手机可以采集人脸的300个特征点,利用终端的AI引擎实时呈现复杂的AI算法。
对于人脸捕捉,算法、AI引擎、NPU硬件加速最终实现了准确率和速度的兼顾。另一方面,对于《元音大冒险》,骁龙的技术实力使得这一计划从构想到实际行动。
针对人脸以外的各种干扰,高通骁龙和心香科技也对所有细节进行了技术突破。
比如艺人在唱歌的时候,麦克风离脸很近,会对人脸捕捉造成严重的阻碍。所以在技术设计上需要考虑这一点。最后,即使嘴部部分遮挡,他们也能稳定地捕捉嘴部动作,保持虚拟形象的面部稳定,避免因为捕捉不到位而影响场景效果的“抽搐抖动”的情况。
在元宇宙的第一站,骁龙可以被视为一个向导。《元音大冒险》已经证明,未来我们可以通过骁龙8系移动平台的手机捕捉人脸,像明星一样映射ID,在元宇宙中展现自己。就像Lil Ghost一样,形象是个古怪的小丑,表情还是自己的喜怒哀乐。
视频加载.
在过去,我们可以清晰地感知到手机SoC的进步带来的各种进步:单核CPU到多核CPU,让手机不再卡顿;GPU进步,可以玩的游戏,桌面级从《元音大冒险》到《元音大冒险》,手游帧率从30fps到120fps网络也差不多,得益于Modem的进步,网速也从kb到mb到现在的gb级别。
更重要的是,我之前说过,技术不仅要往前走,还要往下走。如果手机操作系统的界面仍然需要输入命令,而不是现在的图形触摸界面,那么骁龙芯片无论多么强大,每年也很难出货上亿级。
当骁龙与心香科技合作完成元宇宙主题综艺节目的超低门槛人脸捕捉技术时,遇到的命题不仅是要攻克技术难题,还要做出简单易用的智能鲁棒技术。这项技术的使用者不是技术人员和开发人员,而是影视制作团队和演员。
所有常见的苹果背后,都有复杂的引力理论,类似于骁龙支持面部捕捉的进步。谁是幕后黑手?
答案是高通人工智能引擎。
相对于处理器的CPU和GPU,AI计算引擎的存在感更弱。即使每一代AI引擎的计算能力都在呈指数级增长,但它带来的感知似乎有点弱?
就拿这次对于面部捕捉的快速良好呈现来说,普通设备中的AI引擎已经达到了相当的水平。
在平时,AI引擎的计算能力是指数级增长的,每一个操作,比如解锁、开启摄像头、唤醒语音助手等。总是被AI引擎包围。
AI引擎带来的高计算能力让这些操作反应更快,让你意识不到技术的存在,却被更好的人机交互包围。
在《愤怒的小鸟》计划中,高通AI引擎不仅在人脸捕捉和虚拟图像建立方面大放异彩。如果元宇宙想要足够的沉浸感,首先需要像真实世界一样拥有视觉和听觉的相应感知。
精准的面部捕捉和动作捕捉可以归入视觉,听觉则通过骁龙之声的骁龙听音技术带来低延迟高质量的体验。
这些技术的背后是高通AI引擎,AI引擎的帮助无形中成为了开启元宇宙背后的钥匙。
如果对比一下国内外一些所谓的超宇宙平台中的虚拟影像,比如Meta的地平线,就会发现《原神》中呈现的影像是可以吸引普通人的。这里的形象差距就是2G网络和4G网络的区别。
虚拟世界中的“我”更接近真实的“我”,元宇宙是可能的。
技术是连接两个世界的纽带。在另一个虚拟世界里,我出生了,蹒跚学步,走出新手村。这个超宇宙的第一站,骁龙移动平台,无疑是一个向导。