unity3d技术摄像头跟随_虚拟偶像技术⽅案指南
今天我们来系统的介绍⼀下打造虚拟偶像需要⽤到的技术,希望可以帮助各位了解以下虚拟偶像这个新⽣事物在技术上是如何实现的,顺带还会介绍⼀些在 Unity 或是 Unreal Engine 中可能⽤的上相关插件。⽂章最后还会介绍⼏种免费打造虚拟偶像的软件,感兴趣的同学不要错过。
说是虚拟偶像,其实这些技术也可以应⽤于更⼴义的⼈型 3D 形象。这⾥侧重于针对使⽤ 3D 形象进⾏直播的场景,如果是制作动画,由于可以后期编辑,对实时性、数据准确率的要求不是那么⾼,技术⽅案的选项也会更多些。
⼀般的虚拟偶像技术⽅案,主要包括以下⼏个部分,
动作捕捉
⼿势控制
表情控制
⼝型同步
除此之外,可能还会⽤到眼动捕捉,变声软件之类,这次先略过了。
动作捕捉
⾸先我们来看最重要的动作捕捉。根据实现的原理,动作捕捉⽅案可分为光学以及惯性两类。光学动捕需要在场地安置多台摄像机,这些摄像机同时对演员⾝上佩戴的光学标记进⾏识别,从⽽得到演员的位置以及动作信息。惯性⽅案则是通过演员各关节佩戴的惯性传感器得到⾻骼的旋转信息。
光学⽅案的优势在于精确度⾼,同时⽀持的⼈数多,⽽且可以取得绝对位置,便于演员之间、或者演员与物体之间的交互。⽽由于需要⼤量摄像机,所以初期成本、运营成本都很⾼,对使⽤⼈员的要求也更专业。
⽽惯性⽅案的优势在于设备成本低,使⽤⽅便,对场地也没特别要求,光学⽅案中可能出现的遮挡问题也能从原理上避免。另⼀⽅⾯,惯性⽅案由于⽆法取得各传感器的绝对位置,要实现诸如握⼿这样的多演员交互⽐较⿇烦,⽽且因为惯性传感器会累计误差,随着使⽤时间增长,可能逐渐产⽣位置偏移,不得不经常校准。
常⽤的光学动捕包括,
VICON
VICON 是电影级设备,VTuber ⽤的⼈不多,彩虹社于 2019 年 10 ⽉导⼊使⽤。
www.zhihu/video/1216364636347564032
完整视频:
utube/watch?v=rQNMvG_dlWY utube
src:
3D动作捕捉系统VICON导⼊!w ww.bilibili
OptiTrack
OptiTrack 相⽐ VICON 价格稍低,也更为普及,使⽤者如虚拟⼥团 marinasu,
www.zhihu/video/1216364984252743680
完整视频:
utube/watch?v=puDLucsK1lw utube
需要注意的是这是⼀段经过后期编辑的视频,可能并不代表 OptiTrack 捕捉的实际数据。
src:
area.autodesk.jp/case/technology-art/marinasu/a rea.autodesk.jp
惯性系统有,
XSens MVN
XSens 作为⽐较⾼端的惯性⽅案⼴泛应⽤于 VTuber 以及动画制作中,⽐如下⾯的视频,
www.zhihu/video/1216365188401999872
完整视频:
utube/watch?v=utube
src:
「ワンピース」のルフィとウソップがVTuberに! 実際の声優が演じる | Mogura VR uravr
Perception Neuron
Perception Neuron 由国内⼚商诺亦腾出品,因为在虚拟偶像领域发⼒早,价格优势明显,深得 VTuber 喜爱,捕捉⽰例如下,
www.zhihu/video/1216365356182441984
完整视频:
utube/watch?v=n-7KlFRVdrc utube
电脑少⼥⼩⽩据说⽤的是 Perception Neuron。
src:
/wiki/%E9%9B%BB%E8%85%A6%E5%B0%91%E5%A5%B3%E5%B0%8F%E7%99%BD
通过以上的介绍可知,光学和惯性⽅案的优劣都很明显,所以现在已经出现兼具光学和惯性优点的混合型动捕⽅案,⽐如诺亦腾今年推出的Perception Neuron Studio。其在惯性动捕的基础上增加摄像头进⾏绝对位置定位,帮助减少因为误差积累形成的偏移,效果⾮常可期。其他惯性⼚商,也有类似⽅案。
以上是动捕系统的硬件⾯。从软件⾯来说,光学和惯性⽅案的⽅法差不多,要么提供可供 Unity 或者 Unreal Engine 使⽤的插件进⾏数据导⼊,要么可以将动作数据导⼊ Maya、MotionBuilder 之类的 3D 软件,再通过 MeshSync(Unity) 或者 LiveLink(Unreal Engine) 导⼊到引擎中。
相⽐ LiveLink,可能 MeshSync ⼤家不是很熟悉,放个连接吧。
github/unity3d-jp/MeshSync g ithub
项⽬简介是,
live link plugin for Unity. supported tools: Maya, Maya LT, 3ds Max, Motion Builder, Modo, Blender, Metasequoia.
VIVE Tracker
除了上述这些传统意义的动捕系统,我们还能⽤ VIVE Tracker 构建⽐较另类的动捕系统。从原理上说,VIVE Tracker 也算是光学动捕,说其另类是因为,上⾯的这些动捕系统都可以直接输出⾻骼信息,⽽ VIVE Tracker 只能输出传感器位置,我们需要中间件来将位置信息转换为⾻骼信息,也就是需要进⾏ IK(Inverse Kinematics)。之前⽐较常⽤的是 IKinema 的 Orion,⽽去年 IKinema 被苹果收购
后,Orion 前途未⼘,所以⽐较靠谱的还是⾃⼰在引擎中借助 IK 插件完成这种转换。单人开发选ue4还是unity
在 Unity 中,IK 插件⽆⼆的选择是 FinalIK,
assetstore.unity/packages/tools/animation/final-ik-14290a ssetstore.unity
Unreal Engine 中还没有出现能跟 FinalIK 媲美的插件,⽐较接近的是 Vive Mocap Kit,作者活跃于论坛积极回答各种疑问,软件本⾝也经常升级,⾮常期待赶上 FinalIK 的那⼀天。
www.unrealengine/marketplace/vive-mocap-kit w ww.unrealengine
如果实在想在 UE4 中使⽤ FinalIK,办法也是有的,就是在 Unity 中做了 IK 之后,通过通信协议把⾻骼信息传到 UE4 ⾥进⾏渲染。感兴趣的可以参考下⾯的项⽬。
github/HAL9HARUKU/VMC4UE g ithub
既然⽤ VIVE Tracker,⼀⼤半功能需要⾃⼰实现,那为什么还⽤来做动捕呢,主要原因有两个,其⼀是硬件成本远低于其他各种⽅案,其⼆演员不需要穿光学动捕中需要的动捕服,或者像在惯性⽅案中那样在⾝上绑⼗⼏甚⾄⼏⼗个传感器,⽽只需要在头、⼿等⼏个关键位置佩戴 Tracker,便能满⾜⼤部分动作的捕捉需求,对演员来说⾮常轻便。
使⽤ VIVE Tracker 的 Vtuber,最有名的要算“⼀⼆三酱”,其“中之⼈”是⽇本 80 ⾼龄的将棋天才加藤⼀⼆三。从穿脱简便,减少动捕设备对“中之⼈”的负担等⽅⾯来说,⾮使⽤ VIVE Tracker 不可了。
www.zhihu/video/1216365994765434880
完整视频:
www.nicovideo.jp/watch/sm34774066w ww.nicovideo.jp
⼿势控制
⼿势控制主要有以下三种⽅法。
动捕⽅案⾃带的⼿势捕捉
独⽴的⼿势捕捉⽅案
在预设⼿势中选择
动捕⽅案⾃带的⼿势捕捉
上⽂提到的 XSens MVN,Perception Neuron 等惯性⽅案现在都可增配⼿势捕捉。如果动捕选择的是惯性⽅案,那么选择这些⾃带系统也是⾃然的延申。
独⽴的⼿势捕捉⽅案
这个领域选择很多,既有⽼牌的,也有前⼏年跟随 VR 热潮起来的,下⾯罗列⼏种,
Manus VR
StretchSense
IGS Cobra Glove
他们的共同特点是都不便宜。
在预设⼿势中选择
除了上述两种依靠捕捉来控制⼿势的⽅法外,另⼀种常见的⽅法是通过控制器在预设的⼿势中选择。选⽤这种⽅案,⾯临的最主要考量是,控制器是由演员使⽤还是另外配备⼈员控制。如果是由演员实时控制,控制器就不能太复杂,相应的预设⼿势数量⽐较有限,如果专门配置⼈员使⽤,控制器的选择⽐较丰富,从键盘到游戏⼿柄到专门的外设都⾏,预设的⼿势数量也可以多些。
表情捕捉
表情捕捉可算是虚拟偶像⽅案中除动作捕捉之外的另⼀个重要组成部分,现在主要⽅案有以下三种。
图像识别
iPhoneX 深度摄像头识别
在预设表情中选择
图像识别
这是传统的影视制作的表情解决⽅案。通过摄像头捕捉演员的⾯部表情,经由解析软件得到表情信息后,应⽤到虚拟形象上。
这种⽅法的优点在于解析精度⾼,当然解析软件都不便宜。常⽤的包括以下这些,
Faceware
DynamiXYZ
民⽤级别的解析软件,结果还差强⼈意,⽐如下⾯这款基于 OpenCV 的插件,
assetstore.unity/packages/templates/tutorials/cv-vtuber-example-118186a ssetstore.unity
iPhoneX 深度摄像头识别
src:
BebyFace in Bebylon w ww.fxguide
这个⽅案发源于 2018 年,主要通过 iPhoneX 的深度摄像头识别⼈脸的表情信息,再转换为由苹果事先约定的 51 种微表情并进⾏组合,从⽽形成虚拟形象的表情。该⽅案优势在于解析软件的门槛很低,Unreal Engine 和 Unity 都已经开源了实现⽅法,⾮常容易移植到⾃⼰的模型上。
Face AR Sample d ocs.unrealengine
github/Unity-Technologies/facial-ar-remote g ithub
⽽且适⽤于该⽅案的微表情已经可以流⽔线⽣产,进⼀步降低了实现难度。
Animation for Iphone X - Facial animations for everyone!w ww.polywink
该⽅案主要的弱点在于,为了让 iPhoneX 始终拍摄到⼈脸,需要佩戴类似头盔的固定器,表演者的活动受到⼀定限制。
在预设表情中选择
除了以上两种⽅法外,和⼿势⼀样,我们也可以通过控制器在预设的表情中选择。这种⽅法很适合表情不需要特别真实的⼆次元形象,⽽且还能⽤于星星眼之类⽆法通过⼈脸识别得到的夸张表情。当然主要的问题也是由谁操控。
src:
茨城県が⽣み出した注⽬の地域密着型バーチャルキャラクター:茨城県公認Vtuber「茨ひより」 | 特集 | CGWORLD.jp c gworld.jp
⼝型同步
最后是⼝型同步,主要⽅案有如下⼏种。
图像识别
iPhoneX 深度摄像头识别
声量识别
⾳素识别
图像识别
和表情识别⼀样,也是通过⼀般摄像头获得脸部图像后,由解析软件得到嘴型信息,并且应⽤到虚拟形象上。和表情捕捉不同的是,因为只需要得到嘴部轮廓,解析软件已经普及,在 Unity 中可以试试下⾯的插件,
assetstore.unity/packages/tools/integration/single-face-tracker-plugin-lite-version-30-face-tracking-points-90212a ssetstore.unity assetstore.unity/packages/tools/integration/dlib-facelandmark-detector-64314 assetstore.unity
iPhoneX 深度摄像头识别
因为 iPhoneX 的深度摄像头也能识别⼝型,所以如果表情识别使⽤的是 iPhoneX,那么其实也顺带完成了⼝型同步。
声量识别
根据声量的⼤⼩来控制嘴巴张开的⼤⼩,⼀般分⼤中⼩三种。实现简单,虽然听上去有些简陋,但⽤在⼆次元形象上还恰到好处,我们随便看⼀段 Kizuna AI 的视频,就会发现其嘴型的变化种类很少,
www.zhihu/video/1216367862199554048
完整视频:
utube/watch?v=3sPnwZUMckE utube
在 Unity 中实现该⽅法并⾮难事,也可以借助下⾯的插件,
assetstore.unity/packages/tools/animation/salsa-lipsync-suite-148442a ssetstore.unity
⾳素识别
这种⽅法通过语⾳识别,判断当前所发的是什么⾳,进⽽选取与该语⾳匹配的⼝型,这也是传统意义
上的⼝型同步。现在⽐较常⽤的库是OVRLipSync。
ulus/documentation/native/audio-ovrlipsync-native/ulus
或者 Unity 中的如下插件,
assetstore.unity/packages/tools/animation/lipsync-pro-32117a ssetstore.unity
这些库针对的都是英⽂语⾳,⾳素众多,⼀般汉语的⽇常对话,我们只需处理 A O E I U 这样的元⾳即可。
以上⼤致介绍了虚拟偶像⽅案的各个部分,⽤到的技术各有长短,适⽤于不同场合,需要根据实际直播或者动画制作的需求进⾏组合。其他软件
另外⼀⽅⾯,随着虚拟偶像内容的不断丰富,也出现了可供制作特殊内容的专门软件,⽐如,
可提供板书,适合制作教学内容的 VDRAW,
VDRAW le
适合⽤来直播游戏或其他各种电脑操作的 VMagicMirror,
VMagicMirror g ithub
以及⼤家经常看到的,被⽤来制作 Beat Saber 视频的 VirtualMotionCapture。
sh-akira/VirtualMotionCapture g ithub
这些项⽬的特点是全都免费甚⾄开源,有些甚⾄不需要额外硬件设备⽀持,⾮常适合对虚拟偶像有兴趣的个⼈进⾏尝试。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论