<em id="oqmgd"><label id="oqmgd"></label></em>

  • <div id="oqmgd"></div>

    <em id="oqmgd"></em>

      1. 申請試用
        登錄
        核心技術
        以原創技術體系為根基,SenseCore商湯AI大裝置為核心基座,布局多領域、多方向前沿研究,
        快速打通AI在各個垂直場景中的應用,向行業賦能。

        tuansmomo解讀

        2020-07-29

        CVPR 2020上,來自CMU,北京大學,清華大學,商湯研究院的研究者提出了一種無監督的人體動作遷移方法《TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting》,為動作序列數據建模提供了新思路。

        該論文提出了一種新穎的動作重定向網絡(Motion Retargeting Network)設計,可以在二維關鍵點空間由無標注的網絡數據端到端地訓練。作者基于不變性設計了新的損失函數,從而賦予網絡無監督地解耦動作特征表示的能力。將上述動作重定向網絡和基于不變性的損失函數應用于人體動作遷移任務中,在定性和定量指標上都超過了原先的最佳方法(state-of-the-art),尤其是在真實世界的復雜動作上取得明顯的優勢。


        任務介紹

        人體動作遷移(Human Motion Transfer)指的是將初始運動視頻中初始對象的動作遷移到目標對象上,以生成目標運動視頻。例如,業余愛好者是否能立刻像專業人士一樣學會跳不同風格的舞蹈,如探戈,芭蕾,薩爾薩舞等?盡管在現實中這幾乎是不可能的,但現在人們可以通過人體動作遷移技術在虛擬世界實現這一目標,即將源視頻中的專業舞蹈演員的運動信息遷移到業余愛好者的形體上,并渲染生成目標視頻。

        人體動作遷移在計算機圖形學動畫制作和仿生機器人領域有廣泛的應用,長期以來有許多基于動作捕捉設備的研究。近年來,隨著移動計算的普及和深度學習在計算機視覺領域的應用,獲取人體動作信息的成本大大降低。此外,得益于生成式對抗網絡(GAN)的研究進展,通過計算機合成高度真實的圖像和視頻成為可能。因此,設計出一種合適的基于視頻數據的人體動作遷移方法對許多應用領域都十分重要,例如影視效果、內容創作、在線娛樂等,這也是本文想要探討的重點。

        動機/難點

        過去處理人體動作遷移的問題上,有很多研究通過精確的3D人體姿態估計或重建來實現。這些方法往往需要復雜耗時的優化過程,并且在真實場景中的復雜動作視頻中表現不佳。在本文中,作者主要設計了一種可在二維人體骨骼空間端到端學習的動作遷移框架,從而繞過了顯式的3D姿態估計過程。盡管最近在生成模型和人體動作合成領域有許多進展,在2D空間學習動作遷移仍然是一個富有挑戰性的任務,主要有以下難點:

        1. 由于初始運動視頻和目標運動視頻存在很大的結構和視角差異,很難在像素級別上建立源-目標的映射。尤其當初始對象做出復雜動作(如躺倒,倒立,連續旋轉等),或者初始對象和目標對象的結構差異比較大(如成人與兒童等),傳統的動作遷移方法準確度較低。

        2. 很難在真實世界中找到配對的動作-角色數據作為人體動作遷移任務的有效監督信號。

        3. 人體運動呈現出復雜的非線性,很難建立準確的模型和參數來刻畫人體動作遷移的過程。

        方法介紹

        框架設計

        為了應對第一個難點,作者不直接采用基于像素級映射的視頻轉換(video-to-video translation)方法,而是將動作遷移過程分為三個階段,即人體關鍵點檢測(skeleton extraction),動作重定向(motion retargeting),以及視頻渲染(skeleton-to-video rendering)。通過對任務的分解,只需要集中解決動作重定向這一問題,此問題的輸入和輸出都是2D人體關鍵點序列。


        整體框架示意圖

        為了應對第二和第三個難點,作者利用人體運動數據中三個維度的特征的不變性。三個維度的特征即運動(motion),指的是身體各部分的移動語義信息;結構(structure),指的是身體的比例信息;視角(view),指的是身體和相機的相對朝向信息。理論上,根據這三個信息能夠重建整體運動,且這三部分信息互相獨立,任一信息對另兩者的擾動(perturbation)具備不變性。具體地來說,作者認為它們應具有如下性質:

        1. 運動信息應該關于結構和視角擾動具有不變性。

        2. 結構信息應該在同一段視頻中關于時間具有不變性,且對視角擾動有不變性。

        3. 視角信息應該在同一段視頻中關于時間具有不變性,且對結構擾動有不變性。

        訓練實現

        訓練實現上,作者使用3D人體的旋轉作為視角信息的擾動;肢體縮放(Limb Scaling)作為結構信息的擾動;運動信息無需顯式添加擾動,因為其自身就隨時間變化。基于這些擾動,作者要求網絡重新編碼的特征分別具有上述不變性,可以推導出一系列完全無監督的損失函數,進而通過訓練自編碼器(Autoencoder)將人體關鍵點序列信息解耦為運動、結構、視角三個互相正交的信息分量。


        視角信息的擾動(View Perturbation)及重建


        結構信息的擾動(Structural Perturbation)及重建

        如圖所示,相關細節請參考論文。

        借助解耦的表示,我們可以很容易地將來自不同視頻的運動分量和結構分量配對后再解碼到關鍵點空間,就實現了動作重定向。此外,我們還可以顯式地操縱視角信息,得到生成動作序列在不同視角下的投影。值得一提的是,作者提出的動作重定向網絡是一個輕量級、即插即用的模塊,可以和現有的各種人體關鍵點檢測和視頻渲染方法串聯使用。

        結果展示

        作者分別在Mixamo合成角色數據集和自己采集的真實人物數據集上做了定量和定性的評測。結果顯示,本工作在動作遷移誤差(MSE/MAE)和生成圖像的真實度(FID/User Preference)上都比目前的SOTA方法有顯著提升,結果見Table1


        其中,該工作用了訓練數據中最少的信息,既沒有用角色-動作間的配對信息,也沒有用輸入的3D信息。此外,作者提出的方法使得在任意人體運動視頻上訓練成為可能,這是此前的方法沒有辦法做到的。實驗結果表明,使用網上采集的真實視頻訓練的模型(Ours wild)取得了最好的表現。

        該方法還允許編碼空間的連續插值。如圖所示,橫向是結構信息的特征插值,縱向是動作信息的特征插值。這表明網絡能夠成功解耦這兩個變量,并且學習了具有良好分布性質的特征子空間。


        此外,由于自動編碼器的輸出是3D火柴人,我們可以任意地調整重定向結果的視角方向。


        分析總結

        總體來說,作者提出的無監督動作遷移方法在對訓練數據的依賴程度、遷移的準確度、生成結果的質量等方面均比之前的同類型方法有突破。這種性能上的提升主要來源于以下創新點:

        • 2D關鍵點空間實現特征解耦,避免了3D關鍵點估計的誤差

        • 和先前的隱式無監督方法相比,顯式的不變性驅動的損失函數提高了訓練數據效率(Data efficiency

        • 肢體縮放的設計提升了網絡處理身體比例差異較大情形的能力

        • 和先前在合成數據集上的監督學習方法相比,使用網絡數據無監督訓練大大增加了訓練時的動作多樣性

        另外,該工作設計的動作重定向網絡實現了無監督特征解耦,可能對人體運動建模的其他問題有一定的啟發。

        References

        1. Ruben      Villegas, Jimei Yang, Duygu Ceylan, and Honglak Lee. Neural kinematic      networks for unsupervised motion retargetting. In CVPR, 2018.

        2. Caroline      Chan, Shiry Ginosar, Tinghui Zhou, and Alexei A. Efros. Everybody dance      now. In ICCV, 2019.

        3. Kfir      Aberman, Rundi Wu, Dani Lischinski, Baoquan Chen, and Daniel Cohen-Or.      Learning character-agnostic motion for motion retargeting in 2d. ACM      Trans. Graph., 38(4):75:1–75:14, 2019.

        4. Ting-Chun      Wang, Ming-Yu Liu, Jun-Yan Zhu, Guilin Liu, Andrew Tao, Jan Kautz, and      Bryan Catanzaro. Video-to-video synthesis. In NeurIPS, 2018.

        5. R?za      Alp Güler, Natalia Neverova, and Iasonas Kokkinos. Densepose: Dense human      pose estimation in the wild. In CVPR, pages 7297–7306, 2018.

         


        <em id="oqmgd"><label id="oqmgd"></label></em>

      2. <div id="oqmgd"></div>

        <em id="oqmgd"></em>

          1. 日韩在线视频