盡管內(nèi)向外追蹤的性能已經(jīng)足以在頭顯、控制器和雙手追蹤方面取代外向內(nèi)追蹤,但由于視場(chǎng)覆蓋問(wèn)題,全身動(dòng)捕一直以來(lái)都是依靠外向內(nèi)的追蹤設(shè)置來(lái)實(shí)現(xiàn)。不僅只是這樣,隨著頭顯形狀參數(shù)的不斷小型化輕薄化,攝像頭的視場(chǎng)覆蓋問(wèn)題將會(huì)變得越發(fā)困難。
不過(guò),社區(qū)依然在積極探索利用AI等手段來(lái)提供下半身的姿態(tài)估計(jì)。實(shí)際上,如果你有留意映維網(wǎng)的專(zhuān)享,諸如Meta,卡內(nèi)基·梅隆大學(xué),蘇黎世聯(lián)邦理工學(xué)院等已經(jīng)發(fā)布了各種論文研究。
現(xiàn)在,韓國(guó)首爾大學(xué)和Meta的研究人員日前又發(fā)布了一項(xiàng)相關(guān)研究。利用頭顯+控制器的組合,以及算法技巧,團(tuán)隊(duì)提供了一種名為QuestEnvSim的解決方案。

為了實(shí)現(xiàn)真正的臨場(chǎng)感,用戶(hù)的Avatar必須準(zhǔn)確地復(fù)刻肢體動(dòng)作和肢體語(yǔ)言,并實(shí)現(xiàn)與環(huán)境的自然交互?;跇?biāo)記的追蹤方案繁瑣和昂貴。
首爾大學(xué)和Meta團(tuán)隊(duì)的目標(biāo)是創(chuàng)建一個(gè)只依賴(lài)于消費(fèi)者VR設(shè)備的姿態(tài)和環(huán)境信息作為輸入的追蹤方案,例如頭顯+控制器。
從稀疏傳感器合成全身運(yùn)動(dòng)具有挑戰(zhàn)性,因?yàn)橹T多不同的姿態(tài)都可能符合給定的傳感器輸入,從而造成不準(zhǔn)確的估計(jì),尤其是下半身。另外,生成合理的對(duì)象交互運(yùn)動(dòng)需要特別注意。例如,當(dāng)用戶(hù)與他們的環(huán)境交互時(shí)(坐在沙發(fā)上或靠在桌子),這引入了復(fù)雜的物理約束。而且下半身并不總是完全受到平衡的約束,所以存在更多的模糊性。例如,當(dāng)坐在沙發(fā)時(shí),諸多不同的姿態(tài)都可能符合給定的傳感器輸入,所以造成不準(zhǔn)確的估計(jì)。
在名為《QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse Sensors》的論文中,團(tuán)隊(duì)開(kāi)發(fā)了一種將頭顯和控制器姿態(tài)以及環(huán)境的表示作為輸入,并生成與傳感器輸入及其周?chē)h(huán)境相匹配的全身運(yùn)動(dòng)的運(yùn)動(dòng)追蹤算法。
具體地說(shuō),團(tuán)隊(duì)使用物理模擬的Avatar,并通過(guò)深度強(qiáng)化學(xué)習(xí)學(xué)習(xí)控制策略來(lái)產(chǎn)生扭矩以驅(qū)動(dòng)Avatar,目標(biāo)是盡可能接近地追蹤用戶(hù)的頭顯和控制器姿態(tài)。
當(dāng)然,社區(qū)已經(jīng)提出了多種類(lèi)似于所述方法的基于物理Avatar的運(yùn)動(dòng)追蹤系統(tǒng)。但研究人員認(rèn)為,對(duì)于特定方法,除了腳-地板接觸之外,它們尚未證明其他環(huán)境交互。至于其他方法,它們采用人工力來(lái)處理復(fù)雜的接觸動(dòng)力學(xué),而這會(huì)產(chǎn)生不自然的運(yùn)動(dòng)。
首爾大學(xué)和Meta不是使用人工力量,他們的控制策略訓(xùn)練成積極地使用環(huán)境來(lái)產(chǎn)生適當(dāng)?shù)耐獠苛α縼?lái)驅(qū)動(dòng)模擬Avatar,而其中的策略是從包括環(huán)境交互的動(dòng)捕數(shù)據(jù)中學(xué)習(xí)。所以,系統(tǒng)產(chǎn)生的動(dòng)作在物理上是準(zhǔn)確的,在環(huán)境中更可信。例如,如果頭戴式顯示器靠近椅子,這可能意味著用戶(hù)已經(jīng)坐了下來(lái),而不是僅僅處于蹲伏的狀態(tài)。
研究人員首先證明了稀疏上半身輸入。如果與物理模擬和環(huán)境觀察相結(jié)合,其可以在高度受限的環(huán)境中產(chǎn)生真實(shí)的全身運(yùn)動(dòng),無(wú)需使用任何人工力。
為了展示系統(tǒng)的能力,研究人員展示了各種各樣的例子,比如坐在椅子、沙發(fā)和盒子、踏過(guò)盒子、搖椅子和轉(zhuǎn)動(dòng)辦公椅等等。其中,所有的動(dòng)作都是由真實(shí)用戶(hù)輸入產(chǎn)生,不使用任何后處理,例如逆運(yùn)動(dòng)學(xué)、接觸解析和平滑等。
當(dāng)然,如果你留意上面的視頻,你依然會(huì)發(fā)現(xiàn)由于攝像頭視場(chǎng)覆蓋問(wèn)題,以及諸多不同的姿態(tài)都可能符合給定的傳感器輸入,所以QuestEnvSim依然無(wú)法準(zhǔn)確估計(jì)微妙的下半身姿態(tài),尤其是視頻后半段,你會(huì)多次發(fā)現(xiàn)下半身的姿態(tài)估計(jì)不完全準(zhǔn)確。
相關(guān)論文:QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse Sensors
不過(guò),研究人員相信這是稀疏傳感器與場(chǎng)景交互的運(yùn)動(dòng)追蹤所取得的最高質(zhì)量結(jié)果之一。接下來(lái),團(tuán)隊(duì)將繼續(xù)努力,并不斷優(yōu)化解決方案。