近日,重慶中科云從科技有限公司(以下簡(jiǎn)稱(chēng)云從科技)提出一種新型DenseBody框架,可直接從彩色照片中獲取3D人體姿勢(shì)和形狀。而此基于單幀圖像的3D人體重建技術(shù),將原有最低誤差降低30%,刷新了世界紀(jì)錄。
獲取人體3D數(shù)據(jù)不容易
用Emoji、zepeto等軟件將自己的照片轉(zhuǎn)換成3D動(dòng)畫(huà)頭像的功能曾風(fēng)靡一時(shí),但很多人發(fā)現(xiàn),其實(shí)生成的3D形象和自己并沒(méi)有那么像。
傳統(tǒng)3D重建技術(shù)大多需要連續(xù)的圖像序列或是多視角的圖像,在硬件設(shè)備上一般需要采用雙目攝像機(jī)或者結(jié)構(gòu)光攝像機(jī)等設(shè)備,因此在手機(jī)等便攜設(shè)備上往往難以實(shí)現(xiàn);另一方面,專(zhuān)用設(shè)備還會(huì)增加部署成本,增加大規(guī)模普及3D重建技術(shù)的難度。但基于單幀圖像的3D重建技術(shù)對(duì)原始圖像要求放松的同時(shí),對(duì)背后的技術(shù)卻提出了更高挑戰(zhàn)。
“去年,隸屬于云從科技的云從研究院曾提出針對(duì)人臉的稠密3D關(guān)鍵點(diǎn)技術(shù)PRNet,它能夠基于一幀人臉圖像重建出約4.5萬(wàn)個(gè)人臉3D關(guān)鍵點(diǎn),實(shí)現(xiàn)了在多個(gè)3D人臉數(shù)據(jù)集上大幅領(lǐng)先之前的技術(shù)。而相較于人臉,人體的3D重建更困難?!痹茝目萍假Y深算法研究員田國(guó)棟解釋?zhuān)梭w具有密閉的3D曲面結(jié)構(gòu),任何一個(gè)角度拍攝的圖像都存在約一半的不可見(jiàn)部分;人體的四肢更加多變,更加復(fù)雜;還存在因?yàn)榉b的遮擋問(wèn)題,人體的3D數(shù)據(jù)更難獲取,對(duì)深度學(xué)習(xí)技術(shù)的使用限制更多等問(wèn)題。如果要重建,需要技術(shù)從單幀圖像中推理出人體或人臉的3D形態(tài),并通過(guò)光學(xué)透視、陰影疊加等基本光學(xué)原則準(zhǔn)確預(yù)測(cè)出各個(gè)關(guān)鍵點(diǎn)在3D空間的位置和朝向,才能得到人體的姿態(tài)或表情信息。
減少中間損耗讓重建更精準(zhǔn)
“針對(duì)這些難點(diǎn),我們提出了一種高效的方法,使用卷積神經(jīng)網(wǎng)絡(luò)(CNN),從單個(gè)彩色圖像中直接得到完整的3D人體網(wǎng)格?!碧飮?guó)棟表示。
據(jù)了解,以往的3D人體重建算法往往需要將問(wèn)題降維,將復(fù)雜的人體形態(tài)從三維降到二維層面,從而降低問(wèn)題的難度。云從科技此次提出的3D人體重建算法擺脫了低維線(xiàn)性空間的限制,并設(shè)計(jì)了一種新型的3D信息表征方式,采用6萬(wàn)多個(gè)點(diǎn)表示3D人體,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)人體的3D形態(tài)和姿態(tài),從而取得了精度和速度上的雙重突破。
“信息的傳遞層級(jí)越多受損越大?!碧飮?guó)棟介紹,與其他研究相比,該研究提出了一個(gè)端到端的方法,從單個(gè)彩色圖像直接得到3D人體網(wǎng)格,能夠把2D圖像中的完整人體編碼為姿勢(shì)和形狀信息,無(wú)需依賴(lài)任何參數(shù)化的人體模型??芍^把3D人體重建的復(fù)雜度從兩步降到了一步。同時(shí),該技術(shù)還可同時(shí)“訓(xùn)練”一個(gè)編碼器—解碼器網(wǎng)絡(luò),該網(wǎng)絡(luò)可直接把輸入的彩色圖像映射到3D表示,無(wú)需解決2D姿態(tài)估計(jì)(確定某一三維目標(biāo)物體的方位指向)等中間任務(wù)。
田國(guó)棟表示:“我們進(jìn)行了多次實(shí)驗(yàn)來(lái)評(píng)估以上方法的效果,并與現(xiàn)有的最優(yōu)方法進(jìn)行對(duì)比。結(jié)果顯示,該方法在多個(gè)3D數(shù)據(jù)集上實(shí)現(xiàn)了顯著的性能提升,運(yùn)行速度也更快,幀率達(dá)到200fps后很多應(yīng)用都可以實(shí)時(shí)顯示,推動(dòng)更多智能應(yīng)用落地指日可待?!保ㄓ?黎)
[
責(zé)編:張佳興
]