sponsored links

KeyPose:從立體估計透明物體的 3D 姿勢

估計 3D 物件的位置和方向是計算機視覺應用程式中涉及物件級感知的核心問題之一,例如增強現實和機器人操作。在這些應用程式中,瞭解物件在世界中的 3D 位置非常重要,無論是直接影響它們,還是將模擬物件正確放置在它們周圍。雖然已經使用機器學習 (ML) 技術,尤其是深度網路對這一主題進行了大量研究,但大多數研究都依賴於深度感測裝置的使用,例如Kinect,它可以直接測量到物體的距離。對於有光澤或透明的物體,直接深度感應效果不佳。例如,下圖包括多個物體(左),其中兩個是透明的星星。深度裝置無法找到良好的恆星深度值,並且對實際 3D 點的重建非常差(右)。

KeyPose:從立體估計透明物體的 3D 姿勢

此問題的一種解決方案,例如ClearGrasp提出的解決方案,是使用深度神經網路修復透明物件損壞的深度圖。給定透明物體的單個 RGB-D 影象,ClearGrasp 使用深度卷積網路來推斷表面法線、透明表面的掩碼和遮擋邊界,它用於細化場景中所有透明表面的初始深度估計(最右邊 )上圖)。這種方法非常有前途,並且允許透過依賴深度的姿勢估計方法處理具有透明物體的場景。但是修復可能很棘手,尤其是在完全使用合成影象進行訓練時,仍然可能導致深度錯誤。

在“ KeyPose: Multi-View 3D Labeling and Keypoint Estimation for Transparent Objects ”中,與斯坦福人工智慧實驗室合作在CVPR 2020上發表,我們描述了一個 ML 系統,它透過直接預測 3D 關鍵點來估計透明物體的深度。為了訓練系統,我們以半自動化的方式收集透明物體影象的大型真實世界資料集,並使用手動選擇的 3D 關鍵點有效地標記它們的姿勢。然後,我們訓練深度模型(稱為 KeyPose)以從單目或立體影象端到端地估計 3D 關鍵點,而無需明確計算深度。對於單個物件和物件類別,這些模型都適用於訓練期間可見和不可見的物件。雖然 KeyPose 可以處理單眼影象,但立體影象中可用的額外資訊使其結果比單眼影象輸入提高了兩倍,典型誤差為 5 毫米到 10 毫米,具體取決於物件。即使在為競爭方法提供真實深度時,它也大大提高了這些物件的姿態估計的最新技術水平。我們正在釋出供研究界使用的關鍵點標記透明物件資料集。

帶有 3D 關鍵點標籤的真實世界透明物件資料集

為了便於收集大量真實世界影象,我們建立了一個機器人資料收集系統,其中一個機器人手臂透過軌跡移動,同時使用兩個裝置、一個立體攝像頭和一個攝像頭拍攝影片。在Kinect的Azure的深度相機。

KeyPose:從立體估計透明物體的 3D 姿勢

該AprilTags目標使相機的姿態進行準確跟蹤。透過使用 2D 關鍵點手動標記每個影片中的少數影象,我們可以使用多檢視幾何為影片的所有幀提取 3D 關鍵點,從而將標記效率提高 100 倍。

我們為五個類別的 15 個不同的透明物體捕獲影象,使用 10 種不同的背景紋理和每個物體的四種不同姿勢,產生總共 600 個影片序列,包括 48k 立體和深度影象。我們還使用物件的不透明版本捕獲了相同的影象,以提供準確的地面實況深度影象。所有影象都標有 3D 關鍵點。我們正在公開發布這個真實世界影象資料集,以補充與它共享相似物件的合成 ClearGrasp 資料集。

KeyPose Algorithm Using Early Fusion Stereo

這個專案獨立開發了直接使用立體影象進行關鍵點估計的想法;它最近也出現在手部追蹤的背景下。下圖顯示了基本思想:來自立體相機的兩幅影象圍繞物件裁剪並饋送到 KeyPose 網路,該網路預測表示物件 3D 姿態的稀疏 3D 關鍵點集。網路使用來自標記的 3D 關鍵點的監督進行訓練。

KeyPose:從立體估計透明物體的 3D 姿勢

立體 KeyPose 的一個關鍵方面是使用早期融合來混合立體影象,並允許網路隱式計算視差,與後期融合相反,後者分別為每個影象預測關鍵點,然後組合。如下圖所示,KeyPose 的輸出是影象平面中的 2D 關鍵點熱圖以及每個關鍵點的視差(即逆深度)熱圖。這兩個熱圖的組合為每個關鍵點生成關鍵點的 3D 座標。

KeyPose:從立體估計透明物體的 3D 姿勢

與後期融合或單眼輸入相比,早期融合立體聲的準確度通常是後者的兩倍。

結果

下圖顯示了 KeyPose 在單個物件上的定性結果。左邊是原始立體影象之一;中間是投影到影象上的預測 3D 關鍵點。在右側,我們將瓶子 3D 模型中的點視覺化,放置在由預測的 3D 關鍵點確定的姿勢上。該網路高效且準確,在標準 GPU 上僅使用 5 毫秒即可預測關鍵點,瓶子的 MAE 為 5.2 毫米,杯子的 MAE 為 10.1 毫米。

KeyPose:從立體估計透明物體的 3D 姿勢

KeyPose:從立體估計透明物體的 3D 姿勢

下表顯示了 KeyPose 在類別級別估計上的結果。測試集使用了訓練集看不到的背景紋理。請注意,MAE 從 5.8 毫米到 9.9 毫米不等,顯示了該方法的準確性。

KeyPose:從立體估計透明物體的 3D 姿勢

有關定量結果以及消融研究的完整說明,請參閱論文和補充材料以及KeyPose 網站。

結論

這項工作表明,可以在不依賴深度影象的情況下,從 RGB 影象中準確估計透明物體的 3D 姿態。它驗證了使用立體影象作為早期融合深度網路的輸入,其中訓練網路直接從立體對中提取稀疏 3D 關鍵點。我們希望廣泛的、標記的透明物件資料集的可用性將有助於推動該領域的發展。最後,雖然我們使用半自動方法來有效地標記資料集,但我們希望在未來的工作中採用自我監督的方法來消除手動標記。

KeyPose:從立體估計透明物體的 3D 姿勢

分類: 科技
時間: 2021-09-17

相關文章

宏碁ConceptD 7 SpatialLabs Edition將裸眼3D技術帶到公眾面前

宏碁ConceptD 7 SpatialLabs Edition將裸眼3D技術帶到公眾面前
今年早些時候,宏碁推出了他們稱之為SpatialLabs的3D視覺技術.他們用一臺不向消費者出售的膝上型電腦介紹了這項技術,現在他們終於面向市場推出了一款名為ConceptD 7 SpatialLab ...

「中國達芬奇」機器人火了!除了縫葡萄皮還有這些腦洞大開的操作

「中國達芬奇」機器人火了!除了縫葡萄皮還有這些腦洞大開的操作
編輯:好睏 小鹹魚 [新智元導讀]最近機器人很火,從能遛彎的狗到能騎的馬,甚至還有能縫葡萄皮的機械臂!如果我說,能讓機器人自己學會各種「騷操作」,你信麼? 自制一個能給葡萄縫針的機械臂? 近日,知名「 ...

前衛但不激進 數字座艙兼顧舒適豪華 福特Mustang Mach-E實拍簡評

前衛但不激進 數字座艙兼顧舒適豪華 福特Mustang Mach-E實拍簡評
特斯拉帶動的電動車浪潮方興未艾,儘管車主在用車中出現過各種問題,但依然擋不住後來者的熱情.另一方面,各車企也以特斯拉的產品為對標物,試圖與特斯拉站在同一賽道競爭,長安福特近期推出的Mustang Ma ...

1599元買紅米note10pro還是摩托羅拉?

1599元買紅米note10pro還是摩托羅拉?
效能上兩者差不多,摩托羅拉edges的拍照能力更好.紅米note10pro的續航能力更好. 1.效能方面 紅米note10pro搭載天璣1100處理器,LPDDR4X以及UFS 3.1,綜合跑分達67 ...

就業:5G時代,3D建模師的就業前景怎麼樣?

就業:5G時代,3D建模師的就業前景怎麼樣?
(1) 5G技術+VR虛擬技術,將會構建非常強大的3D建模需求. 我們生活在一個三維(3D立體)的現實世界裡,網際網路已經成為我們生活必不可少的一部分.尤其是移動網際網路已經有10億使用者.但網際網路 ...

無線通訊技術迎來新升級:或可實時捕捉3D動作

無線通訊技術迎來新升級:或可實時捕捉3D動作
美國加州大學聖地亞哥分校的團隊對超寬頻(UWB)無線通訊技術進行了升級,使其能完成實時.精確的3D動作捕捉. 新型超寬頻系統使用的電子標籤與一美分硬幣的大小相近,並且可以同時向四個錨節點發送一個訊號. ...

曾經風靡一時的“3D電視”,為何現在銷聲匿跡了?

曾經風靡一時的“3D電視”,為何現在銷聲匿跡了?
電視作為傳統的家電裝置,每個時期的更新迭代也是讓不少人都記憶猶新,從CRT轉變成LCD之後,電視市場的產品也逐漸開始豐富了起來,那麼不知道大家是否還記得數年以前的"3D電視",當時 ...

刷臉秒開觸動未來,德施曼3D人臉智慧影片鎖月光寶盒Q8FPro首體驗

刷臉秒開觸動未來,德施曼3D人臉智慧影片鎖月光寶盒Q8FPro首體驗
隨著大眾對智慧鎖安全性以及便利性的認可,智慧鎖行業呈現井噴式的高速增長,與此同時也讓大眾對於智慧鎖的選擇有了更多更廣的需求,除了排在首位的安全性之外,便捷與否,功能多少,顏值等等都成為大家選擇智慧鎖的 ...

越來越多人都不貼瓷磚了!流行貼3D磚,成本才幾百元,省錢又高檔

越來越多人都不貼瓷磚了!流行貼3D磚,成本才幾百元,省錢又高檔
越來越多人都不貼瓷磚了!流行貼3D磚,成本才幾百元,省錢又高檔.說到裝修技術和裝修工藝,還有裝修材質,更新換代真是太快了,一不留神,我們以前裝修的房子已經OUT了.就拿瓷磚來說,從以前的水泥地板,到瓷 ...

為什麼啤酒瓶是綠色,而白酒瓶是透明的?裡面的講究還真不少

為什麼啤酒瓶是綠色,而白酒瓶是透明的?裡面的講究還真不少
中學化學老師教過 濃硝酸要用棕色瓶子避光儲存 因為濃硝酸見光易分解 那用綠色瓶子裝啤酒也是怕分解嗎 可為什麼白酒又是用透明瓶子裝的呢 Q1:為什麼毛巾越用越薄卻越來越硬? 經過一段時間使用後,原本蓬鬆 ...

3D列印“軟蝟甲”

3D列印“軟蝟甲”
軟蝟甲是金庸武俠小說中刀槍不入的護身寶甲,在<射鵰英雄傳>和<神鵰俠侶>中均有出場.你能想象用現代的3D列印技術製作一副"軟蝟甲"嗎? 本週,最新一期的&l ...

透明瓷磚上“乍現”的貓

透明瓷磚上“乍現”的貓
光線穿過時出現一隻"貓" (圖片來自設計師個人網頁) 美國舊金山的一位航空航天軟體工程師設計了一種奇妙的透明瓷磚,可用於室內空間間隔牆. 光線穿透這種看似光滑.全透明的丙烯酸瓷磚時 ...

3D成像“加持”助力精準“下刀”
中安線上.中安新聞客戶端訊 胰腺可以"透視"?近日,在術前應用三維視覺化技術模擬預演基礎上,復旦兒科安徽醫院(安徽省兒童醫院)普外科主任戚士芹帶領團隊,術中精準"下刀&q ...

如何三維立體探測太陽?

如何三維立體探測太陽?
常言道"萬物生長靠太陽",可以說,地球上的一切能源都是直接或間接的來源於太陽.人類的進步離不開太陽,太陽造福著人類,而太陽的劇烈活動也可能給人類帶來災難,對航天器.導航.通訊.長距 ...

首創3D列印微型氣體變色感測器

首創3D列印微型氣體變色感測器
江蘇鐳射聯盟導讀: 來自愛爾蘭科學基金會(SFI)先進材料和生物工程研究中心Trinity和AMBER的科學家們發現了一種用新材料和高解析度3D列印來製造微小的氣體變色感測器的新方法,或將助力智慧家居 ...

3D硬金手串戴沒幾天,竟然破了個洞?到底工藝問題還是質量問題?

3D硬金手串戴沒幾天,竟然破了個洞?到底工藝問題還是質量問題?
很多長輩,都會給小孩佩戴一些銀飾.或者金飾,而其中最後歡迎的莫過於3D硬金了.因為3D硬金比較硬,金輕面大,可以做成各種可可愛愛的造型,更適合小孩子. 泰州的王女士也是這樣想的,但是她給小孩買的3D硬 ...

用代數解剖柏拉圖立體,探索隱藏在高維深處的幾何體,思維的盛宴

用代數解剖柏拉圖立體,探索隱藏在高維深處的幾何體,思維的盛宴
代數和超立方體 我們都熟悉正方體,它們是空間的基本幾何實體.以某種方式表示,立方體的頂點包含了所有可以用數字0和1構造的點(後面我會解釋).因此,(超)立方上的每一點都可以用下列代數展開式來表示: 例 ...

PLA——使用相對安全的環保3D列印材料

PLA——使用相對安全的環保3D列印材料
生活世界中,有各種不同的國家標準,數字可以精確到小數點後三到四位,為各種產品設定了安全界限,從而防止它們對我們和我們所在的星球造成嚴重傷害.但是有些產品可能沒有有害物質標籤(或者你根本不看). 假如你 ...

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈

Google釋出帶有 AIST++ 的人工智慧,可以利用不同的音樂生成3D舞蹈
Google釋出的一款人工智慧,可以利用不同的音樂生成不同的3D舞蹈影片 舞蹈是幾乎在所有文化中都能找到的通用語言,也是當今許多人用來在當代媒體平臺上表達自己的一種方式.透過組合與音樂節拍一致的運動模 ...