sponsored links

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

機器之心專欄

作者:OPPO TECH

室內環境的自監督深度估計向來比室外環境更具挑戰性,OPPO提出了一種新穎的單目自監督深度估計模型:MonoIndoor,透過深度因子化模組和殘差姿態估計模組,提高了室內環境中自監督單目深度估計的效能。目前,該成果已被ICCV 2021接收。ICCV是計算機視覺方向的三大頂級會議之一,今年論文接收率為25.9%。

根據單張影象估計深度資訊是計算機視覺領域的經典問題,也是一項具有挑戰的難題。由於單目影象的尺度不確定,傳統方法無法計算深度值。

隨著深度學習技術的發展,該正規化已經成為了估計單目影象的深度資訊的一種解決方案。早期的深度估計方法大多是有監督的,即要求資料集包含單目影象和對應的深度真值支撐網路模型訓練。

要想讓影象含深度真值非常困難,一般需要精密的深度測量裝置和移動平臺“捕獲”。因此,高昂的成本導致資料集的資料量較小,也意味著有監督學習的深度估計方式不適用於大規模的工業場景。

近日,OPPO提出了一種新穎的單目自監督深度估計模型:MonoIndoor。該方法能夠在訓練深度網路時僅使用影象本身作為監督資訊, 無需影象顯式的目標深度值,在降低對訓練資料集要求的同時, 提升了深度估計的適應性和魯棒性。目前,該成果已被ICCV 2021接收,相關技術已申請專利。

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

論文地址:https://arxiv.org/pdf/2107.12429.pdf

具體而言,該論文研究了更具挑戰性、場景更復雜的室內場景自監督深度估計,在三個公開資料集:EuRoC、NYUv2、7-Scenes上進行測試時,其效能優於Monodepth2等方法,達到了自監督深度估計領域內的最佳效能。

如何實現室內場景深度估計?

雖然對於自監督深度估計已經有了不少研究,其效能已經可以與有監督方法相媲美,但是這些自監督方法的效能評估要麼只在戶外進行,要麼在室內表現不佳。

對於原因,OPPO研究院的研究員認為:同戶外場景相比,室內場景通常缺少顯著的區域性或全域性視覺特徵。具體而言:

1. 室內場景景深變化劇烈,使得神經網路很難推演出一致的深度線索。

2. 室內場景下,相機運動通常會包含大量的旋轉,從而給相機姿態網路造成困難。

基於以上觀察,研究員提出兩個新的模組嘗試解決上述兩個困難。其中,深度因子化模組(Depth Factorization)旨在克服景深劇烈變化給深度估計造成的困難;殘差姿態估計模組(Residual Pose Estimation)能夠提高室內場景下相機旋轉的估計,進而提升深度質量。

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

圖注:MonoIndoor模型架構一覽

模型工作原理如上圖所示,深度因子化模組採用編解碼器的深度網路來估計相對深度圖,使用非區域性標度網路(non-local scale network)估計全域性標度因子(global scale factor);殘差姿態估計模組用姿態網路估計一對幀的初始攝像機姿勢,然後根據初始姿勢,用殘差姿態網路迭代估計殘差相機姿勢。

模型架構之深度因子化模組

深度因子化模組的骨幹模型是Monodepth2,它的自動掩碼機制可以忽略那些在單目訓練中相對攝像機靜止的畫素;同時採用多尺度光度一致性損失,以輸入解析度執行所有影象取樣,減少了深度失真。

在Monodepth2的基礎上,研究員提出了自注意指導的標度迴歸網路(self-attention-guided scale regression network)對當前視點的全域性尺度因子進行估計。

標度網路作為深度因子化模組的另一個分支,其以彩色影象為輸入,全域性標度因子為輸出。由於全域性標度因子和影象區域性區域密切相關,研究員在網路中加入了自注意塊,以期指導網路更多地“關注”某資訊豐富的區域,從而推匯出深度因子。公式如下,給定影象特徵輸入,輸出為Query、鍵(key)、值(values)。

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

此外,為了穩定估計全域性標度因子,研究員還在網路中添加了機率標度迴歸頭(Probabilistic Scale Regression Head)。公式如下,全域性標度是每一標度的加權機率求和:

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

模型架構之殘差姿態估計模組

與已有方法在資料預處理過程中專注於“去除”或“減少”旋轉成分(rotational components)不同,OPPO研究員提出的殘差姿態估計模組,可以用迭代的方式學習目標和源影象之間的相對相機姿態。

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

圖注:一次姿態估計分解為兩次姿態估計的示例

第一步:姿態網路將目標影象和源影象作為輸入,並估計初始相機姿態。

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

第二步:用上述公式從源影象進行雙線性取樣,重建一個虛擬檢視。

第三步:利用殘差姿態網路,將目標影象和合成檢視作為輸入,並輸出殘差相機姿態(residual camera pose)。其中,殘差相機姿態指的是合成檢視和目標影象之間的相機姿態。

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

第四步,從合成影象進行雙線性取樣,公式如上↑。

最後,獲得新合成檢視之後,繼續估計下一個的殘差姿態。此時,雙線性取樣公式的一般化為↓:

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

多次估計之後,殘差姿態可以動態的寫為↓:

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

綜上,透過迭代法估計殘差姿態,能夠獲得更準確的相機姿態,更好的進行深度估計。具體實驗效果如下一部分所述。

效能評估

為了說明模型MonoIndoor的效果,研究員在EuRoC MAV、NYUv2、RGBD 7-Scenes三個權威資料集上進行了評估。採用業界通用的單目深度估計量化指標:絕對相對差(AbsRel)、均方根誤差(RMSE);以及三個常用的閾值thr=1.25,1.25^2,1.25^3下的準確度。

具體到實驗配置,研究員使用PyTorch實現模型,每個實驗用Adam最佳化器訓練40個epochs,在前20個epochs學習率設定為10^-4,另外20個設定為10^-5;平滑項和consistency term分別設定為0.001和0.05。

實驗結果之EuRoC MAV

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

將Monodepth2作為基線模型進行對比,結果如上表所示,深度因子化模組能夠AbsRel從15.7%降低到14.9%;殘差姿態估計模組將AbsRel降低到14.1%,整個模型在所有評估指標中都實現了最佳效能。

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

透過上圖,我們可以定性的發現,MonoIndoor 做出的深度估計比Monoepth2要好得多。例如,在第一行中,MonoIndoor可以估計圖片右下角的“洞區域”的精確深度,而Monoepth2顯然無法估計。

實驗結果之NYUv2

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

MonoIndoor 與最新的SOTA監督和自監督方法效能對比結果如上表所示,在自監督方面,能夠在各項指標上達到最佳,在與有監督方法對比方面,也能夠“打敗”一組,從而縮小了自監督和有監督方法之間的差距。

上圖可視化了NYUv2上的深度估計效果。與Monoepth2的結果相比,MonoIndoor的深度估計更加接近真實情況。例如,第一行的第三列,MonoIndoor對椅子區域的深度估計更加精準。

實驗結果之RGB-D 7-Scenes

OPPO提出自監督深度估計算法,比肩有監督,泛化效能更佳

上表給出了MonoIndoor微調前與微調後在RGB-D 7-Scenes資料集上的測試結果,透過在各個場景給出的各個指標,顯示了MonoIndoor更好的泛化能力和魯棒性。例如,在場景“Fire”上,MonoIndoor減少了1.2%的AbsRel;在場景“Heads”上,MonoIndoor減少了1.8%的AbsRel。

結語

近年來,人工智慧產品在各個行業迅猛發展,機器人學、三維重建、目標追蹤等領域對深度估計技術的準確性和效率要求越來越高。然而目前主流的深度估計方法常由於外界環境或是成本原因,很難在工程上得以應用並達到相關需求。

另一方面,目前關於影象深度估計研究很多,可用的公共資料集卻相對較少,且公共資料集中的場景相對不夠豐富,大大限制了深度估計算法的泛化能力。

OPPO透過自研無監督演算法,設計了適合室內場景的模型,能夠在不依賴資料標註的情況下,顯著提升神經網路在室內場景下的深度估計效果。這一方面體現了OPPO對人工智慧應用場景的理解,也說明了它對人工智慧前沿學術問題的獨特把握。

分類: 科技
時間: 2021-10-10

相關文章

十大值得關注的深度學習演算法
預測未來不是魔法,而是人工智慧.毋庸置疑,人工智慧的風頭正勁,每個人都在談論它,無論他們是否理解這個術語. 據研究人員和分析師稱,到 2024 年,數字助理的使用率預計有望達到 84 億.超個性化.聊 ...

王凱團隊發表解析遺傳變異的深度學習演算法——NanoCaller

王凱團隊發表解析遺傳變異的深度學習演算法——NanoCaller
單核苷酸多型性(SNP)和插入/缺失(InDel)是人類基因組中最常見的兩種遺傳變異型別.在利用新一代高通量測序資料研究基因組變異和基因組功能時,SNP和InDel的檢測基本檢測專案.目前,已有多種不 ...

OPPO十年的投入 , 從演算法到硬體一手抓

OPPO十年的投入 , 從演算法到硬體一手抓
手機是資訊時代的高效產物,也是我們日常生活中不可缺少的用品,現在的手機的確是做到了一機在手,天下事盡知的功能,很多年輕一代使用手機,更關注的是其畫素方面的科技,畢竟他們的生活是用相片來記錄的. 自研屏 ...

人民中科-自動化所聯合團隊提出計算機生成影象鑑別演算法併發布大規模資料集

人民中科-自動化所聯合團隊提出計算機生成影象鑑別演算法併發布大規模資料集
前言 由數碼相機拍攝的自然影象(Photographic, PG)能夠準確.客觀地記錄現實生活中的場景,是視覺資訊的重要載體.在我們的日常生活中,自然影象常被用於新聞的準確傳播和證據的有效記錄.計算機 ...

第一如何更優秀?OPPO ColorOS 12答案:讓設計、跨屏、安全更簡單

第一如何更優秀?OPPO ColorOS 12答案:讓設計、跨屏、安全更簡單
隨著技術的發展,現在的智慧手機效能愈發強大,很少有人抱怨自己的手機會出現卡頓或者閃退情況出現,這主要歸功於出色的硬體配置和系統最佳化,尤其是最近幾年,國產手機品牌針對安卓系統做了深度最佳化,整體體驗感 ...

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE

Transformer振興CNN骨幹網路,港大、騰訊視覺自監督表徵學習CARE
機器之心報道 機器之心編輯部 來自港大.騰訊 AI Lab.牛津大學的研究者用 Transformer 振興 CNN 注意力. 自監督表徵學習近兩年十分火熱.機器學習界的三位泰斗 Geoffroy H ...

大談新能源汽車產業發展之道 世界新能源汽車大會幹貨滿滿

大談新能源汽車產業發展之道 世界新能源汽車大會幹貨滿滿
隨著全球新一輪科技革命和產業變革蓬勃發展,新能源汽車已經成為全球汽車產業轉型發展的主要方向.中國作為全球最大的汽車生產國和消費國,新能源汽車產銷量連續六年位居全球第一,成為全球新能源汽車市場最大的增長 ...

鋰電池產業鏈全景圖梳理之一——正極材料
鋰電池產業鏈毫無疑問是近兩年最熱門的投資賽道,也是我未來三到五年最為看好的三大賽道之一(其餘兩個賽道是光伏發電和風電).今年以來,先後對光伏發電產業鏈和風電產業鏈進行了系統梳理(風電還有一部分未完成) ...

世界兵器大觀:隱形戰機發展史

世界兵器大觀:隱形戰機發展史
早在20世紀30年代,英德兩國的科學家就已發現,由於無線電波碰到物體會反射,透過計算反射所需要的時間就可以探測到人類視線範圍以外物體的位置及速度. 之後,英國科學家羅伯特瓦特成功研發出能夠探測出飛機的 ...

KeyPose:從立體估計透明物體的 3D 姿勢

KeyPose:從立體估計透明物體的 3D 姿勢
估計 3D 物件的位置和方向是計算機視覺應用程式中涉及物件級感知的核心問題之一,例如增強現實和機器人操作.在這些應用程式中,瞭解物件在世界中的 3D 位置非常重要,無論是直接影響它們,還是將模擬物件正 ...

位元組跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE

位元組跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE
機器之心專欄 位元組跳動視覺技術團隊 來自位元組跳動視覺技術團隊的研究者將 NeRF 和 Multiplane Image(MPI)結合,提出了一種新的三維空間表達方式 MINE.該方法透過對單張圖片 ...

同學們開發出了預測演算法碳排放量的工具

同學們開發出了預測演算法碳排放量的工具
在日常生活中,我們大多數人都在不知不覺中與一種先進的人工智慧方法--深度學習親密接觸: 當我們使用Siri或Alexa時:當Netflix根據我們的觀影歷史建議電影和電視節目時:或者當我們與網站的客戶 ...

淮安公務員申論指導:讓我們幹掉提出對策題中的異類
申論提出對策難嗎?估計每位同學都會給出自己的答案,但應該有很多同學會認為不難.確實,提出對策題分值高還有一定的自由發揮空間.是很多同學的"鍾愛"題型,但是你真的會做提出對策題嗎?或 ...

信也科技王春平:價值觀在前的人工智慧演算法發展
9月27日,由瑪娜資料基金會主辦的"促進人工智慧演算法性別平等"報告發佈會暨政策研討會在上海舉行,聯合國婦女署駐華辦公室高階專案官員馬雷軍.上海市浦東新區婦女聯合會副主席國雲丹.瑪 ...

福建省市場監督管理局抽檢家用電器6批次 合格6批次

福建省市場監督管理局抽檢家用電器6批次 合格6批次
中國質量新聞網訊 近日,福建省市場監督管理局釋出工業產品質量省級監督抽查結果公告(2021年第22期).據公告,近期,依據<中華人民共和國產品質量法>,福建省市場監督管理局組織對生產領域家 ...

新途觀L深度試駕:高配精緻低配務實,如何選?

新途觀L深度試駕:高配精緻低配務實,如何選?
近日,剛剛完成中期改款亮相的上汽大眾新款途觀L正式開啟了預售,雖然正式售價還未公佈,不過預計和現款車型差別不大. 而就在前一天我恰好才對這款車完成了一次長距離的深度試駕,在我看來,雖然此次新款途觀L的 ...

OPPO 手機攝像頭設計專利曝光:機身側面也能拍照了?

OPPO 手機攝像頭設計專利曝光:機身側面也能拍照了?
關於手機攝像頭形態的探究,在這幾年之間一直以來都是手機廠商的一個重大課題,一些以往看來有些難以置信的設計也從幻想落地為現實,比如光學變焦攝像頭.潛望式長焦攝像頭.液態鏡頭等,手機攝像頭的形態其實已經變 ...

國家市場監督總局對廣汽豐田iA5鎖電進行調查

國家市場監督總局對廣汽豐田iA5鎖電進行調查
9月19日訊息,電車之家獲悉針對廣汽豐田iA5"鎖電"問題,有車主將問題投訴反饋給了廣州市南沙區市場監督管理局,廣州市南沙區市場監督管理局轉由廣州市南沙區綜合行政執法局進行了投訴答 ...

阿根廷正式提出購買梟龍!那麼多外貿機型,為何偏偏選擇梟龍?

阿根廷正式提出購買梟龍!那麼多外貿機型,為何偏偏選擇梟龍?
根據近期巴基斯坦媒體釋出訊息,阿根廷國防部已經向議會正式提出的2022年國防預算草案檔案,根據草案中的內容,阿根廷方面將斥資6.64億美元,向巴基斯坦航空聯合體PAC購買12架JF-17"梟 ...