極為簡略的介紹下當前計算機視覺的基本概念和基本的研究方向。
是什麼:使機器“看”的科學
- 是什麼(分類)
- 在哪兒(檢測、定位、分割)
- 直接從圖片資料產生知識
為什麼:視覺是人最主要的資訊輸入
- 70~80%資訊來自人眼
- 移動多媒體時代產生更多的是圖片和影片資料
- 圖片和影片價值沒有完全挖掘,屬於“暗資料”
- 圖片影片包含更多的資訊
基本任務
分為圖片和影片兩部分,主要羅列比較成熟熱門的幾個方向。
分類(Classification)
-
預測圖片的類別(What)
-
子任務
-
單標籤(Single-Label)
-
多標籤(Multi-Label)
-
粗粒度(Coarse-Grained)
-
細粒度(Fine-Grained)
-
典型應用:搜尋、分類
檢測(Detection)
-
定位物體位置(Where)
-
子任務
-
D檢測
-
3D檢測
-
顯著性檢測
-
遙感檢測
-
典型應用:人臉檢測、汽車檢測
分割(Segmentation)
-
畫素級的內容理解和定位
-
子任務:
-
語義分割/例項分割
-
Alpha Matting
-
3D分割
-
典型應用:換天、人像摳圖
影象生成(Generation)
-
透過演算法生成圖片
-
子任務
-
隨機生成
-
風格遷移
-
圖片合成
-
圖片翻譯
-
典型應用:卡通化、換臉、換裝
關鍵點定位(KeyPoint)
-
定點陣圖像中的關鍵畫素點
-
子任務
-
人臉關鍵點
-
人體關鍵點
-
手勢關鍵點
-
物體姿態估計
-
典型應用:人臉配準、手勢識別
影象恢復(Restoration)
-
蛻化影象生成高質量影象
-
子任務
-
超解析度
-
影象去噪
-
影象修補
-
去模糊
-
上色、去霧、去雨等
-
典型應用:拍照畫質增強、老照片修復
影片
影片跟蹤(Tracking)
-
跟蹤影片指定物體
-
子任務
-
單目標跟蹤
-
多目標跟蹤
-
典型應用:自動駕駛、安防監控
影片識別(Video Recognition)
-
識別影片中的特定行為
-
子任務
-
人體行為識別
-
事件識別
-
典型應用:監控、安防
影片摘要(Video Summarization)
-
提取有意義(精彩)的片段
-
子任務
-
精彩鏡頭
-
縮圖
-
典型應用:影片動態封面
影片插幀(Video Interpolation)
-
合成任意時刻的影片幀,從而最佳化解決影片中卡頓、抖動等畫
-
典型應用:慢動作影片製作
影片其他任務
一些典型的垂直應用
-
人臉
- 人臉檢測/跟蹤
- 關鍵點定位
- 姿態估計
- 人臉識別
- 人臉聚類
- 性別識別
- 年齡估計
- 表情識別
- 活體檢測
- 閉眼檢測
- 口罩檢測
- 人臉質量評估
-
文件
- 印刷體檢測/識別(OCR)
- 手寫體檢測/識別(HCR)
- 自然場景識別(NCR)
- 文件佈局識別
- 文件重建
- 票證類識別
- 表格識別
-
人體
- 人體檢測
- 姿態估計
- 行人重識別
- 行人追蹤
- 手勢識別
- 人流量統計/人群密度分析
- 動作行為識別
- 人像分割
- 屬性分析
未來趨勢
- 影片
- 3D(VR/AR)
- 多模態:融合文字、音訊、視覺資訊
- 細粒度理解(分割、系列度分類)
- 大規模資料預訓練(例如:GPT-3)