常見電腦視覺 (Computer Vision) 的任務分類

rowan.ts
2 min readMay 31, 2020

--

圖一、常見電腦視覺任務分類

常見電腦視覺的任務分類如上五種:

  1. 影像分類:一張影像僅能預測一個標籤,因此不適合用在畫面中同時出現多個物件的情況,適合用在影像包含一個主體、一個場景等。
  2. 影像多標籤分類:一張影像預測多個標籤,解決影像分類一個標籤的限制,若影像內容複雜、主題不明,也較難完全正確預測每個標籤。
  3. 物件偵測:預測一張影像中的物件位置與類別,物件位置多以矩形框來描述,矩形框又稱 bounding box (bbox),通常以下列兩種方式紀錄 bbox:
    - 左上角 (x1, y1)、右下角 (x2, y2)
    - 左上角 (x1, y1)、bbox 的寬、bbox 的高。
  4. 語義分割:以像素等級的方式預測一張影像中的物件位置與類別。
  5. 實例分割:以像素等級的方式預測一張影像中的物件位置與類別,並能區分多個物件。

因此,在語義分割任務,僅能區分出狗與貓,而在實例分割任務,卻能區分出畫面中有兩隻狗與兩隻貓。

感謝您的閱讀,如果文章有益請在底下長按拍手
有任何問題歡迎在底下留言或是來信交流wanju.ts@gmail.com

--

--