常見電腦視覺的任務分類如上五種:
- 影像分類:一張影像僅能預測一個標籤,因此不適合用在畫面中同時出現多個物件的情況,適合用在影像包含一個主體、一個場景等。
- 影像多標籤分類:一張影像預測多個標籤,解決影像分類一個標籤的限制,若影像內容複雜、主題不明,也較難完全正確預測每個標籤。
- 物件偵測:預測一張影像中的物件位置與類別,物件位置多以矩形框來描述,矩形框又稱 bounding box (bbox),通常以下列兩種方式紀錄 bbox:
- 左上角 (x1, y1)、右下角 (x2, y2)
- 左上角 (x1, y1)、bbox 的寬、bbox 的高。 - 語義分割:以像素等級的方式預測一張影像中的物件位置與類別。
- 實例分割:以像素等級的方式預測一張影像中的物件位置與類別,並能區分多個物件。
因此,在語義分割任務,僅能區分出狗與貓,而在實例分割任務,卻能區分出畫面中有兩隻狗與兩隻貓。
感謝您的閱讀,如果文章有益請在底下長按拍手
有任何問題歡迎在底下留言或是來信交流wanju.ts@gmail.com