1. 程式人生 > >影象處理與影象識別筆記(一)

影象處理與影象識別筆記(一)

本系列是研一課程《影象處理與影象識別》的隨堂筆記,主要內容是數字影象處理方面,根據老師的講課內容與自己的理解所書寫,還會有一些具體實現的程式碼,基於Python,歡迎交流。本篇主要介紹影象處理與影象識別的基礎知識。

一、影象處理(ImageProcessing)

影象處理是對影象資訊進行加工處理,以滿足人的視覺心理和實際應用的要求。

影象處理是以人作為最終的資訊接收者,主要目的是改善影象的質量。
影象處理是計算機視覺的基礎。

二、影象識別(ImageRecognition)

影象識別是以機器為物件,目的是使機器或計算機能自動地識別目標,屬於計算機視覺範疇內。

影象分割是數字影象處理中的關鍵技術之一,指的是將影象中的有意義的特徵部分提取出來,包括影象中物體的邊緣、區域等。影象分割是進一步進行影象識別、分析和理解的基礎,例如手寫資料集MNIST就是已經分割好的資料集。我們這裡所述的影象分割是指傳統的分割,將屬於不同物體的畫素分開,計算機並不知道分割出來的內容是什麼,這個階段的影象分割方法包括像Ostu、FCM、分水嶺、N-Cut等,屬於非監督學習;影象語義分割是更高階的分割,語義分割是在傳統分割的基礎之上,分類出每一個區域的語義,這個階段的主要方法是深度學習。還有一種分割叫例項分割(Instance Segmentation),在語義分割的基礎上,對屬於同一類別的不同物體進行劃分。影象分割的應用場景,比如自動駕駛,3D 地圖重建,美化圖片,人臉建模等等。影象分割是畫素級的,與影象分類、目標檢測區分開,是更高一級層面的


上圖中的影象分割應指的是傳統的分割方法,在傳統的影象識別中需要先進行影象分割。

三、影象識別快速發展的原因

(1)計算效能大幅提高,底層晶片從CPU+GPU到FPGA,再到人工智慧晶片,計算效能不斷重新整理;
(2)應用場景多樣化,提升產業與技術的發展;
(3)開源工具與框架方便學習與研究,縮短理論到應用的距離。