1. 程式人生 > >20.方差/標準差/數學期望/正態分佈/高斯函式(數學篇)--- OpenCV從零開始到影象(人臉 + 物體)識別系列

20.方差/標準差/數學期望/正態分佈/高斯函式(數學篇)--- OpenCV從零開始到影象(人臉 + 物體)識別系列

本文作者:小嗷

微信公眾號:aoxiaoji

吹比QQ群:736854977

1.前言

本文你會找到以下問題的答案:

  1. 方差
  2. 標準差
  3. 數學期望
  4. 正態分佈
  5. 高斯函式

2.1 方差

方差描述隨機變數對於數學期望的偏離程度。(隨機變數可以看成隨機畫素點)

兩人的5次測驗成績如下:(X,Y代表2個人,E(X)代表平均分)

X: 50,100,100,60,50 E(X)=72;
Y: 73, 70, 75,72,70 E(Y)=72。

平均成績相同,但X 不穩定,對平均值的偏離大。

公式如下:

平均數:

1.平均值公式

方差公式:

2.方差公式

用途:環境的不確定因素波動小,穩定性好,識別的成功率越高。即:方差越小越穩定 (方差越大則波動越大)

2.2 標準差

方差是資料的平方,與檢測值本身相差太大,難以直觀的衡量,所以常用方差開根號換算回來,也就是標準差。

3.標準差

同理,方差開個根號之後,更加直觀看出資料本身的離散程度(波動大小)

4.誤差 + 方差 + 標準差

如上圖為誤差 + 平均差 + 標準差

還記得均值濾波,在矩陣內的畫素點波動大的時候,均值就更加不靠譜了,振鈴效應也就越明顯。

比如一個班男生的平均身高是170cm,標準差是10cm,那麼方差就是100cm^2。可以進行的比較簡便的描述是本班男生身高分佈是170±10cm,方差就無法做到這點。

如果標準差大的話,我們是否可以考慮這附近可能有邊緣,波動大代表我們矩陣均值賦予的畫素值不靠譜?(這點也是小嗷突發奇想)

看不懂我寫什麼,請看回我卷積那篇,應該是上上篇。

2.3 數學期望

某城市有10萬個家庭,沒有孩子的家庭有1000個,有一個孩子的家庭有9萬個,有兩個孩子的家庭有6000個,有3個孩子的家庭有3000個。

則此城市中任一個家庭中孩子的數目是一個隨機變數,記為X。它可取值0,1,2,3。

其中,X取0的概率為0.01(沒孩子的概率),取1的概率為0.9(1個孩子的概率),取2的概率為0.06(2個孩子的概率),取3的概率為0.03(3個孩子的概率)。

則,它的數學期望

E(x) = 0 x 0.01 + 1 x 0.9 + 2 x0.06 + 3 x 0.03 = 1.11

公式如下:

5.數學期望公式1

5.數學期望公式2

即此城市一個家庭平均有小孩1.11個。

2.4 正態分佈

正態分佈需要用到:數學期望為μ,方差為σ^2。

若隨機變數X服從一個數學期望為μ、方差為σ^2的正態分佈,記為N(μ,σ^2)。其概率密度函式為正態分佈的期望值μ決定了其位置,其標準差σ決定了分佈的幅度。下圖為正態分佈圖:

6.正態分佈圖

公式如下:

7.正態分佈公式

當μ = 0,σ = 1時的正態分佈是標準正態分佈。

標準正態分佈公式如下:

8.標準分佈公式

由於“小概率事件”和假設檢驗的基本思想 “小概率事件”通常指發生的概率小於5%的事件,認為在一次試驗中該事件是幾乎不可能發生的。由此可見X落在(μ-3σ,μ+3σ)以外的概率小於千分之三,在實際問題中常認為相應的事件是不會發生的,基本上可以把區間(μ-3σ,μ+3σ)看作是隨機變數X實際可能的取值區間,這稱之為正態分佈的“3σ”原則。

9.正態分佈圖1

某些醫學現象,如同質群體的身高、紅細胞數、血紅蛋白量,以及實驗中的隨機誤差,呈現為正態或近似正態分佈;有些指標(變數)雖服從偏態分佈,但經資料轉換後的新變數可服從正態或近似正態分佈,可按正態分佈規律處理。其中經對數轉換後服從正態分佈的指標,被稱為服從對數正態分佈。

即:很多隨機變數的概率分佈都可以近似地用正態分佈來描述。

正態分佈曲線及面積分布圖非常清晰的展示了重點,那就是基區佔68.27%,是主體,要重點抓,此外95%,99%則展示了正態的全面性。認識世界和改造世界一定要住住重點,因為重點就是事物的主要矛盾,它對事物的發展起主要的、支配性的作用。抓住了重點才能一舉其綱,萬目皆張。事物和現象紛繁複雜,在千頭萬緒中不抓住主要矛盾,就會陷入無限瑣碎之中。由於我們時間和精力的相對有限性,出於效率的追求,我們更應該抓住重點。在正態分佈中,基區佔了主體和重點。如果我們結合20/80法則,我們更可以大膽的把正區也可以看做是重點。

注意:我們在後面深度學習,是否能根據正態分佈,讓程式抓重點,自動識別這是條狗?而不是通過訓練。

正態分佈(Normal distribution),也稱“常態分佈”,又名高斯分佈(Gaussian distribution)

2.5 高斯函式

一維高斯函式:

10.高斯函式

a表示得到曲線的高度,b是指曲線在x軸的中心,c指width(與半峰全寬有關),圖形如下:

11.高斯函式圖

2、根據一維高斯函式,可以推導得到二維高斯函式:

12.二維高斯函式

13.二維高斯函式圖

在圖形上,正態分佈是一種鐘形曲線,越接近中心,取值越大,越遠離中心,取值越小。
計算平均值的時候,我們只需要將”中心點”作為原點,其他點按照其在正態曲線上的位置,分配權重,就可以得到一個加權平均值。例如:通常,影象處理軟體會提供”模糊”(blur)濾鏡,使圖片產生模糊的效果。

第三張圖

14.二維高斯函式影象

資料平滑技術(data smoothing),適用於多個場合,影象處理恰好提供了一個直觀的應用例項。

高斯模糊的原理

所謂”模糊”,可以理解成每一個畫素都取周邊畫素的平均值。

15.模糊

上圖中,2是中間點,周邊點都是1。

15.模糊1

“中間點”取”周圍點”的平均值,就會變成1。在數值上,這是一種”平滑化”。在圖形上,就相當於產生”模糊”效果,”中間點”失去細節。

16.平滑

顯然,計算平均值時,取值範圍越大,”模糊效果”越強烈。

17.模糊效果

上面分別是原圖、模糊半徑3畫素、模糊半徑10畫素的效果。模糊半徑越大,影象就越模糊。從數值角度看,就是數值越平滑。

接下來的問題就是,既然每個點都要取周邊畫素的平均值,那麼應該如何分配權重呢?

如果使用簡單平均,顯然不是很合理,因為影象都是連續的,越靠近的點關係越密切,越遠離的點關係越疏遠。因此,加權平均更合理,距離越近的點權重越大,距離越遠的點權重越小。

正態分佈的權重

正態分佈顯然是一種可取的權重分配模式。

18.正態分佈圖3

在圖形上,正態分佈是一種鐘形曲線,越接近中心,取值越大,越遠離中心,取值越小。

計算平均值的時候,我們只需要將”中心點”作為原點,其他點按照其在正態曲線上的位置,分配權重,就可以得到一個加權平均值。

高斯函式

上面的正態分佈是一維的,影象都是二維的,所以我們需要二維的正態分佈。

19.二維高斯函式圖1

高斯函式”(Gaussian function)。它的一維形式是

20.一維高斯函式圖1

其中,μ是x的均值,σ是x的方差。因為計算平均值的時候,中心點就是原點,所以μ等於0。

21.標準高斯函式圖1

根據一維高斯函式,可以推導得到二維高斯函式

21.二維高斯函式圖2

有了這個函式 ,就可以計算每個點的權重了。

權重矩陣

假定中心點的座標是(0,0),那麼距離它最近的8個點的座標如下:

22.圖1

更遠的點以此類推。

為了計算權重矩陣,需要設定σ的值。假定σ=1.5,則模糊半徑為1的權重矩陣如下:

22.圖2

這9個點的權重總和等於0.4787147,如果只計算這9個點的加權平均,還必須讓它們的權重之和等於1,因此上面9個值還要分別除以0.4787147,得到最終的權重矩陣。

22.圖3

計算高斯模糊

有了權重矩陣,就可以計算高斯模糊的值了。

假設現有9個畫素點,灰度值(0-255)如下:

22.圖4

每個點乘以自己的權重值:

22.圖5

將這9個值加起來,就是中心點的高斯模糊的值。

對所有點重複這個過程,就得到了高斯模糊後的影象。如果原圖是彩色圖片,可以對RGB三個通道分別做高斯模糊。

2.5.1 高斯(核)函式簡介(這個上上篇寫了,現在在寫寫)

函式的基本概念

所謂徑向基函式 (Radial Basis Function 簡稱 RBF), 就是某種沿徑向對稱的標量函式。 通常定義為空間中任一點x到某一中心xc之間歐氏距離的單調函式 , 可記作 k(||x-xc||), 其作用往往是區域性的 , 即當x遠離xc時函式取值很小。最常用的徑向基函式是高斯核函式 ,形式為 k(||x-xc||)=exp{- ||x-xc||^2/2*σ^2) } 其中xc為核函式中心,σ為函式的寬度引數 , 控制了函式的徑向作用範圍。

高斯函式具有五個重要的性質,這些性質使得它在早期影象處理中特別有用.這些性質表明,高斯平滑濾波器無論在空間域還是在頻率域都是十分有效的低通濾波器,且在實際影象處理中得到了工程人員的有效使用.高斯函式具有五個十分重要的性質,它們是:

  1. 高斯函式是單值函式,高斯濾波使用畫素鄰域加權均值來代替該點的畫素值,畫素權重會隨著距離的變化而單調遞減,以此來減少失真現象。

  2. 高斯函式具有旋轉對稱性,高斯濾波在各個方向上的平滑程度是相同的,對於存在的噪聲很難估計其方向性,保證平滑效能不會偏向任何方向。

  3. 高斯函式的傅立葉頻譜是單瓣的,使得平滑影象不會被不需要的高頻訊號所影響,同時保留了大部分所需要的訊號。

  4. 高斯濾波的平滑程度是由方差σ決定的,σ越大,頻帶也就越寬,從而平滑的程度也就越大,對於影象中的噪聲有可以控制的引數進行設定。

  5. 高斯函式具有可分離性,二維高斯函式卷積可以分為兩步來進行,首先將影象和一維高斯函式進行卷積運算,然後將卷積結果和方向垂直的相同一維高斯函式進行卷積。

高斯函式參考資料:

23總結與感想.png

  1. 本人是抱著玩一玩的心態,學習opencv(其實深度學習沒有外界說的這麼高深,小嗷是白板,而且有工作在身並且於程式碼無關)
  2. 大家可以把我的數學水平想象成初中水平,畢竟小嗷既不是程式碼靠吃飯又不是靠數學吃飯,畢業N年
  3. 寫文章主要是為了後人少走點彎路,多交點朋友,一起學習
  4. 如果有好的影象識別群拉我進去QQ:631821577
  5. 就我一個白板,最後還是成的,你們別怕,慢慢來把

7.二維碼

分享可以無數次,轉載成自己文章QQ郵箱通知一下,未經授權請勿轉載。

  • 郵箱:[email protected]
  • QQ群:736854977
  • 有什麼疑問公眾號提問,下班或者週六日回答,ths

最近,很多人問我工作做什麼,什麼學歷(研究生/老闆/嵌入式工作者/準備轉業也有,總之千奇百怪的人都有)。我認為每個自學者不分貴賤,工作什麼,什麼學歷不重要。

時間是公平的,人也就一輩子,大家有機會聚在一起學習分享也是一種緣分。而且,小嗷既不是程式碼靠吃飯又不是靠數學吃飯,畢業N年。大家想想就知道,我程式碼和數學水平是多麼渣渣。

像我這麼渣,都能懂,難道你們這麼優秀還不懂?當然,也有可能,我寫不好誤導各位造成的,所以,也希望大家勇於發言,給小嗷一個改正的機會。

推薦檔案: