寫在前面

給定一個樣本集，怎麼得到該樣本集的分佈密度函式，解決這一問題有兩個方法：

1.引數估計方法
簡單來講，即假定樣本集符合某一概率分佈，然後根據樣本集擬合該分佈中的引數，例如：似然估計，混合高斯等，由於引數估計方法中需要加入主觀的先驗知識，往往很難擬合出與真實分佈的模型；
2.非引數估計
和引數估計不同，非引數估計並不加入任何先驗知識，而是根據資料本身的特點、性質來擬合分佈，這樣能比引數估計方法得出更好的模型。核密度估計就是非引數估計中的一種，由Rosenblatt (1955)和Emanuel Parzen(1962)提出，又名Parzen窗（Parzen window）。Ruppert和Cline基於資料集密度函式聚類演算法提出修訂的核密度估計方法。

直方圖到核密度估計

給定一個數據集，需要觀察這些樣本的分佈情況，往往我們會採用直方圖的方法來進行直觀的展現。該方法簡單，容易計算，但繪製直方圖時，需要確定bins，如果bins不同，那麼最後的直方圖會產生很大的差別。如下面的兩直方圖，右邊比左邊的直方圖多劃分了bins，導致最後的結果有很大的差別，左邊時雙峰的，右邊時單峰的。

這裡寫圖片描述

除此之外，直方圖還存在一個問題，那就是直方圖展示的分佈曲線並不平滑，即在一個bin中的樣本具有相等的概率密度，顯然，這一點往往並不適合。解決這一問題的辦法時增加bins的數量，當bins增到到樣本的最大值時，就能對樣本的每一點都會有一個屬於自己的概率，但同時會帶來其他問題，樣本中沒出現的值的概率為0，概率密度函式不連續，這同樣存在很大的問題。如果我們將這些不連續的區間連續起來，那麼這很大程度上便能符合我們的要求，其中一個思想就是對於樣本中的某一點的概率密度，如果能把鄰域的資訊利用起來，那麼最後的概率密度就會很大程度上改善不連續的問題，為了方便觀察，我們看另外一副圖。
這裡寫圖片描述

現在我們假設要求x處的密度函式值，根據上面的思想，如果取x的鄰域[x-h,x+h]，當h->0的時候，我們便能把該鄰域的密度函式值當作x點的密度函式值。用數學語言寫就是：

f^(x)=12hlimh−>0Nxi∈[x−h,x+h]Ntotal Nxi∈[x−h,x+h]時該鄰域中的樣本點數量，Ntotal樣本集的總數量，最後對該鄰域內的密度值取平均便得到x點的密度函式值f(x)。把上面的式子進行改寫：f^(x)=12hNtotal∑i=x−hx+hxi=1hNtotal∑i|x−xi|2h<1,h−>0 這裡h如果選的太大，肯定不符合h趨向於0的要求。h選的太小，那麼用於估計f(x)的點實際上非常少。這也就是非引數估計裡面的bias-variance tradeoff，也就是偏差和方差的平衡。這樣後還是存在一個問題，那就是概率密度函式依然不夠平滑（因為兩個數之間的存在無數個數啊）。

記K

(x)=121{x<1}，那麼：f^(x)=1hNtotal∑iK(|x−xi|h)由於需要滿足概率密度的積分為1，所以：∫f^(x)=1hNtotal∑i∫K(|x−xi|hdx=1Ntotal∑i∫K(t)dt=∫K(t)dt 也就是要滿足K(t)的積分等於1也就滿足了f^(x)的積分為1。如果把K(t)當作其他已知的概率密度函式，那麼問題就解決了，最後的密度函式也就連續了。

核函式

從支援向量機、meansift都接觸過核函式，應該說核函式是一種理論概念，但每種核函式的功能都是不一樣的，這裡的核函式有uniform,triangular, biweight, triweight, Epanechnikov,normal等。這些核函式的影象大致如下圖：
這裡寫圖片描述
有言論稱Epanechnikov 核心在均方誤差意義下是最優的，效率損失也很小。這一點我沒有深究是如何得到的，暫且相信吧^^。由於高斯核心方便的數學性質，也經常使用 K(x)= ϕ(x)，ϕ(x)為標準正態概率密度函式。
從上面講述的得到的是樣本中某一點的概率密度函式，那麼整個樣本集應該是怎麼擬合的呢？將設有N個樣本點，對這N個點進行上面的擬合過後，將這N個概率密度函式進行疊加便得到了整個樣本集的概率密度函式。例如利用高斯核對X={x1=−2.1,x2=−1.3,x3=−0.4,x4=1.9,x5=5.1,x6=6.2} 六個點的“擬合”結果如下：

這裡寫圖片描述
左邊是直方圖，bin的大小為2，右邊是核密度估計的結果。

頻寬的選擇

在核函式確定之後，比如上面選擇的高斯核，那麼高斯核的方差，也就是h（也叫頻寬，也叫視窗，我們這裡說的鄰域）應該選擇多大呢？不同的頻寬會導致最後的擬合結果差別很大。同時上面也提到過，理論上h->0的，但h太小，鄰域中參與擬合的點就會過少。那麼藉助機器學習的理論，我們當然可以使用交叉驗證選擇最好的h。另外，也有一個理論的推導給你選擇h提供一些資訊。
在樣本集給定的情況下，我們只能對樣本點的概率密度進行計算，那擬合過後的概率密度應該核計算的值更加接近才好，基於這一點，我們定義一個誤差函式，然後最小化該誤差函式便能為h的選擇提供一個大致的方向。選擇均平方積分誤差函式(mean intergrated squared error)，該函式的定義是：

MISE(h)=E∫(f^(x)−f(x))2dx 在weak assumptions下，MISE(h)=AMISE(h)+o(

核密度估計 Kernel Density Estimation(KDE)

寫在前面

直方圖到核密度估計

核函式

頻寬的選擇

核密度估計Kernel Density Estimation(KDE)

核密度估計 Kernel Density Estimation(KDE)

核密度估計（kernel density estimation）

機器學習-直方圖和核密度估計（Kernel Density Estimates）

核模型（核密度估計）

MATLAB中自帶的核密度估計函式

人群密度估計-Crowd Density

核密度估計與自適應頻寬的核密度估計

非引數估計——核密度估計（Parzen窗）

人群密度估計--Generating High-Quality Crowd Density Maps using Contextual Pyramid CNNs

車輛密度估計--Understanding Traffic Density from Large-Scale Web Camera Data

影象處理基礎知識系列之二：核概率密度估計簡介

【MLE】最大似然估計Maximum Likelihood Estimation

機器學習中的概率模型和概率密度估計方法及VAE生成式模型詳解之二（作者簡介）

機器學習中的概率模型和概率密度估計方法及VAE生成式模型詳解之一（簡介）

機器學習中的概率模型和概率密度估計方法及VAE生成式模型詳解之五（第3章之 EM算法）

機器學習中的概率模型和概率密度估計方法及VAE生成式模型詳解之六（第3章之 VI/VB算法）

機器學習中的概率模型和概率密度估計方法及VAE生成式模型詳解之七（第4章之梯度估算）

機器學習中的概率模型和概率密度估計方法及VAE生成式模型詳解之八（第4章之 AEVB和VAE）

機器學習中的概率模型和概率密度估計方法及VAE生成式模型詳解之九（第5章總結）

核密度估計 Kernel Density Estimation(KDE)

寫在前面

直方圖到核密度估計

核函式

頻寬的選擇

相關推薦