1. 程式人生 > >資料預處理之缺失值處理

資料預處理之缺失值處理

資料預處理.1

缺失值處理

  1. 刪除法 刪除小部分樣本,在樣本量大時(刪除部分所佔比例小於5%時)可以使用
  2. 插補法 —均值插補:分為定距型(插入均值)和非定距型(眾數或者中值) —迴歸插補:線性和非線性迴歸 —極大似然估計MLE(正態分佈為例)

極大似然原理的直觀想法我們用下面例子說明,在《權力的遊戲》中有個場景,老徒利死的時候,屍體放在穿上,需要弓箭手在岸邊發射火箭引燃。但是當時的艾德慕·徒利公爵射了三箭都沒中,布林登·徒利實在看不下去了,通過旗幟判斷風向,一箭命中! 因此箭能否射中靶心,不僅跟弓箭手的瞄準能力有關,還跟外界的風向有關係。假設不考慮人的因素,但看風向…同樣的瞄準和力度,風太大不行、太小也不行….那我們給風的大小設定一個值為θ。假設一名弓箭手射出了三隻箭,分別是8環、6環、7環(即x1=8,x2=6,x3=7),當天風的大小為88。那麼我們認為只有θ=88,發生上面事件的概率最大。

極大似然估計法該原理指的是在已知資料模型的情況下,得出該組資料生成概率最大的情況下所對應的引數值,即為估計結果。 如果需要插補的話應該在得出具體方程後進行代入資料得出函式值即可

程式碼舉例:

         t=[35,38,40,43,45,47,48,50,52,54,55,57,60,61,63,65,67,73,77,84]   %試驗資料
         [email protected](t,a,b,c)  (a./b.^a).*(t-c).^(a-1).*exp(-((t-c)./b).^a);     %該函式為正態分佈的概率密度函式,也可以在其他情況下為其他種類概率密度函式
         start=[2  30  30];  %三個a b c的初值 
         [phat, pci]=mle(t,'pdf',PDF,'start',start)  %phat估計值  pci估計區間,求出abc的估計值

當然首先也要判斷是否服從正態分佈:

[h,p]=lillietest(X)

返回值h只有0和1兩種情況,h=0符合正態分佈,h=1不符合正態分佈 返回值p為方差概率,也可以說事情的發生概率,p<0.05(顯著性水平通常取0.05,還有0.025和0.01三種情況)為不可能事件,拒絕;p>0.05,接受,引數X為要檢測的資料