Python資料預處理之---統計學的t檢驗，卡方檢驗以及均值，中位數等

阿新 • • 發佈：2018-12-13

Python資料預處理過程：利用統計學對資料進行檢驗，對連續屬性檢驗正態分佈，針對正態分佈屬性繼續使用t檢驗檢驗方差齊次性，針對非正態分佈使用Mann-Whitney檢驗。針對分類變數進行卡方檢驗（涉及三種卡方的檢驗：Pearson卡方，校準卡方，精準卡方）等。

具體的程式碼中註釋很詳細：

def output_statistics_info_self(data_df, category_feats, continue_feats, target,logger,nan_value=-1,info_more=True):
    '''
    Function:輸出最全的資料的描述資訊
    Parameters:
        data_df：DataFrame the source data
        category_feats：list
        continue_feats：list
        target：the classification target,as the y
        nan_value:default -1,represent the nan value need to be filled
        info_more:default True,output the whole info;False:output the part info for client and paper
    Return:
        DataFrame
    '''
    sample_size = data_df.shape[0]
    # 判斷target是二分類還是多分類(三分類及其以上)
    target_values=list(data_df[target].value_counts().index)
    logger.info('%s取值%s'%(target,target_values))
    task_type=len(target_values)
    total_describe_list=[]

    # 警告：做單因素分析之前必須要異常值檢查，排出非數字的異常值，否則報錯
    # data_df[continue_feats]=data_df[continue_feats].applymap(float)
    # data_df[category_feats]=data_df[category_feats].applymap(float)

    # 針對二分類任務
    if task_type==2:
        # 針對連續屬性
        # 先檢驗連續屬性是否是正態分佈其次再檢驗是否方差齊次，才能使用獨立t檢驗
        for col in continue_feats:
            logger.info('------%s--------'%col)
            col_series=data_df[data_df[col]!=nan_value][col]
            col_count=col_series.count()

            vals=[col,'連續',col_count]
            # 檢驗連續屬性是否符合正態分佈
            p_value=norm_distribution_test(sample_size,col_series)
            # 如果p_value>0.05 正態分佈,使用獨立t檢驗，檢驗連續屬性在兩組樣本方差相同的情況下它們的均值是否相同
            condition0=(data_df[target] == target_values[0]) & (data_df[col] != nan_value)
            condition1=(data_df[target] == target_values[1]) & (data_df[col] != nan_value)

            if p_value > 0.05:
                logger.info('%s符合正態分佈'%col)
                # 使用levene檢驗方差齊次
                stat,pval=levene(data_df[condition0][col].values,data_df[condition1][col].values)
                if pval>0.05:
                    # p值大於0.05，認為兩總體具有方差齊性。
                    t_stat, pvalue = ttest_ind(data_df[condition0][col].values,data_df[condition1][col].values,
                                equal_var=True)
                else:
                    # 兩總體方差不齊
                    t_stat, pvalue = ttest_ind(data_df[condition0][col].values,data_df[condition1][col].values,
                                equal_var=False)
                pvalue=round(pvalue,3)
                if pvalue==0:
                    pvalue='<0.001'
                vals.extend(['是_%s'%p_value,'ttest',t_stat,pvalue,''])

            #非正態分佈的二分類使用Mann-Whitney U test檢驗
            else:
                logger.info('%s不符合正態分佈'%col)
                m_stat, pvalue = mannwhitneyu(
                                    data_df[condition0][col].values,data_df[condition1][col].values,
                                    use_continuity=False,alternative='two-sided'
                                    )
                pvalue=round(pvalue,3)
                if pvalue==0:
                    pvalue='<0.001'
                vals.extend(['否_%s'%p_value,'Mann',m_stat,pvalue,''])


            # 對連續變數輸出均值±標準差
            # 並在括號中附上IQR值（75%分位點-25%分位點的值），檢視連續屬性中間部分是否集中或者分散
            target0_col_iqr=round(iqr(x=data_df[condition0][col].values,nan_policy='omit'),3)
            target_0_mean_std="%.2f±%.2f (%s)" %(data_df[condition0][col].mean(),
                        data_df[condition0][col].std(),target0_col_iqr)

            target1_col_iqr=round(iqr(x=data_df[condition1][col].values,nan_policy='omit'),3)
            target_1_mean_std="%.2f±%.2f (%s)" %(data_df[condition1][col].mean(),
                        data_df[condition1][col].std(),target1_col_iqr)

            vals.extend([target_0_mean_std,target_1_mean_std])
            total_describe_list.append(vals)

        # 針對分類變數使用"卡方檢驗"
        for col in category_feats:
            logger.info('#######%s######'%col)
            col_series=data_df[data_df[col]!=nan_value][col]
            col_count=col_series.count()
            col_count_ser=col_series.value_counts()
            vals=[col,'分類',col_count,'','卡方']

            data_kf = data_df[data_df[col]!=nan_value][[col,target]]
            cross_table = data_kf.groupby([col, target])[target].count().unstack()
            cross_table.fillna(0,inplace=True)
            logger.info(cross_table)

            if len(col_count_ser)==2:
                stat,pvalue=foursquare_chi_test(cross_table,col_count)
                vals.extend([stat,pvalue,''])
            else:
                stat,pvalue,iswarning=not_foursquare_chi_test(cross_table)
                vals.extend([stat,pvalue,iswarning])
            vals.extend(['',''])
            total_describe_list.append(vals)

            # 針對分類變數輸出各個類別的target比例
            for col_kind in col_count_ser.index:
                logger.info('col_kind:%s'%col_kind)
                col_kind_percent=['%s_%s'%(col,col_kind),'','','','','','','']
                for v in target_values:
                    col_kind_percent.append("%d(%.1f%%)" %
                                        (data_df[((data_df[col] == col_kind) & (data_df[target] == v))].shape[0],
                                        data_df[((data_df[col] == col_kind) & (data_df[target] == v))].shape[0] /
                                        data_df[((data_df[col]!=nan_value)&(data_df[target] == v))].shape[0]*100))
                total_describe_list.append(col_kind_percent)

    # 針對三分類或者多分類
    elif task_type>=3:
         # "先判斷是否方差齊次，才能使用獨立t檢驗"
        for col in continue_feats:
            logger.info('----!!!--%s--------'%col)
            col_series=data_df[data_df[col]!=nan_value][col]
            col_count=col_series.count()
            vals=[col,'連續',col_count]
            p_value=norm_distribution_test(sample_size,col_series)
            if p_value > 0.05:#正態分佈
                # 1-way ANOVA：原假設：兩個或多個group擁有相同的均值
                # 使用的前提條件：1、樣本獨立，2、每個樣本都來源於正態分佈群體，3、每個group方差齊次（方差相同）
                # 以上條件不滿足時：使用Kruskal-Wallis H-test
                df = data_df[[col, target]]
                # 排出填補的那些值
                df = df[df[col] != nan_value]
                stat, pvalue = f_oneway(
                                 df[df[target] == target_values[0]][col].values,
                                 df[df[target] == target_values[1]][col].values,
                                 df[df[target] == target_values[2]][col].values
                                 )
                pvalue=round(pvalue,3)
                if pvalue==0:
                    pvalue='<0.001'
                vals.extend(['是_%s'%p_value,'anova',round(stat,3),pvalue])

            else:
                # 非正態分佈
                # Compute the Kruskal-Wallis H-test for independent samples
                df = data_df[[col, target]]
                df = data_df[data_df[col] != nan_value]
                stat, pvalue = kruskalwallis(df[df[target] == target_values[0]][col].values,
                                            df[df[target] == target_values[1]][col].values,
                                            df[df[target] == target_values[2]][col].values)
                pvalue=round(pvalue,3)
                if pvalue==0:
                    pvalue='<0.001'
                vals.extend(['否_%s'%p_value,'kruskal',round(stat,3),pvalue])


            # 對連續變數輸出均值±標準差,以及IQR值
            condition0=(data_df[target] == target_values[0]) & (data_df[col] != nan_value)
            target0_col_iqr=round(iqr(x=data_df[condition0][col].values,nan_policy='omit'),3)
            target_0_mean_std="%.2f±%.2f (%s)" %(data_df[condition0][col].mean(),
                        data_df[condition0][col].std(),target0_col_iqr)

            condition1=(data_df[target] == target_values[1]) & (data_df[col] != nan_value)
            target1_col_iqr=round(iqr(x=data_df[condition1][col].values,nan_policy='omit'),3)
            target_1_mean_std="%.2f±%.2f (%s)" %(data_df[condition1][col].mean(),
                        data_df[condition1][col].std(),target1_col_iqr)

            condition2=(data_df[target] == target_values[2]) & (data_df[col] != nan_value)
            target2_col_iqr=round( iqr(x=data_df[condition2][col].values,nan_policy='omit'),3)
            target_2_mean_std="%.2f±%.2f (%s)" %(data_df[condition2][col].mean(),
                        data_df[condition2][col].std(),target2_col_iqr)

            vals.extend([target_0_mean_std,target_1_mean_std,target_2_mean_std])
            total_describe_list.append(vals)

        for col in category_feats:
            logger.info('#######%s######'%col)
            col_series=data_df[data_df[col]!=nan_value][col]
            col_count=col_series.count()
            vals=[col,'分類',col_count,'','卡方']
            data_kf = data_df[data_df[col] != nan_value][[col, target]]
            cross_table = data_kf.groupby([col, target])[target].count().unstack()
            cross_table.fillna(0,inplace=True)
            logger.info(cross_table)

            stat,pvalue,iswarning=not_foursquare_chi_test(cross_table)
            vals.extend([stat,pvalue,iswarning])
            vals.extend(['','',''])
            total_describe_list.append(vals)

            # 對類別屬性輸出各類別的比例
            for col_kind in col_series.index:
                logger.info('col_kind:%s'%col_kind)
                if col_kind!=nan_value:
                    col_kind_percent=['%s_%s'%(col,col_kind),'','','','','','']
                    for v in target_values:
                        col_kind_percent.append("%d(%.2f)" %
                                        (data_df[((data_df[col] == col_kind) & (data_df[target] == v))].shape[0],
                                        data_df[((data_df[col] == col_kind) & (data_df[target] == v))].shape[0] /
                                        data_df[data_df[col] == col_kind].shape[0]))
                    total_describe_list.append(col_kind_percent)

    columns = ['屬性','屬性類別','有效值','是否正態分佈', '檢驗方法', '統計量', 'pvalue','卡方warning']
    for v in target_values:
        columns.append("target_{0}".format(v))
    total_describe_df = pd.DataFrame(total_describe_list, columns=columns)

    # 輸出額外的更多詳細資訊
    if info_more==True:
        # 新增缺失情況統計，缺失情況、最小值、最大值、均值、標準差
        info_add_list=[]
        for col in continue_feats+category_feats:
            col_series=data_df[data_df[col]!=nan_value][col]
            miss_count=data_df[data_df[col]==nan_value][col].count()
            if miss_count==0:
                _miss=''
            else:
                miss_ratio=round(miss_count/sample_size*100,2)
                _miss='%s(%.1f%%)'%(miss_count,miss_ratio)
            vals_info=[col,_miss]
            if col in continue_feats:
                vals_info.extend([
                        round(col_series.min(), 2),round(col_series.max(), 2),
                        round(col_series.mean(), 2),round(col_series.std(), 2),
                        round(iqr(x=col_series.values,nan_policy='omit'),2)
                    ]
                )
            elif col in category_feats:
                vals_info.extend(['','','','',''])
            info_add_list.append(vals_info)

        add_columns=['屬性','缺失情況','最小值','最大值','均值','標準差','IQR']
        info_add_df= pd.DataFrame(info_add_list, columns=add_columns)
        total_describe_df=total_describe_df.merge(info_add_df,on='屬性',how='outer')

    return total_describe_df

def foursquare_chi_test(cross_table,col_count):
    # 四格表卡方檢驗用於進行兩個率或兩個構成比的比較。
    # 要求樣本含量應大於40且每個格子中的理論頻數不應小於5。
    # 當樣本含量大於40但理論頻數有小於5的情況時卡方值需要校正，當樣本含量小於40時只能用確切概率法計算概率。
    # (1)所有的理論數T≥5並且總樣本量n≥40，用Pearson卡方進行檢驗。
    # (2)如果理論數T＜5但T≥1，並且總樣本量n≥40，用連續性校正的卡方進行檢驗。
    # (3)如果有理論數T＜1或n＜40，則用Fisher’s檢驗。
    stat, pvalue, dof, expected = chi2_contingency(cross_table,correction=False)
    if col_count>=40 and expected.min()>=5:
        # Pearson卡方進行檢驗
        stat, pvalue, dof, expected = chi2_contingency(cross_table,correction=False)
    elif col_count>=40 and expected.min()<5 and expected.min()>=1:
        # 連續性校正的卡方進行檢驗
        stat, pvalue, dof, expected = chi2_contingency(cross_table,correction=True)
    else:
        # 用Fisher’s檢驗
        stat,pvalue=fisher_exact(cross_table)
    stat=round(stat,3)
    pvalue=round(pvalue,3)
    if pvalue==0:
        pvalue='<0.001'
    return stat,pvalue


def not_foursquare_chi_test(cross_table):
    # 針對非四方表格的卡方檢驗
    # (1)如果rxc表格中最小的理論數<1,報警告
    # (2)如果rxc表格中最小的理論數<5的個數佔比超過>1/5,報警告
    # (3)其他情況下，使用Pearson檢驗
    iswarning=''
    stat, pvalue, dof, expected = chi2_contingency(cross_table,correction=False)
    if expected.min()<1 or len([v for v in expected.reshape(1,-1)[0] if v<5])/\
                        (expected.shape[0]*expected.shape[1])>0.2:
        iswarning='warning'

    stat=round(stat,3)
    pvalue=round(pvalue,3)
    if pvalue==0:
        pvalue='<0.001'
    return stat,pvalue,iswarning

Python資料預處理之---統計學的t檢驗，卡方檢驗以及均值，中位數等

python資料預處理之缺失值簡單處理，特徵選擇

我們在進行模型訓練時，不可避免的會遇到某些特徵出現空值的情況，下面整理了幾種填充空值的方法 1. 用固定值填充對於特徵值缺失的一種常見的方法就是可以用固定值來填充，例如0，9999， -9999, 例如下面對灰度分這個特徵缺失值全部填充為-99 data['灰

第1章-資料探索(2)-資料預處理之Python實現

簡介 Python中，在資料處理這方面最流行的包應當是屬於Pandas了。Pandas與Scipy一樣，都是基於NumPy這個包開發出來的，所以使用時，都需要引用Numpy。Pandas中的DataFrame與R語言中的資料框的設計理念基本是一致的。不光如此，除了是DataFrame資料

3行程式碼，Python資料預處理提速6倍！

來源：towardsdatascience 作者：George Seif 編輯：肖琴讓CPU核心物盡其用！本文介紹了僅需3行程式碼，將Python資料處理速度提升2~6倍的簡單方法。 Python是所有機器學習的首選程式語言。它易於使用，並擁有許多很棒的庫，可以輕鬆地處

python資料預處理：資料標準化

何為標準化：在資料分析之前，我們通常需要先將資料標準化（normalization），利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題，對不同性質指標直接加總不能正確

python資料預處理：資料相關性

何為相關性：相關性分析是指對具備相關性關係的變數進行分析，從而衡量變數間的相關程度或密切程度。相關性可以應用到所有資料的分析過程中，任何事物之間都是存在一定的聯絡。相關性用R（相關係數）表示，R的取值範圍是[-1, 1] 相關和因果：相關並不是因果，例如商品銷售活動時，通

python資料預處理：資料共線性處理

何為共線性：共線性問題指的是輸入的自變數之間存在較高的線性相關度。共線性問題會導致迴歸模型的穩定性和準確性大大降低，另外，過多無關的維度計算也很浪費時間共線性產生原因：變量出現共線性的原因：資料樣本不夠，導致共線性存在偶然性，這其實反映了缺少資料對於資料建

python資料預處理：資料抽樣

何為資料抽樣：抽樣是資料處理的一種基本方法，常常伴隨著計算資源不足、獲取全部資料困難、時效性要求等情況使用。抽樣方法：一般有四種方法：隨機抽樣直接從整體資料中等概率抽取n個樣本。這種方法優勢是，簡單、好操作、適用於分佈均勻的場景；缺點是總體大時無法一一編

python資料預處理：樣本分佈不均（過取樣和欠取樣）

何為樣本分佈不均：樣本分佈不均衡就是指樣本差異非常大，例如共1000條資料樣本的資料集中，其中佔有10條樣本分類，其特徵無論如何你和也無法實現完整特徵值的覆蓋，此時屬於嚴重的樣本分佈不均衡。為何要解決樣本分佈不均：樣本分部不均衡的資料集也是很常見的：比如惡意刷單、黃牛訂

python資料預處理：資料降維

資料為何要降維資料降維可以降低模型的計算量並減少模型執行時間、降低噪音變數資訊對於模型結果的影響、便於通過視覺化方式展示歸約後的維度資訊並減少資料儲存空間。因此，大多數情況下，當我們面臨高維資料時，都需要對資料做降維處理。資料降維有兩種方式：特徵選擇，維度轉換特徵選擇

python資料預處理：字元變數獨熱編碼(one-hot encoding)

許多的資料取樣中會有很多以以字串形式出現的資料，這樣的資料沒有辦法直接跟其他數值變數合併成向量，這些值一般是分類資料或是順序資料。分類資料：分類資料指某些資料類別的只能歸於某一類非數值型資料，例如男、女。分類資料中的值沒有明顯高低好壞之分，只是由來區分兩個或多個具有相同或相

python資料預處理：使用pandas 進行資料清洗

問題：介紹資料清洗方法。。解答：所謂資料清洗主要處理的是資料中的缺失值、異常值和重複值：缺失值處理資料缺失值指由於各種原因導致資料中存在的空缺值：資料庫中的null，python返回物件none，pandas或numpy中的nan；另空字串是有實體的不算是缺

python資料預處理：資料離散化

何為離散化：一些資料探勘演算法中，要求資料是分類屬性形式。因此常常需要將連續屬性的資料通過斷點進行劃分最後歸屬到不同的分類，即離散化。為什麼要離散化：調高計算效率分類模型計算需要給予距離計算模型（k均值、協同過濾）中降低異常資料對模型的影響

資料預處理之資料抽樣

資料抽樣在資料建模階段，一般需要將樣本分為3部分：訓練集、驗證集、測試集。訓練集用來估計模型，驗證集用來確定網路結構或者控制模型複雜度的引數，測試集檢驗最終選擇模型的效能如何。一般劃分為70%、15%、15%。當資料量較小時，留少部分作為測試集，把其餘N個樣本採用K折交叉驗證法。即將樣

資料預處理之缺失值處理

資料預處理.1 缺失值處理刪除法刪除小部分樣本，在樣本量大時（刪除部分所佔比例小於5%時）可以使用插補法 —均值插補：分為定距型（插入均值）和非定距型（眾數或者中值） —迴歸插補：線性和非線性迴歸 —極大似然估計M

python資料預處理和特性選擇後列的對映

我們在用python進行機器學習建模時，首先需要對資料進行預處理然後進行特徵工程，在這些過程中，資料的格式可能會發生變化，前幾天我遇到過的問題就是：　　　　對資料進行標準化、歸一化、方差過濾的時候資料都從DataFrame格式變為了array格式。這樣資料的列名就會消失，且進行特徵選擇之後列的數量也會

機器學習小組知識點27：資料預處理之資料離散化（Data Discretization）

離散化和概念分層產生通過將屬性域劃分為區間，離散化技術可以用來減少給定連續屬性值的個數。區間的標號可以替代實際的資料值。如果使用基於判定樹的分類挖掘方法，減少屬性值的數量特別有好處。通常，這種方法是遞迴的，大量的時間花在每一步的資料排序上。因此，待排序的不同

資料預處理之資料離散化

資料離散化的意義資料離散化是指將連續的資料進行分段，使其變為一段段離散化的區間。分段的原則有基於等距離、等頻率或優化的方法。資料離散化的原因主要有以下幾點： 1**.演算法需要：** 比如決策樹、樸素貝葉斯等演算法，都是基於離散型的資料展開的。如果要使用

Python資料預處理：機器學習、人工智慧通用技術（1）

Python資料預處理：機器學習、人工智慧通用技術白寧超 2018年12月24日17:28:26 摘要：大資料技術與我們日常生活越來越緊密，要做大資料，首要解決資料問題。原始資料存在大量不完整、不一致、有異常的資料，嚴重影響到資料建模的執行效率，甚至可能導致模型

第1章-資料探索(3)-資料預處理之R實現

簡介 R語言中，自身已經帶有了強大的資料處理、資料計算等方面的函式。雖然，對於大規模的資料集合，處理過程可能會不如Python快，但是小規模的資料處理，R語言使用起來仍然會更方便。值得注意的是，為了執行效率，我們要儘量避免在R語言中，使用迴圈函式，而是要運用向量化的處理函式，即R

Python資料預處理之---統計學的t檢驗，卡方檢驗以及均值，中位數等

相關推薦