數據特征分析：5.相關性分析

阿新 • • 發佈：2018-09-18

參數 adding png panda 電視 stats line ... plt

相關性分析

技術分享圖片

三點圖矩陣初判多變量間關系，兩兩數據之間的，比如說4個數據ABCD，就有12個比較，第一個參數和第二個參數，第一個參數和第三個參數，.......這個圖就是正態分布的接個參數，就沒有任何的相關性

 相關性分析  

 分析連續變量之間的線性相關程度的強弱

 圖示初判 / Pearson相關系數（皮爾遜相關系數） / Sperman秩相關系數（斯皮爾曼相關系數）

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
 
% matplotlib inline

# 圖示初判
# （1）變量之間的線性相關性

data1 = pd.Series(np.random.rand(50)*100).sort_values()
data2 = pd.Series(np.random.rand(50)*50).sort_values()
data3 = pd.Series(np.random.rand(50)*500).sort_values(ascending = False)
# 創建三個數據：data1為0-100的隨機數並從小到大排列，data2為0-50的隨機數並從小到大排列，data3為0-500的隨機數並從大到小排列， 


fig = plt.figure(figsize = (10,4))
ax1 = fig.add_subplot(1,2,1)
ax1.scatter(data1, data2)
plt.grid()
# 正線性相關

ax2 = fig.add_subplot(1,2,2)
ax2.scatter(data1, data3)
plt.grid()
# 負線性相關

技術分享圖片

# 圖示初判
# （2）散點圖矩陣初判多變量間關系

data = pd.DataFrame(np.random.randn(200,4)*100, columns = [‘A‘,‘B‘,‘C‘,‘ 
D‘])
pd.scatter_matrix(data,figsize=(8,8),
                  c = ‘k‘,
                 marker = ‘+‘,
                 diagonal=‘hist‘,
                 alpha = 0.8,
                 range_padding=0.1)
data.head()

技術分享圖片

建立在正態分布之上的

分子是第一個變量X - 它的均值，第二個變量Y - 它的均值的求和，分母是兩個平方根的積

# Pearson相關系數

data1 = pd.Series(np.random.rand(100)*100).sort_values()
data2 = pd.Series(np.random.rand(100)*50).sort_values()
data = pd.DataFrame({‘value1‘:data1.values,
                     ‘value2‘:data2.values})
print(data.head())
print(‘------‘)
# 創建樣本數據

u1,u2 = data[‘value1‘].mean(),data[‘value2‘].mean()  # 計算均值
std1,std2 = data[‘value1‘].std(),data[‘value2‘].std()  # 計算標準差
print(‘value1正態性檢驗：\n‘,stats.kstest(data[‘value1‘], ‘norm‘, (u1, std1)))
print(‘value2正態性檢驗：\n‘,stats.kstest(data[‘value2‘], ‘norm‘, (u2, std2)))
print(‘------‘)
# 正態性檢驗 → pvalue >0.05

技術分享圖片

data[‘(x-u1)*(y-u2)‘] = (data[‘value1‘] - u1) * (data[‘value2‘] - u2)
data[‘(x-u1)**2‘] = (data[‘value1‘] - u1)**2
data[‘(y-u2)**2‘] = (data[‘value2‘] - u2)**2
print(data.head())
print(‘------‘)
# 制作Pearson相關系數求值表

r = data[‘(x-u1)*(y-u2)‘].sum() / (np.sqrt(data[‘(x-u1)**2‘].sum() * data[‘(y-u2)**2‘].sum()))
print(‘Pearson相關系數為：%.4f‘ % r)
# 求出r
# |r| > 0.8 → 高度線性相關

技術分享圖片

# Pearson相關系數 - 算法

data1 = pd.Series(np.random.rand(100)*100).sort_values()
data2 = pd.Series(np.random.rand(100)*50).sort_values()
data = pd.DataFrame({‘value1‘:data1.values,
                     ‘value2‘:data2.values})
print(data.head())
print(‘------‘)
# 創建樣本數據

data.corr()
# pandas相關性方法：data.corr(method=‘pearson‘, min_periods=1) → 直接給出數據字段的相關系數矩陣
# method默認pearson

技術分享圖片

Pearson相關系數 - 算法

# Sperman秩相關系數

data = pd.DataFrame({‘智商‘:[106,86,100,101,99,103,97,113,112,110],
                    ‘每周看電視小時數‘:[7,0,27,50,28,29,20,12,6,17]})
print(data)
print(‘------‘)
# 創建樣本數據

技術分享圖片

data.sort_values(‘智商‘, inplace=True)
data[‘range1‘] = np.arange(1,len(data)+1)
data.sort_values(‘每周看電視小時數‘, inplace=True)
data[‘range2‘] = np.arange(1,len(data)+1)
print(data)
print(‘------‘)
# “智商”、“每周看電視小時數”重新按照從小到大排序，並設定秩次index

技術分享圖片

data[‘d‘] = data[‘range1‘] - data[‘range2‘]
data[‘d2‘] = data[‘d‘]**2
print(data)
print(‘------‘)
# 求出di，di2
n = len(data)
rs = 1 - 6 * (data[‘d2‘].sum()) / (n * (n**2 - 1))
print(‘Pearson相關系數為：%.4f‘ % rs)
# 求出rs

技術分享圖片

Pearson相關系數 - 算法

# Pearson相關系數 - 算法

data = pd.DataFrame({‘智商‘:[106,86,100,101,99,103,97,113,112,110],
                    ‘每周看電視小時數‘:[7,0,27,50,28,29,20,12,6,17]})
print(data)
print(‘------‘)
# 創建樣本數據

data.corr(method=‘spearman‘)
# pandas相關性方法：data.corr(method=‘pearson‘, min_periods=1) → 直接給出數據字段的相關系數矩陣
# method默認pearson

技術分享圖片

數據特征分析：5.相關性分析

參數 adding png panda 電視 stats line ... plt 相關性分析三點圖矩陣初判多變量間關系，兩兩數據之間的，比如說4個數據ABCD，就有12個比較，第一個參數和第二個參數，第一個參數和第三個參數，.......這個圖就是正態分布的

數據特征分析：1.分布分析

分享 ini zip 返回二手 sort label cat width 幾個基礎分析思路：分布分析、對比分析、統計分析、帕累托分析、正態性檢測、相關性分析分布分析分布分析是研究數據的分布特征和分布類型，分定量數據、定性數據區分基本統計量。

數據特征分析：4.正態分布與正態性體驗

體驗去掉 matplot 比較正態分布 strong sca 附近 line 1.正態分布期望值u（均值）決定位置，標準差決定它的分布幅度，可以驗證分布曲線的高矮胖瘦，越胖代表它的離中趨勢越明顯，越高代表它集中的值越高。 2. 正

數據分析與展示——Pandas數據特征分析

label ascend 數量 argmin 技術 cnblogs sha end 標準 Pandas數據特征分析數據的排序將一組數據通過摘要（有損地提取數據特征的過程）的方式，可以獲得基本統計（含排序）、分布/累計統計、數據特征（相關性、周期性等）、數據挖掘（形成知識

邏輯回歸--參數解釋＋數據特征不獨熱編碼＋訓練數據分布可視話

訓練隨機交叉坐標 one 叠代優化 Coding plot 輸出 #-*- coding: utf-8 -*- ‘‘‘ 邏輯回歸參數： penalty：懲罰項，str類型，可選參數為l1和l2，默認為l2。用於指定懲罰項中使用的規範。newton-cg、sag和lb

數據分析之數據質量分析和數據特征分析

相等采集 clas 統計量消費百分數一致性存儲介質暫時 1.數據質量分析數據質量分析是數據挖掘中數據準備過程的重要一環，是數據預處理的前提，也是數據挖掘分析結論有效性和準確性的基礎，沒有可信的數據，數據挖掘構建的模型將是空中樓閣。

數據挖掘算法：關聯分析一（基本概念）

latin ron 來看關聯 row 集中 items 多個可能性一.基本概念　　我們來看上面的事務庫，如同上表所示的二維數據集就是一個購物籃事務庫。該事物庫記錄的是顧客購買商品的行為。這裏的TID表示一次購買行為的編號，items表示顧客購買了哪些商品。　　事

機器學習之路：python 特征降維主成分分析 PCA

repo nts total python learning bsp ota spa 像素 python3 學習api使用主成分分析方法實現降低維度使用了網絡上的數據集，我已經下載到了本地，可以去我的git上參考 git:https://github.com/lin

第三階段：1.數據分析：8.層次分析法1

方法 bsp mage 數據區分其中 png HP http 首先是AHP分析方法：對定性問題進行定量分析的度準則決策方法。其中有4個前提條件。這四個緯度就滿足了前提條件。這就是一個層次性。 P是權重。這是一個對角關系。以數字1為線進行區分。第三階段：1.數

第三階段：1.數據分析：9.層次分析法2

ahp 數字 http 分析法結果 ima 通過技術分享相加這是對用戶的行為數據統計。這個公式的意思是：這一個框的數減去這一列（4個數字）的最小值除以這一列的最大值減去最小值。這就是對用戶忠誠度的評分。這就是最後的結果。最後可以將每一項相加得到某一個用戶的總體忠

數據庫基礎(1)：數據定義

rop 數據庫基礎 class red 教師 clas 教師表屬性 sna 1．實驗內容 1) 用Management Studio創建數據庫University_Mis 2) 使用SQL語句創建關系數據庫基本表：學生表Students(Sno,Snam

頁面輸入的數據格式轉換類：BaseAction（經常使用於Struts框架中）

ima content 統一格式行數 return 框架 nds public 在我們接收頁面傳來的數據時，這些數據都是以String類型接收的，所以要進行數據格式轉換，這時候就能夠統一為它們進行轉換，並且在處理這些數據的類中能夠繼承ActionSupport類，然

數據/方法論固然重要，但人為分析更有價值！

大數據數據分析在工作過程中經常會遇到做決策的工作，客觀的數據分析結論和成熟的方法論能提供參考依據。工作中很多地方都需要用到決策，比如產品功能確定，試行推廣試驗，產品定價，市場活動策劃，那麽這些工作一般是如何去決策的呢？比較常見的切入點是數據和方法論，講兩個案例就明白了。案例一:再討論某個產品時，領

第4章數據鏈路層（5）_高速以太網

網絡 1.3 cell 增加 pan ble 雙工網段數據鏈路 5. 高速以太網 5.1 100M以太網快速以太網（100M）標準名稱傳輸介質網段最大長度特點 100BASE-TX 銅纜 100m 兩對UTP5類線或屏

數據庫基礎知識：數據庫中的約束和三大範式

設計一個生效訂單詳細介紹求長山東英文名稱相關一.數據庫中的範式：　　範式，英文名稱是 Normal Form，它是英國人 E.F.Codd（關系數據庫的老祖宗）在上個世紀70年代提出關系數據庫模型後總結出來的，範式是關系數據庫理論的基礎，也是我們在設計

oracle中使用impdp數據泵導入數據提示“ORA-31684：對象類型已經存在”錯誤的解決

fun 創建用戶 spa ide pos 錯誤 markdown ber dmp 轉載請註明出處：http://blog.csdn.net/dongdong9223/article/details/47448751 本文出自【我是幹勾魚的博客

mysql如何選擇合適的數據類型1：CHAR與VARCHAR

-a 類型 pan table enter 字節保存如何 spa 　　CHAR和VARCHAR類型類似，都用來存儲字符串，但它們“保存”和“檢索”的方式不同。CHAR屬於“固定長度”的字符串，而VARCHAR屬於“可變長度”的字符類型。　　下表顯示了將各種字符串值保存

R語言數據挖掘實戰系列（5）

離群點檢測關聯規則時序模式聚類分析分類與預測 R語言數據挖掘實戰系列（5）——挖掘建模一、分類與預測分類和預測是預測問題的兩種主要類型，分類主要是預測分類標號（離散屬性），而預測主要是建立連續值函數模型，預測給定自變量對應的因變量的值。1.實現過程（1）分類分類是構造一個分類模型，

R語言數據挖掘中的，“回歸分析”是如何操作的？

r數據挖掘分析技術高級公開課回歸分析是對多個自變量(又稱為預測變量)建立一個函數來預測因變量(又稱為響應變量的值)。例如，銀行根據房屋貸款申請人的年齡、收入、開支、職業、負擔人口，以及整體信用限額等因素，來評估申請人的房貸風險。線性回歸線性回歸是利用預測變量的一個線性組合函數，來預測響應變量

【discuzX2】/source/class/class_core.php文件中數據庫操作類DB及db_mysql分析

mathjax fetch bus _for pre 影響 str sql_mod 進行 <?php /** * Discuz MySQL 類的支持程序中一般不直接使用此類,而是使用DB類，DB類對db_mysql類中的方法又進行了二次封裝 * *

數據特征分析：5.相關性分析

相關性分析

Pearson相關系數 - 算法

Pearson相關系數 - 算法

相關推薦