數據分析實戰

阿新 • • 發佈：2017-08-14

class 信息 etime char 組成劃分 excel pro nat

~~Edit~~

數據分析實戰
- 數據準備
- - 數據類型
  - 數據結構
  - - Series
    - DataFrame數據框
  - 向量化運算
- 數據處理
- - 數據導入
  - - 導入CSV文件
    - 導入文本文件
    - 導入Excel文件
  - 數據導出
  - - 導出文本文件
  - 重復值處理
  - 缺失值處理
  - 空格值處理
  - 字段抽取
  - 字段拆分
  - 記錄抽取
  - 隨機抽樣
  - 記錄合並
  - 字段合並
  - 字段匹配
  - 簡單計算
  - 數據標準化
  - 數據分組
  - 時間處理
  - 時間抽取
  - 虛擬變量 dummy variables
- 數據分析
- - 基本統計
  - 分組分析
  - 分布分析
  - 交叉分析
  - 結構分析
  - 相關分析
  - RFM分析
  - 矩陣分析
- 數據可視化
- - 散點圖scatter
  - 折線圖
  - 餅圖
  - 柱形圖
  - 直方圖
  - 地圖
  - 熱力地圖

數據分析實戰

使用適當的分析方法，對收集的數據進行分析，總結規律，提取有價值的信息，形成有效結論的過程。

基礎分析方法：

對比分析、分組分析、結構分析、分布分析、交叉分析、矩陣分析等方法。

高級分析方法：

回歸分析、聚類分析、決策樹、神經網絡、因子分析、時間序列分析等方法。

數據分析的作用：

現狀分析：日報、月報等
原因分析：專題分析
預測分析：年度計劃制定時分析
現狀分析：日報、月報等
原因分析：專題分析
預測分析：年度計劃制定時分析

數據分析流程：

技術分享

數據準備

數據類型

Logical，邏輯型，布爾型
- 兩種取值：True、False
- 運算規則：與（&）、或（|）、非（not）
Numerical，數值型
- 實數
- 運算規則：加、減、乘、除、取整（//）、求余（%）、乘方（**）
Character，字符型

數據結構

相互之間存在一種或多種關系的數據類型的集合。

Pandas中兩種常用的數據結構：

Series
DataFrame

Series

用於存儲一行或一列的數據，以及與之相關的索引的集合。

DataFrame數據框

用於存儲多行和多列的數據集合
可與Excel類比

Series、DataFrame參考印象筆記《Python數據分析與展示》

向量化運算

向量化計算是一種特殊的並行計算方式，可以在同一時間執行多次操作，通常是對不同的數據執行同樣的一個或一批指令，或者說把指令用於一個數據/向量。

numpy中ndarray中的相關操作，即為向量化運算。

原則：

盡可能避免顯示的for循環
過早的優化是魔鬼

數據處理

數據導入

導入CSV文件

參考：參數詳解

使用pandas庫中read_csv函數導入CSV文件

from pandas import read_csv
read_csv(file,encoding)

導入中文時，encoding=’utf-8’

numpy庫中用loadtxt導入CSV文件。

導入文本文件

使用pandas庫中read_table函數導入普通文本文件。
語法：

from pandas import read_table
read_table(file,names=[列名1，列名2，……],sep="",encoding,……)

技術分享

如果存在中文路徑，在read_table參數中增加engine=‘python‘參數。

導入Excel文件

使用read_excel函數導入Excel文件。

from pandas import read_excel
read_excel(fileName,sheetname,names)

數據導出

導出文本文件

**to_csv**函數：

to_csv(filePath,sep=",",index=True,header=True)

![Alt text](./1499088638638.png)

重復值處理

數據結構中，行相同的數據只保留一行。找出重復位置：

dIndex=df.duplicated()

根據某些列，找出重復位置：

dIndex=df.duplicated(‘id‘)
dIndex=df.duplicated([‘id‘,‘key‘])

提取重復數據

df[dIndex]

默認根據所有列，刪除：

newdf=df.drop_duplicates()

指定某一列，刪除：

newdf=df.drop_duplicates(‘id‘)

缺失值處理

**三種措施：**

數據補齊：df.fillna(‘value‘)
刪除對應缺失行：df.dropna()
不處理

讀取文件時，通過指定值作為缺失值。如‘缺失值’代表缺失值：

df=pd.read_csv(r‘D:\data.csv‘,na_values=[‘缺失值‘])

空格值處理

strip()函數

lstrip()：Left，左邊空格
rstrip()：Right，右邊空格
strip()：兩邊空格

字段抽取

根據已知列數據的開始和結束為止，抽取出新的列。

字段抽取函數：slice(start,stop)。

例如：提取‘ABC1234’中的數字等。

df[‘列名‘].str.slice(0,3)

字段拆分

類似於Excel中的分列。

分割函數：df.str.split(sep,n,expand=False)

sep：用於分割的字符串
n：分割為多少列
expand：是否展開為數據框，默認FALSE

返回值：

如果expand為True，返回值為DataFrame
如果expand為FALSE，返回值為Series

記錄抽取

根據一定的條件，對數據進行抽取。

類似於Excel中的過濾。

記錄抽取函數：dataframe[condition]

condition：過濾條件。

技術分享

註意：comments為列名。

隨機抽樣

隨機抽樣函數：

data.sample(n,frac,replace=False)

n：按個數抽樣
frac：按百分比抽樣
replace：是否可放回抽樣，默認FALSE不可放回。

分層抽樣：

按照某一列進行分組，用data.groupby(‘class‘).其實就是對data數據進行按照class列進行分組，返回一個字典。

技術分享

typicalNDict：1組抽2個，2組抽4個，3組抽6個。

記錄合並

將兩個結構相同的DataFrame，合並成一個DataFrame。

函數：pd.concat([df1,df2,……])

numpy中，用concatenate()函數。

字段合並

字段拆分的逆操作。用“+”號。
必須是str型數據：

df.astype(str)

字段匹配

根據各表共有的關鍵字段，把各表所需的記錄一一對應起來。

表的合並.

字段匹配函數：

merge(x,y,left_on,right_on,how)

x,y：待匹配df
left_on：第一個df用於匹配的列
right_on：第二個df用於匹配的列
how：
- ‘left’：左連接，即使連接不上，保留左邊沒連接（匹配）上的部分
- ‘right’：右連接，即使連接不上，保留右邊沒連接（匹配）上的部分
- ’outer’：外連接，都保留。

簡單計算

data[‘total‘]=data.price*data.num

數據標準化

無量綱化

0-1標準化

data[‘scale‘]=round(dta.score-data.score.min()/(data.score.max()-data.score.min()),2)

數據分組

根據數據分析對象的特征，按照一定的數值指標，把數據分析對象劃分為不同的區間進行研究。——分檔

函數：

cut(series,bins,right=True,labels=NULL)

bins：分組的劃分數組
right：分組的時候，右邊是否閉合
labels：分組的自定義標簽

時間處理

時間轉換：將字符型的時間格式數據轉換為時間型數據。

時間轉換函數：

datatime=pd.to_datatime(dataString,format)

技術分享

時間格式化：將時間型數據按照指定格式轉換為字符型數據。

時間格式化函數：

dateTimeFormat=datetime.dt.strftime(format)

時間屬性抽取：從日期格式裏抽取需要的部分，如月、日。
抽取語法：

datetime.dt.property

技術分享

時間抽取

根據一定的條件，對時間格式的數據進行抽取。

根據索引進行抽取
- DataFrame.ix[start:end]
- DataFrame.ix[dates]
根據時間列進行抽取
- DataFrame[condition]

註意：df.ix[]：通過行號或行標簽索引。

虛擬變量 dummy variables

虛擬變量，也叫啞變量和離散特征編碼，可用來表示分類變量、非數量因素可能產生的影響。

離散特征取值之間有大小意義：尺寸（L，M）
- pd.Series.map(dict)
離散特征取值之間無大小意義：顏色（R，G）
- pd.get_dummies()

具體：

pd.get_dummies(data,prefix=None,prefix_sep=‘_‘,dummy_na=False,columns=None,drop_first=False)

技術分享

數據分析

基本統計

描述性統計分析函數：describe()，一次性求得基本情況。

另外，還可用下表統計函數：

技術分享

還有：

累計求和：cumsum
最大值最小值所在位置：argmin()、argmax()
百分位數：quantile()

分組分析

根據分組字段，將分析對象劃分成不同的部分，以進行對比分析各組之間的差異性。

常用統計指標：計數、求和、平均值。

分組統計函數：

技術分享

分布分析

將數據等距或者不等距的分組，進行研究各組分布規律。

交叉分析

分析兩個或兩個以上分組變量之間的關系，以交叉表的形式進行。

交叉計數函數（透視表）：

pivot_table(values,index,columns,aggfunc,fill_value)

技術分享

結構分析

在分組及交叉的基礎上，計算各組成部分所占比重，進而分析總體的內部特征。

外運算：

技術分享

內運算：

技術分享

RFM分析

根據客戶活躍程度和交易金額貢獻，進行客戶價值分析。

技術分享

RFM分析過程：

技術分享

矩陣分析

根據事物（產品、服務等）的兩個重要屬性（指標）作為分析依據，進行關聯分析（象限分析）。

數據可視化

散點圖scatter

plot(x,y,‘.‘,color=(r,g,b))

技術分享

折線圖

plt(x,y,style,color,linewith)

餅圖

plt.pie(x,labels,colors,explode,autopct)

技術分享

柱形圖

bar(left,height,width,color)
barh(left,height,width,color)

技術分享

直方圖

hist(x,color,bins,cumulative=False)

技術分享

地圖

地圖繪制步驟：

獲取地圖對象，獲取每個區域的名字以及順序；
在每個區域的名字和順序後面，加上需要展示的數據及經緯度；
根據數據大小，設置每個區域展示顏色（0，1）。
根據顏色進行填充
根據經緯度進行標註地圖的名字

需要安裝Basemap庫.

熱力地圖

數據分析實戰

class 信息 etime char 組成劃分 excel pro nat Edit 數據分析實戰數據準備數據類型數據結構 Series DataFrame數據框向量化運算數據處理數據導入導入CSV文件導入文本文件

R語言速成實戰 R語言數據分析實戰

賬號 learning 標準博客系統高可用 style elastics security 設計詳情請交流 QQ 709639943 00、R語言速成實戰 00、R語言數據分析實戰 00、Python+Django+Ansible Playbook自動化運

數據分析實戰之豆瓣小說知多少？

int 語言編程語言 bsp 數據分析 art 一個數據查詢 http GraphQL 既是一種用於 API 的查詢語言也是一個滿足你數據查詢的運行時。 GraphQL來自Facebook，它於2012年開始開發，2015年開源。 GraphQL與編程語言無關，可以使用

大數據實戰課程第一季Python基礎和網絡爬蟲數據分析

網頁爬蟲大數據實戰課程第一季Python基礎和網絡爬蟲數據分析網盤地址：https://pan.baidu.com/s/1qYdWERU 密碼: yegz課程共10章，66小節本課程面向從未接觸過Python的學員，從最基礎的語法開始講起，逐步進入到目前各種流行的應用。整個課程分為基礎和實戰兩個單元。基礎部分

大數據項目實戰之Python金融應用編程(數據分析、定價與量化投資)

python金融大數據項目實戰之Python金融應用編程(數據分析、定價與量化投資)分享網盤地址：https://pan.baidu.com/s/1bpyGttl 密碼: bt56內容簡介本教程介紹使用Python進行數據分析和金融應用開發的基礎知識。課程從介紹簡單的金融應用開始，帶領學員回顧Python的基

CP1621-唐宇迪-python數據分析與機器實戰

imageview 算法包括 container href blank gin wid 困難深度學習框架-Tensorflow案例實戰視頻課程隨筆背景：在很多時候，很多入門不久的朋友都會問我：我是從其他語言轉到程序開發的，有沒有一些基礎性的資料給我們學習學習呢，你的框

PK2227-天善智能Python3數據分析與挖掘實戰

origin wid auto 采集 nbsp 工程支持 form 似的 PK2227-天善智能Python3數據分析與挖掘實戰新年伊始，學習要趁早，點滴記錄，學習就是進步！隨筆背景：在很多時候，很多入門不久的朋友都會問我：我是從其他語言轉到程序開發的，有沒有一些

Python3數據分析與挖掘建模實戰

Python3Python3數據分析與挖掘建模實戰網盤地址：https://pan.baidu.com/s/1lSjsPL1dskDbEsceNTvstg 密碼: wdts備用地址（騰訊微雲）：https://share.weiyun.com/5AQkJBC 密碼：bj2veb 流程完整：從頭到尾經歷一次完整

Excel數據處理與分析實戰|Excel數據分析視頻教程

ice 網盤 sym excel 計算財務會計分類匯總講解篩選 Excel數據處理與分析實戰網盤地址：https://pan.baidu.com/s/1CJcxxBwvkYttVEj6SyM5Hg 密碼: yd5p備用地址（騰訊微雲）：https://share.w

2018最新python數據分析入門與實戰

.com color tid 實戰 pro nag com forum png 下載地址：百度網盤請添加鏈接描述2018最新python數據分析入門與實戰

高端實戰 Python數據分析與機器學習實戰 Numpy/Pandas/Matplotlib等常用庫

反向傳播數據讀取初識微信試圖 ada 安裝python 改進貝葉斯課程簡介:? ? 課程風格通俗易懂，真實案例實戰。精心挑選真實的數據集為案例，通過Python數據科學庫numpy,pandas,matplot結合機器學習庫scikit-learn完成一些列的

Python數據分析基礎與實踐超具實戰意義的Python數據分析實踐課程 Python視頻教程

tex 實踐基礎 text 下載 size .com php 連接 ===============課程目錄=============== ├data.csv├<章節1Python概況>│ └python2.mp4├<章節2Python安裝>│

Python3數據分析與挖掘建模實戰視頻

特征工程 motion 數據分布選擇資料 hour 假設人工 mean 第1章課程介紹【贈送相關電子書+隨堂代碼】本章首先介紹本課程是什麽，有什麽特色，能學習到什麽，內容如何安排，需要什麽基礎，是否適合學習這門課程等。然後對數據分析進行概述，讓大家對數據分析的含

Python網絡爬蟲實戰：根據天貓胸罩銷售數據分析中國女性胸部大小分布

直方圖回調 ams find tags ram 可視化分析 discus 綜合應用本文實現一個非常有趣的項目，這個項目是關於胸罩銷售數據分析的。是網絡爬蟲和數據分析的綜合應用項目。本項目會從天貓抓取胸罩銷售數據，並將這些數據保存到SQLite數據庫中，然後對數據進行清洗

Python網絡爬蟲實戰：天貓胸罩銷售數據分析

顯示來講數據顯示 display colors python網絡 java 讀者 rep 本文實現一個非常有趣的項目，這個項目是關於胸罩銷售數據分析的。是網絡爬蟲和數據分析的綜合應用項目。本項目會從天貓抓取胸罩銷售數據，並將這些數據保存到SQLite數據庫中，然後對數據

python數據分析--KaggleTitanic項目實戰

個人 mil bin unique cut 最大值說話 family 轉化主要圍繞Kaggle上的比賽題目: "給出泰坦尼克號上的乘客的信息, 預測乘客是否幸存" 進行一個簡單的數據分析環境 win8, python3.7, jupyter notebook 正文 1

Python數據分析--Kaggle共享單車項目實戰

sso 交流沒有統計 wrap info mon oat sele 前言上面一節我們介紹了一元線性回歸和多元線性回歸的原理, 又通過一個案例對多元線性回歸模型進一步了解, 其中談到自變量之間存在高度相關, 容易產生多重共線性問題, 對於多重共線性問題的解決方法有: 刪

EXCEL實戰技巧與數據分析（三）函數1

error 都是 number origin not 一定的適合空格 rep 在第二部分學習了excel數據透視表的諸多技巧，此篇來熟悉excel常用的75給公式第二部分鏈接：EXCEL實戰技巧與數據分析（二）數據透視表 - 數據科學探路者的文章 - 知乎 http

flask框架+pygal+sqlit3搭建圖形化業務數據分析平臺

百度數據庫 python 技術兼容性一. 前言先說下主要的框架和主要的圖形庫的特點：(個人見解) Django：python開發的一個重量級的web框架，集成了MVC和ORM等技術，設計之初是為了使開發復雜的、數據庫驅動的網站變

Python數據分析－Kobe Bryan生涯數據讀取及分析

type lag col 導入 csv hot plot 打印 cat 1.將數據（csv格式）導入jupyter import pandas as pd import matplotlib.pyplot as plt filename＝‘data.csv‘ raw=pd.

數據分析實戰

數據分析實戰

數據準備

數據類型

數據結構

Series

DataFrame數據框

向量化運算

數據處理

數據導入

導入CSV文件

導入文本文件

導入Excel文件

數據導出

導出文本文件

重復值處理

缺失值處理

空格值處理

字段抽取

字段拆分

記錄抽取

隨機抽樣

記錄合並

字段合並

字段匹配

簡單計算

數據標準化

數據分組

時間處理

時間抽取

虛擬變量 dummy variables

數據分析

基本統計

分組分析

分布分析

交叉分析

結構分析

相關分析

RFM分析

矩陣分析

數據可視化

散點圖scatter

折線圖

餅圖

柱形圖

直方圖

地圖

熱力地圖

相關推薦