Python資料分析與挖掘學習筆記（5）資料規範化與資料離散化實戰

阿新 • • 發佈：2018-12-17

一、相關理論：

1、資料規範化的常見方法：

（1）離差標準化（最小-最大標準化）--消除量綱（單位）影響以及變異大小因素的影響。（最小-最大標準化）

x1=（x-min）/（max-min）

（2）標準差標準化--消除單位影響以及變數自身變異影響。（零-均值標準化）

x1=（x-平均數）/標準差

（3）小數定標規範化--消除單位影響。

x1= x/10**(k)、k=log10(x的絕對值的最大值)

2、資料離散化的常見方法：

（1）等寬離散化。

（2）等頻率離散化。

（3）一維聚類離散化。

二、編寫程式碼：

1、準備階段：

（1）示例資料：本例使用的是某時間的淘寶商品資料，儲存在MySQL資料庫中（資料分享連結：https://pan.baidu.com/s/1SsSy-mxvCStxk4e2PYxB3A 提取碼：tquy，將該檔案從MySQL開啟執行即可）。

（2）匯入相關模組並讀取資料庫資料：

import pymysql
import pandas as pda
import numpy as npy
conn=pymysql.connect(host="127.0.0.1",user="root",passwd="1996haha",db="sys")
sql="select price,comment from taob"
data=pda.read_sql(sql,conn)

2、資料標準化：

（1）離差標準化：

#離差標準化（最小-最大標準化 ） data.max()/min每一列的最大最小值
data2=(data-data.min())/(data.max()-data.min())

（2）標準差標準化：

#標準差標準化(零-均值標準化)
data3=(data-data.mean())/data.std()

（3）小數定標標準化：

#小數定標規範化
#npy.ceil（）方法：進一取整，如3.1取整為4,3.0取整為3,3.6取整為4
k=npy.ceil(npy.log10(data.abs().max()))
data4=data/10**k

3、資料離散化：

主要使用pandas.cut方法，引數為：資料、區間資訊（可以是個數也可以是具體的區間陣列）、區間標籤（注意數量與前對應）。

（1）等寬離散化：

#等寬離散化
data5=data[u"price"].copy()
data6=data5.T
data7=data6.values
k=3 #區間個數
c1=pda.cut(data7,k,labels=["便宜","適中","貴"]) #labels：標籤

結果c1：可以注意到資料以標籤來表示

（2）非等寬離散化：

k=[0,50,100,300,500,2000,data7.max()] #陣列中的陣列成了區間，0到50、50到100.....2000到最大值。
c2=pda.cut(data7,k,labels=["非常便宜","便宜","適中","有點貴","很貴","非常貴"])

結果c2：

感謝韋瑋老師的指導

Python資料分析與挖掘學習筆記（2）使用pandas進行資料匯入

一、匯入pandas模組： import pandas as pda 二、匯入CSV格式資料： #資料匯入 i=pda.read_csv("E:/hexun.csv") 可對匯入的資料進行統計以及按列排序： #統計 i.describe() #排序 i

Python資料分析與挖掘學習筆記（4）淘寶商品資料探索與清洗實戰

一、相關理論：資料探索的核心：（1）資料質量分析（跟資料清洗密切聯絡）（2）資料特徵分析（分佈、對比、週期性、相關性、常見統計量等）資料清洗的步驟：（1）缺失值處理（通過describe與len直接發現、通過0資料發現）（2）異常值處理（通過散點圖發現

Python資料分析與挖掘學習筆記（5）資料規範化與資料離散化實戰

一、相關理論： 1、資料規範化的常見方法：（1）離差標準化（最小-最大標準化）--消除量綱（單位）影響以及變異大小因素的影響。（最小-最大標準化） x1=（x-min）/（max-min）（2）標準差標準化--消除單

python資料分析與挖掘學習筆記（6）-電商網站資料分析及商品自動推薦實戰與關聯規則演算法

這一節主要涉及到的資料探勘演算法是關聯規則及Apriori演算法。由此展開電商網站資料分析模型的構建和電商網站商品自動推薦的實現，並擴充套件到協同過濾演算法。關聯規則最有名的故事就是啤酒與尿布的故事，非常有效地說明了關聯規則在知識發現和資料探勘中起的作用和意義。其中有

python資料分析與挖掘學習筆記（3）_小說文字資料探勘part1

這一節主要是對小說文字資料的挖掘專案。文字挖掘的一個重要的應用是進行站點的個性化推薦。將使用者感興趣的資訊推送給對應的使用者，可以更好地發揮該資訊的價值。比如，我們常常會在瀏覽網頁的時候看到相關的廣告是我們感興趣的，新聞推送的是我們感興趣的文章，閱讀小說推薦的是我們想看的

大資料實時計算Spark學習筆記（5）—— RDD的 transformation

1 RDD的轉換 1.1 groupByKey (k,v) => (k,Iterable) package com.bigdataSpark.cn import org.apache.spark.{SparkConf, SparkContext} o

C#學習筆記（5）-值型別與引用型別

值型別值型別的值存在棧上 int double char decimal bool enum struct 引用型別引用型別存在堆上 - string - 陣列 - 自定義類 - 集合 - object - 介面

系統分析與設計學習筆記（一）

學習掌握應該溝通基本最終表示對象毫無為什麽要學習這門課程？　　“擁有一把錘子未必能成為建築師”。這門課程學習的是面向對象分析和設計的核心技能的重要工具。對於使用面向對象技術和語言來，創建設計良好、健壯且可維護的軟件來說，這門課程所

python學習筆記——（2）pandas中的資料型別

在用python進行資料處理的時候，自帶的五種資料型別使用起來顯然是有侷限性的，python之強大在於各種包，在資料處理中用的最多的就是pandas和numpy。本文章主要介紹pandas的資料結構。 pandas有兩種資料結構

PyTorch 學習筆記（二）：PyTorch的資料增強與資料標準化

本文擷取自《PyTorch 模型訓練實用教程》，獲取全文pdf請點選：https://github.com/tensor-yu/PyTorch_Tutorial 文章目錄 transform的使用在實際應用過程中，我們會在資

資料結構與演算法學習筆記（7）--順序佇列的實現

一、背景介紹佇列概念：列是限制在兩端進行插入操作和刪除操作的線性表，允許進行存入操作的一端稱為“隊尾”，允許進行刪除操作的一端稱為“隊頭”。當線性表中沒有元素時，稱為“空隊”。特點：先進先出（FIFO）。二、佇列的順序儲存結構 typedef int

OpenCV學習筆記（23）cv.Mat 與 .txt 檔案資料的讀寫操作

1、按OpenCV格式實現的 .txt 檔案讀寫可以用 cvSave 和 cvLoad 實現，格式和 .xml/.yml 的差不多，不過如果專用與 OpenCV 的資料讀寫，還是用 .xml/.yml 檔案格式較好，我比較喜歡 .yml 格式，可讀性非常棒。用 cvSave

Python 下字串的連線、簡單替換與unicode字串- 千月的python linux 系統管理指南學習筆記（12）

Python 下字串的連線、簡單替換與unicode字串繼續上一章的內容，看一看字串的連線和替換字串的連線 join() 將多個字串連線起來的”膠水“ 字元物件.join(字串或者列表) #連線字串，或者與列表裡的字元分別連線。光是將2個字串相連。其實意義不大，一個

Python學習筆記（七）—— List.sort 與二進位制搜尋bisect

程式碼及內容源自《Fluent Python》——Luciano Ramalho 著 List.sort方法會直接進行排序操作，過程中既不會複製原list，也不會生成新的list物件。與之相反，sorted()函式則會生成並返回一個新的list。

Python 下字串的提取、分割與刪除- 千月的python linux 系統管理指南學習筆記（11）

Python 下字串的提取、分割與刪除對於文字來講，提取、分割和刪除是我們用的較多的操作。文字我們可以看成是字串物件。首先說到的是 in 和 not in操作。字串的提取 in 和 not i

Python 學習筆記（一）：基礎與入門

注：因為先前學習過C/C#，Java。故學習Python時只會記錄與此前幾種語言不同之處 Python是一種解釋型、面向物件、動態資料型別的高階程式設計語言。 Python簡介 Python 是一個高層次的結合瞭解釋性、編譯性、互動性和麵向物件

Flutter學習筆記（3）--Dart變數與基本資料型別

如需轉載，請註明出處：Flutter學習筆記（3）--Dart變數與基本資料型別一.變數在Dart裡面，變數的宣告使用var、Object或Dynamic關鍵字，如下所示： var name = ‘張三’；在Dart語言裡一切皆為物件，所以如果沒有將變數初始化，那麼它的預

模式識別與機器學習筆記（二）機器學習的基礎理論

機器學習是一門對數學有很高要求的學科，在正式開始學習之前，我們需要掌握一定的數學理論，主要包括概率論、決策論、資訊理論。一、極大似然估計（Maximam Likelihood Estimation，MLE ）在瞭解極大似然估計之前，我們首先要明確什麼是似然函式（likelihoo

模式識別與機器學習筆記（一）

本系列博文是對研一課程《模式識別與機器學習》的隨堂筆記，希望將老師所講的與自己的見解記錄下來，方便加深自己的理解以及以後複習檢視，筆記完全按照老師所講順序，歡迎交流。一、模式識別與機器學習的基本問題機器學習主要解決以下四類問題： 1.監督學習：指的是訓練的資料既包括特徵（feat

SpringBoot 學習筆記（一）——Spring回顧與SpringMVC基礎

Spring Boot學習筆記（一）一、Spring 回顧 1、宣告Bean 的註解 @Component 元件，沒有明確的角色 @Service 業務邏輯層（service層）使用 @Repository 資料訪問層（dao層）使用 @C

Python資料分析與挖掘學習筆記（5）資料規範化與資料離散化實戰

感謝韋瑋老師的指導

相關推薦