決策樹——CART——之R語言rpart包

阿新 • • 發佈：2019-01-10

R是一種用於統計計算與作圖的開源軟體，同時也是一種程式語言，它廣泛應用於企業和學術界的資料分析領域，正在成為最通用的語言之一。由於近幾年資料探勘、大資料等概念的走紅，R也越來越多的被人關注。

一、環境準備

作業系統windows

下載安裝R 地址：http://mirrors.xmu.edu.cn/CRAN/

下載安裝RStudio（一個非常實用的R語言的IDE，是一個免費的軟體）

二、下載安裝rpart包

點選InstallPackages

在packages中輸入：rpart->Install

等待安裝完成。

注：Installfrom中可以選擇安裝方式，圖中顯示的是從CRAN中通過網路連線下載，也可以選擇在本地檔案中尋找package

安裝。

三、下載資料

我試驗的資料是從UCI上下載的資料，當然也可以用rpart包中自帶的資料集。

將資料解壓後，會有許多.csv格式的資料檔案，在這裡本次試驗選擇的是bank.csv

四、使用R讀取資料

開啟RStudio

在控制檯

或者新建一個R Script

接下來我們在R Script中書寫程式碼，同樣，也可以在控制檯上一行一行的書寫，一條一條的執行，但是，程式碼換行時要按shift+Enter

 bank <- read.csv("D:/data/MachineLearning/bank/bank.csv",header=TRUE,sep=";") #讀取bank.csv資料檔案
 #注意：windows檔案路徑複製後文件的分隔符為“\”，但是R語言中不識別這種分隔符，她只識別“/”,
 #header=TRUE表示使用檔案的頭標籤,預設為FALSE，sep=";"表示資料用分號分隔，預設為""，
 bank_train <- bank[1:4000,] #對讀入的資料人為分割為訓練組和測試組，
 bank_test <- bank[4001:4521,1:16]
 bank_test1 <- bank[4001:4521,]
 library(rpart)  #在使用包前首先要使用該命令匯入包，也可以在Packages中包前的框框中打鉤
 fit <- rpart(y~age+job+marital+education+default+balance+housing+loan+contact
              +day+month+duration+campaign+pdays+previous+poutcome,method="class",
              data=bank_train)
 # 我們可以使用help(rpart)來獲取rpart的使用幫助,幫助文件Usage如下
 # rpart(formula, data, weights, subset, na.action = na.rpart, method,
 # model = FALSE, x = FALSE, y = TRUE, parms, control, cost, ...)
 # 在這裡我們只設置formula，data,model這三個引數
 plot(fit,uniform=TRUE,main="Classification Tree for Bank") #畫決策樹圖
 text(fit,use.n=TRUE,all=TRUE)
 #至此，第一個決策樹圖畫好了，第一個訓練的模型儲存在fit中
 
 #下面我們對測試資料進行預測（此處預測的是y值是yes or no）
 result <- predict(fit,bank_test,type="class") 
 # 在控制檯中直接輸入result即可檢視預測的結果，由於數目較多，我們寫一個小的程式，將預測
 # 結果同真實值比較一下，看正確率有多少
 # 詳情見 count_result.R
 # 我們寫完的函式儲存在本地磁碟中，使用時必須指明路徑，使用source()函式
 source("D:/work/R_work/count_result.R")
 count_result(result,bank_test1) #結果為0.9021
 
 #通過觀察資料，我們可以發現，在poutcome與contact屬性中，有許多unknown的值，
 #通過summary(bank)我們可以看到,unknown值在其所在屬性框中所佔比例過大，而且該
 #值其實為缺失值，所以我們使用rpart()函式中的na.action引數，來處理缺失值
 #由於R只識別NA缺失值，所以我們需要對資料框中的unknown值進行處理
 n <- nrow(bank)  #獲得data的行數
 for (i in 1:n){
   if(bank[i,9]=="unknown"){   #判斷第i,9個數據是否為unknown
     bank[i,9] <- NA           #將第i,9個數據替換為NA
   }
   if(bank[i,16]=="unknown"){
     bank[i,16] <- NA
   }
 }
 #我們已知第9、16列為含有unknown的屬性框
 fit2 <- rpart(y~age+job+marital+education+default+balance+housing+loan+contact
               +              +day+month+duration+campaign+pdays+previous+poutcome,method="class",
               +              data=bank_train,na.action=na.rpart)
 plot(fit,uniform=TRUE,main="Classification Tree for Bank") #畫決策樹圖
 text(fit,use.n=TRUE,all=TRUE)
 result2 <- predict(fit2,bank_test,type="class")
 count_result(result2)# 結果仍為0.9021表示之前的關於缺失值的推測不準確
 
 #下邊我們探索使用rpart()的control引數設定 
 fit3 <- rpart(y~age+job+marital+education+default+balance+housing+loan+contact
               +              +day+month+duration+campaign+pdays+previous+poutcome,method="class",
               +              data=bank_train,na.action=na.rpart,control=rpart.control(minsplit=20,cp=0.001))
 result3 <- predict(fit3,bank_test,type="class")
 count_result(result3,bank_test1)# 結果為0.90403 預測的準確度有所上升
 #下邊我們隊minsplit（最小分割點）設大一點 40
 fit4 <- rpart(y~age+job+marital+education+default+balance+housing+loan+contact
               +              +day+month+duration+campaign+pdays+previous+poutcome,method="class",
               +              data=bank_train,na.action=na.rpart,control=rpart.control(minsplit=40,cp=0.001))
 result4 <- predict(fit4,bank_test,type="class")
 count_result(result4,bank_test1) #結果為0.9136 這說明隨著分割點的增多，預測的準確率越高，

關於rpart的其他函式的功能探索，請繼續關注...

count_result.R

count_result <- function(result,data_test){
  n <- length(result)
  count_right <- 0
  i <- 1
  for (i in 1:n){
    if (result[i]==data_test[i,17]){
      count_right = count_right+1
    }
  }
  print(count_right/n)
}

決策樹——CART——之R語言rpart包

R是一種用於統計計算與作圖的開源軟體，同時也是一種程式語言，它廣泛應用於企業和學術界的資料分析領域，正在成為最通用的語言之一。由於近幾年資料探勘、大資料等概念的走紅，R也越來越多的被人關注。一、環境準備作業系統windows 下載安裝R 地址：http://mirror

決策樹模型（R語言）

R語言中最常用於實現決策樹的有兩個包，分別是rpart包和party包，其區別如下： rpart包的處理方式：首先對所有自變數和所有分割點進行評估，最佳的選擇是使分割後組內的資料更為“一致”(pure)。這裡的“一致”是指組內資料的因變數取值變異較小。rpart包對這種“一

決策樹與R語言(RPART)

關於決策樹理論方面的介紹，李航的《統計機器學習》第五章有很好的講解。傳統的ID3和C4.5一般用於分類問題，其中ID3使用資訊增益進行特徵選擇，即遞迴的選擇分類能力最強的特徵對資料進行分割，C4.5唯一不同的是使用資訊增益比進行特徵選擇。特徵A對訓練資料D的資訊增益g(

R語言ggplot2包之畫折線圖

引言折線圖一般用於描述一維變數隨著某一連續變數變化的情況，連續變數通常為時間。換句話說，折線圖最適合描述時間序列資料的變化情況。當然隨著離散變數變化也是可以的，不過這個離散變數必須是有序的。畫一條折線圖一條基本的折線圖還是比較簡單的，只要在ggp

R語言ggplot2包之畫直方圖

引言 ggplot2包的作圖質量毋庸置疑，但是其作圖語法對新手來說還是有點難度，ggplot2：資料分析與圖形藝術這本書也介紹了ggplot2包的基本哲學思想和操作，個人感覺例子還不夠豐富，所以對該包的用法還是停留在半瓶醋的水平。某天，突然發現一本ggplot

大白話5分鐘帶你走進人工智慧-第二十六節決策樹系列之Cart迴歸樹及其引數(5)

R語言常用包分類總結

arr const poisson string arm ova 處理 port 線性規劃常用包： ——數據處理：lubridata ，plyr ，reshape2，stringr，formatR，mcmc； ——機器學習：nnet，rpart，tree，party，la

用決策樹(CART)解決iris分類問題

datasets oba 可能 rom art PE 子集花卉調用首先先看Iris數據集 Sepal.Length——花萼長度 Sepal.Width——花萼寬度 Petal.Length——花瓣長度 Petal.Width——花瓣寬度通過上述4中屬性可以預測花卉屬

R語言常用包匯總

ice hal 信號行數據包組質量 spatial ike pat 轉載於：https://blog.csdn.net/sinat_26917383/article/details/50651464?locationNum=2&fps=1 一、一些函數

使用R語言ggplot2包繪製pathway富集分析氣泡圖（Bubble圖）:資料結構及程式碼

氣泡圖是在笛卡爾座標系同加入大小的引數所形成的可以表示三個變數關係的圖例。在對基因完成GO/KEGG分析後，使用氣泡圖可以直觀的展示pathway、pvalue、count之間的關係。下面為使用R語言ggplot2包繪製氣泡圖所需的資料結構及程式碼：由於筆者常使用read.csv讀取

Python實現決策樹應用之判斷隱形眼鏡的型別

程式碼模組一、DecisionTreePlot # -*- coding:utf-8 -*- __author__ = 'yangxin_ryan' import matplotlib.pyplot as plt """ 定義文字框和箭頭格式【 sawtooth 波浪方框, rou

[學習分享] R語言擴充套件包dplyr筆記（轉載）

2014年剛到, 就在 Feedly 訂閱裡看到 RStudio Blog 介紹 dplyr 包已釋出 (Introducing dplyr), 此包將原本 plyr 包中的 ddply() 等函式進一步分

決策樹—CART演算法及剪枝處理

前言：上篇博文已經介紹了ID3、C4.5生成決策樹的演算法。由於上文使用的測試資料以及建立的模型都比較簡單，所以其泛化能力很好。但是，當訓練資料量很大的時候，建立的決策樹模型往往非常複雜，樹的深度很大。此時雖然對訓練資料擬合得很好，但是其泛化能力即預測新資料的能力並不一定很好，也就是出現了過擬合現象

決策樹-CART迴歸樹

1、什麼是CART？ CART，又名分類迴歸樹，是在ID3的基礎上進行優化的決策樹，學習CART記住以下幾個關鍵點：（1）CART既能是分類樹，又能是分類樹；（2）當CART是分類樹時，採用GINI值作為節點分裂的依據；當CART是迴歸樹時，採用樣本的最小方差作為節

R語言實戰 R語言安裝包的安裝與使用

第一步首先獲取安裝包，下面以package–RODBC為例子使用命令install.packages(“RODBC”) > install.packages("RODBC") trying URL 'https://cran.rstudio.com/bi

R語言安裝包

第一步開啟R。可以是cmd或者是terminal，也可以是開啟的R-GUI或者是RStudio 總之，都會出現命令列輸出的操作第二步輸入命令： install.packages("ggplo

機器學習原理及入門之R語言

1.機器學習語言--R語言 R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、原始碼開放的軟體，它是一個用於統計計算和統計製圖的優秀工具。具有面向物件的血統；機器學習為什麼需要R語言呢？因為這是統計學家的語言，我們需要藉助其中的方法來訓練機器

R語言基礎包中的繪圖函式——快速用R探索資料

library(ggplot2) #R語言中的基礎包所帶的繪圖函式雖然用起來相對ggplot2包不是那麼友好 #但在剛拿到原始資料時進行快速探索還是很方便的 ####散點圖 #運用plot()函式，向函式傳入一個x向量和一個y向量 plot(mtcars$wt,mtcars$mpg) #等價於

[R語言] quantmod 包獲取國內的股票資料

quantmod 包預設是訪問 yahoo finance 的資料，其中包括上證和深證的股票資料，還有港股資料。上證程式碼是 ss，深證程式碼是 sz，港股程式碼是 hk 比如茅臺：6000519.ss，萬科 000002.sz，長江實業 0001.hk 在R的控制檯裡

哈夫曼樹(一)之 C語言詳解

/* * 建立Huffman樹 * * 引數說明： * a 權值陣列 * size 陣列大小 * * 返回值： * Huffman樹的根 */ HuffmanNode* create_huffman(Type a[], int size) {

決策樹——CART——之R語言rpart包

相關推薦