1. 程式人生 > 其它 >scikit基礎與機器學習入門(4) sklearn模組資料集的使用——自帶資料集和自定義資料集

scikit基礎與機器學習入門(4) sklearn模組資料集的使用——自帶資料集和自定義資料集

API通用方法

型別 獲取方式
自帶的小資料集 sklearn.datasets.load_
線上下載的資料集 sklearn.datasets.fetch_
計算機生成的資料集 sklearn.datasets.make_

load系列

  • 鳶尾花資料集: load_iris() 可用於分類 和 聚類
  • 乳腺癌資料集: load_breast_cancer() 可用於分類
  • 手寫數字資料集: load_digits() 可用於分類
  • 糖尿病資料集: load_diabetes() 可用於分類
  • 波士頓房價資料集: load_boston() 可用於迴歸
  • 體能訓練資料集: load_linnerud() 可用於迴歸
  • 影象資料集: load_sample_image(name)

make系列

  • make_blobs 可用於聚類和分類
  • make_classification 可用於分類
  • make_circles 可用於分類
  • make_moons 可用於分類
  • make_multilabel_classification 可用於多標籤分類
  • make_regression 可用於迴歸

例子

# 生成資料 make_blobs
# 匯入相關的庫
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib
from sklearn.datasets.samples_generator import make_blobs
# 設定引數 center:聚類中心
#          cluster_std:聚類標準差
center=[[1,1],[-1,-1],[1,-1]]
cluster_std=0.3
# 生成樣本
X,labels=make_blobs(n_samples=200,centers=center,n_features=2,
cluster_std=cluster_std,random_state = 0)

print('X.shape',X.shape)
print("labels",set(labels))
#np.c_:兩矩陣左右相加
df = pd.DataFrame(np.c_[X,labels],columns = ['feature1','feature2','labels'])
#mycolormap = matplotlib.colors.ListedColormap(['red','cyan','magenta'], N=3)
#matplotlib常用colormap:'jet','rainbow','hsv'
df.plot.scatter('feature1','feature2', s = 100,
c = list(df['labels']),cmap = 'rainbow',colorbar = False,
alpha = 0.8,title = 'dataset by make_blobs')

更多的情況可查閱官方文件 Introduction · sklearn 中文文件 (apachecn.org)

很喜歡聽到一個老師說的“半年理論”,現在做出的努力,一般要在半年的沉澱之後,才能出結果,所以在遇到瓶頸之時,不妨再努力半年