scikit基礎與機器學習入門(4) sklearn模組資料集的使用——自帶資料集和自定義資料集
阿新 • • 發佈:2021-09-19
API通用方法
型別 | 獲取方式 |
---|---|
自帶的小資料集 | sklearn.datasets.load_ |
線上下載的資料集 | sklearn.datasets.fetch_ |
計算機生成的資料集 | sklearn.datasets.make_ |
load系列
- 鳶尾花資料集: load_iris() 可用於分類 和 聚類
- 乳腺癌資料集: load_breast_cancer() 可用於分類
- 手寫數字資料集: load_digits() 可用於分類
- 糖尿病資料集: load_diabetes() 可用於分類
- 波士頓房價資料集: load_boston() 可用於迴歸
- 體能訓練資料集: load_linnerud() 可用於迴歸
- 影象資料集: load_sample_image(name)
make系列
- make_blobs 可用於聚類和分類
- make_classification 可用於分類
- make_circles 可用於分類
- make_moons 可用於分類
- make_multilabel_classification 可用於多標籤分類
- make_regression 可用於迴歸
例子
# 生成資料 make_blobs # 匯入相關的庫 import pandas as pd import numpy as np %matplotlib inline import matplotlib from sklearn.datasets.samples_generator import make_blobs # 設定引數 center:聚類中心 # cluster_std:聚類標準差 center=[[1,1],[-1,-1],[1,-1]] cluster_std=0.3 # 生成樣本 X,labels=make_blobs(n_samples=200,centers=center,n_features=2, cluster_std=cluster_std,random_state = 0) print('X.shape',X.shape) print("labels",set(labels)) #np.c_:兩矩陣左右相加 df = pd.DataFrame(np.c_[X,labels],columns = ['feature1','feature2','labels']) #mycolormap = matplotlib.colors.ListedColormap(['red','cyan','magenta'], N=3) #matplotlib常用colormap:'jet','rainbow','hsv' df.plot.scatter('feature1','feature2', s = 100, c = list(df['labels']),cmap = 'rainbow',colorbar = False, alpha = 0.8,title = 'dataset by make_blobs')
很喜歡聽到一個老師說的“半年理論”,現在做出的努力,一般要在半年的沉澱之後,才能出結果,所以在遇到瓶頸之時,不妨再努力半年更多的情況可查閱官方文件 Introduction · sklearn 中文文件 (apachecn.org)