1. 程式人生 > >python 劃分資料集為訓練集和測試集

python 劃分資料集為訓練集和測試集

sklearn的cross_validation包中含有將資料集按照一定的比例,隨機劃分為訓練集和測試集的函式train_test_split

from sklearn.cross_validation import train_test_split
#x為資料集的feature熟悉,y為label.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)

得到的x_train,y_train(x_test,y_test)的index對應的是x,y中被抽取到的序號。
若train_test_split傳入的是帶有label的資料,則如下程式碼:

from sklearn.cross_validation import train_test_split
#dat為資料集,含有feature和label.
train, test = train_test_split(dat, test_size = 0.3)

train,test含有feature和label的。

自己寫了一個函式:

#X:含label的資料集:分割成訓練集和測試集
#test_size:測試集佔整個資料集的比例
def trainTestSplit(X,test_size=0.3):
    X_num=X.shape[0]
    train_index=range(X_num)
    test_index=[]
    test_num=int(X_num*test_size)
    for
i in range(test_num): randomIndex=int(np.random.uniform(0,len(train_index))) test_index.append(train_index[randomIndex]) del train_index[randomIndex] #train,test的index是抽取的資料集X的序號 train=X.ix[train_index] test=X.ix[test_index] return train,test

相關推薦

python 劃分資料訓練測試

sklearn的cross_validation包中含有將資料集按照一定的比例,隨機劃分為訓練集和測試集的函式train_test_split from sklearn.cross_validation import train_test_split #x

資料劃分訓練測試的幾種常見做法

在訓練過程中,我們往往需要將資料集D劃分為訓練集S和測試集T。在閱讀了周志華老師的《機器學習》後,下面將介紹幾種常見的做法:1.留出法直接將資料集D劃分為兩個互斥的的集合,其中一個集合作為訓練集S,另一個作為測試集T,即D=S∪T, S ∩ T = 空集。2.交叉驗證法將資料

python資料分成訓練測試

from sklearn.model_selection import train_test_split import pandas as pd f1=pd.read_excel('aaa.xlsx') f1.columns #Index(['X', 'Y'], dtype='object')

用pandas劃分資料——訓練測試

1、使用sklearn庫中model_select子模組進行劃分 資料:使用kaggle上Titanic資料集 劃分方法:隨機劃分 # 匯入pandas模組,sklearn中model_select模組 import pandas as pd from sklearn.

python交叉驗證以及將全部資料分類訓練測試(分類)

  1,將全部資料分離成訓練集和測試集(之前首先先將x和y分類出來才可以) ''' 分離資料集-- test_size :如果是整數則選出來兩個測試集,如果是小數,則是選擇測試集所佔的百分比。 train_size :同理,都含有預設值0.25 shuffle :預設為Tru

資料訓練測試劃分

資料集的訓練集和測試集劃分 留出法(hold-out) 留出法,直接將資料集 D D D劃分為兩個互

[機器學習]劃分訓練測試的方法

在進行機器學習常常需要處理的一個問題是劃分測試集和訓練集。訓練集用於訓練模型,測試集則是根據訓練集的訓練結果來評判最終的訓練效果。一般而言,測試集應該和訓練集儘可能保持互斥~常用的資料集劃分方法有一下幾種 方法1:留出法 直接將資料集D劃分為兩個互斥的集

sklearn:隨機劃分訓練測試

一、sklearn.model_selection.train_test_split 作用: 隨機劃分訓練集和測試集   官網文件: http://scikit-learn.org/stable/mo

訓練、驗證測試的意義(轉)

來看 valid 更新 次數 bsp 根據 可靠 交集 epo 轉自: https://blog.csdn.net/ch1209498273/article/details/78266558 在有監督的機器學習中,經常會說到訓練集(train)、驗證集(validation

隨機切分csv訓練測試

ont mas set pytho ice random 設置 open write 使用numpy切分訓練集和測試集 覺得有用的話,歡迎一起討論相互學習~Follow Me 序言 在機器學習的任務中,時常需要將一個完整的數據集切分為訓練集和測試集。此處我們使用numpy完

sklearn獲得某個引數的不同取值在訓練測試上的表現的曲線刻畫

from sklearn.svm import SVC from sklearn.datasets import make_classification import numpy as np X,y = make_classification() def plot_validation_curve

sklearn獲得某個參數的不同取值在訓練測試上的表現的曲線刻畫

cati from ssi plot tor atp test scores pyplot from sklearn.svm import SVC from sklearn.datasets import make_classification import numpy

深度學習入門專案完整流程——圖片製作資料訓練網路、測試準確率(TensorFlow+keras)

首先將訓練的圖片和標籤製作成資料集,我用的是numpy庫裡的savez函式,可以將numpy陣列儲存為.npz檔案(無壓縮,所以檔案較大)。 import cv2 as cv import numpy as np import os import glob #調整影象的大小、製作資

訓練,驗證測試

要明確train/validation/test三個集合需要先了解什麼是hyperparameter。機器學習中模型的引數有的可以通過訓練獲得最優的值,而有些無法通過訓練獲得,只能通過人工設定,這部分需要人工設定的引數就是hyperparameters,比如KN

【123】TensorFlow 多個特徵值線性迴歸,並且使用訓練、驗證測試的例子

我們的目標是構建數學模型來預測房價。通常情況下,會有多個因素影響房價,因此使用多個特徵值做線性迴歸。數學上,每個特徵值視為一個自變數,相當與構建一個包含多個自變數的函式。 我寫了兩個 python 檔案,一個是用來訓練模型,並使用驗證集驗證模型。另

訓練,驗證測試介紹交叉驗證法介紹

訓練集、驗證集和測試集這三個名詞在機器學習領域極其常見,但很多人並不是特別清楚,尤其是後兩個經常被人混用。 在有監督(supervise)的機器學習中,資料集常被分成2~3個,即:訓練集(train set),驗證集(validation set),測試集(test set)。 Rip

機器學習中訓練測試歸一化-matlab

 本文不是介紹如何使用matlab對資料集進行歸一化,而是通過matlab來介紹一下資料歸一化的概念。  以下內容是自己的血淚史,因為歸一化的錯誤,自己的實驗過程至少走了兩個星期的彎路。由此可見機器學習中一些基礎知識和概念還是應該紮實掌握。 背景介紹:

AI - MLCC06 - 訓練測試 (Training and Test Sets)

垃圾郵件 數據庫 如果 str 使用 輸入 test ini 地址 原文鏈接:https://developers.google.com/machine-learning/crash-course/training-and-test-sets 1- 拆分數據 可將單個數據集

訓練、驗證測試的意義

原文 在有監督的機器學習中,經常會說到訓練集(train)、驗證集(validation)和測試集(test),這三個集合的區分可能會讓人糊塗,特別是,有些讀者搞不清楚驗證集和測試集有什麼區別。 I. 劃分 如果我們自己已經有了一個大的標註資料集,想要完成一個有監督

Python 求兩個 list 的交集

有時候,為了需求,需要統計兩個 list 之間的交集,並集,差集。查詢了一些資料,現在總結在下面: 1. 獲取兩個list 的交集 #方法一:a=[2,3,4,5]b=[2,5,8]tmp = [val for val in a if val in b]print