(十)訓練資料集建立

阿新 • • 發佈：2019-01-01

Caffe2 - 訓練資料集建立

caffe2 使用二值 DB 儲存模型訓練的資料，以 key-value 格式儲存，

key1 value1 key2 value2 key3 value3 ...

DB 中，將 keys 和 values 儲存為 strings 形式；可以通過 TensorProtos protocol buffer 來轉換為結構化的資料：

TensorProtos protocol buffer：

記錄 Tensors，也叫多維陣列(multi-dimensional arrays, together)，tensor 資料型別及資料 shape 資訊.

故，採用 TensorProtosDBInput Operator 來載入資料，以進行 SGD 訓練.

以 UCI Iris 資料集為例，Iris 花朵分類資料集，其包括 4 種實值特徵來表示花，對三種類型的花進行分類.

資料集格式：

5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
...

import urllib2 
import numpy as np
import 
 matplotlib.pyplot as plt
from StringIO import StringIO
from caffe2.python import core, utils, workspace
from caffe2.proto import caffe2_pb2
print("Necessities imported!")

# Load txtdata 
# https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
raw_datas = open('iris_data.txt').readlines()
num_datas = len(raw_datas)

features = np.zeros((num_datas, 4 
), dtype=np.float32) # 每一行一個樣本
labels = np.zeros((num_datas, ), dtype=np.int)
#label_dict = {'Iris-setosa':0, 'Iris-versicolor':1, 'Iris-virginica':2}
label_converter = lambda s : {'Iris-setosa':0, 'Iris-versicolor':1, 'Iris-virginica':2}[s]

for idx in range(num_datas):
    data = raw_datas[idx].strip()
    print data
    feature = np.loadtxt(StringIO(data), dtype=np.float32, delimiter=',', usecols=(0, 1, 2, 3))
    label = np.loadtxt(StringIO(data), dtype=np.int, delimiter=',', usecols=(4,), converters={4: label_converter})

    features[idx] = feature
    labels[idx] = label


# train: 100
# test:50
random_index = np.random.permutation(150) # 打亂順序
features = features[random_index]
labels = labels[random_index]

train_features = features[:100]
train_labels = labels[:100]
test_features = features[100:]
test_labels = labels[100:]


# 視覺化下特徵
# first two features 和 label.
legend = ['rx', 'b+', 'go']
plt.title("Training data distribution, feature 0 and 1")
for i in range(3):
    plt.plot(train_features[train_labels==i, 0], train_features[train_labels==i, 1], legend[i])
plt.figure()
plt.title("Testing data distribution, feature 0 and 1")
for i in range(3):
    plt.plot(test_features[test_labels==i, 0], test_features[test_labels==i, 1], legend[i])
plt.show()

這裡寫圖片描述

將資料放入 Caffe2 DB，key - train_xxx，value - 使用 TensorProtos 來儲存每個資料樣本的兩個 tensor，feature 和 label.

# 測試
# 從 numpy arrays 建立 TensorProtos protocol buffer
feature_and_label = caffe2_pb2.TensorProtos()
feature_and_label.protos.extend([utils.NumpyArrayToCaffe2Tensor(features[0]), utils.NumpyArrayToCaffe2Tensor(labels[0])])
print('This is what the tensor proto looks like for a feature and its label:')
print(str(feature_and_label))
print('This is the compact string that gets written into the db:')
print(feature_and_label.SerializeToString())

# 資料寫入 DB
def write_db(db_type, db_name, features, labels):
    db = core.C.create_db(db_type, db_name, core.C.Mode.write)
    transaction = db.new_transaction()
    for i in range(features.shape[0]):
        feature_and_label = caffe2_pb2.TensorProtos()
        feature_and_label.protos.extend([utils.NumpyArrayToCaffe2Tensor(features[i]), utils.NumpyArrayToCaffe2Tensor(labels[i])])
        transaction.put('train_%03d'.format(i), feature_and_label.SerializeToString())

    del transaction
    del db

write_db("minidb", "iris_train.minidb", train_features, train_labels)
write_db("minidb", "iris_test.minidb", test_features, test_labels)


# 建立網路，測試 DB 載入
net_proto = core.Net("example_iris_net")
dbreader = net_proto.CreateDB([], "dbreader", db="iris_train.minidb", db_type="minidb")
net_proto.TensorProtosDBInput([dbreader], ["X", "Y"], batch_size=16)

print("The net looks like this:")
print(str(net_proto.Proto()))

workspace.CreateNet(net_proto)

workspace.RunNet(net_proto.Proto().name)
print("The first batch of feature is:")
print(workspace.FetchBlob("X"))
print("The first batch of label is:")
print(workspace.FetchBlob("Y"))

Reference

(十)訓練資料集建立

Caffe2 - 訓練資料集建立 caffe2 使用二值 DB 儲存模型訓練的資料，以 key-value 格式儲存， key1 value1 key2 value2 key3 value3 ... DB 中，將 keys 和 values 儲存為 s

[Bug]ArcGIS10.1 for Desktop為SDE柵格資料集建立金字塔只能建立level1的問題

導語前兩天去客戶那邊交流，客戶提出一個問題，我的ArcGIS10.1 for Desktop，我並沒有使用Esri提供的RasterDataset、RasterCatalog、MosaicDataset儲存模型，直接將tiff資料匯入到ArcSDE地理資料庫中，第一次匯入已經預設建立了金字塔

關於在深度學習中訓練資料集的batch的經驗總結

由於深度學習的網格很大，用來訓練的資料集也很大。因此不可能一下子將所有資料集都輸入到網路中，便引入了batch_size的概念，下面總結自己兩種常用的呼叫batch的方法 1、使用TensorFlow， tf.train.batch（）。 2、 offset = (offset

神經網路中訓練資料集、驗證資料集和測試資料集的區別

whats the difference between train, validation and test set, in neural networks? Answer: The training and validation sets are used during t

基於pytorch和Fashion Mnist資料集建立簡單的CNN網路來實現圖片分類

寫這篇文章，我主要是想要介紹一種流行的深度學習框架---Pytorch，並且完成一個簡單的CNN網路例子來加深對它的認識，我們還使用到了Fashion Mnist資料集，完成這個DL領域的“Hello World”。相比於TF，Pytorch有很多優點。這些可以自行Goo

電腦科學採用訓練資料集，驗證資料集，測試資料集的方法為什麼不採用統計學中常用的假設檢驗呢？（引數檢驗和非引數檢驗）

如題所說，這個問題作為一個本科讀管理，碩士讀計算機卻旁修經濟學，博士在讀計算機的我來說感覺比較迷惑的。在管理學，經濟學，計算機這三門學科在解決優化問題的時候採用的方法大致相同，其核心都是統計學，管理學，電腦科學中採用的基礎方法，如線性迴歸，多元線性迴歸，廣義線性迴歸，決策樹，SVM,ID3,KNN等分類方法

pyspark 用fit訓練資料集的時候出現"Params must be either a param map or a list/tuple of param maps, "

在anaconda用決策樹訓練資料， from pyspark.ml.classification import DecisionTreeClassifier dt=DecisionTreeClassifier(labelCol="label",features

Tensorflow Object Detection 生成自己的tfrecord訓練資料集

Object Detection API谷歌該文章部分參考別的大佬的，由於忘了內容出處，所以沒有加轉載連結，請諒解，有原創作者看到可以聯絡我新增。 ========轉載請註明出處========== 此python檔案放在dataset_tools下面生成自己訓練

DCMTK讀取DICOM檔案-----獲取資料集-----建立DicomDIr

The following example shows how to load a DICOM file and output the patient's name: DcmFileFormat fileformat; OFCondition status = fileform

Keras —— 基於Mnist資料集建立神經網路模型

一、變數初始化 batch_size = 128 nb_classes = 10 nb_epoch = 20 二、準備資料 (X_train, y_train), (X_test, y

機器學習中訓練資料集，交叉驗證資料集，測試資料集的作用

#1. 簡介在Andrew Ng的機器學習教程裡，會將給定的資料集分為三部分：訓練資料集（training set）、交叉驗證資料集（cross validation set）、測試資料集（test set）。三者分別佔總資料集的60%、20%、20%。那麼

yolo生成和訓練資料集

第二代yolo的效能明顯比第一代yolo有所提升，在博主實際測試中。基於3000張的資料集來說，yolo的效果還是不錯的，tiny-yolo的效能稍差，但是時間也縮短了很多。大約tiny的時間是yolo的1/5，YOLO的官方網站上也有所介紹，對於67的fps還

神經網路演算法學習---獲取常用訓練資料集

下載地址：http://vision.stanford.edu/Datasets/OlympicSports/ 7. UIUC action dataset 這個資料庫已經做到98%了，建議不要去做了。下載地址：http://vision.cs.uiuc.edu/projects/activity/

SAS學習︱邏輯庫、資料集建立與檢視、資料庫連結（SAS與R的code對照）

每每以為攀得眾山小，可、每每又切實來到起點，大牛們，緩緩腳步來俺筆記葩分享一下吧，please~———————————————————————————入門學習一週，開始寫學習筆記。用習慣R之後，發現SA

訓練資料集報錯-NaN

報錯資訊：Input contains NaN, infinity or a value too large for dtype(‘float32’). 原因：資料集中有NaN空值解決方法：填補缺失資料 melbourne_data = pd.rea

opencv_haartraining.exe 訓練資料集自己經歷過的坑

1、opencv_haartraining.exe 在新版本里面沒有，之前在openv3.3.1 和 3.1.0 中都沒找打，看網上用的是2.4.9 ，然後才用 opencv249完成。 2、將圖片名稱輸入到 txt 檔案，最開始直接進入樣本圖片的資料夾，直接 dir /b

獲取mnist訓練資料集input_data.py

Alink漫談(七) : 如何劃分訓練資料集和測試資料集

# Alink漫談(七) : 如何劃分訓練資料集和測試資料集 [TOC] ## 0x00 摘要 Alink 是阿里巴巴基於實時計算引擎 Flink 研發的新一代機器學習演算法平臺，是業界首個同時支援批式演算法、流式演算法的機器學習平臺。本文將為大家展現Alink如何劃分訓練資料集和測試資料集。 ##

[2] SSD配置+訓練VOC0712+訓練自己的資料集

GitHub https://github.com/weiliu89/caffe/tree/ssd http://blog.csdn.net/u010733679/article/details/52125597 一、安裝配置 sudo apt-get install -y

【MNIST/Python】手寫體數字訓練/測試資料集(圖片格式)下載及分割預處理

MNIST手寫體數字資料集 MNIST是一個手寫數字資料庫，它有60000個訓練樣本集和10000個測試樣本集由Yann LeCun等人建立，是NIST資料庫的一個子集官方網址連結：Link 官網上的資料庫檔案形式如下： train-images-idx3-ubyte.

(十)訓練資料集建立

Caffe2 - 訓練資料集建立

Reference

相關推薦