將自己的資料集製作成TFRecord格式教程

阿新 • • 發佈：2020-02-17

在使用TensorFlow訓練神經網路時，首先面臨的問題是：網路的輸入

此篇文章，教大家將自己的資料集製作成TFRecord格式，feed進網路，除了TFRecord格式，TensorFlow也支援其他格

式的資料，此處就不再介紹了。建議大家使用TFRecord格式，在後面可以通過api進行多執行緒的讀取檔案佇列。

1. 原本的資料集

此時，我有兩類圖片，分別是xiansu100,xiansu60,每一類中有10張圖片。

將自己的資料集製作成TFRecord格式教程

2.製作成TFRecord格式

tfrecord會根據你選擇輸入檔案的類，自動給每一類打上同樣的標籤。如在本例中，只有0,1 兩類，想知道資料夾名與label關係的，可以自己儲存起來。

#生成整數型的屬性
def _int64_feature(value):
 return tf.train.Feature(int64_list = tf.train.Int64List(value = [value]))
 
#生成字串型別的屬性
def _bytes_feature(value):
 return tf.train.Feature(bytes_list = tf.train.BytesList(value = [value]))
 
#製作TFRecord格式
def createTFRecord(filename,mapfile):
 class_map = {}
 data_dir = '/home/wc/DataSet/traffic/testTFRecord/'
 classes = {'xiansu60','xiansu100'}
 #輸出TFRecord檔案的地址
 
 writer = tf.python_io.TFRecordWriter(filename)
 
 for index,name in enumerate(classes):
  class_path=data_dir+name+'/'
  class_map[index] = name
  for img_name in os.listdir(class_path):
   img_path = class_path + img_name #每個圖片的地址
   img = Image.open(img_path)
   img= img.resize((224,224))
   img_raw = img.tobytes()   #將圖片轉化成二進位制格式
   example = tf.train.Example(features = tf.train.Features(feature = {
    'label':_int64_feature(index),'image_raw': _bytes_feature(img_raw)
   }))
   writer.write(example.SerializeToString())
 writer.close()
 
 txtfile = open(mapfile,'w+')
 for key in class_map.keys():
  txtfile.writelines(str(key)+":"+class_map[key]+"\n")
 txtfile.close()

此段程式碼，執行完後會產生生成的.tfrecord檔案。

3. 讀取TFRecord的資料，進行解析，此時使用了檔案佇列以及多執行緒

#讀取train.tfrecord中的資料
def read_and_decode(filename): 
 #建立一個reader來讀取TFRecord檔案中的樣例
 reader = tf.TFRecordReader()
 #建立一個佇列來維護輸入檔案列表
 filename_queue = tf.train.string_input_producer([filename],shuffle=False,num_epochs = 1)
 #從檔案中讀出一個樣例，也可以使用read_up_to一次讀取多個樣例
 _,serialized_example = reader.read(filename_queue)
#  print _,serialized_example
 
 #解析讀入的一個樣例，如果需要解析多個，可以用parse_example
 features = tf.parse_single_example(
 serialized_example,features = {'label':tf.FixedLenFeature([],tf.int64),'image_raw': tf.FixedLenFeature([],tf.string),})
 #將字串解析成影象對應的畫素陣列
 img = tf.decode_raw(features['image_raw'],tf.uint8)
 img = tf.reshape(img,[224,224,3]) #reshape為128*128*3通道圖片
 img = tf.image.per_image_standardization(img)
 labels = tf.cast(features['label'],tf.int32)
 return img,labels

4. 將圖片幾個一打包，形成batch

def createBatch(filename,batchsize):
 images,labels = read_and_decode(filename)
 
 min_after_dequeue = 10
 capacity = min_after_dequeue + 3 * batchsize
 
 image_batch,label_batch = tf.train.shuffle_batch([images,labels],batch_size=batchsize,capacity=capacity,min_after_dequeue=min_after_dequeue
              )
 
 label_batch = tf.one_hot(label_batch,depth=2)
 return image_batch,label_batch

5.主函式

if __name__ =="__main__":
 #訓練圖片兩張為一個batch,進行訓練，測試圖片一起進行測試
 mapfile = "/home/wc/DataSet/traffic/testTFRecord/classmap.txt"
 train_filename = "/home/wc/DataSet/traffic/testTFRecord/train.tfrecords"
#  createTFRecord(train_filename,mapfile)
 test_filename = "/home/wc/DataSet/traffic/testTFRecord/test.tfrecords"
#  createTFRecord(test_filename,mapfile)
 image_batch,label_batch = createBatch(filename = train_filename,batchsize = 2)
 test_images,test_labels = createBatch(filename = test_filename,batchsize = 20)
 with tf.Session() as sess:
  initop = tf.group(tf.global_variables_initializer(),tf.local_variables_initializer())
  sess.run(initop)
  coord = tf.train.Coordinator()
  threads = tf.train.start_queue_runners(sess = sess,coord = coord)
 
  try:
   step = 0
   while 1:
    _image_batch,_label_batch = sess.run([image_batch,label_batch])
    step += 1
    print step
    print (_label_batch)
  except tf.errors.OutOfRangeError:
   print (" trainData done!")
   
  try:
   step = 0
   while 1:
    _test_images,_test_labels = sess.run([test_images,test_labels])
    step += 1
    print step
 #     print _image_batch.shape
    print (_test_labels)
  except tf.errors.OutOfRangeError:
   print (" TEST done!")
  coord.request_stop()
  coord.join(threads)

此時，生成的batch，就可以feed進網路了。

以上這篇將自己的資料集製作成TFRecord格式教程就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

將自己的資料集製作成TFRecord格式教程

在使用TensorFlow訓練神經網路時，首先面臨的問題是：網路的輸入此篇文章，教大家將自己的資料集製作成TFRecord格式，feed進網路，除了TFRecord格式，TensorFlow也支援其他格

將資料集製作成VOC資料集格式的例項

在做目標檢測任務時，若使用Github已復現的論文時，需首先將自己的資料集轉化為VOC資料集的格式，因為論文作者使用的是公開資料集VOC 2007、VOC2012、COCO等型別資料集做方法驗證與比對。

將 KITTI資料集的點雲和影象轉成Bag格式

這裡需要注意的是隻能轉同步標定後的資料，也就是資料集裡面的[synced+rectified data]這個選項，同時記得把後面的標定檔案下載下來，[calibration]。

將json格式資料集轉化為record格式

技術標籤：程式碼pythontensorflow深度學習將json格式資料集轉化為record格式在進行tensorflow訓練時需要record格式的資料，本教程講解如何將常用的json檔案格式轉化成record格式的檔案。

VOC2007資料集轉換成CSV格式[

https://blog.csdn.net/u012426298/article/details/80450537 https://blog.csdn.net/u012426298/article/details/80343500

yolov5訓練自己資料集

技術標籤：深度學習深度學習 yolov5訓練自己資料集專案地址：https://github.com/ultralytics/yolov5 環境：Windows pytorch-gpu==1.6.0

將lua資料表格轉換成json格式，xml格式

技術標籤：jsonxmllua 首先轉換成json，不廢話直接程式碼： local temp = require(tableName)

關於yolov3在訓練自己資料集時容易出現的bug集合，以及解決方法

早先寫了一篇關於yolov3訓練自己資料集的博文Pytorch實現YOLOv3訓練自己的資料集

python | 將照片按順序製作成PDF

把圖片按照順序合成PDF。需求分析：要保證圖片的順序，只能從檔案命名上下手，所以可以把圖片命名成數字，數字小的排前面，數字大的排後面，類似這樣：

將labelme格式資料轉化為標準的coco資料集格式方式

labelme標註影象生成的json格式： { \"version\": \"3.11.2\",\"flags\": {},\"shapes\": [# 每個物件的形狀

目標檢測 – 解析VOC和COCO格式並製作自己的資料集

http://www.xyu.ink/3612.html xhy2020年10月9日無評論　　相對其他計算機視覺任務，目標檢測演算法的資料格式更為複雜。為了對資料進行統一的處理，目標檢測資料一般都會做成VOC或者COCO的格式。　　VOC和COCO都

voc資料集（xml）轉yolov5資料格式（txt）訓練自己的資料集

#為方便自己檢視，比較囉嗦。。。。。 1、資料集劃分（程式碼來自別人的分享專案中的一個檔案，在專案中能跑通，單獨檔案能否跑通，還沒試）：

pytorch 實現將自己的圖片資料處理成可以訓練的圖片型別

為了使用自己的影象資料，需要仿照pytorch資料輸入建立新的類，其中資料格式為numpy.ndarray。

Pytorch自己載入單通道圖片用作資料集訓練的例項

pytorch 在torchvision包裡面有很多的的打包好的資料集，例如minist,Imagenet-12,CIFAR10 和CIFAR100。在torchvision的dataset包裡面，用的時候直接呼叫就行了。具體的呼叫格式可以去看文件（目前好像只有英文的）。

pytorch實現建立自己的資料集(以mnist為例)

本文將原始的numpy array資料在pytorch下封裝為Dataset類的資料集，為後續深度網路訓練提供資料。

使用Tensorflow將自己的資料分割成batch訓練例項

學習神經網路的時候，網上的資料集已經分割成了batch，訓練的時候直接使用batch.next()就可以獲取batch，但是有的時候需要使用自己的資料集，然而自己的資料集不是batch形式，就需要將其轉換為batch形式，本文將介紹

TFRecord格式儲存資料與佇列讀取例項

Tensor Flow官方網站上提供三種讀取資料的方法 1. 預載入資料：在Tensor Flow圖中定義常量或變數來儲存所有資料,將資料直接嵌到資料圖中，當訓練資料較大時，很消耗記憶體。

PyTorch載入自己的資料集例項詳解

資料預處理在解決深度學習問題的過程中，往往需要花費大量的時間和精力。資料處理的質量對訓練神經網路來說十分重要，良好的資料處理不僅會加速模型訓練，更會提高模型效能。為解決這一問題，PyTorch提供了幾個高效

C#使用TensorFlow.NET訓練自己的資料集的方法

今天，我結合程式碼來詳細介紹如何使用 SciSharp STACK 的 TensorFlow.NET 來訓練CNN模型，該模型主要實現影象的分類，可以直接移植該程式碼在 CPU 或 GPU 下使用，並針對你們自己本地的影象資料集進行訓練和推理。

python實現將兩個資料夾合併至另一個資料夾(製作資料集)

此操作目的是為了製作自己的資料集，深度學習框架進行資料準備，此操作步驟包括對資料夾進行操作，將兩個資料夾合併至另一個資料夾

將自己的資料集製作成TFRecord格式教程

相關推薦