京東豬臉識別比賽資料預處理：用Python將視訊每一幀提取儲存為圖片

阿新 • • 發佈：2019-01-04

最近參加京東的豬臉識別比賽，訓練集是30個視訊，需要將視訊的每一幀提取出來儲存為圖片，存入對應的資料夾（分類標籤）。

本例是直接呼叫了cv2 模組中的 VideoCapture。一次執行，大概10分鐘，就能得到預處理後的分類圖片了，具體程式碼如下。

視訊每一幀提取儲存為圖片程式碼

#! encoding: UTF-8

import os

import cv2
import cv

videos_src_path='/sata_disk/E_office/zhouhongli/pig/train'
images_save_path='/sata_disk/E_office/zhouhongli/pig/frame' 


videos = os.listdir(videos_src_path)
videos = filter(lambda x: x.endswith('mp4'), videos)

for each_video in videos:
    print each_video

    # get the name of each video, and make the directory to save frames
    each_video_name,_=each_video.split('.')
    os.mkdir(images_save_path +'/'+ each_video_name)

    each_video_save_full_path=os.path.join(images_save_path, each_video_name) + '/' 


    # get the full path of each video, which will open the video tp extract frames
    each_video_full_path=os.path.join(videos_src_path, each_video)

    cap=cv2.VideoCapture(each_video_full_path)
    frame_count = 1
    success = True
    while(success):
        success, frame=cap.read()
        print 
 'Read a new frame: ', success

        params = []
        params.append(cv.CV_IMWRITE_PXM_BINARY)
        params.append(1)
        cv2.imwrite(each_video_save_full_path + each_video_name + "_%d.jpg" % frame_count, frame, params)

        frame_count = frame_count+1

cap.release()

遞迴刪除檔案的問題

但有個問題，每一個視訊轉換得到的30個子資料夾裡，都有2952張圖片，但第2952張是空的，所以只有運用強大的Linux遞迴刪除符合條件的檔案了，我是這樣刪除滴。

zhouhongli@1080TI:~$ find  . -name '*_2952.jpg' -size 0 -print0 |xargs -0 rm

參考

京東豬臉識別比賽資料預處理：用Python將視訊每一幀提取儲存為圖片

最近參加京東的豬臉識別比賽，訓練集是30個視訊，需要將視訊的每一幀提取出來儲存為圖片，存入對應的資料夾（分類標籤）。本例是直接呼叫了cv2 模組中的 VideoCapture。一次執行，大概10分鐘，就能得到預處理後的分類圖片了，具體程式碼如下。

真會玩！劉強東搞了個”豬臉識別“比賽，冠軍獎單人能拿30萬！

11月6日，隨著首屆“JDD-2017京東金融全球資料探索者大會”大幕拉開，備受關注的“JDD-2017京東金融全球資料探索者大賽”也終於揭曉，據小編了解，從即日起至11月20日，想參加JDD大賽的所有選手，無論你是哪個賽組，無論身處哪個賽區，均可通過官方網站：http

python資料預處理：資料標準化

何為標準化：在資料分析之前，我們通常需要先將資料標準化（normalization），利用標準化後的資料進行資料分析。資料標準化也就是統計資料的指數化。資料標準化處理主要包括資料同趨化處理和無量綱化處理兩個方面。資料同趨化處理主要解決不同性質資料問題，對不同性質指標直接加總不能正確

python資料預處理：資料相關性

何為相關性：相關性分析是指對具備相關性關係的變數進行分析，從而衡量變數間的相關程度或密切程度。相關性可以應用到所有資料的分析過程中，任何事物之間都是存在一定的聯絡。相關性用R（相關係數）表示，R的取值範圍是[-1, 1] 相關和因果：相關並不是因果，例如商品銷售活動時，通

python資料預處理：資料共線性處理

何為共線性：共線性問題指的是輸入的自變數之間存在較高的線性相關度。共線性問題會導致迴歸模型的穩定性和準確性大大降低，另外，過多無關的維度計算也很浪費時間共線性產生原因：變量出現共線性的原因：資料樣本不夠，導致共線性存在偶然性，這其實反映了缺少資料對於資料建

python資料預處理：資料抽樣

何為資料抽樣：抽樣是資料處理的一種基本方法，常常伴隨著計算資源不足、獲取全部資料困難、時效性要求等情況使用。抽樣方法：一般有四種方法：隨機抽樣直接從整體資料中等概率抽取n個樣本。這種方法優勢是，簡單、好操作、適用於分佈均勻的場景；缺點是總體大時無法一一編

python資料預處理：樣本分佈不均（過取樣和欠取樣）

何為樣本分佈不均：樣本分佈不均衡就是指樣本差異非常大，例如共1000條資料樣本的資料集中，其中佔有10條樣本分類，其特徵無論如何你和也無法實現完整特徵值的覆蓋，此時屬於嚴重的樣本分佈不均衡。為何要解決樣本分佈不均：樣本分部不均衡的資料集也是很常見的：比如惡意刷單、黃牛訂

python資料預處理：資料降維

資料為何要降維資料降維可以降低模型的計算量並減少模型執行時間、降低噪音變數資訊對於模型結果的影響、便於通過視覺化方式展示歸約後的維度資訊並減少資料儲存空間。因此，大多數情況下，當我們面臨高維資料時，都需要對資料做降維處理。資料降維有兩種方式：特徵選擇，維度轉換特徵選擇

python資料預處理：字元變數獨熱編碼(one-hot encoding)

許多的資料取樣中會有很多以以字串形式出現的資料，這樣的資料沒有辦法直接跟其他數值變數合併成向量，這些值一般是分類資料或是順序資料。分類資料：分類資料指某些資料類別的只能歸於某一類非數值型資料，例如男、女。分類資料中的值沒有明顯高低好壞之分，只是由來區分兩個或多個具有相同或相

python資料預處理：使用pandas 進行資料清洗

問題：介紹資料清洗方法。。解答：所謂資料清洗主要處理的是資料中的缺失值、異常值和重複值：缺失值處理資料缺失值指由於各種原因導致資料中存在的空缺值：資料庫中的null，python返回物件none，pandas或numpy中的nan；另空字串是有實體的不算是缺

python資料預處理：資料離散化

何為離散化：一些資料探勘演算法中，要求資料是分類屬性形式。因此常常需要將連續屬性的資料通過斷點進行劃分最後歸屬到不同的分類，即離散化。為什麼要離散化：調高計算效率分類模型計算需要給予距離計算模型（k均值、協同過濾）中降低異常資料對模型的影響

資料預處理：One-Hot Encoding

機器學習中，在對資料進行訓練之前，都會對資料進行預處理，也就是特徵提取，個人認為特徵提取是訓練模型中非常非常重要的一步！在迴歸，分類，聚類等機器學習演算法中，特徵之間距離的計算或相似度的計算是非常重要的，而我們常用的距離或相似度的計算都是在歐式空間的相似度計算，計算餘弦相似性，基於的就是歐

3-6 用 Pandas 進行資料預處理：資料清洗與視覺化（版本：py3）

主要內容：格式轉換缺失資料異常資料資料標準化操作格式轉換如Python記錄時間的方式，不能夠直接實現減運算，就需要進行轉換 pandas.to_datetime 缺失資料忽略缺失資料直接標記利用平均值、最常出現值進行填充異常資料處

資料預處理：獨熱編碼（One-Hot Encoding）和 LabelEncoder標籤編碼

一、問題由來在很多機器學習任務中，特徵並不總是連續值，而有可能是分類值。離散特徵的編碼分為兩種情況：　　1、離散特徵的取值之間沒有大小的意義，比如color：[red,blue],那麼就使用one-hot編碼　　2、離散特徵的取值有大小的意義，比如size:[

資料預處理：樣本非平衡處理

轉載：https://zhuanlan.zhihu.com/p/37311047 非平衡資料會影響最後的評判效果，嚴重的會帶來過擬合的效果，即模型總是把樣本劃分到樣本量較多的那一種。為了讓模型的評判更準確，我們需要對非平衡資料

Python資料預處理：機器學習、人工智慧通用技術（1）

Python資料預處理：機器學習、人工智慧通用技術白寧超 2018年12月24日17:28:26 摘要：大資料技術與我們日常生活越來越緊密，要做大資料，首要解決資料問題。原始資料存在大量不完整、不一致、有異常的資料，嚴重影響到資料建模的執行效率，甚至可能導致模型

資料預處理：讀取檔案資料，並存為python陣列

檔案的簡單讀取 # 定義一個將檔案中的資料轉化為陣列的類 import numpy as np class DataUtil: # =============================================================================

資料預處理：原始資料集，特徵數值化，特徵值數值化

原始資料集，特徵數值化在原始資料集中，feature是多種多樣的，為了方便處理，我們必須把feature數值化，而且還需要把特徵值數值化。示例： x=[[黃色,小,成人,用手打] ,[黃色,小,成人,用腳踩] ,[黃色,小,小孩,用手打] ,[黃色,小,小孩,用腳踩] ,[黃

資料預處理：原始資料集快速分類的方法，numpy的使用技巧，資料的row=mask的column

問題假如資料集有3類，怎麼把一個龐大的陣列集3類，放在不同的數組裡。分析首先龐大資料集分類，肯定不能一個一個遍歷，而且強烈避免個人的操作，需要藉助於numpy處理。示例資料集,可以看出資料集為3類，我們要x也分成3類 x = [[1,2],[2,9],[3,

Sklearn資料預處理：scale, StandardScaler, MinMaxScaler, Normalizer

問題：怎麼讓一組資料平均數為0，方差為1 有一組資料 X: {x1,x2,x3,.....,xn} (1) 設其平均值為：E(X) = μ (2) 設其方差為：D(X) =

京東豬臉識別比賽資料預處理：用Python將視訊每一幀提取儲存為圖片

最近參加京東的豬臉識別比賽，訓練集是30個視訊，需要將視訊的每一幀提取出來儲存為圖片，存入對應的資料夾（分類標籤）。

本例是直接呼叫了cv2 模組中的 VideoCapture。一次執行，大概10分鐘，就能得到預處理後的分類圖片了，具體程式碼如下。

視訊每一幀提取儲存為圖片程式碼

遞迴刪除檔案的問題

參考

相關推薦