【Python】多GPU任務在多GPU卡上自動排隊部署

阿新 • • 發佈：2020-09-16

背景：

有大量的GPU任務需要在多GPU伺服器上執行，每個任務理論上僅使用單張GPU卡。在不依賴叢集排程程度的基礎上，並考慮伺服器其他使用者爭搶GPU資源的可能性，此程式碼庫提供可以序列或並行地部署多GPU任務到多GPU卡，並動態的將隊列當中的等待任務前赴後繼地新增到隨時空閒出來的GPU上的解決方案。

PS：目前僅能做到通過空餘視訊記憶體數量來判斷GPU是否空閒。

原始碼：

https://github.com/wnm1503303791/Multi_GPU_Runner

測試環境：

程式碼庫可解決的兩種情況：

（1）我們僅需要執行一系列序列的GPU任務（一般適用於前後相關聯的一系列GPU計算任務）：

from manager import GPUManager
gm=GPUManager()

while(1):
    localtime = time.asctime( time.localtime(time.time()) )
    gpu_index = gm.choose_no_task_gpu()
    if gpu_index >= 0 :
        print('Mission Start Running @ %s'%(localtime));

        # gpu_index = 0

        cmd_1 = 'CUDA_VISIBLE_DEVICES= 
' + str(gpu_index) + ' ' + 'python ...'
        subprocess.call(cmd_1, shell=True)

        cmd_2 = 'python ...'
        subprocess.call(cmd_2, shell=True)

        break;
    else:
        print('Keep Looking @ %s'%(localtime),end = '\r')
        continue;

print('Mission Complete ! Checking GPU Process Over !  
')

原理很簡單，使用while迴圈持續探測GPU情況，只要有一個GPU被其他使用者的程序釋放，則立即將我們需要計算的任務部署到空閒的GPU上。序列完成所有計算任務之後打破迴圈，結束主程序。

（2）有一系列GPU任務，任務之間不相關聯，可以動態地並行部署到多GPU卡上，目的是儘早結束所有GPU計算任務：

from manager import GPUManager
gm=GPUManager()

mission_queue = []
#for i in range(3):
if(1):
    #以下的cmd_用於測試目的，真正使用的時候將字串cmd_的內容換成自己需要執行的GPU任務命令即可
    cmd_ = 'python ./fizzbuzz.py > fizzbuzz_1'
    mission_queue.append(cmd_)
    cmd_ = 'python fizzbuzz.py > fizzbuzz_2'
    mission_queue.append(cmd_)
    cmd_ = 'python ./fizzbuzz.py > fizzbuzz_3'
    mission_queue.append(cmd_)
    cmd_ = 'python fizzbuzz.py > fizzbuzz_4'
    mission_queue.append(cmd_)
    cmd_ = 'python ./fizzbuzz.py > fizzbuzz_5'
    mission_queue.append(cmd_)

p = []
total = len(mission_queue)
finished = 0
running = 0

while(finished + running < total):
    '''
    if len(mission_queue) <= 0 :
        break;
    '''
    localtime = time.asctime( time.localtime(time.time()) )
    gpu_av = gm.choose_no_task_gpu()
    # 在每輪epoch當中僅提交1個GPU計算任務
    if len(gpu_av) > 0 :
        gpu_index = random.sample(gpu_av, 1)[0]#為了保證伺服器上所有GPU負載均衡，從所有空閒GPU當中隨機選擇一個執行本輪次的計算任務
        cmd_ = 'CUDA_VISIBLE_DEVICES=' + str(gpu_index) + ' ' + mission_queue.pop(0)#mission_queue當中的任務採用先進先出優先順序策略
        print('Mission : %s\nRUN ON GPU : %d\nStarted @ %s\n'%(cmd_, gpu_index, localtime))
        # subprocess.call(cmd_, shell=True)
        p.append(subprocess.Popen(cmd_, shell=True))
        running += 1
        time.sleep(10)#等待NVIDIA CUDA程式碼庫初始化並啟動

    else:#如果伺服器上所有GPU都已經滿載則不提交GPU計算任務
        print('Keep Looking @ %s'%(localtime), end = '\r')

    new_p = []#用來儲存已經提交到GPU但是還沒結束計算的程序
    for i in range(len(p)):
        if p[i].poll() != None:
            running -= 1
            finished += 1
        else:
            new_p.append(p[i])

    if len(new_p) == len(p):#此時說明已提交GPU的程序隊列當中沒有程序被執行完
        time.sleep(1)
    p = new_p

for i in range(len(p)):#mission_queue隊列當中的所有GPU計算任務均已提交，等待GPU計算完畢結束主程序
    p[i].wait()

print('Mission Complete ! Checking GPU Process Over ! ')

隨時監測是否有GPU空閒，若有，則將任務新增上去，直至所有任務計算完畢。

實驗結果：

實驗結果表明可以達到我們的目的。

參考和引用：

1、https://github.com/QuantumLiu/tf_gpu_manager

2、https://github.com/calico/basenji/blob/master/basenji/util.py

tz@croplab, HZAU

2020-9-16

【Python】多GPU任務在多GPU卡上自動排隊部署

背景：有大量的GPU任務需要在多GPU伺服器上執行，每個任務理論上僅使用單張GPU卡。在不依賴叢集排程程度的基礎上，並考慮伺服器其他使用者爭搶GPU資源的可能性，此程式碼庫提供可以序列或並行地部署多GPU任務到多GP

【Python】+Django+Vue+Element UI 實現圖片上傳功能

一、效果二、前端程式碼僅修改action即可（這是後端上傳介面） <el-upload class=\"upload-demo\" action=\"http://127.0.0.1:8549/file/upload/\" :on-preview=\"handlePreview\" :on-remove=\"handleRe

【Python】多工

博觀而約取，厚積而薄發。 1. 多工介紹多工是指在同一時間內執行多個任務，例如: 現在電腦安裝的作業系統都是多工作業系統，可以同時執行著多個軟體。

【Python】多執行緒個人使用理解

Python 併發程式設計個人理解在工作中遇到了一些Python程式設計中的問題，藉此學習了Python的併發程式設計。網上說的都很好，我就不重複說了。我說說自己在實際運用中的理解。

【python】Mutilindex多層索引的取值

一，Mutilindex多層索引的取值 1. 通過get_list自定義函式建立二維表格資料 import pandas as pd

【python】Matplotlib作圖中有多個Y軸

在作圖過程中，需要繪製多個變數，但是每個變數的數量級不同，在一個座標軸下作圖導致曲線變化很難觀察，這時就用到多個座標軸。本文除了涉及多個座標軸還包括Axisartist相關作圖指令、做圖中label為公式的表達方式、

【Python】Flask日誌記錄：將日誌輸出到多個檔案、顯示行號、模組名稱、日誌級別等

技術標籤：DEVOPS 參考文章：Flask使用日誌記錄到檔案示例-部落格園 flask的日誌記錄需要用到python標準庫logging的支援。

【Java】白話說Java多執行緒篇（四），生產者/消費者模式與定時任務

技術標籤：Javajava多執行緒併發程式設計設計模式jvm 【Java】白話說Java多執行緒篇（四），生產者/消費者模式與定時任務

【Python】多執行緒實現批量檔案移動（帶進度條）

引言編寫Python指令碼實現將一個資料夾中的所有檔案按照修改日期（xxxx年xx月xx日）分類移動。

【Python】基礎學習（六）多執行緒學習

程序與執行緒的區別　　程序是資源分配的最小單位，執行緒是CPU排程的最小單位

【leetcode】11_盛最多水的容器

連結 [https://leetcode-cn.com/problems/container-with-most-water/] 難度中等描述給你 n 個非負整數 a1，a2，...，an，每個數代表座標中的一個點 (i, ai) 。在座標內畫 n 條垂直線，垂直線 i 的兩個端點分別

Tetrahedron【幾何】-2020杭電多校5

題意：題目連結：http://acm.hdu.edu.cn/showproblem.php?pid=6814 分析：對該立體圖形採用不同的方法求體積，設底面面積為 \\(S\\)，有：

【積累】【樹】2020牛客多校 A National Pandemic（樹剖）

2020牛客多校 A National Pandemic 題意一棵樹，三種操作： 1，一箇中心城市 x，所有城市 y 的值+=w-dist(x,y)

Game【博弈論】-2020杭電多校7

題意在二維平面上給出 \\(n\\) 個點的座標，初始時刻，有一顆石頭在第一個點，兩個人輪流移動石頭，要求當前移動的距離要比上一次的移動距離大，並且一個點只能用一次。不能移動的人輸。問先手勝還是後手勝。

【Spring】Spring如何實現多資料來源讀寫分離？這是我看過最詳細的一篇！！

寫在前面很多小夥伴私聊我說：最近他們公司的業務涉及到多個數據源的問題，問我Spring如何實現多資料來源的問題。回答這個問題之前，首先需要弄懂什麼是多資料來源：多資料來源就是在同一個專案中，會連線兩個甚至

【ClickHouse】7：clickhouse多例項安裝

背景介紹：有三臺CentOS7伺服器安裝了ClickHouse HostName IP 安裝程式例項1埠例項2埠

【element】element tabs請求多次

前言場景：通過tabs實現的標籤頁當切換時，有幾個標籤，那麼請求的頁面資料，就會重複請求幾次。頁面程式碼如下：解決辦法：<router-view v-if="item.url===activeName"></router-v

【C++】類內使用多執行緒

技術標籤：C++程式設計問題c++多執行緒 std::thread std::thread 是 C++ 11 引入的新特性，其使用也非常簡單。由資源搶佔所引發的加鎖問題，使用 mutex 互斥量對公共變數施加保護固然可以有效地保障執行緒安全，

【Python】茅臺自動化搶購指令碼（附加定時任務設定）

技術標籤：Python 前言全民搶購茅臺，導致中證白酒指數一路飆升… 跟著大牛喝湯的同時，我也參與了搶購，搶到就是賺到，年關將至，就算自己不喝送禮也是非常 nice 的。

【Java】面向物件之多型

技術標籤：JavaJava面向物件多型多型在設計一個方法時，通常希望該方法具備一定的通用性。例如要實現一個動物叫的方法，由於每種動物的叫聲是不同的，因此可以在方法中接收一個動物型別的引數，當傳入貓類物件

【Python】多GPU任務在多GPU卡上自動排隊部署

相關推薦