CUDA實例練習（十）：多個cuda流

阿新 • • 發佈：2017-08-12

events get 所有 float speed print main rand free

  1 #include <stdio.h>
  2 #include <cuda_runtime.h>
  3 #include <device_launch_parameters.h>
  4 #include "book.h"
  5 
  6 #define N (1024*1024)
  7 #define FULL_DATA_SIZE (N * 20)
  8 
  9 __global__ void kernel(int *a, int *b, int *c){
 10     int idx = threadIdx.x + blockIdx.x * blockDim.x;
 
 11     if (idx < N){
 12         int idx1 = (idx + 1) % 256;
 13         int idx2 = (idx + 2) % 256;
 14         float as = (a[idx] + a[idx1] + a[idx2]) / 3.0f;
 15         float bs = (b[idx] + b[idx1] + b[idx2]) / 3.0f;
 16         c[idx] = (as + bs) / 2;
 17     }
 18 }
 19 
 20 int main(void){
 21     cudaDeviceProp prop;
 
 22     int whichDevice;
 23     HANDLE_ERROR(cudaGetDevice(&whichDevice));
 24     HANDLE_ERROR(cudaGetDeviceProperties(&prop, whichDevice));
 25     if (!prop.deviceOverlap){
 26         printf("Device will not handle overlaps, so no speed up from streams\n");
 27         return 0;
 28     }
 
 29     cudaEvent_t start, stop;
 30     float elapsedTime;
 31 
 32     //啟動計時器
 33     HANDLE_ERROR(cudaEventCreate(&start));
 34     HANDLE_ERROR(cudaEventCreate(&stop));
 35     HANDLE_ERROR(cudaEventRecord(start, 0));
 36 
 37     //初始化流
 38     cudaStream_t stream0, stream1;
 39     HANDLE_ERROR(cudaStreamCreate(&stream0));
 40     HANDLE_ERROR(cudaStreamCreate(&stream1));
 41 
 42     int *host_a, *host_b, *host_c;
 43     int *dev_a0, *dev_b0, *dev_c0;//為第0個流分配的GPU內存
 44     int *dev_a1, *dev_b1, *dev_c1;//為第1個流分配的GPU內存
 45 
 46     //在GPU上分配內存
 47     HANDLE_ERROR(cudaMalloc((void **)&dev_a0, N * sizeof(int)));
 48     HANDLE_ERROR(cudaMalloc((void **)&dev_b0, N * sizeof(int)));
 49     HANDLE_ERROR(cudaMalloc((void **)&dev_c0, N * sizeof(int)));
 50     HANDLE_ERROR(cudaMalloc((void **)&dev_a1, N * sizeof(int)));
 51     HANDLE_ERROR(cudaMalloc((void **)&dev_b1, N * sizeof(int)));
 52     HANDLE_ERROR(cudaMalloc((void **)&dev_c1, N * sizeof(int)));
 53 
 54     //分配在流中使用的頁鎖定內存
 55     HANDLE_ERROR(cudaHostAlloc((void **)&host_a, FULL_DATA_SIZE * sizeof(int),
 56         cudaHostAllocDefault));
 57     HANDLE_ERROR(cudaHostAlloc((void **)&host_b, FULL_DATA_SIZE * sizeof(int),
 58         cudaHostAllocDefault));
 59     HANDLE_ERROR(cudaHostAlloc((void **)&host_c, FULL_DATA_SIZE * sizeof(int),
 60         cudaHostAllocDefault));
 61 
 62     for (int i = 0; i < FULL_DATA_SIZE; i++){
 63         host_a[i] = rand();
 64         host_b[i] = rand();
 65     }
 66 
 67     //在整體數據上循環，每個數據塊的大小為N
 68     for (int i = 0; i < FULL_DATA_SIZE; i += N * 2){
 69         //將鎖定內存以異步方式復制到設備上
 70         HANDLE_ERROR(cudaMemcpyAsync(dev_a0, host_a + i, N * sizeof(int),
 71             cudaMemcpyHostToDevice, stream0));
 72         HANDLE_ERROR(cudaMemcpyAsync(dev_b0, host_b + i, N * sizeof(int),
 73             cudaMemcpyHostToDevice, stream0));
 74         kernel << <N / 256, 256, 0, stream0 >> >(dev_a0, dev_b0, dev_c0);
 75 
 76         //將數據從設備復制回鎖定內存
 77         HANDLE_ERROR(cudaMemcpyAsync(host_c + i, dev_c0, N * sizeof(int),
 78             cudaMemcpyDeviceToHost, stream0));
 79 
 80         //將鎖定內存以異步方式復制到設備上
 81         HANDLE_ERROR(cudaMemcpyAsync(dev_a1, host_a + i + N, N* sizeof(int),
 82             cudaMemcpyHostToDevice, stream1));
 83         HANDLE_ERROR(cudaMemcpyAsync(dev_b1, host_b + i + N, N * sizeof(int),
 84             cudaMemcpyHostToDevice, stream1));
 85         kernel << <N / 256, 256, 0, stream1 >> >(dev_a1, dev_b1, dev_c1);
 86 
 87         //將數據從設備復制回到鎖定內存
 88         HANDLE_ERROR(cudaMemcpyAsync(host_c + i + N, dev_c1, N * sizeof(int),
 89             cudaMemcpyDeviceToHost, stream1));
 90     }
 91 
 92     //在停止應用程序的計時器之前，首先將兩個流進行同步
 93     HANDLE_ERROR(cudaStreamSynchronize(stream0));
 94     HANDLE_ERROR(cudaStreamSynchronize(stream1));
 95     HANDLE_ERROR(cudaEventRecord(stop, 0));
 96     HANDLE_ERROR(cudaEventSynchronize(stop));
 97     HANDLE_ERROR(cudaEventElapsedTime(&elapsedTime, start, stop));
 98     printf("Time taken: %3.1f ms\n", elapsedTime);
 99 
100     //釋放流和內存
101     HANDLE_ERROR(cudaFreeHost(host_a));
102     HANDLE_ERROR(cudaFreeHost(host_b));
103     HANDLE_ERROR(cudaFreeHost(host_c));
104     HANDLE_ERROR(cudaFree(dev_a0));
105     HANDLE_ERROR(cudaFree(dev_b0));
106     HANDLE_ERROR(cudaFree(dev_c0));
107     HANDLE_ERROR(cudaFree(dev_a1));
108     HANDLE_ERROR(cudaFree(dev_b1));
109     HANDLE_ERROR(cudaFree(dev_c1));
110     HANDLE_ERROR(cudaStreamDestroy(stream0));
111     HANDLE_ERROR(cudaStreamDestroy(stream1));
112 
113     return 0;
114 
115 
116 
117 }

技術分享

如果同時調度某個流的所有操作，那麽很容易在無意中阻塞另一個流的復制操作或者核函數執行。要解決這個問題，在將操作放入流的隊列時應采用寬度優先方式，而非深度優先方式。

  1 #include <stdio.h>
  2 #include <cuda_runtime.h>
  3 #include <device_launch_parameters.h>
  4 #include "book.h"
  5 
  6 #define N (1024*1024)
  7 #define FULL_DATA_SIZE (N * 20)
  8 
  9 __global__ void kernel(int *a, int *b, int *c){
 10     int idx = threadIdx.x + blockIdx.x * blockDim.x;
 11     if (idx < N){
 12         int idx1 = (idx + 1) % 256;
 13         int idx2 = (idx + 2) % 256;
 14         float as = (a[idx] + a[idx1] + a[idx2]) / 3.0f;
 15         float bs = (b[idx] + b[idx1] + b[idx2]) / 3.0f;
 16         c[idx] = (as + bs) / 2;
 17     }
 18 }
 19 
 20 int main(void){
 21     cudaDeviceProp prop;
 22     int whichDevice;
 23     HANDLE_ERROR(cudaGetDevice(&whichDevice));
 24     HANDLE_ERROR(cudaGetDeviceProperties(&prop, whichDevice));
 25     if (!prop.deviceOverlap){
 26         printf("Device will not handle overlaps, so no speed up from streams\n");
 27         return 0;
 28     }
 29     cudaEvent_t start, stop;
 30     float elapsedTime;
 31 
 32     //啟動計時器
 33     HANDLE_ERROR(cudaEventCreate(&start));
 34     HANDLE_ERROR(cudaEventCreate(&stop));
 35     HANDLE_ERROR(cudaEventRecord(start, 0));
 36 
 37     //初始化流
 38     cudaStream_t stream0, stream1;
 39     HANDLE_ERROR(cudaStreamCreate(&stream0));
 40     HANDLE_ERROR(cudaStreamCreate(&stream1));
 41 
 42     int *host_a, *host_b, *host_c;
 43     int *dev_a0, *dev_b0, *dev_c0;//為第0個流分配的GPU內存
 44     int *dev_a1, *dev_b1, *dev_c1;//為第1個流分配的GPU內存
 45 
 46     //在GPU上分配內存
 47     HANDLE_ERROR(cudaMalloc((void **)&dev_a0, N * sizeof(int)));
 48     HANDLE_ERROR(cudaMalloc((void **)&dev_b0, N * sizeof(int)));
 49     HANDLE_ERROR(cudaMalloc((void **)&dev_c0, N * sizeof(int)));
 50     HANDLE_ERROR(cudaMalloc((void **)&dev_a1, N * sizeof(int)));
 51     HANDLE_ERROR(cudaMalloc((void **)&dev_b1, N * sizeof(int)));
 52     HANDLE_ERROR(cudaMalloc((void **)&dev_c1, N * sizeof(int)));
 53 
 54     //分配在流中使用的頁鎖定內存
 55     HANDLE_ERROR(cudaHostAlloc((void **)&host_a, FULL_DATA_SIZE * sizeof(int),
 56         cudaHostAllocDefault));
 57     HANDLE_ERROR(cudaHostAlloc((void **)&host_b, FULL_DATA_SIZE * sizeof(int),
 58         cudaHostAllocDefault));
 59     HANDLE_ERROR(cudaHostAlloc((void **)&host_c, FULL_DATA_SIZE * sizeof(int),
 60         cudaHostAllocDefault));
 61 
 62     for (int i = 0; i < FULL_DATA_SIZE; i++){
 63         host_a[i] = rand();
 64         host_b[i] = rand();
 65     }
 66 
 67     //在整體數據上循環，每個數據塊的大小為N
 68     for (int i = 0; i<FULL_DATA_SIZE; i += N * 2) {
 69         // enqueue copies of a in stream0 and stream1
 70         HANDLE_ERROR(cudaMemcpyAsync(dev_a0, host_a + i,
 71             N * sizeof(int),
 72             cudaMemcpyHostToDevice,
 73             stream0));
 74         HANDLE_ERROR(cudaMemcpyAsync(dev_a1, host_a + i + N,
 75             N * sizeof(int),
 76             cudaMemcpyHostToDevice,
 77             stream1));
 78         // enqueue copies of b in stream0 and stream1
 79         HANDLE_ERROR(cudaMemcpyAsync(dev_b0, host_b + i,
 80             N * sizeof(int),
 81             cudaMemcpyHostToDevice,
 82             stream0));
 83         HANDLE_ERROR(cudaMemcpyAsync(dev_b1, host_b + i + N,
 84             N * sizeof(int),
 85             cudaMemcpyHostToDevice,
 86             stream1));
 87 
 88         // enqueue kernels in stream0 and stream1   
 89         kernel << <N / 256, 256, 0, stream0 >> >(dev_a0, dev_b0, dev_c0);
 90         kernel << <N / 256, 256, 0, stream1 >> >(dev_a1, dev_b1, dev_c1);
 91 
 92         // enqueue copies of c from device to locked memory
 93         HANDLE_ERROR(cudaMemcpyAsync(host_c + i, dev_c0,
 94             N * sizeof(int),
 95             cudaMemcpyDeviceToHost,
 96             stream0));
 97         HANDLE_ERROR(cudaMemcpyAsync(host_c + i + N, dev_c1,
 98             N * sizeof(int),
 99             cudaMemcpyDeviceToHost,
100             stream1));
101     }
102 
103 
104     //在停止應用程序的計時器之前，首先將兩個流進行同步
105     HANDLE_ERROR(cudaStreamSynchronize(stream0));
106     HANDLE_ERROR(cudaStreamSynchronize(stream1));
107     HANDLE_ERROR(cudaEventRecord(stop, 0));
108     HANDLE_ERROR(cudaEventSynchronize(stop));
109     HANDLE_ERROR(cudaEventElapsedTime(&elapsedTime, start, stop));
110     printf("Time taken: %3.1f ms\n", elapsedTime);
111 
112     //釋放流和內存
113     HANDLE_ERROR(cudaFreeHost(host_a));
114     HANDLE_ERROR(cudaFreeHost(host_b));
115     HANDLE_ERROR(cudaFreeHost(host_c));
116     HANDLE_ERROR(cudaFree(dev_a0));
117     HANDLE_ERROR(cudaFree(dev_b0));
118     HANDLE_ERROR(cudaFree(dev_c0));
119     HANDLE_ERROR(cudaFree(dev_a1));
120     HANDLE_ERROR(cudaFree(dev_b1));
121     HANDLE_ERROR(cudaFree(dev_c1));
122     HANDLE_ERROR(cudaStreamDestroy(stream0));
123     HANDLE_ERROR(cudaStreamDestroy(stream1));
124 
125     return 0;
126 
127 
128 
129 }

技術分享

CUDA實例練習（十）：多個cuda流

events get 所有 float speed print main rand free 1 #include <stdio.h> 2 #include <cuda_runtime.h> 3 #include <device_

CUDA實例練習（九）：頁鎖定主機內存

png blog 分配 pydev art event http tdi dev malloc()分配的內存與cudaHostAlloc()分配的內存之間存在著一個重要差異。C庫函數malloc()將分配標準的，可分頁的（Pagable)主機內存，而cudaHo

《瘋狂Java講義》讀書筆記（十）：多執行緒，網路程式設計，類載入機制與反射

第十六章：多執行緒1、一般而言，程序包含如下3個特徵：獨立性，動態性，併發性。併發性和並行性是兩個概念，並行指同一時刻，有多條指令在多個處理器上同時執行；併發指同一時刻只能有一條指令執行，但多個程序指令

cuda練習（一）：使用cuda將rbg影象轉為灰度影象

建立工程使用cmake建立工程，CMakeLists.txt如下： cmake_minimum_required(VERSION 2.8) project(image_process) find_package(OpenCV REQUIRED) #會去找F

【OpenGL】Shader實例分析（七）- 雪花飄落效果

mouse llb cto 接下來 pix lan details effect art 轉發請保持地址：http://blog.csdn.net/stalendp/article/details/40624603 研究了一個雪花飄落效果。感覺挺不錯的。分享給大家，效

靜態方法和實例方法（mark）

泛型 log 語義常駐內存堆棧 parse 既然基本 com 借花獻佛[轉自 ivony‘s blog]關於靜態方法和實例方法的一些誤區。一、靜態方法常駐內存，實例方法不是，所以靜態方法效率高但占內存。事實上，方法都是一樣的，在加載時機和占用內存上

【OpenGL】Shader實例分析（九）- AngryBots中的主角受傷特效

spa 2.7 imp ttext pro tint shader 作用負責轉發請保持地址：http://blog.csdn.net/stalendp/article/details/40859441 AngryBots是Unity官方的一個非常棒的樣例。非常有研究

Java的位運算符詳解實例——與（&）、非（~）、或（|）、異或（^）（僅作記錄）

out 位運算符異或運算 pri stat 運算 data 操作 amp 位運算符主要針對二進制，它包括了：“與”、“非”、“或”、“異或”。從表面上看似乎有點像邏輯運算符，但邏輯運算符是針對兩個關系運算符來進行邏輯運算，而位運算符主要針對兩個二進制數的位進行邏輯運算。下

DOM筆記（十）：JavaScript正則表達式

asc mark space $1 rep 可能多次 -h 區分一、RegExp ECMAScript通過RegExp類型類支持正則表達式，語法和Perl類似： var exp = /pattern/flags; patternb部分

多線程面試題系列（16）：多線程十大經典案例之一雙線程讀寫隊列數據

als single 間隔 eas 講解 art ces 依賴 ini 前十五篇中介紹多線程的相關概念，多線程同步互斥問題（第四篇）及解決多線程同步互斥的常用方法——關鍵段、事件、互斥量、信號量、讀寫鎖。為了讓大家更加熟練運用多線程，將會有十篇文章來講解十個多線程使用案例，

linux下mysql多實例安裝（轉）

ont 數據庫 fill 行修改安裝部署 file 常見 soc -s 轉自：http://www.cnblogs.com/xuchenliang/p/6843990.html 1.MySQL多實例介紹 1.1.什麽是MySQL多實例 MySQL多實例就是在一臺機器上

Python練習（十）叠代器

叠代器使用python叠代器將列表 [1, [2, [3, [4, 5]]]] 中的嵌套列表解成一個列表：[1, 2, 3, 4, 5]lst = [1, [2, [3, [4, 5]]]] result = [] def func(a): for i in a: if isins

純JS制作選項卡--JavaScript實例集錦（初學）

不用 () body tel bsp classname nload html spl 最近重新從最基礎學習JavaScript，如同蓋房，先要打好基礎，一磚一瓦都很重要。下面我來嘚吧幾句，附上從書上學到的實例與效果。 JS可以用面向過程去寫，也可以使用面向對象。面向對象

JavaScript實現全選選項框的功能和鼠標劃入出現下拉框的功能--JavaScript實例集錦（初學）

bubuko 技術分享選項 round div ++ length javascrip brush 有一些論壇，文章後臺編輯都會出現選擇框的操作。 1.實現選項框全選和取消全選的功能：代碼實現： <!DOCTYPE html> <html>

Python+Selenium筆記（十）：元素等待機制

tor 好的菜單自己定時場景 ive add nal （一）前言突然的資源受限或網絡延遲，可能導致找不到目標元素，這時測試報告會顯示測試失敗。這時需要一種延時機制，來使腳本的運行速度與程序的響應速度相匹配，WebDriver為這種情況提供了隱式等待和顯式等待兩

JS對Cookie的應用--JavaScript實例集錦（初學）

onmouseup tle log mouseup val name cli word got 一個網站上的cookie信息可以實現下次自動登錄，記錄你的歷史等等可以在火狐瀏覽器查看本地代碼的cookie信息：打開火狐瀏覽器--點擊右鍵--查看頁面信息--安全--查看c

Shell練習（十）

linux shell 習題1：用戶交互腳本要求：寫一個腳本，執行後，打印一行提示“Please input a number:”，要求用戶輸入數值，然後打印出該數值，然後再次要求用戶輸入數值。直到用戶輸入”end”停止。參考答案：#!/bin/bash # date：2018年3月5日 while

Android項目實戰（十）：自定義倒計時的TextView

初始 als time class nts 時間自定義計時 err 原文:Android項目實戰（十）：自定義倒計時的TextView項目總結 --------------------------------------------------------------

C++學習之路（十）：虛繼承引入的執行效率

存取 ++ 移位繼承模型虛函數必須執行 amp 這篇文章不知道取啥名字了，暫且這樣叫，直接看場景就明白了。節選自《深度探索C++對象模型》 Point3d origin, *pt = &origin; （1）origin.x = 0; （2）pt->

並發編程（十）：AQS

rri 線程同步不知道 ota void 兩個類 aqs 自增執行c AQS全稱為AbstractQueuedSynchronizer,是並發容器中的同步器，AQS是J.U.C的核心，它是抽象的隊列式的同步器，AQS定義了一套多線程訪問共享資源的同步器框架，許多同步

CUDA實例練習（十）：多個cuda流

相關推薦