取模乘法和除法運算在CPU和GPU上的效率

阿新 • • 發佈：2018-11-12

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow

也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

問題:

將整數n分解為i和j，滿足下面關係：

n = j * idim + i

其中idim為常量。

以下為三種演算法實現：
1） i = n % idim，j = (n - i) / idim

2） j = n * ridim，i ＝ n - j * idim，其中ridim = 1.0f / idim，為浮點數。

3） i = n % idim，j = (n - i) * ridim，其中ridim = 1.0f / idim，為浮點數。

CPU上的實現程式碼如下：

// 演算法1for(int ii, i = 0; i < size; i++){    ii = N[i] % IDIM;    I[i] = ii;    J[i] = (N[i] - ii) / IDIM;}// 演算法2：R1 = 1.0f/IDIM 
for(int i=0,j=0;i<size;i++){    j = floor(N[i]*R1);    I[i] = N[i] - j*IDIM;    J[i] = j;}// 演算法3：R1 = 1.0f / IDIMfor(int i = 0, ii = 0; i < size; i++){    ii = N[i] % IDIM;    I[i] = ii;    J[i] = (N[i] - ii) * R1;}

GPU上的實現程式碼如下：

// 演算法1__global__ void kernel1(int *N, int *I, int *J, int IDIM, int JDIM){    int tid = blockIdx.x * blockDim.x + threadIdx.x;    if(tid < IDIM * JDIM)    {        int n = N[tid];        int i = n % IDIM;        I[tid] = i;        J[tid] = (n - i) / IDIM;    }}// 演算法2：R1 = 1.0f/IDIM__global__ void kernel2(int *N, int *I, int *J, int IDIM, int JDIM){    int tid = blockIdx.x * blockDim.x + threadIdx.x;    int n, j;    if(tid < IDIM * JDIM)    {        n = N[tid];        j = floor(n*R1);        I[tid] = n - j * IDIM;        J[tid] = j;    }}// 演算法3：R1 = 1.0f / IDIM__global__ void kernel3(int *N, int *I, int *J, int IDIM, int JDIM, float R1){    int tid = blockIdx.x * blockDim.x + threadIdx.x;    if(tid < IDIM * JDIM)    {        int n = N[tid];        int i = n % IDIM;        I[tid] = i;        J[tid] = (n - i) * R1;    }}

計算效率如下：

N = 1000000, IDIM = 1000, JDIM = 1000

Core2 Q6600:

演算法1： 17 ms

演算法2： 34 ms

演算法3： 16 ms

GTX280：

演算法1： 0.36 ms

演算法2： 0.14 ms

演算法3： 0.23 ms

CUDA Visual Profiler的檢測結果顯示：演算法1的指令數高達98xxx，而演算法2指令數僅為29xxx，演算法3的指令數為65xxx。整數除法再一次應驗了手冊上的那句話：

Integer division and modulo operation are particularly costly and should be avoided...

但是好像取模運算並沒有想象中的那麼慢。

結論：

對於CPU，最好採用取模運算，整數除法和單精度乘法的效率差不多。

對於GPU，採用浮點運算最快，其次是取模運算，整數除法最慢。

http://www.cnblogs.com/codezhang/archive/2009/06/19/1506532.html

給我老師的人工智慧教程打call！http://blog.csdn.net/jiangjunshow

取模乘法和除法運算在CPU和GPU上的效率

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

[學習筆記]多項式的整除、取模、多點求值和插值及常係數線性遞推

一、開頭（ WC2019 神犇協會） undefeatedKO ： NOI2017 的題大家都 AK 了嗎？ All ： AK 了！ ION ：我們穿越到 2019 年的 WC 怎麼樣？ olis ：好啊！聽說一個弱雞 xyz32768 要來 WC ，我們一到就把他 D 一遍，這樣他

求解組合數取模---拓展歐幾里德和費馬小定理求解逆元

組合數：C(n, m) ; 組合數取模：C(n, m) % mod，mod是一個很大的數。1.公式：2.性質：（1）C(n,m)= C(n,n-m) 其中有C(n, 0) = 1;（2）C(n,m)=C(n-1,m-1)+C(n-1,m)。可以用作遞迴中的

java 大數取模（有可執行程式碼和詳細註解）

package dashu; //這是我的包名字，這個可以按規則任意起 import java.util.*; import java.math.*; public class muban{ /

for 和while 對cpu和內存的影響

系統性能關於while 和for循環的cpu性能以及內存占用情況同樣的腳本文件，分別使用for和while完成，再用top查看cpu和內存的情況。[[email protected]/* */]# cat sumwhile.sh#!/bin/bash#declare-i sum=0declare

[深入理解計算機系統] 計算機如何實現乘法與除法運算

乘法運算（1）原碼一位乘法演算法要點：（1）乘法通過加法和移位來實現。兩個5位二進位制數（最高位為符號位）相乘，共需要進行4次加法和4次移位。（2）部分積總是先

c++位運算和邏輯運算（&&和||：邏輯運算子；&和|：按位運算子）

兩者計算結果相同（針對各自的運算物件），只是效能上有差別而已。 &&和||：邏輯運算子 &和|：按位運算子 &&是且的意思,a&&b 兩者都為真才為真. ||是或的意思,a||b 兩者有一為真即真. &,|是位運算子.即對位進行運算,

除數為2的N次方取模可以用與運算替代，效率更高

取模運算在包括JAVA在內的大多數語言中的效率都十分低下，而當除數為2的N次方時，取模運算將退化為最簡單的位運算，其效率明顯提升（按照Bruce Eckel給出的資料，大約可以提升5～8倍）。看看JDK中是如何實現的： Java程式碼： staticint ind

分數的乘法逆元和負數的取模運算

好的分數多少研究法則表達求余推導模運算 1.乘法逆元 A.定義如果ax≡1 (mod p),且gcd(a,p)=1（a與p互質），則稱a關於模p的乘法逆元為x。既然有ax≡1 (mod p)，那麽有ax - py = 1,x是a關於模p的乘法逆元

給定A, B兩個整數，不使用除法和取模運算，求A/B的商和餘數

第一種辦法：從小到大遍歷 for(i = 2 to A - 1) if(i * B > A) 商 = i- 1, 餘 = A - (i -1) * B 第二種辦法二分法，在[2, A]中查詢滿足的解第三種辦法以除數為初始測試值，以2的指數

取模運算和取餘運算

對於整型數a，b來說，取模運算或者求餘運算的方法都是： 1.求整數商： c = a/b; 2.計算模或者餘數： r = a - c*b. 求模運算和求餘運算在第一步不同: 取餘運算在取c的值時，向0方向舍入(fix()函式)；而取模運算在計算c的值時，向-∞方向舍入(f

關於取模運算(mod)和求餘(rem)運算

通常情況下取模運算(mod)和求餘(rem)運算被混為一談，因為在大多數的程式語言裡，都用’%’符號表示取模或者求餘運算。在這裡要提醒大家要十分注意當前環境下’%’運算子的具體意義，因為在有負數存在的情況下，兩者的結果是不一樣的。對於整型數a，b來說，取模運算或者求餘運算的方法都是：

51nod 1013 3的冪的和(除法取模+快速冪）

基準時間限制：1 秒空間限制：131072 KB 分值: 20 難度：3級演算法題收藏關注取消關注求：3^0 + 3^1 +...+ 3^(N) mod 1000000007 Input 輸入一個數N(0 <= N <= 10^9)

python中的除法和取模

1.除法運算 1.1 有一個運算元為負數被除數到除數的距離整除除數，得到的數字加上符號便得到結果。例如：-27/10 -27到10的距離為

用位運算來代替乘法、除法以及取模

假設有兩個數，A和B。B為2^n，期中n>=0，A>=0。則：要求A * B的話，則可使用<<操作符，A << n。要求A / B的話，則可使用>>操作符，A >> n。要求A % B的話，則可使用&

Leetcode 29. Divide Two Integers--兩個32位整數相除，小數位截斷，不能使用乘法、除法、取模運算

Given two integers dividend and divisor, divide two integers without using multiplication, division and mod operator. Return the qu

取模運算和求餘運算的區別

通常情況下取模運算(mod)和求餘(rem)運算被混為一談，因為在大多數的程式語言裡，都用'%'符號表示取模或者求餘運算。在這裡要提醒大家要十分注意當前環境下'%'運算子的具體意義，因為在有負數存在的情況下，兩者的結果是不一樣的。對於整型數a，b來說，取模運算或者求餘運

String 說明 java的取模運算和取餘運算

String是一個不可變類，具體參照原因說明String s0 = "hello";String s1 = "hello";String s2 = "he"+"llo";System.out.println(s0 == s1);System.out.println(s0 ==

書寫一個程序，把變量n的初始值設置為1957，然後利用除法運算和取余運算把變量n的每一位數字都抽出來並打印

spa num 利用設置 string ber [] 除法 100% class number { void num(){ int a,b,c,d; int n=1957; a=n/1000; b=n/100%10; c=n/10%10; d=n%1

快速冪取模和快乘取模

要去 ont pow 取模當下 tex str 過程 return 一、快速冪取模概念　　快速冪取模，顧名思義，就是快速的求一個冪式的模(余)，比如a^b%c，快速的計算出這個式子的值。　　在程序設計過程中，經常要去求一些大數對於某個數的余數，為了得到更快、計算範圍更

取模 乘法和除法運算在CPU和GPU上的效率

給我老師的人工智慧教程打call！http://blog.csdn.net/jiangjunshow

相關推薦

取模乘法和除法運算在CPU和GPU上的效率