GPUのアーキテクチャと
プログラム構造
長岡技術科学大学
電気電子情報工学専攻
出川智啓
今回の内容
GPUのアーキテクチャ
CUDA
CUDAによるプログラミング
58
GPGPU実践プログラミング
2015/04/22
GPU(Graphics Processing Unit)とは
画像処理専用のハードウェア
具体的には画像処理用のチップ
チップ単体では販売されていない
59
PCI‐Exカードで販売(チップ単体と区別せずにGPUと呼ぶことも多い)
ノートPCに搭載
PCI‐Exカードとして販売されるGPUには,ビデオメモリと呼ばれ
るRAMが搭載
GPGPU実践プログラミング
2015/04/22
GPU(Graphics Processing Unit)の役割
グラフィックスを表示するために様々な処理を行い,処
理の結果をディスプレイに出力
3次元グラフィックスの発展に伴って役割が大きく変化
過去
現在
描画情報
CPU
3次元座標変換
ポリゴンとピクセルの
対応付け
描画情報
CPU が 3D 描 画
の演算を実行
GPUが出力
3次元座標変換
ポリゴンとピクセルの
対応付け
ピクセル色計算
テクスチャ参照
ピクセル色計算
テクスチャ参照
フレームバッファ(ビデ
オメモリ)への書き込み
フレームバッファ(ビデ
オメモリ)への書き込み
ディスプレイ出力
ディスプレイ出力
ディスプレイコントローラ
60
画面出力
GPGPU実践プログラミング
GPU
GPUが演算から
出力までの全て
を担当
CPUは描画情報
の生成やGPUへ
の情報の引き渡
し , GPU の 制 御
を行う
画面出力
2015/04/22
GPUの描画の流れ
1. CPUからGPUへ描画情報を送信
2. 頂点処理(頂点シェーダ)
2.
座標変換
画面上での頂点やポリゴンの位置・大きさの決定
頂点単位での照明の計算
3.
3. 頂点やポリゴンからピクセルを生成
(ラスタライザ)
4. ピクセル処理(ピクセルシェーダ)
画面上のピクセルの色
テクスチャの模様
4.
5. 画面出力
61
ピクセルの色情報をフレームバッファに書き込み
GPGPU実践プログラミング
2015/04/22
ビデオカードからGPUへ
CGの多様化と共に固定機能の実装が困難に
頂点処理とピクセル処理をユーザが書き換えられるプロ
グラマブルシェーダの実装
62
グラフィックスカード
GPU
頂点処理用回路
頂点シェーダユニット
ピクセル処理用回路
ピクセルシェーダユニット
GPGPU実践プログラミング
2015/04/22
レンダリングパイプライン処理
頂点情報
光源情報
視野変換
形状データの画面
への投影像
実数演算
陰影計算
材質情報
投影変換
クリッピング
投影像を画素
へ変換
整数演算とメモリ
アクセス
ビューポート変換
走査変換
合成
テクスチャ
出力画像
63
GPGPU実践プログラミング
2015/04/22
レンダリングパイプライン処理
頂点情報
光源情報
視野変換
形状データの画面
への投影像
実数演算
実数演算を行うハード
ウェアは高価だった
陰影計算
材質情報
投影変換
クリッピング
ビューポート変換
ハードウェアで処理
(固定機能)
走査変換
合成
テクスチャ
出力画像
64
GPGPU実践プログラミング
2015/04/22
レンダリングパイプライン処理
頂点情報
光源情報
視野変換
ハードウェアで処理
(固定機能)
陰影計算
材質情報
投影変換
クリッピング
ビューポート変換
ハードウェアで処理
(固定機能)
走査変換
合成
テクスチャ
出力画像
65
GPGPU実践プログラミング
2015/04/22
レンダリングパイプライン処理
頂点情報
視野変換
光源情報
頂点シェーダ
陰影計算
材質情報
投影変換
クリッピング
ビューポート変換
ピクセルシェーダ
走査変換
合成
テクスチャ
出力画像
66
GPGPU実践プログラミング
2015/04/22
ビデオカードからGPUへ
頂点処理とピクセル処理をユーザが書き換えられるプロ
グラマブルシェーダの実装
処理によっては利用効率に差が生じる
頂点処理重視の処理
ピクセル処理重視の処理
GPU
GPU
頂点シェーダユニット
頂点シェーダユニット
空きユニット
ピクセルシェーダユニット
ピクセルシェーダユニット
空きユニット
67
GPGPU実践プログラミング
2015/04/22
ビデオカードからGPUへ
頂点シェーダとピクセルシェーダを統合したユニファイド
シェーダへの進化
頂点処理とピクセル処理を切り替えることで利用率を高める
ピクセル処理重視の処理
頂点処理重視の処理
68
GPU
GPU
ユニファイドシェーダユニット
ユニファイドシェーダユニット
GPGPU実践プログラミング
2015/04/22
ビデオカードからGPUへ
各ピクセルに対して処理を並列に実行
単純な処理を行う演算器(Streaming Processor, SP)を大量に搭載
演算器は現在CUDA Coreという名称に変更
高い並列度で処理を行う
69
GPGPU実践プログラミング
2015/04/22
Teslaアーキテクチャの構造
Tesla C1060の仕様
70
SM数
30
CUDA Core数
240(=8 Core/SM×30 SM)
キャッシュを搭載せず
GPGPU実践プログラミング
2015/04/22
Teslaアーキテクチャの構造
Tesla C1060の仕様
CUDAコア数(単精度)
240 Cores
CUDAコアクロック周波数
1,296 MHz
単精度演算ピーク性能
622*1 (933*2) GFLOPS
倍精度演算ユニット数
30*3 Units
倍精度演算ピーク性能
78 GFLOPS
メモリクロック周波数
800 MHz
メモリバス幅
512 bit
最大メモリバンド幅*4
102 GB/s
*1単精度演算ピーク性能 = コアクロック周波数×コア数×命令の同時発行数(2)
*2CUDA CoreとSFUが同時に命令を発行できれば1296 MHz×240×3
*3一つのSMに倍精度演算器が一つ搭載
*4最大メモリバンド幅=メモリクロック周波数×メモリバス幅/8×2(Double Data Rate)
71
GPGPU実践プログラミング
2015/04/22
Fermiアーキテクチャの構造
Tesla M2050の仕様
72
SM数
14
CUDA Core数
448(=32 Core/SM×14 SM)
L1/L2 キャッシュを搭載
ECC(誤り訂正機能)を搭載
GPGPU実践プログラミング
2015/04/22
Fermiアーキテクチャの構造
Tesla M2050の仕様
CUDAコア数(単精度)
448 Cores
CUDAコアクロック周波数
1,150 MHz
単精度演算ピーク性能
1.03 TFLOPS
倍精度演算ユニット数
0*1 Unit
倍精度演算ピーク性能
515 GFLOPS
メモリクロック周波数
1.55 GHz
メモリバス幅
384 bit
最大メモリバンド幅
148 GB/s
*1単精度CUDA Coreを2基使って倍精度演算を実行
73
GPGPU実践プログラミング
2015/04/22
Keplerアーキテクチャの構造
Tesla K20c/mの仕様
SMX数
74
13
Streaming Multiprocessor eXtreme (?)
CUDA Core数
2,496(=192 Core/SM×13 SMX)
GPGPU実践プログラミング
2015/04/22
Keplerアーキテクチャの構造
Tesla K20c/mの仕様
CUDAコア数(単精度)
2,496 Cores
CUDAコアクロック周波数
706 MHz
単精度演算ピーク性能
3.52 TFLOPS
倍精度演算ユニット数
832*1 Units
倍精度演算ピーク性能
1.17 TFLOPS
メモリクロック周波数
2.6 GHz
メモリバス幅
320 bit
最大メモリバンド幅
208 GB/s
*164基/SMX×13基
75
GPGPU実践プログラミング
2015/04/22
Maxwellアーキテクチャ
GeForce GTX TITAN Xの仕様
76
SM数
CUDA Core数
24
3,072(=128 Core/SM×24 SM)
GPGPU実践プログラミング
2015/04/22
Maxwellアーキテクチャ
*http://ja.wikipedia.org/wiki/FLOPS
*
GeForce GTX TITAN Xの仕様 http://http://www.geforce.com/hardware/desk
top‐gpus/geforce‐gtx‐titan‐x/specifications
CUDAコア数(単精度)
3,072 Cores
CUDAコアクロック周波数
1,002 MHz
単精度演算ピーク性能
6.14 TFLOPS
倍精度演算ユニット数
0*1 Units
倍精度演算ピーク性能
192 GFLOPS*2
メモリクロック周波数
3.5 GHz*3
メモリバス幅
384 bit
最大メモリバンド幅
336.5 GB/s
*1http://www.4gamer.net/games/121/G012181/20141225075/
*2倍精度演算は単精度演算の性能の1/32 (1/16 Flop/Core/clock)
*3DDR(Double Data Rate) 7GHz相当と書かれている場合もある
77
GPGPU実践プログラミング
2015/04/22
Pascalアーキテクチャ
2016年にリリース予定
NVLink
倍精度演算器を搭載予定
GPU同士やGPUとCPUを接続する独自の方式
通信(CPU ↔ メモリ ↔ PCI Express ↔ メモリ ↔ GPU)の
ボトルネックを解消(PCI Express3.0の5~12倍)
複数のGPUを使って大規模な計算が可能
3Dメモリ(High Bandwidth Memory, HBM)*
3次元積層技術を利用し,メモリの容量と帯域を大幅に増加
最大32GB,メモリ帯域1TB/s
*http://pc.watch.impress.co.jp/docs/column/kaigai/20150421_698806.html
78
GPGPU実践プログラミング
2015/04/22
Voltaアーキテクチャ
Pascalの後継
詳しい情報は不明
アメリカの次世代スーパーコンピュータへ採用予定
オークリッジ国立研究所
SUMMIT
ローレンス・リバモア研究所 SIERRA
150~300PFLOPS
100PFLOPS以上
地球シミュレータと同等の演算性能を1ノードで実現
現在Top500 2位のスーパーコンピュータと同じ電力で5~10
倍高速,サイズは1/5
*http://www.4gamer.net/games/121/G012181/20141225075/
79
GPGPU実践プログラミング
2015/04/22
GPUの模式図
GPU
Chip
SM
SM
Streaming
Multiprocessor
SM
SM
・・・
SM
・・・
SM
SM
SM
・・・
SM
SM
ローカル
メモリ
SM
L1キャッ
シュ
レジ
スタ
レジ
スタ
共有
メモリ
レジ
スタ
レジ
スタ
CUDA CUDA CUDA CUDA Core Core Core Core
・・・
SM
GPU
Streaming Streaming Multiprocessor
Multiprocessor
CUDA CUDA CUDA CUDA CUDA Core
CUDA Core
CUDA Core
CUDA Core
Core
Core
Core
Core
L2キャッシュ
コンスタントメモリ
テクスチャメモリ
ローカル
グローバルメモリ
メモリ
80
GPGPU実践プログラミング
2015/04/22
GPUの並列化の階層
グリッド-ブロック-スレッドの3階層
グリッド(Grid)
スレッド(Thread)
並列に実行する処理
GPUが処理を担当する領域全体
GPUの処理の基本単位
CPUのスレッドと同じ
ブロック(Block)もしくはスレッドブロック
81
スレッドの集まり
GPGPU実践プログラミング
2015/04/22
GPUの並列化の階層
GPUのハードウェアの構成に対応させて並列性を管理
ハードウェア構成
並列化の階層
CUDA
GPU
並列に実行する
処理
Grid
Streaming Multiprocessor
スレッドの集
まり
Block
スレッド
Thread
CUDA Core
82
GPGPU実践プログラミング
2015/04/22
CUDA
Compute Unified Device Architecture
NVIDIA社製GPU向け開発環境(Windows,Linux,Mac OS X)
2007年頃発表
C/C++言語+独自のGPU向け拡張
専用コンパイラ(nvcc)とランタイムライブラリ
いくつかの数値計算ライブラリ(線形代数計算,FFTなど)
CUDA登場以前
グラフィックスプログラミングを利用
83
足し算を行うために,色を混ぜる処理を実行
汎用計算のためには多大な労力が必要
GPGPU実践プログラミング
2015/04/22
CUDAによるプログラミング
CPUをホスト(Host),GPUをデバイス(Device)と表現
ホスト(CPU)
処理の流れやGPUを利用するための手続きを記述
プログラムの書き方は従来のC言語と同じ
利用するGPUの決定,GPUへのデータ転送,GPUで実行する関
数の呼び出し等
84
GPGPU実践プログラミング
2015/04/22
CUDAによるプログラミング
CPUをホスト(Host),GPUをデバイス(Device)と表現
デバイス(GPU)
処理する内容を関数として記述
引数は利用可能,返値は利用不可(常にvoid)
関数はkernelと呼ばれる
関数呼び出しはlaunch, invokeなどと呼ばれる
85
GPGPU実践プログラミング
2015/04/22
Hello World
何を確認するか
最小構成のプログラムの作り方
ファイル命名規則(拡張子は.c/.cpp)
コンパイルの方法(gcc, cl等を使用)
#include<stdio.h>
int main(void){
printf("hello world¥n");
return 0;
}
helloworld.c
86
GPGPU実践プログラミング
2015/04/22
CUDAでHello World
何を確認するか
最小構成のプログラムの作り方
ファイル命名規則(拡張子は.cu)
コンパイルの方法(nvccを使用)
#include<stdio.h>
#include<stdio.h>
int main(void){
int main(void){
printf("hello world¥n");
printf("hello world¥n");
違いは拡張子だけ?
return 0;
return 0;
}
}
helloworld.cu
87
GPGPU実践プログラミング
helloworld.c
2015/04/22
CUDAプログラムのコンパイル
ソースファイルの拡張子は.cu
nvccを用いてコンパイル
CPUが処理する箇所はgcc等がコンパイル
GPUで処理する箇所をnvccがコンパイル
helloworld.cuにはCPUで処理する箇所しかない
88
GPGPU実践プログラミング
2015/04/22
CUDAでHello World
CUDA専用の処理を追加
#include<stdio.h>
__global__ void kernel(){}
int main(void){
・・・ GPUで実行される関数(カーネル)
__global__が追加されている
kernel<<<1,1>>>();
printf("hello world¥n"); ・・・ 通常の関数呼出とは異なり,
<<<>>>が追加されている
return 0;
}
helloworld_kernel.cu
89
GPGPU実践プログラミング
2015/04/22
CUDAプログラムの実行
実行時の流れ(CPU視点)
利用するGPUの初期化やデータの転送などを実行
GPUで実行する関数を呼び出し
GPUから結果を取得
time
CPU
GPU
初期化の指示
必要なデータのコピー
カーネルの実行指示
CPUとGPUは非同期
CPUは別の処理を実行可能
結果の取得
90
初期化
メモリに書込
カーネルを実行
実行結果をコピー
GPGPU実践プログラミング
2015/04/22
GPUの構造とカーネルの書き方
プログラムからGPUで実行する関数を呼出
GPUで実行する関数という目印が必要
GPUはPCI‐Exバスを経由してホストと接続
GPUはホストと別に独立したメモリを持つ
関数の実行に必要なデータはGPUのメモリに置く
GPUはマルチスレッド(メニースレッド)で並列処理
関数には1スレッドが実行する処理を書く
関数を実行する際に並列処理の度合いを指定
91
GPGPU実践プログラミング
2015/04/22
GPUの構造とカーネルの書き方
GPUで実行する関数(カーネル)という目印
修飾子__global__を付ける
GPUはPCI‐Exバスを経由してホストと接続
GPUはホストと別に独立したメモリを持つ
カーネルの返値をvoidにする
GPUはマルチスレッド(メニースレッド)で並列処理
カーネルには1スレッドが実行する処理を書く
カーネル名と引数の間に<<<1,1>>>を付ける
92
GPGPU実践プログラミング
2015/04/22
Hello Thread(Fermi世代以降)
GPUの各スレッドが画面表示
#include<stdio.h>
__global__ void hello(){
printf("Hello Thread¥n"); ・・・ 画面表示(Fermi世代以降で可能)
コンパイル時にオプションが必要
}
‐arch=sm_20以降
int main(void){
hello<<<1,1>>>();
cudaThreadSynchronize();
return 0;
}
93
・・・ カーネル実行
・・・ ホストとデバイスの同期をとる
CPUとGPUは原則同期しないので,
同期しないとカーネルを実行した
直後にプログラムが終了
hellothread.cu
GPGPU実践プログラミング
2015/04/22
Hello Thread(Fermi世代以降)
<<< >>>内の数字で並列度が変わることの確認
#include<stdio.h>
__global__ void hello(){
printf("Hello Thread¥n");
}
int main(void){
hello<<<?,?>>>();
cudaThreadSynchronize();
return 0;
・・・ <<<>>>内の数字を変えると画面
表示される行数が変わる
<<<1,8>>>, <<<8,1>>>, <<<4,2>>>等
}
hellothread.cu
94
GPGPU実践プログラミング
2015/04/22
CPUとGPUのやりとり
GPUの想定される使い方
ホスト(CPU)からデータを送り,デバイス(GPU)で計算し,
結果を受け取る
CPUとGPUのデータのやり取りが必要
GPUは原則データを返さない
PCI‐Ex経由で描画情報を受け取り,画面に出力
カーネルの返値がvoidの理由
NVIDIA社ホームページより引用
95
GPGPU実践プログラミング
2015/04/22
CPUとGPUのやりとり
CUDA独自の命令とC言語のポインタを利用
GPUのメモリ上に計算に必要なサイズを確保
確保したメモリのアドレスをC言語のポインタで格納
ポインタの情報を基にデータを送受信
96
GPGPU実践プログラミング
2015/04/22
CPUとGPUのやり取り(単純な加算)
int型の変数2個を引数として受け取り,2個の和を返す
C言語らしい書き方
#include<stdio.h>
int add(int a, int b){
return a + b;
}
・・・ 引数で渡された変数の和を返す
int main(void){
int c;
c = add(6, 7);
printf("6 + 7 = %d¥n", c);
・・・ 関数呼び出し
return 0;
}
add_naive.c
97
GPGPU実践プログラミング
2015/04/22
CPUとGPUのやり取り(単純な加算)
関数の返値をvoidに変更し,メモリの動的確保を使用
#include<stdio.h>
#include<stdlib.h>
void add(int a, int b, int *c){
*c = a + b;
}
・・・ 引数で渡された変数の和を,cが指す
アドレスに書き込み
int main(void){
int c;
int *addr_c;
addr_c = (int *)malloc(sizeof(int));
add(6, 7, addr_c);
c = *addr_c;
printf("6 + 7 = %d¥n", c);
・・・ 引数にアドレスを追加
・・・ アドレスを基に結果を参照
return 0;
add.c
}
98
GPGPU実践プログラミング
2015/04/22
CPUプログラム(メモリの動的確保)
malloc
指定したバイト数分のメモリを確保
stdlib.hをインクルードする必要がある
#include<stdlib.h>
int *a;
a = (int *)malloc( sizeof(int)*100 );
sizeof
データ型1個のサイズ(バイト数)を求める
printf("%d, %d¥n", sizeof(float), sizeof(double));
実行すると4,8と表示される
99
GPGPU実践プログラミング
2015/04/22
CPUとGPUのやり取り(単純な加算)
add.cの処理の一部をGPUの処理に置き換え
#include<stdio.h>
__global__ void add(int a, int b, int *c){
*c = a + b;
}
・・・ __global__を追加
int main(void){
int c;
int *dev_c;
・・・ GPU上のメモリに確保される変数のアドレス
cudaMalloc( (void **)&dev_c, sizeof(int) ); ・・・ GPU上にint型変数
一個分のメモリを確保
add<<<1, 1>>>(6, 7, dev_c);
cudaMemcpy(&c, dev_c, sizeof(int), cudaMemcpyDeviceToHost);
printf("6 + 7 = %d¥n", c);
↑GPUから結果をコピー
cudaFree(dev_c);
・・・ メモリを解放
return 0;
add.cu
}
100
GPGPU実践プログラミング
2015/04/22
CUDAでカーネルを作成するときの制限
カーネルの引数
値を渡すことができる
GPUのメモリを指すアドレス
CPUのメモリを指すアドレスも渡すことは可能
そのアドレスを基にホスト側のメモリを参照することは不可能
printfなどの画面出力
Fermi世代以降のGPUで,コンパイルオプションを付与
エミュレーションモード
101
‐arch={sm_20|sm_21|sm_30|sm_32|sm_35|sm_50|sm_52}
新しいCUDA(4.0以降)では消滅
GPGPU実践プログラミング
2015/04/22
CPUプログラムの超簡単移植法
とりあえずGPUで実行すればいいのなら・・・
拡張子を.cuに変更
GPUの都合を反映
関数の返値をvoidにし,__global__を付ける
関数名と引数の間に<<<1,1>>>を付ける
GPUで使うメモリをcudaMallocで確保
カーネルの完成
mallocでメモリを確保していればそれをcudaMallocに置き換え
GPUからデータを受け取るためにcudaMemcpyを追加
最適化は追々考えればいい
102
GPGPU実践プログラミング
2015/04/22
Hello Thread(Fermi世代以降)
<<< >>>内の数字で並列度が変わる
この情報を利用すれば並列処理が可能
#include<stdio.h>
__global__ void hello(){
printf("Hello Thread¥n");
}
int main(void){
hello<<<?,?>>>();
cudaThreadSynchronize();
return 0;
・・・ <<<>>>内の数字を変えると画面表示
される行数が変わる
<<<1,8>>>, <<<8,1>>>, <<<4,2>>>等
}
hellothread.cu
103
GPGPU実践プログラミング
2015/04/22
GPUの並列化の階層
GPUのハードウェアの構成に対応させて並列性を管理
並列化の各階層における情報を利用
ハードウェア構成
並列化の階層
CUDA
GPU
並列に実行する
処理
Grid
Streaming Multiprocessor
スレッドの集
まり
Block
スレッド
Thread
CUDA Core
104
GPGPU実践プログラミング
2015/04/22
GPUの並列化の階層
グリッド-ブロック-スレッドの3階層
各階層の情報を参照できる変数
グリッド(Grid)
gridDim
グリッド内にあるブロックの数
ブロック(Block)
x,y,zをメンバにもつdim3型構造体
blockIdx
blockDim
ブロックに割り当てられた番号
ブロック内にあるスレッドの数
スレッド(Thread)
105
threadIdx
スレッドに割り当てられた番号
GPGPU実践プログラミング
2015/04/22
Hello Threads(Fermi世代以降)
<<< >>>内の数字で表示される内容が変化
#include<stdio.h>
__global__ void hello(){
printf("gridDim.x=%d, blockIdx.x=%d,
blockDim.x=%d, threadIdx.x=%d¥n",
gridDim.x, blockIdx.x, blockDim.x, threadIdx.x);
}
int main(void){
hello<<<?,?>>>();
cudaThreadSynchronize();
return 0;
・・・ <<<>>>内の数字を変えると画面表示
される内容が変わる
<<<>>>内の数字とどのパラメータが
対応しているかを確認
}
hellothreads.cu
106
GPGPU実践プログラミング
2015/04/22
GPUの構造とカーネルの書き方
GPUはマルチスレッド(メニースレッド)で並列処理
関数には1スレッドが実行する処理を書く
関数を実行する際に並列処理の度合いを指定
カーネルと引数の間に追加した<<<,>>>で並列処理の
度合を指定
107
<<<グリッド内にあるブロックの数,1ブロックあたりのスレッド
の数>>>
GPGPU実践プログラミング
2015/04/22
プログラム実習
以下のプログラムをコンパイルし,正しく実行できること
を確認せよ
helloworld.c
helloworld.cu
hellothread.cu
hellothreads.cu
hellothreads.cuについては,<<<>>>内の数字を変
更し,実行結果がどのように変わるか確認せよ
108
GPGPU実践プログラミング
2015/04/22
レポート課題1(提出期限は1学期末)
二つの値を交換する関数swapをGPUに移植せよ
並列化する必要はなく,1スレッドで実行すればよい
#include<stdio.h>
void swap(int *addr_a, int *addr_b){
int c; //cは値を一時的に保持するための変数
c = *addr_a; //*は間接参照演算子
*addr_a = *addr_b; //メモリアドレス(=addr_a,addr_bの値)にある変数の値を参照
*addr_b = c;
}
int main(void){
int a=1,b=2;
printf("a = %d, b = %d¥n", a, b);
swap(&a, &b); //変数a, bのメモリアドレスを渡す.&はアドレス演算子
printf("a = %d, b = %d¥n", a, b);
return 0;
}
swap.c
109
GPGPU実践プログラミング
2015/04/22
レポート課題1(提出期限は1学期末)
#include<stdio.h>
カーネルという目印 void swap(int *a, int *b){
?
}
int main(void){
int a=1,b=2;
GPUで使う変数を宣言
printf("a = %d, b = %d¥n", a, b);
GPU上のメモリを確保(aの分)
GPU上のメモリを確保(bの分)
CPUからGPUにメモリの内容をコピー(aの分)
CPUからGPUにメモリの内容をコピー(bの分)
swap実行時の並列度の指定(GPUで使う変数, GPUで使う変数);
GPUのメモリの内容をCPUにコピー(aの分)
GPUのメモリの内容をCPUにコピー(bの分)
printf("a = %d, b = %d¥n", a, b);
return 0;
}
110
GPGPU実践プログラミング
2015/04/22
© Copyright 2025 Paperzz