PGIアクセラレータコンパイラ > OpenACCサイト・トップ > インデックス

OpenACC ディレクティブによるプログラミング

12 - 1 章　OpenACC 上での CUDA Library の利用

1. cuSOLVERライブラリの紹介 (Dense LAPACK, Sparse LAPACK)

　cuSOLVER ライブラリは、cuBLAS および cuSPARSE ライブラリに基づく高水準パッケージである。それぞれのライブラリは、単独で、または他のツールキットライブラリと連携して使用できる。cuSolver の目的は、密行列、スパース行列に対する最小二乗ソルバ、固有値ソルバのための一般的な行列分解や三角法のような便利な　CUDA 版 LAPACK の機能を提供することである。さらに、cuSOLVER は、スパースパターンを共有した行列のシーケンスを解くのに役立つ新しいリファクタリングライブラリも提供する。

　PGI 17.10 現在、cuSOLVER ライブラリへの Fortran Interface (cusolverDn.mod) を提供しているライセンス製品は Linux 用のもののみとなります。Windows 版においてはこの時点では Fortran Interface Module が提供されていないため、ご注意下さい。なお、Fortran interface module を作成すると、Windows でも使用できます。

　cuSOLVER の最初の部分は cuSolverDN と呼ばれ、密行列を対象とした分解や、LU、QR、SVD、LDLT などの解法ルーチン、行列やベクトル置換などの有用なユーティリティを提供している。いわゆる LAPACK ルーチンと同様な機能を提供する。

　次に、cuSolverSP は、スパース QR 分解に基づく新しいスパースルーチンのセットを提供する。すべての行列分解が並列性に優れたスパース性のパターンを持つわけではないため、cuSolverSP ライブラリはシーケンシャルのような行列を扱う CPU パスも提供する。高い並列性を有するマトリックスの場合、GPU パスはより高いパフォーマンスを提供する。ライブラリは、C および C++ から呼び出されるように設計されているが、OpenACC + PGI Fortran Module を介して Fortran からも簡単に利用できる。

　三つ目は、cuSolverRF です。これは、係数のみが変更され、スパース性パターンは同じままである行列のシーケンスを解く際に、非常に優れたパフォーマンスを提供することができるスパース行列用 refactorization パッケージである。（このページでは説明していません）

cuSolverDN ライブラリ(Dense LAPACK)

　cuSolverDN ライブラリは、密行列の線形システムを解くように設計されている。

A x = b

　ここで、係数行列A∈R^nxn、右辺ベクトルb∈Rⁿ、解ベクトルx∈Rⁿ

　cuSolverDNライブラリは、非対称である可能性のある一般的な行列 A を処理するために、QR 分解と LU に部分ピボッティングを提供し、対称/エルミート行列に対してコレスキー分解ルーチンも提供されている。また、対称不定行列の場合、Bunch-Kaufman（LDL）分解を提供している。cuSolverDN ライブラリは、有用な二重対角化ルーチンと特異値分解（SVD）も提供している。

　cuSolverDN ライブラリは、LAPACK の計算集約的で一般的なルーチンを対象とし、LAPACK と互換性のある API を提供していますので、既存のLAPACKを使ったプログラムの移行が容易である。ユーザーは cuSolverDN を使用して、これらの時間の掛かるルーチンを加速し、既存のコードを大幅に変更することなく LAPACK 利用の互換性を保つことができる。

cuSolverSP ライブラリ(Sparse LAPACK)

　cuSolverSPライブラリは、主にスパースな線形システムと最小二乗問題を解くように設計されている。

A x = b

x = argmin || A * z - b ||

　ここで、係数行列A∈R^nxn、右辺ベクトルb∈Rⁿ、解ベクトルx∈Rⁿ。線形システムでは、m = n が必要である。

　コア・アルゴリズムは、スパース QR 分解に基づいている。行列 A は CSR 形式で入力します。行列 A が対称/エルミート行列である場合、ユーザーは完全な行列（full matrix) を提供する必要がある。つまり、欠落している下部または上部を埋める必要がある。もし、行列 A が対称正定値であり、ユーザーが Ax = b を解く必要があるだけであれば、コレスキー分解は機能するが、ユーザーは行列 A の下三角部分を提供することで代替できる。

　線形および最小二乗ソルバーの上に、cuSolverSP ライブラリは、 shift-inverse power method に基づく簡単な固有値ソルバーと、複素平面内のボックスに含まれる固有値の数を数える関数を提供する。

2. cuSolverDN: エルミート正定値行列のコレスキー分解 (LAPACK zpotrf相当）

　cuSOLVER ライブラリは cuBLAS および cuSPARSE ライブラリをベースにしており、密行列、スパース最小二乗ソルバおよび固有値ソルバの行列分解および三角解法ルーチンをサポートし、共分散行列を持つ行列のシーケンスを解くのに役立つリファクタリングライブラリを提供する。 PGI が提供するインターフェイスモジュール（Fortran MODULE)と、PGI 17.7 以降にバンドルされている cuSOLVER ライブラリの PGI コンパイル済みバージョンを使用して、CUDA Fortran および OpenACC Fortran から最適化された cuSolverDN type ルーチン群（cuSolverSP ならびに cuSolverRF type は今後のリリースで対応予定）を呼び出すことができるようになった。この同じ cuSolver ライブラリは、PGI コンパイラを使用して構築されており、また、PGI OpenMP ランタイムと互換性があるため、PGI OpenACC C/C++ からも呼び出すことができる。

　以下の例は、cuSolverDN: dense LAPACK Function を OpenACC Fortran/C++ ならびに CUDA Fortran から利用する場合の一例である。

　配列、変数のデバイスメモリのマネージメントをどちら側のプログラミングモデルで行うかによって、プログラミングの対応は異なるが、ここでは、 CUDA Fortran 側でデバイス配列の宣言を行った場合の方法、OpenACC 側で配列の宣言を行った場合を以下に例示する。

　なお、以下の例は、PGI 17.10 バージョンを使用しての結果である。使用しているバージョンを確かめたい場合は、以下のように -V コマンド・オプションを指定する。

$  pgfortran -V
pgfortran 17.10-0 64-bit target on x86-64 Linux -tp haswell
PGI Compilers and Tools
Copyright (c) 2017, NVIDIA CORPORATION.  All rights reserved.

Dense Linear Solver - cusolverDnZpotrf() with CUDA Fortran

　エルミートの正定値行列のコレスキー分解の一例を示す。LAPACK の ZPOTRF ルーチン相当である。A は n×n のエルミート行列であり、下位または上位の部分のみが意味を持つ。以下の例は CUDA Fortran から cuSOLVER を使用したプログラム例である。PGI Fortran の MODULE インタフェースとして、cublas_v2 と cusolverDn を USE 文で指定することが必要である。入力パラメータ CUBLAS_FILL_MODE_LOWER の場合、 Aの下三角部分のみが処理され、下三角のコレスキー係数 L で置き換えられます。(A = L * L ^H) 入力パラメータ Workspace で指し示す作業領域を提供する必要がある。入力パラメータ Lwork は作業領域のサイズであり、 potrf_bufferSize（）によって返される。なお、密行列 A は、column-major order で入力する必要がある。

CUDA Fortran + cuSOLVER(cusolverDnZpotrf)

! Copyright (c) 2017, NVIDIA CORPORATION. All rights reserved.
!
!
! Permission is hereby granted, free of charge, to any person obtaining a
! copy of this software and associated documentation files (the "Software"),
! to deal in the Software without restriction, including without limitation
! the rights to use, copy, modify, merge, publish, distribute, sublicense,
! and/or sell copies of the Software, and to permit persons to whom the
! Software is furnished to do so, subject to the following conditions:
!
! The above copyright notice and this permission notice shall be included in
! all copies or substantial portions of the Software.
!
! THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
! IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
! FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
! THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
! LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
! FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
! DEALINGS IN THE SOFTWARE.
!
program main
  use cublas_v2
  use cusolverDn
  use cudafor
  implicit none
  integer, parameter :: n=3
  complex(8) :: a(n,n)
  complex(8), device :: a_d(n,n)
  complex(8), device, allocatable :: workspace_d(:)
  integer, device :: devInfo_d
  integer :: istat, Lwork
  type(cusolverDnHandle) :: h

  a(1,1) = 25.0;   a(1,2) = 15.0;   a(1,3) = -5.0
  a(2,1) = a(1,2); a(2,2) = 18.0;   a(2,3) = 0.0
  a(3,1) = a(1,3); a(3,2) = a(2,3); a(3,3) = 11.0

  a_d = a

! handle 作成
  istat = cusolverDnCreate(h)
  if (istat /= CUSOLVER_STATUS_SUCCESS) &
       write(*,*) 'handle creation failed'
! Working buffer サイズ計算
  istat = cusolverDnZpotrf_bufferSize(h, &
       CUBLAS_FILL_MODE_LOWER, n, a_d, n, Lwork)

  if (istat /= CUSOLVER_STATUS_SUCCESS) &
       write(*,*) 'cusolverDnZpotrf_buffersize failed'

  allocate(workspace_d(Lwork))
! コレスキー分解
  istat = cusolverDnZpotrf(h, CUBLAS_FILL_MODE_LOWER, &
       n, a_d, n, workspace_d, Lwork, devInfo_d)

  if (istat /= CUSOLVER_STATUS_SUCCESS) &
       write(*,*) 'cusolverDnZpotrf failed'

  istat = devInfo_d
  if (istat /= 0) write(*,*) 'Cholesky factorization failed'

  istat = cusolverDnDestroy(h)
  if (istat /= CUSOLVER_STATUS_SUCCESS) &
       write(*,*) 'handle destruction failed'

  a = a_d

  write(*,"(3(f0.0,SP,f0.0,'i',2x))") a(1,:)
  write(*,"(3(f0.0,SP,f0.0,'i',2x))") a(2,:)
  write(*,"(3(f0.0,SP,f0.0,'i',2x))") a(3,:)
end program main

　コンパイルオプションとして、-acc -Mcudalib=cusolver,cublas、-Mcuda オプションを付けてコンパイルリンクする必要がある。

コンパイル＆実行

$ pgfortran -fast -Minfo -Mcuda=cc60,cc35,cuda8.0 -Mcudalib=cusolver,cublas  testDn.cuf
main:
     60, Loop unrolled 3 times (completely unrolled)
     61, Loop unrolled 3 times (completely unrolled)
     62, Loop unrolled 3 times (completely unrolled)
$ ./a.out
5.+0.i  +15.+0.i  -5.+0.i
3.+0.i  +3.+0.i  +0.+0.i
-1.+0.i  +1.+0.i  +3.+0.i

Dense Linear Solver - cusolverDnZpotrf() with OpenACC Fortran

　上記の CUDA Fortran プログラムを OpenACC を使って書き換える。PGI Fortran の MODULE インタフェースとして、cublas_v2 と cusolverDn を USE 文で指定することが必要である。デバイス側のメモリ割付を気にする必要なく、OpenACCのディレクティブのみで、CUDA 数学ライブラリが利用できる。既存の Fortran プログラムをポーティングすることも簡単にできるということである。

　OpenACC のディレクティブで留意すべきことは、CUDA Fortran or CUDA C で記述された（ライブラリ）ルーチンをコールする際に渡す実引数が「デバイスポインタ」である場合、これをコンパイルに伝えるために、host_data use_device() を使う。このディレクティブの使い方さえ誤りがなければ、既存のプログラムベースのものを OpenACC を使ってポーティングすることは大きな負担ではないはずだ。

OpenACC ディレクティブによるプログラミング

12 - 1 章 OpenACC 上での CUDA Library の利用

1. cuSOLVERライブラリの紹介 (Dense LAPACK, Sparse LAPACK)

cuSolverDN ライブラリ(Dense LAPACK)

cuSolverSP ライブラリ(Sparse LAPACK)

2. cuSolverDN: エルミート正定値行列のコレスキー分解 (LAPACK zpotrf相当）

Dense Linear Solver - cusolverDnZpotrf() with CUDA Fortran

CUDA Fortran + cuSOLVER(cusolverDnZpotrf)

コンパイル＆実行

Dense Linear Solver - cusolverDnZpotrf() with OpenACC Fortran

OpenACC Fortran + cuSOLVER(cusolverDnZpotrf)

コンパイル＆実行

Dense Linear Solver - cusolverDnZpotrf with OpenACC C++

OpenACC + cusolverDnDsyevd (DnZpotrf.cpp)

コンパイル＆実行

3. cuSolverDN: 対称正定値行列のコレスキー分解を使った線形ソルバー (LAPACK Dpotrs相当)

OpenACC Fortran + cusolverDnDpotrf, cusolverDnDpotrs (Solver.f90)

4. cuSolverDN: LU分解を使った線形システムソルバー (LAPACK Dgetrs 相当)

OpenACC Fortran + cusolverDnDpotrf, cusolverDnDpotrs (Solver.f90)

5. cuSolverDN: 対称行列の固有値ソルバー (LAPACK Dsyevd相当)

Dense Linear Solver - cusolverDnDsyevd with OpenACC Fortran

OpenACC + cusolverDnDsyevd (syevd.f90)

コンパイル＆実行

Dense Linear Solver - cusolverDnDsyevd with OpenACC C++

OpenACC + cusolverDnDsyevd (syevd.cpp)

コンパイル＆実行

6. cuSolverDN: QR分解による密行列線形ソルバー (LAPACK Dgeqrf 相当)

QR Factorization Dense Linear Solver with OpenACC Fortran

OpenACC + cuSOLVE-geqrf,ormqr,trsm (ormqr.f90)

コンパイル＆実行

7. cuSolverDN: QR分解による直交化 (LAPACK Dgeqrf,Dorgqr 相当）

Orthgonalization by QR Factorization with OpenACC Fortran

OpenACC + cuSOLVE-geqrf,orgqr (ortho.f90)

コンパイル＆実行

8. cuSolverDN: 特異ベクトル計算を含めた特異値分解(by QR) (LAPACK Dgesvd 相当）

OpenACC + cuSOLVER-cusolverDnDgesvd (svd_simgular.f90)

コンパイル＆実行

9. cuSolverDN: 特異ベクトル計算を含めた特異値分解(by Jacobi) (LAPACK Dgesvd 相当）

OpenACC + cuSOLVER-cusolverDnDgesvdj (jacobi_svd.f90)

コンパイル＆実行

10. cuSolverSP: 並列ダイレクト・スパース・ソルバー (CSR QR分解)

Batched Sparse QR example with CUDA Fortran

cuSOLVER SP QR 用の Fortran Module Interface（cusolver_mod.cuf）

Batched Sparse QR メインプログラム（main.cuf）

Makefile（コンパイル方法）

コンパイル＆実行結果

Batched Sparse QR example with OpenACC Fortran

Batched Sparse QR メインプログラム（main.f90）

Makefile（コンパイル方法）

コンパイル＆実行結果

11. cuFFT example with OpenACC Fortran

cuFFT example（cuFFT.f90）

コンパイル＆実行結果

12. cuRAND example (乱数発生)

cuRAND example from OpenACC Host Code

cuRAND test from OpenACC Host Code（cuRand.f90）

コンパイル＆実行結果

cuRAND example from OpenACC device code

cuRAND test from OpenACC device Code（cuRand2.f90）

コンパイル＆実行結果

13. cuSPARSE from OpenACC Host Code

cuSPARSE from OpenACC Host Code（cuSPARSE.f90）

コンパイル＆実行結果

12 - 1 章　OpenACC 上での CUDA Library の利用