GPU＆メニーコアサービス - お客様のコードをGPUやメニーコアプロセッサへ移植、高速化します！

サービスの概要

性能とコスト上の利点

nAGは、お客様のコードがGPUまたはIntel® Xeon Phi™（Knight's Landing）へ移植する価値があるかどうかを見極めます。パフォーマンスやコストのメリットがある場合、CUDA、OpenCL、またはOpenMPといった適切な標準言語を用いてGPUやメニーコア・コプロセッサにコードを移植します。また、メニーコア/コプロセッサ/ GPUプロセッサのための適切な代替アルゴリズムについてご提案することも可能です。

ソフトウェアの移植とチューニング

nAGのソフトウェア移植・チューニングサービスでは、お客様のアプリケーションを様々なハードウェアまたはソフトウェアテクノロジに移行することが可能です。是非お客様のアプリケーションでGPUやmanycoreコプロセッサのコスト/パフォーマンスのメリットをお試しください。幅広いシステムに渡る高品質のソフトウェア製品の開発・サポート、およびHPCサービスでの様々なユーザーアプリケーションの移植とチューニングの実績により、nAGの専門知識と豊富な経験は40年に渡って実証され続けています。

新しいテクノロジーによるお客様アプリケーションの実行

nAGの専門知識と実証済みのサービスとツールにより、リスクを低減しつつ、新しいプロセッサ、システム、ソフトウェアテクノロジへお客様のアプリケーションを確実にメンテナンス可能な形で移植することが可能です。 nAGは、ソフトウェアの移植、チューニング、検証を確実に行うための技術的な問題を十分に把握しています。

nAGライブラリのカスタム化

nAGは、nAG数値計算ライブラリおよびお客様固有の数値計算ルーチンをお客様が選択したアーキテクチャへ移植するために必要となる作業環境を所有しています。我々は、移植作業と将来のメンテナンスをより信頼できるものにするために、数値コードのチェックと改善のためのツールを開発しました。CPU実装の場合と同様に、適切なnAGルーチンをGPUおよびコプロセッサシステムに移植することが可能です。nAGは、高性能数値計算ライブラリを、専門家とカスタムコンピュータシステムの要求に従って定期的に継続してチューニングし続けています。

適用事例

GPU

その他、お客様独自の専用アルゴリズムコードに対するGPU適用実績がございます。

メニーコア

nAG Library for Intel® Xeon Phi™ Coprocessor はnAG Library for SMP & Multicoreを基に作成されており，複数の計算ルーチンについてXeon Phi™のパフォーマンスを十分に活用するようチューニングされています。本ライブラリにはnAG Library for SMP & Multicoreに含まれる1,700 以上の全ての数値計算ルーチンが含まれています。nAG ルーチンはオフロードが有益である場合に，計算負荷の高い演算をXeon Phi™へ自動的にオフロードします。その結果ユーザは意識することなくXeon Phi™のパフォーマンスを利用することができます。上級のユーザに対し， nAG Library for Intel® Xeon Phi™はインテルの明示的オフロード（Explicit Offload）モデルとネイティブ実行（Native Execution）モデルをサポートします。
1700以上のnAG Fortran ライブラリルーチン(Mark23)が本ライブラリに含まれており、そのうち59ルーチンが問題サイズに応じてXeon Phi™にオフロードします。さらに138のルーチンが，オフロードする上記59ルーチンによる恩恵を受けます。nAGの先端技術を用いて厳しくテストされています。
Intel® Xeon Phi™第2世代Knights Landingでは、全てネイティブモードで可能です。リリースノートを参照してください。

nAG Library for Intel® Xeon Phi™を利用して計算を行い、ルーチンがオフロードした場合（ホスト： Intel® Xeon® E5-2670 (2.60GHz, 20M cache) x 2 (=16物理コア）、コプロセッサ：Intel® Xeon Phi™ Coprocessor 7120P (16GB, 1.238 GHz, 61 core) x 1 )でベンチマークを行いました。

距離行列[GA03EA]：　問題サイズ n = 30000 のときに，32スレッドのホストマシン上では本ルーチンの実行に192秒を要しています。最適化を行った場合75.7秒に短縮されています。最適化を行いさらにXeon Phi™にオフロードした場合は40.6秒となり約５倍の加速が得られました。
反復改良を用いた実対称正定値連立線形方程式[F04AF]：　問題サイズ n = 6000 のときに32スレッドのホストマシン上では本ルーチンの実行には171秒を要しますあ、最適化後にXeon Phi™にオフロードした場合は66秒に短縮され約2.6倍の加速が得られました。
上記のGPU事例「nAGがスクエア・キロメートル・アレイ電波望遠鏡のためのグリッディングアルゴリズムを改良」においてもメニーコアへの対応事例があります。

ご利用について

本サービスを利用されたい場合は、まずはコンサルティングサービスのお問い合わせにご記入の上お問い合わせください。