プログラムの高速化・並列化サービス

お客様のご依頼は、コードの高速化や別のマシンへの移植など多岐に渡りますが、ご要望の多くは、現状あるいは今後お使いになるマシンの性能や特性を十分に引き出すようなコードの最適化/高速化です。

nAGが提供可能な具体的なチューニング作業については、チューニングメニューをご覧ください。

nAGの代表的チューニング実績の一つが、2007年から2014年の間稼働した英国国立スーパーコンピューティングサービスHECToR：http://www.hector.ac.uk/でのサポート業務です。2007年の3月、nAGはHECToRプロジェクトの計算科学とエンジニアリングdCSE(distributed Computational Science and Engineering)サポート提供者として正式に選ばれました。HECToRは、英国エジンバラ大学Advanced Computing Facility」を拠点とした当時の最新ハイエンド計算リソースです。アーキテクチャは初期のフェーズ1［Cray XT4, AMD 2.8 GHz Opteron(dual-core)、1.1万コア＆Cray Vector system］から最終フェーズ3［Cray XE6, AMD 2.3 GHz Opteron(16-core)×2/node、9万コア］までグレードアップを継続されました。
nAGは、HECToRプロジェクトにおいて、50を超えるプログラムコードの130を超えるプロジェクトのサポートを実施いたしました（プログラムの高速化・並列化サービス事例一覧をご覧ください）。

ここでは、HECToRのdCSEプロジェクトにおいてnAGの技術者が実施した代表的な6つの成功事例をご紹介します。

目次

１．航空機騒音シミュレーションコードCABARETの並列化とシミュレーション規模の大幅な拡大

２．分子動力学(MD)シミュレーションコードDL_POLY_3へのMPI-I/O実装による大規模シミュレーション高速化

３．2D領域分割＆FFTインターフェイスライブラリー2DECOMP&FFTの開発と乱流CFDコードIncompact3Dへの適用による並列効率の改善

４．エアロゾル化学シミュレーションコードTOMCAT/GLOMAP-modeのハイブリッド並列化と最適化

５．CFDコードTransflowとMDコードStreamMDの連成シミュレーションのためのカプラーモジュール開発と高スケーラビリティの実現

６．DFTコードVASPへのk点並列の実装による並列効率の改善

１．航空機騒音シミュレーションコードCABARETの並列化とシミュレーション規模の大幅な拡大

☆ お客様の声 ☆

本dSCEプロジェクト主任研究員のケンブリッジ大学Sergey Karabasov博士のコメント：

「dCSEプロジェクトは多くの点で大変有益です。汎用LES CABARETコードはHECToRのHPC機能による強化によって高速化しました。これによりローカルの小型のクラスタで可能だった分解能よりも極めて高い分解能を使用できるようになります。」

図1-1：後方ステップベンチマークのスケーラビリティー（N：MPIプロセス数/ノード、d：スレッド数/ MPIプロセス）

CABARET (Compact Accurate Boundary Adjusting high REsolution Technique)コードは、空気力学分野の、ターボ機械、航空力学、空力音響といった解析領域で利用され、特に航空機のフラップ/ジェット相互作用による騒音解析に用いられています。
このコードは、圧縮性ナビエストークス方程式を解く際に利用され、2次の風上leap-flogスキームによる更新を用い、MEILS法フレームワークに従った、低散逸かつ低分散の保存形CABARET法がベースです。
メッシュにはFluent (Gambit)6面体非構造格子を用い、プロジェクト開始当初はシリアルコードでした。

プロジェクトの目標 は、現状のシリアルコードに対し、HPCマシンHECToRのリソースを効率的に利用した並列処理の実装によりシミュレーション規模を拡大することでした。

チューニング を担当したnAGの Phil Ridley は、非構造格子の自動領域分割の実装（Metis、Scotchパッケージの利用およびカルテシアン平面による分割）によるコード全体のMPI並列化、さらにMPIタスク内のセル数およびサイド数上の計算ループをOpenMP並列化してCABARETコードをOpenMP/MPIハイブリッド並列化、最後に非同期MPIを実装して通信と計算のオーバーラップを実装して並列効率をさらに高めました。

ベンチマーク には、51.2百万セルを用いた3D後方ステップシミュレーション、40000時間ステップ、境界条件は層流、レイノルズ数=5000、マッハ数=0.1、グリッドサイズ80万点を用いました。
最終的に、上図1-1で示したように、フェーズ2b(*)マシン上の1000コアを用いて、並列効率80%を達成しました。下図はその時の速度場成分を表示した図です。

図1-2：40000時間ステップにおける、後方ステップベンチマークの流れ場のx方向速度場成分

詳細は以下のレポートを参照してください：

サクセスストーリー：HECToR dCSE Teamの最適化により航空機騒音シミュレーション(CABARET) の速度が上がりより大きなモデルが可能に
チューニングレポート：圧縮性LESコードCABARETの並列化

*)HECToRフェーズ2b：Cray XE6, AMD 2.1 GHz Opteron(12-core)×2/node, 360 Tflops, 44,544 cores, 59.4 TB, 3D-torus Gemini interconnect

その後の展開：

CABARETコードのI/O処理の改善および、多層準地衡的渦位方程式による海洋循環モデルへCABARET手法を移植する追加のプロジェクトが行われました。

Sergey Karabasov博士は次のようにコメントしました：

「dCSEプロジェクトの75%はCABARET手法をより広い科学アプリケーションへ拡張することに費やされました。特に、新たに計算地球物理流体力学コードPEQUOD(Parallel Quasi-Geostrophic Model)をHPC向けに導入して、渦解像領域での高解像度海洋モデリングシミュレーションを可能にできたことを感謝します。本作業により、NERC予算の3年プロジェクトである"乱流振動"(Berloff博士(PI)、Karabasov博士(Co-I)を立上げ、PEQUODコードを海洋流の長期変動研究に用いる事となりました。」
「残りの25%は、空力音響アプリケーションでの非構造CABARETコードのI/O改善を行いました。この作業が重要なのは、元のCABARETアプリケーションのポスト処理が長いシリアル処理であり、HPCファイルシステムで問題となりつつあったためです。dSCEサポートはコード開発にとても役立ちました。」

詳細は以下のレポートを参照してください：

サクセスストーリー：HECToR dCSE Teamの最適化によりCABARET手法による空力音響と海洋流体ソルバーの性能が改善
チューニングレポート：ジェット/フラップ騒音と準地衡的海洋循環へのCABARET手法の適用と性能改善

２．分子動力学(MD)シミュレーションコードDL_POLY_3へのMPI-I/O実装による大規模シミュレーション高速化

☆ お客様の声 ☆

本dSCEプロジェクト研究員、Warwick大学David Quigley博士のコメント：

「これらのI/O性能の改善を行う前は、DL_POLY_3 は並列ファイルシステムを有効に使用することができず、シミュレーションのパフォーマンスをひどく低下させていました。新しいコードは一つのスナップショットの作成にかかる時間を3分から0.5秒以下に短縮しました。この結果全体のパフォーマンスが20倍に改善されました。」

図2-1：216,000NaClイオン系での全性能改善

DL_POLY_3 は、物性科学、固体化学、生体分子シミュレーション、ソフトマター研究等の広い分野で用いられている大規模並列向け分子動力学コードです。
このコードは、均等な空間領域分割によるMPI並列処理を行い、リンクセル(LC)、ベルレリスト(Verlet neighbour list、VNL)、Smooth Particle Mesh Ewald法(SPME)等のアルゴリズムを含み、FFTにはデアーズベリー・フーリエ変換(DaFT)ライブラリーを用います。

プロジェクトの目標 は、大規模シミュレーションにおいて障害となりつつあった入出力処理時間の短縮でした。

チューニング を担当したnAGの Ian Bush は、Lustreファイルシステムの利用とI/Oの効果的な並列化の両方を可能にするために、大規模なデータの再編を行い、MPI-I/O か NetCDF の何れも容易に利用できるようなモジュール設計も実装しました。

ベンチマーク にはフェーズ2a(*)マシンを用い、既存コードの現実的な限界であるNaClの216,000イオン系、およびさらに大規模な1,728,000イオン系を行いました。
最終的に、出力は256コアで50倍高速化し、4000コアまで良好なスケールを示しました。入力も並列化により改善しています。鳥の卵殻形成において知られる ovocleidin-17 (OC-17) タンパク質では20倍高速化しました。

図2-2：1,728,000イオン系での全性能

詳細は以下のレポートを参照してください：

サクセスストーリー：HECToR dCSE Teamによる最適化で分子動力学アプリケーション(DL_POLY_3)のパフォーマンスが20倍に加速
チューニングレポート：DL_POLY_3における入出力処理の最適化

*)HECToRフェーズ2a：Cray XT4, AMD 2.3 GHz Opteron(quad-core), 208 Tflops, 22,656 cores, 45.3 TB, 3D-torus SeaStar2 interconnect

その後の展開：

DL_POLY_4の最適化に関する追加のプロジェクトが行われました。nAGの Ian Bush は、①FFTライブラリ"DaFT"へ混合基数FFTを実装し、利用並列コア数の選択幅を広げました。更にnAGの Asimina Maniopoulou,Ian Bush は、②並列リンクセルアルゴリズム実装、SHAKE/RATTLEアルゴリズムのOpenMP並列化、③RESPA法の実装を行い、更にアプリケーションを最適化しました。
また、nAGはSTFC Daresbury研究所のLaurence J. Ellison博士による、④DL_POLY_3への動的負荷バランス手法の実装をサポートしました。

この最後の作業について、Ilian Todorov博士は次のようにコメントしました：

「特定のロードバランサの理解を改め、その可能性や能力を正当に評価するという点で役に立ったプロジェクトでした。しかしながら、労力は限られておりその複雑さから、この開発は実際のCSEの有用性よりもより学術的な価値が求められました。コストがとても高すぎるため、繰り返し資金を調達すること無しには、既に大規模になったコードに対して開発して組み込む作業はとても困難です。このdCSEプロジェクトが剛体力学アルゴリズム開発に対して行った尽力は、広範囲に渡ったテストのための非常に貴重な時間でした。そしてトポロジーオブジェクトの動的な結合や領域分解フレームワークをもつ様々な自由度の処理について学びました。全体として、このプロジェクトで私たちはこうした開発に必要とされた努力をいかに著しく過小評価をしていたかを認識しました。」

詳細は以下のレポートを参照してください：

①チューニングレポート：DL_POLY_4のDaFT(混合基数)FFT
②チューニングレポート：DL_POLY_4のエクサスケール対応
③チューニングレポート：DL_POLY_4のアルゴリズム改善
④サクセスストーリー：HECToR dCSE Teamによる分子動力学コード (DL_POLY_3) の改善
④チューニングレポート：DL_POLY_3への動的負荷バランスと剛体運動力学の実装、（要約）

３．2D領域分割＆FFTインターフェイスライブラリー2DECOMP&FFTの開発と乱流CFDコードIncompact3Dへの適用による並列効率の改善

☆ お客様の声 ☆

本dSCEプロジェクト研究員、英国インペリアル・カレッジ・ロンドンのJohn Christos Vassilicos博士のコメント：

「マルチスケールな物質の本来の特性をよく理解するためには、このような複雑な流体の高忠実度シミュレーションに取り組むことが必要でした。流体構造が複雑なため、これらのシミュレーションは何億ものメッシュ点を必要とし，そのため２年前は数値モデリング実行がほとんど不可能でした。新しいバージョンのコードは研究を迅速化するためありがたいものであり，これにより私たちは実験との正確な比較を行うことができます。」

図3-1：Incompact3Dの強スケーリング性能。左図： 2DECOMP&FFTを組み込んだIncompact3D。右図：P3DFFTを用いたP.K.Yeung[9]によるスペクトルDNSコード(参考値)

Incompact3D は、空気力学分野のターボ機械、空力音響、乱流研究用途として開発され、特にマルチスケール／フラクタル物体により生成される乱流の研究を対象にして、産業用ミキサー，静音空気ブレーキ，新しい空調，燃焼等の分野で用いられます。このコードは、陽解法/半陰解法の時間進行を用いる非圧縮性流体の構造DNS/LESオープンソースコードです。
当初は、1Dスラブ領域分割によるMPI並列FFTバージョンでした。

プロジェクトの目標 は、領域分割手法を1Dスラブ分割から2Dペンシル分割へアップデートして、現代的なスーパーコンピューターであるHECToR上でのスケーラビリティ改善を行うことでした。

チューニング を担当したnAGの Ning Li は、並列3D FFTのための2Dペンシル領域分割ライブラリ「2DECOMP&FFT」を開発し、Incompact3Dへ適用しました。

ベンチマーク マシンにはフェーズ2a(*)を用い、4096x4096x4096メッシュケースを16384コアまで測定しました。
既存のコードは2048*515*512メッシュでは512コアまでしか使用できませんでした（処理時間25日）が、現在このサイズのメッシュは8000コアを効率的に利用して6倍以上速い約 3.75日間の実行時間（処理時間）で実行出来ます。さらに4096*4096*4096メッシュサイズで16384コアまでの計算を可能にし、並列効率80%を達成しました。
ここで開発された2DECOMP&FFTライブラリはオープンソースとして公開（http://www.2decomp.org/）されました。

図3-2：HECToR上のIncompact3Dの弱スケーリング性能

詳細は以下のレポートを参照してください：

サクセスストーリー：HECToR dCSE Team により乱流のシミュレーション(Incompact3D)のパフォーマンスが６倍に改善
チューニングレポート：非圧縮性流体/乱流の直接数値シミュレーション(DNS)コードの性能改善

*)HECToRフェーズ2a：Cray XT4, AMD 2.3 GHz Opteron(quad-core), 208 Tflops, 22,656 cores, 45.3 TB, 3D-torus SeaStar2 interconnect

その後の展開：

nAGの Ning Li は、さらに①通信と計算のオーバーラップを実装して性能をさらに最適化しました。また、②姉妹コードである圧縮性流体を対象としたCompact3Dコードの並列化を実施し、同様に並列効率80%に達しました。

この作業について、John Christos Vassilicos博士は次のようにコメントしました：

「HECToRは最近になってプロセッサ当たりのコア数が32に増えましたが、ここで、プロセッサ内の通信がIncompact3Dによる大規模シミュレーションの制約になっていることを発見しました。dCSEソフトウェアサポートの協力によりコードを改善したところ、Incompact3D内のall-to-all通信に掛かる時間が約15%削減されました。2DECOMP&FFTライブラリーを用いる事により、エンドユーザへの影響を小さくすることが出来ました。我々のコードIncompact3Dは現在、2012年11月からGoogleプロジェクトを通して75ユーザを持つオープンソースとなり、英国内の多くの協力者にオープンなものとなっています。Incompact3Dに関するこれら3つのプロジェクトの成功により、研究努力の中心的な成果である実験結果と結びつけた高度に正確なシミュレーションが可能となりました。」

「Compact3dでは、比較的高いレイノルズ数での3D経時混合層のいくつかのシミュレーションを、現在フランスのポワティエ大学間とインペリアルカレッジ（音響予測のためのPRACEプロジェクト）の共同での枠組みの中で実行しています。現状はCompact3dは単一ノード上で実行されています。しかしながらコードの新しいバージョンは、実験に非常に近い構成を持つ圧縮性流体計算に画期的な進展を可能にします。また、計算領域内部にソリッドボディを置くたいため、Incompact3dと同じようにCompact3dに埋込境界法を組み合わせることを計画しています。目的は、圧縮性流れでグリッドにより生成された乱流を調べることです。」

詳細は以下のレポートを参照してください：

①サクセスストーリー：HECToR dCSE Team により非圧縮性乱流流体ソルバーのパフォーマンスと機能が改善(その２)
①チューニングレポート：CFDアプリケーションにおいて通信と計算のオーバーラップをサポートするフレームワーク
②サクセスストーリー：HECToR dCSE Team により圧縮性乱流流体ソルバーのパフォーマンスと機能が改善
②チューニングレポート：圧縮性流体/乱流の直接数値シミュレーション(DNS)コードの性能改善

４．エアロゾル化学シミュレーションコードTOMCAT/GLOMAP-modeのハイブリッド並列化と最適化

☆ お客様の声 ☆

本dSCEプロジェクト研究員、英国リーズ大学のGraham Mann博士のコメント：

「nAG による最適化によって一般に15-20% 速く実行可能になります。特に我々にとって重要なのは、XT4上の256コアまで効率的なスケーリング性が得られたことです。この改善されたスケーリングは時間ステップ毎の実行時間を大幅に削減できることを意味しています。よってより多くの時間ステップを必要とする科学的シナリオの研究が可能になりました。」
「nAGがOpenMPによる更なる並列レベルをコードへ追加したことにより、ノード当りより多くのコアを用いてXT6(フェーズ2b)スーパーコンピュータを効果的に使用することができます。」

図4-1：32MPIタスク配置でのハイブリッド並列GLOMAPの性能

TOMCAT/GLOMAP は、大気化学、気象学、地球環境学、気候変動等の分野で用いられ、特にエアロゾルプロセス：エアロゾルのグローバルなライフサイクルと気候におけるエアロゾルの影響の研究に用いられています。コードは、TOMCAT：化学輸送プロセス、GLOMAP：核化、凝固、凝縮、雲生成といったプロセスをシミュレートするサイズ分解エアロゾルの微視的物理モジュールで構成された、MPI並列の全球3次元エアロゾル輸送モデルコードです。プロジェクトでは主にGLOMAPを対象に最適化を行いました。

プロジェクトの目標 は、実行時間を短縮してより長期かつ解像度の高いシミュレーションを可能にするために、マルチコアアーキテクチャを効率的に利用するOpenMP/MPIハイブリッド並列化を実装することでした。

チューニング を担当したnAGの Mark Richardson は、キャッシュ効率、MPI通信、I/Oの性能プロファイリングから開始し、コア当たりのメモリーを削減して、OpenMPによるハイブリッド並列化を実施しました。

ベンチマーク にはフェーズ2bを用いました。データには、31の鉛直レベル解像度とT42スペクトル(2.8x2.8緯度/経度)の水平解像度を持つテストケースを用いました。
結果として、32タスクで最大で4倍高速化され、利用ノード内コア数と課金とのバランス最適値を導き出しました。

図4-2：Cray X2でのコンパイラフラグによる実行結果の比較（controlは4PE分割、perturbedは16PE分割）

詳細は以下のレポートを参照してください：

サクセスストーリー：HECToR dCSE Teamによる大気化学シミュレーション(GLOMAP/TOMCAT)のパフォーマンスの改善
チューニングレポート：エアロゾル化学シミュレーションTOMCAT/GLOMAP Mode MPIコードの改善（プロファイリングとシンプルなコードチューニング）
チューニングレポート：エアロゾル化学シミュレーションMPI-TOMCAT/GLOMAPmodeコードのOpenMP並列性能改善

*)HECToRフェーズ2b：Cray XE6, AMD 2.1 GHz Opteron(12-core)×2/node, 360 Tflops, 44,544 cores, 59.4 TB, 3D-torus Gemini interconnect

その後の展開：

この他の関連する最適化レポートは以下をご覧ください。

チューニングレポート：エアロゾル化学シミュレーションTOMCAT/GLOMAP Mode MPIコードの改善

５．CFDコードTransflowとMDコードStreamMDの連成シミュレーションのためのカプラーモジュール開発と高スケーラビリティの実現

☆ お客様の声 ☆

本dSCEプロジェクト研究員、インペリアル・カレッジ・ロンドンのTamer Zaki博士のコメント：

「このサポートのアイデアはユニークで，、HPCを利用する様々な研究に対して本質的なものです。dCSEサポートは，異なる背景を持つ研究者とnAGからの数値計算技術者との連携に絶好の機会を提供し，ソフトウェアの設計と最適化の重要性が詳らかにされ，他の資金では不可能であるかもしれない新しいソフトウェア開発分野が可能でした。」

「特にこのプロジェクトでは，これらの観点から多くの利得を得ることが出来ました。我々の目的は，これまで開発してきた既存の2つのアルゴリズムを連成させて数千コアまでスケールアップさせることでしたが、問題はこれらが全く異なる物理スケールを持つことでした。nAGの開発者と協力して問題を一つに絞ることが出来ました。それは，この開発が特定のアプリケーションがロバストであるだけでなく、HECToRユーザとマルチフィジクス研究者のより幅広いコミュニティに価値がある様に一般性を持たせることでした。ロバストなソフトウェア開発や，自動チェック機能，バージョン管理およびドキュメンテーションなどの観点でも，nAGのソフトウェア技術者との交流は有意義でした。初期フェーズの最後において，nAGから我々のグループへの第2フェーズ成功の保証を確信出来る十分な知識移転が行われました。」

図5-1：連成コードの精度とスケーラビリティ。(a：左図)：クエット流の解析解に対する連成コードの検証。(b：右図)：StreamMDのみの並列高速化(△)、連成コード(○)、理論性能(破線)。

Transflow、StreamMD は、それぞれCFDおよびMDコードです。マルチスケールモデリング、トライボロジー、化学工学での、壁面滑り解析，表面組織と被覆研究，エキゾチックで複雑な液体の構成的モデリング、移動接触線問題の解析等の研究のために用いられます。現状の計算手法は大規模原子集団の運動力学、あるいはマクロな流体の振る舞いのいずれかに独立してフォーカスされています。最小単位では分子動力学（MD)シミュレーションが、閉じた領域内での個々の相互作用に従う個別の原子の運動を追跡します。この手法は液体の輸送やせん断性の決定に成功を収めてきました。他方、直接数値シミュレーション（DNS)は連続体の仮定を採用し、大きな計算領域内の各点における流速に対する非線形偏微分方程式を解きます。ZakiらによるDNSコードTransflowは、乱流における渦モード相互作用のような純粋な流体現象に用いられてきました。現状では、これら方法論を一つのフレームワークへ統合する、特に大規模並列科学計算の観点で幾つかの試みが成されています。

プロジェクトの目標 は、様々な物理現象の効率的な連成シミュレーションの最先端の計算フレームワークを開発、検証、最適化することです。これらCFDとMDコードをスケーラビリティを維持したまま連成させる連成基盤ソフトウェアの開発でした。

チューニング を担当したnAGの Lucian Anton は、データのパッキングと通信のための内部ルーチン、およびCFDやMDアプリケーションからアクセス可能なインターフェイスモジュールの開発を行いました。

ベンチマーク にはフェーズ3マシンを使用し、TransflowにはMPIタスクあたり370,000グリッド、768コア、StreamMDには3,317,760分子のレナード・ジョーンズ系、5000ステップ、1024コアを用い、カノニカルせん断クエット流をテストしました。
結果としてCFD/MDコードと同等のスケーラビリティを達成しました。

詳細は以下のレポートを参照してください：

サクセスストーリー：HECToR dCSE Teamによるスケーラブルな連続体と分子動力学の連成コードの開発
チューニングレポート：マルチスケール流体の分子動力学(MD)と直接数値シミュレーション(DNS)のスケーラブルな連成

*)HECToRフェーズ3：Cray XE6, AMD 2.3 GHz Opteron(16-core)×2/node, 800 Tflops, 90,112 cores, 90 TB, 3D-torus Gemini interconnect

その後の展開：

インペリアルカレッジロンドンのEdward Smith, David Trevelyan, Tamer A. Zaki両博士による連成モジュール開発が実施されました。

詳細は以下のレポートを参照してください：

チューニングレポート：マルチスケール流体の分子動力学(MD)と直接数値シミュレーション(DNS)のスケーラブルな連成：その２、（要約）

６．DFTコードVASPへのk点並列の実装による並列効率の改善

☆ お客様の声 ☆

本dSCEプロジェクト研究員、ユニバーシティ・カレッジ・ロンドンのRicardo Grau-Crespo博士のコメント：

「近年のVASPコードの開発の進展により、従来は失敗していたある種の固体（例えば遷移金属やレアアース化合物）の電子構造の正確な説明が可能となりました。これにより触媒作用や電子工学などの分野で新しい研究の機会が開かれました。残る制約は、特にHECToR上でのジョブの終了時間を短くする必要性を考えると、これらの演算における計算コストにあります。これらの新しい開発を活用するためには、コードの並列化において良いスケーラビリティを達成することは不可欠です。このDCSEの作業はK点並列化を使用することによりHECToR のVASPコードのスケーラビリティを大幅に拡張しました。そして計算材料科学の研究はこの作業のおかげで可能となっています。」

本dSCEプロジェクト研究員、英国バース大学のAaron Walsh博士のコメント：

「K点並列化はより多くのコア数の利用と新しい科学の両方を促進する上で大きな影響力となるでしょう。これはHECToRフェーズ３やその他のHPCシステムの場合でも同じです。」

図6-1：酸化鉛(リサージ、α-PbO)のユニットセルのk点並列性能（全4原子、108k点、144コア性能を基準とした）

VASP は、最も良く知られた密度汎関数法(DFT)パッケージの一つです。VASP 5.2.2は、バンドと平面波係数およびその両方を同時に用いて並列化およびデータ分散を行います。その内の並列FFTと並列対角化間の適切なバランスが必要ですが、残念ながらこれら演算は、特に多くのVASPユーザーが利用する中規模サイズにおいて、分散メモリー並列アーキテクチャーにおけるスケール性は良好とは言えません。VASP以外の多くのコードは、k点上の並列化も用いることが可能です。k点は対象とする系の並進対称性から導かれます。この対称性によりk点上の演算は、全てではありませんが多くの場合独立に計算可能です。このことから自然に並列化が導かれ、k点並列化はスケーラビリティを改善します。

プロジェクトの目標 は、VASP 5.2.2へk点並列化レベルを追加して、中規模シミュレーションの並列効率を改善することでした。

チューニング を担当したnAGの Asimina Maniopoulou は、k点並列を担当するコア分割のためのパラメータKPAR、およびk点内およびk点間の通信コミュニケータを追加して並列化を実装しました。

ベンチマーク はフェーズ2bで行ました。結果として最大12倍まで高速化しました

パラジウム32原子中の水素欠陥（10k点）：320コアで2倍高速化
酸化鉛(リサージ、α-PbO)ユニットセル（全4原子、108k点）：1738コアで7倍
PbOユニットセル（128k点）：1008コアまでスケール
酸化鉛(リサージ、α-PbO)ユニットセル（全4原子、24k点）：3027コアまでスケール
フォノン計算（20k点）：128コアまでスケール

詳細は以下のレポートを参照してください：

サクセスストーリー：HECToR dCSE TeamによるVASP材料化学コードのパフォーマンス最適化
チューニングレポート：VASPへのk点並列の導入

以上の成果は専門雑誌にも掲載されました（A. Maniopoulou, E.R.M. Davidson, R. Grau-Crespo, A. Walsh, I.J. Bush, C.R.A. Catlow and S.M. Woodley. Introducing k-point parallelism into VASP. Computer Physics Communications 183, 1696-1701, 2012）

*)HECToRフェーズ2b：Cray XE6, AMD 2.1 GHz Opteron(12-core)×2/node, 360 Tflops, 44,544 cores, 59.4 TB, 3D-torus Gemini interconnect

その前後の展開：

k点並列の前にはユニバーシティ・カレッジ・ロンドンのRichard Catlow, FRS, Scott Woodley, Nora De Leeuw両博士によるコード最適化が行われました。詳細は以下のレポートを参照してください：

チューニングレポート：Optimising the performance of the VASP 5.2.2 code on HECToR

またエジンバラ大学EPCCのGavin J. Pringle博士によるOpenMP/MPIハイブリッド並列化が行われました。詳細は以下のレポートを参照してください：

サクセスストーリー：HECToR dCSE TeamによるVASP（量子力学シミュレーションパッケージ）のマルチコア・プラットホーム向けの改善
チューニングレポート：Optimisation of VASP Density Functional Theory (DFT)/Hartree-Fock (HF) hybrid functional code using mixed-mode parallelism

nAG HPCサービスのご利用について

プログラムの高速化・並列化サービスのご依頼、チューニングや高速化業務の委託をご希望場合は、まずはコンサルティングサービスのお問い合わせにご記入の上お問い合わせください。またはお電話（03-5542-6311）にてお問い合わせ下さい。

プログラムの高速化・並列化サービス成功事例のご紹介

☆ お客様の声 ☆

☆ お客様の声 ☆

☆ お客様の声 ☆

☆ お客様の声 ☆

☆ お客様の声 ☆