このページの本文へ移動

特集記事 待望の最新CPUの登場でさらなる進化を遂げた「PCクラスタ」 ―その性能を最大化するCPU/メモリ構成の解を探る―

設計・製造、金融商品開発、デジタルコンテンツ制作、創薬開発、生物情報科学(バイオインフォマティクス)、材料開発、気象予測……高度な解析・シミュレーションを駆使して市場競争力の源泉たる研究・開発業務に変革をもたらすHPC(High Performance Computing)。このHPCをPCサーバで実現するPCクラスタシステムには、業種を問わず多くの企業が大きな期待を寄せています。そこで今回は、PCクラスタシステムをさらに進化させる中核技術として、最新CPU「インテル® Xeon® E5-2600v2 製品ファミリー」にフォーカスして、前世代のCPUからの改善・強化点を概観します。その後、企業のHPC環境での実効性能を大きく左右するCPU/メモリ構成の最適な選び方について解説します。

技術紹介
入力フォーム 「インテル® Xeon® E5-2600v2 製品ファミリー HPC アプリケーション実行性能 測定結果」

(今なら簡単なアンケートにご回答いただくだけでダウンロードが可能です!)

より低コストに、より広範な分野に
技術の進化に伴い可能性が広がるPCクラスタシステム

ビジネスの競争が激化する中、競争優位性を確立する源泉として、あらゆる業種・規模の企業が研究・開発業務の強化に取り組んでいます。そうした中で、PCサーバをプラットフォームとすることで、柔軟かつコストパフォーマンスにすぐれたHPCを実現するPCクラスタシステムへの注目度が増しています。

近年のPCサーバの性能向上により、高度な解析・シミュレーションを実行するためのHPC環境をより入手しやすくなったことが、この分野の進展をいっそう加速させています。CAE/EDAといった製造業の設計・製造支援をはじめ、金融リスク分析/商品開発、3Dレンダリング、新薬開発、ナノテク、生物情報科学(バイオインフォマティクス)、市場予測、防災・地球環境問題解決に至るまで、今日、PCクラスタシステムの適用分野はさらなる広がりを見せています。

PCクラスタの性能を大幅に引き上げる
最新CPU「インテル® Xeon® E5-2600v2 製品ファミリー」

そして今、PCクラスタシステムにおける最大のトピックと言えるのが、最新のインテル® Xeon® E5-2600v2 製品ファミリーを搭載した製品の登場です。
インテル社の開発コードで「Ivy Bridge」と呼ばれるXeon® E5-2600v2 製品ファミリーは、同じく「Sandy Bridge」と呼ばれた前世代のXeon® E5-2600 製品ファミリーからさらなる強化が施された、メインストリーム向けプロセッサーです。

最新CPUでは、前世代CPUで実装されたインテル® AVX拡張命令セット(サイクルあたり演算数を8回に強化)や、1レーンあたりの物理帯域8Gbpsを実現するI/O シリアルインターフェース規格PCI Express 3.0のサポートを引き継いだうえで、最大コア数が8から12へ引き上げられています。さらに、メインメモリについては、データ転送速度14.9GB/sを実現するDDR3-1866メモリモジュールを新たにサポートするなど、さまざまな技術・手法から処理性能の強化が図られています。

一方、今日のICT機器では必須となる省電力性能についても、最新CPUでは非常にすぐれた電力効率を実現しています。電力性能比を表す指標であるW/FLOPS(1FLOPSあたりのワット数)も、前世代のCPUから45%もの改善が図られています(注1)。

このように、最新のインテル® Xeon® E5-2600v2 製品ファミリーは、CPUの演算処理性能、メモリアクセス性能、電力効率のいずれの面においても顕著な進化を遂げています。下の図は、企業の一般的な製品ライフサイクルを踏まえて、今回発表されたインテル® Xeon® E5-2697v2と、5年前にリリースされたXeon® X5470とを比較したもので、最新CPUでの進化ぶりが一目瞭然となっています。

【Xeon® E5-2600v2 製品ファミリーのXeon® E5-2600 製品ファミリーからの改善点/5年前のCPUとの比較】

(注1) 最新のインテル® Xeon® E5-2600v2 製品ファミリー(Xeon® E5-2697v2)と、一世代前のインテル® Xeon® E5-2600 製品ファミリー(Xeon® E5-2690)を比較した値

技術紹介
入力フォーム 「インテル® Xeon® E5-2600v2 製品ファミリー HPC アプリケーション実行性能 測定結果」

(今なら簡単なアンケートにご回答いただくだけでダウンロードが可能です!)

PCクラスタにおける
CPU選定の基本的な考え方とポイント

富士通は2013年9月、PCサーバ「FUJITSU Server PRIMERGY」のラインナップに、最新のインテル® Xeon® E5-2600v2 製品ファミリーの各CPUを搭載するモデルを加えました。Xeon® E5-2600v2 製品ファミリーでは、4~12コアの幅広いラインナップが用意されています。豊富な選択肢が揃う中で、ユーザーはどのようにして自社の環境に最適な構成を選べばよいのでしょうか。

HPC分野のアプリケーションを高速に実行処理させるためには、実は、単に予算の許すかぎり高性能なCPUを選ぶのではなく、アプリケーションの特性に応じて、最も適したCPU構成(コア数/クロック周波数/メモリ帯域幅)を見極めて選ぶことが重要になります。それというのも、CPUやメインメモリに対する解析アプリケーションの要求は複雑かつ高度であるため、実際には、クロック周波数のより高いCPUに換えても思ったほど処理速度が上がらなかったり、より多くのコア数を持つCPUに換えても、十分にスケールしなかったりすることが多々あるからです。

そのため、CPUの仕様やスペックからは見えてこない、メモリ帯域幅、キャッシュ利用効率、I/O、インターコネクトなどのボトルネックを特定し、利用するアプリケーションの処理性能をより引き出す最適なCPU構成を考えることが必要になります。

ボトルネックになりやすいメモリ帯域幅が
CPU/メモリ構成の重要な観点に

以下では、近年に大幅な改善・強化が図られたCPUおよびメモリの性能に着目し、利用するアプリケーションの特性に合った、最適な構成のモデルを選定するための主な観点を挙げて説明します。

解析アプリケーション実行の性能を大きく左右するメモリアクセス性能

PCクラスタシステムで利用する解析アプリケーションの多くは、非常に短いループで計算を繰り返し、そのたびにデータにアクセスを行うという特性を持っています。そのため、アプリケーションの実行にかかる処理時間や性能は、CPUのメモリアクセス性能に大きく影響されます。

Xeon® E5-2600v2 製品ファミリーでは、新たにサポートされたDDR3-1866メモリモジュールを2CPU時8チャネル搭載することで、理論値で119GB/sもの高速なメモリアクセス性能が確保され、一世代前のCPUから置き換えた場合でも、約20%弱の性能向上が得られる計算になります。

しかし、解析アプリケーションの中でも、ハイエンド向けの流体解析アプリケーションのような高度かつ大規模な解析・シミュレーションを実行する場合は、たとえメモリ帯域幅を潤沢に確保していても、メモリアクセス性能不足に陥るケースが存在します。

例えば、下のグラフは、ある流体解析アプリケーションの実行時メモリ帯域幅を一世代前のXeon® E5-2690で測定した結果ですが、搭載CPUの計算利用コア数12コアにした時点ですでにメモリ帯域幅がピーク近くに達してしまっています。実際に、このアプリケーションでは、計算処理に最大数の16コアを割り当てても、実行時間短縮の効果がほとんど得られていないことが判明しています。

したがって、このケースでのボトルネックはメモリ帯域幅であり、あえてコア数を抑えて、クロック周波数の高いCPUを選ぶことでよりよい性能が得られます。Xeon® E5-2600v2 製品ファミリーでもアプリケーションにより同様の傾向が生じることが想定されますので、その場合にはXeon® E5-2667v2(3.30GHz/8コア/TDP130W)等を選択するとよいでしょう。

【メモリアクセス負荷に合わせたCPU選択】

キャッシュメモリごとのレイテンシーの違いに着目する

メモリアクセス負荷に加えて、キャッシュメモリごとのレイテンシー(遅延)の違いも、CPU選択時の重要な観点となります。CPUには近い側から順に、レベル1(L1)キャッシュ、L2キャッシュ、L3キャッシュが設けられており、Xeon® E5-2697の場合、それぞれ256KiB(キビバイト)(注2)、256KiB、30MiB(メビバイト)(注3)のキャッシュ容量を持っています。下のグラフにあるように、データがL3キャッシュの閾値も超える辺りからレイテンシーが急激に伸長してしまいますので、データをキャッシュメモリ内にとどめてレイテンシーを極力抑えられるか否かが性能向上のカギとなります。

【キャッシュごとのレイテンシーの違い】

(注2)1KiB(キビバイト)= 210B (バイト)= 1,024B

(注3)1MiB(メビバイト)= 220B (バイト)= 1,048,576B

キャッシュサイズの最適値を見極める

解析アプリケーションの中には、ループ計算に利用するメモリのサイズを指定できる実行オプションを備えたものがあります。ループに計算に使用するメモリがキャッシュメモリの中で確保できる場合、計算中は実メモリへのアクセスが行われないため実行時間の短縮につながります。

上の図は、ある計算化学アプリケーションを一世代前のXeon® E5-2690で動作させた際の検証の結果を示しています。なお、Xeon® E5-2690のLLC(ラスト・レベル・キャッシュ。従来のL3キャッシュに相当)は20MiBで、1コアあたり2.5MiBの容量を持っています。検証では、8コアのXeon® E5-2690を2個搭載したPCサーバ上で、使用するデータがすべてキャッシュメモリに格納される場合、これはデフォルトのキャッシュサイズでの動作時と比較して、最大で1.7倍の性能向上が得られました。

なお、最新CPUでは、12コアのハイエンドCPUはXeon® E5-2690と同様、1コアあたりのLLC容量は2.5MiBですが、8~4コアのミッドレンジ/エントリーCPUでは、1コアあたりのLLC容量が3.13MiB~4.17MiBとなっています。そのため、キャッシュのレイテンシーが性能を左右するアプリケーションでは、コアあたりのLLCが大きいCPUを選択することで性能の改善が期待できることになります。

技術紹介
入力フォーム 「インテル® Xeon® E5-2600v2 製品ファミリー HPC アプリケーション実行性能 測定結果」

(今なら簡単なアンケートにご回答いただくだけでダウンロードが可能です!)

最適なCPU/メモリ構成を選ぶための
各環境での性能評価・検証結果と性能検証センター

ここまで紹介・説明してきたように、最新CPUの特性、メモリアクセス性能に着目して使用するアプリケーションの特性に応じて、最適なCPUを選ぶことで、導入コストを抑えつつ性能向上を図ることが可能になります。富士通では、コストパフォーマンスにすぐれたPCクラスタシステムを提供していくにあたって、HPC環境でよく利用されるアプリケーションを中心とした実機による性能検証を実施し、得られた情報やノウハウを公開しています。

また、富士通では、2010年7月に富士通トラステッド・クラウド・スクエア(東京・浜松町)内に、PCクラスタ性能検証センターを開設しています。同センターでは、HPC分野のソフトウェアベンダー/ハードウェアベンダー各社と連携して、最新のPCクラスタシステム環境で性能評価・検証を行っています。本稿でご紹介してきた最新CPUを搭載する最新サーバも発表当日に配備されており、性能情報を随時公開していくことが予定されています。

富士通では、本稿でフォーカスした最新のXeon® E5-2600v2 製品ファミリーを搭載したPCサーバ PRIMERGYを中心に、InfiniBandやGPGPU(General-Purpose Computing on Graphics Processing Units)、インテル® Xeon Phi™ コプロセッサーといった先進ハードウェア・ソリューションも含めて、HPC分野におけるお客様の多様なニーズにこたえる、幅広いハードウェアラインナップを提供しています。お客様がご利用されるアプリケーションや環境に合わせた最適な構成や運用に向けてのご相談など、お客様の研究開発・解析業務について、大規模SMP型演算サーバやHPC専用スーパーコンピュータなどの設計・開発・運用において培われた、HPC分野全般での高い技術力や豊富なノウハウを基に、トータルでサポートいたします。

 【研究・開発業務に変革をもたらし、企業の成長を支える富士通のPCクラスタシステム】

セキュアで高信頼なシステム基盤を実現するPCサーバFUJITSU Server PRIMREGY

本内容の関連情報はこちら

技術紹介
入力フォーム 「インテル® Xeon® E5-2600v2 製品ファミリー HPC アプリケーション実行性能 測定結果」

(今なら簡単なアンケートにご回答いただくだけでダウンロードが可能です!)

製品紹介 FUJITSU Server PRIMERGY PCクラスタ

FUJITSU Server PRIMERGYに関する資料請求・お見積もり・ご相談

Webでのお問い合わせ

入力フォーム

当社はセキュリティ保護の観点からSSL技術を使用しております。

お電話でのお問い合わせ

0120-933-200 富士通コンタクトライン(総合窓口)

受付時間 9時~17時30分
(土曜・日曜・祝日・当社指定の休業日を除く)