ビジュアルテクノロジー : HPC事業本部

お問い合わせ お問い合わせ

Intel® Sandy Bridge Xeon® プロセッサのベンチマーク

はじめに
Intel® SandyBridgeでは、演算幅が従来の128bitから256bitに拡張されました。 256bitの演算幅で計算を行うには Intel® Composerで”-xAVX”オプションをつけてプログラムをリコンパイルする必要があります。 以下に示すベンチマークテスト結果は”-xAVX”オプションをつけてプログラムをリコンパイルして実行した時の値です。 ちなみに、HPLCPU依存型のプログラム特性で、姫野ベンチマークテストメモリバンド幅依存型のプログラム特性です。 ”-xAVX”オプションを使うには6系(CentOS 6.2など)のOS環境が必要です。SandyBridgeは、5系OSでも動作します(弊社ではCentOS5.7で動作確認を行いました)が、”-xAVX”オプションは使えません。 但し、バイナリプログラムは5系(CentOS 5.7など)OS環境で動作します。
  • CentOS 5.7 でバイナリ形式のHPLを実行したときの値 (MPI 16並列)
    N=20000
    • CPU: Xeon E5-2670 (2.6GHz) x 2
    • 性能値:142 GFLOPS
  • CentOS 5.7 でバイナリ形式の姫野ベンチマークテストを実行したときの値 (MPI 16並列)
    SIZE=L
    • CPU: Xeon E5-2670 (2.6 GHz) x 2
    • 性能値: 34946 MFLOPS (35 GFLOPS)
CPU依存型のHPLはまさにCPUの周波数性能そのものに依存するため、性能向上は見られませんでした。 メモリバンド幅依存の姫野ベンチマークテストは、かなりの性能向上を示しています。 お使いの計算プログラムがCPU依存型の場合、6系OS環境下で”-xAVX”オプションでプログラムをリコンパイルすれば性能向上が期待できそうです。 商用ソフトについては提供する ISVベンダーの対応如何によります。 お使いの計算プログラムがメモリバンド幅依存の場合、5系OS環境下でバイナリ形式で実行しても性能向上が期待できそうです。 SandyBridgeでは メモリチャネルが3本から4本に増加した事、DDR3周波数帯域が1333MHzから1600MHzに増加した事が性能向上に寄与しているといえます。 弊社はお客様のプログラムをお預かりしてベンチマークテストを行います。詳しくはお問合せください。
■お問い合わせメールフォーム
HPL
HPLはチューニングが難しいが、ここではN=20000、NB=120での結果を示す。MPIはIntelMPI4.0を使用した。
結果(単位はGFLOPS)
CPU np=1 np=2 np=4 np=8 np=12 np=16
E5472(3.0GHz 4 core) x 2 11.5 22 43 76
X5690(3.47GHz 6core) x 2 13 24 50 95 137
E5 2670 (2.6GHz 8core) x 2 19 38 74 145 210 270
E5 2670 (2.6GHz 8core) x 2
Turbo Boost
24 48 93 173 247 293
E5 2670 (2.6GHz 8core) x 2
Turbo Boost (別環境)
25 50 98 173 252 309
E5 2690 (2.9GHz 8core) x 2
Turbo Boost (別環境)
28 53 100 185 261 321

HPL(N=20000、NB=120)
E5シリーズはAVXオプションでビルドしたバイナリを用いている。 2way 単ノードで270GFLOPSに到達しており、5690と比較し、クロックは30%減だが、 パフォーマンスは50%以上の向上である。 HPLにおいては5472,5690はクロック比相当の違いであることがわかる。
姫野ベンチマーク
姫野ベンチマークはSIZE L Fortran77 MPI版を用いた。
結果(単位はMFLOPS)
CPU np=1 np=2 np=4 np=8 np=12 np=16
E5472(3.0GHz 4 core) x 2 1487 3153 3884 3796
X5690(3.47GHz 6core) x 2 4655 9650 11970 14050 15620
E5 2670 (2.6GHz 8core) x 2 4835 11710 22260 33465 33625 33430
E5 2670 (2.6GHz 8core) x 2
Turbo Boost
5828 13866 25453 34989 34483 33455

姫野ベンチマークテスト(SIZE=L)
E5シリーズは8並列でサチっているものの、2way単ノードでは過去最高値を出している。 (これまでの2way 最高はOpteron 6000系で22000程度)FSB1600、DDR3 4チャンネルなどの効果と見られる。
動作環境
CPU OS Compiler MPI
E5472(3.0GHz 4 core) x 2 CentOS5.4 Intel 11.1.073 Intel MPI 4.0.0.028
X5690(3.47GHz 6core) x 2 CentOS5.4 Intel 11.1.073 Intel MPI 4.0.0.028
E5 2670 (2.6GHz 8core) x 2 ScientificLinux6.1 Intel 12.1.2.273 Intel MPI 4.0.2.003