|
・総合窓口:
TEL . 03-6823-6789 ・サポート窓口: TEL . 03-5823-7422 |
クラスタ動作時の温度監視機能の活用について
クラスタシステムでは高速な演算が安定して行えることは不可欠なことですが、より信頼性のあるクラスタシステムの運用のためにはハードウエアの温度監視も極めて重要です。ここでは、クラスタシステムに温度監視機能を付加し、プロセッサ、メモリ、ハードディスクドライブ等の各部位の温度をクラスタの動作中に直接観測することによって、クラスタシステムの安定運用に加え、より信頼性の高いシステムとして活用するための温度測定機能について紹介します。
ここでモデルケースとしてとりあげたクラスタは、Dish Server Mini筐体に収納した以下のようなシステムです。
テスト環境
クラスタ動作時の温度監視
温度計測には16chデータロガーとK型熱電対を用いて、より正確で安定な温度計測を可能としています。各ノードの温度計測点はそれぞれ、プロセッサのヒートシンク、メモリカード、ハードディスクドライブであり、あわせた筐体の吸気と排気の温度も計測しました。
ここで、Fig.1に例としてLinpack(HPL)を実行した場合のクラスタの温度変化を示しました。この図では、ノード2つ分の温度と筐体の吸排気温度を連続して温度監視している状態の一部を取り出してプロットしたものですが、横軸のおおよそ5000秒のあたりに縦の赤線で示したのが、Linpack(HPL)ベンチマーク開始の時間です。
Linpack(HPL)ベンチマークではプロセッサはほぼ100%フル稼働しますので、計算開始後ただちに各部の温度は上昇しますが、プロセッサ冷却ファンの自動コントロール機能によりプロセッサの冷却が強化され、プロセッサの温度上昇はわずかなものに止められます。また、Lipackの計算開始後約20分で定常状態となりそれ以上温度が上昇することはありません。プロセッサの温度がノードによって異なっていますが、これはプロセッサの個体差により避け得ないものです。ただし、計算実行時にはどちらも同程度の安全範囲内の温度に収まっています。
Fig.1のデータは温度監視用のデータロガーから取り出したデータを整理したものですが、これらの温度監視機能はリアルタイムで監視することができます。
データロガーにはネットワークインターフェースとhttpおよびftpサーバ機能を備えておりますので、ネットワークを経由しての遠隔監視だけでなく、データロガーからのデータのダウンロードやリモートでのデータロガーの機能コントロールも可能となっています。 次に、いくつかの例を紹介します。Fig.2はFig.1と同じ状態をリアルタイムで監視している画面です。この機能はPCに特別なソフトウェアをインストールする必要は無く、通常のブラウザとJava実行環境が利用できるPCであれば機種やOSの種別によらず利用できます。また、このブラウザインターフェースからのデータロガーの機能コントロール(計測の開始や停止などの機能)も可能です。Fig.3にはリアルタイムで温度計測結果を「数字」の表形式で表示させたものです、この機能もブラウザ上から利用することができますので、お手元のPCから簡単にクラスタの状況を監視することができます。
ここで紹介した温度監視機能は、実際に各部の温度を物理的に計測するものですので、クラスタの機種やOSにまったく関係なく利用することができます。同様に、監視端末側はブラウザを使用しますので、ネットワーク的にデータロガーに接続できるPCであれば機種やOSを問わずご利用になれます。
|
||||||||||||||||||
|
|||||||||||||||||||