NVIDIA、GPUクラスター監視機能の仕組みを説明

NVIDIAは、同社の製品にはいかなるリモートシャットダウン機能も存在しないことを保証した。同社は先頃、グラフィックスプロセッサ(GPU)クラスターの監視および分析のための新たなソフトウェアを開発したと発表していた。このシステムは、企業やクラウドサービスプロバイダーがAIインフラストラクチャの信頼性と運用効率を向上させることを目的としている。

NVIDIA、GPUクラスター監視機能の仕組みを説明
著者:NVIDIA。出典:nvidia.com

この新しいツールは、問題を未然に検出・解決することを可能にする。NVIDIAによれば、この機能はオプションであり、その導入と管理は完全に顧客の責任範囲にある。つまり、インストール、設定、運用は全て顧客自身によって行われる。システムの中核は、オープンソースのクライアントサイド・ソフトウェアエージェントであり、これはテレメトリーデータを収集するが、GPU自体の制御に干渉することはない。

主な機能は以下の通り:

  • 最大性能と指定された電力消費制限のバランスを取るための、ピーク負荷の監視。
  • システム内の全GPUにおける、計算リソース使用率、メモリ帯域幅、相互接続の状態の追跡。
  • 過熱の早期検出による、性能低下(スロットリング)や機器の早期劣化の防止。
  • ソフトウェアとハードウェアの設定整合性の確認による、結果の最新性と動作安定性の確保。
  • エラーや異常の検出による、潜在的な故障コンポーネントの早期診断。

NVIDIAは、全てのデータがリアルタイムで収集され、測定値は分析のために外部のクラウド監視サービスへ送信されると説明する。同社のGPUには、監視用ハードウェア、リモート緊急停止装置、またはバックドアは一切組み込まれていない。クライアントエージェントは公開され、コードの独立した監査が可能となり、その動作の完全な透明性が保証される。