イベントタイプ定義およびコンポーネントの正常性

Server Administrator は、イベントタイプを使用してお使いのシステム内にある特定の重要コンポーネントに影響を与えるイベントを分類します。正常、警告、および重要の 3 つが、コンポーネントの状態として表示される最も典型的なイベントの種類です。

このヘルプモジュールでは、イベントの種類、状態、および重大性の用語を定義します。Server Administrator がイベントを分類し、コンポーネントの正常性を識別するために用いる様々な用語に関しての詳細には、このヘルプモジュールをお読みください。

イベントの種類と対応する重大性

Server Administrator がコンポーネントの正常性を報告している場合もイベントを分類している場合も、区別できるイベントの属性は次のとおりです:監視されているコンポーネントまたは冗長性、種類、状態、およびコンポーネントが処理しているイベントの重大度。

コンポーネントまたは冗長性

Server Administrator はコンポーネントとその冗長性との両方を、種類、重大度そして状況に応じて分類します。

コンポーネント

システムのコンポーネントはすべて何らかの理由で重要です。 Server Administrator のようなシステム管理のアプリケーションは、特に注意が必要なコンポーネントをいくつか特定します。正常なシステムでは、システムコンポーネントの正しい動作のため、適切な電圧の安定した電力供給に特に依存します。電力はシステムの交流電流(AC)スイッチを通してシステムの電源装置へと供給されます。また、システムコンポーネントは、シャーシ内部における機能範囲温度も必要とします。プログラムを実行し、データの計算を行うには、正しく機能するランダムアクセスメモリも欠かせません。このような必要条件の結果として、電源スイッチ、電源装置、ファン、システムメモリは Server Administrator が監視する最も重要なコンポーネントの一部となります。

冗長性

Server Administrator は冗長コンポーネントの正常性を監視し、冗長性の状態をシステムにレポートします。

企業体あるいは企業組織のミッションに対するシステムの重要性によっては、計画的な冗長性を伴ってシステムに取り付けられるシステムコンポーネントもあります。組織のミッションのために重要なシステムには、通常冗長コンポーネントが取り付けられています。冗長コンポーネントは、対象のコンポーネントが故障した時、それを引き継ぐように設計されています。冗長性は、シャットダウンやコンポーネントの損傷によって発生するダウンタイムからシステムを保護するために役立ちます。

完全冗長 全システムの完全冗長とは、すべてのデバイスが正常範囲内で動作していることを意味します。完全冗長のために 4 台の冷却ファンがシステムに必要で、ファン 4 台がすべて正常に動作していれば、システムにはファンのコンポーネントに関する完全冗長があることになります。2 台のプライマリファンのいずれかが故障しても、各ファンにはバックアップがあります。完全冗長には、通常の予防メンテナンス以外の処置は必要ありません。
劣化冗長 劣化冗長とは、完全冗長に必要なコンポーネントの一部が正常に動作していないことを意味します。システムは動作可能ですが、コンポーネントに障害が生じた場合に引継ぎを行うために十分なコンポーネントが動作していません。たとえば、完全冗長のために 4 台のファンが必要な場合、3台のファンが操作可能であるのは、劣化冗長を表します。2 台のプライマリファンのうち、故障時のバックアップがあるのは 1台のみです。
喪失冗長 喪失冗長は、システムにはシステム障害を回避するために最小限のコンポーネントだけが動作していることを意味します。動作している冗長コンポーネントはありません。完全冗長のために 4 台のファンが必要で 2 台のファンのみが動作している場合は、2 台のプライマリファンのいずれにも故障時のバックアップがありません。

種類

イベントは種類で分類されます。イベントの種類の例としては、正常、警告、および重要があります。

正常 正常イベントは、コンポーネントがシステム内でその動作を問題なく行うことができる範囲内で動作していることを意味します。コンポーネントの状態が正常であるときによく適用されるもうひとつの用語は OK です。コンポーネントが OK である、またはイベントが正常である場合、システムオペレータは対応処置を行う必要はありません。
警告 警告イベントは、管理下コンポーネントが最適に動作をしていないが、まだ動作可能であるという場合に発生します。警告イベントは、システムオペレータに事前対応する時間を提供します。警告イベントに対する適切な処置は通常、さらなる調査を行い、コンポーネントのメンテナンスをスケジュールすることです。警告は、コンポーネントが正常に戻るまでより注意を払うように、システムオペレータに警告するものでもあります。パワーユーザーおよび管理者は、警告イベントの最高値と最低値を定義することができます。警告範囲を定義するための特権は、パワーユーザーおよび管理者が、劣化パフォーマンスの兆候を見せ始めた動作可能コンポーネントに対応するために必要な対応時間を構築することを可能にします。
重要 重要なイベントとは、コンポーネントが正常な動作範囲外で動作している、または全く動作していないことを意味します。全く動作していないコンポーネントは、しばしば回復不能とも呼ばれます。コンポーネントに導入されるエンジニアリングとその正しい動作を熟知しているのはシステム製造元であることから、製造元がコンポーネントの重要範囲を定義します。重要は警告と比較して、より緊急を要する事態であることを示唆し、システムオペレータはこのタイプのシステム劣化をより深刻に受け止めます。重要または障害が発生しているコンポーネントに対する適切な処置には、即座にシステムをシャットダウンする、またはコンポーネントを迅速に取替える準備をすることが含まれます。

状況

コンポーネントの状態またはシステム属性には、作動可能、劣化、作動不能があります。

作動可能 作動可能な温度とは、シャーシ内部にある温度プローブの読み取り値が正常な作動範囲内にあることを意味します。
劣化 劣化温度とは、シャーシ内部にある温度プローブが、警告に必要な最小および最大動作温度によって定義される警告範囲にあてはまる温度を読み取っていることを意味します。シャーシ内部の温度は、最低正常温度より低いか、あるいは、最高正常温度を超えることになります。
動作不能 動作不能のコンポーネントまたはコンポーネント属性とは、コンポーネントが障害状態、または回復不能状態の範囲で動作していることを意味します。温度の例に取ると、システムが引き続き動作しているとしても、温度が正常の範囲を大幅に超えているか下回っていて、システムのサーマルシャットダウンを引き起こすか、システムコンポーネントを損傷または破損する可能性があります。

重要度

コンポーネントのためのイベントの各種類および状態は、その重要度に基づいてランク付けされています。イベントの重要度には情報、マイナー、メジャー、重要が含まれます。

情報 正常イベント、またはコンポーネント状態が動作可能状態にあることを意味し、正常イベントに関連づけられている重要度は情報です。正常イベントに対して Server Administrator が行う処置は情報の提供のみです。Server Administrator はシステムオペレータにコンポーネントが正常であることを通知します。
マイナー 警告イベントは、コンポーネントに応じてマイナーまたは重要のいずれかになり得ます。たとえば、ファン冗長システムでファンを除去した場合、そのイベントの重要度はマイナーです。
メジャー 警告イベントの中には、システムに対する深刻なリスクを示すものもあります。ファンが長期間に渡ってシステムから取り外された状態にあると、冗長性が損なわれる事になるので、メジャーイベントになります。システム組織内で冗長性を必要とする役割を持つシステムコンポーネントのシステムからの長期欠落は、バックアップなしではコンポーネント障害の原因となる可能性があり、最終的にシステム障害に繋がる場合があります。
重要 障害範囲内にあるコンポーネントを検知するイベントは重要です。ファン、AC 電源コード、あるいはメモリモジュールなどのコンポーネントの障害は、システムが作動し、データを保護する機能を危険にさらします。

イベントの種類、重大度そして状態の関連性

以下の表は重要コンポーネントに対するイベント例を提供し、イベントの種類、重大度そして状況がどう関連しているかを示します。

コンポーネント イベントまたは警告の種類 重要度 状況
AC 電源コード 正常情報 動作可能
AC 電源コード エラー 重要 劣化
電源装置 エラー 重要 劣化
冗長性(電源システムに対し) 正常 情報 動作可能
冗長性(電源システムに対し) 劣化 マイナー 劣化
冗長性(電源システムに対し) 喪失 メジャー 劣化
温度 正常 情報 動作可能
温度 警告 マイナー 劣化
温度 エラー 重要 劣化
サーマル シャットダウン 重要 動作不能