代表的な障害種別と対策
アプリケーション障害
パイプラインサービスとしては正常な動作を行っているが、外部システムのダウンや業務要件の定義として例外とみなされる現象のことです。パイプラインサービスではこのような場合、いくつかのケースではリトライの設定によるリカバリが可能です。管理者あてにメールを送信することこも可能ですので、迅速な通知と対策を行うことが可能です。
サービス(プロセス)のダウン
何らかの理由でPIPELINE-Serviceがダウンした場合の障害です。モニタープロセスが自動的にプロセスを再起動して復旧を行います。この際、システムメールに登録した管理者用メールアドレスあてにメールで通知が行われます。コマンドライン用の監視ツールなどでサービス稼動状況を確認し、期待するすべてのサービスが稼動状態になっていれば復旧は完了しています。その時点で中間状態になっているデータを削除するなどしてクリーンナップし、手動でリトライや再実行などをさせることによりシステムを正常状態に戻せば通常の運用を再開することが可能です。
オペレーティングシステムやハードウェアの不良
パイプラインサービスよりも下層のインフラで問題が発生し、パイプラインサービスが使えなくなる障害です。システムの冗長構成などで発生の可能性を低くすることが可能ですが、アプリケーションがインフラの脆弱な部分を集中的に利用することが原因の場合、待機システムも同じ原因により短期間でダウンする可能性が高いため、冗長構成もあまり役に立たない可能性があります。これを回避するためには事前に十分なエージング(連続稼動)テストを行うことが欠かせません。もし発生した場合、復旧後にシステムリソースの利用状況をモニタリングして原因を明らかにし、システム利用状況の特性に合わせた構成に見直して今後に備えるなどの検討が必要です。
人的ミスによるデータの損傷
業務障害の一種で、何らかの操作を誤ってデータを消すなどした場合の障害です。通常、システムからは障害を検知できないため、エンドユーザーが最初に異常を発見することが一般的です。この場合、手動でデータを修正するか、バックアップからデータを復元するなどの対処が必要です。
地震・火災などの災害
ごくまれなことですが、壊滅的な災害により待機系やバックアップストレージも含めたハードウェア全体が損壊してしまう可能性があります。このような事象に備えるには、遠隔バックアップの運用を検討することが必要になります。