Alert Quality Management ユースケース・インプリメンテーション・ガイド

概要

チームは、大量のアラートやビジネスインパクトに合致しないアラートを経験すると、アラート疲れに陥ります。ほとんどのアラートが偽物であると考えるようになると、解決が容易なアラートを他のアラートよりも優先するようになります。また、SLAの目標を達成するために、未解決のインシデントをクローズすることもあります。

その結果、インシデント対応が遅くなり、問題の範囲が拡大し、ビジネスに影響を与える真の問題が発生したときに深刻度が増すことになります。

アラート・クオリティ・マネジメント（AQM）は、迷惑なインシデントの数を減らすことに重点を置き、真のビジネス・インパクトを持つアラートだけに集中することができます。これにより、アラートの疲労を軽減し、お客様とお客様のチームが適切なタイミングで適切な場所に注意を向けることができます。

次のような方は、AQMに向いています。

アラートの数が多すぎます。
長時間開いたままのアラートがある。
あなたのアラートは関係ありません。
モニタリングツールが発見する前に、お客様が問題を発見する。
オブザーバビリティツールの価値がわからない。

望ましい結果

ビジネスインパクトの測定に基づいたアラート戦略は、レスポンスタイムの短縮と重要なイベントに対するプロアクティブな認識をもたらします。アラートのS/N比が改善されると、混乱が緩和され、迅速な特定と問題の切り分けが可能になります。

AQMの全体的な目標は、より少ない、より価値のあるインシデントを確実に発生させることであり、その結果、以下のようになります。

アップタイムと可用性の向上
MTTRの短縮
警報音量の低下
価値のないアラートを簡単に識別できるので、価値のあるものにするか、削除することができます。

このガイドに記載されているAQMプロセスは、これらの目標に向けた進捗状況を測定するために使用する主要なパフォーマンス指標とメトリクスを生成します。メトリクスはリアルタイムで測定され、ダッシュボードで公開され、迷惑なアラートを特定して削減し、インシデント調査へのユーザーの関与を高める継続的な改善プロセスを推進するために使用されます。

AQMは、未知の、あるいは予期せぬ故障モードを検出するために設計された異常検知やAIOpsを包含していません。AQMとML/AIの2つの手法は、相互に連携して機能するものであり、相互に排他的なものではありません。

主要なパフォーマンス指標

AQMプロセスを使って、以下のKPIを収集・測定していただきます。

インシデント量

インシデント数
累積インシデント時間
平均閉店までの時間（MTTC）
5分未満の割合

ユーザーエンゲージメント

MTTI（Mean Time to Investigate）について
調査されたインシデントの割合

これらのKPIは、最もノイズの多いアラートや価値の低いアラートを見つけるのに役立ち、その価値を向上させたり、排除したりすることができます。そして、長期的な指標のトレンドを利用して、経営陣やステークホルダーに実際のビジネスインパクトを示すことができます。各指標の詳細情報は以下の通りです。

インシデント量

インシデント（アラートの有無にかかわらず）は、タスクのキューのように扱うべきです。キューのように、アラートの数はゼロに近い状態で過ごすべきです。それぞれのインシデントは、その状態を解決するためのアクションのトリガーとなるべきです。アラートがアクションにつながらない場合は、アラート条件の価値を疑うべきです。

"インシデントの発生率が一定であったり、特定のインシデントが"常時発生していたりする場合は、その理由を疑ってみてください。ビジネスに影響を与える状態が続いているのか、それとも単に大量のノイズが発生しているのか。アラートボリュームKPIは、これらの疑問に答え、高品質なアラートの健全な状態への進捗を測定するのに役立ちます。

インシデント数とは、一定期間に発生したインシデントの数です。一般的には、現在の週と前の週を比較する必要があります。

目標： 価値の低い／迷惑なインシデントの数を減らす。 ベストプラクティス。

条件設定が実際のビジネスインパクトを検出するためのものであることを確認する。
条件設定が異常な動作を検出していることを確認してください。
インシデントの詳細"Acknowledge" 機能は、意味のある行動可能なアラートの測定に役立つことを伝えます。 Percentage Incident Acknowledge KPI を参照してください。
AQMのKPIをすべてのステークホルダーに報告する。

累積インシデント時間とは、ある期間にすべてのインシデントが累積した分の合計です。一般的には、現在の週と前の週を比較する必要があります。

目標： インシデントの総累積分数を削減する。 ベストプラクティス。

インシデントを手動で閉じないでください。手動で閉じると、インシデントの実際の長さが歪んでしまいます。
受信者の改善アクションにつながらないアラートを排除します。
検知と応答時間の改善における重要性を伝えることで、調査率と平均調査時間のKPIを向上させます。
すべてのステークホルダーにAQM KPIを報告する。

インシデントの継続時間が5分未満であるインシデントの割合。これはインシデントフラッピングの指標となり得る。

目標： 持続時間の短いインシデントの割合を最小限に抑える ベストプラクティス。

想定される動作からの正当な逸脱を検出する条件を確保する。
バーサライニングとサービスレベル管理を参照してください。
ビジネスへの影響や差し迫ったビジネスへの影響に関連する正当な逸脱を検出していることを確認する。

ユーザーエンゲージメント

インシデントの価値は、そのインシデントがどれだけ注目されているかで測るべきです。ここでいう「関与」とは、インシデントが認知されたかどうかで測ります。

個々のアラートが受け取るエンゲージメントの量は、その価値を直接測ることができます。エンゲージメントが多ければ、価値のあるアラートであることを意味し、エンゲージメントが少ない（またはゼロ）場合は、修正または無効にすべき迷惑なアラートであることを意味します。

インシデントを認識した瞬間を測定するのと、解決活動が始まった瞬間に確認するのとでは、大きな違いがあります。New Relic Alerting との統合を使用している場合は、New Relic に送信される"acknowledge" イベントが、外部のインシデント管理ツールにインシデントが送信されたときではなく、解決活動が開始されたときにトリガーされることを確認してください。標準的なインシデント管理プロセスの詳細については、" インシデント管理プロセスを参照してください。5 Steps to Effective Resolution Posted on August 31, 2020 by OnPage Corporation. -- ITIL4を参考に"

確認されたインシデントは、エンゲージメントされ、確認されたプロパティがtrueに設定されたインシデントの割合を示します。通常は、現在の週と前の週を比較する必要があります。

目標： インシデント・エンゲージメントの割合を増やす。

ベストプラクティスです。

インシデントアラートを確認するのが適切なタイミングについて、DevOpsチームを教育する。
アラートの確認をゲーム化することで、利用を促進します。
大量の謝罪会見をしない。

平均調査時間は、インシデントがトリアージされるまでにかかる平均時間を特定します。一般的には、現在の週と前の週を比較する必要があります。

目標： 平均調査時間の短縮 ベストプラクティス。

インシデントレスポンダーのアラートに対する信頼性を高めることに努めます。
貴重なアラートを確実に承認する。
アラートに迅速に対応するよう、対応チームにインセンティブを与える。

前提条件

始める前に、同等の経験がない場合は、 New Relic University (NRU) Overview Course を修了してください。また、以下について基本的に理解していることを確認してください。

NR1 アラートポリシーと条件設定
NR1インシデント通知チャネルのWebhook設定
NR1 NRQL
NR1アラーティングのベスト・プラクティス
NR1 APM& インフラ
異常と通常の動作を判断するためのデータのベースラインの取り方。

現状の確立

他の継続的改善プロセスと同様に、AQMの最初のステップは、KPIの現状を把握することです。そのためには、次のような作業を行います。

インシデントイベントWebhookのインストールと設定
AQMダッシュボードのインストール
初期のAQMオリエンテーションとイネーブルメントの実施
AQMデータの蓄積
2回目のイネーブルメントセッションの実施

インシデントイベントWebhookのインストールと設定

このWebhookは、各インシデントがそのライフサイクル（オープン、アクノレッジ、クローズ）を経るごとに、New Relicイベントを作成します。AQMプロセスが正確で価値のある調査結果を確実に生成するために、このWebhookをすべてのアラートポリシーに通知チャネルとして追加する必要があります。

AQMプロセスでは、違反データではなくインシデントデータが必要です。そのため、違反データのみを提供するデフォルトのNrAiIncidentイベントは使用しません。代わりに、このWebhookを使って必要なインシデントデータをNew Relicに送信します。

Webhookを使用するには、以下のようにします。

プライマリープロダクションアカウントと、AQMプロセスで分析する予定の各アカウントを特定します。
AQMプロセスに参加する各アカウントにインシデント・イベント・ウェブフックをインストールし、nrAQMIncidentイベントをプライマリ本番アカウントに報告するようにウェブフックを構成します。
各アカウントのすべてのアラートポリシーに、通知チャネルとしてWebhookを割り当てます。

この例では、複数のサブアカウントを持つNew Relicアカウントの各アラートポリシーにWebhook通知チャネルを割り当てています。

Webhook、AQMダッシュボード、および詳細なインストール手順は、GitHub上のNew Relic OMAリソースセンターで。

AQMダッシュボードのインストール

AQM ダッシュボードは、AQM プロセスを駆動する主要な資産です。AQMダッシュボードを、以前実行した " Install and configure incident event webhook" のステップで特定したプライマリープロダクションアカウントに、以下のようにしてインストールする必要があります。

ダッシュボード定義のJSONファイルをNew Relic OMAリソースセンターのGitHub repoからダウンロードします。
定義をプライマリプロダクションアカウントにインポートします。

ダッシュボードのインポートの詳細については、New Relic Introduction to dashboards のドキュメントをご覧ください。

初期のAQMオリエンテーションとイネーブルメントの実施

この段階では、インシデントマネジメントチームやその他の利害関係者が、AQMプロセスの目標とその関与の範囲を学びます。

このタスクで最も重要なのは、インシデントアラートを確認することの重要性をチームに教えることです。一般的には、以下のガイドラインに従うように指示してください。

アラートを見て、さらに調査を行うことを決めた場合は、アラートを確認してください。
通常、何もせずにアラートを閉じる場合は、アラートを確認しないでください。
インシデントアラートが常にオンになっている場合、それを閉じたり確認したりしないでください。詳細については、第二回イネーブルメントセッションをご覧ください。

この資料を関係者に伝える際には、第1回セッションのテンプレートとなるプレゼンテーションを利用することができます。

AQMデータの蓄積

全体のプロセスを進めるには、最低でも2週間のデータが必要です。この間、以下の項目を定期的にチェックしてください。

インシデントアラートのイベントデータが蓄積されていることを確認します。
すべてのアラートポリシーにWebhookが添付されていることを確認します。
インシデント・レスポンダーがアラート確認のガイドラインに従っていることを確認する。

2回目のイネーブルメントセッションの実施

このフェーズでは、インシデントマネジメントチームやその他のステークホルダーに、初期のAQMデータや、これから継続的に行う改善プロセスを紹介します。

このプロセスは4つのアクティビティで構成されています。

AQM ダッシュボードと KPI トレンドの確認。ここでは、お客様と関係者がAQM KPIを見て、その週ごとの傾向を確認します。チームは、KPIが改善されていない分野を特定し、改善を促進するための戦略を策定する必要があります。
成果、課題、機会を特定する。ここでは、あなたとステークホルダーが、アラートの品質の現状とビジネスへの影響をマッピングし、改善によりビジネスの成果が上がった分野と、問題がビジネスの成果に影響を与えている分野を特定します。
インシデントポリシーの見直しAQMダッシュボードを使用して、お客様と関係者が最もノイズの多いインシデントポリシーを特定します。特定したら、それらのポリシーを以下のステップ4で詳述するように評価する必要があります。
アラートポリシーの推奨。このステップでは、あなたと関係者が以下の基準で最も騒がしいポリシーを検討します。
- アラートはビジネスに影響を与えるか？
- ポリシーは正しく設定されていますか？
  - リソースの修正点を教えてくれているのでしょうか？
  - そのポリシーは必要か？ビジネスに影響を与えるか？
  - しきい値は適切に設定されているか？
技術的な推奨事項ここでは、あなたと関係者が、以下のような技術的提案を検討します。
- エンジニアリングが検討すべきアプリケーション/システムの問題はありますか？
- 修正しなければならない不十分な政策があるのか？
- インストルメントギャップはありますか？

AQMプロセスのこの部分を整理するために、セカンドセッションのテンプレート・プレゼンテーションを使用することができます。

改善プロセス

これは、蓄積されたAQMデータを定期的にレビューし、必要に応じてアラートポリシーを調整する、継続的改善プロセスの継続的なフェーズです。アラートの量が許容範囲内になるまでは、このステップを週に1回行う必要があります。その後は、実行頻度を減らすことができます。

この段階では、あなたは

KPIを毎週上層部に報告することで、ステークホルダーチームが適切に作業を優先していることを確認し、約束されたビジネス成果に向けた進捗を示すことができます。
毎週のKPIを数ヶ月から数年に渡って記録・保管し、ベースラインを確立し、改善率を示す。

これは継続的な改善プロセスであることを念頭に置き、AQMの目標を達成していることを確認するために、長期間にわたってKPIの収集と評価を続ける必要があります。

価値実現

AQMプロセスが確立されると、信頼性と安定性が変わらない、または向上する一方で、アラートの量が大幅に減少することがわかります。さらに、アラートが明確かつ明確なビジネス・インパクトを持つようになります。AQMのKPIは、これらの改善を定量的に証明します。

AQMの目標への道筋がしっかりと見えてきたら、サービスレベル管理や信頼性エンジニアリングなど、アップタイム、パフォーマンス、および信頼性のバリューストリーム内の他のユースケースへの移行を検討します。また、カスタマー・エクスペリエンスなど、他の観測可能な成熟度のバリュー・ストリームに移行することもできます。

KPI参照

以下に、各KPIの説明と、New RelicプラットフォームからKPIを抽出するNRQLクエリのサンプルを示します。これらのKPIはAQMダッシュボードにも含まれており、New Relic OMAリソースセンターのGitHub repoからダウンロードできます。

インシデント量

インシデント数とは、一定期間に発生したインシデントの数です。一般的には、現在の週と前の週を比較する必要があります。

NRQL。

FROM nrAQMIncident SELECT count(*) AS 'Incident Count' WHERE current_state='open' AND severity='CRITICAL' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

NRQL。

FROM nrAQMIncident SELECT sum(duration)/(1000*60) AS 'Incident Minutes' WHERE current_state='closed' AND severity='CRITICAL' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

測定期間内のインシデントの平均継続時間。

NRQL。

FROM nrAQMIncident SELECT average(duration/(1000*60)) AS 'Incident MTTC (minutes)' WHERE current_state='closed' AND severity='CRITICAL' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

インシデントの継続時間が5分未満であるインシデントの割合。これはインシデントフラッピングの指標となり得る。

NRQL。

FROM nrAQMIncident SELECT percentage(count(*), WHERE duration <= 5 * 60 * 100) AS '% Under 5min' WHERE current_state='closed' AND severity='CRITICAL' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

インシデント・エンゲージメント

NRQL。

FROM nrAQMIncident SELECT filter(count(*), WHERE current_state='acknowledged')/filter(count(*), WHERE current_state='open')*100 AS '% Investigated' WHERE severity='CRITICAL' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

NRQL。

FROM nrAQMIncident SELECT average(duration/(1000*60)) AS 'Incident MTTI (minutes)' WHERE current_state='acknowledged' AND severity='CRITICAL' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

追加リソース

お客様のアカウントに導入する前に、手を動かしてみませんか？ alert quality management labをご覧ください。

本書は、お客様のご参考のために原文の英語版を機械翻訳したものです。

Alert Quality Management ユースケース・インプリメンテーション・ガイド

概要

望ましい結果

主要なパフォーマンス指標

インシデント量

インシデント数 KPI

累積インシデント期間 KPI

MTTC（Mean Time To Close）KPI

5分未満の割合 KPI

ユーザーエンゲージメント

認識された割合 KPI

MTTI（Mean Time to Investigation）KPI

前提条件

現状の確立

インシデントイベントWebhookのインストールと設定

AQMダッシュボードのインストール

初期のAQMオリエンテーションとイネーブルメントの実施

AQMデータの蓄積

2回目のイネーブルメントセッションの実施

改善プロセス

価値実現

KPI参照

インシデント量

インシデント数 KPI

累積インシデント期間 KPI

MTTC（Mean Time To Close）KPI

5分未満の割合 KPI

インシデント・エンゲージメント

認識された割合 KPI

MTTI（Mean Time to Investigation）KPI

追加リソース