インシデント・インテリジェンス を設定すると、当社のシステムがお客様のデータソースから問題の発見を開始します。
issue feed では、すべての課題の概要と、課題に関する有用な情報を見ることができます。また、個々の課題をクリックすると、分析サマリ、イベントログ、関連する課題の詳細など、より詳細な情報を得ることができます。
このスクリーンショットは、課題のステータスや相関関係などが記載された課題フィードの例です。
イシュー、インシデント、イベントの違いは何ですか? 要するに、これらの用語は積み木のようなものです。イベントは、お客様のソースからの生のデータです。インシデントは、1つまたは複数のイベントで構成されます。イシューは、1つまたは複数のインシデントで構成されます。
もっと詳しく言うと
- イベント は、お客様の監視システムで定義された状態変化やトリガーを示します。イベントには、影響を受けたエンティティに関する情報が含まれており、ほとんどの場合、システムによって自動的にトリガされます。
- インシデント は、システムの"症状" を時系列で表すイベントのグループです。これらの症状は、データストリームやイベントを評価する監視ツールによって検出されます。
- 課題 は、お客様の症状の根本的な問題を説明するインシデントのグループです。新しいインシデントが作成されると、インシデント・インテリジェンスは課題を開き、他の開いている課題を評価して相関関係を調べます。
課題概要
課題ページ は、まず問題を理解し、解決に必要な時間を最小限にするためのボトムラインの洞察を提供するように作られています。
課題ページ には以下のセクションがあります。
- 課題概要: このセクションでは、2つの機械学習モジュール、ゴールデンシグナルと関連するコンポーネントがあります。
- Suggested Responsers: このセクションでは、特定の問題を解決するために、チーム内の誰に連絡を取る可能性があるかを伝えます。
- ラベルセット: ラベルセットは、AWS Cloudwatch、REST APIなどのサードパーティのソースから来るインシデントや、NRQLのクエリに焦点を当てています。ラベルセットは、キーと値のペアの形で提供されます。
- 影響を受けたエンティティ: エンティティとは、監視できるデータを持つものを指します。具体的には、New Relic のソースからのインシデントに着目し、エンティティを抽出してサマリーを提供します。各エンティティは固有のものです。エンティティは、リストやマップで確認することができます。
イシューのデータに応じて、これら4つのセクションはイシューごとにまとめて表示されることもあれば、別々に表示されることもあります。
影響を受けたエンティティアプリケーションにマウスオーバーすると、関連するダッシュボード、 異常の概要 、展開イベント、エンティティの概要など、いくつかの行動を促すものが表示されます。
- Relevant dashboards は、お客様のアカウントのユーザーが、エンティティに関連してお客様が作成した ダッシュボード を見たり、それを操作したりするのに役立ちます。様々なウィジェットを動かすために実行したクエリは、可能な限り自動的にエンティティにマッピングされ、迅速なアクセスと発見のためにここに表示されます。
- Anomaly overview 、アプリケーションの異常ページが開きます。これは、Proactive Detectionに設定されているアプリケーションでのみ利用できます。
- デプロイメント イベント には、「デプロイメント」と「関連するデプロイメント」の 2 種類があります。 [Show all deployments] をクリックすると、すべてのデプロイメント イベントが届いたときに表示され、特定のデプロイメントをクリックすると、その APM デプロイメント ページが表示されます。 APM 配置ページ には、最近の配置と、その配置がエンドユーザやアプリサーバの Apdex スコア、応答時間、スループット、エラーに与える影響が一覧表示されます。このセクションは、New Relic が影響を受けるエンティティの下で、デプロイメントを持つアプリケーションを特定した場合にのみ表示されます。
影響を受ける企業の課題マップ
エンティティにマウスオーバーすると、そのエンティティの詳細情報が表示されます。
影響を受ける事業体 のセクションでは、2つ以上の事業体が関係する問題について、課題マップを利用できます。 マップ には、影響を受けるエンティティだけでなく、それらのエンティティに直接関連するサービスやリソースも表示されます。
提案型レスポンダーの使用
New Relic のアラート・バイオレーションをインシデント通知ツールとして使用している場合、インシデント・インテリジェンスは、問題解決に役立つ関連チームのメンバーを提案します。
Incident Intelligenceは、アラート・バイオレーション・データから学習し、新しいインシデントごとに提案を提供します。提案を受け取った後は、対応者に連絡したり、その人が書いたと思われる関連文書を検索したりすることができます。
まず始めに、インシデント・インテリジェンスのソースとしてアラート・バイオレーションを有効にします。その後、課題フィードで提案を見ることができ、提案に対するフィードバックを提供することもできます。
重要
この機能では、事故発生時のオンコールの有無は考慮されません。
根本原因の分析
根本原因分析では、問題とその影響を受けるエンティティの潜在的な原因を自動的に検出します。これにより、未解決の問題が発生した理由、どのデプロイメントが原因となったか、関連するエラーログや属性などが表示されます。これにより、問題を調査し、解決までの平均時間(MTTR)を短縮することができます。
ヒント
なお、根本原因分析は他のNew Relicのデータソースや機能に依存しています。そのため、すべての問題に対して根本原因分析の情報が常に存在するとは限りません。
課題を選択すると、 根本原因分析 の情報が表示されることがあります。
根本原因分析には、主に3つのUIセクションがあります。
- 配置イベント: 配置を設定する際に、問題発生に最も近い配置を提供します。インシデントの根本原因のうち、デプロイメントなどの変更が占める割合は高く、その情報が手元にあれば、問題の診断や解決に役立ちます。
- エラーログ: 何百万ものログメッセージをワンクリックで探索したり、マニュアルクエリを使用して、異常なパターンや見つけにくい問題の発見に役立てることができます。
- 調査する属性: 属性の分布をスキャンし、分布の著しい変化を見つけることで、考えられる原因を表面化します。ここでは、データベースや外部のメトリクスの変化も示します。また、 興味深い属性を照会することができます.
課題のタイムライン
イシューのタイムラインを見ると、以下のような内訳になっています。
- インシデント
- 起こっているトレンド
- どのインシデントがアクティブか
- どのようなインシデントが解決されたか
- 互いに相関しているもの
- 課題レベルに応じた様々なマイルストーン
さらに、タイムラインの上部にグレーのラインが表示されています。各インシデントへの変更を示す視覚的なタイムラインと比較すると、グレーのラインはイシューへの変更を表しています。
グレーのラインにマウスオーバーすると、イベントの詳細が表示されます。
最後に、インシデントにマウスオーバーすると、特定のインシデントの場所、タイミング、重要度などの情報が表示されます。
この図は、1月11日に入力された特定のインシデントを示しており、そのレベルは Critical となっています。
課題をテキスト形式で表示するには、右端の「 Switch to issue log view」をクリックします。
関連アクティビティ
課題ページには、 Related activity セクションがあります。これは、分析しようとしているインシデントまたはアノマリーに関連するアクティビティを表示するテーブルです。表の各行項目をクリックすると、インシデントや異常が発生したエンティティのデータを表示する独自のダッシュボードが表示されます。
関連アクティビティセクションでは、ルールベースのシステムに従って、一連のインシデントを1つの問題に集約します。
使用決定
ノイズをさらに減らしたり、インシデントの相関性を高めたりするために、デシジョンを変更またはカスタマイズすることができます。決定事項は、Incident Intelligenceがインシデントをどのようにグループ化するかを決定します。
はじめに、 Decisions をご覧ください。