アプリケーション・インテリジェンスによるプロアクティブな検知

アプライドマテリアルズのプロアクティブディテクションでは、APMで監視しているアプリケーションの異常が、アクティビティストリームと異常情報フィードに自動的に表示されます。各異常をクリックすると、自動分析が行われます。

異常時の通知はSlackで配信することもできますし、Webhookを設定して必要な時にメッセージを配信することもできます。これらのイベントは、クエリ、カスタムダッシュボードの作成、アラートの送信に利用できます。Proactive Detectionの構成（関心のあるアプリのグループ）を設定した後、この構成をソースとして追加できます。そうすると、異常はIncident Intelligenceを介して他のデータソースと自動的に関連付けられます。

異常現象の発生場所、異常現象を利用してインシデントになる前に潜在的な問題を把握する方法、異常現象からアラートを作成する方法については、こちらのショートビデオをご覧ください（約4分15秒）。

要件

プロアクティブディテクションを使用するには、以下の条件を満たしている必要があります。

少なくとも1つのアプリケーションにAPMエージェントがインストールされていること。
Slackで通知を受け取るためには、IT管理者に依頼して、SlackのワークスペースにNew Relicのアプリケーションをインストールしてもらう必要があります。

データ制限については、 Data limits を参照してください。

重要な理由

プロアクティブディテクションでは、アプライドマテリアルズがお客様の生産システムの異常を把握し、その異常を自動的に分析します。この機能は自動的に有効になり、追加費用はかかりません。異常が検出されると、Applied Intelligenceの異常フィードで確認できます。また、SlackチャンネルやWebhookに直接通知が送られます。

使用方法

プロアクティブディテクションは、以下の方法でアプリのデータの異常を検出します。

プロアクティブディテクションは、APMエージェントから報告されるメトリックデータを監視し、典型的なアプリケーションダイナミクスのモデルを構築し、主要なゴールデンシグナルであるスループット、レスポンスタイム、エラーに焦点を当てます。
これらのゴールデンシグナルの一つが異常な動作を示した場合、システムはそれにフラグを立て、正常な動作への回復を追跡します。
お客様のデータの変化に適応し、新しいデータに基づいてモデルを継続的に更新していきます。

Automatically on: デフォルトでは、プロアクティブディテクションはすべての APM アプリケーションを監視し、お客様は何もする必要がありません。異常が検出されると、さまざまなアクティビティストリームやアプライドインテリジェンスの異常フィードに自動的に表示され、NRQLによるクエリが可能になります。

Receiving notifications: スループット、エラーレート、または応答時間の異常な変化を検出したときに、通知を送信します。通知は、選択したSlackチャンネルに送信されるか、webhookで送信されます。異常が正常に戻ったときには、回復メッセージが送信されます。通知を受け取りたくない場合でも、 NRQLクエリを通じてデータにアクセスすることができます。

異常の分析： 各異常に対して、Slackで異常の分析ページへのリンクを提供しています。このページでは、異常に対する洞察が自動的に生成されます。このページは、最近の異常を一覧表示する「異常」タブからも利用できます。このページでは、既存のAPMとプロアクティブディテクションのデータを使用して、異常の原因に関する説明を提供します。

アクティビティストリーム: New Relic One ホームページ、APM サマリーページ、Lookout、Explorer などの様々なアクティビティストリームの中には、APM で監視しているアプリケーションからの関連する異常イベントが表示されます。アクティビティストリーム内の異常イベントをクリックすると、その異常の分析ページが表示されます。

アプリケーションは常に異常を発生させるわけではないので、検出されないのが普通の場合もあります。

プロアクティブディテクションのための通知の設定

プロアクティブ検知は、追加費用なしで自動的に有効になります。通知を受信したり、インシデントインテリジェンスのソースとして追加できる構成（アプリのグループ）を作成するには、プロアクティブ検出の構成を作成する必要があります。構成はプロアクティブ検知のUIで作成できます。

From one.newrelic.com , click Alerts& AI.
プロアクティブディテクション の下で、設定をクリックします。
クリック Add a configuration.
以下の情報をフォームに入力してください。
- アカウント内の他の構成と簡単に区別できるように、構成の名前を決めてください。
- アカウントを選択します。
- 最大1,000個のアプリケーションを選択します。なお、スループットが低いアプリケーションは、少量のデータ変動に敏感に反応するため、プロアクティブ検知には適していない場合があります。
オプション：異常を監視したいゴールデンシグナルを選択します。
オプション：インシデント・インテリジェンスへの接続.

プロアクティブディテクションをSlackで使用するには

Select Slack.
通知を受け取るSlackチャンネルを選択します。既存のパブリックチャネルまたはプライベートチャネルを選択できます。これにより、アプライドマテリアルズのSlackアプリケーションを選択したチャンネルに追加するようワークフローが指示されます。
ヒント
Slack チャンネルの割り当て時にエラーが発生した場合は、New Relic AI Slack アプリケーションが Slack ワークスペースに追加されていることを確認してください.
設定を保存します。
各構成のアプリケーションは、構成表で構成を選択することで、いつでも変更することができます。

プロアクティブディテクションをwebhookで使用するには

Webhook を選択します。
以下の情報をフォームに入力してください。
- WebhookのURLを入力してください。
- オプションでカスタムヘッダーを用意
- カスタムペイロードを編集するか、デフォルトのペイロードを使用するかを選択します。
設定を保存します。
各構成のアプリケーションは、構成表で構成を選択することで、いつでも変更することができます。

通知のミュート（Slackのみ）

Slackでは、特定のアプリケーションからの検出音を一時的または恒久的にミュートすることができます。また、チャンネル全体を一時的にミュートにすることもできます。この機能は、インシデントが発生した場合や、チャンネルを中断させたくない場合に便利です。

Slackでミュートにするには、 Mute this app's warnings または Mute all warnings を選択し、期間を選択します。ミュートの期間が終了すると、検出された場合の通知の送信が再開されます。

アプリケーションをミュートすると、そのアプリケーションは設定から永久に削除されます。再び追加するには、 one.newrelic.com 、トップナビで Alerts& AI をクリックし、 Proactive Detection をクリックして、編集する設定を選択します。

プロアクティブ検知の通知をミュートしても、アラートには影響しません。

Proactive Detection Slackメッセージの使用

それぞれの異常メッセージには、問題の詳細を把握し、トラブルシューティングを開始するために使用できるいくつかの重要な情報が含まれています。

アプリケーション名と、New Relic One での詳細情報へのリンクです。
異常が発生しているメトリックと、New Relic Oneでの詳細へのリンクです。
メトリクスの経時変化をグラフ化し、異常の挙動や程度を視覚的に理解することができます。
Analyze ボタンをクリックすると、Applied Intelligenceの分析ページに移動し、異常に固有の重要な属性、上流または下流で見つかった異常、その他の関連するシグナルを特定することができます。

異常が正常に戻った時点で、フィードバックを提供するためのオプションを含む回復通知を送信します。お客様からのフィードバックは、開発チームが検出品質を向上させるための情報となります。スループットの異常に関するフィードバックの場合、より適切なモデルに適合させるために、フィードバックに基づいて毎時間評価が実行されます。私たちがお手伝いした場合は、はいまたは いいえ を選択してください。

異常の概要を見る

Slackやwebhookを介して情報を提供する異常の通知に加えて、 Alerts& AI Overviewページの Anomaliesタブを介して、自分の環境の異常に関する詳細な情報を見ることができます。そのタブには、選択されたアカウントのすべての構成からの最近のすべての異常のリストが表示され、異常を選択して詳細な分析を行うことができます。

異常の可視化設定

異常は、New Relic のさまざまなアクティビティストリームと Applied Intelligence の異常フィードに表示されます。異常の可視性の設定により、表示内容をカスタマイズすることができます (たとえば、アクティビティストリーム上ではスループットの異常を非表示にし、異常フィードには表示するなど)。

これらの設定を確認するには、 Alerts& AI から、 Proactive Detection の下で、 Settings をクリックします。

これらの設定を使用する際の注意点

これらの設定は、ユーザーレベルで適用されます。あなたが行った変更は、あなたの組織内の他のユーザーには影響しません。
これらの設定にかかわらず、異常値は報告され、 NRQL クエリで利用可能です。。

これらのUIセクションの詳細。

AI overview and anomalies tab: AI overview and anomalies tab の設定で、異常値を非表示にします。また、これらのビューに固有のフィルターも使用できますのでご注意ください。
グローバルアクティビティストリーム: グローバルアクティビティストリームセクションを使用して、New Relic One ホームページ、APM Summary、Lookout など、さまざまな New Relic アクティビティストリームに表示する異常をカスタマイズします。
Anomaly types: 特定のタイプの異常を隠すには、ここのチェックボックスを使用します。例えば、 Webスループット と Non-Webスループット 異常のチェックを外すと、これらのタイプの異常は、アクティビティストリームとAI概要および異常タブの両方から非表示になります。(ただし、これらの異常はレポートされ、クエリで利用可能です。)

アノマリーデータの照会

NRQL を使って、 NrAiAnomaly イベントを使って、Proactive Detection のデータをクエリーしたり、チャートにしたりすることができます。たとえば、以下のようになります。

FROM NrAiAnomaly SELECT *.

重要

このデータは以前、 ProactiveDetection イベントに添付されていました。このイベントは2021年4月7日に廃止されます。カスタムチャートで ProactiveDetection を使用している場合は、これらのクエリを NrAiAnomaly を使用するように変換する必要があります。

このイベントに付随する重要な属性は以下の通りです。

属性	説明
`closeTime` timestamp	異常が終了した時刻。例： `1615304100000`.
`configurationType` string	イベントを監視しているコンフィグレーションのタイプです。少なくとも1つの構成がエンティティを監視している場合、これは `configuration` に設定されます。それ以外の場合は、 `automatic` に設定されます。
`entity.accountId` 数字	エンティティが所属するNew RelicアカウントID。
`エンティティ.ドメイン` 番号	エンティティのドメイン（現在は `APM` のみですが、将来の機能により変更される予定です）。
`entity.guid` string	エンティティのGUID。NerdGraph でエンティティを識別し、そのデータを取得するために使用される。 `と同じです entityGuid`.
`entityGuid` string	エンティティのGUID。NerdGraph を通じてエンティティを識別し、そのデータを取得するために使用される。 `entity.guid` と同じです。
`entity.name` string	データが異常であると判断されたエンティティの名前です。 `と同じです entityName`.例： `Laura's coffee service`.
`entityName` string	データが異常であると判断されたエンティティの名前。 `と同一です。 entity.name`.
`entity.type` string	エンティティのタイプ（現在は、 `APPLICATION` のみですが、将来の機能により変更されます）。
`evaluationType` string	これは常に `アノマリー` 。
`イベント` 文字列	異常データの始まり(`open`)なのか終わり(`close`)なのかを示す。
`openTime` timestamp	異常が発生した時間です。例： `1615303740000`.
`signalType` string	分析されたデータの種類。例えば、 `error_rate` または `response_time.non_web`.
`timestamp` timestamp	イベントが書き込まれた時間です。
`タイトル` 文字列	異常現象の説明。例： `エラー率が通常よりはるかに高かった`.

インシデント・インテリジェンスで異常現象をソースとして追加

インシデントインテリジェンスとプロアクティブディテクションの異常を統合することで、コンテキストと相関関係を得ることができます。Incident Intelligenceでのこの操作については、 Configure sources を参照してください。

また、設定の中から Connect to Incident Intelligence を選択することもできます。

Webhookのペイロードと例

プロアクティブディテクションは、HTTPS POSTでイベントボディをJSON形式で送信します。システムは、エンドポイントが成功したHTTPコード（2xx）を返すことを期待しています。Webhookを使用してProactive Detectionを設定する場合は、WebhookのボディフォーマットとJSONスキーマの例を使用してください。

属性	説明
`カテゴリー` enum	分析対象となったデータのカテゴリー。カテゴリーには、ウェブ・スループット、非ウェブ・スループット、ウェブ・トランザクション、非ウェブ・トランザクション、エラー・クラスがあります。
`データ` リスト	検知に至るまでの時系列データです。
`data[].timestamp` number	データポイントのタイムスタンプ（Unix エポックからのミリ秒）。例：1584366819000
`data[].unit` string	データポイントの値を表す単位。データの単位は、 `カウント` 、 `ミリ秒` 、 `error_rate` です。
`data[].value` number	データポイントの値です。例：1.52
`detectionType` enum	分析されたデータの種類。種類には、 `latency` 、 `throughput` 、 `error_rate` があります。
`エンティティ` オブジェクト	異常なデータを報告した企業。
`entity.accountId` 数字	エンティティのアカウントのIDです。
`エンティティ.ドメイン` enum	エンティティのドメインです。例APMです。
`entity.domainId` string	ドメイン内のエンティティを一意に識別するためのID。
`entity.guid` string	すべての製品においてエンティティを一意に識別するために使用されるguidです。
`entity.name` string	エンティティの名前です。例： `ローラのコーヒーサービス`
`entity.link` string	エンティティを表示するためのリンクです。例 `https://rpm.newrelic.com/accounts/YOUR_ACCOUNT_ID/applications/987654321”`
`厳しさ` enum	`通常` 、 `警告` 、 `重大` など、どれだけ異常な変化が発生したかの説明です。
`バージョン` 文字列	提供されるデータを説明するために使用されるバージョン。例：v1
`viewChartImageUrl` string	異常データのチャートを示す画像。
`anomalyzerUrl` string	New Relic One で異常を分析するために開くことができる URL。

Applied Intelligenceは、イベントボディをJSON形式でHTTPS POSTで送信します。システムは、エンドポイントが成功したHTTPコード（2xx）を返すことを期待しています。

テンプレートです。

{
  "version": "{{version}}", 
  "entity": {
    "type": "{{entity.type}}",
    "name": "{{entity.name}}",
    "link": "{{entity.link}}",
    "entityGuid": "{{entity.entityGuid}}",
    "domainId": "{{entity.domainId}}",
    "domain": "{{entity.domain}}",
    "accountId": {{entity.accountId}}
  },
  "detectionType": "{{detectionType}}",
  "category": "{{category}}",
  "data": [{{#each data}}
    {
      "value": {{value}},
      "unit": "{{unit}}",
      "timestamp": {{timestamp}}
    }
    {{#unless @last}},{{/unless}}
  {{/each}}],
  "viewChartImageUrl": "{{viewChartImageUrl}}",  
  "anomalyzerUrl": "{{anomalyzerUrl}}"
}

サンプルペイロード。

{
  "version": "v1",
  "entity": {
    "type": "APPLICATION",
    "name": "My Application",
    "link": "https://rpm.newrelic.com/accounts/ACCOUNT_ID/applications/123",
    "entityGuid": "foo",
    "domainId": "123",
    "domain": "APM",
    "accountId": YOUR_ACCOUNT_ID
  },
  "detectionType": "metric",
  "category": "web throughput",
  "data": [ {
    "value": "100",
    "unit": "count",
    "timestamp": 1637260259819
  }, {
    "value": "99",
    "unit": "count",
    "timestamp": 1637260319819
  }, {
    "value": "0",
    "unit": "count",
    "timestamp": 1637260379819
  } ],
  "viewChartImageUrl": "https://www.example.com/image/8353cf2c-945c-48e8-99de-e903f033a881?height=200&width=400&show_timezone=true",
  "anomalyzerUrl": "https://www.example.com/anomalyzerUrlExample"
}

データ制限

要件に加えて、データ制限があります。

監視対象のAPMアプリケーション：構成ごとに1,000個まで
Slackの設定：1アカウントにつき200個まで
Webhook構成：1アカウントにつき200個まで
通知のない設定：1アカウントにつき200件まで

本書は、お客様のご参考のために原文の英語版を機械翻訳したものです。