メインコンテンツまでスキップ
ドラフトのページ

翻訳は機械翻訳により提供されています。 翻訳内容と英語版の間で齟齬、不一致、矛盾がある場合は英語版を優先します。

異常管理

予期しない、または予測できないクラウドのコストと使用状況の不正をタイムリーに検出、特定、アラート、管理し、費用対効果の高いクラウド運用のリスクを軽減します。

異常を検出する

  • 異常な支出を検出するために使用するツールを定義する
  • アラートの作成方法とログ記録方法を特定して文書化する

責任者の特定方法と文書化

  • 適切なチャネルを使用して適切な関係者にタイムリーに警告するメカニズムを設定する

異常検出を有効にする

  • 有効性に必要な情報を定義し、Data Ingestionに送り返す
  • 異常管理に関するポリシーの作成

異常を管理する

  • 報告された異常を分析する
  • 分類、誤検知の管理、調査
  • 異常とその解決策を文書化する

定義

Anomaly Managementは、FinOpsチームが予期しないクラウドコストイベントをタイムリーに検出、特定、明確化、アラート、管理する能力を提供し、ビジネスへの影響を最小限に抑えます。

異常の管理には、予期しない支出を特定するためのツールやレポートの使用、異常アラートの分布、異常な使用状況やコストを調査して解決するための情報が含まれます。

Cloud FinOps のコンテキストでは、異常とは、通常の過去の支出や予想される支出とは異なる(通常は高い)支出レベルです。

異常検出は、データセットの通常の動作から逸脱したデータポイント、イベント、観測値を特定します。検出ツールは、総使用量だけでなく、サブカテゴリ内の使用量も調査する必要があります。効果的な割り当てメタデータは、効果的な異常検出、および検出された異常を最適に評価して解決できるユーザーを決定できるようにするために重要です。

サービスごと、アカウント/プロジェクトごと、コスト割り当てタグなどごとに、この細分化されたコストを提供する異常検出ツールを用意することは、異常な支出の特定の原因を検出できるようにするために重要です。

異常検出と分析の標準的な手順は、異常発生時にFinOpsチームが迅速に対応できるようにするために重要です。機械学習ベースの自動異常検出の使用が一般的です。これらのツールは、通常、クラウドプロバイダーやサードパーティのプラットフォームによって提供されます。

多くのFinOps機能と同様に、異常検出は、現在の使用量と過去の使用状況を比較することによって実行されます。そのため、新規の使用量や支出が急激に増加すると、予期された場合でも異常アラートがトリガーされる可能性があります。新しいトレーニング環境サービスが開始され、これまで大きなコストがかかったことのないアカウントでの使用量が急増しています。このような場合、チームは異常アラートを確認する準備をし、異常アラートが発生したときに効果的に管理および文書化して、他のペルソナによる作業がトリガーされないようにすることが期待されます。

通常、異常の管理と解決には、ある程度の調査と、環境を調整するための変更、または影響を受けるスコープのコストの予想を調整するための変更が含まれます。別の解決策は、単に異常を認識し、それが検出された理由を文書化することかもしれません。

成熟度評価

クロール

  • FinOpsチームと組織全般で異常な支出が発生する可能性があることを理解する
  • レポートを使用して異常な支出を手動で確認する
  • 異常アクティビティが発生してから 1 週間以上経過してからの対応 (請求データの受信後)
  • 予算アラートと異常検出サービスの使用
  • 限定的な詳細な検出(例:アカウント/プロジェクトレベル、タグ付けデータや論理グループを使用しない)により、特定された異常な支出からのインサイトのコンテキストを最小化
  • 中央チームに送信された異常アラート、または確認するために手動アクションが必要
  • 予期しない支出は、中央チームによって手動で調査され、必要に応じて疑わしい所有者にルーティングされて解決されます

ウォーク

  • 何らかの形式の自動検出、レポート、またはツール (通常は、クラウド サービス プロバイダー、サード パーティ、またはカスタム ツールによって提供されます)
  • ほとんどまたはすべての部門やチームでの異常検出ツールの知識と使用
  • コンテキストに関連するしきい値が検出されます (支出変動の割合、単一アイテムの支出額の上限、予測違反アラートなど)。
  • コスト配分メタデータは、セグメントの異常にコンテキストを提供し、分析を容易にします
  • 予期しない支出が責任あるチームに自動的にルーティングされる
  • 異常管理セットに関連付けられ、組織内の主要なチームによって使用されているKPI
  • 結果を文書化し、アラートを生成する異常の結果の詳細をキャプチャする機能

ラン

  • 成熟した異常検出ツールが使用され、組織全体のクラウドコストツールに組み込まれている
  • 異常な支出アラートを検出、解決の提案、または解決するために作成された自動化を、適切な環境で適切な重大度で
  • 適切な規模または緊急度の異常アラートは、イベント管理またはチケット発行システムとプロセスに統合できます
  • サービスコンポーネントに直接リンクされた詳細なコンテキスト関連の異常アラートしきい値
  • アラートのしきい値は、サービスのライフサイクルに合わせて繰り返し更新されます
  • アラートとしきい値は、ペルソナや責任のレベルによって異なる方法で設定されています(たとえば、リーダーシップ、FinOpsチーム、エンジニアリング、財務部門は、アクションや情報の独自のしきい値に基づいて、異常な支出からのアラートを異なる方法で見る場合があります)
  • 各異常アラートの結果と解決策がキャプチャされます
  • 分析の結果、必要に応じて事後分析で完全な根本原因分析が可能
  • 過去の異常の解決方法を分析することで、将来の異常に対するアラートを向上

機能的なアクティビティ

FinOps実践者

FinOpsチームの一員として、私は...

  • コスト監視に適しており、予期しないクラウド支出イベント (コストの異常) を定義、調整、検出、およびアラートできる異常検出ツールの選択に関する要件を確立します。
  • Anomalyの自動化と文書化ツールまたはプロセスの要件を確立し、適切なチケット発行またはプロセス管理システムに統合する
  • 異常検出メカニズムとしきい値を文書化し、すべての利害関係者に伝達します
  • 利害関係者チームと協力して、異常検出のしきい値とレポート/通知の頻度を確立する
  • 異常検出がコスト割り当てメタデータに適切に関連付けられていることを確認し、追加のメタデータが必要な場合に割り当て機能にフィードバックを提供します
  • 異常検出ツールが、適切なリアルタイムの粒度と頻度で生の支出データにアクセスできることを確認します
  • すべての異常な支出やアラートされた異常な支出を明らかにするレポートを生成する

エンジニアリング

エンジニアリングの役割を担う者として、私は...

  • チームが異常な支出アラートをチェックするか、または受信するようにする
  • 私のチームが、クラウドコストの異常に対応し、対処するための正しいプロセスとアクションを認識していることを確認してください
  • 適切なメタデータが制御内のリソースに適用され、異常検出が発生するようにしてください
  • 確立されたしきい値と検出カバレッジの正確性についてFinOpsにフィードバックを提供します
  • 検出された異常の原因と範囲を調査して特定し、誤検知またはアクション計画を文書化します
  • 異常な支出の原因となっている問題を解決し、異常の解決を文書化します
  • 計画されている大規模な予期しない異常な支出について、他のペルソナに積極的に警告し、厄介な異常アラートを作成する可能性が高い(例:新しい環境の立ち上げ)

プロダクト

製品の役割を担う者として、私は...

  • 自分の担当範囲内のシステムで検出および報告された異常を監視および調査する
  • 支援: 報告された異常を調査して解決し、自分の担当地域のエンジニアリング チームと協力して解決策を文書化します

財務

財務の役割を担っている者として、私は...

  • 予算の実際の支出に対する財務レビューをトリガーする異常なパーセンテージのしきい値を設定するのに役立ちます
  • クラウドコストの予測内でコンティンジェンシー資金源を提供し、確立されたしきい値に沿った異常な支出傾向に対応します

リーダーシップ

リーダーシップの役割を担う者として、私は...

  • 行動や注意を引くような異常な割合の閾値を設定する
  • OKR と KPI に関連するガイドラインとサポート ポリシーを提供し、エンジニアリング チームと製品チームによる異常管理活動を義務付けます

成功の尺度とKPI

  • 一定期間 (週、月) 内の異常の数 (集計または使用状況の有意なサブセット)
  • 異常な支出、見逃した支出、誤検知の一貫した特定
  • 一定期間 (週、月) 内の異常アラートに関連付けられたコストの額。全異常検出スコープを表します
  • 一定期間 (週、月) で異常を検出する平均時間。使用したツールの効率と有効性を文書化します
  • 一定期間 (週、月) に異常を所有者に通知する平均時間。異常検出から適切な所有者がそれを確認するまでにかかる時間を文書化します
  • 一定期間(週、月)にわたる未解決の異常の期間。異常解決の速度
  • 特定された異常を調査して対処する時間です。真の異常の調査にかかる時間は、多くの場合、無駄なコストであるリアルタイムです
  • 変動するクラウド支出が異常な支出につながる理由、異常とは何かの定義、説明責任は誰か、対応方法について教育を受けたチームの割合
  • アクションされた異常の数と回避された支出額 (請求期間の最も近いもの)。請求書を受け取るまで未解決だった異常の解決によって節約されたコストの量
  • アクション不能な異常の数と、カテゴリ別に分類されているが無視することが正当化される理由 (つまり、新しいサービス、パフォーマンス テスト、顧客のピーク、誤アラート)
  • 中断された (無視された) アラートの数を追跡して、プロトコルまたはポリシーに準拠していない可能性のあるチームを特定します
  • さまざまなカテゴリの自動化を使用して管理された異常の割合。これは、導入された自動化の有効性を文書化しています

入力と出力

  • データ インジェスト機能によって提供されるクラウドのコストと使用状況のデータ
  • 異常検出ツール(クラウドプロバイダー、ツールベンダー、自社開発ツール)
  • コスト配分メタデータが確立され、組織のレポート作成ニーズに合わせて調整されている
  • 配分戦略は、その監視を担当する特定のチームに使用量を割り当てます
  • 利害関係者チームへの異常な支出通知
  • 関係者は、コストと使用状況のレポートデータをリアルタイムで可視化
  • 異常管理への期待に関連するクラウドポリシーとガバナンス
  • 検出、分析、解決のプロセスとペルソナの期待に関する文書化
  • レポーティング&アナリシスは、異常な支出を調査・分析するために必要となります
  • ワークロードの最適化は、異常な支出の使用量ベースの原因を修復したり、使用されていないリソースをオフにしたりするために必要です