DUICUO

Tencent Cloud Metisインテリジェント運用保守学習プラットフォームが正式にオープンソース化

テンセントクラウドは10月20日、インテリジェント運用保守学習プラットフォーム「Metis」を正式にオープンソース化しました。MetisはAIOps(アルゴリズムIT運用)分野における初のオープンソース製品であり、インテリジェント運用保守のためのアプリケーションプラクティスの集積に焦点を当てています。テンセントの既存の運用保守データに基づき、分類、クラスタリング、回帰、次元削減といった機械学習アルゴリズムと運用保守シナリオを組み合わせ、一連の機械学習アルゴリズムに基づく分析と意思決定を行うことで、より高度な自動化運用保守の実現を目指しています。

主な機能

  • 異常検出: HTTP プロトコル経由で時系列分析を実行するためのレートと数量の検出用の API インターフェイスを提供します。

  • 特徴抽出: 90 以上の特徴次元を持つ 3 種類の特徴 (統計特徴、フィッティング特徴、分類特徴) の抽出機能を提供し、カスタム特徴の追加をサポートします。

  • 異常クエリ: API によって検出された時系列データ (異常のみ) はデータベースに保存され、ページ区切りのクエリ、取得、ズームなどの管理機能が提供されます。

  • ラベル付けとマーキング: ラベル付けとマーキングの機能、サンプルを陽性または陰性としてマーク/マーク解除する機能、およびマークされたサンプルをサンプル データベースに追加する機能を提供します。

  • サンプル管理: 検索、視覚化、編集、削除、インポートなどのサンプル管理機能を提供します。

  • モデル管理: モデル管理機能を提供し、カスタム モデルのトレーニングをサポートします。

アプリケーションシナリオ

  • 品質保証:機械学習技術を活用した異常検知、障害箇所特定、ボトルネック分析により、人間の介入なしに安定したビジネスオペレーションをインテリジェントに確保できます。例えば、閾値フリーのインテリジェントモニタリング、重要なパフォーマンス指標のDLP(デジタル認識レベル)モニタリング、多次元根本原因分析などが挙げられます。

  • 効率向上:自然言語処理と機械学習技術を基盤としたインテリジェントな質問応答、インテリジェントな変更管理、インテリジェントな意思決定により、運用効率を大幅に向上させることができます。例えば、Metisのインテリジェント相談ロボット、世論モニタリング、インテリジェントなクラスター負荷分散、データベースパラメータ調整、容量予測などが挙げられます。

  • コスト管理:ビッグデータインテリジェント分析に基づき、リソース(機器、帯域幅、ストレージ)管理を実施します。これにより、リソース使用状況の詳細な分析を迅速に行い、ビッグデータの水平比較(ハードドライブのライフサイクル予測など)による最適化ポイントの特定が可能になります。Metisが新たにオープンソース化した閾値フリーのインテリジェント監視ソフトウェアは、教師なし学習と教師あり学習の観点から、時系列データのインテリジェント検出問題に対処します。

プロジェクトの特徴

  • インテリジェント検出:運用担当者は監視しきい値を設定する必要がなくなりました。モデルがインテリジェントに異常を判断し、検出結果が正常か異常かを直感的に示します。通常、しきい値監視には、極値、前年比、前月比の設定が含まれます。この検出ソリューションは初期段階ではうまく機能しますが、ビジネスが成長して規模が大きくなるにつれて、適切なしきい値範囲を維持するために多大な人手が必要になり、大規模なビジネス開発では採算が取れなくなります。インテリジェント検出ソリューションは、統計的意思決定、教師なし学習、教師あり学習を共同で使用して、時系列データを検出します。統計的意思決定と教師なしアルゴリズムを使用して第1レベルの判断を行い、疑わしい異常を出力します。次に、教師ありモデル判断を実行して最終的な検出結果を取得します。このプロセスにより、しきい値ベースの方法に関連する問題が排除されます。

  • 一般モデル:インテリジェント検出モデルは、Tencent Weave Cloudの膨大な多様なビジネスサンプルを用いて学習されているため、インターネット業界における時系列検出への再利用に適しています。教師あり検出の性能は、ラベル付けされたサンプルの精度と多様性に依存します。サンプルライブラリ管理機能は、多数の陽性サンプルと陰性サンプルを蓄積し、テストセットとトレーニングセットに分割しています。一般モデルは、この膨大なサンプルデータを用いて学習され、幅広いサンプル分類を網羅しています。これにより、ユーザーは学習データ不足による問題を回避でき、一般モデルを直接読み込んで検出を行うことができます。

  • ルール学習:実際には、よりパーソナライズされたビジネスシナリオに遭遇する可能性があります。ユーザーによって異常の判断基準は異なります。そのため、アノテーションフィードバック機能をサポートしています。ユーザーはアノテーション情報に基づいて学習し、新しい検出モデルを生成して、新しいビジネスルールを習得することができます。

テンセントは、Metisがテンセントのオープンソース哲学を堅持し、オープンラーニングプラットフォームを構築し、時系列指標予測、インテリジェントホスト異常分析、インテリジェントMySQL異常分析、ハードディスクライフサイクル予測などのインテリジェント運用保守学習ツールを順次オープンソース化すると述べました。これにより、インテリジェント運用保守分野の多数のユーザーの構築経験と実践を集約し、AI学習ツールの品質、効率、コストを充実・向上させ、完全な運用保守シナリオを構築し、将来的にはZabbix、Nagios、Open-Falconなど、監視分野の他のオープンソース製品との互換性も確保します。