AIOpsとは?システム運用のAI活用事例やユースケース、メリットを解説
システムやネットワークなどの複数のデータソースから集めたビッグデータをAIで分析し、課題を特定したり将来発生する問題の予兆を検知したりする「AIOps」について解説します。MLOpsとの違いやメリット、ユースケース、AIOpsの事例、AIOpsの始め方についてご紹介します。
AIOpsの進め方や事例、製品の概要がわかる資料
AIOpsに関連する主な資料
● AIOpsを支援するCloud Archの概要資料
● AIOpsの2つの推進事例
● オージス総研のAIOps推進事例「進め方と得られた効果を解説」
AIOpsとは?
AIOpsとは?
AIOpsとは、IT運用のタスクに統計解析や機械学習をはじめとするAI(人工知能)技術を適用する取り組みの総称であり、IT運用を自動化するための技術として注目されています。
AIOpsという言葉自体はAIと運用(IT Operations)を組み合わせた造語で、2016年にGartner社が提唱したのが始まりです。Gartner社はAIOpsを「IT運用を支援するAI」と位置付け、AIOpsプラットフォームとは「ビッグデータとAI、または機械学習を統合して、可用性や監視、イベントの相関付けと分析、ITサービスの管理と自動化、といったIT運用のさまざまなタスクを改善または部分的に刷新するようなソフトウェアシステムである」と定義しています。
さらにGartner社は「AIOpsプラットフォームはDX(デジタルトランスフォーメーション)を組織的に推進する上で重要なツールである」と言及しています。
AIOpsの背景
企業の情報システムではクラウドネイティブなテクノロジーの採用が加速しており、ITインフラの中核には複数のクラウドで構成されたアーキテクチャと膨大なデータが占めるようになりつつあります。IT業界ではこれまで複雑さが増した場合、運用チームを増員することで対処してきました。しかし、情報システムが高度化し、取り扱うデータが多様化かつ大容量化し続ける現状では、人手を増やす方法には限界があることは明白です。
例えば、運用チームの業務の1つにITインフラのインシデント対応がありますが、多くの運用チームではすでに業務時間の多くをインシデントの事後対応に費やし、またインシデント発生を最小限にするための活動を絶えず行っています。このまま情報システムの高度化が進めば、1つ1つのインシデントに十分な時間と労力をかけて対処することが困難となり、いずれは顧客の信頼喪失につながります。そこで方針転換し、AIを活用して運用を自動化することでこれらの人手不足に対処しようとする動きがあり、それによってAIOpsが登場するきっかけとなりました。
AIOpsとMLOpsの違い
MLOpsとは機械学習(Machine Learning)とDevOpsから派生した言葉であり、機械学習の予測モデルの開発から運用までを効率化する管理体制のことを言います。優れた予測モデルを開発することを目的に、機械学習チームと開発・運用チームが一体となって予測モデルの開発・運用の体制を構築していく概念です。
AIOpsはAIの利用方法を指していますが、MLOpsはDevOpsと同様に手法や概念を指しているため意味が異なります。また、目的という観点においてもAIOpsはシステム運用の自動化や効率化を目的としているのに対し、MLOpsは優れた予測モデルの開発と運用を目的としています。
AIOpsの進め方や事例、製品の概要がわかる資料
AIOpsに関連する主な資料
● AIOpsを支援するCloud Archの概要資料
● AIOpsの2つの推進事例
● オージス総研のAIOps推進事例「進め方と得られた効果を解説」
AIOpsのユースケース
AIOpsは、実際にどういった場面で活躍し、どのような用途があるのでしょうか。AIOpsが利用される、主な3つのユースケースについてご紹介します。
パフォーマンス分析
ITインフラが生成する大量のイベントデータを収集し、パフォーマンスが正常な値を保っているのか、問題があるとすれば原因がどこにあるのかといった分析を行います。
システムログの監視や分析について既存のツールも存在しますが、分析手法や出力内容が決まっているため、日々変化していくシステムに追随することが難しくなっています。その点AIはシステムログからパターンを発見する学習機能があるので、常に自分たちが求める視点での最新の分析データを得ることができます。
異常検知
意外に感じられるかもしれませんが、システムの異常検知は自動化が難しい範囲です。ハードウェアは各ハードがエラーを報告する機能を持っているので、大部分の自動化が可能です。しかし、ソフトウェアの異常はシステムダウンなどの明らかなものを除き、スローダウン(システムの応答が遅くなる)のような、システムの動きとしては正常でも使っている人間にとっては挙動がおかしいものは、簡単に自動検知することはできません。
その場合はシステムのさまざまなデータから「この部分がこういう値を示しているときは異常」という定義を人間が行う必要があります。AIOpsではさまざまなシステムデータからAIが異常のしきい値となるKPIを学習し、そのKPIと実際の観測データを比較することで異常を判断させます。
根本原因の分析
根本原因の分析はイベントが発生した場合に、なぜ発生したのかを分析する機能です。イベント発生やシステムログの監視からエラーを検知した場合や障害発生時には、そのトラブルがなぜ発生したのかという根本の原因がわからないと対応ができません。AIOpsでは関連する大量のイベント情報を解析し、類似性と重要性に基づいて分類します。発生しても対処しなくてよいイベントは無視することができ、対処が必要な重要イベントは類似性に基づいて処理を検索し、対処方法をレコメンドします。
AIOpsの進め方や事例、製品の概要がわかる資料
AIOpsに関連する主な資料
● AIOpsを支援するCloud Archの概要資料
● AIOpsの2つの推進事例
● オージス総研のAIOps推進事例「進め方と得られた効果を解説」
AIOpsの事例
それでは、実際にAIOpsの事例をご紹介します。
事例1:「セキュリティインシデント早期発見」
1つ目の事例は、AIOpsにより、社内のPC操作ログから情報漏洩のリスクがある操作履歴の調査を効率化した事例です。社員のPC操作ログは膨大な量になりますので、不審な操作をAIOpsで自動検知することができます。これによりセキュリティインシデントの事前防止を効率化できます。
事例2:「サーバーの障害予兆検知」
2つ目の事例は、AIOpsにより、サーバーの障害発生(リソースひっ迫)の予兆検知です。オンプレミスの認証サーバーでは特定のユーザー操作が原因で、コンピュータのリソースが突然ひっ迫することがあります。リソースがひっ迫すると、サービス全体に影響が出て多くのユーザーの業務に支障が出ます。このような事態を防ぐためにAIOpsを活用しています。
事例3:「弊社のセキュリティ運用におけるAIOps活用」
3つ目の事例は、弊社(オージス総研)でのAIOps事例です。弊社では独自で認証システムを運用しており、ログイン画面に対する総当たり攻撃を受けてしまうというセキュリティ上の懸念点がありました。攻撃が確認された場合は即座にメンテナンス画面に切り替える必要があるのですが、経験を積んだ運用担当者で判断していたため、その対応が遅れてしまうという問題もありました。
そこで認証サーバーが出力するログデータをAIOpsでモニタリングし、モニタリングにより得られたデータをグラフ化して、目視でインシデントを発見できるようにしました。
さらに攻撃であると判断するルールを作成するため、ルールベースによる検知の仕組みも取り入れています。
この事例の詳細については、オージス総研のAIOps推進事例「進め方と得られた効果を解説」のPDF資料で詳しい内容をご紹介しています。
AIOpsの進め方や事例、製品の概要がわかる資料
AIOpsに関連する主な資料
● AIOpsを支援するCloud Archの概要資料
● AIOpsの2つの推進事例
● オージス総研のAIOps推進事例「進め方と得られた効果を解説」
AIOpsがもたらすメリット
AIOpsを活用すると、IT運用にどのようなメリットをもたらすのでしょうか?3つのメリットがありますのでその詳細をご紹介します。
1.業務品質の向上
AIを用いてデータを分析し、そのパターンに基づいて判断を下すことが可能となるため、「対処する人間によって品質が異なる」といった属人化の問題が解消され、正確性が向上します。また常に最新のデータを機械的に分析してアウトプットすることによって、処理速度が向上します。
2.問題修復スピードの向上
AIOpsではシステムのさまざまなデータから異常の早期発見や、問題発生時には根本原因をレコメンドすることが可能となるため、問題修復のスピードが向上します。それによって、システム障害が発生した場合、障害がビジネスや顧客に大きな影響を及ぼさないよう、できるだけすばやく問題を修復することができます。
3.運用保守コストの削減
ITインフラの運用保守にAIを適用すれば、人手によるコストや運用コストを削減することができます。例えば、差し迫ったシステム障害を予測し防止、根本原因の特定と問題修復のための対処を自動化することが可能となり、システム障害にかかわる手動での作業が大幅に削減できますし、通信データをリアルタイムに分析し、マルウェアによる通信を特定することができれば、セキュリティインシデントを迅速に対処することが可能となります。
AIOpsの始め方「5つのステップ」
AIOpsの導入をするためには5つのステップが必要となります。初めは確実に導入効果が見込める小規模なAI分析から適用し、徐々にAIのユースケースと収集すべき対象データを増やしていきます。
1. 計画を策定する
優先度の高い現状の運用課題を選定し、AIによる改善施策の検討を行います。この計画策定は非常に重要なステップです。計画策定の良し悪しでプロジェクトの成功可否が決まると言っても過言ではありません。もし、データが存在しない場合はデータを準備するところから検討しましょう。
計画策定の段階でAIOpsの価値を机上で計算し、導入した場合の費用対効果があることを経営陣に説明します。
2. 実証実験(PoC)を行う
机上で計算したAIOpsの価値が実際に得られることを実機にて実証実験(PoC)します。PoCではAI分析のモデルを開発し、処理の正確性(AI分析の精度)や処理速度といった指標をもとに費用対効果を再計算することになります。PoCでAIOpsの価値が確認できたら、本格導入に向けてAIOpsのアーキテクチャ設計を開始します。
3. スモールスタートで始める
AIOpsをスモールスタートで始め、本番環境における実際の導入効果とリスクを確認します。ITインフラを最小構成で構築し、ログデータのモニタリングを開始します。AIOpsは長期的に運用するほど学習データが蓄積され、精度が向上するという特性があるため、まずは小さく始めてみて運用現場で受入れ可能であることを見定めます。
4. 利用拡大する
スモールスタートでAIOpsが業務の負荷軽減に寄与することを確認できたら、収集するログデータを増やしていき、AIOpsの適用範囲を拡大します。システム停止などのリスクが低い範囲からリスクが中程度となる範囲に広げ、その中から優先度の高い課題に取り組みます。
5. 効率化する
AIOpsの導入を進めていくと、1つの業務に関連して複数のAI分析のモデルを運用していくことになるため、いずれAIOps自体の運用負荷が無視できなくなってきます。これはAI分析で取り扱う対象データのパターンがソースごとに異なることに起因しています。例えば、Aシステムのシステム停止を予測するモデルをそのままBシステムに適用することはできず、Bシステム向けに最適化された新たなモデルを配備する必要があります。
AIOpsにおける運用の効率化はMLOpsと呼ばれる技術領域を取り入れることも可能であり、一例としてAIOpsでモニタリングしている対象データのパターンが変化した場合に自動的に再学習することによって品質を一定に保つことが可能となります。
AIOpsの進め方や事例、製品の概要がわかる資料
AIOpsに関連する主な資料
● AIOpsを支援するCloud Archの概要資料
● AIOpsの2つの推進事例
● オージス総研のAIOps推進事例「進め方と得られた効果を解説」
運用自動化ツール「Cloud Arch」で実現できるAIOps
AIOpsがもたらすメリットは、システム運用の現場で求められることの多い要素であり、AIOpsを導入することで、「品質向上」「インシデント早期対応」「コスト削減」が実現できます。そして、Cloud Archでは【AI分析】のほかに【モニタリング】と【自動実行】の機能を持ち合わせており、それらが組み合わさることで、AI機能を最大限に生かすことができます。
Cloud Archでは、複数のAIモデルを保有しており、お客様の環境にあったモデルを選出します。選出後は、AIOpsで自動実行した運用タスクの結果や、それにともなって発生したITインフラの変化もモニタリングし、AIOpsにフィードバックする仕組みとなっています。そのため、長期的に利用すればするほどデータが蓄積され、導入環境にあったAIモデルが作成されます。
AIOps導入へ向けてのオージス総研の支援
AI導入ステップをご覧いただきましたが、とても難しく感じられた方もいるのではないでしょうか。
オージス総研なら、導入に向けたステップの「計画策定」であるアセスメント段階から、運用サポートに至るまでワンストップでサポートさせていただきます。【AI導入に興味があるが、効果があるのかわからない】、【導入による、他部署への影響が気になって一歩を踏み出せない】といった、些細なお悩みからご相談ください。
オージス総研の有資格エンジニアが、お客様の環境や状況を聞き取りし、より効果が見込める導入方法を一緒に検討させていただきます。
AIOpsの進め方や事例、製品の概要がわかる資料
AIOpsに関連する主な資料
● AIOpsを支援するCloud Archの概要資料
● AIOpsの2つの推進事例
● オージス総研のAIOps推進事例「進め方と得られた効果を解説」
2023年5月12日公開
2024年4月23日更新
※この記事に掲載されている内容、および製品仕様、所属情報(会社名・部署名)は公開当時のものです。予告なく変更される場合がありますので、あらかじめご了承ください。
関連サービス
-
運用自動化ソリューション「Cloud Arch」
オンプレミスシステムやプライベート / パブリッククラウドの複数サービスを利用しているシステム環境に対し、シームレスな運用自動化と統合監視の環境をご利用いただくことで複雑化するシステム運用の負担低減を実現します。
-
Cloud Arch『障害アラート自動コール』試行版のご紹介
運用自動化ソリューション Cloud Archの『障害アラート自動コール』試行版を無料でお使いいただけます。
関連記事一覧
- Splunk(スプランク)とは?ログの有効活用により先進的システム運用を実現
- APM(アプリケーション性能管理)とは?
必要性、APMシステムの機能・概要 - AIOpsを始めるために必要なことを解説
- サーバーダウンの原因と対策とは?システム障害を防ぐサーバー運用について解説
- システム・サーバー運用業務の自動化が進まない理由と運用自動化を成功に導くポイント
- 運用自動化プラットフォームKompiraとは?特長と導入メリット、事例について
- サーバー監視とは?目的やツールの選び方、自動化について解説
- 運用自動化の事例紹介-システム運用をラクにする運用自動化を実現するには?
- 運用自動化とは?メリットと進め方-システム運用をラクにする運用自動化の実現方法
- システム運用の業務と課題-システム運用をラクにする運用自動化を実現するには?