デジタル時代がシステム性能にもたらした影響
市場のニーズが目まぐるしく変化するデジタル時代においては、ビジネス要件はダイナミックに変化し続けます。それに伴い、ITシステムに求められる要件もダイナミックに変化していき、要件を実現するための考え方、手法としてBizDevOps、アジャイル開発といったものが誕生しました。
それらの変化はシステムの性能管理の考え方にも影響を及ぼしており、「決められた要件を性能試験で確認すればOK」といった従来のウォーターフォール型のやりかたでは、サービス開始後の性能問題の発生を防ぐことは難しくなってきています。また、ITとビジネスが直結するデジタル時代においては、性能問題の発生が、そのままビジネスの損失に直結するため(※)、より性能管理に対する重要性は高まってきているといえます。
それでは、デジタル時代において、性能問題のない安定したシステム運用を実現するためにどうすればよいのでしょうか。
本記事ではデジタル時代の性能管理の手法としてNTTデータが行っているAIを用いた取り組みをご紹介いたします。
デジタル時代の性能管理の新たな課題とは
システムにおける性能管理と聞いて、皆さんは何を思い浮かべるでしょうか。
「システム応答速度の日常的な監視」、「監視ツールを用いたリソース状況の監視」でしょうか。そのどちらも必要な要素ですが、性能管理のための手段でしかなくそれだけでは適切にシステムの性能を管理しているとはいえないのです。
重要なのはシステムの性能の状態、リスクを常に把握しつづけることです。
従来のシステムにおいては、定期的にシステムの性能の状況を分析し、その結果から将来の性能リスクを予見、先回りして対策することで、システムの安定運用を実現してきました。
しかしデジタル時代においてはシステムの状況が常に変わり続けるため、短いスパンでの分析の必要性があります。その結果分析難易度の上昇といった新たな課題が発生し、従来のやり方では安定運用の実現が難しくなってきています。
図1:要件の変化による内在リスクの変化
NTTデータが実践するデジタル時代の新たな性能管理
デジタル時代に追従すべく、NTTデータではAIを用いた性能管理を実施しています。ここでは、「AIを用いたキャパシティプランニング」と「AIを用いた性能リスク分析」を紹介します。
(1)AIを用いたキャパシティプランニング
パブリッククラウド上にシステムが構築されることが多いデジタル時代においては、システムリソースが厳密にサイジングされることは少なく、ミニマムな状態でサービスを開始し運用の中で必要に応じて増やしていく、という方法が一般的です。
しかし、要件がダイナミックに変わるデジタル時代においては、リソース増加量のトレンドも常に変化しつづけるため、精緻に予測するのは難しく、予測を見誤り、性能問題に発展するといったリスクが考えられます。
NTTデータでは、このリスクの回避のため、リソースデータの実測値を継続的にAIにDeep Learningさせ、リソース増加量のトレンドを予測するという方法をとっています。
AIを用いることにより、従来の線形予測では対応が難しかった、細かい変化点や周期性等を考慮したトレンド予測が可能となるため、変化に強いキャパシティプランニングが可能となります。
図2:AIを用いたキャパシティプランニング
(2)AIを用いた性能リスク分析
デジタル時代においては、システムに潜在するリスクも常に変化します。
そのため、リスク分析そのものの難易度の上昇はもちろん、変化への追従のために分析頻度を高くするといった必要性が出てきました。
それに対応するために、NTTデータではAIを用いた性能リスク分析という取り組みを進めています。NTTデータが持つ膨大な性能問題のケーススタディをAIにDeep Learningさせ、過去の性能問題の発生パターンと、現在のシステムの状況から性能問題の発生リスク有無を判断させることで、潜在リスクを効率的かつ継続的に把握することが可能となります。
図3:AIを用いた性能リスク分析
おわりに
デジタル時代においては、システムに求められる要件がダイナミックに変化するため、システム開発、運用といったあらゆるものが、従来の考え方では追従できなくなってきています。
今回はその中でも、特にビジネスに直結する、性能について、デジタル時代ならではの新しい性能管理の方法について、NTTデータの取り組みを紹介しました。
今後、皆様のシステム安定運用を実現するための考え方の参考になれば幸いです。