- 目次
1.システム運用現場に求められていることは「継続的な改善」
一般的なシステム運用現場では、トラブルを発生させない安定運用に向けて、日々、様々な業務を実施する必要があります。監視や定期的な運用報告・監査対応等の定期作業に加えて、トラブルが発生した場合の原因解析/バグ改修、それに伴う変更/リリース作業、等の急に割り込まれる不定期作業も多々あり、恒常的に忙しくなりがちです。
忙しさを低減する対策として自動化が考えられます。手順化できる作業は、自動化することで運用者の作業量を低減できます。そのため、自動化は運用現場が実施すべき重要な取り組みの1つになっています。
運用現場でさらに重要なことは、継続的な改善を実施することです。運用は開発よりも期間が長いため、1回限りの改善ではなく、少しずつでも段階的に改善していかなければなりません。そのためには、運用者が常に問題意識を持ち、前向きな改善提案を継続的に実施できるようにする必要があります。
しかし、多くの運用現場では、目の前の業務に追われ、実施できたとしても自動化までで、継続的な改善まで到達できていません。継続的な改善を実施するには、現状分析と課題抽出を実施する必要があり、現状分析には時間がかかるためと考えられます。
2.課題解決(継続的な改善)に向けたアジャイル分析の取り組み
同様の課題はNTTデータの社内クラウド(統合開発クラウド)(※1)においても存在していました。そこで、運用レポートの作成を自動化/システム化する中で分析に活用すべきデータを一元化し、さらにそのデータを活用した分析を簡易な設定変更によりトライ・アンド・エラーを繰り返しながらアジャイル分析することで、継続的な改善が実現できると考えました。
(ア)従来の運用
通常の運用現場では、運用者がExcel等で週次/月次等の運用レポートを手動で作成しています。その結果を利用して、さらに手動でExcel等を駆使して現状分析を実施しています。このような運用では手作業が大量に発生するため、運用者の作業時間が膨大に発生しますし、結果をすぐに確認することもできません。また、手動対応は人依存/属人的になることが多く、運用レポート/分析内容の変更や見直しの可否は担当者の作業時間が確保できるかに左右されてしまい、結果として継続的な改善活動ができません。
(イ)新しい運用
まずは週次/月次等の運用レポートの作成を自動化/システム化します。これにより、運用レポートの作成時間短縮/作業量低減の実現とともに、現状分析のデータが一元化できます。さらに、システム化された運用状況の可視化データを簡易にプログラミング無しで分析できる仕組みを導入することで、運用者が設定変更を繰り返しながらアジャイル分析が可能となります。
これにより、運用のノウハウが蓄積されている運用者が自ら分析内容を考え、分析内容も随時、アジャイル的に変更しながら結果を確認し、改善活動を実施することができるようになります。
図1:継続的な改善に向けた取り組み
3.課題解決に向けた取り組みの実現方法
課題解決に向けた取り組みを「自動化の促進」と「継続的な改善」の2段階に分けて考えました。ServiceNow社が提供するクラウドプラットフォーム「ServiceNow(※2)」を活用し、社内クラウド(統合開発クラウド)運用で実践しました。
(1)第一段階:自動化の促進
運用者が手動で作成していた運用レポートで必要となるデータを一元管理し、それを使用して運用レポートの作成を自動化します。ServiceNowではグラフのテンプレートが多数、提供されており、グラフ作成の自動化を効率的に実現できます。
(2)第二段階:継続的な改善(日々の運用の中でのアジャイル的な変更)
運用レポートで作成したグラフや、そこから派生したグラフ、ドリルダウンしたグラフ、等を、運用者が自ら考え、自ら設定等も含めてその場ですぐに実施できるようにします。ServiceNowはグラフのカスタマイズも簡単なため、技術スキルのない運用者でも対応が可能となります。
また、分析した結果で、ある状況になったら改善を開始しよう、と考えるケースもあります。その場合には、自動通知の閾値をグラフ上で簡易に設定可能です。
4.課題解決に向けた取り組みの効果
「3.」で記載した(1)~(2)の各対応で、以下の効果が得られました。
(1)自動化による作業量低減/迅速性/漏れ防止
自動化によってExcel等での手作業が無くなり、運用者の作業量が軽減しました。また、いつでも確認したいタイミングで最新の運用レポートが即時に確認できるようになりました。さらに、運用レポート内容を変更する際も、短時間で設定変更可能になったため、変更依頼が発生した直後(状況次第では運用報告の打合せ中)に対応でき、変更対応の漏れ防止にもつながりました。
(2)柔軟性/即時性の高いアジャイル分析の実現、運用者のモチベーション向上
従来は「打合せ時に追加の確認事項を宿題として受け取り、後日、報告」という進め方だったのが、その場で軽微な設定変更を実施してすぐに追加報告が可能となりました。期待する結果でなければその場で再度、議論することも可能となりました。これにより、現状分析の即時性もあがり、臨機応変に柔軟な対応をとれるようになりました。
また、運用者も議論に参加しやすくなり、改善意識も高めることができました。次回には同様のことも改善報告しようというモチベーション向上にもつながり、事前に運用者が気になる内容を深堀確認することで運用者の考えも含めた追加報告もでき、成功体験できる機会も増えました。
ServiceNowを用いたアジャイル分析による改善例
ジョブ実行における問題有無の解析において、まず自動化することでエラー件数の推移やジョブ毎のエラー件数の比較が簡易に/すぐに確認可能となりました(第一段階)。ただし、具体的な改善を実行するためには、発生件数の多いエラーを特定する必要があります(追加分析例1)。また、エラー件数の少ないジョブでも、失敗率の高いもの(実行回数が少なかったためにエラー件数が少なかったもの)は改善が必要なものもあります(追加分析例2)。これらを簡易なGUI操作でドリルダウン分析し、改善を実行に移すことができました(第二段階)。これらを進めていく中で、運用者から「エラーに対する改善対応の実施要否を費用対効果で判断するためにエラー対処時間も記録して追加分析に役立てたほうがいい」というような提案も出てくるようになり、改善意識が向上していることも確認できました。
図2:軽微な設定変更での追加報告例
5.最後に
NTTデータではシステム運用現場において自動化促進による働き方変革を目指しています。その事例の1つとして、社内クラウドの運用レポート自動化/アジャイル分析をServiceNowを用いて実現し、運用者が自ら考え/気づき、改善活動を推進している取り組みについて紹介しました。今後も、「運用者の自立的な継続的な改善」とその結果を受けた「システム価値向上/安定運用」の両輪でこの取り組みを加速していきます。