関連するソリューション
業務改革
AI
マネージドサービス(運用・保守)
エバンジェリスト・フェロー
玉越 元啓
IT環境の変化の速さを表す象徴的な出来事の例を挙げると、経済産業省の情報処理実態調査は、経年変化を追うことが困難になってきた等の理由で2020年2月に廃止されています。
こうしたビジネス環境の変化に合わせて、システムの運用業務を見直す活動であるNoOpsが注目されています。
NoOpsについて簡単に振り返りながら、公開されている事例から、運用の自動化のヒントを得ていきたいと思います。AIの活用や運用の仮想化といった取り組みもみられるようになりました。
NoOps(No Operations)
NoOpsの実態
NoOpsとは、「人間によるシステム運用作業の最小化」を目指す継続的な活動のことを指します。NoOpsという言葉が初めて使われたのは、2009年と言われています。確認できた最も古い記載は、2011年に出されたForrester Research社のレポート『Augment DevOps With NoOps』の中に「NoOps」という言葉が登場しています。このレポートでは、NoOpsは「インフラの自動化に着目して手動操作を極力減らす」ことだと説明しています。
ここでは、NoOps Japanコミュニティの定義がわかりやすく、紹介させていただきます。
「NoOpsはNo Uncomfortable Ops(システム運用の嬉しくないことをなくす)を目指すための技術、アーキテクチャ、それを実現するための活動を指します。」
出典:noopsjapanコミュニティ
NoOpsの時代はこない?
「NoOpsの時代はこない」などの主張が一部見られます。が、本当でしょうか?「人の介入を減らしていく取り組み=運用の改善活動」がNoOpsでした。システムの運用について効率化に向けた継続的な活動は誰もが行ってきているはずです。
極端な話をすると、システムの運用が始まってから、ずっとNoOpsの時代だといえます。NoOpsを運用がなくなることだと誤解されているケースがあるようです。
NoOpsは「No Uncomfortable Ops」―システム運用のうれしくないことをなくそう、という意味です。決してシステムの運用自体がなくなるわけではなく、人がやらざるを得なかった作業が、自動化やAIなどの技術の進化によって代替できるように今、あらためてシステム運用のありかたを見直すよい機会だと考えています。
NoOpsのポイント
現在注目されているNoOpsのアプローチの代表として、コンテナを活用した高回復性設計、DevOpsの活用、モニタリングと構成設定の自動化、SREによるToil削減活動、などがあります。
出典:noopsjapanコミュニティ
SREとは“Site Reliability Engineering”の略称で、Googleが提唱したシステム運用の方法論で、ITこれまで手作業で行われていた運用管理作業を自動化ないしは効率化するものです。
Toil(トイル)とは、「骨折る、骨折って働く」という意味で、SREにおいては、『プロダクションサービスを動作させることに関係する作業で、手作業で繰り返し行われ、自動化することが可能であり、戦術的で長期的な価値を持たず、作業量がサービスの成長に比例するといった傾向を持つものです。』と定義されています。
手作業、同じ作業の繰り返し、長期的な価値のない作業(ex.エラーログを見てシステムに影響がないを確認して無視する)などを削減していくべきと考えられており、こうした作業が運用の中で占める割合を50%以下にしようと提唱しています。
AIOps
AIOpsとは、Artificial Intelligence for IT Operations の略で、Gartner社による造語で、システム運用に人工知能を活用することです。自然言語処理や機械学習モデルなどの人工知能を応用して、運用ワークフローを自律化・自動化を目論むものです。
故障を事前に検知して予防する、大量のログから傾向分析を行いレポートを作成する、など新たな運用の形が提案されています。例えば、AWSで実装できるAIOps機能として、Amazon DevOps Guru(異常な操作の検出)・Amazon Lookout for Metrics(システム全体のモニタリングと異常検知)等を紹介しています。
NoOps/AIOpsの事例
「ユーザーをサポートする AI コラボレーター「Duet AI」を Google Cloud 全体で拡張」
「Duet AI」とは、Googleの様々なサービス上で利用することができるAIアシスタント機能です。Cloud Monitoringでは、自然言語プロンプトを PromQLクエリに変換して、一定の期間に使用されたCPU使用量などの時系列指標を分析できます。
Duet AIは、ログ エクスプローラの複雑なログエントリを直感的にわかるように説明でき、根本原因分析の簡素化に有効であるほか、Error Reportingで明らかになった問題の修正方法を提案することもできます。
①エラーログを選択
②「Explain this log entry」をクリックします。すると・・
③ログの内容の解説が表示されます。質問を追加して、解決方法を回答させることもできます
NHKテクノロジーズ
運用職場での遠隔/AI監視・業務サポート技術
こちらは、NHKテクノロジーズ/インフォメーション・ディベロプメント/DXコンサルティングの3社が共同で開発したものです。
複数のシステム運用画面の映像に異常がないかを監視するシステムとなっています。AIがエラーを検知すると、その内容にもとづき登録されている障害対応事例から、適切と思われるものをランキング形式で提示するものです。障害発生時の初動対応に必要な一連のオペレーションの表示を自動化した仕組みとなっております。
私は本プロジェクトのPMを担当したのですが、優秀なメンバーに助けてもらい、今でも感謝しています。
※システムのイメージ
画像出典:https://www.idnet.co.jp/news/348
ID VROP
インフォメーション・ディベロプメントとIDアメリカ、 バーチャルオペレーションセンターのパイロット版をローンチ。 リアルとバーチャルの融合によりシステム運用の新たな価値を創造。
https://www.idnet-hd.co.jp/news/4121
人の移動によるリスクを軽減する試みとして、オペレーションセンターの仮想化があります。
緊急時や災害時におけるシステム運用業務そのものの継続性の担保する技術として物理的にデータセンターに移動しないと業務遂行できないという従来の運用を大きく変える取り組みとして今着目されています。
NoOps/AIOpsの導入について、どのように進めるべきか悩んでいるなどありましたら、弊社にお気軽にご相談ください。
お問い合わせ>
当サイトの内容、テキスト、画像等の転載・転記・使用する場合は問い合わせよりご連絡下さい。
エバンジェリストによるコラムやIDグループからのお知らせなどを
メルマガでお届けしています。