WO2021002298A1

WO2021002298A1 - 故障影響推定装置、故障影響推定方法、及びプログラム

Info

Publication number: WO2021002298A1
Application number: PCT/JP2020/025331
Authority: WO
Inventors: 松尾　洋一; 丈浩川田; 西松　研; 達明木村
Original assignee: 日本電信電話株式会社
Priority date: 2019-07-01
Filing date: 2020-06-26
Publication date: 2021-01-07
Also published as: JP7298343B2; JP2021010105A; US11736343B2; US20220417078A1

Abstract

故障影響推定装置において、異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力部と、前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定部と、前記推定部により推定された前記故障影響量を出力する出力部とを備える。

Description

故障影響推定装置、故障影響推定方法、及びプログラム

　本発明は、通信システム運用におけるオペレータの業務内容を分析する技術に関わり、特に通信システム内で発生した故障等の異常による通信システムへの影響の把握に関連する技術である。

　通信事業者にとって、通信システム内に発生する異常に対して、異常の状態の把握や迅速な対応は重要である。こうした中で、通信システム内の異常を早期に検知するための研究（非特許文献１）や、原因箇所・要因の推定を行う研究（非特許文献２）が行われている。

　しかし、これらの技術では、異常の対処のために必要な情報のみがわかり、異常時にネットワーク内にどの程度影響が発生しているのか（サービスを利用するユーザに影響が有るか否か等）、発生しているとすればそれがどの程度か、復旧にかかる時間がどの程度か（復旧対処時間）、ネットワークの状態の変化（ユーザにおけるＲＴＴやスループットの値）等の情報はわからない。これらのように、通信システム内で発生した機器の異常により生じるユーザに対する影響を故障影響と呼び、故障影響の量を故障影響量と呼ぶことにする。

　一方、これら情報は、Ｓｅｒｖｉｃｅ　Ｌｅｖｅｌ　Ａｇｒｅｅｍｅｎｔ（ＳＬＡ）等の観点でサービスを利用しているユーザに報告する必要があるとともに、故障影響の度合いにより対処の優先度を決めることもできる（例えば、故障影響がない場合は日中に復旧を行い、夜勤の常駐勤務者の数を減らすといったこと）ため、稼働の平準化によるＯＰＥＸ削減等を行うためにもオペレータが把握する必要がある情報である。

　通信システムにおいて故障影響を推定することに関連する研究は、いくつかなされている。例えば、非特許文献３、非特許文献４では、Ｗｅｂサービス系において対象サービスとそれらを構成するサブサービス、サブサービスとその機能を実行するリソース（スイッチやサーバ等）の依存関係を定義し、模擬ユーザ端末を用いてサービスを外部から計測することでサービス状態とあるサブサービスやリソースが異常状態になった際の影響の大きさを推定している。非特許文献５は、モバイル通信において、ある基地局に異常が発生した際、基地局の範囲内に何台の端末があるかを予測し、影響がある端末数を推定する技術を開示している。

池田，石橋，中野，渡辺，川原，"オートエンコーダを用いた異常検知におけるスパース最適化を用いた要因推定手法，" 信学技報, vol. 117, no. 89, IN2017-18, pp. 61-66, 2017年6月. Yoichi Matsuo ; Yuusuke Nakano ; Akio Watanabe ; Keishiro Watanabe ; Keisuke Ishibashi, Ryoichi Kawahara, Root-Cause Diagnosis for Rare Failures Using Bayesian Network with Dynamic Modification, ICC 2018, 2018 A. Hanemann ; D. Schmitz ; M. Sailer, A framework for failure impact analysis and recovery with respect to service level agreements, SCC05, 2005 Shuying Wang ; Miriam A.M. Capretz, A Dependency Impact Analysis Model for Web Services Evolution, International Conference on Web Services, 2009 Sen Yang；Yan He；Zihui Ge；Dongmei Wang, Jun XuPredictive Impact Analysis for Designing a Resilient Cellular Backhaul Network, SIGMETRICS, Vol.1, No.30, 2017

　非特許文献１，２等の従来の異常検知等により異常発生は検知できる。しかし、異常が起こったとしても必ずしもサービスを利用するユーザへの影響が出るとは限らない。また異常の種類毎にトラヒック量の変化量は異なるため、従来手法では故障影響はわからない。また同じ異常でもＮＷの利用状況（例えば日中時間帯と夜間時間帯では利用状況が大きく異なる）や、発生箇所によっても、影響度合いは大きく異なるが、それらは考慮できない。

　従来の故障影響分析は、主に異常時にどの機器や機能に影響がでるかを分析するものであり、どのくらいのユーザに影響が出ているか、どのくらい継続して影響がでるか、等はわからない。更に、非特許文献３、非特許文献４では、機器／機能間の依存関係を事前に定義する必要があるが、これらの構築には専門知識を持ったオペレータのノウハウと多大な時間がかかり、効率的に故障影響を推定することができない。

　本発明は上記の点に鑑みてなされたものであり、通信システム内で発生した異常によるユーザへの影響を効率的に推定することを可能とする技術を提供することを目的とする。

　開示の技術によれば、異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力部と、
　前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定部と、
　前記推定部により推定された前記故障影響量を出力する出力部と
　を備える故障影響推定装置が提供される

　開示の技術によれば、通信システム内で発生した異常によるユーザへの影響を効率的に推定することを可能とする技術が提供される。

本発明の実施の形態における故障影響推定装置の構成図である。装置のハードウェア構成の例を示す図である。推定対象のネットワーク構成例を示す図である。学習時の処理を示すフローチャートである。推定時の処理を示すフローチャートである。

　以下、図面を参照して本発明の実施の形態を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

　本実施の形態では、通信システム内で発生した機器（例えば、ルータ又はサーバ）の異常に対して、トラヒック量の変化量（トラヒック変化量と呼んでもよい）と故障影響時間を予測し、そのトラヒック変化量（具体的には減少幅）から故障影響量を推定する。

　本実施の形態において、故障影響量には、影響ユーザ数、ＲＴＴ、スループット、故障影響時間（故障によりユーザに影響が生じている時間の長さ）等がある。以下では、まず、故障影響量として影響ユーザ数、故障影響時間を推定する場合を説明する。

　（装置構成例）
　図１に、故障影響量の推定を行う故障影響推定装置１００の機能構成を示す。図１に示すように、故障影響推定装置１００は、過去トラヒック・ログ蓄積ＤＢ（データベース）１１０、過去トラヒック変化量・影響ユーザ数蓄積ＤＢ１２０、故障影響時間・トラヒック変化量推定部１３０、影響ユーザ数推定部１４０、ユーザインタフェース１５０、学習部１６０、前処理部１７０、入力部１８０を備える。

　ユーザインタフェース１５０を出力部と呼んでもよい。また、故障影響時間・トラヒック変化量推定部１３０と影響ユーザ数推定部１４０をまとめて推定部と呼んでもよい。また、故障影響時間・トラヒック変化量推定部１３０を第１推定部と呼び、影響ユーザ数推定部１４０を第２推定部と呼んでもよい。また、故障影響推定装置１００を故障影響推定システムと呼んでもよい。

　図１に示されるように、利用者端末２００はネットワークにより故障影響推定装置１００に接続される。利用者端末２００は、ユーザインタフェース１５０を介して故障影響推定装置１００を利用する。

　過去トラヒック・ログ蓄積ＤＢ１１０は、過去のログｘと過去のトラヒック量Ｘを蓄積する。過去トラヒック変化量・影響ユーザ数蓄積ＤＢ１２０は、過去の故障影響時間、過去の故障影響時間におけるトラヒック変化量、過去の故障影響時間における影響ユーザ数を蓄積する。過去トラヒック・ログ蓄積ＤＢ１１０と過去トラヒック変化量・影響ユーザ数蓄積ＤＢ１２０には、実際に観測された値が蓄積されている。

　故障影響時間・トラヒック変化量推定部１３０は、故障影響時間とトラヒック量の変化量を推定するモデルである。本実施の形態では、当該モデルとして回帰手法によるモデルを使用しており、故障影響時間・トラヒック変化量推定部１３０は、後述するモデル１に相当する。なお、本実施の形態におけるいずれのモデルも機械学習の手法で学習されるが、どのような機械学習の手法を用いてもよい。本実施の形態では例として回帰手法を用いている。

　影響ユーザ数推定部１４０は、トラヒック変化量とログから影響ユーザ数を推定するモデルである。本実施の形態では、当該モデルとして回帰手法によるモデルを使用しており、影響ユーザ数推定部１４０は、後述するモデル２に相当する。

　学習部１６０は、推定部（図１の例では故障影響時間・トラヒック変化量推定部１３０と影響ユーザ数推定部１４０）の学習を行う。

　前処理部１７０はログのテンプレート化を実行する。入力部１８０は、故障発生時（異常発生時）に通信システムから得られたトラヒック量とログを入力する。

　図１に示す故障影響推定装置１００の動作概要を次に説明する。学習部１６０は、過去トラヒック・ログ蓄積ＤＢ１１０に蓄積された過去のログｘと過去のトラヒック量Ｘを用いて、ｄｅｅｐｓｅｎｓｅ等の時系列回帰手法により故障影響時間・トラヒック変化量推定部１３０（モデル１）を学習させる。学習により、モデル１のパラメータが最適化される。

　続いて、過去トラヒック変化量・影響ユーザ数蓄積ＤＢ１２０に蓄積された過去のトラヒック変化量と過去の影響ユーザ数をもとに、サポートベクター回帰等の一般的な回帰手法を用いて影響ユーザ数推定部１４０（モデル２）を学習させる。学習により、モデル２のパラメータが最適化される。

　学習の後、故障影響推定装置１００は、故障発生時のトラヒック量、ログに基づき、故障影響時間と、影響ユーザ数を推定する。

　図１に示す構成において、学習部１６０、過去トラヒック・ログ蓄積ＤＢ１１０、及び過去トラヒック変化量・影響ユーザ数蓄積ＤＢ１２０は、故障影響推定装置１００の外部に備えられていてもよい。その場合、外部で学習された推定部（図１の例では故障影響時間・トラヒック変化量推定部１３０、及び影響ユーザ数推定部１４０）が、故障影響推定装置１００に入力され、当該故障影響時間・トラヒック変化量推定部１３０、及び影響ユーザ数推定部１４０が推定に使用される。

　（ハードウェア構成例）
　本実施の形態における上述した故障影響推定装置１００は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、この「コンピュータ」は、クラウドサービスにより提供される仮想マシンであってもよい。仮想マシンを使用する場合、ここで説明する「ハードウェア」とは仮想的なハードウェアである。

　本実施の形態（変形例を含む）の故障影響推定装置１００は、コンピュータに内蔵されるＣＰＵやメモリ等のハードウェア資源を用いて、故障影響推定装置１００で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

　図２は、本実施の形態における上記コンピュータのハードウェア構成例を示す図である。図２のコンピュータは、それぞれバスＢで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、及び入力装置１００７等を有する。

　当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、故障影響推定装置１００に係る機能を実現する。インタフェース装置１００５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。

　（詳細動作例）
　次に、故障影響推定装置１００の動作例を詳細に説明する。

　図３は、故障影響推定装置１００が推定の対象とする故障影響が生じる通信システム（ＩＣＴ（Information and Communication Technology）システムと呼んでもよい）の一例を示す。

　当該通信システムにおけるネットワーク３００にはルータ、サーバ等の多数の機器が備えられている。図３には、多数の機器のうちのある機器（機器３１０）を示している。また、ネットワーク３００には、サービス（例：Ｗｅｂサービス、映像サービス、音声サービス等）を利用する多数のユーザ端末４００－１～４００－ｎが接続されている。

　機器３１０は、例えば、ユーザ端末４００－１～４００－ｎにサービスを提供するサーバである。また、機器３１０は、ユーザ端末４００－１～４００－ｎにサービスを提供するサーバからのトラヒックをユーザ端末４００－１～４００－ｎに転送するルータであってもよい。また、機器３１０がこれら以外の任意の機器であってもよい。また、「ユーザ端末」を「ユーザ」と呼んでもよい。

　過去トラヒック・ログ蓄積ＤＢ１１０に蓄積された過去のログは、例えば、ある機器から得られた過去のｓｙｓｌｏｇ、ｓｈｏｗ　ｔｅｃｈログ等である。ある機器とは例えば上述した機器３１０である。

　過去トラヒック・ログ蓄積ＤＢ１１０に蓄積された過去のトラヒック量は、当該機器のトラヒック量である。当該機器のトラヒック量とは、当該機器からユーザ端末側に送信されるトラヒックの量であってもよいし、ユーザ端末側から当該機器が受信するトラヒックの量であってもよいし、当該機器からユーザ端末側に送信されるトラヒックの量とユーザ端末側から当該機器が受信するトラヒックの量の合計であってもよいし、トラヒックの方向に関わらず、当該機器が送受信する全てのトラヒックの量であってもよい。また、トラヒックの量が、当該機器が生成するＰＰＰｏＥ等のセッションの数であってもよい。

　ｓｙｓｌｏｇ、ｓｈｏｗ　ｔｅｃｈログには、機器内の冗長構成の情報、光レベル等のテレメトリー情報、機器の状態に関する情報、発生した障害に関する情報等が含まれる。また、過去トラヒック・ログ蓄積ＤＢ１１０に蓄積されたデータには、正常時のデータと異常発生時のデータが含まれる。

　過去トラヒック・ログ蓄積ＤＢ１１０には、多数の機器から収集されたデータが蓄積される。

　過去トラヒック変化量・影響ユーザ数蓄積ＤＢ１２０には、故障影響時間、故障影響時間におけるトラヒック変化量と、当該故障影響時間における影響ユーザ数が蓄積されている。過去トラヒック変化量・影響ユーザ数蓄積ＤＢ１２０に蓄積されているデータは、例えば、過去トラヒック・ログ蓄積ＤＢ１１０に蓄積されたデータの収集時刻に対応した時刻に収集されたデータである。

　故障影響時間とは、例えば、通信システムの異常発生により、影響を受けるユーザ端末（例えば、サービスを受ける際のスループットが低下したユーザ端末）が存在した時間である。

　影響ユーザ数とは、例えば、通信システムの異常発生により、ユーザ端末においてユーザが体感するサービスの品質が低下したユーザ端末の数であってもよいし、ユーザ端末でのサービスに係るスループットが所定閾値以上低下したユーザ端末の数であってもよいし、その他の数であってもよい。

　機器のトラヒック量やその変化量には、疎通の有無やサービス利用状況が反映されているため、機器状態の情報（ログ）とそのときのトラヒック量を用いることで、異常の種別とＮＷの利用状況を加味して、故障影響を推定をすることが可能になる。

　また、正常時のデータと異常発生時時のデータを用いることで、異常がなくなる時間と異常によるトラヒックの変化量を予測することができる。そして影響ユーザ数を推定することでサービスインパクトを推定する。また、過去の正常、異常時のデータを用いて学習することで専門知識に頼らずに推定することが可能になる。

　次に、図４のフローチャートを参照して学習時の動作を説明する。

　＜Ｓ１０１：学習用データ取得＞
　学習部１６０は、過去トラヒック・ログ蓄積ＤＢ１１０からトラヒック量、及びログ（ｓｈｏｗ　ｔｅｃｈログ、ｓｙｓｌｏｇ等）を取得する。更に、学習部１６０は、過去トラヒック変化量・影響ユーザ数蓄積ＤＢ１２０からトラヒック変化量、故障影響時間、影響ユーザ数のセットを取得する。

　＜Ｓ１０２：前処理＞
　前処理部１７０は、テキスト情報であるログ（ｓｈｏｗ　ｔｅｃｈログ、ｓｙｓｌｏｇ等）を数値として扱えるようにするために、ログのテンプレート化を行う。テンプレート化自体は既存技術である。テンプレート化とは、ログ１行毎に自然の番号を自動で付与する技術のことであり、時刻情報やＩＰアドレス等の数値部分以外が同一のログには同一の番号が付与される。つまり、前処理部１７０により、ログ１行毎に番号が付される。これにより、以降、ログを数値として扱うことができる。

　＜Ｓ１０３：故障影響時間とトラヒック量の変化量の推定＞
　学習部１６０は、学習用のトラヒック量、及びログを故障影響時間・トラヒック変化量推定部１３０（モデル１）に入力し、故障影響時間・トラヒック変化量推定部１３０から出力された故障影響時間とトラヒック量の変化量（損失量）の推定値を取得する。

　以下、故障影響時間・トラヒック変化量推定部１３０（モデル１）の詳細例を説明する。

　ある機器（例えば図３の機器３１０）において、時刻ｔにおける機器のログの発生状況を表すＭ次元ベクトルをｘ_ｔとする。ただし、Ｍ（０以上の整数）はテンプレート種類数であり、ｘ_ｔ，ｍを時刻ｔのｍ要素とし、テンプレートｍ番目のログの出現回数、又は、テンプレートｍ番目のログの値とする。ｘ_ｔ，ｍが時刻ｔにおけるテンプレートｍ番目のログの出現回数である場合における「出現回数」とは、時刻ｔ－１からｔまでの出現回数である。また、Ｘ_ｔをスカラー値とし、当該機器の時刻ｔのトラヒック量を表す。

　故障影響時間をｕとし、Ｖ_{ｔ→ｔ＋ｕ}は時刻ｔからｔ＋ｕまでの故障影響によるトラヒックの損失分とする。トラヒックの損失分とは、例えば、当該機器（ログ取得対象となった機器）が確立しているセッション数の減少量や送信（受信）パケットの減少量である。セッション数の減少量の場合、例えば、時刻ｔのセッション数が１００、時刻ｔ＋ｕのセッション数が１０でれば減少数は９０である。

　トラヒック量Ｘ_ｔは過去のトラヒック量Ｘ_ｔ－１，Ｘ_ｔ－２，…，Ｘ_ｔ－ｋに依存する。ｘ_ｔ－１，ｘ_ｔ－２，…，ｘ_ｔ－ｋに機器の状態に関する情報が含まれていると考えられるので、これらのデータを下記の式に入力することにより、ｕ，Ｖ_{ｔ→ｔ＋ｕ}を推定する。なお、ｔからの過去の時間長を示すｋは、予め決めておいてもよいし、学習により最適なｋが求められてもよい。

　下記の式で表されるモデルが故障影響時間・トラヒック変化量推定部１３０（モデル１）に相当する。

　ｕ，Ｖ_{ｔ→ｔ＋ｕ}＝Ｌ（Ｘ_ｔ－１，Ｘ_ｔ－２，…，Ｘ_ｔ－ｋ，ｘ_ｔ－１，ｘ_ｔ－２，…，ｘ_ｔ－ｋ）
　上記のＬは推定器であり、例えばｄｅｅｐｓｅｎｓｅ［］等の時系列データの回帰手法で得られたモデルである。

　＜Ｓ１０４：アップデート＞
　学習部１６０は、故障影響時間・トラヒック変化量推定部１３０から出力された故障影響時間とトラヒック変化量（損失量）を、実際の値と比較することでモデル１をアップデートする。

　十分な数の学習データセットｕ，Ｖ_{ｔ→ｔ＋ｕ}，Ｘ_ｔ－１，Ｘ_ｔ－２，…，Ｘ_ｔ－ｋ，ｘ_ｔ－１，ｘ_ｔ－２，…，ｘ_ｔ－ｋを用意し、上記のアップデートを繰り返すことで、最適化されたパラメータが適用されたモデル１を得ることができる。

　＜Ｓ１０５：影響ユーザ数の推定＞
　学習部１６０は、学習用のトラヒック変化量と学習用のログを影響ユーザ数推定部１４０（モデル２）に入力し、影響ユーザ数推定部１４０から出力された影響ユーザ数の推定値を取得する。以下、影響ユーザ数推定部１４０（モデル２）の詳細例を説明する。

　時刻ｔ→ｔ＋ｕの影響ユーザ数（時刻ｔから時刻ｔ＋ｕまでの期間で影響を受けたユーザの数）をＵ_{ｔ→ｔ＋ｕ}とする。Ｖ_{ｔ→ｔ＋ｕ}，ｘ_ｔ－１，ｘ_ｔ－２，…，ｘ_ｔ－ｋを下記の式に入力することによりＵ_{ｔ→ｔ＋ｕ}を推定する。下記の式で表されるモデルが影響ユーザ数推定部１４０（モデル２）に相当する。

　Ｕ_{ｔ→ｔ＋ｕ}＝Ｈ（Ｖ_{ｔ→ｔ＋ｕ}，ｘ_ｔ－１，ｘ_ｔ－２，…，ｘ_ｔ－ｋ）
　ここで、Ｈは推定器であり、トラヒック変化量と影響ユーザ数のデータセットを取得できるような環境で使用される一般的な回帰モデルを使用することができる。なお、トラヒック変化量は、例えば、ＰＰＰｏＥのようなセッション数の変化量である。

　＜Ｓ１０６：アップデート＞
　学習部１６０は、影響ユーザ数推定部１４０から出力された影響ユーザ数を、実際の値と比較することでモデル２をアップデートする。

　十分な数の学習データセットＵ_{ｔ→ｔ＋ｕ}，Ｖ_{ｔ→ｔ＋ｕ}，ｘ_ｔ－１，ｘ_ｔ－２，…，ｘ_ｔ－ｋを用意し、上記のアップデートを繰り返すことで、最適化されたパラメータが適用された回帰モデル２を得ることができる。

　＜Ｓ１０７：出力＞
　学習部１６０は、２つの回帰手法の学習済みモデル（モデル１とモデル２）を出力する。なお、本実施の形態では、モデル自体（具体的にはモデルを表す式に対応するプログラム）は、故障影響推定装置１００に備えられているので、上記学習部１６０が出力する学習済みモデルは、モデルにセットされる最適化されたパラメータである。

　次に、図５のフローチャートを参照して推定時の動作を説明する。ここでは、図１に示す故障影響時間・トラヒック変化量推定部１３０と影響ユーザ数推定部１４０は学習済みである。

　＜Ｓ２０１：トラヒック量、ログの取得＞
　入力部１８０が、通信システムにおける故障発生時（異常発生時）のトラヒック量とログを通信システムから受信し、入力する。当該トラヒック量と当該ログは、故障の発生した通信システムにおけるある機器から取得されるものである。当該機器は予め定められていてもよいし、任意の機器でもよいし、故障が発生した機器でもよい。

　入力されるトラヒック量とログは、前述したＸ_ｔ－１，Ｘ_ｔ－２，…，Ｘ_ｔ－ｋ，ｘ_ｔ－１，ｘ_ｔ－２，…，ｘ_ｔ－ｋに相当する。

　＜Ｓ２０２：前処理＞
　前処理部１７０は、学習時と同様にして、Ｓ２０１で取得したログのテンプレート化を行う。

　＜Ｓ２０３：故障影響時間とトラヒック変化量の推定＞
　入力部１８０は、トラヒック量と、前処理がされたログを故障影響時間・トラヒック変化量推定部１３０（モデル１）に入力する。故障影響時間・トラヒック変化量推定部１３０（モデル１）は、故障影響時間とトラヒック変化量を出力する。故障影響時間とトラヒック変化量は、前述したｕ，Ｖ_{ｔ→ｔ＋ｕ}に相当する。

　＜Ｓ２０４：影響ユーザ数の推定＞
　トラヒック変化量とログが影響ユーザ数推定部１４０（モデル２）に入力され、影響ユーザ数推定部１４０は影響ユーザ数を推定し、ユーザインタフェース１５０に対して出力する。トラヒック変化量とログは前述したＶ_{ｔ→ｔ＋ｕ}，ｘ_ｔ－１，ｘ_ｔ－２，…，ｘ_ｔ－ｋに相当し、影響ユーザ数は前述したＵ_{ｔ→ｔ＋ｕ}に相当する。

　＜Ｓ２０５：出力＞
　ユーザインタフェース１５０は、影響ユーザ数を利用者端末２００に出力する。また、ユーザインタフェース１５０は、影響ユーザ数とトラヒック変化量を利用者端末２００に出力してもよい。また、ユーザインタフェース１５０は、更に故障影響時間を利用者端末２００に出力してもよい。

　（変形例）
　上記の例では、ＬとＨのように別々のモデルを立てて学習及び推定をしているが、トラヒック量の変化量を予測せずに、１つのモデルで、トラヒック量とログから影響ユーザ数、故障影響時間を推定することとしてもよい。具体的には、次式で推定する。

　ｕ，Ｕ_{ｔ→ｔ＋ｕ}＝Ｌ'（Ｘ_ｔ－１，Ｘ_ｔ－２，…，Ｘ_ｔ－ｋ，ｘ_ｔ－１，ｘ_ｔ－２，…，ｘ_ｔ－ｋ）
これにより、トラヒック量の変化量を推定せずに、影響ユーザ数、故障影響時間を推定できる。学習については、これまでの例と同様に、学習用のデータセットを用いてパラメータをアプデートすることで実施できる。また、推定についてもこれまでの例と同様である。

　このように１つのモデルを用いて学習及び推定を実行する場合、図１に示した構成における推定部（故障影響時間・トラヒック変化量推定部１３０及び影響ユーザ数推定部１４０）が、上記のモデルに置き換えられる。また、過去トラヒック変化量・影響ユーザ数蓄積ＤＢ１２０は、影響ユーザ数を蓄積する影響ユーザ数蓄積ＤＢ１２５に置き換えられる。

　一方で、ブラックボックス化を防ぎ、どの程度トラヒック量が変化するのかをオペレーターが確認したい場合は、既に説明したように２段階にモデルを立てることで実現する。

　（ＲＴＴ、スループットの推定）
　これまでに説明した「影響ユーザ数」を、別の量に置き換えることで、当該別の量を推定することができる。当該別の量は、例えば、サービスを受けるユーザ端末において観測されるＲＴＴ（Round Trip Time、往復遅延時間）、あるいは、スループットである。ＲＴＴ、スループットを総称して「ネットワーク指標値」と呼ぶことにする。

　故障影響時間におけるネットワーク指標値をＣ_{ｔ→ｔ＋ｕ}で表すとすると、Ｃ_{ｔ→ｔ＋ｕ}は下記の２つの式（モデル）で推定できる。

　ｕ，Ｖ_{ｔ→ｔ＋ｕ}＝Ｌ（Ｘ_ｔ－１，Ｘ_ｔ－２，…，Ｘ_ｔ－ｋ，ｘ_ｔ－１，ｘ_ｔ－２，…，ｘ_ｔ－ｋ）
　Ｃ_{ｔ→ｔ＋ｕ}＝Ｈ´（Ｖ_{ｔ→ｔ＋ｕ}，ｘ_ｔ－１，ｘ_ｔ－２，…，ｘ_ｔ－ｋ）
　また、変形例のように、１つのモデルを使用する場合、Ｃ_{ｔ→ｔ＋ｕ}は下記の１つの式（モデル）で推定できる。

　ｕ，Ｃ_{ｔ→ｔ＋ｕ}＝Ｌ''（Ｘ_ｔ－１，Ｘ_ｔ－２，…，Ｘ_ｔ－ｋ，ｘ_ｔ－１，ｘ_ｔ－２，…，ｘ_ｔ－ｋ）
　（実施の形態の効果）
　本実施の形態に係る技術により、通信事業者が故障影響を解析することが可能になる、また、それにより、ＳＬＡ等の観点でサービスを利用しているユーザに即時的に報告することが可能になり、故障影響の度合いにより対処の優先度を決めることもできる（例えば、故障影響がない場合は修理は日中に行い、夜勤の常駐勤務者の数を減らすといったこと）ため、稼働の平準化によるＯＰＥＸ削減等を行うためにも必要な情報となる。

　（実施の形態のまとめ）
　本実施の形態において、少なくとも、下記の故障影響推定装置、故障影響推定方法、及びプログラムが提供される。
（第１項）
　異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力部と、
　前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定部と、
　前記推定部により推定された前記故障影響量を出力する出力部と
　を備える故障影響推定装置。
（第２項）
　前記推定部は、
　前記ログと前記トラヒック量とに基づいて、故障影響時間とトラヒック変化量とを推定する第１推定部と、
　前記ログと前記トラヒック変化量とに基づいて、前記故障影響量として影響ユーザ数を推定する第２推定部と
　を備える第１項に記載の故障影響推定装置。
（第３項）
　前記推定部は、
　前記ログと前記トラヒック量とに基づいて、故障影響時間とトラヒック変化量とを推定する第１推定部と、
　前記ログと前記トラヒック変化量とに基づいて、前記故障影響量としてネットワーク指標値を推定する第２推定部と
　を備える第１項に記載の故障影響推定装置。
（第４項）
　前記推定部は、過去のログ、過去のトラヒック量、及び過去の故障影響量に基づいて、機械学習により学習されたモデルである
　第１項ないし第３項のうちいずれか１項に記載の故障影響推定装置。
（第５項）
　故障影響推定装置が実行する故障影響推定方法であって、
　異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力ステップと、
　前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定ステップと、
　前記推定ステップにより推定された前記故障影響量を出力する出力ステップと
　を備える故障影響推定方法。
（第６項）
　コンピュータを、第１項ないし第４項のうちいずれか１項に記載の故障影響推定装置における各部として機能させるためのプログラム。

　以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００　故障影響推定装置
１１０　過去トラヒック・ログ蓄積ＤＢ
１２０　過去トラヒック変化量・影響ユーザ数蓄積ＤＢ
１３０　故障影響時間・トラヒック変化量推定部
１４０　影響ユーザ数推定部
１５０　ユーザインタフェース
１６０　学習部
１７０　前処理部
１８０　入力部
３００　ネットワーク
３１０　機器
４００－１～４００－ｎ　ユーザ端末
１０００　ドライブ装置
１００１　記録媒体
１００２　補助記憶装置
１００３　メモリ装置
１００４　ＣＰＵ
１００５　インターフェース装置
１００６　表示装置
１００７　入力装置

Claims

　異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力部と、
　前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定部と、
　前記推定部により推定された前記故障影響量を出力する出力部と
　を備える故障影響推定装置。
　前記推定部は、
　前記ログと前記トラヒック量とに基づいて、故障影響時間とトラヒック変化量とを推定する第１推定部と、
　前記ログと前記トラヒック変化量とに基づいて、前記故障影響量として影響ユーザ数を推定する第２推定部と
　を備える請求項１に記載の故障影響推定装置。
　前記推定部は、
　前記ログと前記トラヒック量とに基づいて、故障影響時間とトラヒック変化量とを推定する第１推定部と、
　前記ログと前記トラヒック変化量とに基づいて、前記故障影響量としてネットワーク指標値を推定する第２推定部と
　を備える請求項１に記載の故障影響推定装置。
　前記推定部は、過去のログ、過去のトラヒック量、及び過去の故障影響量に基づいて、機械学習により学習されたモデルである
　請求項１ないし３のうちいずれか１項に記載の故障影響推定装置。
　故障影響推定装置が実行する故障影響推定方法であって、
　異常発生時の通信システムから得られたログ及びトラヒック量を入力する入力ステップと、
　前記ログと前記トラヒック量とに基づいて、前記通信システムにおける故障影響量を推定する推定ステップと、
　前記推定ステップにより推定された前記故障影響量を出力する出力ステップと
　を備える故障影響推定方法。
　コンピュータを、請求項１ないし４のうちいずれか１項に記載の故障影響推定装置における各部として機能させるためのプログラム。