WO2022044115A1

WO2022044115A1 - 情報処理装置、情報処理方法、および、プログラム

Info

Publication number: WO2022044115A1
Application number: PCT/JP2020/031997
Authority: WO
Inventors: 高明森谷; 学西尾; 太三山本; 優三好; 崇歌原
Original assignee: 日本電信電話株式会社
Priority date: 2020-08-25
Filing date: 2020-08-25
Publication date: 2022-03-03
Also published as: JPWO2022044115A1; JP7448857B2

Abstract

文書データから複数の単語を抽出し、前記複数の単語の特徴値をそれぞれ計算し、前記複数の単語の特徴値を含む単語表現モデルを構築する単語表現モデル構築部１３と、前記複数の単語に含まれる２単語間の単語類似度をそれぞれ計算する単語類似度計算部１４と、前記複数の単語について前記２単語間の単語類似度のそれぞれを行列の要素とする単語類似度行列を生成する単語類似度行列計算部１５と、前記複数の単語に対応する複数の品目に関する所定種類の時間変動値を波形で示した時系列データを用いて、前記複数の品目に含まれる２品目の波形間の波形類似度をそれぞれ計算する波形類似度計算部１８と、前記複数の品目について前記２品目の波形間の波形類似度のそれぞれを行列の要素とする波形類似度行列を生成する波形類似度行列計算部１９と、前記単語類似度行列と前記波形類似度行列との差を品目間の相関の意外度として計算する差分計算部２０と、を備える。

Description

情報処理装置、情報処理方法、および、プログラム

　本発明は、情報処理装置、情報処理方法、および、プログラムに関する。

　ビッグデータ時代の到来により、多種類のデータが存在する。また、そのデータには、非常に多数の物事（軸、品目）が含まれている。しかし、世の中に埋もれた多種類のデータの中から有意な結論を導くことは容易ではない。それゆえ、従来は、人が物事間の関係を主観的、感覚的に導き出していた。

　一方、ビッグデータ時代には大量のデータから価値が生まれると考えられており、データに基づき物事間の関係が客観的に遠い、近いを判断するスキルが求められる。しかし、人の客観的な判断スキルにはバラツキがあり、その支援を行う必要性が増している。

　また、ビジネス上の課題を分析する際、物事間の関係を明らかにすることは重要である。多量のデータが入手できるようになり、一般的に人の感覚的には関係なさそうな事象であっても、客観的にデータを分析すると互いに関係ある事象が潜んでいる。このような人が気づきにくい意外な事実を抽出することは、ビジネスチャンスにつながる可能性がある。

　そこで、従来、感覚的指標である単語間の類似度や客観的指標である時系列データ間の類似度をそれぞれ計算する方法が知られている（非特許文献１～３参照）。

元田浩、外３名、"データマイニング基礎，2.5相関ルール"、株式会社オーム社、2008年3月、p.41-p.49 金久保、"データマイニング，相関ルール抽出，支持度と確信度，アプリオリ・アルゴリズム"、［online］、［2020年8月11日検索］、＜URL : https://www.sist.ac.jp/~kanakubo/research/data_mining.html＞神嶌敏弘、"頻出パターンマイニング"、［online］、［2020年8月11日検索］、＜URL : http://www.kamishima.net/archive/freqpat.pdf＞

　しかしながら、感覚的な単語間の類似度や客観的な時系列データ間の類似度をそれぞれ計算する方法にすぎず、感覚的な単語間の類似度と客観的な時系列データ間の類似度との間の関係を抽出することはできない。それゆえ、「人の感覚的（＝言語的ないし単語的）には遠いが、客観的な時系列データ上では近い」という、人の感覚からは想定しにくかった高い相関をもつ品目、つまり、関連に意外性が高い品目を抽出することは難しい、という課題があった。

　本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、人の感覚からは想定しにくかった高い相関を持つ品目を抽出可能な技術を提供することである。

　本発明の一態様の情報処理装置は、文書データから複数の単語を抽出し、前記複数の単語の特徴値をそれぞれ計算し、前記複数の単語の特徴値を含む単語表現モデルを構築する構築部と、前記単語表現モデルを用いて、前記複数の単語に含まれる２単語間の単語類似度をそれぞれ計算する第１の計算部と、前記複数の単語について前記２単語間の単語類似度のそれぞれを行列の要素とする単語類似度行列を生成する第１の生成部と、前記複数の単語に対応する複数の品目に関する所定種類の時間変動値を波形で示した時系列データを用いて、前記複数の品目に含まれる２品目の波形間の波形類似度をそれぞれ計算する第２の計算部と、前記複数の品目について前記２品目の波形間の波形類似度のそれぞれを行列の要素とする波形類似度行列を生成する第２の生成部と、前記単語類似度行列と前記波形類似度行列との差、距離、または、角度を品目間の相関の意外度として計算する第３の計算部と、を備える。

　本発明の一態様の情報処理方法は、情報処理装置で行う情報処理方法において、文書データから複数の単語を抽出し、前記複数の単語の特徴値をそれぞれ計算し、前記複数の単語の特徴値を含む単語表現モデルを構築するステップと、前記単語表現モデルを用いて、前記複数の単語に含まれる２単語間の単語類似度をそれぞれ計算するステップと、前記複数の単語について前記２単語間の単語類似度のそれぞれを行列の要素とする単語類似度行列を生成するステップと、前記複数の単語に対応する複数の品目に関する所定種類の時間変動値を波形で示した時系列データを用いて、前記複数の品目に含まれる２品目の波形間の波形類似度をそれぞれ計算するステップと、前記複数の品目について前記２品目の波形間の波形類似度のそれぞれを行列の要素とする波形類似度行列を生成するステップと、前記単語類似度行列と前記波形類似度行列との差、距離、または、角度を品目間の相関の意外度として計算するステップと、を行う。

　本発明の一態様は、上記情報処理装置としてコンピュータを機能させるプログラムである。

　本発明によれば、人の感覚からは想定しにくかった高い相関を持つ品目を抽出可能な技術を提供できる。

図１は、本発明の概要を示す図である。図２は、本発明の概要を示す図である。図３は、情報処理装置１の機能ブロック構成の例を示す図である。図４は、情報処理装置１の動作フローの例を示す図である。図５は、複数モデル単語類似度行列Ｕの生成手順の例を示す図である。図６は、複数モデル波形類似度行列Ｖの生成手順の例を示す図である。図７は、意外度の行列Ｗ’の生成手順の例を示す図である。図８は、ネットワーク図の例を示す図である。図９は、行列の表現方法のバリエーション１の例を示す図である。図１０は、行列の表現方法のバリエーション２の例を示す図である。図１１は、行列の表現方法のバリエーション３の例を示す図である。図１２は、情報処理装置１のハードウェア機能の例を示す図である。

　以下、図面を参照して、本発明の実施形態を説明する。図面の記載において同一部分には同一符号を付し説明を省略する。

　［１．発明の概要］
　本発明は、人にとってあたりまえの感覚的な知識・経験と、数字からわかる客観的な事実との差を抽出する。前者は言語表現上の２品目間（２単語間）の類似度とし、後者は時系列データ上の２品目の波形間の類似度とする。特に、前者の類似度は低いが後者の類似度は高いものを、データを分析しなければわからない、意外性が高い価値ある真実として抽出する。

　具体的には、図１に示すように、文書から得られる各単語の単語表現モデルから単語類似度行列を求めるとともに、各品目（各単語）の時系列データから波形類似度行列を求め、その両者の差、距離、角度を意外度として抽出する。

　図１では、単語表現モデルおよび時系列データをそれぞれ１種類ずつ用いた場合を例示したが、図２に示すように、実際には、それぞれのデータは複数存在する。そのため、複数の単語表現モデルから各々の単語類似度行列を求めて複数モデル単語類似度行列を生成するとともに、複数の時系列データから各々の波形類似度行列を求めて複数モデル波形類似度行列を生成し、その両者の差、距離、角度を意外度として抽出する。

　［２．情報処理装置の構成］
　図３は、本実施形態に係る情報処理装置の機能ブロック構成を示す図である。情報処理装置１は、感覚的な単語間の類似度と客観的な時系列データ間の類似度との間の関係を計算する装置である。

　情報処理装置１は、図３に示すように、言語データ記憶部１１と、言語データ選択部１２と、単語表現モデル構築部１３と、単語類似度計算部１４と、単語類似度行列計算部１５と、時系列データ記憶部１６と、時系列データ選択部１７と、波形類似度計算部１８と、波形類似度行列計算部１９と、差分計算部２０と、ＮＷ図生成部２１と、ＮＷ図表示部２２と、表現統一処理部２３と、類義語辞書記憶部２４と、を備える。

　言語データ記憶部１１は、情報処理装置１が収集した複数の文書データを記憶する機能を備える。複数とは、文書データの数量、種類が複数あることをいう。文書データとは、例えば、仕様書、保守マニュアル、ウィキペディア、アンケートである。

　言語データ選択部１２は、複数の文書データの中からランダムに文書データを選択する機能を備える。

　単語表現モデル構築部（構築部）１３は、一の文書データから複数の単語を抽出し、既存の計算手段を用いて当該抽出した各単語の特徴値や単語間の意味的関係の距離をそれぞれ計算し、その既存の計算手段ごとに、各単語の特徴値や単語間の意味的関係の距離を含む単語表現モデルをそれぞれ構築する機能を備える。既存の計算手段とは、例えば、Ｗｏｒｄ２ｖｅｃ、オントロジであり、単語の特徴値や単語間の意味的関係の離れ具合を計算可能な計算手段であればよい。

　単語類似度計算部（第１の計算部）１４は、単語表現モデルごとに、複数の単語に含まれる２単語間の単語類似度をそれぞれ計算する機能を備える。

　単語類似度行列計算部（第１の生成部）１５は、単語表現モデルごとに、複数の単語について２単語間の単語類似度のそれぞれを行列の要素とする単語類似度行列を生成する機能を備える。また、単語類似度行列計算部１５は、複数の単語表現モデルの各単語類似度行列を合成することで複数モデル単語類似度行列を生成する機能を備える。

　時系列データ記憶部１６は、情報処理装置１が収集した複数の時系列データを記憶する機能を備える。複数とは、時系列データの数量、種類が複数あることをいう。時系列データとは、時間軸に沿って変動する品目の所定種類の時間変動値を波形で示したデータである。品目とは、文書データに含まれる単語に関する品物の種目である。所定種類とは、例えば、物価指数、品質、作付面積である。

　時系列データ選択部１７は、複数の時系列データの中からランダムに時系列データを選択する機能を備える。

　波形類似度計算部（第２の計算部）１８は、時系列データごとに、複数の品目に含まれる２品目の波形間の波形類似度をそれぞれ計算する機能を備える。

　波形類似度行列計算部（第２の生成部）１９は、時系列データごとに、複数の品目について２品目の波形間の波形類似度のそれぞれを行列の要素とする波形類似度行列を生成する機能を備える。また、波形類似度行列計算部１９は、複数の時系列データの各波形類似度行列を合成することで複数モデル波形類似度行列を生成する機能を備える。

　差分計算部（第３の計算部）２０は、単語表現モデルおよび時系列データがそれぞれ１種類ずつであれば、単語類似度行列と波形類似度行列との差、距離、角度を品目間の相関の意外度として計算する機能を備える。また、差分計算部２０は、単語表現モデルおよび時系列データがそれぞれ複数種類ずつであれば、複数モデル単語類似度行列と複数モデル波形類似度行列との差、距離、角度を品目間の相関の意外度として抽出する機能を備える。

　なお、距離および角度は、単語類似度行列と波形類似度行列との差に応じた距離および角度である。後述の通り、行列の要素はベクトルまたはスカラーであり、その２つの行列におけるベクトルの差やスカラーの差を求めることで、距離および角度を計算できる。

　ＮＷ図生成部２１は、２品目間の意外度をノード間の距離としたネットワーク図を生成する機能を備える。

　ＮＷ図表示部２２は、生成したネットワーク図を表示装置の画面に出力する機能を備える。

　表現統一処理部（処理部）２３は、類義語辞書データを用いて、同じ意味を有する単語と品目の各表記を同一の表記に変更する機能を備える。

　類義語辞書記憶部２４は、類義語辞書データを記憶する機能を備える。類義語辞書データとは、語形は異なるが意味が類似する複数の表現表記をまとめた辞書データである。

　［３．情報処理装置の動作］
　図４は、情報処理装置の動作フローを示す図である。

　ステップＳ１；
　情報処理装置１は、単語表現モデル構築用の文書データを収集する。情報処理装置１は、ユーザが入力した文書データを収集してもよいし、インターネット上のウェブサイトから受信した文書データを収集してもよい。例えば、情報処理装置１は、保守マニュアル、ウィキペディア、アンケート、のＮ（Ｎ＝３）種類の文書データを収集する（図５（ａ）参照）。

　ステップＳ２；
　次に、言語データ選択部１２は、収集したＮ種類の文書データの中からランダムにｎ種類の文書データを選択する。例えば、言語データ選択部１２は、保守マニュアル、ウィキペディア、のｎ（ｎ＝２）種類の文書データを選択する（図５（ｂ）参照）。ステップＳ１で多数の種類の文書データが収集されている可能性があることから、ステップＳ２で使用対象の文書データの数を絞ることにより、情報処理装置１の計算量を削減可能となり、高速に意外度を求めることができる。

　ステップＳ３；
　次に、単語表現モデル構築部１３は、ランダムに選択したｎ（＝２）種類の文書データの中からｍ個の単語を抽出する。そして、単語表現モデル構築部１３は、例えばＷｏｒｄ２ｖｅｃを用いて各単語の特徴ベクトルをそれぞれ求め、求めた全ての単語のベクトルを１つにまとめた単語表現モデル１を構築する（図５（ｃ）参照）。図５（ｃ）の単語表現モデル１では、各単語のベクトルを３次元で表現している。

　同様に、単語表現モデル構築部１３は、例えばオントロジを用いて単語間の意味的関係の距離を求め、求めた単語間の意味的関係の距離に応じた数の線で単語同士を接続した単語表現モデル２を構築する（図５（ｃ）参照）。ｎ（＝２）種類の文書データを用いるので、高精度に意外度を求めることができる。

　ステップＳ４；
　次に、単語類似度計算部１４は、構築した２つの単語表現モデル１，２にそれぞれ含まれる複数の単語について２単語間の単語類似度を計算する。例えば、単語類似度計算部１４は、単語表現モデル１について、式（１）に示すように、キュウリのベクトルと米のベクトルとの間のコサイン類似度ｄ_Ｓｉｍ（キュウリ，米）を計算する（図５（ｄ）参照）。

　　ｄ_Ｓｉｍ（キュウリ，米）＝（０．９×０．２＋０．３×０．６＋０．１×０．４）÷（√（０．９＾２＋０．３＾２＋０．１＾２）×√（０．２＾２＋０．６＾２＋０．４＾２））＝０．５６　・・・（１）
　また、単語類似度計算部１４は、単語表現モデル２について、式（２）に示すように、キュウリと米との間のホップ数ｄ_Ｏｎｔ（キュウリ，米）を計算する（図５（ｄ）参照）。

　　ｄ_Ｏｎｔ（キュウリ，米）＝３　・・・（２）
　２単語間の単語類似度を計算するので、２次元から１次元へとベクトルの次元数が少なくなることから、情報処理装置１の計算量を抑制可能となり、高速に意外度を求めることができる。

　ステップＳ５；
　次に、単語類似度行列計算部１５は、単語表現モデル１について、２単語間の単語類似度のそれぞれを行列の要素とするｍ行ｍ列の単語類似度行列Ｄ_Ｓｉｍを生成する（図５（ｅ）参照）。Ｄ_Ｓｉｍの各要素は、ｄ_Ｓｉｍの対称行列になる。同様に、単語類似度行列計算部１５は、単語表現モデル２について、２単語間のホップ数のそれぞれを行列の要素とするｍ行ｍ列の単語類似度行列Ｄ_Ｏｎｔを生成する（図５（ｅ）参照）。Ｄ_Ｏｎｔの各要素は、ｄ_Ｏｎｔの対称行列になる。

　ステップＳ６；
　次に、単語類似度行列計算部１５は、単語類似度行列Ｄ_Ｓｉｍと単語類似度行列Ｄ_Ｏｎｔとを合成することで複数モデル単語類似度行列Ｕを生成する（図５（ｆ）参照）。Ｕの各要素ｕ＿ｉｊは、Ｄ_Ｓｉｍのｉ行ｊ列の値と、Ｄ_Ｏｎｔのｉ行ｊ列の値と、からなるベクトルとする。すなわち、Ｕにおけるキュウリ行米列（ｕ＿１２）に格納されるのは、ｄ_Ｓｉｍ（キュウリ，米）を１次元目とし、ｄ_Ｏｎｔ（キュウリ，米）を２次元目とする、２次元のベクトルとなる。なお、ベクトルの次元数は、単語表現モデルの数に一致する。

　ステップＳ７；
　次に、情報処理装置１は、ステップＳ３で抽出した単語に関する時系列データを収集する。一の時系列データには、ｍ種類の品目（＝単語）についての時系列値が入っている。情報処理装置１は、ユーザが入力した時系列データを収集してもよいし、インターネット上のウェブサイトから受信した時系列データを収集してもよい。例えば、情報処理装置１は、キュウリ、米、のｍ（ｍ＝２）種類の品目に関する、物価指数、品質、作付面積、のＮ（Ｎ＝３）種類の時系列データを収集する（図６（ａ）参照）。

　ステップＳ８；
　次に、時系列データ選択部１７は、収集した３種類の時系列データの中からランダムにｎ種類の時系列データを選択する。例えば、時系列データ選択部１７は、物価指数、作付面積、のｎ（ｎ＝２）種類の時系列データ１，２を選択する（図６（ｂ）参照）。ステップＳ７で多数の種類の時系列データが収集されている可能性があることから、ステップＳ８で使用対象の時系列データの数量を絞ることにより、情報処理装置１の計算量を削減可能となり、高速に意外度を求めることができる。

　ステップＳ９；
　次に、波形類似度計算部１８は、ランダムに選択したｎ（＝２）種類（物価指数、作付面積）の各時系列データ１，２を用いて、そのｎ（＝２）種類の各時系列データ１，２にそれぞれ含まれる複数の品目について２品目の波形間の波形類似度を計算する。例えば、波形類似度計算部１８は、ＤＴＷ（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ）法を用いて、物価指数の時系列データ１に含まれるキュウリの波形と米の波形との波形類似度ｄ_物価（キュウリ，米）を計算する（図６（ｃ）参照）。また、波形類似度計算部１８は、ＤＴＷ法を用いて、作付面積の時系列データ２に含まれるキュウリの波形と米の波形との波形類似度ｄ_作付面積（キュウリ，米）を計算する（図６（ｃ）参照）。２種類の時系列データを用いるので、高精度に意外度を求めることができる。２品目の波形間の波形類似度を計算するので、２次元から１次元へとベクトルの次元数が少なくなることから、情報処理装置１の計算量を抑制可能となり、高速に意外度を求めることができる。

　ステップＳ１０；
　次に、波形類似度行列計算部１９は、時系列データ１について、２品目の波形間の波形類似度のそれぞれを行列の要素とするｍ行ｍ列の波形類似度行列Ｄ_物価を生成する（図６（ｄ）参照）。Ｄ_物価の各要素は、ｄ_物価の対称行列になる。同様に、波形類似度行列計算部１９は、時系列データ２について、２品目の波形間の波形類似度のそれぞれを行列の要素とするｍ行ｍ列の波形類似度行列Ｄ_作付面積を生成する（図６（ｄ）参照）。Ｄ_作付面積の各要素は、ｄ_作付面積の対称行列になる。

　ステップＳ１１；
　次に、波形類似度行列計算部１９は、波形類似度行列Ｄ_物価と波形類似度行列Ｄ_作付面積とを合成することで複数モデル波形類似度行列Ｖを生成する（図６（ｅ）参照）。Ｖの各要素ｖ＿ｉｊは、Ｄ_物価のｉ行ｊ列の値と、Ｄ_作付面積のｉ行ｊ列の値と、からなるベクトルとする。すなわち、Ｖにおけるキュウリ行米列（ｖ＿１２）に格納されるのは、ｄ_物価（キュウリ，米）を１次元目とし、ｄ_作付面積（キュウリ，米）を２次元目とする、２次元のベクトルとなる。

　ステップＳ１２；
　次に、差分計算部２０は、複数モデル単語類似度行列Ｕの各要素ｕ＿ｉｊ（２次元ベクトル）と複数モデル波形類似度行列Ｖの各要素ｖ＿ｉｊ（２次元ベクトル）との間のコサイン類似度を要素とする行列Ｗ（１次元ベクトル）を求める（図７（ａ）参照）。コサイン類似度の代わりに、相対エントロピー（例えば、カルバック・ライブラー情報量）をはじめとする、２つのベクトルの間の離れ具合を表現する周知の方法を用いてもよい。

　ステップＳ１３；
　最後に、差分計算部２０は、ステップＳ１２で求めた行列Ｗの各要素の逆数を要素とする行列Ｗ’を計算する（図７（ｂ）参照）。そして、差分計算部２０は、計算した行列Ｗ’を意外度として出力する。ステップＳ１３では、ステップＳ１２で求めた近さを表すコサイン類似度の逆数を取ることで、遠さを表す意外度を算出する。

　［３．１．変形例１］
　ステップＳ１２，Ｓ１３の変形例を説明する。ステップＳ１２では、ＵとＶの各要素がともに２次元ベクトルであるので、コサイン類似度を求めたが、各要素が１次元（ｎ＝１）の場合には、コサイン類似度の代わりに、式（３）に示すように、ＵとＶとの差を意外度の行列Ｗ’としてもよい。なお、ｗ_Ｕは、Ｕの重みである。ｗ_Ｖは、Ｖの重みである。

　　Ｗ’＝ｗ_Ｕ×Ｕ－ｗ_Ｖ×Ｖ　・・・（３）
　［３．２．変形例２］
　ステップＳ２，Ｓ８の変形例を説明する。ステップＳ２，Ｓ８では、選択する文書データおよび時系列データの種類数が２種類（ｎ＝２）の場合を説明したが、３種類（ｎ＝３）以上の場合でも同様に実施することができる。

　［３．３．変形例３］
　ステップ順の変形例を説明する。上記動作フローでは、ステップＳ１～Ｓ７の実行後にステップＳ８～Ｓ１１を実行したが、ステップＳ８～Ｓ１１の実行後にステップＳ１～Ｓ７を実行してもよいし、ステップＳ１～Ｓ７とステップＳ８～Ｓ１１とを時間的に並列に実行してもよい。

　［４．付加機能］
　［４．１．付加機能１］
　意外度を可視化するための支援機能を説明する。その支援機能として、情報処理装置１は、図３に示したように、ＮＷ図生成部２１およびＮＷ図表示部２２を備える。ＮＷ図生成部２１は、差分計算部２０から意外度の行列Ｗ’を受け取り、２品目間の意外度をノード間の距離としたネットワーク図を生成する。ＮＷ図表示部２２は、生成したネットワーク図を表示装置の画面に出力することで、品目間の意外度をユーザに提示する。

　例えば、ウェブ上の文書データから学習した、キュウリと米との間の単語類似度が０．８であり、キュウリの物価指数の月変動と米の物価指数の月変動との波形類似度が０．１である場合、図８に示すように、キュウリのノードと米のノードとを、その差である０．７に応じた長さの線でつなぐ。線にその数値を併記してもよい。このように、２品目間の意外度をノード間の距離としたネットワーク図を生成するので、意外度が見やすく、関連性に意外性のある２品目を発見し易くなる。文書データや時系列データが多いときに特に便利である。

　［４．２．付加機能２］
　表記ゆれを吸収するための支援機能を説明する。ステップＳ１，Ｓ７で収集した文書データおよび時系列データは、データによって表記が異なっている場合がある。そこで、その支援機能として、情報処理装置１は、図３に示したように、表現統一処理部２３および類義語辞書記憶部２４を備える。表現統一処理部２３は、類義語辞書データを用いて、文書データおよび時系列データのうち一方のデータに含まれる単語や品目の表現を、他方のデータに含まれる表現に一致するように変更する。その他、表現統一処理部２３は、文書データおよび時系列データの両方のデータに含まれる意味的に共通する単語や品目を、ともに標準的な表記に変更してもよい。例えば、あるデータでは「自動車」と表記されているが、別のデータでは「車」と表記されている場合、「自動車」または「車」に統一することで、表記の揺れを吸収する。

　［５．バリエーション］
　［５．１．バリエーション１］
　行列の表現方法のバリエーション１を説明する。上記実施例では、複数モデル単語類似度行列Ｕの各要素ｕ＿ｉｊと複数モデル波形類似度行列Ｖの各要素ｖ＿ｉｊはともに２次元ベクトルであったが、それらの各要素をスカラーとして表してもよい。そのための１つの表し方としては、図９に示すように、行の長さを２ｍ個として（当該２の値はデータ種類の数）、１行目～ｍ行目を１種類目のデータ（Ｕの例であればｄ_Ｓｉｍ、Ｖの例であればｄ_物価）、ｍ＋１行目～２ｍ行目を２種類目のデータ（Ｕの例であればｄ_Ｏｎｔ、Ｖの例であればｄ_作付面積）を格納する。

　なお、バリエーション１はＵとVの各要素の表現の仕方をベクトルからスカラーに変更した点にあり、行列Ｗについては、ステップＳ１２と同様にコサイン類似度を求めて計算する。より一般化して式（４）に示す関数ｆにより行列Ｗの要素を算出してもよい。

　　ｆ（ｄ_Ｓｉｍ（キュウリ，米），ｄ_Ｏｎｔ（キュウリ，米），ｄ_物価（キュウリ，米），ｄ_作付面積（キュウリ，米））　・・・（４）
　関数ｆは、コサイン類似度の定義式、または、相対エントロピーの定義式である。

　［５．２．バリエーション２］
　行列の表現方法のバリエーション２を説明する。バリエーション１との別バリエーションとして、図１０に示すように、１種類目のデータと２種類目のデータとを交互の行にしてもよい。例えば、先のＵの例であればｄ_Ｓｉｍの行とｄ_Ｏｎｔの行とを交互に配置し、Ｖの例であればｄ_物価の行とｄ_作付面積の行とを交互に配置する。行列Ｗの計算方法は、バリエーション１と同じ計算方法を用いることができる。

　［５．３．バリエーション３］
　行列の表現方法のバリエーション３を説明する。ステップＳ４において、ある２つの単語に関して計算したコサイン類似度ｄ_Ｓｉｍとホップ数ｄ_Ｏｎｔとは言語的には同程度になると考えるのが自然である。しかし、大きく異なる可能性もある。そこで、ステップＳ６において、単語類似度行列計算部１５は、単語類似度行列Ｄ_Ｓｉｍと単語類似度行列Ｄ_Ｏｎｔとの同一の位置にそれぞれ含まれる各要素のコサイン類似度ｄ_Ｓｉｍとホップ数ｄ_Ｏｎｔとの平均値を計算し、その平均値を複数モデル単語類似度行列Ｕの要素としてもよい。すなわち、図１１に示すように、Ｕにおけるキュウリ行米列（ｕ＿１２）に格納される値は、ｄ_Ｓｉｍ（キュウリ，米）とｄ_Ｏｎｔ（キュウリ，米）との平均値となる。Ｕの各要素はスカラーとなる。同様に、ステップＳ１１において、波形類似度行列計算部１９は、波形類似度行列Ｄ_物価と波形類似度行列Ｄ_作付面積との同一の位置にそれぞれ含まれる各要素の類似度ｄ_物価と類似度ｄ_作付面積との平均を計算し、その平均値を複数モデル波形類似度行列Ｖの要素としてもよい。

　［５．４．バリエーション４］
　上記実施例では、単語間の類似度よりも波形間の類似度の方が高いもの、すなわち、波形間の類似度と単語間の類似度との差が大きいものを意外度として抽出したが、逆に、その差が小さいもの（近いもの）を目的として抽出してもよい。具体的には、ステップＳ１３で行列W’を計算せずに、ステップＳ１２で求めたコサイン類似度の行列Ｗをそのまま意外度として抽出する。

　［５．５．バリエーション５］
　上記実施例では、意外度の行列W’を提示する処理までで終了したが、事前に閾値ｔを設け、行列W’の各要素のうち閾値ｔを上回っている要素を抽出し、「この要素が意外度が高いですよ」と提案してもよい。例えば、キュウリと米が交差する部分の要素であれば、キュウリと米の間の意外度が高いですよ、というメッセージを表示装置の画面に出力する。

　［６．情報処理装置の運用例］
　例えば、トラフィックの急激な増加が起きた際、「サーバのＣＰＵ使用率」と「サッカー試合のチケット収入」が意外にも関係あることを見出し、トラフィック増加要因を探り当てる用途に応用可能である。見えない要因によってあたかも因果関係が生じているかのように見える擬似相関である可能性はあるが、本発明では、疑似相関であっても、相関があるからにはそこにビジネスチャンスがあるかもしれない、という立場を提案する。

　［７．効果］
　本実施形態によれば、情報処理装置１は、文書データから得られる単語表現モデルから単語類似度行列を求め、また、時系列データから波形類似度行列を求め、両者の差、距離、または、角度を意外度として抽出するので、人の感覚からは想定しにくかった高い相関を持つ意外性のある品目を抽出できる。

　また、本実施形態によれば、情報処理装置１は、複数の種類の文書データおよび時系列データを用いるので（上記実施例ではｎ個）、高精度に意外度を抽出できる。

　また、本実施形態によれば、情報処理装置１は、複数の種類の文書データおよび時系列データの中からランダムに文書データおよび時系列データを選択したり、２単語間の単語類似度や２品目の波形間の波形類似度を計算して１次元の類似度を用いたりするので、情報処理装置１の計算量を抑制可能となり、高速に意外度を抽出できる。

　［８．その他］
　本発明は、上記実施形態に限定されない。本発明は、本発明の要旨の範囲内で数々の変形が可能である。

　上記説明した本実施形態の情報処理装置１は、例えば、図１２に示すように、ＣＰＵ（Central Processing Unit、プロセッサ）９０１と、メモリ９０２と、ストレージ（ＨＤＤ：Hard Disk Drive、ＳＳＤ：Solid State Drive）９０３と、通信装置９０４と、入力装置９０５と、出力装置９０６と、を備えた汎用的なコンピュータシステムを用いて実現できる。メモリ９０２及びストレージ９０３は、記憶装置である。当該コンピュータシステムにおいて、ＣＰＵ９０１がメモリ９０２上にロードされた所定のプログラムを実行することにより、情報処理装置１の各機能が実現される。

　情報処理装置１は、１つのコンピュータで実装されてもよい。情報処理装置１は、複数のコンピュータで実装されてもよい。情報処理装置１は、コンピュータに実装される仮想マシンであってもよい。情報処理装置１用のプログラムは、ＨＤＤ、ＳＳＤ、ＵＳＢ（Universal Serial Bus）メモリ、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）などのコンピュータ読取り可能な記録媒体に記憶できる。情報処理装置１用のプログラムは、通信ネットワークを介して配信することもできる。

　１：情報処理装置
　１１：言語データ記憶部
　１２：言語データ選択部
　１３：単語表現モデル構築部
　１４：単語類似度計算部
　１５：単語類似度行列計算部
　１６：時系列データ記憶部
　１７：時系列データ選択部
　１８：波形類似度計算部
　１９：波形類似度行列計算部
　２０：差分計算部
　２１：ＮＷ図生成部
　２２：ＮＷ図表示部
　２３：表現統一処理部
　２４：類義語辞書記憶部
　９０１：ＣＰＵ
　９０２：メモリ
　９０３：ストレージ
　９０４：通信装置
　９０５：入力装置
　９０６：出力装置

Claims

　文書データから複数の単語を抽出し、前記複数の単語の特徴値をそれぞれ計算し、前記複数の単語の特徴値を含む単語表現モデルを構築する構築部と、
　前記単語表現モデルを用いて、前記複数の単語に含まれる２単語間の単語類似度をそれぞれ計算する第１の計算部と、
　前記複数の単語について前記２単語間の単語類似度のそれぞれを行列の要素とする単語類似度行列を生成する第１の生成部と、
　前記複数の単語に対応する複数の品目に関する所定種類の時間変動値を波形で示した時系列データを用いて、前記複数の品目に含まれる２品目の波形間の波形類似度をそれぞれ計算する第２の計算部と、
　前記複数の品目について前記２品目の波形間の波形類似度のそれぞれを行列の要素とする波形類似度行列を生成する第２の生成部と、
　前記単語類似度行列と前記波形類似度行列との差、距離、または、角度を品目間の相関の意外度として計算する第３の計算部と、
　を備える情報処理装置。
　前記第１の生成部は、複数の種類の前記単語表現モデルに対応する複数の前記単語類似度行列を生成し、前記複数の単語類似度行列を合成することで複数モデル単語類似度行列を生成し、
　前記第２の生成部は、複数の種類の前記時系列データに対応する複数の前記波形類似度行列を生成し、前記複数の波形類似度行列を合成することで複数モデル波形類似度行列を生成し、
　前記第３の計算部は、
　前記複数モデル単語類似度行列と前記複数モデル波形類似度行列との差、距離、または、角度を前記意外度として計算する請求項１に記載の情報処理装置。
　前記構築部は、複数の種類の文書データを用いて前記単語表現モデルを構築し、
　前記第２の計算部は、
　複数の種類の時系列データを用いて前記波形類似度を計算する請求項１または２に記載の情報処理装置。
　前記構築部は、前記複数の種類の文書データの中からランダムに選択した文書データを用いて前記単語表現モデルを構築し、
　前記第２の計算部は、
　前記複数の種類の時系列データの中からランダムに選択した時系列データを用いて前記波形類似度を計算する請求項３に記載の情報処理装置。
　同じ意味を有する単語と品目の各表記を同一の表記に変更する処理部をさらに備える請求項１乃至４のうちいずれかに記載の情報処理装置。
　前記第１の生成部は、前記複数の単語類似度行列の同一の位置にそれぞれ含まれる各要素の単語類似度を平均した平均値を、前記複数モデル単語類似度行列の要素とし、
　前記第２の生成部は、
　前記複数の波形類似度行列の同一の位置にそれぞれ含まれる各要素の波形類似度を平均した平均値を、前記複数モデル波形類似度行列の要素とする請求項２に記載の情報処理装置。
　情報処理装置で行う情報処理方法において、
　文書データから複数の単語を抽出し、前記複数の単語の特徴値をそれぞれ計算し、前記複数の単語の特徴値を含む単語表現モデルを構築するステップと、
　前記単語表現モデルを用いて、前記複数の単語に含まれる２単語間の単語類似度をそれぞれ計算するステップと、
　前記複数の単語について前記２単語間の単語類似度のそれぞれを行列の要素とする単語類似度行列を生成するステップと、
　前記複数の単語に対応する複数の品目に関する所定種類の時間変動値を波形で示した時系列データを用いて、前記複数の品目に含まれる２品目の波形間の波形類似度をそれぞれ計算するステップと、
　前記複数の品目について前記２品目の波形間の波形類似度のそれぞれを行列の要素とする波形類似度行列を生成するステップと、
　前記単語類似度行列と前記波形類似度行列との差、距離、または、角度を品目間の相関の意外度として計算するステップと、
　を行う情報処理方法。
　請求項１乃至６のいずれかに記載の情報処理装置としてコンピュータを機能させるプログラム。