WO2022044115A1 - 情報処理装置、情報処理方法、および、プログラム - Google Patents

情報処理装置、情報処理方法、および、プログラム Download PDF

Info

Publication number
WO2022044115A1
WO2022044115A1 PCT/JP2020/031997 JP2020031997W WO2022044115A1 WO 2022044115 A1 WO2022044115 A1 WO 2022044115A1 JP 2020031997 W JP2020031997 W JP 2020031997W WO 2022044115 A1 WO2022044115 A1 WO 2022044115A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
words
similarity
matrix
items
Prior art date
Application number
PCT/JP2020/031997
Other languages
English (en)
French (fr)
Inventor
高明 森谷
学 西尾
太三 山本
優 三好
崇 歌原
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/031997 priority Critical patent/WO2022044115A1/ja
Priority to JP2022544927A priority patent/JP7448857B2/ja
Publication of WO2022044115A1 publication Critical patent/WO2022044115A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Definitions

  • the present invention relates to an information processing device, an information processing method, and a program.
  • Non-Patent Documents 1 to 3 a method of calculating the similarity between words, which is a sensory index, and the similarity between time-series data, which is an objective index, has been known (see Non-Patent Documents 1 to 3).
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide a technique capable of extracting items having a high correlation, which is difficult to imagine from human senses.
  • the information processing apparatus is a construction unit that extracts a plurality of words from document data, calculates the feature values of the plurality of words, respectively, and constructs a word expression model including the feature values of the plurality of words.
  • a first calculation unit that calculates the word similarity between two words included in the plurality of words using the word expression model, and a word similarity between the two words for the plurality of words, respectively.
  • Using the first generation unit that generates a word similarity matrix having A second calculation unit that calculates the waveform similarity between the waveforms of two items included in a plurality of items, and a waveform having each of the waveform similarity between the waveforms of the two items for the plurality of items as a matrix element.
  • a second generation unit that generates a similarity matrix, and a third calculation unit that calculates the difference, distance, or angle between the word similarity matrix and the waveform similarity matrix as the unexpected degree of correlation between items. , Equipped with.
  • the information processing method is an information processing method performed by an information processing apparatus, in which a plurality of words are extracted from document data, feature values of the plurality of words are calculated, and feature values of the plurality of words are calculated.
  • a waveform similarity matrix in which each of the steps of calculating the waveform similarity between the waveforms of the two items included in the plurality of items and the waveform similarity between the waveforms of the two items for the plurality of items is a matrix element. And a step of calculating the difference, distance, or angle between the word similarity matrix and the waveform similarity matrix as the unexpected degree of correlation between items.
  • One aspect of the present invention is a program that causes a computer to function as the information processing device.
  • FIG. 1 is a diagram showing an outline of the present invention.
  • FIG. 2 is a diagram showing an outline of the present invention.
  • FIG. 3 is a diagram showing an example of a functional block configuration of the information processing apparatus 1.
  • FIG. 4 is a diagram showing an example of an operation flow of the information processing apparatus 1.
  • FIG. 5 is a diagram showing an example of a procedure for generating a plurality of model word similarity matrices U.
  • FIG. 6 is a diagram showing an example of a procedure for generating a plurality of model waveform similarity matrix V.
  • FIG. 7 is a diagram showing an example of a procedure for generating an unexpected matrix W'.
  • FIG. 8 is a diagram showing an example of a network diagram.
  • FIG. 9 is a diagram showing an example of variation 1 of the matrix representation method.
  • FIG. 10 is a diagram showing an example of variation 2 of the matrix representation method.
  • FIG. 11 is a diagram showing an example of variation 3 of the matrix representation method.
  • the present invention extracts the difference between the sensory knowledge / experience that is natural for humans and the objective facts that can be understood from numbers.
  • the former is the degree of similarity between two items (between two words) in linguistic expression
  • the latter is the degree of similarity between the waveforms of two items on time series data.
  • the former which has a low degree of similarity but the latter, which has a high degree of similarity, is extracted as a surprising and valuable truth that cannot be understood without analyzing the data.
  • the word similarity matrix is obtained from the word expression model of each word obtained from the document, and the waveform similarity matrix is obtained from the time series data of each item (each word). The difference, distance, and angle between the two are extracted as unexpected degrees.
  • FIG. 1 exemplifies the case where one type of word expression model and one type of time series data are used, but as shown in FIG. 2, there are actually a plurality of each data. Therefore, each word similarity matrix is obtained from a plurality of word expression models to generate a multiple model word similarity matrix, and each waveform similarity matrix is obtained from a plurality of time series data to obtain a plural model waveform similarity matrix. Generate and extract the difference, distance, and angle between the two as unexpected degrees.
  • FIG. 3 is a diagram showing a functional block configuration of the information processing apparatus according to the present embodiment.
  • the information processing device 1 is a device that calculates the relationship between the degree of similarity between sensory words and the degree of similarity between objective time-series data.
  • the information processing apparatus 1 includes a language data storage unit 11, a language data selection unit 12, a word expression model construction unit 13, a word similarity calculation unit 14, and a word similarity matrix calculation unit 15. , Time-series data storage unit 16, time-series data selection unit 17, waveform similarity calculation unit 18, waveform similarity matrix calculation unit 19, difference calculation unit 20, NW diagram generation unit 21, and NW diagram. It includes a display unit 22, an expression unification processing unit 23, and a synonym dictionary storage unit 24.
  • the language data storage unit 11 has a function of storing a plurality of document data collected by the information processing device 1. "Multiple" means that there are multiple quantities and types of document data. Document data is, for example, specifications, maintenance manuals, Wikipedia, and questionnaires.
  • the language data selection unit 12 has a function of randomly selecting document data from a plurality of document data.
  • the word expression model construction unit (construction unit) 13 extracts a plurality of words from one document data, and uses an existing calculation means to determine the feature value of each extracted word and the distance of the semantic relationship between the words. It has a function to calculate and construct a word expression model including the feature value of each word and the distance of the semantic relationship between words for each existing calculation means.
  • the existing calculation means may be, for example, Word2vec or an ontology, and may be any calculation means capable of calculating the feature value of a word and the degree of separation of the semantic relationship between words.
  • the word similarity calculation unit (first calculation unit) 14 has a function of calculating the word similarity between two words included in a plurality of words for each word expression model.
  • the word similarity matrix calculation unit (first generation unit) 15 has a function of generating a word similarity matrix in which each of the word similarity between two words is used as a matrix element for a plurality of words for each word expression model. Be prepared. Further, the word similarity matrix calculation unit 15 has a function of generating a plurality of model word similarity matrices by synthesizing each word similarity matrix of a plurality of word expression models.
  • the time-series data storage unit 16 has a function of storing a plurality of time-series data collected by the information processing apparatus 1. "Multiple" means that there are multiple quantities and types of time-series data.
  • the time-series data is data in which the time-varying values of a predetermined type of items that fluctuate along the time axis are shown in a waveform.
  • An item is an item item related to a word contained in document data.
  • the predetermined type is, for example, a price index, quality, and acreage.
  • the time-series data selection unit 17 has a function of randomly selecting time-series data from a plurality of time-series data.
  • the waveform similarity calculation unit (second calculation unit) 18 has a function of calculating the waveform similarity between the waveforms of two items included in a plurality of items for each time series data.
  • the waveform similarity matrix calculation unit (second generation unit) 19 generates a waveform similarity matrix in which each of the waveform similarity between the waveforms of two items is a matrix element for a plurality of items for each time series data. It has a function. Further, the waveform similarity matrix calculation unit 19 has a function of generating a plurality of model waveform similarity matrices by synthesizing each waveform similarity matrix of a plurality of time series data.
  • the difference calculation unit (third calculation unit) 20 correlates the difference, distance, and angle between the word similarity matrix and the waveform similarity matrix between items. It has a function to calculate as an unexpected degree. Further, if the word expression model and the time series data are each of a plurality of types, the difference calculation unit 20 determines the difference, distance, and angle between the plurality of model word similarity matrix and the plurality of model waveform similarity matrix as the correlation between the items. It has a function to extract as a surprise.
  • the distance and angle are the distance and angle according to the difference between the word similarity matrix and the waveform similarity matrix.
  • the elements of a matrix are vectors or scalars, and distances and angles can be calculated by finding the difference between the vectors and the scalars in the two matrices.
  • the NW diagram generation unit 21 has a function of generating a network diagram in which the unexpectedness between two items is the distance between the nodes.
  • the NW diagram display unit 22 has a function of outputting the generated network diagram to the screen of the display device.
  • the expression unified processing unit (processing unit) 23 has a function of changing each notation of a word and an item having the same meaning to the same notation by using the synonym dictionary data.
  • the synonym dictionary storage unit 24 has a function of storing synonym dictionary data.
  • Synonym dictionary data is dictionary data that summarizes a plurality of expression notations that have different word forms but similar meanings.
  • FIG. 4 is a diagram showing an operation flow of the information processing apparatus.
  • the information processing apparatus 1 collects document data for constructing a word expression model.
  • the information processing apparatus 1 may collect document data input by the user, or may collect document data received from a website on the Internet.
  • Step S2; Next, the language data selection unit 12 randomly selects n types of document data from the collected N types of document data. For example, the language data selection unit 12 selects n (n 2) types of document data from the maintenance manual and Wikipedia (see FIG. 5B). Since there is a possibility that many types of document data have been collected in step S1, by narrowing down the number of document data to be used in step S2, the amount of calculation of the information processing apparatus 1 can be reduced, and the speed can be increased. You can ask for a degree of surprise.
  • the word expression model construction unit 13 obtains the distance of the semantic relationship between words by using, for example, ontology, and connects the words with a number of lines according to the distance of the semantic relationship between the obtained words.
  • Step S4 the word similarity calculation unit 14 calculates the word similarity between two words for a plurality of words included in each of the two constructed word expression models 1 and 2. For example, the word similarity calculation unit 14 calculates the cucumber similarity d Sim (cucumber, rice) between the cucumber vector and the rice vector as shown in the equation (1) for the word expression model 1 (cucumber, rice). See FIG. 5 (d)).
  • the word similarity calculation unit 14 calculates the number of hops d Ont (cucumber, rice) between the cucumber and rice as shown in the equation (2) for the word expression model 2 (FIG. 5 (d)). reference).
  • Each element u_ij of U is a vector consisting of the value of i-by-j of D Sim and the value of i-by-j of D Ont . That is, what is stored in the cucumber row rice column (u_12) in U is a two-dimensional vector having dSim (cucumber, rice) as the first dimension and dOnt (cucumber, rice) as the second dimension. Become. The number of dimensions of the vector corresponds to the number of word expression models.
  • Step S8; Next, the time-series data selection unit 17 randomly selects n types of time-series data from the collected three types of time-series data. For example, the time-series data selection unit 17 selects n (n 2) types of time-series data 1 and 2 of the price index and the planted area (see FIG. 6B). Since there is a possibility that many types of time-series data are collected in step S7, the amount of calculation of the information processing apparatus 1 can be reduced by narrowing down the quantity of the time-series data to be used in step S8. Surprisingness can be obtained at high speed.
  • the waveform similarity between the waveforms of the two items is calculated for the plurality of items included in the series data 1 and 2, respectively.
  • the waveform similarity calculation unit 18 uses the DTW (Dynamic Time Warping) method to obtain the waveform similarity d price (cucumber, rice) between the cucumber waveform and the rice waveform included in the time series data 1 of the price index. Is calculated (see FIG. 6 (c)).
  • DTW Dynamic Time Warping
  • the waveform similarity calculation unit 18 calculates the waveform similarity d planted area (cucumber, rice) between the cucumber waveform and the rice waveform included in the time-series data 2 of the planted area by using the DTW method (cucumber, rice). See FIG. 6 (c)). Since two types of time-series data are used, it is possible to obtain the degree of surprise with high accuracy. Since the waveform similarity between the waveforms of two items is calculated, the number of dimensions of the vector is reduced from two dimensions to one dimension, so that the amount of calculation of the information processing device 1 can be suppressed and the degree of surprise can be obtained at high speed. Can be done.
  • Each element v_ij of V is a vector consisting of the value of the i-row and j-column of the D price and the value of the i-row and j-column of the D planted area . That is, what is stored in the cucumber row rice column (v_12) in V is a two-dimensional vector having d price (cucumber, rice) as the first dimension and d planted area (cucumber, rice) as the second dimension. Will be.
  • the matrix W one-dimensional vector as an element is obtained (see FIG. 7A).
  • a well-known method of expressing the distance between two vectors such as relative entropy (eg, Kullback-Leibler information amount), may be used.
  • Step S13 Finally, the difference calculation unit 20 calculates the matrix W'having the reciprocal of each element of the matrix W obtained in step S12 as an element (see FIG. 7B). Then, the difference calculation unit 20 outputs the calculated matrix W'as an unexpected degree. In step S13, the reciprocal of the cosine similarity representing the closeness obtained in step S12 is taken to calculate the unexpected degree representing the distance.
  • steps S2 and S8 A modification of steps S2 and S8 will be described.
  • steps S8 to S11 are executed after the execution of steps S1 to S7, but steps S1 to S7 may be executed after the execution of steps S8 to S11, and steps S1 to S7 and steps S8 to S11. May be executed in parallel in time.
  • the information processing apparatus 1 includes a NW diagram generation unit 21 and a NW diagram display unit 22 as shown in FIG.
  • the NW diagram generation unit 21 receives the unexpected degree matrix W'from the difference calculation unit 20, and generates a network diagram in which the unexpected degree between two items is the distance between the nodes.
  • the NW diagram display unit 22 outputs the generated network diagram to the screen of the display device to present the user with the degree of surprise between the items.
  • the word similarity between cucumber and rice learned from document data on the web is 0.8
  • the waveform similarity between the monthly fluctuation of the cucumber price index and the monthly fluctuation of the rice price index is 0.
  • the cucumber node and the rice node are connected by a line having a length corresponding to the difference of 0.7.
  • the numerical value may be written together with the line.
  • the information processing apparatus 1 includes a unified expression processing unit 23 and a synonym dictionary storage unit 24, as shown in FIG.
  • the expression unification processing unit 23 uses the synonym dictionary data to change the expressions of words and items contained in one of the document data and the time series data so as to match the expressions contained in the other data.
  • the expression unified processing unit 23 may change both semantically common words and items included in both the document data and the time series data to the standard notation. For example, if one data is described as "automobile” but another data is described as "car”, the fluctuation of the notation is absorbed by unifying it to "automobile" or "car".
  • each element u_ij of the plurality model word similarity matrix U and each element v_ij of the plurality model waveform similarity matrix V are both two-dimensional vectors, but each element may be represented as a scalar.
  • the line length is 2 m (the value of 2 is the number of data types)
  • the 1st to mth lines are the 1st type data (the first type of data (the value of 2 is the number of data types).
  • the second type of data (d Ont in the case of U, d in the case of V) Area ) is stored.
  • Variation 1 is in that the expression method of each element of U and V is changed from a vector to a scalar, and the matrix W is calculated by obtaining the cosine similarity as in step S12.
  • the element of the matrix W may be calculated by the function f shown in the equation (4) in a more generalized manner.
  • the function f is a definition formula of cosine similarity or a definition formula of relative entropy.
  • Variation 2 of the matrix representation method will be described.
  • the first type data and the second type data may be arranged in alternating rows.
  • the row of d Sim and the row of d Ont are arranged alternately
  • the row of d price and the row of d planted area are arranged alternately.
  • the calculation method of the matrix W the same calculation method as that of variation 1 can be used.
  • step S4 it is natural to think that the cosine similarity d Sim and the number of hops d Ont calculated for a certain two words are linguistically similar. However, it can be very different. Therefore, in step S6, the word similarity matrix calculation unit 15 determines the cosine similarity d Sim and the number of hops d Ont of each element included in the same positions of the word similarity matrix D Sim and the word similarity matrix D Ont , respectively. The average value of and may be calculated, and the average value may be used as an element of the plurality of model word similarity matrix U. That is, as shown in FIG.
  • the value stored in the cucumber row rice column (u_12) in U is the average value of dSim (cucumber, rice) and dOnt (cucumber, rice).
  • Each element of U is a scalar.
  • the waveform similarity matrix calculation unit 19 has the similarity d price and the similarity d of each element included in the same position of the waveform similarity matrix D price and the waveform similarity matrix D planted area , respectively.
  • the average value with the planted area may be calculated, and the average value may be used as an element of the plurality model waveform similarity matrix V.
  • the ones in which the similarity between waveforms is higher than the similarity between words are extracted as unexpectedness.
  • those having a small difference may be extracted for the purpose.
  • the matrix W of the cosine similarity obtained in step S12 is extracted as it is as an unexpected degree without calculating the matrix W'in step S13.
  • the information processing apparatus 1 obtains a word similarity matrix from a word expression model obtained from document data, and a waveform similarity matrix from time series data, and the difference, distance, or difference between the two. Since the angle is extracted as an unexpected degree, it is possible to extract an unexpected item with a high correlation that is difficult to imagine from the human sense.
  • the information processing apparatus 1 uses a plurality of types of document data and time series data (n in the above embodiment), the degree of surprise can be extracted with high accuracy.
  • the information processing apparatus 1 randomly selects document data and time-series data from a plurality of types of document data and time-series data, and has a word similarity between two words and 2 Since the waveform similarity between the waveforms of the items is calculated and the one-dimensional similarity is used, the calculation amount of the information processing apparatus 1 can be suppressed, and the unexpected degree can be extracted at high speed.
  • the present invention is not limited to the above embodiment.
  • the present invention can be modified in a number of ways within the scope of the gist of the present invention.
  • the information processing device 1 of the present embodiment described above has, for example, as shown in FIG. 12, a CPU (Central Processing Unit, processor) 901, a memory 902, and a storage (HDD: HardDiskDrive, SSD: SolidStateDrive). ) 903, a communication device 904, an input device 905, and an output device 906, which can be realized by using a general-purpose computer system.
  • the memory 902 and the storage 903 are storage devices.
  • each function of the information processing apparatus 1 is realized by the CPU 901 executing a predetermined program loaded on the memory 902.
  • the information processing device 1 may be mounted on one computer.
  • the information processing device 1 may be mounted on a plurality of computers.
  • the information processing device 1 may be a virtual machine mounted on a computer.
  • the program for the information processing apparatus 1 can be stored in a computer-readable recording medium such as an HDD, SSD, USB (Universal Serial Bus) memory, CD (Compact Disc), or DVD (Digital Versatile Disc).
  • the program for the information processing apparatus 1 can also be distributed via a communication network.
  • Information processing device 11 Language data storage unit 12: Language data selection unit 13: Word expression model construction unit 14: Word similarity calculation unit 15: Word similarity matrix calculation unit 16: Time series data storage unit 17: Time series Data selection unit 18: Waveform similarity calculation unit 19: Waveform similarity matrix calculation unit 20: Difference calculation unit 21: NW diagram generation unit 22: NW diagram display unit 23: Expression unified processing unit 24: Synonymous word dictionary storage unit 901: CPU 902: Memory 903: Storage 904: Communication device 905: Input device 906: Output device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

文書データから複数の単語を抽出し、前記複数の単語の特徴値をそれぞれ計算し、前記複数の単語の特徴値を含む単語表現モデルを構築する単語表現モデル構築部13と、前記複数の単語に含まれる2単語間の単語類似度をそれぞれ計算する単語類似度計算部14と、前記複数の単語について前記2単語間の単語類似度のそれぞれを行列の要素とする単語類似度行列を生成する単語類似度行列計算部15と、前記複数の単語に対応する複数の品目に関する所定種類の時間変動値を波形で示した時系列データを用いて、前記複数の品目に含まれる2品目の波形間の波形類似度をそれぞれ計算する波形類似度計算部18と、前記複数の品目について前記2品目の波形間の波形類似度のそれぞれを行列の要素とする波形類似度行列を生成する波形類似度行列計算部19と、前記単語類似度行列と前記波形類似度行列との差を品目間の相関の意外度として計算する差分計算部20と、を備える。

Description

情報処理装置、情報処理方法、および、プログラム
 本発明は、情報処理装置、情報処理方法、および、プログラムに関する。
 ビッグデータ時代の到来により、多種類のデータが存在する。また、そのデータには、非常に多数の物事(軸、品目)が含まれている。しかし、世の中に埋もれた多種類のデータの中から有意な結論を導くことは容易ではない。それゆえ、従来は、人が物事間の関係を主観的、感覚的に導き出していた。
 一方、ビッグデータ時代には大量のデータから価値が生まれると考えられており、データに基づき物事間の関係が客観的に遠い、近いを判断するスキルが求められる。しかし、人の客観的な判断スキルにはバラツキがあり、その支援を行う必要性が増している。
 また、ビジネス上の課題を分析する際、物事間の関係を明らかにすることは重要である。多量のデータが入手できるようになり、一般的に人の感覚的には関係なさそうな事象であっても、客観的にデータを分析すると互いに関係ある事象が潜んでいる。このような人が気づきにくい意外な事実を抽出することは、ビジネスチャンスにつながる可能性がある。
 そこで、従来、感覚的指標である単語間の類似度や客観的指標である時系列データ間の類似度をそれぞれ計算する方法が知られている(非特許文献1~3参照)。
元田 浩、外3名、"データマイニング基礎,2.5相関ルール"、株式会社オーム社、2008年3月、p.41-p.49 金久 保、"データマイニング,相関ルール抽出,支持度と確信度,アプリオリ・アルゴリズム"、[online]、[2020年8月11日検索]、<URL : https://www.sist.ac.jp/~kanakubo/research/data_mining.html> 神嶌 敏弘、"頻出パターンマイニング"、[online]、[2020年8月11日検索]、<URL : http://www.kamishima.net/archive/freqpat.pdf>
 しかしながら、感覚的な単語間の類似度や客観的な時系列データ間の類似度をそれぞれ計算する方法にすぎず、感覚的な単語間の類似度と客観的な時系列データ間の類似度との間の関係を抽出することはできない。それゆえ、「人の感覚的(=言語的ないし単語的)には遠いが、客観的な時系列データ上では近い」という、人の感覚からは想定しにくかった高い相関をもつ品目、つまり、関連に意外性が高い品目を抽出することは難しい、という課題があった。
 本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、人の感覚からは想定しにくかった高い相関を持つ品目を抽出可能な技術を提供することである。
 本発明の一態様の情報処理装置は、文書データから複数の単語を抽出し、前記複数の単語の特徴値をそれぞれ計算し、前記複数の単語の特徴値を含む単語表現モデルを構築する構築部と、前記単語表現モデルを用いて、前記複数の単語に含まれる2単語間の単語類似度をそれぞれ計算する第1の計算部と、前記複数の単語について前記2単語間の単語類似度のそれぞれを行列の要素とする単語類似度行列を生成する第1の生成部と、前記複数の単語に対応する複数の品目に関する所定種類の時間変動値を波形で示した時系列データを用いて、前記複数の品目に含まれる2品目の波形間の波形類似度をそれぞれ計算する第2の計算部と、前記複数の品目について前記2品目の波形間の波形類似度のそれぞれを行列の要素とする波形類似度行列を生成する第2の生成部と、前記単語類似度行列と前記波形類似度行列との差、距離、または、角度を品目間の相関の意外度として計算する第3の計算部と、を備える。
 本発明の一態様の情報処理方法は、情報処理装置で行う情報処理方法において、文書データから複数の単語を抽出し、前記複数の単語の特徴値をそれぞれ計算し、前記複数の単語の特徴値を含む単語表現モデルを構築するステップと、前記単語表現モデルを用いて、前記複数の単語に含まれる2単語間の単語類似度をそれぞれ計算するステップと、前記複数の単語について前記2単語間の単語類似度のそれぞれを行列の要素とする単語類似度行列を生成するステップと、前記複数の単語に対応する複数の品目に関する所定種類の時間変動値を波形で示した時系列データを用いて、前記複数の品目に含まれる2品目の波形間の波形類似度をそれぞれ計算するステップと、前記複数の品目について前記2品目の波形間の波形類似度のそれぞれを行列の要素とする波形類似度行列を生成するステップと、前記単語類似度行列と前記波形類似度行列との差、距離、または、角度を品目間の相関の意外度として計算するステップと、を行う。
 本発明の一態様は、上記情報処理装置としてコンピュータを機能させるプログラムである。
 本発明によれば、人の感覚からは想定しにくかった高い相関を持つ品目を抽出可能な技術を提供できる。
図1は、本発明の概要を示す図である。 図2は、本発明の概要を示す図である。 図3は、情報処理装置1の機能ブロック構成の例を示す図である。 図4は、情報処理装置1の動作フローの例を示す図である。 図5は、複数モデル単語類似度行列Uの生成手順の例を示す図である。 図6は、複数モデル波形類似度行列Vの生成手順の例を示す図である。 図7は、意外度の行列W’の生成手順の例を示す図である。 図8は、ネットワーク図の例を示す図である。 図9は、行列の表現方法のバリエーション1の例を示す図である。 図10は、行列の表現方法のバリエーション2の例を示す図である。 図11は、行列の表現方法のバリエーション3の例を示す図である。 図12は、情報処理装置1のハードウェア機能の例を示す図である。
 以下、図面を参照して、本発明の実施形態を説明する。図面の記載において同一部分には同一符号を付し説明を省略する。
 [1.発明の概要]
 本発明は、人にとってあたりまえの感覚的な知識・経験と、数字からわかる客観的な事実との差を抽出する。前者は言語表現上の2品目間(2単語間)の類似度とし、後者は時系列データ上の2品目の波形間の類似度とする。特に、前者の類似度は低いが後者の類似度は高いものを、データを分析しなければわからない、意外性が高い価値ある真実として抽出する。
 具体的には、図1に示すように、文書から得られる各単語の単語表現モデルから単語類似度行列を求めるとともに、各品目(各単語)の時系列データから波形類似度行列を求め、その両者の差、距離、角度を意外度として抽出する。
 図1では、単語表現モデルおよび時系列データをそれぞれ1種類ずつ用いた場合を例示したが、図2に示すように、実際には、それぞれのデータは複数存在する。そのため、複数の単語表現モデルから各々の単語類似度行列を求めて複数モデル単語類似度行列を生成するとともに、複数の時系列データから各々の波形類似度行列を求めて複数モデル波形類似度行列を生成し、その両者の差、距離、角度を意外度として抽出する。
 [2.情報処理装置の構成]
 図3は、本実施形態に係る情報処理装置の機能ブロック構成を示す図である。情報処理装置1は、感覚的な単語間の類似度と客観的な時系列データ間の類似度との間の関係を計算する装置である。
 情報処理装置1は、図3に示すように、言語データ記憶部11と、言語データ選択部12と、単語表現モデル構築部13と、単語類似度計算部14と、単語類似度行列計算部15と、時系列データ記憶部16と、時系列データ選択部17と、波形類似度計算部18と、波形類似度行列計算部19と、差分計算部20と、NW図生成部21と、NW図表示部22と、表現統一処理部23と、類義語辞書記憶部24と、を備える。
 言語データ記憶部11は、情報処理装置1が収集した複数の文書データを記憶する機能を備える。複数とは、文書データの数量、種類が複数あることをいう。文書データとは、例えば、仕様書、保守マニュアル、ウィキペディア、アンケートである。
 言語データ選択部12は、複数の文書データの中からランダムに文書データを選択する機能を備える。
 単語表現モデル構築部(構築部)13は、一の文書データから複数の単語を抽出し、既存の計算手段を用いて当該抽出した各単語の特徴値や単語間の意味的関係の距離をそれぞれ計算し、その既存の計算手段ごとに、各単語の特徴値や単語間の意味的関係の距離を含む単語表現モデルをそれぞれ構築する機能を備える。既存の計算手段とは、例えば、Word2vec、オントロジであり、単語の特徴値や単語間の意味的関係の離れ具合を計算可能な計算手段であればよい。
 単語類似度計算部(第1の計算部)14は、単語表現モデルごとに、複数の単語に含まれる2単語間の単語類似度をそれぞれ計算する機能を備える。
 単語類似度行列計算部(第1の生成部)15は、単語表現モデルごとに、複数の単語について2単語間の単語類似度のそれぞれを行列の要素とする単語類似度行列を生成する機能を備える。また、単語類似度行列計算部15は、複数の単語表現モデルの各単語類似度行列を合成することで複数モデル単語類似度行列を生成する機能を備える。
 時系列データ記憶部16は、情報処理装置1が収集した複数の時系列データを記憶する機能を備える。複数とは、時系列データの数量、種類が複数あることをいう。時系列データとは、時間軸に沿って変動する品目の所定種類の時間変動値を波形で示したデータである。品目とは、文書データに含まれる単語に関する品物の種目である。所定種類とは、例えば、物価指数、品質、作付面積である。
 時系列データ選択部17は、複数の時系列データの中からランダムに時系列データを選択する機能を備える。
 波形類似度計算部(第2の計算部)18は、時系列データごとに、複数の品目に含まれる2品目の波形間の波形類似度をそれぞれ計算する機能を備える。
 波形類似度行列計算部(第2の生成部)19は、時系列データごとに、複数の品目について2品目の波形間の波形類似度のそれぞれを行列の要素とする波形類似度行列を生成する機能を備える。また、波形類似度行列計算部19は、複数の時系列データの各波形類似度行列を合成することで複数モデル波形類似度行列を生成する機能を備える。
 差分計算部(第3の計算部)20は、単語表現モデルおよび時系列データがそれぞれ1種類ずつであれば、単語類似度行列と波形類似度行列との差、距離、角度を品目間の相関の意外度として計算する機能を備える。また、差分計算部20は、単語表現モデルおよび時系列データがそれぞれ複数種類ずつであれば、複数モデル単語類似度行列と複数モデル波形類似度行列との差、距離、角度を品目間の相関の意外度として抽出する機能を備える。
 なお、距離および角度は、単語類似度行列と波形類似度行列との差に応じた距離および角度である。後述の通り、行列の要素はベクトルまたはスカラーであり、その2つの行列におけるベクトルの差やスカラーの差を求めることで、距離および角度を計算できる。
 NW図生成部21は、2品目間の意外度をノード間の距離としたネットワーク図を生成する機能を備える。
 NW図表示部22は、生成したネットワーク図を表示装置の画面に出力する機能を備える。
 表現統一処理部(処理部)23は、類義語辞書データを用いて、同じ意味を有する単語と品目の各表記を同一の表記に変更する機能を備える。
 類義語辞書記憶部24は、類義語辞書データを記憶する機能を備える。類義語辞書データとは、語形は異なるが意味が類似する複数の表現表記をまとめた辞書データである。
 [3.情報処理装置の動作]
 図4は、情報処理装置の動作フローを示す図である。
 ステップS1;
 情報処理装置1は、単語表現モデル構築用の文書データを収集する。情報処理装置1は、ユーザが入力した文書データを収集してもよいし、インターネット上のウェブサイトから受信した文書データを収集してもよい。例えば、情報処理装置1は、保守マニュアル、ウィキペディア、アンケート、のN(N=3)種類の文書データを収集する(図5(a)参照)。
 ステップS2;
 次に、言語データ選択部12は、収集したN種類の文書データの中からランダムにn種類の文書データを選択する。例えば、言語データ選択部12は、保守マニュアル、ウィキペディア、のn(n=2)種類の文書データを選択する(図5(b)参照)。ステップS1で多数の種類の文書データが収集されている可能性があることから、ステップS2で使用対象の文書データの数を絞ることにより、情報処理装置1の計算量を削減可能となり、高速に意外度を求めることができる。
 ステップS3;
 次に、単語表現モデル構築部13は、ランダムに選択したn(=2)種類の文書データの中からm個の単語を抽出する。そして、単語表現モデル構築部13は、例えばWord2vecを用いて各単語の特徴ベクトルをそれぞれ求め、求めた全ての単語のベクトルを1つにまとめた単語表現モデル1を構築する(図5(c)参照)。図5(c)の単語表現モデル1では、各単語のベクトルを3次元で表現している。
 同様に、単語表現モデル構築部13は、例えばオントロジを用いて単語間の意味的関係の距離を求め、求めた単語間の意味的関係の距離に応じた数の線で単語同士を接続した単語表現モデル2を構築する(図5(c)参照)。n(=2)種類の文書データを用いるので、高精度に意外度を求めることができる。
 ステップS4;
 次に、単語類似度計算部14は、構築した2つの単語表現モデル1,2にそれぞれ含まれる複数の単語について2単語間の単語類似度を計算する。例えば、単語類似度計算部14は、単語表現モデル1について、式(1)に示すように、キュウリのベクトルと米のベクトルとの間のコサイン類似度dSim(キュウリ,米)を計算する(図5(d)参照)。
  dSim(キュウリ,米)=(0.9×0.2+0.3×0.6+0.1×0.4)÷(√(0.9^2+0.3^2+0.1^2)×√(0.2^2+0.6^2+0.4^2))=0.56 ・・・(1)
 また、単語類似度計算部14は、単語表現モデル2について、式(2)に示すように、キュウリと米との間のホップ数dOnt(キュウリ,米)を計算する(図5(d)参照)。
  dOnt(キュウリ,米)=3 ・・・(2)
 2単語間の単語類似度を計算するので、2次元から1次元へとベクトルの次元数が少なくなることから、情報処理装置1の計算量を抑制可能となり、高速に意外度を求めることができる。
 ステップS5;
 次に、単語類似度行列計算部15は、単語表現モデル1について、2単語間の単語類似度のそれぞれを行列の要素とするm行m列の単語類似度行列DSimを生成する(図5(e)参照)。DSimの各要素は、dSimの対称行列になる。同様に、単語類似度行列計算部15は、単語表現モデル2について、2単語間のホップ数のそれぞれを行列の要素とするm行m列の単語類似度行列DOntを生成する(図5(e)参照)。DOntの各要素は、dOntの対称行列になる。
 ステップS6;
 次に、単語類似度行列計算部15は、単語類似度行列DSimと単語類似度行列DOntとを合成することで複数モデル単語類似度行列Uを生成する(図5(f)参照)。Uの各要素u_ijは、DSimのi行j列の値と、DOntのi行j列の値と、からなるベクトルとする。すなわち、Uにおけるキュウリ行米列(u_12)に格納されるのは、dSim(キュウリ,米)を1次元目とし、dOnt(キュウリ,米)を2次元目とする、2次元のベクトルとなる。なお、ベクトルの次元数は、単語表現モデルの数に一致する。
 ステップS7;
 次に、情報処理装置1は、ステップS3で抽出した単語に関する時系列データを収集する。一の時系列データには、m種類の品目(=単語)についての時系列値が入っている。情報処理装置1は、ユーザが入力した時系列データを収集してもよいし、インターネット上のウェブサイトから受信した時系列データを収集してもよい。例えば、情報処理装置1は、キュウリ、米、のm(m=2)種類の品目に関する、物価指数、品質、作付面積、のN(N=3)種類の時系列データを収集する(図6(a)参照)。
 ステップS8;
 次に、時系列データ選択部17は、収集した3種類の時系列データの中からランダムにn種類の時系列データを選択する。例えば、時系列データ選択部17は、物価指数、作付面積、のn(n=2)種類の時系列データ1,2を選択する(図6(b)参照)。ステップS7で多数の種類の時系列データが収集されている可能性があることから、ステップS8で使用対象の時系列データの数量を絞ることにより、情報処理装置1の計算量を削減可能となり、高速に意外度を求めることができる。
 ステップS9;
 次に、波形類似度計算部18は、ランダムに選択したn(=2)種類(物価指数、作付面積)の各時系列データ1,2を用いて、そのn(=2)種類の各時系列データ1,2にそれぞれ含まれる複数の品目について2品目の波形間の波形類似度を計算する。例えば、波形類似度計算部18は、DTW(Dynamic Time Warping)法を用いて、物価指数の時系列データ1に含まれるキュウリの波形と米の波形との波形類似度d物価(キュウリ,米)を計算する(図6(c)参照)。また、波形類似度計算部18は、DTW法を用いて、作付面積の時系列データ2に含まれるキュウリの波形と米の波形との波形類似度d作付面積(キュウリ,米)を計算する(図6(c)参照)。2種類の時系列データを用いるので、高精度に意外度を求めることができる。2品目の波形間の波形類似度を計算するので、2次元から1次元へとベクトルの次元数が少なくなることから、情報処理装置1の計算量を抑制可能となり、高速に意外度を求めることができる。
 ステップS10;
 次に、波形類似度行列計算部19は、時系列データ1について、2品目の波形間の波形類似度のそれぞれを行列の要素とするm行m列の波形類似度行列D物価を生成する(図6(d)参照)。D物価の各要素は、d物価の対称行列になる。同様に、波形類似度行列計算部19は、時系列データ2について、2品目の波形間の波形類似度のそれぞれを行列の要素とするm行m列の波形類似度行列D作付面積を生成する(図6(d)参照)。D作付面積の各要素は、d作付面積の対称行列になる。
 ステップS11;
 次に、波形類似度行列計算部19は、波形類似度行列D物価と波形類似度行列D作付面積とを合成することで複数モデル波形類似度行列Vを生成する(図6(e)参照)。Vの各要素v_ijは、D物価のi行j列の値と、D作付面積のi行j列の値と、からなるベクトルとする。すなわち、Vにおけるキュウリ行米列(v_12)に格納されるのは、d物価(キュウリ,米)を1次元目とし、d作付面積(キュウリ,米)を2次元目とする、2次元のベクトルとなる。
 ステップS12;
 次に、差分計算部20は、複数モデル単語類似度行列Uの各要素u_ij(2次元ベクトル)と複数モデル波形類似度行列Vの各要素v_ij(2次元ベクトル)との間のコサイン類似度を要素とする行列W(1次元ベクトル)を求める(図7(a)参照)。コサイン類似度の代わりに、相対エントロピー(例えば、カルバック・ライブラー情報量)をはじめとする、2つのベクトルの間の離れ具合を表現する周知の方法を用いてもよい。
 ステップS13;
 最後に、差分計算部20は、ステップS12で求めた行列Wの各要素の逆数を要素とする行列W’を計算する(図7(b)参照)。そして、差分計算部20は、計算した行列W’を意外度として出力する。ステップS13では、ステップS12で求めた近さを表すコサイン類似度の逆数を取ることで、遠さを表す意外度を算出する。
 [3.1.変形例1]
 ステップS12,S13の変形例を説明する。ステップS12では、UとVの各要素がともに2次元ベクトルであるので、コサイン類似度を求めたが、各要素が1次元(n=1)の場合には、コサイン類似度の代わりに、式(3)に示すように、UとVとの差を意外度の行列W’としてもよい。なお、wは、Uの重みである。wは、Vの重みである。
  W’=w×U-w×V ・・・(3)
 [3.2.変形例2]
 ステップS2,S8の変形例を説明する。ステップS2,S8では、選択する文書データおよび時系列データの種類数が2種類(n=2)の場合を説明したが、3種類(n=3)以上の場合でも同様に実施することができる。
 [3.3.変形例3]
 ステップ順の変形例を説明する。上記動作フローでは、ステップS1~S7の実行後にステップS8~S11を実行したが、ステップS8~S11の実行後にステップS1~S7を実行してもよいし、ステップS1~S7とステップS8~S11とを時間的に並列に実行してもよい。
 [4.付加機能]
 [4.1.付加機能1]
 意外度を可視化するための支援機能を説明する。その支援機能として、情報処理装置1は、図3に示したように、NW図生成部21およびNW図表示部22を備える。NW図生成部21は、差分計算部20から意外度の行列W’を受け取り、2品目間の意外度をノード間の距離としたネットワーク図を生成する。NW図表示部22は、生成したネットワーク図を表示装置の画面に出力することで、品目間の意外度をユーザに提示する。
 例えば、ウェブ上の文書データから学習した、キュウリと米との間の単語類似度が0.8であり、キュウリの物価指数の月変動と米の物価指数の月変動との波形類似度が0.1である場合、図8に示すように、キュウリのノードと米のノードとを、その差である0.7に応じた長さの線でつなぐ。線にその数値を併記してもよい。このように、2品目間の意外度をノード間の距離としたネットワーク図を生成するので、意外度が見やすく、関連性に意外性のある2品目を発見し易くなる。文書データや時系列データが多いときに特に便利である。
 [4.2.付加機能2]
 表記ゆれを吸収するための支援機能を説明する。ステップS1,S7で収集した文書データおよび時系列データは、データによって表記が異なっている場合がある。そこで、その支援機能として、情報処理装置1は、図3に示したように、表現統一処理部23および類義語辞書記憶部24を備える。表現統一処理部23は、類義語辞書データを用いて、文書データおよび時系列データのうち一方のデータに含まれる単語や品目の表現を、他方のデータに含まれる表現に一致するように変更する。その他、表現統一処理部23は、文書データおよび時系列データの両方のデータに含まれる意味的に共通する単語や品目を、ともに標準的な表記に変更してもよい。例えば、あるデータでは「自動車」と表記されているが、別のデータでは「車」と表記されている場合、「自動車」または「車」に統一することで、表記の揺れを吸収する。
 [5.バリエーション]
 [5.1.バリエーション1]
 行列の表現方法のバリエーション1を説明する。上記実施例では、複数モデル単語類似度行列Uの各要素u_ijと複数モデル波形類似度行列Vの各要素v_ijはともに2次元ベクトルであったが、それらの各要素をスカラーとして表してもよい。そのための1つの表し方としては、図9に示すように、行の長さを2m個として(当該2の値はデータ種類の数)、1行目~m行目を1種類目のデータ(Uの例であればdSim、Vの例であればd物価)、m+1行目~2m行目を2種類目のデータ(Uの例であればdOnt、Vの例であればd作付面積)を格納する。
 なお、バリエーション1はUとVの各要素の表現の仕方をベクトルからスカラーに変更した点にあり、行列Wについては、ステップS12と同様にコサイン類似度を求めて計算する。より一般化して式(4)に示す関数fにより行列Wの要素を算出してもよい。
  f(dSim(キュウリ,米),dOnt(キュウリ,米),d物価(キュウリ,米),d作付面積(キュウリ,米)) ・・・(4)
 関数fは、コサイン類似度の定義式、または、相対エントロピーの定義式である。
 [5.2.バリエーション2]
 行列の表現方法のバリエーション2を説明する。バリエーション1との別バリエーションとして、図10に示すように、1種類目のデータと2種類目のデータとを交互の行にしてもよい。例えば、先のUの例であればdSimの行とdOntの行とを交互に配置し、Vの例であればd物価の行とd作付面積の行とを交互に配置する。行列Wの計算方法は、バリエーション1と同じ計算方法を用いることができる。
 [5.3.バリエーション3]
 行列の表現方法のバリエーション3を説明する。ステップS4において、ある2つの単語に関して計算したコサイン類似度dSimとホップ数dOntとは言語的には同程度になると考えるのが自然である。しかし、大きく異なる可能性もある。そこで、ステップS6において、単語類似度行列計算部15は、単語類似度行列DSimと単語類似度行列DOntとの同一の位置にそれぞれ含まれる各要素のコサイン類似度dSimとホップ数dOntとの平均値を計算し、その平均値を複数モデル単語類似度行列Uの要素としてもよい。すなわち、図11に示すように、Uにおけるキュウリ行米列(u_12)に格納される値は、dSim(キュウリ,米)とdOnt(キュウリ,米)との平均値となる。Uの各要素はスカラーとなる。同様に、ステップS11において、波形類似度行列計算部19は、波形類似度行列D物価と波形類似度行列D作付面積との同一の位置にそれぞれ含まれる各要素の類似度d物価と類似度d作付面積との平均を計算し、その平均値を複数モデル波形類似度行列Vの要素としてもよい。
 [5.4.バリエーション4]
 上記実施例では、単語間の類似度よりも波形間の類似度の方が高いもの、すなわち、波形間の類似度と単語間の類似度との差が大きいものを意外度として抽出したが、逆に、その差が小さいもの(近いもの)を目的として抽出してもよい。具体的には、ステップS13で行列W’を計算せずに、ステップS12で求めたコサイン類似度の行列Wをそのまま意外度として抽出する。
 [5.5.バリエーション5]
 上記実施例では、意外度の行列W’を提示する処理までで終了したが、事前に閾値tを設け、行列W’の各要素のうち閾値tを上回っている要素を抽出し、「この要素が意外度が高いですよ」と提案してもよい。例えば、キュウリと米が交差する部分の要素であれば、キュウリと米の間の意外度が高いですよ、というメッセージを表示装置の画面に出力する。
 [6.情報処理装置の運用例]
 例えば、トラフィックの急激な増加が起きた際、「サーバのCPU使用率」と「サッカー試合のチケット収入」が意外にも関係あることを見出し、トラフィック増加要因を探り当てる用途に応用可能である。見えない要因によってあたかも因果関係が生じているかのように見える擬似相関である可能性はあるが、本発明では、疑似相関であっても、相関があるからにはそこにビジネスチャンスがあるかもしれない、という立場を提案する。
 [7.効果]
 本実施形態によれば、情報処理装置1は、文書データから得られる単語表現モデルから単語類似度行列を求め、また、時系列データから波形類似度行列を求め、両者の差、距離、または、角度を意外度として抽出するので、人の感覚からは想定しにくかった高い相関を持つ意外性のある品目を抽出できる。
 また、本実施形態によれば、情報処理装置1は、複数の種類の文書データおよび時系列データを用いるので(上記実施例ではn個)、高精度に意外度を抽出できる。
 また、本実施形態によれば、情報処理装置1は、複数の種類の文書データおよび時系列データの中からランダムに文書データおよび時系列データを選択したり、2単語間の単語類似度や2品目の波形間の波形類似度を計算して1次元の類似度を用いたりするので、情報処理装置1の計算量を抑制可能となり、高速に意外度を抽出できる。
 [8.その他]
 本発明は、上記実施形態に限定されない。本発明は、本発明の要旨の範囲内で数々の変形が可能である。
 上記説明した本実施形態の情報処理装置1は、例えば、図12に示すように、CPU(Central Processing Unit、プロセッサ)901と、メモリ902と、ストレージ(HDD:Hard Disk Drive、SSD:Solid State Drive)903と、通信装置904と、入力装置905と、出力装置906と、を備えた汎用的なコンピュータシステムを用いて実現できる。メモリ902及びストレージ903は、記憶装置である。当該コンピュータシステムにおいて、CPU901がメモリ902上にロードされた所定のプログラムを実行することにより、情報処理装置1の各機能が実現される。
 情報処理装置1は、1つのコンピュータで実装されてもよい。情報処理装置1は、複数のコンピュータで実装されてもよい。情報処理装置1は、コンピュータに実装される仮想マシンであってもよい。情報処理装置1用のプログラムは、HDD、SSD、USB(Universal Serial Bus)メモリ、CD(Compact Disc)、DVD(Digital Versatile Disc)などのコンピュータ読取り可能な記録媒体に記憶できる。情報処理装置1用のプログラムは、通信ネットワークを介して配信することもできる。
 1:情報処理装置
 11:言語データ記憶部
 12:言語データ選択部
 13:単語表現モデル構築部
 14:単語類似度計算部
 15:単語類似度行列計算部
 16:時系列データ記憶部
 17:時系列データ選択部
 18:波形類似度計算部
 19:波形類似度行列計算部
 20:差分計算部
 21:NW図生成部
 22:NW図表示部
 23:表現統一処理部
 24:類義語辞書記憶部
 901:CPU
 902:メモリ
 903:ストレージ
 904:通信装置
 905:入力装置
 906:出力装置

Claims (8)

  1.  文書データから複数の単語を抽出し、前記複数の単語の特徴値をそれぞれ計算し、前記複数の単語の特徴値を含む単語表現モデルを構築する構築部と、
     前記単語表現モデルを用いて、前記複数の単語に含まれる2単語間の単語類似度をそれぞれ計算する第1の計算部と、
     前記複数の単語について前記2単語間の単語類似度のそれぞれを行列の要素とする単語類似度行列を生成する第1の生成部と、
     前記複数の単語に対応する複数の品目に関する所定種類の時間変動値を波形で示した時系列データを用いて、前記複数の品目に含まれる2品目の波形間の波形類似度をそれぞれ計算する第2の計算部と、
     前記複数の品目について前記2品目の波形間の波形類似度のそれぞれを行列の要素とする波形類似度行列を生成する第2の生成部と、
     前記単語類似度行列と前記波形類似度行列との差、距離、または、角度を品目間の相関の意外度として計算する第3の計算部と、
     を備える情報処理装置。
  2.  前記第1の生成部は、複数の種類の前記単語表現モデルに対応する複数の前記単語類似度行列を生成し、前記複数の単語類似度行列を合成することで複数モデル単語類似度行列を生成し、
     前記第2の生成部は、複数の種類の前記時系列データに対応する複数の前記波形類似度行列を生成し、前記複数の波形類似度行列を合成することで複数モデル波形類似度行列を生成し、
     前記第3の計算部は、
     前記複数モデル単語類似度行列と前記複数モデル波形類似度行列との差、距離、または、角度を前記意外度として計算する請求項1に記載の情報処理装置。
  3.  前記構築部は、複数の種類の文書データを用いて前記単語表現モデルを構築し、
     前記第2の計算部は、
     複数の種類の時系列データを用いて前記波形類似度を計算する請求項1または2に記載の情報処理装置。
  4.  前記構築部は、前記複数の種類の文書データの中からランダムに選択した文書データを用いて前記単語表現モデルを構築し、
     前記第2の計算部は、
     前記複数の種類の時系列データの中からランダムに選択した時系列データを用いて前記波形類似度を計算する請求項3に記載の情報処理装置。
  5.  同じ意味を有する単語と品目の各表記を同一の表記に変更する処理部をさらに備える請求項1乃至4のうちいずれかに記載の情報処理装置。
  6.  前記第1の生成部は、前記複数の単語類似度行列の同一の位置にそれぞれ含まれる各要素の単語類似度を平均した平均値を、前記複数モデル単語類似度行列の要素とし、
     前記第2の生成部は、
     前記複数の波形類似度行列の同一の位置にそれぞれ含まれる各要素の波形類似度を平均した平均値を、前記複数モデル波形類似度行列の要素とする請求項2に記載の情報処理装置。
  7.  情報処理装置で行う情報処理方法において、
     文書データから複数の単語を抽出し、前記複数の単語の特徴値をそれぞれ計算し、前記複数の単語の特徴値を含む単語表現モデルを構築するステップと、
     前記単語表現モデルを用いて、前記複数の単語に含まれる2単語間の単語類似度をそれぞれ計算するステップと、
     前記複数の単語について前記2単語間の単語類似度のそれぞれを行列の要素とする単語類似度行列を生成するステップと、
     前記複数の単語に対応する複数の品目に関する所定種類の時間変動値を波形で示した時系列データを用いて、前記複数の品目に含まれる2品目の波形間の波形類似度をそれぞれ計算するステップと、
     前記複数の品目について前記2品目の波形間の波形類似度のそれぞれを行列の要素とする波形類似度行列を生成するステップと、
     前記単語類似度行列と前記波形類似度行列との差、距離、または、角度を品目間の相関の意外度として計算するステップと、
     を行う情報処理方法。
  8.  請求項1乃至6のいずれかに記載の情報処理装置としてコンピュータを機能させるプログラム。
PCT/JP2020/031997 2020-08-25 2020-08-25 情報処理装置、情報処理方法、および、プログラム WO2022044115A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2020/031997 WO2022044115A1 (ja) 2020-08-25 2020-08-25 情報処理装置、情報処理方法、および、プログラム
JP2022544927A JP7448857B2 (ja) 2020-08-25 2020-08-25 情報処理装置、情報処理方法、および、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/031997 WO2022044115A1 (ja) 2020-08-25 2020-08-25 情報処理装置、情報処理方法、および、プログラム

Publications (1)

Publication Number Publication Date
WO2022044115A1 true WO2022044115A1 (ja) 2022-03-03

Family

ID=80354872

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/031997 WO2022044115A1 (ja) 2020-08-25 2020-08-25 情報処理装置、情報処理方法、および、プログラム

Country Status (2)

Country Link
JP (1) JP7448857B2 (ja)
WO (1) WO2022044115A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023238288A1 (ja) * 2022-06-08 2023-12-14 日本電信電話株式会社 先行関係抽出装置及び先行関係抽出方法並びに先行関係抽出プログラム
WO2024171378A1 (ja) * 2023-02-16 2024-08-22 日本電信電話株式会社 推定装置、推定方法、及び、推定プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234618A (ja) * 2007-02-23 2008-10-02 Oki Electric Ind Co Ltd 知識抽出装置、知識抽出方法およびコンピュータプログラム
JP2009193584A (ja) * 2008-02-13 2009-08-27 Fujitsu Ltd ワードセットに関係するワードの決定
JP2015225637A (ja) * 2014-05-30 2015-12-14 アズビル株式会社 相関分析装置、相関分析方法、および相関分析用プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234618A (ja) * 2007-02-23 2008-10-02 Oki Electric Ind Co Ltd 知識抽出装置、知識抽出方法およびコンピュータプログラム
JP2009193584A (ja) * 2008-02-13 2009-08-27 Fujitsu Ltd ワードセットに関係するワードの決定
JP2015225637A (ja) * 2014-05-30 2015-12-14 アズビル株式会社 相関分析装置、相関分析方法、および相関分析用プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023238288A1 (ja) * 2022-06-08 2023-12-14 日本電信電話株式会社 先行関係抽出装置及び先行関係抽出方法並びに先行関係抽出プログラム
WO2024171378A1 (ja) * 2023-02-16 2024-08-22 日本電信電話株式会社 推定装置、推定方法、及び、推定プログラム

Also Published As

Publication number Publication date
JPWO2022044115A1 (ja) 2022-03-03
JP7448857B2 (ja) 2024-03-13

Similar Documents

Publication Publication Date Title
CN102770857B (zh) 关系信息扩展装置、关系信息扩展方法以及程序
US7711735B2 (en) User segment suggestion for online advertising
JP6231944B2 (ja) 学習モデル作成装置、判定システムおよび学習モデル作成方法
WO2010026900A1 (ja) 関係性発見装置、関係性発見方法および記録媒体
US20140297628A1 (en) Text Information Processing Apparatus, Text Information Processing Method, and Computer Usable Medium Having Text Information Processing Program Embodied Therein
WO2022044115A1 (ja) 情報処理装置、情報処理方法、および、プログラム
Smith et al. Concurrent visualization of relationships between words and topics in topic models
JP2022037955A (ja) 学習モデルを選択するシステム
Kumar Learning predictive analytics with Python
KR20190118744A (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
Lin et al. A consumer review-driven recommender service for web e-commerce
US10289624B2 (en) Topic and term search analytics
US20140188785A1 (en) Information processing device, computer-readable recording medium, and node extraction method
KR102119083B1 (ko) 사용자 리뷰 기반 평점 재산정 장치 및 방법, 이를 기록한 기록매체
Samah et al. Aspect-Based Classification and Visualization of Twitter Sentiment Analysis Towards Online Food Delivery Services in Malaysia
CN115495636A (zh) 网页搜索方法、装置及存储介质
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
Feng et al. A novel approach for clustering sentiments in Chinese blogs based on graph similarity
JP7001380B2 (ja) 情報処理システム、情報処理方法、およびプログラム
Tripathi et al. Analysis and prediction of extent of helpfulness of reviews on E-commerce websites
JP2008171336A (ja) 文書クラスタ処理装置、文書クラスタ処理方法およびプログラム
JP7323846B2 (ja) 文書作成支援装置、文書作成支援方法、および、文書作成支援プログラム
JP7418781B2 (ja) 企業類似度算出サーバ及び企業類似度算出方法
JPWO2018235177A1 (ja) 情報処理装置、情報処理システム、情報処理方法、及び、プログラム
JP6613942B2 (ja) 情報出力システム、情報出力方法および情報出力プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20951369

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022544927

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20951369

Country of ref document: EP

Kind code of ref document: A1