JPWO2015145981A1 - 多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、多言語文書類似度学習プログラム - Google Patents
多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、多言語文書類似度学習プログラム Download PDFInfo
- Publication number
- JPWO2015145981A1 JPWO2015145981A1 JP2016509952A JP2016509952A JPWO2015145981A1 JP WO2015145981 A1 JPWO2015145981 A1 JP WO2015145981A1 JP 2016509952 A JP2016509952 A JP 2016509952A JP 2016509952 A JP2016509952 A JP 2016509952A JP WO2015145981 A1 JPWO2015145981 A1 JP WO2015145981A1
- Authority
- JP
- Japan
- Prior art keywords
- document
- similarity
- documents
- matrix
- multilingual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本発明は、多言語文書群において、言語が3種類以上であっても、より低コストにより精度よく、類似文書を検索するための技術を提供する。多言語文書類似度学習装置1は、対象言語毎に行列を保持する多言語行列記憶部11と、文書に対応する単語ベクトルを取得する単語ベクトル取得部12と、文書の単語ベクトルおよびその文書の記述言語に対応する行列に基づいて、その文書の意味ベクトルを作成する意味ベクトル作成部13と、文書の組について、各文書の意味ベクトルに基づいて類似度を計算する類似度計算部14と、対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の類似度が、対訳関係にない文書の組の類似度より高くなるように、各対象言語に対応する行列の値を調整して学習する多言語行列学習部15と、を備える。
Description
本発明は、異なる言語の文書が混在している多言語文書群において、互いに内容が類似している文書を発見する技術に関する。
インターネットが普及し、多様な情報が様々な言語で発信されるようになった。より多くの情報を収集するためには、より多くの言語で記述された情報を対象にすべきである。しかし、この場合、異なる言語で記述された類似する情報が個別に収集され、別の情報として提示されることになり、情報収集の観点では効率が悪い。
このような問題に関連する技術が、特許文献1に記載されている。この関連技術は、対象の文書を、一度基準となる言語、例えば英語に機械翻訳した後、クラスタリング等の技術を用いて、類似する内容の文書をまとめ上げている。
また、このような問題に関連する他の技術が、特許文献2に記載されている。特許文献2では、機械翻訳結果という中間結果を経ずに、対訳コーパスから直接、2言語間の内容の類似性を表すモデルを学習するSSI(supervised semantic indexing)という枠組みが提案されている。この関連技術は、以下のように、2言語間の文書の類似性を学習・判定する。
まず、この関連技術は、言語横断で対訳関係にある文書集合において、各言語の各文書dijを、bag-of-wordsで表現(言語毎の次元数D1,D2は自由)する。ここで、添え字iは、言語の種類を表す。また、添え字jは、言語毎の文書のIDを表す。
そして、この関連技術は、言語対の対応関係を学習する行列Wを用意する。Wは、D1×D2(D1行D2列)の行列である。ただし、学習すべきパラメータ数が多いので、次元圧縮のため、W=UT・Vを満たすU、Vについて学習を行う。ここで、UTは、Uの転置行列を表す。なお、U,Vは、それぞれN×D1,N×D2の行列とする。また、N=100などが適用される。文書対のスコアを算出する式を、次式(1)に示す。
このとき、対訳関係の文書対のスコアが、それ以外の文書対のスコアより高くなるように、U,Vの学習が行われる。そして、この関連技術は、異なる言語の文書d1j,d2k間の類似性を、学習した行列U,Vを用いて、式(1)により判定する。
また、このような問題に関連するさらに他の技術が、特許文献3に記載されている。この関連技術は、異なる言語で記述された複数の文書の中から、ある言語で記述された検索要求に対して意味的に近似するものを検索する。この関連技術では、あらかじめ、単語辞書データベースが用意される。単語辞書データベースは、自然言語A,B,C,D・・・・間の同義語の単語Wi群と、1つの単語特徴ベクトルViとを関係付けたものである。そして、この関連技術は、各文書に含まれる単語に関係付けられた単語特徴ベクトルの総和を正規化し、文書特徴ベクトルとして算出する。また、この関連技術は、検索要求に含まれる各単語について関係付けられた単語特徴ベクトルの総和を正規化し、検索要求特徴ベクトルとして算出する。そして、この関連技術は、検索要求特徴ベクトルと、各文書の文書特徴ベクトルとの内積を意味的近似度として算出する。そして、この関連技術は、意味的近似度の大きい文書を、検索要求に近似する文書として検索する。
しかしながら、特許文献1に記載された関連技術は、機械翻訳結果という中間状態を経由する枠組みのため、機械翻訳の精度自体が必ずしも高くない場合、まとめ上げの精度自体が高くないという問題がある。
また、特許文献2に記載された関連技術は、2言語間の場合は問題が無いが、3言語間以上の場合に問題が生じる。それは、言語間の類似性を判定するための行列W=UT・Vを、相手言語の数だけ用意しなければならないことである。例えば、言語数がnであるとすると、U、V併せてn×(n−1)/2個の行列を計算・保持する必要が生じる。なお、“/”は除算を表す。また、類似性の判定時には、ある言語の文書dijを他の文書と比較する場合、比較対象の言語数分、W・dijを計算する必要があり、計算コストが高くなる。
また、特許文献3には、同義語の単語Wi群に対する1つの単語特徴ベクトルViを、どのように学習するかについて記載がない。また、多義語の存在を考慮すると、同義語の単語Wi群の組み合わせ数が膨大になる可能性がある。そのため、この関連技術では、単語辞書データベースの保持・学習にかかるコストが高くなる。また、単語レベルの同義語群を介して文書の近似度を判定することは、単語レベルの機械翻訳を介することと等価である。そのため、この関連技術では、同義語群(機械翻訳)の精度が必ずしも高くない場合、意味的近似度の判定精度も高くないという問題がある。
本発明は、上述の課題を解決するためになされたものである。すなわち、本発明は、多言語文書群において、言語が3種類以上であっても、より低コストにより精度よく、類似文書を検索するための技術を提供することを目的とする。
上記目的を達成するために、本発明の多言語文書類似度学習装置は、対象言語毎に行列を保持する多言語行列記憶手段と、文書に対応する単語ベクトルを取得する単語ベクトル取得手段と、前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成手段と、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算手段と、前記対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の前記類似度が、対訳関係にない文書の組の前記類似度より高くなるように、前記各対象言語に対応する前記行列の値を調整して学習する多言語行列学習手段と、を備える。
また、本発明の多言語文書類似度判定装置は、上述の多言語文書類似度学習装置を用いて学習された前記対象言語毎の前記行列を保持する多言語行列記憶手段と、文書に対応する単語ベクトルを取得する単語ベクトル取得手段と、前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成手段と、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算手段と、類似度判定対象の文書の集合において、前記類似度を用いて文書間の類似度を判定する類似度判定手段と、を備える。
また、本発明の多言語文書類似度学習方法は、対象言語毎に保持される行列を用いて、文書に対応する単語ベクトル、および、前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成し、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算することにより、対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の前記類似度が、対訳関係にない文書の組の前記類似度より高くなるように、前記各対象言語に対応する前記行列の値を調整して学習する。
また、本発明の多言語文書類似度判定方法は、上述の多言語文書類似度学習方法により学習された前記対象言語毎の前記行列を用いて、文書に対応する単語ベクトル、および、前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成し、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算することにより、類似度判定対象の文書の集合において、前記類似度を用いて文書間の類似度を判定する。
また、本発明の記憶媒体は、対象言語毎に保持される行列を用いて、文書に対応する単語ベクトルを取得する単語ベクトル取得ステップと、前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成ステップと、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算ステップと、前記対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の前記類似度が、対訳関係にない文書の組の前記類似度より高くなるように、前記各対象言語に対応する前記行列の値を調整して学習する多言語行列学習ステップと、をコンピュータ装置に実行させる多言語文書類似度学習プログラムを記憶している。
また、本発明の他の記憶媒体は、上述の記憶媒体に記憶された多言語文書類似度学習プログラムの実行により学習された前記対象言語毎の前記行列を用いて、文書に対応する単語ベクトルを取得する単語ベクトル取得ステップと、前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成ステップと、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算ステップと、類似度判定対象の文書の集合において、前記類似度を用いて文書間の類似度を判定する類似度判定ステップと、をコンピュータ装置に実行させる多言語文書類似度判定プログラムを記憶している。
本発明は、多言語文書群において、言語が3種類以上であっても、より低コストにより精度よく、類似文書を検索するための技術を提供することができる。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(第1の実施の形態)
図1は、本発明の第1の実施の形態としての多言語文書類似度学習装置1の機能ブロック構成を示す図である。図1において、多言語文書類似度学習装置1は、多言語行列記憶部11と、単語ベクトル取得部12と、意味ベクトル作成部13と、類似度計算部14と、多言語行列学習部15と、を含む。
図1は、本発明の第1の実施の形態としての多言語文書類似度学習装置1の機能ブロック構成を示す図である。図1において、多言語文書類似度学習装置1は、多言語行列記憶部11と、単語ベクトル取得部12と、意味ベクトル作成部13と、類似度計算部14と、多言語行列学習部15と、を含む。
図2は、多言語文書類似度学習装置1のハードウェア構成の一例を示す図である。図2において、多言語文書類似度学習装置1は、コンピュータ装置によって構成されている。このコンピュータ装置は、CPU(Central Processing Unit)1001と、RAM(Random Access Memory)1002と、ROM(Read Only Memory)1003と、記憶装置1004と、入力装置1005と、出力装置1006とを含む。この場合、多言語行列記憶部11は、記憶装置1004によって構成される。また、単語ベクトル取得部12と、意味ベクトル作成部13と、類似度計算部14とは、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行するCPU1001によって構成される。また、多言語行列学習部15は、入力装置1005と、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行するCPU1001とによって構成される。なお、多言語文書類似度学習装置1およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
多言語行列記憶部11は、対象言語毎に行列を保持する。各行列は、その対象言語で記述された文書の単語ベクトルを、意味ベクトルに変換するための重み行列である。単語ベクトルおよび意味ベクトルについては後述する。例えば、各行列は、列の数が互いに等しいものであってもよい。その場合、列の数は、意味ベクトルの次元数となる。また、その場合、各行列の行の数は、後述の単語ベクトルの次元数であってもよい。
単語ベクトル取得部12は、文書に対応する単語ベクトルを取得する。単語ベクトルは、文書の類似度を計算する際に一般的に用いられる概念であり、文書を、文書中に含まれる単語の集合によって表す表現形式である。単語ベクトルの次元数は、例えば、その文書を記述する対象言語(以下、記述言語とも記載する)で用いられる単語数であってもよい。例えば、単語ベクトル取得部12は、与えられた文書に基づいて、公知の手法により単語ベクトルを作成してもよい。あるいは、単語ベクトル取得部12は、その文書に対応する単語ベクトルとしてあらかじめ生成されたものを、記憶装置1004または入力装置1005等から取得してもよい。
意味ベクトル作成部13は、文書の単語ベクトルと、その文書の記述言語に対応して多言語行列記憶部11に保持されている行列とに基づいて、その文書の意味ベクトルを作成する。ここで、意味ベクトルとは、文書の意味的特徴を表す情報である。例えば、意味ベクトル作成部13は、文書の単語ベクトルと、その文書の記述言語に対応する行列との積を、その文書の意味ベクトルとして作成してもよい。
類似度計算部14は、文書の組について、各文書の意味ベクトルに基づいて類似度を計算する。例えば、類似度計算部14は、各文書の意味ベクトルの内積を、文書の組の類似度として計算してもよい。
多言語行列学習部15は、対象言語のいずれかでそれぞれが記述された文書の集合において、意味ベクトル作成部13および類似度計算部14を用いて、各文書の記述言語に対応する行列の値を調整して学習する。具体的には、多言語行列学習部15は、対訳関係にある文書の組の類似度が、対訳関係にない文書の組の類似度より高くなるように、各行列を学習する。例えば、多言語行列学習部15は、対訳関係にある文書の組の類似度が、その組の一方の文書と、その文書に対して対訳関係にない他の文書との類似度より高くなるように、行列の値を調整して学習を行ってもよい。なお、多言語行列学習部15は、各行列の学習を、並列して行うことが望ましい。
ここで、多言語行列学習部15による学習の際に用いられる文書の集合について説明する。文書の集合において、各文書を記述している対象言語は、3種類以上あってもよい。このような文書の集合は、少なくとも一部に、対訳関係にある文書の組を含むよう構成される。また、このような文書の集合は、少なくとも一部に、対訳関係にない文書の組を含むよう構成される。なお、文書の集合は、あらかじめ記憶装置1004に記憶されたものであってもよい。また、文書の集合は、入力装置1005またはネットワークインタフェース(図示せず)等を介して外部から入力されるものであってもよい。
また、例えば、多言語行列学習部15は、確率的最急勾配法を用いて、上述の各行列の学習を行ってもよい。この場合、多言語行列学習部15は、確率的最急勾配法のステップごとに、対訳関係にある文書の組および対訳関係にない文書の組を文書の集合からランダムに選択してもよい。
以上のように構成された多言語文書類似度学習装置1の動作について、図3を参照して説明する。なお、多言語文書類似度学習装置1は、対象言語のいずれかでそれぞれが記述された文書の集合が入力されると、以下の動作を開始するものとする。
図3では、まず、単語ベクトル取得部12は、対象言語のいずれかでそれぞれが記述された文書の集合の各文書について、対応する単語ベクトルを取得する(ステップS1)。
次に、多言語行列学習部15は、意味ベクトル作成部13に指示し、文書の集合において対訳関係にある文書の組および対訳関係にない文書の組の各文書について、意味ベクトルを作成させる(ステップS2)。意味ベクトル作成部13は、各文書の単語ベクトルおよびその記述言語に対応する行列に基づき、意味ベクトルを作成する。
次に、多言語行列学習部15は、文書の集合において対訳関係にある文書の組および対訳関係にない文書の組のそれぞれについて、各文書の意味ベクトルに基づいて、類似度計算部14により類似度を計算する(ステップS3)。
次に、多言語行列学習部15は、対訳関係にある文書の組の類似度が、対訳関係にない文書の組の類似度より高くなるように、各記述言語に対応する行列を調整する(ステップS4)。
次に、行列の調整が収束していれば(ステップS5でYes)、多言語行列学習部15は、学習を終了する。
一方、行列の調整が収束してなければ(ステップS5でNo)、多言語文書類似度学習装置1の動作は、ステップS2に戻る。そして、多言語文書類似度学習装置1は、前回のステップS4で調整後の行列を用いて、ステップS2からの動作を繰り返す。
次に、本発明の第1の実施の形態の効果について説明する。
本発明の第1の実施の形態としての多言語文書類似度学習装置は、多言語文書群において、言語が3種類以上であっても、類似文書の判定において文書の意味ベクトルを作成するために用いられる行列を、より低コストに、より精度よく学習することができる。
その理由は、多言語行列記憶部が、対象言語毎に、文書の単語ベクトルを意味ベクトルに変換するための行列を保持しておくからである。また、単語ベクトル取得部が、文書に対応する単語ベクトルを取得し、意味ベクトル作成部が、文書の単語ベクトルおよびその文書の記述言語に対応する行列に基づいて、意味ベクトルを作成するからである。そして、多言語行列学習部が、対象言語のいずれかでそれぞれ記述された文書の集合において、対訳関係にある文書の組の類似度が、対訳関係にない文書の組の類似度より高くなるように、各対象言語に対応する行列の学習を行うからである。
このように、本実施の形態は、意味ベクトルを作成するための行列を、言語対毎に用意するのではなく、対象言語毎に用意する。したがって、本実施の形態は、言語対ごとに行列を学習する必要がない。そして、本実施の形態は、言語対によらず、文書の意味ベクトルにおける各次元の意味が同じになるように、対象言語毎に行列を学習すればよい。その結果、本実施の形態では、学習により得られる各記述言語の行列は、相手言語に対して非依存となる。
したがって、本実施の形態は、対象言語が3種類以上あっても、対象言語の組み合わせごとに類似度判定のための行列を学習する必要がなく、対象言語毎に行列を学習すればよい。このため、計算コストを低く抑えることができる。
また、本実施の形態は、文書の集合において、文書の絶対数が少ない対象言語について行列の学習を行う場合も、他の複数の対象言語との言語対から情報を得られる。このため、言語対毎に行列を学習する場合と比べて、性能向上が期待できる。さらに、本実施の形態は、そのような各対象言語の行列の学習を並列して行うことにより、学習精度をさらに高めることができる。
次に、本発明の第1の実施の形態の動作を具体例で示す。
ここでは、ウェブ上に存在するニュース記事の情報収集を想定する。情報収集の効率化のためには、異なる言語で記述されたニュース記事であっても同様の内容であれば1つに纏め上げたい、というニーズがある。そのためには、言語横断でニュース記事間の類似度を判定することが必要となる。以下に、言語横断でニュース記事間の類似度を計算するための行列の学習について述べる。
学習には、一部が対訳関係になっている大量の文書を用いることとする。ここでの対訳関係とは、完全な対訳関係、いわゆるパラレルコーパスである必要はない。例えば、対訳関係とは、同じ対象について異なる言語で記述してある程度の、いわゆるコンパラブルコーパスでもよい。そのような文書の集合として、統計的機械翻訳の研究で用いられる対訳コーパスを用いてもよい。あるいは、そのような文書の集合として、各国語版のウィキペディアを用いてもよい。
そして、多言語行列記憶部11は、上述の文書の集合において類似度を測る対象言語の数だけ行列を記憶する。言語iに対応する行列Miは、N×Diの行列である。Nは、意味ベクトルの次元数である。言語によらず意味ベクトルの各次元の持つ意味を同じに揃える為に、Nは、言語によらず同じ大きさとすることが望ましい。経験的には、N=100から数百程度がうまく働く。Diは、言語iで用いられる単語数である。Diは、言語ごとに異なる値であってもよい。各Miの初期値としては、例えば0が設定される。
まず、単語ベクトル取得部12は、上述の文書の集合における各文書を、単語ベクトルに変換する。単語ベクトルは、上述のように、文書の類似度を計算する際に一般的に用いられる概念であり、文書を文書中に含まれる単語の集合によって表す表現形式である。もっとも単純な単語ベクトルは、各単語の出現の有無を0または1で表した要素からなるベクトル(たとえば、[1、0、1、0]のような表現)である。その他、単語ベクトルとしては、類似度を計算する観点で各単語に重みづけを行うTF(単語の出現頻度:Term Frequency)*IDF(逆文書頻度:Inverse Document Frequency)に基づくものがある。さらには、LSI(Latent Semantic Indexing)、LDA(Latent Dirichlet Allocation)などの方法を用いて、単語ベクトルを一旦次元圧縮する方法等も知られている。また、単語の代わりに、単語のN−GRAMや文字N−GRAMを用いてもよい。ここでは、単語ベクトルとして、単語のTF*IDFを用いることとする。これにより、言語iのj番目の文書については、次元数Diの単語ベクトルdijが作成されるとする。
また、意味ベクトル作成部13は、多言語行列学習部15の制御の基に、文書の単語ベクトルおよびその文書の記述言語に対応する行列の積を、当該文書の意味ベクトルとして計算する。具体的には、意味ベクトル作成部13は、言語iのj番目の文書について、対応する単語ベクトルdijと、言語iのその時点での行列Miの積である、Mi・dijを計算し、意味ベクトルとする。このMi・dijの次元数は、文書や言語によらずNとなる。
そして、多言語行列学習部15は、意味ベクトル作成部13および類似度計算部14を用いて、各Miの学習を行う。学習の基本的な考え方は、対訳関係にある文書の組の類似度が、対訳関係にない文書の組の類似度より高くなるように、複数の記述言語に対する行列を並列して調整する、というものである。具体的には、多言語行列学習部15は、前述の文書の集合のうち、言語iqの文書qと、文書qと対訳関係にある言語i+の文書d+と、対訳関係にない言語i−の文書d−について、次式(2)を満たすように、行列Miq、Mi+、Mi−を並列して調整する。
ここで、一般には、文書qとd+との類似度が文書qとd−との類似度より一定のマージン以上大きくなるように調整した方が、性能が高くなることが知られている。そこで、多言語行列学習部15は、マージンを考慮した次式(3)の損失関数を最小化するように調整を行う。
ここで、Rは、入力された文書集合中の、ある文書と、当該文書に対して対訳関係にある文書または対訳関係にない文書との組の集合である。また、f(q,d)は、文書qおよびdの類似度を表す。つまり、f(q,d)は、文書qの言語をiq、dの言語をidとすると、(Miq・q)T・(Mid・d)である。
上述の損失関数の最小化の方法の1つとして、確率的最急勾配法を用いる方法が挙げられる。この場合、多言語行列学習部15は、確率的最急勾配法の1ステップごとに、ランダムにq、d+、d−の組を選び出し、1−f(q,d+)+f(q,d−)>0の場合は、次式(4)〜(6)のように各行列M(Miq、Mi+、Mi−)を更新する。
このようにして、多言語行列学習部15は、ランダムな文書抽出と、それに基づく行列Mの調整を、収束するまで行う。
以上で、具体例の説明を終了する。
このように、この具体例では、多言語行列記憶部11に、言語iごとに、文書の単語ベクトルを意味ベクトルに変換するための行列Miを記憶している。さらに、多言語行列学習部15が、対訳関係にある文書の組の類似度が、対訳関係にない文書の組の類似度より高くなるように、複数の言語iに対する行列Miの学習を並列して行う。これにより、言語対によらず意味ベクトルの各次元の意味が同じになるように学習を行うことができる。その結果、この具体例では、学習により得られる対象言語iについての行列Miは、相手言語非依存となる。
と書ける。特許文献2は、言語aについて、相手言語b、c・・・毎に、Mab、Mac・・といったように、複数の行列を保持・学習しなければならなかった。これは、意味ベクトル(M・d)において各次元の持つ意味が、言語対ごとに異なっていたからである。
これに対して、本実施の形態の具体例は、意味ベクトル(M・d)を、相手言語非依存のベクトルとして扱えるようにしている。このように、この具体例は、言語i毎に対応する行列Miを1つのみ用意し、多言語行列学習部において言語対によらず意味ベクトルの各次元の意味が同じになるようにMiの学習を行う。これにより、この具体例は、行列Mの個数をn×(n−1)個からn個に減らしている。これにより、この具体例における多言語文書類似度学習装置は、言語対ごとに行列を保持・学習する必要がなくなり、計算コストを低く抑えることができる。
また、この具体例における多言語文書類似度学習装置は、文書の絶対数が少ない言語の行列を学習する場合であっても、その言語で記述された文書と、他の複数の言語のそれぞれで記述された各文書との対から情報を得られる。このため、この具体例における多言語文書類似度学習装置は、学習性能を向上させることができる。
以上で、本発明の第1の実施の形態における動作の具体例の説明を終了する。
(第2の実施の形態)
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第1の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第1の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
図4は、本発明の第2の実施の形態としての多言語文書類似度判定装置2の機能ブロック構成を示す図である。図4において、多言語文書類似度判定装置2は、多言語行列記憶部11と、単語ベクトル取得部12と、意味ベクトル作成部13と、類似度計算部14と、類似度判定部26とを含む。ここで、多言語文書類似度判定装置2は、図2を参照して説明した本発明の第1の実施の形態としての多言語文書類似度学習装置1と同様のハードウェア要素によって構成可能である。この場合、類似度判定部26は、出力装置1006と、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行するCPU1001とによって構成される。なお、多言語文書類似度判定装置2およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
多言語行列記憶部11には、本発明の第1の実施の形態としての多言語文書類似度学習装置1によって学習された対象言語毎の行列が保持されている。単語ベクトル取得部12、意味ベクトル作成部13、および、類似度計算部14は、本発明の第1の実施の形態と同様に構成される。
類似度判定部26は、類似度判定対象の文書の集合において、類似度計算部14によって計算される類似度を用いて、文書の類似度を判定する。なお、類似度判定対象の文書の集合は、文書の組であってもよい。この場合、類似度判定部26は、判定対象の文書の組について、類似度が閾値以上であれば類似していると判定し、閾値未満であれば類似していないと判定してもよい。また、類似度判定対象の文書の集合は、3つ以上の文書の集合であってもよい。この場合、例えば、類似度判定部26は、判定対象の文書の集合における類似度の判定として、類似度に基づく文書のクラスタリングを行ってもよい。また、例えば、類似度判定部26は、判定対象の文書の集合における類似度の判定として、ある文書に対して類似する文書のランキングを行ってもよい。また、類似度判定部26は、判定結果を出力装置1006に出力してもよい。
なお、類似度判定対象の文書の集合は、記憶装置1004にあらかじめ記憶されているものであってもよい。また、類似度判定対象の文書の集合は、入力装置1005またはネットワークインタフェース(図示せず)等を介して外部から入力されるものであってもよい。
以上のように構成された多言語文書類似度判定装置2の動作について、図5を参照して説明する。なお、多言語文書類似度判定装置2は、類似度を判定したい文書の集合が入力されると、以下の動作を開始するものとする。
図5では、まず、単語ベクトル取得部12は、類似度を判定したい文書の集合の各文書について、単語ベクトルを取得する(ステップS11)。
次に、意味ベクトル作成部13は、各文書について、文書の単語ベクトルおよびその文書の記述言語に対応する行列に基づいて、その文書の意味ベクトルを作成する(ステップS12)。
次に、類似度計算部14において、文書の集合において、任意の文書の組の類似度を計算する(ステップS13)。
次に、類似度判定部26は、得られた類似度に基づいて類似度を判定し、判定結果を出力する(ステップS14)。前述のように、類似度判定部26は、類似度を閾値と比較することにより、任意の文書の組が類似しているか否かを表す情報を判定結果として出力してもよい。また、類似度判定部26は、類似度を用いて文書のクラスタリングやランキングを行い、その結果を判定結果として出力してもよい。
以上で、多言語文書類似度判定装置2は、動作を終了する。
次に、本発明の第2の実施の形態の効果について説明する。
本発明の第2の実施の形態としての多言語文書類似度判定装置は、多言語文書群において、言語が3種類以上であっても、より低コストにより精度よく、類似文書を判定することができる。
その理由は、多言語行列記憶部が、対象言語毎に文書の単語ベクトルを意味ベクトルに変換するための行列として学習されたものを保持しているからである。そして、単語ベクトル取得部が、文書について単語ベクトルを取得する。そして、意味ベクトル作成部が、文書について単語ベクトルおよびその記述言語に対応する行列に基づいて意味ベクトルを作成する。そして、類似度計算部が、文書の組について意味ベクトルに基づいて類似度を計算する。そして、類似度判定部が、類似度判定対象の文書の集合において、類似度に基づく類似判定を行うからである。
このように、多言語行列記憶部に保持される対象言語毎の行列は、本発明の第1の実施の形態としての多言語文書類似度学習装置によって学習されたものであり、相手言語に対して非依存となっている。そのため、類似度計算部は、ある文書に類似する他の文書を求めるために、ある文書についての意味ベクトルを、比較対象となる文書群の記述言語に対応する数だけ計算する必要がない。つまり、類似度計算部は、ある文書について、比較対象となる文書群の記述言語の数に関わらず、1つの意味ベクトルを計算すればよい。このため、類似度判定のための計算コストが低くなる。また、そのような意味ベクトルは、言語対によらず、各次元の意味が同じになるように作成されている。このため、意味ベクトルに基づき算出される類似度は、精度が高いものとなる。
次に、本発明の第2の実施の形態の動作を具体例で示す。
ここでは、言語横断でウェブ上のニュース記事(文書)のクラスタリングを行う例について説明する。
多言語行列記憶部11には、本発明の第1の実施の形態における具体例で学習した言語ごとの行列Miが保持されているものとする。また、多言語文書類似度判定装置2には、クラスタリング対象(類似度の判定対象)となる文書の集合として、ウェブ上から収集されるニュース記事群が入力されるものとする。
まず、単語ベクトル取得部12は、クラスタリング対象の文書の集合における各文書を、単語ベクトルに変換する。変換の方法は、本発明の第1の実施の形態における具体例と同様である。
次に、意味ベクトル作成部13は、作成した単語ベクトルと、多言語行列記憶部11に保持されている言語ごとの行列Miとの積を取ることで、各文書の意味ベクトルを作成する。作成の方法は、本発明の第1の実施の形態における具体例と同様である。
次に、類似度計算部14は、クラスタリング対象の文書の集合において、任意の文書の組毎に、意味ベクトル同士の内積を取ることで類似度を求める。
そして、類似度判定部26は、類似度が閾値以上の文書の組を、同じクラスタに属させることで、クラスタリングを行う。
このように、この具体例では、多言語行列記憶部11に、言語ごとに文書の単語ベクトルを意味ベクトルに変換するための行列Miを保持している。この行列Miは、本発明の第1の実施の形態における具体例で多言語文書類似度学習装置1により学習されたものであるから、相手言語非依存である。したがって、類似度計算部14は、任意の文書の組毎に類似度を算出する際に、各文書について1つずつ算出された意味ベクトルを用いればよく、言語対毎の計算が不要となる。
一方、上述の特許文献2に記載された関連技術では、比較対象文書の言語数分、Mix・dijを計算する必要があった(xは比較対象の言語を表す)。
これに対して、この具体例は、ある文書dijを他の文書群と比較する場合、比較対象の文書群が複数の言語で記述されていても、意味ベクトルMi・dijを1つ求めるだけで良い。したがって、この具体例は、類似度の計算コストを低くすることができる。
以上で、本発明の第2の実施の形態における動作の具体例の説明を終了する。
なお、上述した本発明の各実施の形態において、対象言語毎に保持される行列は、互いに列の数が等しい例を中心に説明した。この他、各行列は、互いに行の数が等しいものであってもよい。この場合、各行列の列の数には、対応する言語で記述された文書の単語ベクトルの次元数を適用すればよい。
また、上述した本発明の各実施の形態において、意味ベクトル作成部が、文書の単語ベクトルおよびその記述言語に対応する行列の積を、意味ベクトルとして算出する例を中心に説明した。この他、意味ベクトル作成部は、文書の単語ベクトルおよびその記述言語に対応する行列に基づいて意味ベクトルを作成するその他の演算方法を用いてもよい。また、類似度計算部が、文書の組について各文書の意味ベクトルの内積を算出して類似度とする例を中心に説明した。この他、類似度計算部は、各文書の意味ベクトルに基づいて類似度を計算するその他の演算方法を用いてもよい。
また、上述した本発明の各実施の形態としての多言語文書類似度学習装置および多言語文書類似度判定装置は、同一の装置上に実現されていてもよい。
また、上述した本発明の各実施の形態において、多言語文書類似度学習装置および多言語文書類似度判定装置の各機能ブロックが、記憶装置またはROMに記憶されたコンピュータ・プログラムを実行するCPUによって実現される例を中心に説明した。このような構成の他、本実施の形態において、各機能ブロックの一部、全部、または、それらの組み合わせが専用のハードウェアにより実現されていてもよい。
また、上述した本発明の各実施の形態において、多言語文書類似度学習装置または多言語文書類似度判定装置の機能ブロックは、複数の装置に分散されて実現されてもよい。
また、上述した本発明の各実施の形態において、各フローチャートを参照して説明した多言語文書類似度学習装置および多言語文書類似度判定装置の動作を、本発明のコンピュータ・プログラムとしてコンピュータ装置の記憶装置(記憶媒体)に格納してもよい。そして、係るコンピュータ・プログラムを当該CPUが読み出して実行するようにしてもよい。そして、このような場合において、本発明は、係るコンピュータ・プログラムのコードあるいは記憶媒体によって構成される。
また、上述した各実施の形態は、適宜組み合わせて実施されることが可能である。
以上、上述した各実施の形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した各実施の形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
この出願は、2014年3月28日に出願された日本出願特願2014−67359を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 多言語文書類似度学習装置
2 多言語文書類似度判定装置
11 多言語行列記憶部
12 単語ベクトル取得部
13 意味ベクトル作成部
14 類似度計算部
15 多言語行列学習部
26 類似度判定部
1001 CPU
1002 RAM
1003 ROM
1004 記憶装置
1005 入力装置
1006 出力装置
2 多言語文書類似度判定装置
11 多言語行列記憶部
12 単語ベクトル取得部
13 意味ベクトル作成部
14 類似度計算部
15 多言語行列学習部
26 類似度判定部
1001 CPU
1002 RAM
1003 ROM
1004 記憶装置
1005 入力装置
1006 出力装置
また、本発明の多言語文書類似度学習プログラムは、対象言語毎に保持される行列を用いて、文書に対応する単語ベクトルを取得する単語ベクトル取得ステップと、前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成ステップと、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算ステップと、前記対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の前記類似度が、対訳関係にない文書の組の前記類似度より高くなるように、前記各対象言語に対応する前記行列の値を調整して学習する多言語行列学習ステップと、をコンピュータ装置に実行させる。
また、本発明の他の多言語文書類似度学習プログラムは、上述の多言語文書類似度学習プログラムの実行により学習された前記対象言語毎の前記行列を用いて、文書に対応する単語ベクトルを取得する単語ベクトル取得ステップと、前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成ステップと、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算ステップと、類似度判定対象の文書の集合において、前記類似度を用いて文書間の類似度を判定する類似度判定ステップと、をコンピュータ装置に実行させる。
Claims (10)
- 対象言語毎に行列を保持する多言語行列記憶手段と、
文書に対応する単語ベクトルを取得する単語ベクトル取得手段と、
前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成手段と、
文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算手段と、
前記対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の前記類似度が、対訳関係にない文書の組の前記類似度より高くなるように、前記各対象言語に対応する前記行列の値を調整して学習する多言語行列学習手段と、
を備えた多言語文書類似度学習装置。 - 前記多言語行列学習手段は、前記各対象言語に対応する前記行列の学習を並列して行うことを特徴とする請求項1に記載の多言語文書類似度学習装置。
- 前記多言語行列記憶手段は、前記対象言語毎の行列として、行または列の数が互いに等しい行列を保持し、
前記意味ベクトル作成手段は、前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列の積を、前記文書の意味ベクトルとして作成し、
前記類似度計算手段は、前記文書の組について、各文書の前記意味ベクトルの内積を、前記類似度として計算することを特徴とする請求項1または請求項2に記載の多言語文書類似度学習装置。 - 前記多言語行列学習手段は、前記対訳関係にある文書の組の前記類似度が、該対訳関係にある文書の組の一方の文書と、該文書に対して対訳関係にない他の文書との前記類似度より高くなるように、前記各行列の学習を行うことを特徴とする請求項1から請求項3のいずれか1項に記載の多言語文書類似度学習装置。
- 前記多言語行列学習手段は、前記対訳関係にある文書の組の前記類似度が、前記対訳関係にない文書の組の前記類似度より高くなるように、確率的最急勾配法を用いて前記各行列を学習し、確率的最急勾配法のステップごとに、前記対訳関係にある文書の組および前記対訳関係にない文書の組を前記文書の集合からランダムに選択することを特徴とする請求項1から請求項4のいずれか1項に記載の多言語文書類似度学習装置。
- 請求項1から請求項5のいずれか1項に記載の多言語文書類似度学習装置を用いて学習された前記対象言語毎の前記行列を保持する多言語行列記憶手段と、
文書に対応する単語ベクトルを取得する単語ベクトル取得手段と、
前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成手段と、
文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算手段と、
類似度判定対象の文書の集合において、前記類似度を用いて文書間の類似度を判定する類似度判定手段と、
を備えた多言語文書類似度判定装置。 - 対象言語毎に保持される行列を用いて、文書に対応する単語ベクトル、および、前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成し、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算することにより、
対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の前記類似度が、対訳関係にない文書の組の前記類似度より高くなるように、前記各対象言語に対応する前記行列の値を調整して学習する、多言語文書類似度学習方法。 - 請求項7に記載の多言語文書類似度学習方法により学習された前記対象言語毎の前記行列を用いて、文書に対応する単語ベクトル、および、前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成し、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算することにより、
類似度判定対象の文書の集合において、前記類似度を用いて文書間の類似度を判定する、多言語文書類似度判定方法。 - 対象言語毎に保持される行列を用いて、
文書に対応する単語ベクトルを取得する単語ベクトル取得ステップと、
前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成ステップと、
文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算ステップと、
前記対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の前記類似度が、対訳関係にない文書の組の前記類似度より高くなるように、前記各対象言語に対応する前記行列の値を調整して学習する多言語行列学習ステップと、
をコンピュータ装置に実行させる多言語文書類似度学習プログラムを記憶した記憶媒体。 - 請求項9に記載の記憶媒体に記憶された多言語文書類似度学習プログラムの実行により学習された前記対象言語毎の前記行列を用いて、
文書に対応する単語ベクトルを取得する単語ベクトル取得ステップと、
前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成ステップと、
文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算ステップと、
類似度判定対象の文書の集合において、前記類似度を用いて文書間の類似度を判定する類似度判定ステップと、
をコンピュータ装置に実行させる多言語文書類似度判定プログラムを記憶した記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014067359 | 2014-03-28 | ||
JP2014067359 | 2014-03-28 | ||
PCT/JP2015/001028 WO2015145981A1 (ja) | 2014-03-28 | 2015-02-27 | 多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2015145981A1 true JPWO2015145981A1 (ja) | 2017-04-13 |
Family
ID=54194537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016509952A Pending JPWO2015145981A1 (ja) | 2014-03-28 | 2015-02-27 | 多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、多言語文書類似度学習プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2015145981A1 (ja) |
WO (1) | WO2015145981A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108345580B (zh) | 2017-01-22 | 2020-05-15 | 创新先进技术有限公司 | 一种词向量处理方法及装置 |
CN110795572B (zh) * | 2019-10-29 | 2022-05-17 | 腾讯科技(深圳)有限公司 | 一种实体对齐方法、装置、设备及介质 |
JP7419961B2 (ja) * | 2020-05-12 | 2024-01-23 | 富士通株式会社 | 文書抽出プログラム、文書抽出装置、及び文書抽出方法 |
WO2022113306A1 (ja) * | 2020-11-27 | 2022-06-02 | 日本電信電話株式会社 | 対応装置、学習装置、対応方法、学習方法、及びプログラム |
US20240362263A1 (en) * | 2022-08-23 | 2024-10-31 | Aka Ai Co., Ltd. | Method for managing language data and server using the same |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8359282B2 (en) * | 2009-01-12 | 2013-01-22 | Nec Laboratories America, Inc. | Supervised semantic indexing and its extensions |
-
2015
- 2015-02-27 WO PCT/JP2015/001028 patent/WO2015145981A1/ja active Application Filing
- 2015-02-27 JP JP2016509952A patent/JPWO2015145981A1/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2015145981A1 (ja) | 2015-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
US11645475B2 (en) | Translation processing method and storage medium | |
WO2015145981A1 (ja) | 多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、記憶媒体 | |
JP6691280B1 (ja) | 管理システム及び管理方法 | |
JP6705318B2 (ja) | 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
US11507746B2 (en) | Method and apparatus for generating context information | |
US20220058349A1 (en) | Data processing method, device, and storage medium | |
US20190317993A1 (en) | Effective classification of text data based on a word appearance frequency | |
CN112434134B (zh) | 搜索模型训练方法、装置、终端设备及存储介质 | |
CN116932730B (zh) | 基于多叉树和大规模语言模型的文档问答方法及相关设备 | |
US20190188647A1 (en) | Multiple element job classification | |
JP2007018389A (ja) | データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体 | |
JP7388256B2 (ja) | 情報処理装置及び情報処理方法 | |
US11263251B2 (en) | Method for determining output data for a plurality of text documents | |
JP4945015B2 (ja) | 文書検索システム、文書検索プログラム、および文書検索方法 | |
JP2019082860A (ja) | 生成プログラム、生成方法及び生成装置 | |
JP2009277099A (ja) | 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
US20220179890A1 (en) | Information processing apparatus, non-transitory computer-readable storage medium, and information processing method | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP5533272B2 (ja) | データ出力装置、データ出力方法およびデータ出力プログラム | |
KR20150096848A (ko) | 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법 | |
JP2010009237A (ja) | 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP6740877B2 (ja) | 類似度算出プログラム、類似度算出方法、および類似度算出装置 |