JPWO2015145981A1

JPWO2015145981A1 - 多言語文書類似度学習装置、多言語文書類似度判定装置、多言語文書類似度学習方法、多言語文書類似度判定方法、および、多言語文書類似度学習プログラム

Info

Publication number: JPWO2015145981A1
Application number: JP2016509952A
Authority: JP
Inventors: 定政　邦彦; 邦彦定政
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-03-28
Filing date: 2015-02-27
Publication date: 2017-04-13
Also published as: WO2015145981A1

Abstract

本発明は、多言語文書群において、言語が３種類以上であっても、より低コストにより精度よく、類似文書を検索するための技術を提供する。多言語文書類似度学習装置１は、対象言語毎に行列を保持する多言語行列記憶部１１と、文書に対応する単語ベクトルを取得する単語ベクトル取得部１２と、文書の単語ベクトルおよびその文書の記述言語に対応する行列に基づいて、その文書の意味ベクトルを作成する意味ベクトル作成部１３と、文書の組について、各文書の意味ベクトルに基づいて類似度を計算する類似度計算部１４と、対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の類似度が、対訳関係にない文書の組の類似度より高くなるように、各対象言語に対応する行列の値を調整して学習する多言語行列学習部１５と、を備える。

Description

本発明は、異なる言語の文書が混在している多言語文書群において、互いに内容が類似している文書を発見する技術に関する。

インターネットが普及し、多様な情報が様々な言語で発信されるようになった。より多くの情報を収集するためには、より多くの言語で記述された情報を対象にすべきである。しかし、この場合、異なる言語で記述された類似する情報が個別に収集され、別の情報として提示されることになり、情報収集の観点では効率が悪い。

このような問題に関連する技術が、特許文献１に記載されている。この関連技術は、対象の文書を、一度基準となる言語、例えば英語に機械翻訳した後、クラスタリング等の技術を用いて、類似する内容の文書をまとめ上げている。

また、このような問題に関連する他の技術が、特許文献２に記載されている。特許文献２では、機械翻訳結果という中間結果を経ずに、対訳コーパスから直接、２言語間の内容の類似性を表すモデルを学習するＳＳＩ（supervised semantic indexing）という枠組みが提案されている。この関連技術は、以下のように、２言語間の文書の類似性を学習・判定する。

まず、この関連技術は、言語横断で対訳関係にある文書集合において、各言語の各文書ｄ_ｉｊを、bag-of-wordsで表現（言語毎の次元数Ｄ_１,Ｄ_２は自由）する。ここで、添え字iは、言語の種類を表す。また、添え字jは、言語毎の文書のＩＤを表す。

そして、この関連技術は、言語対の対応関係を学習する行列Ｗを用意する。Ｗは、Ｄ_１×Ｄ_２（Ｄ_１行Ｄ_２列）の行列である。ただし、学習すべきパラメータ数が多いので、次元圧縮のため、Ｗ＝Ｕ^Ｔ・Ｖを満たすＵ、Ｖについて学習を行う。ここで、Ｕ^Ｔは、Ｕの転置行列を表す。なお、Ｕ，Ｖは、それぞれＮ×Ｄ_１，Ｎ×Ｄ_２の行列とする。また、Ｎ＝１００などが適用される。文書対のスコアを算出する式を、次式（１）に示す。

このとき、対訳関係の文書対のスコアが、それ以外の文書対のスコアより高くなるように、Ｕ，Ｖの学習が行われる。そして、この関連技術は、異なる言語の文書ｄ_１ｊ，ｄ_２ｋ間の類似性を、学習した行列Ｕ，Ｖを用いて、式（１）により判定する。

また、このような問題に関連するさらに他の技術が、特許文献３に記載されている。この関連技術は、異なる言語で記述された複数の文書の中から、ある言語で記述された検索要求に対して意味的に近似するものを検索する。この関連技術では、あらかじめ、単語辞書データベースが用意される。単語辞書データベースは、自然言語Ａ，Ｂ，Ｃ，Ｄ・・・・間の同義語の単語Ｗｉ群と、１つの単語特徴ベクトルＶｉとを関係付けたものである。そして、この関連技術は、各文書に含まれる単語に関係付けられた単語特徴ベクトルの総和を正規化し、文書特徴ベクトルとして算出する。また、この関連技術は、検索要求に含まれる各単語について関係付けられた単語特徴ベクトルの総和を正規化し、検索要求特徴ベクトルとして算出する。そして、この関連技術は、検索要求特徴ベクトルと、各文書の文書特徴ベクトルとの内積を意味的近似度として算出する。そして、この関連技術は、意味的近似度の大きい文書を、検索要求に近似する文書として検索する。

特開２０１３−８４３０６号公報米国特許８３５９２８２号明細書特開平１０−３１６７７号公報

しかしながら、特許文献１に記載された関連技術は、機械翻訳結果という中間状態を経由する枠組みのため、機械翻訳の精度自体が必ずしも高くない場合、まとめ上げの精度自体が高くないという問題がある。

また、特許文献２に記載された関連技術は、２言語間の場合は問題が無いが、３言語間以上の場合に問題が生じる。それは、言語間の類似性を判定するための行列Ｗ＝Ｕ^Ｔ・Ｖを、相手言語の数だけ用意しなければならないことである。例えば、言語数がｎであるとすると、Ｕ、Ｖ併せてｎ×（ｎ−１）／２個の行列を計算・保持する必要が生じる。なお、“／”は除算を表す。また、類似性の判定時には、ある言語の文書ｄ_ｉｊを他の文書と比較する場合、比較対象の言語数分、Ｗ・ｄ_ｉｊを計算する必要があり、計算コストが高くなる。

また、特許文献３には、同義語の単語Ｗｉ群に対する１つの単語特徴ベクトルＶｉを、どのように学習するかについて記載がない。また、多義語の存在を考慮すると、同義語の単語Ｗｉ群の組み合わせ数が膨大になる可能性がある。そのため、この関連技術では、単語辞書データベースの保持・学習にかかるコストが高くなる。また、単語レベルの同義語群を介して文書の近似度を判定することは、単語レベルの機械翻訳を介することと等価である。そのため、この関連技術では、同義語群（機械翻訳）の精度が必ずしも高くない場合、意味的近似度の判定精度も高くないという問題がある。

本発明は、上述の課題を解決するためになされたものである。すなわち、本発明は、多言語文書群において、言語が３種類以上であっても、より低コストにより精度よく、類似文書を検索するための技術を提供することを目的とする。

上記目的を達成するために、本発明の多言語文書類似度学習装置は、対象言語毎に行列を保持する多言語行列記憶手段と、文書に対応する単語ベクトルを取得する単語ベクトル取得手段と、前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成手段と、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算手段と、前記対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の前記類似度が、対訳関係にない文書の組の前記類似度より高くなるように、前記各対象言語に対応する前記行列の値を調整して学習する多言語行列学習手段と、を備える。

また、本発明の多言語文書類似度判定装置は、上述の多言語文書類似度学習装置を用いて学習された前記対象言語毎の前記行列を保持する多言語行列記憶手段と、文書に対応する単語ベクトルを取得する単語ベクトル取得手段と、前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成手段と、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算手段と、類似度判定対象の文書の集合において、前記類似度を用いて文書間の類似度を判定する類似度判定手段と、を備える。

また、本発明の多言語文書類似度学習方法は、対象言語毎に保持される行列を用いて、文書に対応する単語ベクトル、および、前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成し、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算することにより、対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の前記類似度が、対訳関係にない文書の組の前記類似度より高くなるように、前記各対象言語に対応する前記行列の値を調整して学習する。

また、本発明の多言語文書類似度判定方法は、上述の多言語文書類似度学習方法により学習された前記対象言語毎の前記行列を用いて、文書に対応する単語ベクトル、および、前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成し、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算することにより、類似度判定対象の文書の集合において、前記類似度を用いて文書間の類似度を判定する。

また、本発明の記憶媒体は、対象言語毎に保持される行列を用いて、文書に対応する単語ベクトルを取得する単語ベクトル取得ステップと、前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成ステップと、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算ステップと、前記対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の前記類似度が、対訳関係にない文書の組の前記類似度より高くなるように、前記各対象言語に対応する前記行列の値を調整して学習する多言語行列学習ステップと、をコンピュータ装置に実行させる多言語文書類似度学習プログラムを記憶している。

また、本発明の他の記憶媒体は、上述の記憶媒体に記憶された多言語文書類似度学習プログラムの実行により学習された前記対象言語毎の前記行列を用いて、文書に対応する単語ベクトルを取得する単語ベクトル取得ステップと、前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成ステップと、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算ステップと、類似度判定対象の文書の集合において、前記類似度を用いて文書間の類似度を判定する類似度判定ステップと、をコンピュータ装置に実行させる多言語文書類似度判定プログラムを記憶している。

本発明は、多言語文書群において、言語が３種類以上であっても、より低コストにより精度よく、類似文書を検索するための技術を提供することができる。

本発明の第１の実施の形態としての多言語文書類似度学習装置の機能ブロック図である。本発明の第１の実施の形態としての多言語文書類似度学習装置のハードウェア構成図である。本発明の第１の実施の形態としての多言語文書類似度学習装置の動作を説明するフローチャートである。本発明の第２の実施の形態としての多言語文書類似度判定装置の機能ブロック図である。本発明の第２の実施の形態としての多言語文書類似度判定装置の動作を説明するフローチャートである。

以下、本発明の実施の形態について、図面を参照して詳細に説明する。

（第１の実施の形態）
図１は、本発明の第１の実施の形態としての多言語文書類似度学習装置１の機能ブロック構成を示す図である。図１において、多言語文書類似度学習装置１は、多言語行列記憶部１１と、単語ベクトル取得部１２と、意味ベクトル作成部１３と、類似度計算部１４と、多言語行列学習部１５と、を含む。

図２は、多言語文書類似度学習装置１のハードウェア構成の一例を示す図である。図２において、多言語文書類似度学習装置１は、コンピュータ装置によって構成されている。このコンピュータ装置は、ＣＰＵ（Central Processing Unit）１００１と、ＲＡＭ（Random Access Memory）１００２と、ＲＯＭ（Read Only Memory）１００３と、記憶装置１００４と、入力装置１００５と、出力装置１００６とを含む。この場合、多言語行列記憶部１１は、記憶装置１００４によって構成される。また、単語ベクトル取得部１２と、意味ベクトル作成部１３と、類似度計算部１４とは、ＲＯＭ１００３および記憶装置１００４に記憶されたコンピュータ・プログラムおよび各種データをＲＡＭ１００２に読み込んで実行するＣＰＵ１００１によって構成される。また、多言語行列学習部１５は、入力装置１００５と、ＲＯＭ１００３および記憶装置１００４に記憶されたコンピュータ・プログラムおよび各種データをＲＡＭ１００２に読み込んで実行するＣＰＵ１００１とによって構成される。なお、多言語文書類似度学習装置１およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。

多言語行列記憶部１１は、対象言語毎に行列を保持する。各行列は、その対象言語で記述された文書の単語ベクトルを、意味ベクトルに変換するための重み行列である。単語ベクトルおよび意味ベクトルについては後述する。例えば、各行列は、列の数が互いに等しいものであってもよい。その場合、列の数は、意味ベクトルの次元数となる。また、その場合、各行列の行の数は、後述の単語ベクトルの次元数であってもよい。

単語ベクトル取得部１２は、文書に対応する単語ベクトルを取得する。単語ベクトルは、文書の類似度を計算する際に一般的に用いられる概念であり、文書を、文書中に含まれる単語の集合によって表す表現形式である。単語ベクトルの次元数は、例えば、その文書を記述する対象言語（以下、記述言語とも記載する）で用いられる単語数であってもよい。例えば、単語ベクトル取得部１２は、与えられた文書に基づいて、公知の手法により単語ベクトルを作成してもよい。あるいは、単語ベクトル取得部１２は、その文書に対応する単語ベクトルとしてあらかじめ生成されたものを、記憶装置１００４または入力装置１００５等から取得してもよい。

意味ベクトル作成部１３は、文書の単語ベクトルと、その文書の記述言語に対応して多言語行列記憶部１１に保持されている行列とに基づいて、その文書の意味ベクトルを作成する。ここで、意味ベクトルとは、文書の意味的特徴を表す情報である。例えば、意味ベクトル作成部１３は、文書の単語ベクトルと、その文書の記述言語に対応する行列との積を、その文書の意味ベクトルとして作成してもよい。

類似度計算部１４は、文書の組について、各文書の意味ベクトルに基づいて類似度を計算する。例えば、類似度計算部１４は、各文書の意味ベクトルの内積を、文書の組の類似度として計算してもよい。

多言語行列学習部１５は、対象言語のいずれかでそれぞれが記述された文書の集合において、意味ベクトル作成部１３および類似度計算部１４を用いて、各文書の記述言語に対応する行列の値を調整して学習する。具体的には、多言語行列学習部１５は、対訳関係にある文書の組の類似度が、対訳関係にない文書の組の類似度より高くなるように、各行列を学習する。例えば、多言語行列学習部１５は、対訳関係にある文書の組の類似度が、その組の一方の文書と、その文書に対して対訳関係にない他の文書との類似度より高くなるように、行列の値を調整して学習を行ってもよい。なお、多言語行列学習部１５は、各行列の学習を、並列して行うことが望ましい。

ここで、多言語行列学習部１５による学習の際に用いられる文書の集合について説明する。文書の集合において、各文書を記述している対象言語は、３種類以上あってもよい。このような文書の集合は、少なくとも一部に、対訳関係にある文書の組を含むよう構成される。また、このような文書の集合は、少なくとも一部に、対訳関係にない文書の組を含むよう構成される。なお、文書の集合は、あらかじめ記憶装置１００４に記憶されたものであってもよい。また、文書の集合は、入力装置１００５またはネットワークインタフェース（図示せず）等を介して外部から入力されるものであってもよい。

また、例えば、多言語行列学習部１５は、確率的最急勾配法を用いて、上述の各行列の学習を行ってもよい。この場合、多言語行列学習部１５は、確率的最急勾配法のステップごとに、対訳関係にある文書の組および対訳関係にない文書の組を文書の集合からランダムに選択してもよい。

以上のように構成された多言語文書類似度学習装置１の動作について、図３を参照して説明する。なお、多言語文書類似度学習装置１は、対象言語のいずれかでそれぞれが記述された文書の集合が入力されると、以下の動作を開始するものとする。

図３では、まず、単語ベクトル取得部１２は、対象言語のいずれかでそれぞれが記述された文書の集合の各文書について、対応する単語ベクトルを取得する（ステップＳ１）。

次に、多言語行列学習部１５は、意味ベクトル作成部１３に指示し、文書の集合において対訳関係にある文書の組および対訳関係にない文書の組の各文書について、意味ベクトルを作成させる（ステップＳ２）。意味ベクトル作成部１３は、各文書の単語ベクトルおよびその記述言語に対応する行列に基づき、意味ベクトルを作成する。

次に、多言語行列学習部１５は、文書の集合において対訳関係にある文書の組および対訳関係にない文書の組のそれぞれについて、各文書の意味ベクトルに基づいて、類似度計算部１４により類似度を計算する（ステップＳ３）。

次に、多言語行列学習部１５は、対訳関係にある文書の組の類似度が、対訳関係にない文書の組の類似度より高くなるように、各記述言語に対応する行列を調整する（ステップＳ４）。

次に、行列の調整が収束していれば（ステップＳ５でＹｅｓ）、多言語行列学習部１５は、学習を終了する。

一方、行列の調整が収束してなければ（ステップＳ５でＮｏ）、多言語文書類似度学習装置１の動作は、ステップＳ２に戻る。そして、多言語文書類似度学習装置１は、前回のステップＳ４で調整後の行列を用いて、ステップＳ２からの動作を繰り返す。

次に、本発明の第１の実施の形態の効果について説明する。

本発明の第１の実施の形態としての多言語文書類似度学習装置は、多言語文書群において、言語が３種類以上であっても、類似文書の判定において文書の意味ベクトルを作成するために用いられる行列を、より低コストに、より精度よく学習することができる。

その理由は、多言語行列記憶部が、対象言語毎に、文書の単語ベクトルを意味ベクトルに変換するための行列を保持しておくからである。また、単語ベクトル取得部が、文書に対応する単語ベクトルを取得し、意味ベクトル作成部が、文書の単語ベクトルおよびその文書の記述言語に対応する行列に基づいて、意味ベクトルを作成するからである。そして、多言語行列学習部が、対象言語のいずれかでそれぞれ記述された文書の集合において、対訳関係にある文書の組の類似度が、対訳関係にない文書の組の類似度より高くなるように、各対象言語に対応する行列の学習を行うからである。

このように、本実施の形態は、意味ベクトルを作成するための行列を、言語対毎に用意するのではなく、対象言語毎に用意する。したがって、本実施の形態は、言語対ごとに行列を学習する必要がない。そして、本実施の形態は、言語対によらず、文書の意味ベクトルにおける各次元の意味が同じになるように、対象言語毎に行列を学習すればよい。その結果、本実施の形態では、学習により得られる各記述言語の行列は、相手言語に対して非依存となる。

したがって、本実施の形態は、対象言語が３種類以上あっても、対象言語の組み合わせごとに類似度判定のための行列を学習する必要がなく、対象言語毎に行列を学習すればよい。このため、計算コストを低く抑えることができる。

また、本実施の形態は、文書の集合において、文書の絶対数が少ない対象言語について行列の学習を行う場合も、他の複数の対象言語との言語対から情報を得られる。このため、言語対毎に行列を学習する場合と比べて、性能向上が期待できる。さらに、本実施の形態は、そのような各対象言語の行列の学習を並列して行うことにより、学習精度をさらに高めることができる。

次に、本発明の第１の実施の形態の動作を具体例で示す。

ここでは、ウェブ上に存在するニュース記事の情報収集を想定する。情報収集の効率化のためには、異なる言語で記述されたニュース記事であっても同様の内容であれば１つに纏め上げたい、というニーズがある。そのためには、言語横断でニュース記事間の類似度を判定することが必要となる。以下に、言語横断でニュース記事間の類似度を計算するための行列の学習について述べる。

学習には、一部が対訳関係になっている大量の文書を用いることとする。ここでの対訳関係とは、完全な対訳関係、いわゆるパラレルコーパスである必要はない。例えば、対訳関係とは、同じ対象について異なる言語で記述してある程度の、いわゆるコンパラブルコーパスでもよい。そのような文書の集合として、統計的機械翻訳の研究で用いられる対訳コーパスを用いてもよい。あるいは、そのような文書の集合として、各国語版のウィキペディアを用いてもよい。

そして、多言語行列記憶部１１は、上述の文書の集合において類似度を測る対象言語の数だけ行列を記憶する。言語ｉに対応する行列Ｍ_ｉは、Ｎ×Ｄ_ｉの行列である。Ｎは、意味ベクトルの次元数である。言語によらず意味ベクトルの各次元の持つ意味を同じに揃える為に、Ｎは、言語によらず同じ大きさとすることが望ましい。経験的には、Ｎ＝１００から数百程度がうまく働く。Ｄ_ｉは、言語ｉで用いられる単語数である。Ｄ_ｉは、言語ごとに異なる値であってもよい。各Ｍ_ｉの初期値としては、例えば０が設定される。

まず、単語ベクトル取得部１２は、上述の文書の集合における各文書を、単語ベクトルに変換する。単語ベクトルは、上述のように、文書の類似度を計算する際に一般的に用いられる概念であり、文書を文書中に含まれる単語の集合によって表す表現形式である。もっとも単純な単語ベクトルは、各単語の出現の有無を０または１で表した要素からなるベクトル（たとえば、［１、０、１、０］のような表現）である。その他、単語ベクトルとしては、類似度を計算する観点で各単語に重みづけを行うＴＦ（単語の出現頻度：Term Frequency）＊ＩＤＦ（逆文書頻度：Inverse Document Frequency）に基づくものがある。さらには、ＬＳＩ（Latent Semantic Indexing）、ＬＤＡ（Latent Dirichlet Allocation）などの方法を用いて、単語ベクトルを一旦次元圧縮する方法等も知られている。また、単語の代わりに、単語のＮ−ＧＲＡＭや文字Ｎ−ＧＲＡＭを用いてもよい。ここでは、単語ベクトルとして、単語のＴＦ＊ＩＤＦを用いることとする。これにより、言語ｉのｊ番目の文書については、次元数Ｄ_ｉの単語ベクトルｄ_ｉｊが作成されるとする。

また、意味ベクトル作成部１３は、多言語行列学習部１５の制御の基に、文書の単語ベクトルおよびその文書の記述言語に対応する行列の積を、当該文書の意味ベクトルとして計算する。具体的には、意味ベクトル作成部１３は、言語ｉのｊ番目の文書について、対応する単語ベクトルｄ_ｉｊと、言語ｉのその時点での行列Ｍ_ｉの積である、Ｍ_ｉ・ｄ_ｉｊを計算し、意味ベクトルとする。このＭ_ｉ・ｄ_ｉｊの次元数は、文書や言語によらずＮとなる。

そして、多言語行列学習部１５は、意味ベクトル作成部１３および類似度計算部１４を用いて、各Ｍ_ｉの学習を行う。学習の基本的な考え方は、対訳関係にある文書の組の類似度が、対訳関係にない文書の組の類似度より高くなるように、複数の記述言語に対する行列を並列して調整する、というものである。具体的には、多言語行列学習部１５は、前述の文書の集合のうち、言語ｉ_ｑの文書ｑと、文書ｑと対訳関係にある言語ｉ_＋の文書ｄ^＋と、対訳関係にない言語ｉ₋の文書ｄ⁻について、次式（２）を満たすように、行列Ｍ_ｉｑ、Ｍ_ｉ＋、Ｍ_ｉ−を並列して調整する。

ここで、一般には、文書ｑとｄ^＋との類似度が文書ｑとｄ⁻との類似度より一定のマージン以上大きくなるように調整した方が、性能が高くなることが知られている。そこで、多言語行列学習部１５は、マージンを考慮した次式（３）の損失関数を最小化するように調整を行う。

ここで、Rは、入力された文書集合中の、ある文書と、当該文書に対して対訳関係にある文書または対訳関係にない文書との組の集合である。また、ｆ（ｑ，ｄ）は、文書ｑおよびｄの類似度を表す。つまり、ｆ（ｑ，ｄ）は、文書ｑの言語をｉ_ｑ、ｄの言語をｉ_ｄとすると、（M_ｉｑ・ｑ）^Ｔ・（Ｍ_ｉｄ・ｄ）である。

上述の損失関数の最小化の方法の１つとして、確率的最急勾配法を用いる方法が挙げられる。この場合、多言語行列学習部１５は、確率的最急勾配法の１ステップごとに、ランダムにｑ、ｄ^＋、ｄ⁻の組を選び出し、1−ｆ（ｑ，ｄ^＋）＋ｆ（ｑ，ｄ⁻）＞０の場合は、次式（４）〜（６）のように各行列Ｍ（Ｍ_ｉｑ、Ｍ_ｉ＋、Ｍ_ｉ−）を更新する。

このようにして、多言語行列学習部１５は、ランダムな文書抽出と、それに基づく行列Ｍの調整を、収束するまで行う。

以上で、具体例の説明を終了する。

このように、この具体例では、多言語行列記憶部１１に、言語ｉごとに、文書の単語ベクトルを意味ベクトルに変換するための行列Ｍ_ｉを記憶している。さらに、多言語行列学習部１５が、対訳関係にある文書の組の類似度が、対訳関係にない文書の組の類似度より高くなるように、複数の言語ｉに対する行列Ｍ_ｉの学習を並列して行う。これにより、言語対によらず意味ベクトルの各次元の意味が同じになるように学習を行うことができる。その結果、この具体例では、学習により得られる対象言語ｉについての行列Ｍ_ｉは、相手言語非依存となる。

一方、特許文献２に記載された関連技術は、前述の式（１）により文書Ｄ_ａｊおよびＤ_ｂｋの組の類似度を算出していた。つまり、式（１）において、Ｕ＝Ｍ_ａｂ、Ｖ＝Ｍ_ｂａと置くと、

と書ける。特許文献２は、言語ａについて、相手言語ｂ、ｃ・・・毎に、Ｍ_ａｂ、Ｍ_ａｃ・・といったように、複数の行列を保持・学習しなければならなかった。これは、意味ベクトル（Ｍ・ｄ）において各次元の持つ意味が、言語対ごとに異なっていたからである。

これに対して、本実施の形態の具体例は、意味ベクトル（Ｍ・ｄ）を、相手言語非依存のベクトルとして扱えるようにしている。このように、この具体例は、言語ｉ毎に対応する行列Ｍ_ｉを１つのみ用意し、多言語行列学習部において言語対によらず意味ベクトルの各次元の意味が同じになるようにＭ_ｉの学習を行う。これにより、この具体例は、行列Ｍの個数をｎ×（ｎ−１）個からｎ個に減らしている。これにより、この具体例における多言語文書類似度学習装置は、言語対ごとに行列を保持・学習する必要がなくなり、計算コストを低く抑えることができる。

また、この具体例における多言語文書類似度学習装置は、文書の絶対数が少ない言語の行列を学習する場合であっても、その言語で記述された文書と、他の複数の言語のそれぞれで記述された各文書との対から情報を得られる。このため、この具体例における多言語文書類似度学習装置は、学習性能を向上させることができる。

以上で、本発明の第１の実施の形態における動作の具体例の説明を終了する。

（第２の実施の形態）
次に、本発明の第２の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第１の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。

図４は、本発明の第２の実施の形態としての多言語文書類似度判定装置２の機能ブロック構成を示す図である。図４において、多言語文書類似度判定装置２は、多言語行列記憶部１１と、単語ベクトル取得部１２と、意味ベクトル作成部１３と、類似度計算部１４と、類似度判定部２６とを含む。ここで、多言語文書類似度判定装置２は、図２を参照して説明した本発明の第１の実施の形態としての多言語文書類似度学習装置１と同様のハードウェア要素によって構成可能である。この場合、類似度判定部２６は、出力装置１００６と、ＲＯＭ１００３および記憶装置１００４に記憶されたコンピュータ・プログラムおよび各種データをＲＡＭ１００２に読み込んで実行するＣＰＵ１００１とによって構成される。なお、多言語文書類似度判定装置２およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。

多言語行列記憶部１１には、本発明の第１の実施の形態としての多言語文書類似度学習装置１によって学習された対象言語毎の行列が保持されている。単語ベクトル取得部１２、意味ベクトル作成部１３、および、類似度計算部１４は、本発明の第１の実施の形態と同様に構成される。

類似度判定部２６は、類似度判定対象の文書の集合において、類似度計算部１４によって計算される類似度を用いて、文書の類似度を判定する。なお、類似度判定対象の文書の集合は、文書の組であってもよい。この場合、類似度判定部２６は、判定対象の文書の組について、類似度が閾値以上であれば類似していると判定し、閾値未満であれば類似していないと判定してもよい。また、類似度判定対象の文書の集合は、３つ以上の文書の集合であってもよい。この場合、例えば、類似度判定部２６は、判定対象の文書の集合における類似度の判定として、類似度に基づく文書のクラスタリングを行ってもよい。また、例えば、類似度判定部２６は、判定対象の文書の集合における類似度の判定として、ある文書に対して類似する文書のランキングを行ってもよい。また、類似度判定部２６は、判定結果を出力装置１００６に出力してもよい。

なお、類似度判定対象の文書の集合は、記憶装置１００４にあらかじめ記憶されているものであってもよい。また、類似度判定対象の文書の集合は、入力装置１００５またはネットワークインタフェース（図示せず）等を介して外部から入力されるものであってもよい。

以上のように構成された多言語文書類似度判定装置２の動作について、図５を参照して説明する。なお、多言語文書類似度判定装置２は、類似度を判定したい文書の集合が入力されると、以下の動作を開始するものとする。

図５では、まず、単語ベクトル取得部１２は、類似度を判定したい文書の集合の各文書について、単語ベクトルを取得する（ステップＳ１１）。

次に、意味ベクトル作成部１３は、各文書について、文書の単語ベクトルおよびその文書の記述言語に対応する行列に基づいて、その文書の意味ベクトルを作成する（ステップＳ１２）。

次に、類似度計算部１４において、文書の集合において、任意の文書の組の類似度を計算する（ステップＳ１３）。

次に、類似度判定部２６は、得られた類似度に基づいて類似度を判定し、判定結果を出力する（ステップＳ１４）。前述のように、類似度判定部２６は、類似度を閾値と比較することにより、任意の文書の組が類似しているか否かを表す情報を判定結果として出力してもよい。また、類似度判定部２６は、類似度を用いて文書のクラスタリングやランキングを行い、その結果を判定結果として出力してもよい。

以上で、多言語文書類似度判定装置２は、動作を終了する。

次に、本発明の第２の実施の形態の効果について説明する。

本発明の第２の実施の形態としての多言語文書類似度判定装置は、多言語文書群において、言語が３種類以上であっても、より低コストにより精度よく、類似文書を判定することができる。

その理由は、多言語行列記憶部が、対象言語毎に文書の単語ベクトルを意味ベクトルに変換するための行列として学習されたものを保持しているからである。そして、単語ベクトル取得部が、文書について単語ベクトルを取得する。そして、意味ベクトル作成部が、文書について単語ベクトルおよびその記述言語に対応する行列に基づいて意味ベクトルを作成する。そして、類似度計算部が、文書の組について意味ベクトルに基づいて類似度を計算する。そして、類似度判定部が、類似度判定対象の文書の集合において、類似度に基づく類似判定を行うからである。

このように、多言語行列記憶部に保持される対象言語毎の行列は、本発明の第１の実施の形態としての多言語文書類似度学習装置によって学習されたものであり、相手言語に対して非依存となっている。そのため、類似度計算部は、ある文書に類似する他の文書を求めるために、ある文書についての意味ベクトルを、比較対象となる文書群の記述言語に対応する数だけ計算する必要がない。つまり、類似度計算部は、ある文書について、比較対象となる文書群の記述言語の数に関わらず、１つの意味ベクトルを計算すればよい。このため、類似度判定のための計算コストが低くなる。また、そのような意味ベクトルは、言語対によらず、各次元の意味が同じになるように作成されている。このため、意味ベクトルに基づき算出される類似度は、精度が高いものとなる。

次に、本発明の第２の実施の形態の動作を具体例で示す。

ここでは、言語横断でウェブ上のニュース記事（文書）のクラスタリングを行う例について説明する。

多言語行列記憶部１１には、本発明の第１の実施の形態における具体例で学習した言語ごとの行列Ｍ_ｉが保持されているものとする。また、多言語文書類似度判定装置２には、クラスタリング対象（類似度の判定対象）となる文書の集合として、ウェブ上から収集されるニュース記事群が入力されるものとする。

まず、単語ベクトル取得部１２は、クラスタリング対象の文書の集合における各文書を、単語ベクトルに変換する。変換の方法は、本発明の第１の実施の形態における具体例と同様である。

次に、意味ベクトル作成部１３は、作成した単語ベクトルと、多言語行列記憶部１１に保持されている言語ごとの行列Ｍ_ｉとの積を取ることで、各文書の意味ベクトルを作成する。作成の方法は、本発明の第１の実施の形態における具体例と同様である。

次に、類似度計算部１４は、クラスタリング対象の文書の集合において、任意の文書の組毎に、意味ベクトル同士の内積を取ることで類似度を求める。

そして、類似度判定部２６は、類似度が閾値以上の文書の組を、同じクラスタに属させることで、クラスタリングを行う。

このように、この具体例では、多言語行列記憶部１１に、言語ごとに文書の単語ベクトルを意味ベクトルに変換するための行列Ｍ_ｉを保持している。この行列Ｍ_ｉは、本発明の第１の実施の形態における具体例で多言語文書類似度学習装置１により学習されたものであるから、相手言語非依存である。したがって、類似度計算部１４は、任意の文書の組毎に類似度を算出する際に、各文書について１つずつ算出された意味ベクトルを用いればよく、言語対毎の計算が不要となる。

一方、上述の特許文献２に記載された関連技術では、比較対象文書の言語数分、Ｍ_ｉｘ・ｄ_ｉｊを計算する必要があった（xは比較対象の言語を表す）。

これに対して、この具体例は、ある文書ｄ_ｉｊを他の文書群と比較する場合、比較対象の文書群が複数の言語で記述されていても、意味ベクトルＭ_ｉ・ｄ_ｉｊを１つ求めるだけで良い。したがって、この具体例は、類似度の計算コストを低くすることができる。

以上で、本発明の第２の実施の形態における動作の具体例の説明を終了する。

なお、上述した本発明の各実施の形態において、対象言語毎に保持される行列は、互いに列の数が等しい例を中心に説明した。この他、各行列は、互いに行の数が等しいものであってもよい。この場合、各行列の列の数には、対応する言語で記述された文書の単語ベクトルの次元数を適用すればよい。

また、上述した本発明の各実施の形態において、意味ベクトル作成部が、文書の単語ベクトルおよびその記述言語に対応する行列の積を、意味ベクトルとして算出する例を中心に説明した。この他、意味ベクトル作成部は、文書の単語ベクトルおよびその記述言語に対応する行列に基づいて意味ベクトルを作成するその他の演算方法を用いてもよい。また、類似度計算部が、文書の組について各文書の意味ベクトルの内積を算出して類似度とする例を中心に説明した。この他、類似度計算部は、各文書の意味ベクトルに基づいて類似度を計算するその他の演算方法を用いてもよい。

また、上述した本発明の各実施の形態としての多言語文書類似度学習装置および多言語文書類似度判定装置は、同一の装置上に実現されていてもよい。

また、上述した本発明の各実施の形態において、多言語文書類似度学習装置および多言語文書類似度判定装置の各機能ブロックが、記憶装置またはＲＯＭに記憶されたコンピュータ・プログラムを実行するＣＰＵによって実現される例を中心に説明した。このような構成の他、本実施の形態において、各機能ブロックの一部、全部、または、それらの組み合わせが専用のハードウェアにより実現されていてもよい。

また、上述した本発明の各実施の形態において、多言語文書類似度学習装置または多言語文書類似度判定装置の機能ブロックは、複数の装置に分散されて実現されてもよい。

また、上述した本発明の各実施の形態において、各フローチャートを参照して説明した多言語文書類似度学習装置および多言語文書類似度判定装置の動作を、本発明のコンピュータ・プログラムとしてコンピュータ装置の記憶装置（記憶媒体）に格納してもよい。そして、係るコンピュータ・プログラムを当該ＣＰＵが読み出して実行するようにしてもよい。そして、このような場合において、本発明は、係るコンピュータ・プログラムのコードあるいは記憶媒体によって構成される。

また、上述した各実施の形態は、適宜組み合わせて実施されることが可能である。

以上、上述した各実施の形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した各実施の形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。

この出願は、２０１４年３月２８日に出願された日本出願特願２０１４−６７３５９を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１多言語文書類似度学習装置
２多言語文書類似度判定装置
１１多言語行列記憶部
１２単語ベクトル取得部
１３意味ベクトル作成部
１４類似度計算部
１５多言語行列学習部
２６類似度判定部
１００１ＣＰＵ
１００２ＲＡＭ
１００３ＲＯＭ
１００４記憶装置
１００５入力装置
１００６出力装置

また、本発明の多言語文書類似度学習プログラムは、対象言語毎に保持される行列を用いて、文書に対応する単語ベクトルを取得する単語ベクトル取得ステップと、前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成ステップと、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算ステップと、前記対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の前記類似度が、対訳関係にない文書の組の前記類似度より高くなるように、前記各対象言語に対応する前記行列の値を調整して学習する多言語行列学習ステップと、をコンピュータ装置に実行させる。

また、本発明の他の多言語文書類似度学習プログラムは、上述の多言語文書類似度学習プログラムの実行により学習された前記対象言語毎の前記行列を用いて、文書に対応する単語ベクトルを取得する単語ベクトル取得ステップと、前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成ステップと、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算ステップと、類似度判定対象の文書の集合において、前記類似度を用いて文書間の類似度を判定する類似度判定ステップと、をコンピュータ装置に実行させる。

Claims

対象言語毎に行列を保持する多言語行列記憶手段と、
文書に対応する単語ベクトルを取得する単語ベクトル取得手段と、
前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成手段と、
文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算手段と、
前記対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の前記類似度が、対訳関係にない文書の組の前記類似度より高くなるように、前記各対象言語に対応する前記行列の値を調整して学習する多言語行列学習手段と、
を備えた多言語文書類似度学習装置。
前記多言語行列学習手段は、前記各対象言語に対応する前記行列の学習を並列して行うことを特徴とする請求項１に記載の多言語文書類似度学習装置。
前記多言語行列記憶手段は、前記対象言語毎の行列として、行または列の数が互いに等しい行列を保持し、
前記意味ベクトル作成手段は、前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列の積を、前記文書の意味ベクトルとして作成し、
前記類似度計算手段は、前記文書の組について、各文書の前記意味ベクトルの内積を、前記類似度として計算することを特徴とする請求項１または請求項２に記載の多言語文書類似度学習装置。
前記多言語行列学習手段は、前記対訳関係にある文書の組の前記類似度が、該対訳関係にある文書の組の一方の文書と、該文書に対して対訳関係にない他の文書との前記類似度より高くなるように、前記各行列の学習を行うことを特徴とする請求項１から請求項３のいずれか１項に記載の多言語文書類似度学習装置。
前記多言語行列学習手段は、前記対訳関係にある文書の組の前記類似度が、前記対訳関係にない文書の組の前記類似度より高くなるように、確率的最急勾配法を用いて前記各行列を学習し、確率的最急勾配法のステップごとに、前記対訳関係にある文書の組および前記対訳関係にない文書の組を前記文書の集合からランダムに選択することを特徴とする請求項１から請求項４のいずれか１項に記載の多言語文書類似度学習装置。
請求項１から請求項５のいずれか１項に記載の多言語文書類似度学習装置を用いて学習された前記対象言語毎の前記行列を保持する多言語行列記憶手段と、
文書に対応する単語ベクトルを取得する単語ベクトル取得手段と、
前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成手段と、
文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算手段と、
類似度判定対象の文書の集合において、前記類似度を用いて文書間の類似度を判定する類似度判定手段と、
を備えた多言語文書類似度判定装置。
対象言語毎に保持される行列を用いて、文書に対応する単語ベクトル、および、前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成し、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算することにより、
対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の前記類似度が、対訳関係にない文書の組の前記類似度より高くなるように、前記各対象言語に対応する前記行列の値を調整して学習する、多言語文書類似度学習方法。
請求項７に記載の多言語文書類似度学習方法により学習された前記対象言語毎の前記行列を用いて、文書に対応する単語ベクトル、および、前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成し、文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算することにより、
類似度判定対象の文書の集合において、前記類似度を用いて文書間の類似度を判定する、多言語文書類似度判定方法。
対象言語毎に保持される行列を用いて、
文書に対応する単語ベクトルを取得する単語ベクトル取得ステップと、
前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成ステップと、
文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算ステップと、
前記対象言語のいずれかでそれぞれが記述された文書の集合において、対訳関係にある文書の組の前記類似度が、対訳関係にない文書の組の前記類似度より高くなるように、前記各対象言語に対応する前記行列の値を調整して学習する多言語行列学習ステップと、
をコンピュータ装置に実行させる多言語文書類似度学習プログラムを記憶した記憶媒体。
請求項９に記載の記憶媒体に記憶された多言語文書類似度学習プログラムの実行により学習された前記対象言語毎の前記行列を用いて、
文書に対応する単語ベクトルを取得する単語ベクトル取得ステップと、
前記文書の単語ベクトルおよび前記文書の記述言語に対応する前記行列に基づいて、前記文書の意味ベクトルを作成する意味ベクトル作成ステップと、
文書の組について、各文書の前記意味ベクトルに基づいて類似度を計算する類似度計算ステップと、
類似度判定対象の文書の集合において、前記類似度を用いて文書間の類似度を判定する類似度判定ステップと、
をコンピュータ装置に実行させる多言語文書類似度判定プログラムを記憶した記憶媒体。