JPWO2019224891A1

JPWO2019224891A1 - 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム

Info

Publication number: JPWO2019224891A1
Application number: JP2018545404A
Authority: JP
Inventors: 誠津々見; 浩司村上; 卓志梅田
Original assignee: Rakuten Inc
Current assignee: Rakuten Group Inc
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2020-05-28
Anticipated expiration: 2038-05-21
Also published as: US11379536B2; JP6462970B1; US20210334309A1; WO2019224891A1

Abstract

関連付け候補が多い場合であっても、所与の文章に現れる語に関連性があるエンティティの推定精度を向上させる。分類装置は、所定エンティティに関係する第１文章を含むコーパスを用いて生成された第１モデルと、第１文章を含むコーパスを用いて生成された第２モデルとを記憶する。第１モデルからは、第１文章に含まれる語の特徴が得られる。第２モデルからは、第１文章の特徴が得られる。分類装置は、第１モデルにより、所定エンティティを示す第１語のうち、第２文章に含まれる第２語との間に特徴の類似性がある語により示されるエンティティを示す第１情報を出力させる。分類装置は、第２モデルにより、第１文章のうち、第２文章との間に特徴の類似性がある文章が関係するエンティティを示す第２情報を出力させる。分類装置は、第１情報、及び第２情報に基づいて、第２語の関連付けを決定する。

Description

本発明は、機械学習の技術分野に関し、特に、特定の文章に現れる語が如何なる意味で使用されているかを推定する分類装置、分類方法、及び分類器の生成方法の技術分野に関する。

多義性を有する語は、その語自体からは何を意味するかが曖昧である。そのため従来、多数の文章を用いた機械学習により、或る文章で使用されている語が、その文章の文脈において如何なる意味で用いられているかを推定する技術が知られている。

例えば、非特許文献１には、Ｄｏｃ２Ｖｅｃを用いて、言語で表現されたエンティティを、知識ベース上の意味が明確なエンティティに関連付ける方法が開示されている。この方法においては、ウェブベース百科事典において候補となるエンティティのページを用いた学習により、それら候補のパラグラフベクトルが得られるモデルが生成される。このモデルを用いて、関連付け対象の語を含む文章のパラグラフベクトルが推定され、このパラグラフベクトルとの類似度が高いパラグラフベクトルが得られた候補が、その語に関連付けられるエンティティとして推定される。

Louis Kirsch、他３名、"Named Entity Linking using Paragraph Vector"、［online］、［平成30年4月25日検索］、インターネット<URL: http://louiskirsch.com/res/nel_paragraph_vector.pdf>

しかしながら、関連付け候補となるエンティティが多数にのぼる場合、非特許文献１に開示されたような１段階の分類では、たとえ学習用の文書が十分にあったとしても、精度よく関連付けを行うことが難しい。

本発明は、以上の点に鑑みてなされたものであり、関連付け候補が多い場合であっても、所与の文章に現れる語に関連性があるエンティティの推定精度を向上させる分類装置、分類方法、生成方法、分類プログラム及び生成プログラムを提供することを目的とする。

上記課題を解決するために、請求項１に記載の発明は、１以上の所定エンティティそれぞれに関係する１以上の第１文章を含むコーパスを用いた機械学習により生成された第１モデルであって、前記１以上の第１文章に含まれる語の特徴が得られる第１モデルと、前記１以上の第１文章を含むコーパスを用いた機械学習により生成された第２モデルであって、前記１以上の第１文章の特徴が得られる第２モデルと、を記憶する記憶手段と、前記記憶された第１モデルにより、所与の第２文章に含まれる、関連付け対象である第２語の入力に応じて、前記１以上の所定エンティティそれぞれを示す１以上の第１語のうち、前記第２語との間に特徴の類似性がある１以上の語それぞれにより示される１以上のエンティティを示す第１情報を出力させる第１制御手段と、前記記憶された第２モデルにより、前記第２文章の入力に応じて、前記１以上の第１文章のうち、前記第２文章との間に特徴の類似性がある１以上の文章それぞれが関係する１以上のエンティティを示す第２情報を出力させる第２制御手段と、前記出力された第１情報、及び前記出力された第２情報に基づいて、前記第２語の関連付けを決定する決定手段と、を備えることを特徴とする。

この発明によれば、第１モデルから得られる語の特徴の類似性、及び第２モデルから得られる文章の特徴の類似性の両方に基づいて、第２語の関連付けが決定される。従って、関連付け候補が多い場合であっても、所与の第２文章に現れる第２語に関連性があるエンティティの推定精度を向上させることができる。

請求項２に記載の発明は、請求項１に記載の分類装置において、前記第２制御手段は、前記第１モデルの生成に用いられるコーパスから前記１以上の第１語が除かれたコーパスを用いて生成された前記第２モデルにより、前記第２情報を出力させることを特徴とする。

この発明によれば、エンティティを示す第１語が除かれることによって、第１文章について、第１語自体からは距離を置いてより広い文脈に基づく特徴が、前記第２モデルから得られることになる。従って、関係する第１文章の特徴が、第２文章の特徴と類似するエンティティを適切に抽出することができる。

請求項３に記載の発明は、請求項１に記載の分類装置において、前記第２制御手段は、前記第１モデルの生成に用いられるコーパスから前記１以上の第１語が除かれたコーパスを用いて生成された前記第２モデルにより、前記第２情報を出力させることを特徴とする。

この発明によれば、一のモデルを生成すればよいので、語の特徴用のモデル、及び文章の特徴用のモデルの両方を生成する場合よりも学習時間を短縮することができる。また、コーパスを準備する手間を軽減させることができる。

請求項４に記載の発明は、請求項１乃至３の何れか１項に記載の分類装置において、前記第２制御手段は、前記第１モデルから出力された前記第１情報により示されるエンティティに関する第１文書のうち、前記第２文章との間における特徴の類似度が相対的に高い文章が関係するエンティティ示す前記第２情報を前記第２モデルにより出力させ、前記決定手段は、前記第２情報に基づいて、前記第２語の関連付けを決定することを特徴とする。

この発明によれば、第２語に真に関連するエンティティを、関連エンティティの候補として抽出する精度が、第２モデルよりも第１モデルの方が高い場合、最終的な推定精度を向上させることができる。

請求項５に記載の発明は、請求項１乃至４の何れか１項に記載の分類装置において、前記第１モデルから、前記１以上の第１文章に含まれる語の特徴が単語単位で得られ、前記第１モデルは、前記第２語が複数の単語で構成される場合、該複数の単語それぞれの特徴に対する所定演算により前記第２語の特徴を算出することを特徴とする。

この発明によれば、第２語自体は学習用のコーパスに含まれていなくとも、第２語の特徴を取得することができる。

請求項６に記載の発明は、請求項１乃至５の何れか１項に記載の分類装置において、前記第２モデルは、前記第２情報を出力するとき、前記第２文章を用いた機械学習により、該第２文章の特徴を取得することを特徴とする。

この発明によれば、学習用のコーパスが、第２文章と同一の文章を含まなくても、第２文章の特徴を取得することができる。

請求項７に記載の発明は、コンピュータにより実行される分類方法において、１以上の所定エンティティそれぞれに関係する１以上の第１文章を含むコーパスを用いた機械学習により生成された第１モデルであって、前記１以上の第１文章に含まれる語の特徴が得られる第１モデルを、記憶手段に記憶させる第１記憶ステップと、前記１以上の第１文章を含むコーパスを用いた機械学習により生成された第２モデルであって、前記１以上の第１文章の特徴が得られる第２モデルを、前記記憶手段に記憶させる第２記憶ステップと、前記記憶された第１モデルにより、所与の第２文章に含まれる、関連付け対象である第２語の入力に応じて、前記１以上の所定エンティティそれぞれを示す１以上の第１語のうち、前記第２語との間に特徴の類似性がある１以上の語それぞれにより示される１以上のエンティティを示す第１情報を出力させる第１制御ステップと、前記記憶された第２モデルにより、前記第２文章の入力に応じて、前記１以上の第１文章のうち、前記第２文章との間に特徴の類似性がある１以上の文章それぞれが関係する１以上のエンティティを示す第２情報を出力させる第２制御ステップと、前記出力された第１情報、及び前記出力された第２情報に基づいて、前記第２語の関連付けを決定する決定ステップと、を含むことを特徴とする。

請求項８に記載の発明は、コンピュータにより実行される生成方法において、１以上の所定エンティティそれぞれに関係する１以上の第１文章を含むコーパスを用いた機械学習により、前記１以上の第１文章に含まれる語の特徴が得られる第１モデルを生成する第１生成ステップと、前記１以上の第１文章を含むコーパスを用いた機械学習により、前記１以上の第１文章の特徴が得られる第２モデルを生成する第２生成ステップと、前記１以上の所定エンティティのうち、所与の第２文章に含まれる、関連付け対象である第２語の関連付けを決定する決定部と、前記第１モデル及び前記第２モデルとを含む分類器を生成する第３生成ステップと、を含み、前記第１モデルは、前記第２語の入力に応じて、前記１以上の所定エンティティそれぞれを示す１以上の第１語のうち、前記第２語との間に特徴の類似性がある１以上の語それぞれにより示される１以上のエンティティを示す第１情報を出力し、前記第２モデルは、前記第２文章の入力に応じて、前記１以上の第１文章のうち、前記第２文章との間に特徴の類似性がある１以上の文章それぞれが関係する１以上のエンティティを示す第２情報を出力し、前記決定部は、前記出力された第１情報、及び前記出力された第２情報に基づいて、前記第２語の関連付けを決定することを特徴とする。

請求項９に記載の発明は、コンピュータにより実行される分類プログラムにおいて、前記コンピュータは、１以上の所定エンティティそれぞれに関係する１以上の第１文章を含むコーパスを用いた機械学習により生成された第１モデルであって、前記１以上の第１文章に含まれる語の特徴が得られる第１モデルと、前記１以上の第１文章を含むコーパスを用いた機械学習により生成された第２モデルであって、前記１以上の第１文章の特徴が得られる第２モデルと、を記憶する記憶手段を備え、前記コンピュータを、前記記憶された第１モデルにより、所与の第２文章に含まれる、関連付け対象である第２語の入力に応じて、前記１以上の所定エンティティそれぞれを示す１以上の第１語のうち、前記第２語との間に特徴の類似性がある１以上の語それぞれにより示される１以上のエンティティを示す第１情報を出力させる第１制御手段と、前記記憶された第２モデルにより、前記第２文章の入力に応じて、前記１以上の第１文章のうち、前記第２文章との間に特徴の類似性がある１以上の文章それぞれが関係する１以上のエンティティを示す第２情報を出力させる第２制御手段と、前記出力された第１情報、及び前記出力された第２情報に基づいて、前記第２語の関連付けを決定する決定手段と、として機能させることを特徴とする。

請求項１０に記載の発明は、コンピュータにより実行される生成プログラムにおいて、前記コンピュータを、１以上の所定エンティティそれぞれに関係する１以上の第１文章を含むコーパスを用いた機械学習により、前記１以上の第１文章に含まれる語の特徴が得られる第１モデルを生成する第１生成手段と、前記１以上の第１文章を含むコーパスを用いた機械学習により、前記１以上の第１文章の特徴が得られる第２モデルを生成する第２生成手段と、前記１以上の所定エンティティのうち、所与の第２文章に含まれる、関連付け対象である第２語の関連付けを決定する決定部と、前記第１モデル及び前記第２モデルとを含む分類器を生成する第３生成手段と、として機能させ、前記第１モデルは、前記第２語の入力に応じて、前記１以上の所定エンティティそれぞれを示す１以上の第１語のうち、前記第２語との間に特徴の類似性がある１以上の語それぞれにより示される１以上のエンティティを示す第１情報を出力し、前記第２モデルは、前記第２文章の入力に応じて、前記１以上の第１文章のうち、前記第２文章との間に特徴の類似性がある１以上の文章それぞれが関係する１以上のエンティティを示す第２情報を出力し、前記決定部は、前記出力された第１情報、及び前記出力された第２情報に基づいて、前記第２語の関連付けを決定することを特徴とする。

本発明によれば、関連付け候補が多い場合であっても、所与の文章に現れる語に関連性があるエンティティの推定精度を向上させることができる。

一実施形態に係る分類装置１の概要構成の一例を示すブロック図である。一実施形態に係る分類装置１のシステム制御部１１の機能ブロックの一例を示す図である。分類器２の生成方法の一例を示す図である。関連付けが実行される様子の一例を示す図である。分類装置１のシステム制御部１１による学習処理の一例を示すフローチャートである。分類装置１のシステム制御部１１による関連付け処理の一例を示すフローチャートである。一実施例における分類器５の生成方法の一例を示す図である。メーカ名に関連する上場企業の推定方法の一例を示す図である。評価実験の結果を示す図である。

以下、図面を参照して本発明の実施形態について詳細に説明する。以下に説明する実施形態においては、分類器の生成及びこの分類器を用いて所与の文章に含まれる語とエンティティとの関連付けを実行する分類装置に対して本発明を適用した場合の実施形態である。なお、分類器を生成する装置と関連付けを実行する装置とは別々の装置であってもよい。

［１．分類装置の構成］
先ず、分類装置１の構成について、図１Ａを用いて説明する。図１Ａは、本実施形態に係る分類装置１の概要構成の一例を示すブロック図である。図１Ａに示すように、分類装置１は、システム制御部１１と、システムバス１２と、入出力インターフェース１３と、記憶部１４と、通信部１５と、入力部１６と、表示部１７と、を備えている。システム制御部１１と入出力インターフェース１３とは、システムバス１２を介して接続されている。

システム制御部１１は、ＣＰＵ（Central Processing Unit）１１ａ、ＲＯＭ（Read Only Memory）１１ｂ、ＲＡＭ（Random Access Memory）１１ｃ等により構成されている。ＣＰＵ１１ａは、プロセッサの一例である。なお、本発明は、ＣＰＵと異なる様々なプロセッサに対しても適用可能である。記憶部１４、ＲＯＭ１１ｂ及びＲＡＭ１１ｃは、それぞれメモリの一例である。なお、本発明は、ハードディスク、ＲＯＭ及びＲＡＭと異なる様々なメモリに対しても適用可能である。

入出力インターフェース１３は、記憶部１４〜表示部１７とシステム制御部１１との間のインターフェース処理を行う。

記憶部１４は、例えば、ハードディスクドライブ又はソリッドステートドライブ等により構成されている。この記憶部１４には、分類器２の生成に用いられる学習データとしてのコーパス、生成された分類器２等が記憶される。コーパスは、ネットワークを介して取得されてもよいし、光ディスク、メモリカード、磁気テープ等の記録媒体に記録されてドライブ装置を介して読み込まれるようにしてもよい。なお、分類器２を生成する装置と関連付けを実行する装置とが別々の装置である場合、生成された分類器２の受け渡しは、ネットワークを介して行われてもよいし、記録媒体を介して行われてもよい。記憶部１４には、更にオペレーティングシステム、分類器生成用のプログラム、関連付け用のプログラム等が記憶されている。各種プログラムは、例えば、所定のサーバ装置等からネットワークを介して取得されるようにしてもよいし、記録媒体に記録されてドライブ装置を介して読み込まれるようにしてもよい。

通信部１５は、インターネット、ＬＡＮ（Local Area Network）等のネットワークを介して他のコンピュータと接続し、そのコンピュータとの通信状態を制御する。

入力部１６は、オペレータによる操作を受け付け、操作内容に対応する信号をシステム制御部１１に出力する。入力部１６の例として、キーボード、マウス、タッチパネル等が挙げられる。

表示部１７は、システム制御部１１の制御により、画像、文字等の情報を表示する。表示部１７は、例えばＧＰＵ（Graphics Processing Unit）、ＶＲＡＭ（Video RAM）、ディスプレイパネル等により構成される。ディスプレイパネルの例として、液晶パネル、有機ＥＬ（Light Emitting）パネル等が挙げられる。

［２．分類装置のシステム制御部の機能概要］
次に、図１Ｂ乃至図３を用いて、システム制御部１１の機能概要について説明する。図１Ｂは、本実施形態に係る分類装置１のシステム制御部１１の機能ブロックの一例を示す図である。システム制御部１１は、ＣＰＵ１１ａが、記憶部１４に記憶されているプログラムに含まれる各種コード等を読み出し実行することにより、図１Ｂに示すように、語用モデル生成部１１１、文章用モデル生成部１１２、分類器生成部１１３、語用モデル制御部１１４、文章用モデル制御部１１５、及び出力制御部１１６等として機能する。

［２−１．分類器の生成］
分類器２は、関連付けの実行時、所与の文章（以下、「対象文章」という。）と、対象文章に含まれる語であって、関連付け先を識別する対象となる語（以下、「対象語」という。）とが入力されると、関連付け先の候補となり得る予め定められた１以上のエンティティ（以下、「所定エンティティ」という。）の中から、その対象語に関連付けられるエンティティ（以下「関連エンティティ」という。）を示す情報を出力する。分類器２は、例えば対象語が示すエンティティ（以下、「対象エンティティ」という。）と実質的に同一であるエンティティを関連エンティティとして識別し、又は対象エンティティとの間に意味的、組織的、社会的等において何らかの関連があるエンティティを関連エンティティとして識別することを目的として用いられる。対象語との間で表記又は読みが全く異なる語で示されるエンティティであっても、関連エンティティとして識別されることがあってもよい。更には、対象語との間で表記又は読みが一致し又は類似する語で示されるエンティティであっても、関連エンティティとしては識別されないことがあってもよい。

対象文章は、例えば、対象エンティティに言及した文章であってもよい。対象エンティティが人物、団体、法人等である場合、対象文章は、対象エンティティが作成又は記述した文章であってもよい。対象文章は、対象エンティティを示す語を含み得る。なお、本実施形態において「文章」というときは、単一の文章、及び一以上の文章で構成される文書の何れをも示す。

上述したような、対象語と所定エンティティの関連付けを行う場合、次に述べる課題が存在する。第１の課題は、語が多義性を有し得ることに起因する。すなわち、表記が同一の語であっても、それらが別々の文章に現れる場合はそれらの文脈に応じて、別々のエンティティを示す場合がある。このような語を適切なエンティティに関連付けることが望まれる。第２の課題は、関連付けの候補となり得るエンティティ自体が、曖昧性を有したり、広義にとらえられたりする場合があることに起因する。すなわち、或るエンティティが、表記の異なる複数の語に関連付けられる場合がある。例えば、異なる複数の語によりそれぞれ示されるエンティティが、同一のエンティティに属していたり、そのエンティティの下位概念であったりする。このような複数の語を適切な一のエンティティに関連付けることが望まれる。第３の課題は、関連付けの候補となり得るエンティティの中に、対処語と関連するエンティティが存在するか否かが事前に不確定であることに起因する。すなわち、所定エンティティの中に、対象語に真に関連するエンティティが存在する場合も存在しない場合も考えられる。このような状況において、対象語に関連するエンティティが存在するか否かを適切に推定することが望まれる。

図２は、分類器２の生成方法の一例を示す図である。図２に示すように、分類器２は、語用モデル２１と、文章用モデル２２と、決定部２３とを含んで構成される。語用モデル生成部１１１〜分類器生成部１１３により、語用モデル２１〜決定部２３が生成される。

分類装置１は、語用モデル２１及び文章用モデル２２の生成のために、オペレータの操作に基づき、機械学習用のデータとしてコーパス３０を取得する。コーパス３０は、１以上の所定エンティティそれぞれに関係する１以上の文章を含む。所定エンティティに関係する文章は、例えば、所定エンティティに言及した文章であってもよいし、所定エンティティが作成又は記述した文章であってもよい。各文章は、対応する所定エンティティを示す語を含み得る。コーパス３０の取得元は特に限定されるものではないが、取得元の例として、各所定エンティティに関するウェブページが掲載されているウェブベース百科事典、オンラインショッピングサイト、ＳＮＳサイト、所定エンティティに言及したサイト、所定エンティティが運営するサイト等のウェブサイトや、各所定エンティティに関する文章データを蓄積しているデータベース等が挙げられる。取得されたコーパス３０内の各文章と各所定エンティティは関連付けられる。

分類装置１は、コーパス３０に前処理を施すことにより、学習用コーパス３１を得る。例えば、形態素解析により、コーパス３０内の文章が分かち書きされて名詞が抽出され、抽出された語は正規化される。或る名称が複数の単語（または形態素）で構成される場合、これら複数の単語に分解されて抽出されることが望ましい。但し、所定エンティティを示す語が複数の単語で構成されている場合であっても、所定エンティティを示す語自体は分解されずに学習用コーパス３１に含まれてもよい。更に、例えばストップワードがコーパス３０から除去されて、学習用コーパス３１が生成される。前処理は、オペレータの操作に基づいて実行されてもよいし、分類装置１が自動的に実行してもよい。

語用モデル生成部１１１は、学習用コーパス３１を用いた機械学習を実行することにより、１以上の所定エンティティそれぞれに関係する１以上の文章に含まれる語の特徴が得られる語用モデル２１を生成する。語の特徴は、例えば、その語が如何なる文脈で用いられているか、或いはその語の周辺で如何なる語が用いられているか等に基づく。意味的に近い語同士又は関連性が高い語同士の特徴は類似する傾向にある。語の特徴は、例えば分散表現であるワードベクトルで示されてもよい。語用モデル２１は、コーパスに含まれる各語の特徴が得られるものであれば特段のモデルに限定されるものではないが、望ましくはＷｏｒｄ２Ｖｅｃであり、より望ましくはＤｏｃ２Ｖｅｃである。Ｗｏｒｄ２Ｖｅｃの場合、Ｓｋｉｐ−ｇｒａｍ及びＣＢｏＷ（Continuous Bag of Words）の何れが用いられてもよい。Ｄｏｃ２Ｖｅｃの場合、ＰＶ−ＤＭ（Paragraph Vector with Distributed Memory）及びＰＶ−ＤＢＯＷ（Paragraph Vector with Distributed Bag of Words）の何れが用いられてもよい。語用モデル２１の機械学習の方法としては、例えば、ＰＶ−ＤＭやＰＶ−ＤＢＯＷ等における一般的な方法が用いられればよい。語用モデル２１は、関連付けの実行時、対象語の入力に応じて、１以上の所定エンティティをそれぞれ示す語のうち、対象語との間に特徴の類似性がある１以上のエンティティを示す第１候補情報を出力する。なお、機械学習はＧＰＵが実行してもよい。

文章用モデル生成部１１２は、学習用コーパス３１（または後述する学習用コーパス３２）を用いた機械学習を実行することにより、１以上の所定エンティティそれぞれに関係する１以上の文章の特徴が得られる文章用モデル２２を生成する。文章の特徴は、例えば、文章に含まれる各語が如何なる文脈で用いられているか、或いは各語の周辺で如何なる語が用いられているか等に基づく。文章の特徴は、例えば分散表現であるパラグラフベクトルで示される。文章用モデル２２は、コーパスに含まれる各文章の特徴が得られるものであれば特段のモデルに限定されるものではないが、望ましくはＤｏｃ２Ｖｅｃである。Ｄｏｃ２Ｖｅｃの場合、ＰＶ−ＤＭ及びＰＶ−ＤＢＯＷの何れが用いられてもよい。文章用モデル２２の機械学習の方法としては、例えば、ＰＶ−ＤＭやＰＶ−ＤＢＯＷ等における一般的な方法が用いられればよい。文章用モデル２２は、関連付けの実行時、対象文章の入力に応じて、１以上の所定エンティティをそれぞれに関係する文章のうち、対象文章との間に特徴の類似性がある文章に関係する１以上のエンティティを示す第２候補情報を出力する。

文章用モデル生成部１１２は、学習用コーパス３１に変えて、学習用コーパス３１に含まれる各文章から、それぞれ対応する所定エンティティを示す語及び対象語の少なくとも何れか一方が除かれた学習用コーパス３２を用いて機械学習を実行することにより、文章用モデル２２を生成してもよい。これにより、文章に含まれる語又は情報の抽象度が異なる学習用コーパス３１と学習用コーパス３２とが使用されることになる。すなわち、学習用コーパス３２の方が学習用コーパス３１よりも抽象度が高い。文章は、抽象度が異なる情報を含み得るところ、人間がその文章中において多義性を有する或る語の意味を解釈するとき、その語自体からは一旦距離を置いて、より広い文脈から俯瞰してその語の意味を検討する。この、語自体から距離を置いてより広い文脈からその語の意味を解釈するという点を、所定エンティティを示す語及び対象語の少なくとも何れか一方が除去された学習用コーパス３２を用いた機械学習により実現する。例えば、図２に示すように、或るエンティティＡＢＣに関する文章がコーパス３０に含まれていた場合、学習用コーパス３１においては「ＡＢＣ」を含む一方で、学習用コーパス３２においては「ＡＢＣ」を含まない。

語用モデル２１による機械学習及び文章用モデル２２による機械学習の何れが先に実行されてもよいし、同時並行で実行されてもよい。

語用モデル２１及び文章用モデル２２の両方の機械学習に、学習用コーパス３１を用いることを想定する場合、実質的にモデル２１及びモデル２２の両方の特徴を兼ね備える一のモデルによる機械学習を実行することにより、学習期間の短縮化を図ることができる。すなわち、この一のモデルは、語の特徴及び文章の特徴の両方が得られるモデルであり、語用モデル２１及び文章用モデル２２に相当する。例えば、ＰＶ−ＤＭであれば元来からワードベクトル及びパラグラフベクトルの両方が得られ、ＰＶ−ＤＢＯＷであっても、オプションにより、パラグラフベクトルに加えてワードベクトルも得られるようにすることが可能である。学習用のコーパスとして一のコーパスを準備すればよいので、コーパスを準備する手間が軽減される。

分類器生成部１１３は、語用モデル２１、文章用モデル２２及び決定部２３を含む分類器２を生成する。決定部２３は、例えば、語用モデル２１から出力された第１候補情報、及び文章用モデル２２から出力された第２候補情報に基づいて、対象語の関連付けを決定するためのプログラムコードである。決定部２３の詳細については後述する。

［２−２．関連付け］
次に、上述した方法で生成された分類器２を用いた関連付けの方法を説明する。図３は、関連付けが実行される様子の一例を示す図である。

図３に示すように、対象文章４２が対象語４１と関連付けて取得される。対象文章の取得元は特に限定されるものではない。対象文章４２は、例えばコーパス３０と同様の方法で前処理が施される。また、対象文章４２から、所定エンティティを示す語及び対象語の少なくとも何れか一方を除去したものが分類器２に入力されてもよい。その理由は、上述したように、学習用コーパス３２を用いて機械学習を行う理由と同様である。対象語４１及び対象文章４２が分類器２に入力される。

語用モデル制御部１１４は、語用モデル２１により、対象語の入力に応じて、１以上の所定エンティティそれぞれを示す１以上の語のうち、対象語との間に特徴の類似性がある１以上の語それぞれにより示される１以上のエンティティを示す第１候補情報を出力させる。例えば、語用モデル２１は、対象語のワードベクトルを取得する。対象語が複数の単語で構成される場合、語用モデル２１は、それら複数の単語のワードベクトルをそれぞれ取得し、これらのワードベクトルに対する所定演算により、対象語のワードベクトルを取得する。所定演算の例として、加算、平均等が挙げられる。これにより、コーパス３０に対象語が含まれない場合であっても、対象語のワードベクトルを取得することが可能である。語用モデル２１は、対象語のワードベクトルと各所定エンティティのワードベクトルとの類似度を計算する。この類似度は、例えばコサイン類似度であってもよい。そして、語用モデル２１は、所定エンティティのうち、類似度が相対的に高いＮ１個（Ｎ１は、Ｎ１＞０を満たす整数）のエンティティ又は類似度が所定閾値以上であるエンティティを、候補のエンティティとして決定する。そして、語用モデル２１は、候補として決定されたエンティティを示す第１候補情報を出力する。Ｎ１又は閾値は、例えば、テスト用のコーパスを用いて関連付けを実行し、その結果に基づいて決定されてもよい。

文章用モデル制御部１１５は、文章用モデル２２により、対象文章の入力に応じて、１以上の所定エンティティそれぞれに関係する１以上の文章のうち、対象文章との間に特徴の類似性がある１以上の文章それぞれに関係する１以上のエンティティを示す第２候補情報を出力させる。例えば、文章用モデル制御部１１５は、対象文章を用いた文章用モデル２２の機械学習を実行して、対象文章のパラグラフベクトルを取得する。この場合の学習回数は少なくてもよい。この機械学習によっては、文章用モデル２２自体（重み、バイアス等）は変更されない。文章用モデル２２は、対象文章のパラグラフベクトルと各所定エンティティに関係する文章のパラグラフベクトルとの類似度を計算する。この類似度は、例えばコサイン類似度であってもよい。そして、文章用モデル２２は、所定エンティティのうち、類似度が相対的に高いＮ２個（Ｎ２は、Ｎ２＞０を満たす整数）のエンティティ又は類似度が所定閾値以上であるエンティティを、候補のエンティティとして決定する。そして、文章用モデル２２は、候補として決定されたエンティティを示す第２候補情報を出力する。Ｎ２又は閾値は、例えば、テスト用のコーパスを用いて関連付けを実行し、その結果に基づいて決定されてもよい。

語用モデル２１による第１候補情報の出力、及び文章用モデル２２による第２候補情報の出力の何れが先に実行されてもよいし、同時並行で実行されてもよい。第１候補情報の出力が先に実行される場合、文章用モデル２２は、第１候補情報を入力として、第１候補情報に示されるエンティティの中から、パラグラフベクトルの類似度が相対的に高いＮ２個のエンティティ又は類似度が所定閾値以上であるエンティティを、候補のエンティティとして決定して、第２候補情報を出力してもよい。第２候補情報の出力が先に実行される場合、語用モデル２１は、第２候補情報を入力として、第２候補情報に示されるエンティティの中から、ワードベクトルの類似度が相対的に高いＮ１個のエンティティ又は類似度が所定閾値以上であるエンティティを、候補のエンティティとして決定して、第１候補情報を出力してもよい。何れを先に実行するかを判断する条件は、特定の条件に限定されるものではないが、例えば、語用モデル２１及び文章用モデル２２それぞれを単体でのみ使用して関連付けを行った場合の関連付け精度（推定精度）に基づいて判断されてもよい。例えば、精度が高い方のモデルによる候補情報の出力を先に実行させ、この候補情報を入力として、他方のモデルによる候補情報の出力を後に実行させる。これにより、最初のモデルにより抽出された候補が、対象語に真に関連するエンティティを含む蓋然性が高くなるので、最終的な推定精度を高めることができる。

語用モデル２１及び文章用モデル２２の両方の特徴を兼ね備える一のモデルが生成された場合、このモデルにより、第１候補情報及び第２候補情報がそれぞれ出力される。

出力制御部１１６は、決定部２３により、第１候補情報及び第２候補情報に基づいて、対象語の関連付けを決定させる。対象語の関連付けの決定は、対象語をどの所定エンティティに関連付けるかの決定、及び対象語を所定エンティティに関連付けるべきか否かの決定を含み得る。例えば、決定部２３は、第１候補情報及び第２候補情報の両方に示されるエンティティを、関連エンティティとして決定してもよい。或いは、決定部２３は、第１候補情報及び第２候補情報の両方に示されるエンティティのうち、対象語との間のワードベクトルの類似度又は対象文章との間のパラグラフベクトルの類似度が相対的に高いＮ３個（Ｎ３は、Ｎ３＞０を満たす整数）のエンティティ、又は類似度が所定閾値以上であるエンティティを、関連エンティティとして決定してもよい。Ｎ３又は閾値は、例えば、テスト用のコーパスを用いて関連付けを実行し、その結果に基づいて決定されてもよい。語用モデル２１及び文章用モデル２２のうち一方のモデルによる候補情報の出力が先に実行され、この候補情報を入力として、他方のモデルによる候補情報の出力を後に実行される場合、決定部２３は、他方のモデルから出力された候補情報に基づいて、対象語の関連付けを決定する。例えば、他方のモデルから出力された候補情報に示されるエンティティの中から、関連エンティティが決定される。この場合であっても、第１候補情報及び第２候補情報に基づいて、対象語の関連付けが決定されることは明らかである。このように、語の特徴の類似性及び文章の特徴の類似性の両方に基づいて関連エンティティが決定されるので、関連付け候補となる所定エンティティが多い場合であっても、関連エンティティの推定精度向上させることができる。関連エンティティが決定された場合、決定された関連エンティティを示す関連エンティティ情報が出力される。関連エンティティが存在しない場合（対象語が何れのエンティティにも関連付けられなかった場合）、関連エンティティが存在しないことを示す関連エンティティ情報が出力される。

このような分類器２によって、上述した課題が解決される。具体的に、対象語の多義性による第１の課題については、主として文章用モデル２２を用いて解決される。語の特徴（ワードベクトル）のみを用いて関連付けを行うと仮定した場合、語が現れる文章よってその語が異なるエンティティを示す場合であっても、語の特徴はそれを反映しないため、多義性を有する語を適切に関連付けることは難しい。これに対して、文章用モデル２２によれば、語が現れる文章の特徴（パラグラフベクトル）が用いられることで、多義性を有する語を適切に関連付けることが可能である。エンティティの曖昧性による第２の課題については、主として語用モデル２１を用いて解決される。語用モデル２１によれば、語の特徴として、その語が現れる様々な文脈を考慮した特徴が得られるので、その点において、曖昧性を有する一のエンティティに、複数の対象語を適切に関連付けることが可能である。関連するエンティティの存在の不確定性による第３の課題については、主として文章用モデル２２を用いて解決される。上述したように、語が現れる文章よってその語が異なるエンティティを示し得るところ、文章用モデル２２によれば、語が現れる文章の特徴が用いられることで、その語によって真に示されるエンティティが、所定エンティティの中に存在するか否かを適切に推定することが可能である。

また、語の特徴のみを用いて関連付けを行うと、上述したように多義性を有する語の適切な関連付けが難しい一方で、文章の特徴のみを用いて関連付けを行うと、関連付けの候補となるエンティティの抽出精度が低下する可能性がある。分類器２によれば、語の特徴と文章の特徴の両方が用いられるので、たとえ対象文章の情報の量又は質が、学習用コーパス３１の情報の量又は質よりも大きく劣っていたとしても、教師データや、語の表記ゆれを解決するための辞書を用いずに、関連付けの精度を向上させることができる。

［３．分類装置の動作］
次に、分類装置１の動作について、図４及び図５を用いて説明する。図４は、分類装置１のシステム制御部１１による学習処理の一例を示すフローチャートである。分類器生成用のプログラムに従って、システム制御部１１は学習処理を実行する。図４に示すように、システム制御部１１は、オペレータの操作に基づいて、コーパス３０を、ネットワークを介して又は記録媒体等から取得する（ステップＳ１１）。次いで、システム制御部１１は、コーパス３０を前処理することにより、学習用コーパス３１を生成する（ステップＳ１２）。システム制御部１１は、学習用コーパス３１に含まれる各文章と各所定エンティティとを関連付ける。次いで、システム制御部１１は、学習用コーパス３１に含まれる各文章から、当該文章に関連付けられる所定エンティティを示す語を除去して、学習用コーパス３２を生成する（ステップＳ１３）。次いで、語用モデル生成部１１１は、学習用コーパス３１を用いた機械学習を実行することにより、語用モデル２１を生成する（ステップＳ１４）。また、文章用モデル生成部１１２は、学習用コーパス３２を用いた機械学習を実行することにより、文章用モデル２２を生成する（ステップＳ１５）。ステップＳ１４及びＳ１５の後、分類器生成部１１３は、語用モデル２１、文章用モデル２２、及び決定部２３を含む分類器２を生成して記憶部１４に記憶させて（ステップＳ１６）、学習処理を終了させる。

図５は、分類装置１のシステム制御部１１による関連付け処理の一例を示すフローチャートである。関連付け用のプログラムに従って、システム制御部１１は関連付け処理を実行する。図５に示すように、システム制御部１１は、記憶部１４から生成された分類器２をＲＡＭ１１ｃにロードし、オペレータの操作に基づいて、対象語と対象文章のセットの入力を受け付ける（ステップＳ２１）。なお、複数の対象語のリスト及びそれらに対応する対象文章を含むコーパスが入力されてもよい。次いで、語用モデル制御部１１４は、語用モデル２１を用いて、対象語のワードベクトルを取得する（ステップＳ２２）。対象語が複数の単語で構成される場合、語用モデル制御部１１４は、それぞれの単語のワードベクトルを取得して所定演算を施すことにより、対象語のワードベクトルを取得する。次いで、語用モデル制御部１１４は、語用モデル２１を用いて、対象語のワードベクトルと各所定エンティティを示す語のワードベクトルとの類似度を計算し、類似度が相対的に高いエンティティを示す第１候補情報を出力させる（ステップＳ２３）。次いで、文章用モデル制御部１１５は、対象文章を用いて文章用モデル２２による機械学習を実行することにより、対象文章のパラグラフベクトルを取得する（ステップＳ２４）。次いで、文章用モデル制御部１１５は、文章用モデル２２を用いて、対象文章のパラグラフベクトルと各所定エンティティに関係する文章のパラグラフベクトルとの類似度を計算し、類似度が相対的に高いエンティティを示す第２候補情報を出力させる。次いで、出力制御部１１６は、決定部２３により、第１候補情報及び第２候補情報に基づいて、対象語の関連付けを決定して、関連エンティティ情報を出力させる（ステップＳ２６）。ステップＳ２６を終えると、システム制御部１１は、関連付け処理を終了させる。なお、対象語のリスト及びコーパスが入力された場合、対象語と対象文章のセットごとに、ステップＳ２２〜Ｓ２６が実行される。

以上説明したように、本実施形態によれば、システム制御部１１が、１以上の所定エンティティそれぞれに関係する１以上の文章を含むコーパスを用いた機械学習により生成された語用モデル２１であって、所定エンティティに関係する文章に含まれる語の特徴が得られる語用モデル２１と、所定エンティティに関係する文章を含むコーパスを用いた機械学習により生成された文章用モデル２２であって、所定エンティティに関係する文章の特徴が得られる文章用モデル２２と、をＲＡＭ１１ｃに記憶させる。また、システム制御部１１が、記憶された語用モデル２１により、所与の対象文章に含まれる対象語の入力に応じて、１以上の所定エンティティそれぞれを示す１以上の語のうち、対象語との間に特徴の類似性がある１以上の語それぞれにより示される１以上のエンティティを示す第１候補情報を出力させる。また、システム制御部１１が、記憶された文章用モデル２２により、対象文章の入力に応じて、所定エンティティに関係する文章のうち、対象文章との間に特徴の類似性がある１以上の文章それぞれが関係する１以上のエンティティを示す第２候補情報を出力させる。また、システム制御部１１が、出力された第１候補情報、及び出力された第２候補情報に基づいて、対象語の関連付けを決定する。従って、関連付け候補が多い場合であっても、所与の対象文章に現れる対象語に関連性があるエンティティの推定精度を向上させることができる。

また、文章用モデル２２は、語用モデル２１の生成に用いられるコーパスから、所定エンティティを示す語が除かれたコーパスを用いて生成されてもよい。また、システム制御部１１は、このコーパスにより、第２候補情報を出力させてもよい。この場合、所定エンティティを示す語が除かれることによって、所定エンティティに関係する文章について、語自体からは距離を置いてより広い文脈に基づく特徴が、文章用モデル２２から得られることになる。従って、関係する文章の特徴が、対象文章の特徴と類似するエンティティを適切に抽出することができる。

また、文章用モデル２２の生成に用いられるコーパスが、語用モデル２１の生成に用いられる学習用コーパス３１と同一であり、学習用コーパス３１を用いて、語用モデル２１及び文章用モデル２２に相当するモデルとして、所定エンティティに関係する文章に含まれる語の特徴、及び文章の特徴の両方が得られるモデルが生成されてもよい。また、システム制御部１１は、このモデルにより、第１候補情報を出力させるとともに、第２候補情報を出力させてもよい。この場合、一のモデルを生成すればよいので、語用モデル２１、及び文章用モデル２２の両方を生成する場合よりも学習時間を短縮することができる。また、コーパスを準備する手間を軽減させることができる。

また、システム制御部１１が、文章用モデル２２により、語用モデル２１から出力された第１候補情報により示されるエンティティに関する文書のうち、対象文章との間における特徴の類似度が相対的に高い文章が関係するエンティティを示す第２候補情報を出力してもよい。また、システム制御部１１が、第２候補情報に基づいて、対象語の関連付けを決定してもよい。この場合、対象語に真に関連するエンティティを、関連エンティティの候補として抽出する精度が、文章用モデル２２よりも語用モデル２１の方が高い場合、最終的な推定精度を向上させることができる。

また、語用モデル２１から、所定エンティティに関係する文章に含まれる語の特徴が単語単位で得られ、語用モデル２１は、対象語が複数の単語で構成される場合、これら複数の単語それぞれの特徴に対する所定演算により対象語の特徴を算出してもよい。この場合、対象語自体は学習用コーパス３１に含まれていなくとも、対象語の特徴を取得することができる。

また、文章用モデル２２は、第２候補情報を出力するとき、対象文章を用いた機械学習により、この対象文章の特徴を取得してもよい。この場合、学習用コーパス３１が、対象文章と同一の文章を含まなくても、対象文章の特徴を取得することができる。

［実施例１］
次に、メーカ名を対象語とし、株式を上場する企業を所定エンティティとして、メーカ名に関連する上場企業を推定する場合の実施例について、図６乃至図７Ｂを用いて説明する。対象とする上場企業は、Ｗｉｋｉｐｅｄｉａ（登録商標）に掲載されている約2000の上場企業であり、対象とするメーカは、出願人が運営する商品価格サイト（商品価格ナビ（登録商標））に掲載されている約70000のメーカである。このサイトには、メーカが提供する商品に関する情報が掲載されている。或るメーカは、或る対象の上場企業と同一企業であったり、対象の上場企業の子会社等であったりする。また、或るメーカは、対象の上場企業の何れとも関連しない場合もある。

図６は、本実施例における分類器５の生成方法の一例を示す図である。先ず、各上場企業に関係する文章として、Ｗｉｋｉｐｅｄｉａ（登録商標）から各上場企業のページ６を取得する。また、情報を補うために、各上場企業のウェブサイトから会社情報、事業紹介等のページを取得する。取得されたページに対して、ＨＴＭＬタグやＪａｖａｓｃｒｉｐｔ（登録商標）コード等を除去し、実施形態で説明されたような前処理を施して、企業コーパス６１を生成する。企業コーパス６１は、各上場企業の名称を含む。また、企業コーパス６１から各上場企業名を除去して、企業コーパス６２を生成する。

語用モデル２１としてのＤｏｃ２Ｖｅｃモデル５１、及び文章用モデル２２としてのＤｏｃ２Ｖｅｃモデル５２は、何れもＰＶ−ＤＢＯＷを採用する。各モデルについて、ウインドウサイズを５とし、中間層のサイズを３００とし、エポック数を１０とする。企業コーパス６１を用いた機械学習により、Ｄｏｃ２Ｖｅｃモデル５１を生成し、企業コーパス６２を用いた機械学習により、Ｄｏｃ２Ｖｅｃモデル５２を生成する。

図７Ａは、メーカ名に関連する上場企業の推定方法の一例を示す図である。対象文書として、商品価格サイトから、メーカが提供する主要４製品の情報が掲載されているページ７を各メーカについて取得する。取得されたページに対して、企業コーパス６２と同様に、前処理、及び上場企業名を除去して、メーカコーパス７２を生成する。更に、メーカ名のリスト７１を生成する。

本実施例においては、１段目にＤｏｃ２Ｖｅｃモデル５１による推定を行い、このモデルから出力される第１候補情報を、Ｄｏｃ２Ｖｅｃモデル５２の入力とする。そして、２段目にＤｏｃ２Ｖｅｃモデル５２による推定を行い、このモデルから出力される第２候補情報を、決定部５３の入力とする。

Ｄｏｃ２Ｖｅｃモデル５１にリスト７１を入力することで、各メーカ名について、ワードベクトルの類似度が高いＮ１個の上場企業を示す第１候補情報が得られる。これにより、名称の表記がたとえ類似しなくても、名称が現れる文脈がメーカと類似する上場企業が候補として抽出される。次いで、Ｄｏｃ２Ｖｅｃモデル５２にメーカコーパス７２を入力し、第１候補情報が示す上場企業のうち、各メーカとの間で文章のパラグラフベクトルの類似度が最も高い一の企業を、ここでの候補の企業とする。或るメーカ名と上場企業名の表記が一致し又は類似する場合、これらの名称のワードベクトルの類似度は高くなる可能性がある。しかしながら、実際にはそのメーカと上場企業との間には何の関連性もない場合がある。２段目でパラグラフベクトルの類似度が用いられるので、そのようなメーカと上場企業であっても、文章の類似性が低くなる蓋然性が高いので、推定の誤りを低減させることができる。更には、上場企業名が除去された企業コーパス６２、及び上場企業名が除去されたメーカコーパス７２が用いられるので、上場企業名自体から距離を置いてより広い文脈からそれらの語の意味が解釈されることになる。また、対象のメーカに関連しない上場企業であるにもかかわらず、名称の表記が一致し又は類似することに起因してパラグラフベクトルの類似度が高くなることが抑止される。

決定部５３においては、Ｄｏｃ２Ｖｅｃモデル５２において計算されたパラグラフベクトルの類似度が最も高い上場企業について、その類似度が閾値を超える場合、その上場企業を対象のメーカ名に関連付ける。一方、類似度が閾値以下である場合、その上場企業を対象のメーカ名に関連付けられない。すなわち、対象のメーカ名には何れの上場企業も関連付けられない。

図７Ｂは、評価実験の結果を示す図である。実験においては、本実施例のシステムに加えて、比較例として、テキストマッチング、１段階のＤｏｃ２Ｖｅｃモデルのみを用いたシステム、及び２段階のＤｏｃ２Ｖｅｃモデルを用いたシステムについて、推定精度を比較する。評価実験用のメーカコーパスとして、２００社分の文章を含むコーパスを用いる。テキストマッチングにおいては、メーカ名と上場企業名の先頭５文字が一致する場合、メーカ名と上場企業とを関連付けるものとする。また、実験に用いられる閾値は、最適な値を探索的に求める。また、Ｄｏｃ２Ｖｅｃモデル５１で抽出される候補の数Ｎ１は１とする。本実施例のシステム以外においては、パラグラフベクトルを得るためのＤｏｃ２Ｖｅｃモデルの学習用のコーパスとして、企業コーパス６２ではなく、企業名を含む企業コーパス６１を用い、テスト用のコーパスとして、上場企業名を含むコーパスを用いる。

図７Ｂに示すように、テキストマッチングによる推定精度は５２．５％である。次に、１段階のＤｏｃ２Ｖｅｃモデルのみを用いてパラグラフベクトルの類似度に基づいて関連付けを行うシステムの推定精度は４６．０％である。１段階のＤｏｃ２Ｖｅｃモデルのみを用いてワードベクトルの類似度に基づいて関連付けを行うシステムの推定精度は７１．５％である。

１段階目にＤｏｃ２Ｖｅｃモデルを用いてパラグラフベクトルの類似度に基づいて候補の上場企業を抽出し、２段階目にＤｏｃ２Ｖｅｃモデルを用いてワードベクトルの類似度に基づいて候補を絞り込んで推定を行うシステムの推定精度は６１．５％である。１段階目にＤｏｃ２Ｖｅｃモデルを用いてワードベクトルの類似度に基づいて候補の上場企業を抽出し、２段階目にＤｏｃ２Ｖｅｃモデル（上場企業名を含む企業コーパス６１を用いて生成）を用いてパラグラフベクトルの類似度に基づいて候補を絞り込んで推定を行うシステムの推定精度は７８．５％である。これら２段階のシステムにおいて、後者のシステムの方が推定精度が高い理由は、１段階目のＤｏｃ２Ｖｅｃモデルにおいて、真に関連する上場企業を候補として抽出する精度が、前者のシステムよりも後者のシステムの方が高いことに起因している。パラグラフモデルを用いた候補の抽出精度が低い要因の１つとして、商品価格サイトにおけるメーカに関する情報量が比較的少ないことが挙げられる。メーカコーパスとして用いられる文章群によっては、推定精度は向上するものと考えられる。

最後に、本実施例のシステムによる推定精度は８３．５％である。このように、本実施例のシステムによれば、他のシステムと比較して優れた推定精度が得られる。

［実施例２］
次に、或る文章に現れる地名を対象語とし、土地を所定エンティティとして、その地名が如何なる土地を示すかを推定する場合の実施例について説明する。地名の表記が同一であっても異なる土地を示す場合がある。例えば、漢字「新宿」は、「しんじゅく」とも「にいじゅく」とも読むことが可能である。「しんじゅく」は、東京都内の或る区の名称の読み仮名である一方で、「にいじゅく」は、東京都葛飾区内の或る町の名称の読み仮名である。また例えば、常用漢字、旧漢字、仮名等のように、地名の表記が異なっていても同一の土地を示す場合もある。

例えば、コーパス３０として、様々な土地それぞれに関する文章を取得する。取得元は、例えばウェブベース百科事典等であってもよい。このコーパスに、実施形態で説明したような前処理を施して学習用コーパス３１を生成する。学習用コーパス３１を用いた機械学習により、語用モデル２１を生成する。また、学習用コーパス３１を用いた機械学習により、文章用モデル２２を生成してもよい。しかしながら、学習用コーパス３１から地名を除去して学習用コーパス３２を生成し、学習用コーパス３２を用いて文章用モデル２２を生成することが望ましい。

分類器２の生成後、対象文章として、地名を含む文章、例えばその地名が示す土地に言及した文章等を取得する。対象文章の取得元は特に限定されるものではない。その対象の地名を語用モデル２１に入力して、ワードベクトルの類似度が相対的に高い土地を示す第１候補情報を得る。これにより、対象の地名とは表記が異なる土地であっても、関連する土地の候補として抽出することが可能である。また、対象文章から対象の地名を除去した文章を文章用モデル２２に入力して、パラグラフベクトルの類似度が相対的に高い土地を示す第２候補情報を得る。これにより、対象の地名とは表記が一致し又は類似するが、その地名とは関連しない土地を候補から除外することができる。そして、決定部２３から、第１候補情報及び第２候補情報に基づいて、対象の地名に関連する土地を示す関連エンティティ情報を得る。

これにより、例えば、対象文章に現れる漢字「新宿」を、その対象文章の文脈から、新宿区又は葛飾区新宿の何れかに適切に関連付けることができる。また、コーパス３０には、東京都についての文章において、東京都を示す語として漢字「東京」のみが含まれている一方で、対象文章に仮名「とうきょう」が現れている場合、この仮名「とうきょう」を東京都に適切に関連付けることができる。

［実施例３］
次に、ユーザにより作成されて登録又は投稿された文章を、そのユーザのアカウント（またはＩＤ）と紐付けて管理するシステムにおいて、このシステムに登録された文章をコーパス３０とし、文章の作成者の同一性を推定する場合の実施例について説明する。このようなシステムは特定のシステムに限定されるものではないが、その例として、ＳＮＳ（Social Networking Service）、電子商取引サイト、レビューサイト、口コミサイト等が挙げられる。対象となる文章は、ユーザが記述したものであれば特に限定されるものではないが、例えば、コメント、レビュー、感想、つぶやき、ユーザが出品した商品の情報、文章作品等が挙げられる。

文章の作成者の同一性の推定の例として、同一アカウントで作成された複数の文章の中で、一部の文章の作成者と、その他の文章の作成者とが実際には異なるか否かを推定することが挙げられる。すなわち、一部の文章についてのなりすましや代筆等を推定する。別の例として、別々のアカウントのユーザが実際には同一人物であるか否かを指定することが挙げられる。すなわち、同一人物が複数のアカウントを取得しているか否かを推定する。

本実施例における所定エンティティは、文章のタイトルが示す主題、テーマ等である。タイトルは、文章内容を要約している。また、文章は、主題やテーマ等について主に言及している。

コーパス３０として、システムから１以上のアカウントそれぞれについて登録された１以上の文章を取得する。このコーパスに、実施形態で説明したような前処理を施して学習用コーパス３１を生成する。学習用コーパス３１を用いた機械学習により、語用モデル２１を生成することで、文章のタイトルのワードベクトルが得られるようにする。タイトルが複数の語で構成される場合には、これら複数の語それぞれのワードベクトルに、加算、平均等の演算を施して、タイトルのワードベクトルを得てもよい。一のアカウントについて複数の文章が登録されている場合には、これらの複数の文章のタイトルのワードベクトルの代表値を算出して、そのアカウントに関連付ける。代表値は、例えば平均値等であってもよい。

学習用コーパス３１から、文章のタイトルを除去して、学習用コーパス３２を生成する。但し、タイトル自体が文章に含まれているケースは多くはないため、実際には、タイトルを構成する各語を除去することによって、学習用コーパス３２を生成すればよい。そして、学習用コーパス３２を用いた機械学習により、文章用モデル２２を生成することで、文章のパラグラフベクトルが得られるようにする。一のアカウントについて複数の文章が登録されている場合には、これらの複数の文章のパラグラフベクトルの代表値を算出して、そのアカウントに関連付ける。

対象語は、対象文章のタイトルとする。上述した方法と同様の方法で、語用モデル２１から対象文章のタイトルのワードベクトルを得る。

次に、同一アカウントで作成された複数の文章の中で、一部の文章の作成者と、その他の文章の作成者とが異なるか否かを推定する方法の一例を説明する。例えば、何らかの条件又は方法で、対象とするアカウントを予め指定し、学習用コーパス３１から、指定したアカウントで作成された文章のうち一の文章を対象文章として取得する。或いは、語用モデル２１及び文章用モデル２２の生成後に新たにシステムに登録された文章を対象文章として取得してもよい。語用モデル２１により、対象文章のタイトルのワードベクトルと、指定されたアカウントに関連付けられたワードベクトルの代表値との類似度を算出する。また、文章用モデル２２により、対象文章のパラグラフベクトルと、指定されたアカウントに関連付けられたパラグラフベクトルの代表値との類似度を算出する。そして、ワードベクトルの類似度、及びパラグラフベクトルの類似度に基づいて、対象文章の作成者と、他の文章の作成者とが同一人物であるか否かを推定する。例えば、ワードベクトルの類似度が所定の第１閾値以上であり、且つパラグラフの類似度が所定の第２閾値以上である場合に、同一人物であると推定し、そうではない場合は、同一人物ではないと推定してもよい。或いは、所定の関数の式にワードベクトルの類似度及びパラグラフの類似度を代入して関数を計算し、関数の値に基づいて、推定を行ってもよい。

次に、別々のアカウントのユーザが同一人物であるか否かを推定する方法の一例を説明する。例えば、何らかの条件又は方法で、対象とするアカウントを予め指定する。指定されたアカウントで作成された文章は、学習用コーパス３１及び３２に含まれているものとする。語用モデル２１により、指定されたアカウントに関連付けられたワードベクトルの代表値と、他の各アカウントに関連付けられたワードベクトルの代表値との類似度を算出する。他のアカウントのうち、ワードベクトルの類似度が相対的に高いＮ１個のアカウントを候補として抽出する。また、文章用モデル２２により、指定されたアカウントに関連付けられたパラグラフベクトルの代表値と、他の各アカウントに関連付けられたパラグラフベクトルの代表値との類似度を算出する。他のアカウントのうち、ワードベクトルの類似度が相対的に高いＮ２個のアカウントを候補として抽出する。そして、例えば、語用モデル２１により抽出された候補と、文章用モデル２２により抽出された候補のユーザの中から、指定されたアカウントのユーザとの同一性を推定する。例えば、ワードベクトルの類似度が所定の第１閾値以上であり、且つパラグラフの類似度が所定の第２閾値以上であるアカウントが存在する場合、そのアカウントのユーザと、指定されたアカウントのユーザが同一人物であると推定し、そのようなアカウントが存在しない場合は、指定されたアカウントのユーザと同一人物は存在しないと推定してもよい。或いは、所定の関数の式に、各アカウントについてのワードベクトルの類似度及びパラグラフの類似度を代入して関数を計算し、関数の値に基づいて、推定を行ってもよい。

以上説明したように、なりすましの投稿や、同一ユーザが複数のアカウントを取得しているか否かを推定することができる。

１分類装置
１１システム制御部
１２システムバス
１３入出力インターフェース
１４記憶部
１５通信部
１６入力部
１７表示部
１１１語用モデル生成部
１１２文章用モデル生成部
１１３分類器生成部
１１４語用モデル制御部
１１５文章用モデル制御部
１１６出力制御部
２分類器
２１語用モデル
２２文章用モデル
２３決定部

請求項２に記載の発明は、請求項１に記載の分類装置において、前記記憶手段は、前記第１モデルの生成に用いられるコーパスから前記１以上の第１語が除かれたコーパスを用いて生成された前記第２モデルを記憶することを特徴とする。

請求項８に記載の発明は、コンピュータにより実行される生成方法において、１以上の所定エンティティそれぞれに関係する１以上の第１文章を含むコーパスを用いた機械学習により、前記１以上の第１文章に含まれる語の特徴が得られる第１モデルを生成する第１生成ステップと、前記１以上の第１文章を含むコーパスを用いた機械学習により、前記１以上の第１文章の特徴が得られる第２モデルを生成する第２生成ステップと、前記１以上の所定エンティティのうち、所与の第２文章に含まれる、関連付け対象である第２語の関連付けを決定する決定部と、前記第１モデル及び前記第２モデルとを含む分類器を生成する第３生成ステップと、前記生成された分類器を記憶手段に記憶させる記憶ステップと、を含み、前記第１モデルは、前記第２語の入力に応じて、前記１以上の所定エンティティそれぞれを示す１以上の第１語のうち、前記第２語との間に特徴の類似性がある１以上の語それぞれにより示される１以上のエンティティを示す第１情報を出力し、前記第２モデルは、前記第２文章の入力に応じて、前記１以上の第１文章のうち、前記第２文章との間に特徴の類似性がある１以上の文章それぞれが関係する１以上のエンティティを示す第２情報を出力し、前記決定部は、前記出力された第１情報、及び前記出力された第２情報に基づいて、前記第２語の関連付けを決定し、前記分類器が前記記憶手段から読み出され、該読み出された分類器に含まれる前記第１モデル及び前記第２モデルが前記第１情報及び前記第２情報の出力のために用いられることを特徴とする。

請求項１０に記載の発明は、コンピュータにより実行される生成プログラムにおいて、前記コンピュータを、１以上の所定エンティティそれぞれに関係する１以上の第１文章を含むコーパスを用いた機械学習により、前記１以上の第１文章に含まれる語の特徴が得られる第１モデルを生成する第１生成手段と、前記１以上の第１文章を含むコーパスを用いた機械学習により、前記１以上の第１文章の特徴が得られる第２モデルを生成する第２生成手段と、前記１以上の所定エンティティのうち、所与の第２文章に含まれる、関連付け対象である第２語の関連付けを決定する決定部と、前記第１モデル及び前記第２モデルとを含む分類器を生成する第３生成手段と、前記生成された分類器を記憶手段に記憶させる記憶制御手段と、として機能させ、前記第１モデルは、前記第２語の入力に応じて、前記１以上の所定エンティティそれぞれを示す１以上の第１語のうち、前記第２語との間に特徴の類似性がある１以上の語それぞれにより示される１以上のエンティティを示す第１情報を出力し、前記第２モデルは、前記第２文章の入力に応じて、前記１以上の第１文章のうち、前記第２文章との間に特徴の類似性がある１以上の文章それぞれが関係する１以上のエンティティを示す第２情報を出力し、前記決定部は、前記出力された第１情報、及び前記出力された第２情報に基づいて、前記第２語の関連付けを決定し、前記分類器が前記記憶手段から読み出され、該読み出された分類器に含まれる前記第１モデル及び前記第２モデルが前記第１情報及び前記第２情報の出力のために用いられることを特徴とする。

Claims

１以上の所定エンティティそれぞれに関係する１以上の第１文章を含むコーパスを用いた機械学習により生成された第１モデルであって、前記１以上の第１文章に含まれる語の特徴が得られる第１モデルと、前記１以上の第１文章を含むコーパスを用いた機械学習により生成された第２モデルであって、前記１以上の第１文章の特徴が得られる第２モデルと、を記憶する記憶手段と、
前記記憶された第１モデルにより、所与の第２文章に含まれる、関連付け対象である第２語の入力に応じて、前記１以上の所定エンティティそれぞれを示す１以上の第１語のうち、前記第２語との間に特徴の類似性がある１以上の語それぞれにより示される１以上のエンティティを示す第１情報を出力させる第１制御手段と、
前記記憶された第２モデルにより、前記第２文章の入力に応じて、前記１以上の第１文章のうち、前記第２文章との間に特徴の類似性がある１以上の文章それぞれが関係する１以上のエンティティを示す第２情報を出力させる第２制御手段と、
前記出力された第１情報、及び前記出力された第２情報に基づいて、前記第２語の関連付けを決定する決定手段と、
を備えることを特徴とする分類装置。
請求項１に記載の分類装置において、
前記第２制御手段は、前記第１モデルの生成に用いられるコーパスから前記１以上の第１語が除かれたコーパスを用いて生成された前記第２モデルにより、前記第２情報を出力させることを特徴とする分類装置。
請求項１に記載の分類装置において、
前記第２モデルの生成に用いられるコーパスは、前記第１モデルの生成に用いられるコーパスと同一であり、
前記第１制御手段は、前記第１モデル及び前記第２モデルに相当するモデルとして生成された、前記１以上の第１文章に含まれる語の特徴、及び前記１以上の第１文章の特徴の両方が得られる一のモデルにより、前記第１情報を出力させ、
前記第２制御手段は、前記一のモデルにより、前記第２情報を出力させることを特徴とする分類装置。
請求項１乃至３の何れか１項に記載の分類装置において、
前記第２制御手段は、前記第１モデルから出力された前記第１情報により示されるエンティティに関する第１文書のうち、前記第２文章との間における特徴の類似度が相対的に高い文章が関係するエンティティ示す前記第２情報を前記第２モデルにより出力させ、
前記決定手段は、前記第２情報に基づいて、前記第２語の関連付けを決定することを特徴とする分類装置。
請求項１乃至４の何れか１項に記載の分類装置において、
前記第１モデルから、前記１以上の第１文章に含まれる語の特徴が単語単位で得られ、前記第１モデルは、前記第２語が複数の単語で構成される場合、該複数の単語それぞれの特徴に対する所定演算により前記第２語の特徴を算出することを特徴とする分類装置。
請求項１乃至５の何れか１項に記載の分類装置において、
前記第２モデルは、前記第２情報を出力するとき、前記第２文章を用いた機械学習により、該第２文章の特徴を取得することを特徴とする分類装置。
コンピュータにより実行される分類方法において、
１以上の所定エンティティそれぞれに関係する１以上の第１文章を含むコーパスを用いた機械学習により生成された第１モデルであって、前記１以上の第１文章に含まれる語の特徴が得られる第１モデルを、記憶手段に記憶させる第１記憶ステップと、
前記１以上の第１文章を含むコーパスを用いた機械学習により生成された第２モデルであって、前記１以上の第１文章の特徴が得られる第２モデルを、前記記憶手段に記憶させる第２記憶ステップと、
前記記憶された第１モデルにより、所与の第２文章に含まれる、関連付け対象である第２語の入力に応じて、前記１以上の所定エンティティそれぞれを示す１以上の第１語のうち、前記第２語との間に特徴の類似性がある１以上の語それぞれにより示される１以上のエンティティを示す第１情報を出力させる第１制御ステップと、
前記記憶された第２モデルにより、前記第２文章の入力に応じて、前記１以上の第１文章のうち、前記第２文章との間に特徴の類似性がある１以上の文章それぞれが関係する１以上のエンティティを示す第２情報を出力させる第２制御ステップと、
前記出力された第１情報、及び前記出力された第２情報に基づいて、前記第２語の関連付けを決定する決定ステップと、
を含むことを特徴とする分類方法。
コンピュータにより実行される生成方法において、
１以上の所定エンティティそれぞれに関係する１以上の第１文章を含むコーパスを用いた機械学習により、前記１以上の第１文章に含まれる語の特徴が得られる第１モデルを生成する第１生成ステップと、
前記１以上の第１文章を含むコーパスを用いた機械学習により、前記１以上の第１文章の特徴が得られる第２モデルを生成する第２生成ステップと、
前記１以上の所定エンティティのうち、所与の第２文章に含まれる、関連付け対象である第２語の関連付けを決定する決定部と、前記第１モデル及び前記第２モデルとを含む分類器を生成する第３生成ステップと、
を含み、
前記第１モデルは、前記第２語の入力に応じて、前記１以上の所定エンティティそれぞれを示す１以上の第１語のうち、前記第２語との間に特徴の類似性がある１以上の語それぞれにより示される１以上のエンティティを示す第１情報を出力し、
前記第２モデルは、前記第２文章の入力に応じて、前記１以上の第１文章のうち、前記第２文章との間に特徴の類似性がある１以上の文章それぞれが関係する１以上のエンティティを示す第２情報を出力し、
前記決定部は、前記出力された第１情報、及び前記出力された第２情報に基づいて、前記第２語の関連付けを決定することを特徴とする生成方法。
コンピュータにより実行される分類プログラムにおいて、
前記コンピュータは、
１以上の所定エンティティそれぞれに関係する１以上の第１文章を含むコーパスを用いた機械学習により生成された第１モデルであって、前記１以上の第１文章に含まれる語の特徴が得られる第１モデルと、前記１以上の第１文章を含むコーパスを用いた機械学習により生成された第２モデルであって、前記１以上の第１文章の特徴が得られる第２モデルと、を記憶する記憶手段を備え、
前記コンピュータを、
前記記憶された第１モデルにより、所与の第２文章に含まれる、関連付け対象である第２語の入力に応じて、前記１以上の所定エンティティそれぞれを示す１以上の第１語のうち、前記第２語との間に特徴の類似性がある１以上の語それぞれにより示される１以上のエンティティを示す第１情報を出力させる第１制御手段と、
前記記憶された第２モデルにより、前記第２文章の入力に応じて、前記１以上の第１文章のうち、前記第２文章との間に特徴の類似性がある１以上の文章それぞれが関係する１以上のエンティティを示す第２情報を出力させる第２制御手段と、
前記出力された第１情報、及び前記出力された第２情報に基づいて、前記第２語の関連付けを決定する決定手段と、
として機能させることを特徴とする分類プログラム。
コンピュータにより実行される生成プログラムにおいて、
前記コンピュータを、
１以上の所定エンティティそれぞれに関係する１以上の第１文章を含むコーパスを用いた機械学習により、前記１以上の第１文章に含まれる語の特徴が得られる第１モデルを生成する第１生成手段と、
前記１以上の第１文章を含むコーパスを用いた機械学習により、前記１以上の第１文章の特徴が得られる第２モデルを生成する第２生成手段と、
前記１以上の所定エンティティのうち、所与の第２文章に含まれる、関連付け対象である第２語の関連付けを決定する決定部と、前記第１モデル及び前記第２モデルとを含む分類器を生成する第３生成手段と、
として機能させ、
前記第１モデルは、前記第２語の入力に応じて、前記１以上の所定エンティティそれぞれを示す１以上の第１語のうち、前記第２語との間に特徴の類似性がある１以上の語それぞれにより示される１以上のエンティティを示す第１情報を出力し、
前記第２モデルは、前記第２文章の入力に応じて、前記１以上の第１文章のうち、前記第２文章との間に特徴の類似性がある１以上の文章それぞれが関係する１以上のエンティティを示す第２情報を出力し、
前記決定部は、前記出力された第１情報、及び前記出力された第２情報に基づいて、前記第２語の関連付けを決定することを特徴とする生成プログラム。