JPWO2019224891A1 - 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム - Google Patents

分類装置、分類方法、生成方法、分類プログラム及び生成プログラム Download PDF

Info

Publication number
JPWO2019224891A1
JPWO2019224891A1 JP2018545404A JP2018545404A JPWO2019224891A1 JP WO2019224891 A1 JPWO2019224891 A1 JP WO2019224891A1 JP 2018545404 A JP2018545404 A JP 2018545404A JP 2018545404 A JP2018545404 A JP 2018545404A JP WO2019224891 A1 JPWO2019224891 A1 JP WO2019224891A1
Authority
JP
Japan
Prior art keywords
model
word
sentence
sentences
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018545404A
Other languages
English (en)
Other versions
JP6462970B1 (ja
Inventor
誠 津々見
誠 津々見
浩司 村上
浩司 村上
卓志 梅田
卓志 梅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Application granted granted Critical
Publication of JP6462970B1 publication Critical patent/JP6462970B1/ja
Publication of JPWO2019224891A1 publication Critical patent/JPWO2019224891A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

関連付け候補が多い場合であっても、所与の文章に現れる語に関連性があるエンティティの推定精度を向上させる。分類装置は、所定エンティティに関係する第1文章を含むコーパスを用いて生成された第1モデルと、第1文章を含むコーパスを用いて生成された第2モデルとを記憶する。第1モデルからは、第1文章に含まれる語の特徴が得られる。第2モデルからは、第1文章の特徴が得られる。分類装置は、第1モデルにより、所定エンティティを示す第1語のうち、第2文章に含まれる第2語との間に特徴の類似性がある語により示されるエンティティを示す第1情報を出力させる。分類装置は、第2モデルにより、第1文章のうち、第2文章との間に特徴の類似性がある文章が関係するエンティティを示す第2情報を出力させる。分類装置は、第1情報、及び第2情報に基づいて、第2語の関連付けを決定する。

Description

本発明は、機械学習の技術分野に関し、特に、特定の文章に現れる語が如何なる意味で使用されているかを推定する分類装置、分類方法、及び分類器の生成方法の技術分野に関する。
多義性を有する語は、その語自体からは何を意味するかが曖昧である。そのため従来、多数の文章を用いた機械学習により、或る文章で使用されている語が、その文章の文脈において如何なる意味で用いられているかを推定する技術が知られている。
例えば、非特許文献1には、Doc2Vecを用いて、言語で表現されたエンティティを、知識ベース上の意味が明確なエンティティに関連付ける方法が開示されている。この方法においては、ウェブベース百科事典において候補となるエンティティのページを用いた学習により、それら候補のパラグラフベクトルが得られるモデルが生成される。このモデルを用いて、関連付け対象の語を含む文章のパラグラフベクトルが推定され、このパラグラフベクトルとの類似度が高いパラグラフベクトルが得られた候補が、その語に関連付けられるエンティティとして推定される。
Louis Kirsch、他3名、"Named Entity Linking using Paragraph Vector"、[online]、[平成30年4月25日検索]、インターネット<URL: http://louiskirsch.com/res/nel_paragraph_vector.pdf>
しかしながら、関連付け候補となるエンティティが多数にのぼる場合、非特許文献1に開示されたような1段階の分類では、たとえ学習用の文書が十分にあったとしても、精度よく関連付けを行うことが難しい。
本発明は、以上の点に鑑みてなされたものであり、関連付け候補が多い場合であっても、所与の文章に現れる語に関連性があるエンティティの推定精度を向上させる分類装置、分類方法、生成方法、分類プログラム及び生成プログラムを提供することを目的とする。
上記課題を解決するために、請求項1に記載の発明は、1以上の所定エンティティそれぞれに関係する1以上の第1文章を含むコーパスを用いた機械学習により生成された第1モデルであって、前記1以上の第1文章に含まれる語の特徴が得られる第1モデルと、前記1以上の第1文章を含むコーパスを用いた機械学習により生成された第2モデルであって、前記1以上の第1文章の特徴が得られる第2モデルと、を記憶する記憶手段と、前記記憶された第1モデルにより、所与の第2文章に含まれる、関連付け対象である第2語の入力に応じて、前記1以上の所定エンティティそれぞれを示す1以上の第1語のうち、前記第2語との間に特徴の類似性がある1以上の語それぞれにより示される1以上のエンティティを示す第1情報を出力させる第1制御手段と、前記記憶された第2モデルにより、前記第2文章の入力に応じて、前記1以上の第1文章のうち、前記第2文章との間に特徴の類似性がある1以上の文章それぞれが関係する1以上のエンティティを示す第2情報を出力させる第2制御手段と、前記出力された第1情報、及び前記出力された第2情報に基づいて、前記第2語の関連付けを決定する決定手段と、を備えることを特徴とする。
この発明によれば、第1モデルから得られる語の特徴の類似性、及び第2モデルから得られる文章の特徴の類似性の両方に基づいて、第2語の関連付けが決定される。従って、関連付け候補が多い場合であっても、所与の第2文章に現れる第2語に関連性があるエンティティの推定精度を向上させることができる。
請求項2に記載の発明は、請求項1に記載の分類装置において、前記第2制御手段は、前記第1モデルの生成に用いられるコーパスから前記1以上の第1語が除かれたコーパスを用いて生成された前記第2モデルにより、前記第2情報を出力させることを特徴とする。
この発明によれば、エンティティを示す第1語が除かれることによって、第1文章について、第1語自体からは距離を置いてより広い文脈に基づく特徴が、前記第2モデルから得られることになる。従って、関係する第1文章の特徴が、第2文章の特徴と類似するエンティティを適切に抽出することができる。
請求項3に記載の発明は、請求項1に記載の分類装置において、前記第2制御手段は、前記第1モデルの生成に用いられるコーパスから前記1以上の第1語が除かれたコーパスを用いて生成された前記第2モデルにより、前記第2情報を出力させることを特徴とする。
この発明によれば、一のモデルを生成すればよいので、語の特徴用のモデル、及び文章の特徴用のモデルの両方を生成する場合よりも学習時間を短縮することができる。また、コーパスを準備する手間を軽減させることができる。
請求項4に記載の発明は、請求項1乃至3の何れか1項に記載の分類装置において、前記第2制御手段は、前記第1モデルから出力された前記第1情報により示されるエンティティに関する第1文書のうち、前記第2文章との間における特徴の類似度が相対的に高い文章が関係するエンティティ示す前記第2情報を前記第2モデルにより出力させ、前記決定手段は、前記第2情報に基づいて、前記第2語の関連付けを決定することを特徴とする。
この発明によれば、第2語に真に関連するエンティティを、関連エンティティの候補として抽出する精度が、第2モデルよりも第1モデルの方が高い場合、最終的な推定精度を向上させることができる。
請求項5に記載の発明は、請求項1乃至4の何れか1項に記載の分類装置において、前記第1モデルから、前記1以上の第1文章に含まれる語の特徴が単語単位で得られ、前記第1モデルは、前記第2語が複数の単語で構成される場合、該複数の単語それぞれの特徴に対する所定演算により前記第2語の特徴を算出することを特徴とする。
この発明によれば、第2語自体は学習用のコーパスに含まれていなくとも、第2語の特徴を取得することができる。
請求項6に記載の発明は、請求項1乃至5の何れか1項に記載の分類装置において、前記第2モデルは、前記第2情報を出力するとき、前記第2文章を用いた機械学習により、該第2文章の特徴を取得することを特徴とする。
この発明によれば、学習用のコーパスが、第2文章と同一の文章を含まなくても、第2文章の特徴を取得することができる。
請求項7に記載の発明は、コンピュータにより実行される分類方法において、1以上の所定エンティティそれぞれに関係する1以上の第1文章を含むコーパスを用いた機械学習により生成された第1モデルであって、前記1以上の第1文章に含まれる語の特徴が得られる第1モデルを、記憶手段に記憶させる第1記憶ステップと、前記1以上の第1文章を含むコーパスを用いた機械学習により生成された第2モデルであって、前記1以上の第1文章の特徴が得られる第2モデルを、前記記憶手段に記憶させる第2記憶ステップと、前記記憶された第1モデルにより、所与の第2文章に含まれる、関連付け対象である第2語の入力に応じて、前記1以上の所定エンティティそれぞれを示す1以上の第1語のうち、前記第2語との間に特徴の類似性がある1以上の語それぞれにより示される1以上のエンティティを示す第1情報を出力させる第1制御ステップと、前記記憶された第2モデルにより、前記第2文章の入力に応じて、前記1以上の第1文章のうち、前記第2文章との間に特徴の類似性がある1以上の文章それぞれが関係する1以上のエンティティを示す第2情報を出力させる第2制御ステップと、前記出力された第1情報、及び前記出力された第2情報に基づいて、前記第2語の関連付けを決定する決定ステップと、を含むことを特徴とする。
請求項8に記載の発明は、コンピュータにより実行される生成方法において、1以上の所定エンティティそれぞれに関係する1以上の第1文章を含むコーパスを用いた機械学習により、前記1以上の第1文章に含まれる語の特徴が得られる第1モデルを生成する第1生成ステップと、前記1以上の第1文章を含むコーパスを用いた機械学習により、前記1以上の第1文章の特徴が得られる第2モデルを生成する第2生成ステップと、前記1以上の所定エンティティのうち、所与の第2文章に含まれる、関連付け対象である第2語の関連付けを決定する決定部と、前記第1モデル及び前記第2モデルとを含む分類器を生成する第3生成ステップと、を含み、前記第1モデルは、前記第2語の入力に応じて、前記1以上の所定エンティティそれぞれを示す1以上の第1語のうち、前記第2語との間に特徴の類似性がある1以上の語それぞれにより示される1以上のエンティティを示す第1情報を出力し、前記第2モデルは、前記第2文章の入力に応じて、前記1以上の第1文章のうち、前記第2文章との間に特徴の類似性がある1以上の文章それぞれが関係する1以上のエンティティを示す第2情報を出力し、前記決定部は、前記出力された第1情報、及び前記出力された第2情報に基づいて、前記第2語の関連付けを決定することを特徴とする。
請求項9に記載の発明は、コンピュータにより実行される分類プログラムにおいて、前記コンピュータは、1以上の所定エンティティそれぞれに関係する1以上の第1文章を含むコーパスを用いた機械学習により生成された第1モデルであって、前記1以上の第1文章に含まれる語の特徴が得られる第1モデルと、前記1以上の第1文章を含むコーパスを用いた機械学習により生成された第2モデルであって、前記1以上の第1文章の特徴が得られる第2モデルと、を記憶する記憶手段を備え、前記コンピュータを、前記記憶された第1モデルにより、所与の第2文章に含まれる、関連付け対象である第2語の入力に応じて、前記1以上の所定エンティティそれぞれを示す1以上の第1語のうち、前記第2語との間に特徴の類似性がある1以上の語それぞれにより示される1以上のエンティティを示す第1情報を出力させる第1制御手段と、前記記憶された第2モデルにより、前記第2文章の入力に応じて、前記1以上の第1文章のうち、前記第2文章との間に特徴の類似性がある1以上の文章それぞれが関係する1以上のエンティティを示す第2情報を出力させる第2制御手段と、前記出力された第1情報、及び前記出力された第2情報に基づいて、前記第2語の関連付けを決定する決定手段と、として機能させることを特徴とする。
請求項10に記載の発明は、コンピュータにより実行される生成プログラムにおいて、前記コンピュータを、1以上の所定エンティティそれぞれに関係する1以上の第1文章を含むコーパスを用いた機械学習により、前記1以上の第1文章に含まれる語の特徴が得られる第1モデルを生成する第1生成手段と、前記1以上の第1文章を含むコーパスを用いた機械学習により、前記1以上の第1文章の特徴が得られる第2モデルを生成する第2生成手段と、前記1以上の所定エンティティのうち、所与の第2文章に含まれる、関連付け対象である第2語の関連付けを決定する決定部と、前記第1モデル及び前記第2モデルとを含む分類器を生成する第3生成手段と、として機能させ、前記第1モデルは、前記第2語の入力に応じて、前記1以上の所定エンティティそれぞれを示す1以上の第1語のうち、前記第2語との間に特徴の類似性がある1以上の語それぞれにより示される1以上のエンティティを示す第1情報を出力し、前記第2モデルは、前記第2文章の入力に応じて、前記1以上の第1文章のうち、前記第2文章との間に特徴の類似性がある1以上の文章それぞれが関係する1以上のエンティティを示す第2情報を出力し、前記決定部は、前記出力された第1情報、及び前記出力された第2情報に基づいて、前記第2語の関連付けを決定することを特徴とする。
本発明によれば、関連付け候補が多い場合であっても、所与の文章に現れる語に関連性があるエンティティの推定精度を向上させることができる。
一実施形態に係る分類装置1の概要構成の一例を示すブロック図である。 一実施形態に係る分類装置1のシステム制御部11の機能ブロックの一例を示す図である。 分類器2の生成方法の一例を示す図である。 関連付けが実行される様子の一例を示す図である。 分類装置1のシステム制御部11による学習処理の一例を示すフローチャートである。 分類装置1のシステム制御部11による関連付け処理の一例を示すフローチャートである。 一実施例における分類器5の生成方法の一例を示す図である。 メーカ名に関連する上場企業の推定方法の一例を示す図である。 評価実験の結果を示す図である。
以下、図面を参照して本発明の実施形態について詳細に説明する。以下に説明する実施形態においては、分類器の生成及びこの分類器を用いて所与の文章に含まれる語とエンティティとの関連付けを実行する分類装置に対して本発明を適用した場合の実施形態である。なお、分類器を生成する装置と関連付けを実行する装置とは別々の装置であってもよい。
[1.分類装置の構成]
先ず、分類装置1の構成について、図1Aを用いて説明する。図1Aは、本実施形態に係る分類装置1の概要構成の一例を示すブロック図である。図1Aに示すように、分類装置1は、システム制御部11と、システムバス12と、入出力インターフェース13と、記憶部14と、通信部15と、入力部16と、表示部17と、を備えている。システム制御部11と入出力インターフェース13とは、システムバス12を介して接続されている。
システム制御部11は、CPU(Central Processing Unit)11a、ROM(Read Only Memory)11b、RAM(Random Access Memory)11c等により構成されている。CPU11aは、プロセッサの一例である。なお、本発明は、CPUと異なる様々なプロセッサに対しても適用可能である。記憶部14、ROM11b及びRAM11cは、それぞれメモリの一例である。なお、本発明は、ハードディスク、ROM及びRAMと異なる様々なメモリに対しても適用可能である。
入出力インターフェース13は、記憶部14〜表示部17とシステム制御部11との間のインターフェース処理を行う。
記憶部14は、例えば、ハードディスクドライブ又はソリッドステートドライブ等により構成されている。この記憶部14には、分類器2の生成に用いられる学習データとしてのコーパス、生成された分類器2等が記憶される。コーパスは、ネットワークを介して取得されてもよいし、光ディスク、メモリカード、磁気テープ等の記録媒体に記録されてドライブ装置を介して読み込まれるようにしてもよい。なお、分類器2を生成する装置と関連付けを実行する装置とが別々の装置である場合、生成された分類器2の受け渡しは、ネットワークを介して行われてもよいし、記録媒体を介して行われてもよい。記憶部14には、更にオペレーティングシステム、分類器生成用のプログラム、関連付け用のプログラム等が記憶されている。各種プログラムは、例えば、所定のサーバ装置等からネットワークを介して取得されるようにしてもよいし、記録媒体に記録されてドライブ装置を介して読み込まれるようにしてもよい。
通信部15は、インターネット、LAN(Local Area Network)等のネットワークを介して他のコンピュータと接続し、そのコンピュータとの通信状態を制御する。
入力部16は、オペレータによる操作を受け付け、操作内容に対応する信号をシステム制御部11に出力する。入力部16の例として、キーボード、マウス、タッチパネル等が挙げられる。
表示部17は、システム制御部11の制御により、画像、文字等の情報を表示する。表示部17は、例えばGPU(Graphics Processing Unit)、VRAM(Video RAM)、ディスプレイパネル等により構成される。ディスプレイパネルの例として、液晶パネル、有機EL(Light Emitting)パネル等が挙げられる。
[2.分類装置のシステム制御部の機能概要]
次に、図1B乃至図3を用いて、システム制御部11の機能概要について説明する。図1Bは、本実施形態に係る分類装置1のシステム制御部11の機能ブロックの一例を示す図である。システム制御部11は、CPU11aが、記憶部14に記憶されているプログラムに含まれる各種コード等を読み出し実行することにより、図1Bに示すように、語用モデル生成部111、文章用モデル生成部112、分類器生成部113、語用モデル制御部114、文章用モデル制御部115、及び出力制御部116等として機能する。
[2−1.分類器の生成]
分類器2は、関連付けの実行時、所与の文章(以下、「対象文章」という。)と、対象文章に含まれる語であって、関連付け先を識別する対象となる語(以下、「対象語」という。)とが入力されると、関連付け先の候補となり得る予め定められた1以上のエンティティ(以下、「所定エンティティ」という。)の中から、その対象語に関連付けられるエンティティ(以下「関連エンティティ」という。)を示す情報を出力する。分類器2は、例えば対象語が示すエンティティ(以下、「対象エンティティ」という。)と実質的に同一であるエンティティを関連エンティティとして識別し、又は対象エンティティとの間に意味的、組織的、社会的等において何らかの関連があるエンティティを関連エンティティとして識別することを目的として用いられる。対象語との間で表記又は読みが全く異なる語で示されるエンティティであっても、関連エンティティとして識別されることがあってもよい。更には、対象語との間で表記又は読みが一致し又は類似する語で示されるエンティティであっても、関連エンティティとしては識別されないことがあってもよい。
対象文章は、例えば、対象エンティティに言及した文章であってもよい。対象エンティティが人物、団体、法人等である場合、対象文章は、対象エンティティが作成又は記述した文章であってもよい。対象文章は、対象エンティティを示す語を含み得る。なお、本実施形態において「文章」というときは、単一の文章、及び一以上の文章で構成される文書の何れをも示す。
上述したような、対象語と所定エンティティの関連付けを行う場合、次に述べる課題が存在する。第1の課題は、語が多義性を有し得ることに起因する。すなわち、表記が同一の語であっても、それらが別々の文章に現れる場合はそれらの文脈に応じて、別々のエンティティを示す場合がある。このような語を適切なエンティティに関連付けることが望まれる。第2の課題は、関連付けの候補となり得るエンティティ自体が、曖昧性を有したり、広義にとらえられたりする場合があることに起因する。すなわち、或るエンティティが、表記の異なる複数の語に関連付けられる場合がある。例えば、異なる複数の語によりそれぞれ示されるエンティティが、同一のエンティティに属していたり、そのエンティティの下位概念であったりする。このような複数の語を適切な一のエンティティに関連付けることが望まれる。第3の課題は、関連付けの候補となり得るエンティティの中に、対処語と関連するエンティティが存在するか否かが事前に不確定であることに起因する。すなわち、所定エンティティの中に、対象語に真に関連するエンティティが存在する場合も存在しない場合も考えられる。このような状況において、対象語に関連するエンティティが存在するか否かを適切に推定することが望まれる。
図2は、分類器2の生成方法の一例を示す図である。図2に示すように、分類器2は、語用モデル21と、文章用モデル22と、決定部23とを含んで構成される。語用モデル生成部111〜分類器生成部113により、語用モデル21〜決定部23が生成される。
分類装置1は、語用モデル21及び文章用モデル22の生成のために、オペレータの操作に基づき、機械学習用のデータとしてコーパス30を取得する。コーパス30は、1以上の所定エンティティそれぞれに関係する1以上の文章を含む。所定エンティティに関係する文章は、例えば、所定エンティティに言及した文章であってもよいし、所定エンティティが作成又は記述した文章であってもよい。各文章は、対応する所定エンティティを示す語を含み得る。コーパス30の取得元は特に限定されるものではないが、取得元の例として、各所定エンティティに関するウェブページが掲載されているウェブベース百科事典、オンラインショッピングサイト、SNSサイト、所定エンティティに言及したサイト、所定エンティティが運営するサイト等のウェブサイトや、各所定エンティティに関する文章データを蓄積しているデータベース等が挙げられる。取得されたコーパス30内の各文章と各所定エンティティは関連付けられる。
分類装置1は、コーパス30に前処理を施すことにより、学習用コーパス31を得る。例えば、形態素解析により、コーパス30内の文章が分かち書きされて名詞が抽出され、抽出された語は正規化される。或る名称が複数の単語(または形態素)で構成される場合、これら複数の単語に分解されて抽出されることが望ましい。但し、所定エンティティを示す語が複数の単語で構成されている場合であっても、所定エンティティを示す語自体は分解されずに学習用コーパス31に含まれてもよい。更に、例えばストップワードがコーパス30から除去されて、学習用コーパス31が生成される。前処理は、オペレータの操作に基づいて実行されてもよいし、分類装置1が自動的に実行してもよい。
語用モデル生成部111は、学習用コーパス31を用いた機械学習を実行することにより、1以上の所定エンティティそれぞれに関係する1以上の文章に含まれる語の特徴が得られる語用モデル21を生成する。語の特徴は、例えば、その語が如何なる文脈で用いられているか、或いはその語の周辺で如何なる語が用いられているか等に基づく。意味的に近い語同士又は関連性が高い語同士の特徴は類似する傾向にある。語の特徴は、例えば分散表現であるワードベクトルで示されてもよい。語用モデル21は、コーパスに含まれる各語の特徴が得られるものであれば特段のモデルに限定されるものではないが、望ましくはWord2Vecであり、より望ましくはDoc2Vecである。Word2Vecの場合、Skip−gram及びCBoW(Continuous Bag of Words)の何れが用いられてもよい。Doc2Vecの場合、PV−DM(Paragraph Vector with Distributed Memory)及びPV−DBOW(Paragraph Vector with Distributed Bag of Words)の何れが用いられてもよい。語用モデル21の機械学習の方法としては、例えば、PV−DMやPV−DBOW等における一般的な方法が用いられればよい。語用モデル21は、関連付けの実行時、対象語の入力に応じて、1以上の所定エンティティをそれぞれ示す語のうち、対象語との間に特徴の類似性がある1以上のエンティティを示す第1候補情報を出力する。なお、機械学習はGPUが実行してもよい。
文章用モデル生成部112は、学習用コーパス31(または後述する学習用コーパス32)を用いた機械学習を実行することにより、1以上の所定エンティティそれぞれに関係する1以上の文章の特徴が得られる文章用モデル22を生成する。文章の特徴は、例えば、文章に含まれる各語が如何なる文脈で用いられているか、或いは各語の周辺で如何なる語が用いられているか等に基づく。文章の特徴は、例えば分散表現であるパラグラフベクトルで示される。文章用モデル22は、コーパスに含まれる各文章の特徴が得られるものであれば特段のモデルに限定されるものではないが、望ましくはDoc2Vecである。Doc2Vecの場合、PV−DM及びPV−DBOWの何れが用いられてもよい。文章用モデル22の機械学習の方法としては、例えば、PV−DMやPV−DBOW等における一般的な方法が用いられればよい。文章用モデル22は、関連付けの実行時、対象文章の入力に応じて、1以上の所定エンティティをそれぞれに関係する文章のうち、対象文章との間に特徴の類似性がある文章に関係する1以上のエンティティを示す第2候補情報を出力する。
文章用モデル生成部112は、学習用コーパス31に変えて、学習用コーパス31に含まれる各文章から、それぞれ対応する所定エンティティを示す語及び対象語の少なくとも何れか一方が除かれた学習用コーパス32を用いて機械学習を実行することにより、文章用モデル22を生成してもよい。これにより、文章に含まれる語又は情報の抽象度が異なる学習用コーパス31と学習用コーパス32とが使用されることになる。すなわち、学習用コーパス32の方が学習用コーパス31よりも抽象度が高い。文章は、抽象度が異なる情報を含み得るところ、人間がその文章中において多義性を有する或る語の意味を解釈するとき、その語自体からは一旦距離を置いて、より広い文脈から俯瞰してその語の意味を検討する。この、語自体から距離を置いてより広い文脈からその語の意味を解釈するという点を、所定エンティティを示す語及び対象語の少なくとも何れか一方が除去された学習用コーパス32を用いた機械学習により実現する。例えば、図2に示すように、或るエンティティABCに関する文章がコーパス30に含まれていた場合、学習用コーパス31においては「ABC」を含む一方で、学習用コーパス32においては「ABC」を含まない。
語用モデル21による機械学習及び文章用モデル22による機械学習の何れが先に実行されてもよいし、同時並行で実行されてもよい。
語用モデル21及び文章用モデル22の両方の機械学習に、学習用コーパス31を用いることを想定する場合、実質的にモデル21及びモデル22の両方の特徴を兼ね備える一のモデルによる機械学習を実行することにより、学習期間の短縮化を図ることができる。すなわち、この一のモデルは、語の特徴及び文章の特徴の両方が得られるモデルであり、語用モデル21及び文章用モデル22に相当する。例えば、PV−DMであれば元来からワードベクトル及びパラグラフベクトルの両方が得られ、PV−DBOWであっても、オプションにより、パラグラフベクトルに加えてワードベクトルも得られるようにすることが可能である。学習用のコーパスとして一のコーパスを準備すればよいので、コーパスを準備する手間が軽減される。
分類器生成部113は、語用モデル21、文章用モデル22及び決定部23を含む分類器2を生成する。決定部23は、例えば、語用モデル21から出力された第1候補情報、及び文章用モデル22から出力された第2候補情報に基づいて、対象語の関連付けを決定するためのプログラムコードである。決定部23の詳細については後述する。
[2−2.関連付け]
次に、上述した方法で生成された分類器2を用いた関連付けの方法を説明する。図3は、関連付けが実行される様子の一例を示す図である。
図3に示すように、対象文章42が対象語41と関連付けて取得される。対象文章の取得元は特に限定されるものではない。対象文章42は、例えばコーパス30と同様の方法で前処理が施される。また、対象文章42から、所定エンティティを示す語及び対象語の少なくとも何れか一方を除去したものが分類器2に入力されてもよい。その理由は、上述したように、学習用コーパス32を用いて機械学習を行う理由と同様である。対象語41及び対象文章42が分類器2に入力される。
語用モデル制御部114は、語用モデル21により、対象語の入力に応じて、1以上の所定エンティティそれぞれを示す1以上の語のうち、対象語との間に特徴の類似性がある1以上の語それぞれにより示される1以上のエンティティを示す第1候補情報を出力させる。例えば、語用モデル21は、対象語のワードベクトルを取得する。対象語が複数の単語で構成される場合、語用モデル21は、それら複数の単語のワードベクトルをそれぞれ取得し、これらのワードベクトルに対する所定演算により、対象語のワードベクトルを取得する。所定演算の例として、加算、平均等が挙げられる。これにより、コーパス30に対象語が含まれない場合であっても、対象語のワードベクトルを取得することが可能である。語用モデル21は、対象語のワードベクトルと各所定エンティティのワードベクトルとの類似度を計算する。この類似度は、例えばコサイン類似度であってもよい。そして、語用モデル21は、所定エンティティのうち、類似度が相対的に高いN1個(N1は、N1>0を満たす整数)のエンティティ又は類似度が所定閾値以上であるエンティティを、候補のエンティティとして決定する。そして、語用モデル21は、候補として決定されたエンティティを示す第1候補情報を出力する。N1又は閾値は、例えば、テスト用のコーパスを用いて関連付けを実行し、その結果に基づいて決定されてもよい。
文章用モデル制御部115は、文章用モデル22により、対象文章の入力に応じて、1以上の所定エンティティそれぞれに関係する1以上の文章のうち、対象文章との間に特徴の類似性がある1以上の文章それぞれに関係する1以上のエンティティを示す第2候補情報を出力させる。例えば、文章用モデル制御部115は、対象文章を用いた文章用モデル22の機械学習を実行して、対象文章のパラグラフベクトルを取得する。この場合の学習回数は少なくてもよい。この機械学習によっては、文章用モデル22自体(重み、バイアス等)は変更されない。文章用モデル22は、対象文章のパラグラフベクトルと各所定エンティティに関係する文章のパラグラフベクトルとの類似度を計算する。この類似度は、例えばコサイン類似度であってもよい。そして、文章用モデル22は、所定エンティティのうち、類似度が相対的に高いN2個(N2は、N2>0を満たす整数)のエンティティ又は類似度が所定閾値以上であるエンティティを、候補のエンティティとして決定する。そして、文章用モデル22は、候補として決定されたエンティティを示す第2候補情報を出力する。N2又は閾値は、例えば、テスト用のコーパスを用いて関連付けを実行し、その結果に基づいて決定されてもよい。
語用モデル21による第1候補情報の出力、及び文章用モデル22による第2候補情報の出力の何れが先に実行されてもよいし、同時並行で実行されてもよい。第1候補情報の出力が先に実行される場合、文章用モデル22は、第1候補情報を入力として、第1候補情報に示されるエンティティの中から、パラグラフベクトルの類似度が相対的に高いN2個のエンティティ又は類似度が所定閾値以上であるエンティティを、候補のエンティティとして決定して、第2候補情報を出力してもよい。第2候補情報の出力が先に実行される場合、語用モデル21は、第2候補情報を入力として、第2候補情報に示されるエンティティの中から、ワードベクトルの類似度が相対的に高いN1個のエンティティ又は類似度が所定閾値以上であるエンティティを、候補のエンティティとして決定して、第1候補情報を出力してもよい。何れを先に実行するかを判断する条件は、特定の条件に限定されるものではないが、例えば、語用モデル21及び文章用モデル22それぞれを単体でのみ使用して関連付けを行った場合の関連付け精度(推定精度)に基づいて判断されてもよい。例えば、精度が高い方のモデルによる候補情報の出力を先に実行させ、この候補情報を入力として、他方のモデルによる候補情報の出力を後に実行させる。これにより、最初のモデルにより抽出された候補が、対象語に真に関連するエンティティを含む蓋然性が高くなるので、最終的な推定精度を高めることができる。
語用モデル21及び文章用モデル22の両方の特徴を兼ね備える一のモデルが生成された場合、このモデルにより、第1候補情報及び第2候補情報がそれぞれ出力される。
出力制御部116は、決定部23により、第1候補情報及び第2候補情報に基づいて、対象語の関連付けを決定させる。対象語の関連付けの決定は、対象語をどの所定エンティティに関連付けるかの決定、及び対象語を所定エンティティに関連付けるべきか否かの決定を含み得る。例えば、決定部23は、第1候補情報及び第2候補情報の両方に示されるエンティティを、関連エンティティとして決定してもよい。或いは、決定部23は、第1候補情報及び第2候補情報の両方に示されるエンティティのうち、対象語との間のワードベクトルの類似度又は対象文章との間のパラグラフベクトルの類似度が相対的に高いN3個(N3は、N3>0を満たす整数)のエンティティ、又は類似度が所定閾値以上であるエンティティを、関連エンティティとして決定してもよい。N3又は閾値は、例えば、テスト用のコーパスを用いて関連付けを実行し、その結果に基づいて決定されてもよい。語用モデル21及び文章用モデル22のうち一方のモデルによる候補情報の出力が先に実行され、この候補情報を入力として、他方のモデルによる候補情報の出力を後に実行される場合、決定部23は、他方のモデルから出力された候補情報に基づいて、対象語の関連付けを決定する。例えば、他方のモデルから出力された候補情報に示されるエンティティの中から、関連エンティティが決定される。この場合であっても、第1候補情報及び第2候補情報に基づいて、対象語の関連付けが決定されることは明らかである。このように、語の特徴の類似性及び文章の特徴の類似性の両方に基づいて関連エンティティが決定されるので、関連付け候補となる所定エンティティが多い場合であっても、関連エンティティの推定精度向上させることができる。関連エンティティが決定された場合、決定された関連エンティティを示す関連エンティティ情報が出力される。関連エンティティが存在しない場合(対象語が何れのエンティティにも関連付けられなかった場合)、関連エンティティが存在しないことを示す関連エンティティ情報が出力される。
このような分類器2によって、上述した課題が解決される。具体的に、対象語の多義性による第1の課題については、主として文章用モデル22を用いて解決される。語の特徴(ワードベクトル)のみを用いて関連付けを行うと仮定した場合、語が現れる文章よってその語が異なるエンティティを示す場合であっても、語の特徴はそれを反映しないため、多義性を有する語を適切に関連付けることは難しい。これに対して、文章用モデル22によれば、語が現れる文章の特徴(パラグラフベクトル)が用いられることで、多義性を有する語を適切に関連付けることが可能である。エンティティの曖昧性による第2の課題については、主として語用モデル21を用いて解決される。語用モデル21によれば、語の特徴として、その語が現れる様々な文脈を考慮した特徴が得られるので、その点において、曖昧性を有する一のエンティティに、複数の対象語を適切に関連付けることが可能である。関連するエンティティの存在の不確定性による第3の課題については、主として文章用モデル22を用いて解決される。上述したように、語が現れる文章よってその語が異なるエンティティを示し得るところ、文章用モデル22によれば、語が現れる文章の特徴が用いられることで、その語によって真に示されるエンティティが、所定エンティティの中に存在するか否かを適切に推定することが可能である。
また、語の特徴のみを用いて関連付けを行うと、上述したように多義性を有する語の適切な関連付けが難しい一方で、文章の特徴のみを用いて関連付けを行うと、関連付けの候補となるエンティティの抽出精度が低下する可能性がある。分類器2によれば、語の特徴と文章の特徴の両方が用いられるので、たとえ対象文章の情報の量又は質が、学習用コーパス31の情報の量又は質よりも大きく劣っていたとしても、教師データや、語の表記ゆれを解決するための辞書を用いずに、関連付けの精度を向上させることができる。
[3.分類装置の動作]
次に、分類装置1の動作について、図4及び図5を用いて説明する。図4は、分類装置1のシステム制御部11による学習処理の一例を示すフローチャートである。分類器生成用のプログラムに従って、システム制御部11は学習処理を実行する。図4に示すように、システム制御部11は、オペレータの操作に基づいて、コーパス30を、ネットワークを介して又は記録媒体等から取得する(ステップS11)。次いで、システム制御部11は、コーパス30を前処理することにより、学習用コーパス31を生成する(ステップS12)。システム制御部11は、学習用コーパス31に含まれる各文章と各所定エンティティとを関連付ける。次いで、システム制御部11は、学習用コーパス31に含まれる各文章から、当該文章に関連付けられる所定エンティティを示す語を除去して、学習用コーパス32を生成する(ステップS13)。次いで、語用モデル生成部111は、学習用コーパス31を用いた機械学習を実行することにより、語用モデル21を生成する(ステップS14)。また、文章用モデル生成部112は、学習用コーパス32を用いた機械学習を実行することにより、文章用モデル22を生成する(ステップS15)。ステップS14及びS15の後、分類器生成部113は、語用モデル21、文章用モデル22、及び決定部23を含む分類器2を生成して記憶部14に記憶させて(ステップS16)、学習処理を終了させる。
図5は、分類装置1のシステム制御部11による関連付け処理の一例を示すフローチャートである。関連付け用のプログラムに従って、システム制御部11は関連付け処理を実行する。図5に示すように、システム制御部11は、記憶部14から生成された分類器2をRAM11cにロードし、オペレータの操作に基づいて、対象語と対象文章のセットの入力を受け付ける(ステップS21)。なお、複数の対象語のリスト及びそれらに対応する対象文章を含むコーパスが入力されてもよい。次いで、語用モデル制御部114は、語用モデル21を用いて、対象語のワードベクトルを取得する(ステップS22)。対象語が複数の単語で構成される場合、語用モデル制御部114は、それぞれの単語のワードベクトルを取得して所定演算を施すことにより、対象語のワードベクトルを取得する。次いで、語用モデル制御部114は、語用モデル21を用いて、対象語のワードベクトルと各所定エンティティを示す語のワードベクトルとの類似度を計算し、類似度が相対的に高いエンティティを示す第1候補情報を出力させる(ステップS23)。次いで、文章用モデル制御部115は、対象文章を用いて文章用モデル22による機械学習を実行することにより、対象文章のパラグラフベクトルを取得する(ステップS24)。次いで、文章用モデル制御部115は、文章用モデル22を用いて、対象文章のパラグラフベクトルと各所定エンティティに関係する文章のパラグラフベクトルとの類似度を計算し、類似度が相対的に高いエンティティを示す第2候補情報を出力させる。次いで、出力制御部116は、決定部23により、第1候補情報及び第2候補情報に基づいて、対象語の関連付けを決定して、関連エンティティ情報を出力させる(ステップS26)。ステップS26を終えると、システム制御部11は、関連付け処理を終了させる。なお、対象語のリスト及びコーパスが入力された場合、対象語と対象文章のセットごとに、ステップS22〜S26が実行される。
以上説明したように、本実施形態によれば、システム制御部11が、1以上の所定エンティティそれぞれに関係する1以上の文章を含むコーパスを用いた機械学習により生成された語用モデル21であって、所定エンティティに関係する文章に含まれる語の特徴が得られる語用モデル21と、所定エンティティに関係する文章を含むコーパスを用いた機械学習により生成された文章用モデル22であって、所定エンティティに関係する文章の特徴が得られる文章用モデル22と、をRAM11cに記憶させる。また、システム制御部11が、記憶された語用モデル21により、所与の対象文章に含まれる対象語の入力に応じて、1以上の所定エンティティそれぞれを示す1以上の語のうち、対象語との間に特徴の類似性がある1以上の語それぞれにより示される1以上のエンティティを示す第1候補情報を出力させる。また、システム制御部11が、記憶された文章用モデル22により、対象文章の入力に応じて、所定エンティティに関係する文章のうち、対象文章との間に特徴の類似性がある1以上の文章それぞれが関係する1以上のエンティティを示す第2候補情報を出力させる。また、システム制御部11が、出力された第1候補情報、及び出力された第2候補情報に基づいて、対象語の関連付けを決定する。従って、関連付け候補が多い場合であっても、所与の対象文章に現れる対象語に関連性があるエンティティの推定精度を向上させることができる。
また、文章用モデル22は、語用モデル21の生成に用いられるコーパスから、所定エンティティを示す語が除かれたコーパスを用いて生成されてもよい。また、システム制御部11は、このコーパスにより、第2候補情報を出力させてもよい。この場合、所定エンティティを示す語が除かれることによって、所定エンティティに関係する文章について、語自体からは距離を置いてより広い文脈に基づく特徴が、文章用モデル22から得られることになる。従って、関係する文章の特徴が、対象文章の特徴と類似するエンティティを適切に抽出することができる。
また、文章用モデル22の生成に用いられるコーパスが、語用モデル21の生成に用いられる学習用コーパス31と同一であり、学習用コーパス31を用いて、語用モデル21及び文章用モデル22に相当するモデルとして、所定エンティティに関係する文章に含まれる語の特徴、及び文章の特徴の両方が得られるモデルが生成されてもよい。また、システム制御部11は、このモデルにより、第1候補情報を出力させるとともに、第2候補情報を出力させてもよい。この場合、一のモデルを生成すればよいので、語用モデル21、及び文章用モデル22の両方を生成する場合よりも学習時間を短縮することができる。また、コーパスを準備する手間を軽減させることができる。
また、システム制御部11が、文章用モデル22により、語用モデル21から出力された第1候補情報により示されるエンティティに関する文書のうち、対象文章との間における特徴の類似度が相対的に高い文章が関係するエンティティを示す第2候補情報を出力してもよい。また、システム制御部11が、第2候補情報に基づいて、対象語の関連付けを決定してもよい。この場合、対象語に真に関連するエンティティを、関連エンティティの候補として抽出する精度が、文章用モデル22よりも語用モデル21の方が高い場合、最終的な推定精度を向上させることができる。
また、語用モデル21から、所定エンティティに関係する文章に含まれる語の特徴が単語単位で得られ、語用モデル21は、対象語が複数の単語で構成される場合、これら複数の単語それぞれの特徴に対する所定演算により対象語の特徴を算出してもよい。この場合、対象語自体は学習用コーパス31に含まれていなくとも、対象語の特徴を取得することができる。
また、文章用モデル22は、第2候補情報を出力するとき、対象文章を用いた機械学習により、この対象文章の特徴を取得してもよい。この場合、学習用コーパス31が、対象文章と同一の文章を含まなくても、対象文章の特徴を取得することができる。
[実施例1]
次に、メーカ名を対象語とし、株式を上場する企業を所定エンティティとして、メーカ名に関連する上場企業を推定する場合の実施例について、図6乃至図7Bを用いて説明する。対象とする上場企業は、Wikipedia(登録商標)に掲載されている約2000の上場企業であり、対象とするメーカは、出願人が運営する商品価格サイト(商品価格ナビ(登録商標))に掲載されている約70000のメーカである。このサイトには、メーカが提供する商品に関する情報が掲載されている。或るメーカは、或る対象の上場企業と同一企業であったり、対象の上場企業の子会社等であったりする。また、或るメーカは、対象の上場企業の何れとも関連しない場合もある。
図6は、本実施例における分類器5の生成方法の一例を示す図である。先ず、各上場企業に関係する文章として、Wikipedia(登録商標)から各上場企業のページ6を取得する。また、情報を補うために、各上場企業のウェブサイトから会社情報、事業紹介等のページを取得する。取得されたページに対して、HTMLタグやJavascript(登録商標)コード等を除去し、実施形態で説明されたような前処理を施して、企業コーパス61を生成する。企業コーパス61は、各上場企業の名称を含む。また、企業コーパス61から各上場企業名を除去して、企業コーパス62を生成する。
語用モデル21としてのDoc2Vecモデル51、及び文章用モデル22としてのDoc2Vecモデル52は、何れもPV−DBOWを採用する。各モデルについて、ウインドウサイズを5とし、中間層のサイズを300とし、エポック数を10とする。企業コーパス61を用いた機械学習により、Doc2Vecモデル51を生成し、企業コーパス62を用いた機械学習により、Doc2Vecモデル52を生成する。
図7Aは、メーカ名に関連する上場企業の推定方法の一例を示す図である。対象文書として、商品価格サイトから、メーカが提供する主要4製品の情報が掲載されているページ7を各メーカについて取得する。取得されたページに対して、企業コーパス62と同様に、前処理、及び上場企業名を除去して、メーカコーパス72を生成する。更に、メーカ名のリスト71を生成する。
本実施例においては、1段目にDoc2Vecモデル51による推定を行い、このモデルから出力される第1候補情報を、Doc2Vecモデル52の入力とする。そして、2段目にDoc2Vecモデル52による推定を行い、このモデルから出力される第2候補情報を、決定部53の入力とする。
Doc2Vecモデル51にリスト71を入力することで、各メーカ名について、ワードベクトルの類似度が高いN1個の上場企業を示す第1候補情報が得られる。これにより、名称の表記がたとえ類似しなくても、名称が現れる文脈がメーカと類似する上場企業が候補として抽出される。次いで、Doc2Vecモデル52にメーカコーパス72を入力し、第1候補情報が示す上場企業のうち、各メーカとの間で文章のパラグラフベクトルの類似度が最も高い一の企業を、ここでの候補の企業とする。或るメーカ名と上場企業名の表記が一致し又は類似する場合、これらの名称のワードベクトルの類似度は高くなる可能性がある。しかしながら、実際にはそのメーカと上場企業との間には何の関連性もない場合がある。2段目でパラグラフベクトルの類似度が用いられるので、そのようなメーカと上場企業であっても、文章の類似性が低くなる蓋然性が高いので、推定の誤りを低減させることができる。更には、上場企業名が除去された企業コーパス62、及び上場企業名が除去されたメーカコーパス72が用いられるので、上場企業名自体から距離を置いてより広い文脈からそれらの語の意味が解釈されることになる。また、対象のメーカに関連しない上場企業であるにもかかわらず、名称の表記が一致し又は類似することに起因してパラグラフベクトルの類似度が高くなることが抑止される。
決定部53においては、Doc2Vecモデル52において計算されたパラグラフベクトルの類似度が最も高い上場企業について、その類似度が閾値を超える場合、その上場企業を対象のメーカ名に関連付ける。一方、類似度が閾値以下である場合、その上場企業を対象のメーカ名に関連付けられない。すなわち、対象のメーカ名には何れの上場企業も関連付けられない。
図7Bは、評価実験の結果を示す図である。実験においては、本実施例のシステムに加えて、比較例として、テキストマッチング、1段階のDoc2Vecモデルのみを用いたシステム、及び2段階のDoc2Vecモデルを用いたシステムについて、推定精度を比較する。評価実験用のメーカコーパスとして、200社分の文章を含むコーパスを用いる。テキストマッチングにおいては、メーカ名と上場企業名の先頭5文字が一致する場合、メーカ名と上場企業とを関連付けるものとする。また、実験に用いられる閾値は、最適な値を探索的に求める。また、Doc2Vecモデル51で抽出される候補の数N1は1とする。本実施例のシステム以外においては、パラグラフベクトルを得るためのDoc2Vecモデルの学習用のコーパスとして、企業コーパス62ではなく、企業名を含む企業コーパス61を用い、テスト用のコーパスとして、上場企業名を含むコーパスを用いる。
図7Bに示すように、テキストマッチングによる推定精度は52.5%である。次に、1段階のDoc2Vecモデルのみを用いてパラグラフベクトルの類似度に基づいて関連付けを行うシステムの推定精度は46.0%である。1段階のDoc2Vecモデルのみを用いてワードベクトルの類似度に基づいて関連付けを行うシステムの推定精度は71.5%である。
1段階目にDoc2Vecモデルを用いてパラグラフベクトルの類似度に基づいて候補の上場企業を抽出し、2段階目にDoc2Vecモデルを用いてワードベクトルの類似度に基づいて候補を絞り込んで推定を行うシステムの推定精度は61.5%である。1段階目にDoc2Vecモデルを用いてワードベクトルの類似度に基づいて候補の上場企業を抽出し、2段階目にDoc2Vecモデル(上場企業名を含む企業コーパス61を用いて生成)を用いてパラグラフベクトルの類似度に基づいて候補を絞り込んで推定を行うシステムの推定精度は78.5%である。これら2段階のシステムにおいて、後者のシステムの方が推定精度が高い理由は、1段階目のDoc2Vecモデルにおいて、真に関連する上場企業を候補として抽出する精度が、前者のシステムよりも後者のシステムの方が高いことに起因している。パラグラフモデルを用いた候補の抽出精度が低い要因の1つとして、商品価格サイトにおけるメーカに関する情報量が比較的少ないことが挙げられる。メーカコーパスとして用いられる文章群によっては、推定精度は向上するものと考えられる。
最後に、本実施例のシステムによる推定精度は83.5%である。このように、本実施例のシステムによれば、他のシステムと比較して優れた推定精度が得られる。
[実施例2]
次に、或る文章に現れる地名を対象語とし、土地を所定エンティティとして、その地名が如何なる土地を示すかを推定する場合の実施例について説明する。地名の表記が同一であっても異なる土地を示す場合がある。例えば、漢字「新宿」は、「しんじゅく」とも「にいじゅく」とも読むことが可能である。「しんじゅく」は、東京都内の或る区の名称の読み仮名である一方で、「にいじゅく」は、東京都葛飾区内の或る町の名称の読み仮名である。また例えば、常用漢字、旧漢字、仮名等のように、地名の表記が異なっていても同一の土地を示す場合もある。
例えば、コーパス30として、様々な土地それぞれに関する文章を取得する。取得元は、例えばウェブベース百科事典等であってもよい。このコーパスに、実施形態で説明したような前処理を施して学習用コーパス31を生成する。学習用コーパス31を用いた機械学習により、語用モデル21を生成する。また、学習用コーパス31を用いた機械学習により、文章用モデル22を生成してもよい。しかしながら、学習用コーパス31から地名を除去して学習用コーパス32を生成し、学習用コーパス32を用いて文章用モデル22を生成することが望ましい。
分類器2の生成後、対象文章として、地名を含む文章、例えばその地名が示す土地に言及した文章等を取得する。対象文章の取得元は特に限定されるものではない。その対象の地名を語用モデル21に入力して、ワードベクトルの類似度が相対的に高い土地を示す第1候補情報を得る。これにより、対象の地名とは表記が異なる土地であっても、関連する土地の候補として抽出することが可能である。また、対象文章から対象の地名を除去した文章を文章用モデル22に入力して、パラグラフベクトルの類似度が相対的に高い土地を示す第2候補情報を得る。これにより、対象の地名とは表記が一致し又は類似するが、その地名とは関連しない土地を候補から除外することができる。そして、決定部23から、第1候補情報及び第2候補情報に基づいて、対象の地名に関連する土地を示す関連エンティティ情報を得る。
これにより、例えば、対象文章に現れる漢字「新宿」を、その対象文章の文脈から、新宿区又は葛飾区新宿の何れかに適切に関連付けることができる。また、コーパス30には、東京都についての文章において、東京都を示す語として漢字「東京」のみが含まれている一方で、対象文章に仮名「とうきょう」が現れている場合、この仮名「とうきょう」を東京都に適切に関連付けることができる。
[実施例3]
次に、ユーザにより作成されて登録又は投稿された文章を、そのユーザのアカウント(またはID)と紐付けて管理するシステムにおいて、このシステムに登録された文章をコーパス30とし、文章の作成者の同一性を推定する場合の実施例について説明する。このようなシステムは特定のシステムに限定されるものではないが、その例として、SNS(Social Networking Service)、電子商取引サイト、レビューサイト、口コミサイト等が挙げられる。対象となる文章は、ユーザが記述したものであれば特に限定されるものではないが、例えば、コメント、レビュー、感想、つぶやき、ユーザが出品した商品の情報、文章作品等が挙げられる。
文章の作成者の同一性の推定の例として、同一アカウントで作成された複数の文章の中で、一部の文章の作成者と、その他の文章の作成者とが実際には異なるか否かを推定することが挙げられる。すなわち、一部の文章についてのなりすましや代筆等を推定する。別の例として、別々のアカウントのユーザが実際には同一人物であるか否かを指定することが挙げられる。すなわち、同一人物が複数のアカウントを取得しているか否かを推定する。
本実施例における所定エンティティは、文章のタイトルが示す主題、テーマ等である。タイトルは、文章内容を要約している。また、文章は、主題やテーマ等について主に言及している。
コーパス30として、システムから1以上のアカウントそれぞれについて登録された1以上の文章を取得する。このコーパスに、実施形態で説明したような前処理を施して学習用コーパス31を生成する。学習用コーパス31を用いた機械学習により、語用モデル21を生成することで、文章のタイトルのワードベクトルが得られるようにする。タイトルが複数の語で構成される場合には、これら複数の語それぞれのワードベクトルに、加算、平均等の演算を施して、タイトルのワードベクトルを得てもよい。一のアカウントについて複数の文章が登録されている場合には、これらの複数の文章のタイトルのワードベクトルの代表値を算出して、そのアカウントに関連付ける。代表値は、例えば平均値等であってもよい。
学習用コーパス31から、文章のタイトルを除去して、学習用コーパス32を生成する。但し、タイトル自体が文章に含まれているケースは多くはないため、実際には、タイトルを構成する各語を除去することによって、学習用コーパス32を生成すればよい。そして、学習用コーパス32を用いた機械学習により、文章用モデル22を生成することで、文章のパラグラフベクトルが得られるようにする。一のアカウントについて複数の文章が登録されている場合には、これらの複数の文章のパラグラフベクトルの代表値を算出して、そのアカウントに関連付ける。
対象語は、対象文章のタイトルとする。上述した方法と同様の方法で、語用モデル21から対象文章のタイトルのワードベクトルを得る。
次に、同一アカウントで作成された複数の文章の中で、一部の文章の作成者と、その他の文章の作成者とが異なるか否かを推定する方法の一例を説明する。例えば、何らかの条件又は方法で、対象とするアカウントを予め指定し、学習用コーパス31から、指定したアカウントで作成された文章のうち一の文章を対象文章として取得する。或いは、語用モデル21及び文章用モデル22の生成後に新たにシステムに登録された文章を対象文章として取得してもよい。語用モデル21により、対象文章のタイトルのワードベクトルと、指定されたアカウントに関連付けられたワードベクトルの代表値との類似度を算出する。また、文章用モデル22により、対象文章のパラグラフベクトルと、指定されたアカウントに関連付けられたパラグラフベクトルの代表値との類似度を算出する。そして、ワードベクトルの類似度、及びパラグラフベクトルの類似度に基づいて、対象文章の作成者と、他の文章の作成者とが同一人物であるか否かを推定する。例えば、ワードベクトルの類似度が所定の第1閾値以上であり、且つパラグラフの類似度が所定の第2閾値以上である場合に、同一人物であると推定し、そうではない場合は、同一人物ではないと推定してもよい。或いは、所定の関数の式にワードベクトルの類似度及びパラグラフの類似度を代入して関数を計算し、関数の値に基づいて、推定を行ってもよい。
次に、別々のアカウントのユーザが同一人物であるか否かを推定する方法の一例を説明する。例えば、何らかの条件又は方法で、対象とするアカウントを予め指定する。指定されたアカウントで作成された文章は、学習用コーパス31及び32に含まれているものとする。語用モデル21により、指定されたアカウントに関連付けられたワードベクトルの代表値と、他の各アカウントに関連付けられたワードベクトルの代表値との類似度を算出する。他のアカウントのうち、ワードベクトルの類似度が相対的に高いN1個のアカウントを候補として抽出する。また、文章用モデル22により、指定されたアカウントに関連付けられたパラグラフベクトルの代表値と、他の各アカウントに関連付けられたパラグラフベクトルの代表値との類似度を算出する。他のアカウントのうち、ワードベクトルの類似度が相対的に高いN2個のアカウントを候補として抽出する。そして、例えば、語用モデル21により抽出された候補と、文章用モデル22により抽出された候補のユーザの中から、指定されたアカウントのユーザとの同一性を推定する。例えば、ワードベクトルの類似度が所定の第1閾値以上であり、且つパラグラフの類似度が所定の第2閾値以上であるアカウントが存在する場合、そのアカウントのユーザと、指定されたアカウントのユーザが同一人物であると推定し、そのようなアカウントが存在しない場合は、指定されたアカウントのユーザと同一人物は存在しないと推定してもよい。或いは、所定の関数の式に、各アカウントについてのワードベクトルの類似度及びパラグラフの類似度を代入して関数を計算し、関数の値に基づいて、推定を行ってもよい。
以上説明したように、なりすましの投稿や、同一ユーザが複数のアカウントを取得しているか否かを推定することができる。
1 分類装置
11 システム制御部
12 システムバス
13 入出力インターフェース
14 記憶部
15 通信部
16 入力部
17 表示部
111 語用モデル生成部
112 文章用モデル生成部
113 分類器生成部
114 語用モデル制御部
115 文章用モデル制御部
116 出力制御部
2 分類器
21 語用モデル
22 文章用モデル
23 決定部
請求項2に記載の発明は、請求項1に記載の分類装置において、前記記憶手段は、前記第1モデルの生成に用いられるコーパスから前記1以上の第1語が除かれたコーパスを用いて生成された前記第2モデルを記憶することを特徴とする。
請求項8に記載の発明は、コンピュータにより実行される生成方法において、1以上の所定エンティティそれぞれに関係する1以上の第1文章を含むコーパスを用いた機械学習により、前記1以上の第1文章に含まれる語の特徴が得られる第1モデルを生成する第1生成ステップと、前記1以上の第1文章を含むコーパスを用いた機械学習により、前記1以上の第1文章の特徴が得られる第2モデルを生成する第2生成ステップと、前記1以上の所定エンティティのうち、所与の第2文章に含まれる、関連付け対象である第2語の関連付けを決定する決定部と、前記第1モデル及び前記第2モデルとを含む分類器を生成する第3生成ステップと、前記生成された分類器を記憶手段に記憶させる記憶ステップと、を含み、前記第1モデルは、前記第2語の入力に応じて、前記1以上の所定エンティティそれぞれを示す1以上の第1語のうち、前記第2語との間に特徴の類似性がある1以上の語それぞれにより示される1以上のエンティティを示す第1情報を出力し、前記第2モデルは、前記第2文章の入力に応じて、前記1以上の第1文章のうち、前記第2文章との間に特徴の類似性がある1以上の文章それぞれが関係する1以上のエンティティを示す第2情報を出力し、前記決定部は、前記出力された第1情報、及び前記出力された第2情報に基づいて、前記第2語の関連付けを決定し、前記分類器が前記記憶手段から読み出され、該読み出された分類器に含まれる前記第1モデル及び前記第2モデルが前記第1情報及び前記第2情報の出力のために用いられることを特徴とする。
請求項10に記載の発明は、コンピュータにより実行される生成プログラムにおいて、前記コンピュータを、1以上の所定エンティティそれぞれに関係する1以上の第1文章を含むコーパスを用いた機械学習により、前記1以上の第1文章に含まれる語の特徴が得られる第1モデルを生成する第1生成手段と、前記1以上の第1文章を含むコーパスを用いた機械学習により、前記1以上の第1文章の特徴が得られる第2モデルを生成する第2生成手段と、前記1以上の所定エンティティのうち、所与の第2文章に含まれる、関連付け対象である第2語の関連付けを決定する決定部と、前記第1モデル及び前記第2モデルとを含む分類器を生成する第3生成手段と、前記生成された分類器を記憶手段に記憶させる記憶制御手段と、として機能させ、前記第1モデルは、前記第2語の入力に応じて、前記1以上の所定エンティティそれぞれを示す1以上の第1語のうち、前記第2語との間に特徴の類似性がある1以上の語それぞれにより示される1以上のエンティティを示す第1情報を出力し、前記第2モデルは、前記第2文章の入力に応じて、前記1以上の第1文章のうち、前記第2文章との間に特徴の類似性がある1以上の文章それぞれが関係する1以上のエンティティを示す第2情報を出力し、前記決定部は、前記出力された第1情報、及び前記出力された第2情報に基づいて、前記第2語の関連付けを決定し、前記分類器が前記記憶手段から読み出され、該読み出された分類器に含まれる前記第1モデル及び前記第2モデルが前記第1情報及び前記第2情報の出力のために用いられることを特徴とする。

Claims (10)

  1. 1以上の所定エンティティそれぞれに関係する1以上の第1文章を含むコーパスを用いた機械学習により生成された第1モデルであって、前記1以上の第1文章に含まれる語の特徴が得られる第1モデルと、前記1以上の第1文章を含むコーパスを用いた機械学習により生成された第2モデルであって、前記1以上の第1文章の特徴が得られる第2モデルと、を記憶する記憶手段と、
    前記記憶された第1モデルにより、所与の第2文章に含まれる、関連付け対象である第2語の入力に応じて、前記1以上の所定エンティティそれぞれを示す1以上の第1語のうち、前記第2語との間に特徴の類似性がある1以上の語それぞれにより示される1以上のエンティティを示す第1情報を出力させる第1制御手段と、
    前記記憶された第2モデルにより、前記第2文章の入力に応じて、前記1以上の第1文章のうち、前記第2文章との間に特徴の類似性がある1以上の文章それぞれが関係する1以上のエンティティを示す第2情報を出力させる第2制御手段と、
    前記出力された第1情報、及び前記出力された第2情報に基づいて、前記第2語の関連付けを決定する決定手段と、
    を備えることを特徴とする分類装置。
  2. 請求項1に記載の分類装置において、
    前記第2制御手段は、前記第1モデルの生成に用いられるコーパスから前記1以上の第1語が除かれたコーパスを用いて生成された前記第2モデルにより、前記第2情報を出力させることを特徴とする分類装置。
  3. 請求項1に記載の分類装置において、
    前記第2モデルの生成に用いられるコーパスは、前記第1モデルの生成に用いられるコーパスと同一であり、
    前記第1制御手段は、前記第1モデル及び前記第2モデルに相当するモデルとして生成された、前記1以上の第1文章に含まれる語の特徴、及び前記1以上の第1文章の特徴の両方が得られる一のモデルにより、前記第1情報を出力させ、
    前記第2制御手段は、前記一のモデルにより、前記第2情報を出力させることを特徴とする分類装置。
  4. 請求項1乃至3の何れか1項に記載の分類装置において、
    前記第2制御手段は、前記第1モデルから出力された前記第1情報により示されるエンティティに関する第1文書のうち、前記第2文章との間における特徴の類似度が相対的に高い文章が関係するエンティティ示す前記第2情報を前記第2モデルにより出力させ、
    前記決定手段は、前記第2情報に基づいて、前記第2語の関連付けを決定することを特徴とする分類装置。
  5. 請求項1乃至4の何れか1項に記載の分類装置において、
    前記第1モデルから、前記1以上の第1文章に含まれる語の特徴が単語単位で得られ、前記第1モデルは、前記第2語が複数の単語で構成される場合、該複数の単語それぞれの特徴に対する所定演算により前記第2語の特徴を算出することを特徴とする分類装置。
  6. 請求項1乃至5の何れか1項に記載の分類装置において、
    前記第2モデルは、前記第2情報を出力するとき、前記第2文章を用いた機械学習により、該第2文章の特徴を取得することを特徴とする分類装置。
  7. コンピュータにより実行される分類方法において、
    1以上の所定エンティティそれぞれに関係する1以上の第1文章を含むコーパスを用いた機械学習により生成された第1モデルであって、前記1以上の第1文章に含まれる語の特徴が得られる第1モデルを、記憶手段に記憶させる第1記憶ステップと、
    前記1以上の第1文章を含むコーパスを用いた機械学習により生成された第2モデルであって、前記1以上の第1文章の特徴が得られる第2モデルを、前記記憶手段に記憶させる第2記憶ステップと、
    前記記憶された第1モデルにより、所与の第2文章に含まれる、関連付け対象である第2語の入力に応じて、前記1以上の所定エンティティそれぞれを示す1以上の第1語のうち、前記第2語との間に特徴の類似性がある1以上の語それぞれにより示される1以上のエンティティを示す第1情報を出力させる第1制御ステップと、
    前記記憶された第2モデルにより、前記第2文章の入力に応じて、前記1以上の第1文章のうち、前記第2文章との間に特徴の類似性がある1以上の文章それぞれが関係する1以上のエンティティを示す第2情報を出力させる第2制御ステップと、
    前記出力された第1情報、及び前記出力された第2情報に基づいて、前記第2語の関連付けを決定する決定ステップと、
    を含むことを特徴とする分類方法。
  8. コンピュータにより実行される生成方法において、
    1以上の所定エンティティそれぞれに関係する1以上の第1文章を含むコーパスを用いた機械学習により、前記1以上の第1文章に含まれる語の特徴が得られる第1モデルを生成する第1生成ステップと、
    前記1以上の第1文章を含むコーパスを用いた機械学習により、前記1以上の第1文章の特徴が得られる第2モデルを生成する第2生成ステップと、
    前記1以上の所定エンティティのうち、所与の第2文章に含まれる、関連付け対象である第2語の関連付けを決定する決定部と、前記第1モデル及び前記第2モデルとを含む分類器を生成する第3生成ステップと、
    を含み、
    前記第1モデルは、前記第2語の入力に応じて、前記1以上の所定エンティティそれぞれを示す1以上の第1語のうち、前記第2語との間に特徴の類似性がある1以上の語それぞれにより示される1以上のエンティティを示す第1情報を出力し、
    前記第2モデルは、前記第2文章の入力に応じて、前記1以上の第1文章のうち、前記第2文章との間に特徴の類似性がある1以上の文章それぞれが関係する1以上のエンティティを示す第2情報を出力し、
    前記決定部は、前記出力された第1情報、及び前記出力された第2情報に基づいて、前記第2語の関連付けを決定することを特徴とする生成方法。
  9. コンピュータにより実行される分類プログラムにおいて、
    前記コンピュータは、
    1以上の所定エンティティそれぞれに関係する1以上の第1文章を含むコーパスを用いた機械学習により生成された第1モデルであって、前記1以上の第1文章に含まれる語の特徴が得られる第1モデルと、前記1以上の第1文章を含むコーパスを用いた機械学習により生成された第2モデルであって、前記1以上の第1文章の特徴が得られる第2モデルと、を記憶する記憶手段を備え、
    前記コンピュータを、
    前記記憶された第1モデルにより、所与の第2文章に含まれる、関連付け対象である第2語の入力に応じて、前記1以上の所定エンティティそれぞれを示す1以上の第1語のうち、前記第2語との間に特徴の類似性がある1以上の語それぞれにより示される1以上のエンティティを示す第1情報を出力させる第1制御手段と、
    前記記憶された第2モデルにより、前記第2文章の入力に応じて、前記1以上の第1文章のうち、前記第2文章との間に特徴の類似性がある1以上の文章それぞれが関係する1以上のエンティティを示す第2情報を出力させる第2制御手段と、
    前記出力された第1情報、及び前記出力された第2情報に基づいて、前記第2語の関連付けを決定する決定手段と、
    として機能させることを特徴とする分類プログラム。
  10. コンピュータにより実行される生成プログラムにおいて、
    前記コンピュータを、
    1以上の所定エンティティそれぞれに関係する1以上の第1文章を含むコーパスを用いた機械学習により、前記1以上の第1文章に含まれる語の特徴が得られる第1モデルを生成する第1生成手段と、
    前記1以上の第1文章を含むコーパスを用いた機械学習により、前記1以上の第1文章の特徴が得られる第2モデルを生成する第2生成手段と、
    前記1以上の所定エンティティのうち、所与の第2文章に含まれる、関連付け対象である第2語の関連付けを決定する決定部と、前記第1モデル及び前記第2モデルとを含む分類器を生成する第3生成手段と、
    として機能させ、
    前記第1モデルは、前記第2語の入力に応じて、前記1以上の所定エンティティそれぞれを示す1以上の第1語のうち、前記第2語との間に特徴の類似性がある1以上の語それぞれにより示される1以上のエンティティを示す第1情報を出力し、
    前記第2モデルは、前記第2文章の入力に応じて、前記1以上の第1文章のうち、前記第2文章との間に特徴の類似性がある1以上の文章それぞれが関係する1以上のエンティティを示す第2情報を出力し、
    前記決定部は、前記出力された第1情報、及び前記出力された第2情報に基づいて、前記第2語の関連付けを決定することを特徴とする生成プログラム。
JP2018545404A 2018-05-21 2018-05-21 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム Active JP6462970B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/019554 WO2019224891A1 (ja) 2018-05-21 2018-05-21 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム

Publications (2)

Publication Number Publication Date
JP6462970B1 JP6462970B1 (ja) 2019-01-30
JPWO2019224891A1 true JPWO2019224891A1 (ja) 2020-05-28

Family

ID=65228959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018545404A Active JP6462970B1 (ja) 2018-05-21 2018-05-21 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム

Country Status (3)

Country Link
US (1) US11379536B2 (ja)
JP (1) JP6462970B1 (ja)
WO (1) WO2019224891A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11663405B2 (en) * 2018-12-13 2023-05-30 Microsoft Technology Licensing, Llc Machine learning applications for temporally-related events
EP3906538A4 (en) * 2019-01-03 2022-10-19 Lucomm Technologies, Inc. ROBOTIC DEVICES
JP6913706B2 (ja) * 2019-04-19 2021-08-04 株式会社サイトビジット 試験問題予測システム及び試験問題予測方法
CN110134965B (zh) * 2019-05-21 2023-08-18 北京百度网讯科技有限公司 用于信息处理的方法、装置、设备和计算机可读存储介质
US11386366B2 (en) * 2019-09-27 2022-07-12 Oracle International Corporation Method and system for cold start candidate recommendation
JP2021060800A (ja) * 2019-10-07 2021-04-15 株式会社日立製作所 データ抽出方法、及びデータ抽出装置
CN111428507B (zh) 2020-06-09 2020-09-11 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8000956B2 (en) * 2008-02-08 2011-08-16 Xerox Corporation Semantic compatibility checking for automatic correction and discovery of named entities
US10740560B2 (en) * 2017-06-30 2020-08-11 Elsevier, Inc. Systems and methods for extracting funder information from text
WO2019027259A1 (en) * 2017-08-01 2019-02-07 Samsung Electronics Co., Ltd. APPARATUS AND METHOD FOR PROVIDING SUMMARY INFORMATION USING ARTIFICIAL INTELLIGENCE MODEL
US10754795B2 (en) * 2018-11-26 2020-08-25 Qualcomm Incorporated MMU assisted address sanitizer

Also Published As

Publication number Publication date
US11379536B2 (en) 2022-07-05
JP6462970B1 (ja) 2019-01-30
US20210334309A1 (en) 2021-10-28
WO2019224891A1 (ja) 2019-11-28

Similar Documents

Publication Publication Date Title
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
JP5469244B2 (ja) 選択的なコンテンツ抽出
US9483460B2 (en) Automated formation of specialized dictionaries
US8819028B2 (en) System and method for web content extraction
US8868609B2 (en) Tagging method and apparatus based on structured data set
US10922346B2 (en) Generating a summary based on readability
US10698876B2 (en) Distinguish phrases in displayed content
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
US8290925B1 (en) Locating product references in content pages
JP6130315B2 (ja) ファイル変換方法及びシステム
Zhang et al. Annotating needles in the haystack without looking: Product information extraction from emails
CN112805715A (zh) 识别实体属性关系
US11520835B2 (en) Learning system, learning method, and program
US20190303437A1 (en) Status reporting with natural language processing risk assessment
JP5462546B2 (ja) コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム
JP5331023B2 (ja) 重要語抽出装置、重要語抽出方法及び重要語抽出プログラム
JP5085584B2 (ja) 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム
US20210073258A1 (en) Information processing apparatus and non-transitory computer readable medium
JP5419906B2 (ja) 主題抽出装置、方法、及びプログラム
JP4550939B1 (ja) 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム
JP2004334690A (ja) 文字データ入出力装置、文字データ入出力方法、文字データ入出力プログラム、およびコンピュータ読み取り可能な記録媒体
Thottempudi A visual narrative of ramayana using extractive summarization topic modeling and named entity recognition
Zhang et al. Distant supervision for Chinese temporal tagging
JP2018073199A (ja) 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム
JP2024034877A (ja) 入力データ作成支援装置、及び入力データ作成支援方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180828

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180828

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181227

R150 Certificate of patent or registration of utility model

Ref document number: 6462970

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250