JPWO2015125209A1 - 情報構造化システム及び情報構造化方法 - Google Patents
情報構造化システム及び情報構造化方法 Download PDFInfo
- Publication number
- JPWO2015125209A1 JPWO2015125209A1 JP2016503804A JP2016503804A JPWO2015125209A1 JP WO2015125209 A1 JPWO2015125209 A1 JP WO2015125209A1 JP 2016503804 A JP2016503804 A JP 2016503804A JP 2016503804 A JP2016503804 A JP 2016503804A JP WO2015125209 A1 JPWO2015125209 A1 JP WO2015125209A1
- Authority
- JP
- Japan
- Prior art keywords
- node
- candidate
- relationship
- relay node
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 34
- 230000001629 suppression Effects 0.000 claims abstract description 16
- 230000002123 temporal effect Effects 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 description 19
- 238000012545 processing Methods 0.000 description 17
- 238000000605 extraction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 241001620634 Roger Species 0.000 description 3
- 238000011157 data evaluation Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 244000000231 Sesamum indicum Species 0.000 description 1
- 235000003434 Sesamum indicum Nutrition 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012314 multivariate regression analysis Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
文書の構造を解析する情報構造化システムであって、文書から名詞を抽出し、前記抽出された名詞と前記データベースに格納されたノードとを対応付けることによって、前記抽出された名詞にノードを対応付ける抽出部と、前記抽出された名詞に複数のノードの候補が対応付けられる場合、識別情報が特定された名詞と前記ノードの候補とを繋ぐ中継ノードを探す候補列挙部と、前記探された中継ノードと前記識別情報が特定された名詞との第1の関係性及び前記探された中継ノードと前記ノードの候補との第2の関係性を計算する計算部と、前記第1の関係性が大きく、かつ、前記第2の関係性が小さくなる中継ノードを決定する抑制部と、前記決定された中継ノードと関連付けられたノードの候補を用いて、前記抽出された名詞に対応するノードを決定する決定部と、を有する。
Description
本発明は、計算機を利用した自然言語文書の情報構造化システムに関する。
最近、大量の電子データ(ビッグデータ)が利用されている。これは、Apache Hadoopなどのオープンソースソフトウェアの登場により、一般的なPCサーバを用いて分散並列計算をする技術が普及したためである。これにより、大量のデータを短時間で処理するために必要な計算機資源などのコストが、大幅に引き下げられた。
ビッグデータにおけるデータの処理は、大量の数値データの集計処理や、計算機が、ユーザに有用なパターンを電子文書データから自動的に抽出する処理も行われている。
文書データの中でも、人名や組織名などの固有表現は、文書の内容と現実世界とを橋渡しする観点から重要性が高い。固有表現抽出技術によって、自然言語から人名、組織名、地名などの情報を自動的に抽出することができる。
以下、本明細書では、固有表現が指し示す現実世界における実体をエンティティと称する。エンティティを指し示す文字列をエンティティの表記もしくは固有表現と称する。
また、その一方で、現実世界の情報を電子データの形式で纏めた情報として、Wikipediaなどがある。これらの情報源を用いて知識グラフを作成する動きが見られる。代表的な知識グラフとしてDBPedia、YAGO、BabelNetなどが知られている。
これらの知識グラフは、RDF(Resource Description Framework)によって記述されており、エンティティ間の関係性を表現している。エンティティをノード、関係性をエッジと見ると、エンティティ間の関係性をグラフとして捉えることができる。このグラフが知識グラフである。
知識グラフを名寄せ先として選ぶことによって、多目的に利用可能な名寄せ(エンティティ同定)が期待できる。
この技術分野の背景技術として特開2004−185515号公報(特許文献1)及び特開2011−191982号公報(特許文献2)がある。
特許文献1には、テキストデータを構成する単語情報を入力する手段を有する単語情報入力部と、前記テキストデータに含まれる任意のテキストデータ対について、該テキストデータ対を構成する単語情報を用いて方向性を有する関連度を算出する手段と、算出した値を要素値とする正方行列を生成する手段を有するテキストデータ関連度行列算出部と、算出したテキストデータ関連度行列に対し固有値分解を施し、固有値と固有ベクトルとを算出する手段を有する固有値分解部と、算出した最大固有値の固有ベクトルをもとに各テキストデータの評価値を算出する手段を有するテキストデータ評価値算出部と、算出したテキストデータ評価値を出力する手段を有するテキストデータ評価値出力部とを有するテキストデータ評価装置が開示されている。
また、特許文献2には、店舗名候補抽出部により、処理済み入力文章から店舗名リスト中の店舗名とその表記が一致する単語を抽出し、その単語の表記とともに処理済み入力文章中での位置情報等を店舗名候補とし、店舗名判定部により、店舗名候補に対し、店舗らしさDBを用いて店舗名か否かを判定し、店舗名と判定された店舗名候補のみを判定済み店舗名とし、曖昧性解消部により、判定済み店舗名に対し、店舗DB及び特徴語DBを用いて店舗DB中のどのレコードに対応するかを、前記処理済み入力文章中の当該判定済み店舗名の近傍に出現する店舗DB中の店舗属性値に対応する制約語もしくは特徴語から判断し、店舗DBの対応するレコードの少なくともレコードIDを当該店舗名とともに出力する店舗名曖昧性解消装置が開示されている。
エンティティ同定に、大規模な知識グラフを用いない場合、文書の背景にある共通点を把握することができず、同定結果に一貫性の問題が生じる場合がある。一方で、一般の知識グラフは、多目的用途で作られており、エンティティ同定に特化したものではない。そのため、エンティティ同定に適した情報を取捨選択する方法が必要である。このため、前述した公知技術では、エンティティ同定の一貫性の向上に知識グラフ内の背景知識を用いることはできない。
このため、知識グラフのリンク構造や、構造のルール定義を含めて文書を解析することが求められている。
本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、文書の構造を解析する情報構造化システムであって、プログラムを実行するプロセッサ、及び前記プロセッサによって実行されるプログラムを格納するメモリを有し、識別情報が付与された名詞であるノードを格納するデータベースと、文書から名詞を抽出し、前記抽出された名詞と前記データベースに格納されたノードとを対応付けることによって、前記抽出された名詞にノードを対応付ける抽出部と、前記抽出された名詞に複数のノードの候補が対応付けられる場合、識別情報が特定された名詞と前記ノードの候補とを繋ぐ中継ノードを探す候補列挙部と、前記探された中継ノードと前記識別情報が特定された名詞との第1の関係性及び前記探された中継ノードと前記ノードの候補との第2の関係性を計算する計算部と、前記第1の関係性が大きく、かつ、前記第2の関係性が小さくなる中継ノードを決定する抑制部と、前記決定された中継ノードと関連付けられたノードの候補を用いて、前記抽出された名詞に対応するノードを決定する決定部と、を有する。
本発明の代表的な実施の形態によれば、一般的な知識グラフからエンティティ同定に有効な部分構造を抽出することができ、適切な候補ノードを絞り込むことで一貫した同定に利用できる。また、一般的な知識グラフは多目的用途に作られているため、同定結果の適用先が広い。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
以下、本発明の一実施形態を添付図面を用いて説明する。
以下の実施の形態において、要素の数等に言及する場合、特に指定された場合および原理的に明らかに特定される場合を除き、その特定の数に限定されることはなく、特定の数以上でも以下でもよい。
さらに、以下の実施の形態において、その構成要素は、特に指定された場合および原理的に明らかに必要とされる場合を除き、必ずしも必須ではないことは明らかである。また、同様に以下の実施の形態において、構成要素の形状や位置関係について言及するときは、特に明示する場合や原理的に明らかにそうでないと考えられる場合を除き、実質的にその形状等に近似または類似するものを含むものとする。このことは上記数値および範囲に関しても同様である。
<第1実施例>
図1は、本発明の実施例の情報構造化システムを構成する計算機100のブロック図である。
図1は、本発明の実施例の情報構造化システムを構成する計算機100のブロック図である。
本実施例の情報構造化システムを構成する計算機100は、図1に示すような汎用計算機であり、具体的にはPCサーバで構成することができる。計算機100は、中央演算装置(CPU:Central Processing Unit)110、メモリ120、ローカルファイルシステム130、入力装置140、出力装置150、ネットワークデバイス160及びバス170を有する。
中央演算装置110は、メモリ120に格納されたプログラムを実行する。メモリ120は、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶素子であり、中央演算装置110によって実行されるプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。
ローカルファイルシステム130は、計算機100に内蔵された書き換え可能な記憶領域であり、例えば、磁気記憶装置(HDD)、フラッシュメモリ(SSD)、RAMディスク等の大容量かつ不揮発性の記憶装置で構成される。ローカルファイルシステムが構成される記憶装置は、計算機100に外部から接続された記憶装置でもよい。
記憶装置は、ローカルファイルシステム130の他、中央演算装置110が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。記憶装置に格納されるデータとして、以下に説明する大域関係スコア表265、文献データベース220、アノテーションデータベース225及び知識グラフデータベース230がある。また、以下に説明する各部を実装するためのプログラムは、記憶装置から読み出されて、メモリ120にロードされて、中央演算装置110によって実行される。
入力装置140は、キーボード及びマウスなど、ユーザからの入力を受けるインターフェースである。出力装置150は、ディスプレイ装置及びプリンタなど、プログラムの実行結果をユーザが視認可能な形式で出力するインターフェースである。なお、ネットワークを介して接続された端末によって計算機100を遠隔操作する場合、計算機100が入力装置140及び出力装置150を有しなくてもよい。
ネットワークデバイス160は、所定のプロトコルに従って、他の装置との通信を制御するネットワークインターフェース装置である。バス170は、各デバイス110〜160を接続する。
中央演算装置110が実行するプログラムは、リムーバブルメディア(CD−ROM、フラッシュメモリなど)又はネットワークを介して計算機に提供され、非一時的記憶媒体である記憶装置に格納される。このため、計算機は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。
本実施例の情報構造化システムは、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。
図2は、本実施例の情報構造化システムを構成する計算機100の論理的なブロック図である。
計算機100は、初期化部235、エンティティ抽出部240、同定候補列挙部245、大域関係スコア計算部250、ハブ抑制部255、同定スコア計算部260、大域関係スコア表265及びID決定部270を有する。
初期化部235は、本実施例の情報構造化システムの各部を初期化する。エンティティ抽出部240は、文書からエンティティを抽出し、抽出したエンティティにアノテーションを付与する。大域関係スコア計算部250は、知識グラフデータベース230中のエンティティが同定に寄与するかによってスコア付けをする。同定候補列挙部245は、エンティティに対応する知識グラフ中のエンティティを列挙する。ハブ抑制部255は、大域関係スコア表265を用いて、関係グラフに利用する知識グラフの情報を選択する。同定スコア計算部260は、同定の尤度を表すスコアを計算する。
大域関係スコア表265は、知識グラフ中のエンティティをスコア化した結果を保持する。大域関係スコア表265は、具体的には、中継ノードとなるエンティティに繋がっている他のエンティティの数を記録する。例えば、中継ノード「Person」に対しては、世界中の人が繋がっているので、その大域関係スコアは世界人口(約70億)である。また、中継ノード「NN党」の大域関係スコアは、NN党の党員数である。このとき、中継ノード「Person」と、中継ノード「NN党」とを比較すると、中継ノード「Person」の方がハブとしての一般性が高い。このため、本実施例では、大域関係スコア表265は、ハブ抑制255部が、一般性が低い中継ノードをハブとして選ぶために用いられる。
ID決定部270は、同定スコアに基づいて、エンティティの識別子を一意に決定する。
なお、本願発明において、エンティティとは、ある固有名詞の任意表現が指し示す実体を意味する。例えば、「日立」や「Hitachi」は、地名としての「日立市」や、会社としての「株式会社日立製作所」を意味する場合がある。この場合、「日立」や「Hitachi」が任意表現であり、「日立市」や「株式会社日立製作所」が、実体としてのエンティティである。また、同姓同名の人は、表記が同じでも実際は異なるエンティティである。
なお、同定候補列挙部245が有する時間情報認識部246、地理情報認識部247、学習部271は、各々、第2実施例、第3実施例、第4実施例で必要な構成で、第1実施例では不要である。
計算機100は、LAN210を介して、文献データベース220、アノテーションデータベース225及び知識グラフデータベース230と接続されている。
文献データベース220は、処理すべき文献を格納するデータベースである。文献データベース220の構成は、図3Aを用いて後述する。アノテーションデータベース225は、文献に付与されるアノテーションを管理するデータベースである。アノテーションデータベース225の構成は、図3Bを用いて後述する。知識グラフデータベース230は、エンティティに付帯する情報を管理する。知識グラフデータベース230の構成は、図3Cを用いて後述する。
各データベースは、計算機上で動作する既存のデータ管理ソフトウェアを利用することができる。
図3Aは、文献データベース220の構成を説明する図である。文献データベース220は、文献を管理するデータベースであり、具体的には、文献を識別するための識別子(文献ID)、及び文献の内容を管理する。文献の内容は、文献のテキスト(文字情報)である。文献データベース220は、具体的には、RDB(Relational Database)、全文検索エンジン、連想検索エンジンなどを用いることができる。
図3Bは、アノテーションデータベース225の構成を説明する図である。アノテーションデータベース225は、文献に付与されるアノテーションを管理するデータベースであり、具体的には、ラベルを識別するための識別子(ラベルID)、ラベルが付与された文献を識別するための識別子(文献ID)、及びアノテーションを管理する。アノテーションは、ラベルの位置情報(例えば、開始文字位置、終了文字位置)及び、ラベルの同定結果情報(例えば、知識グラフデータベース中のエンティティID)を含む。アノテーションデータベース225は、具体的には、RDBやKVS(Key−Value Store)を用いることができる。
図3Cは、知識グラフデータベース230の構成を説明する図である。知識グラフデータベース230は、エンティティに付帯する情報を管理するデータベースである。エンティティに付帯する情報は、名前、呼称のようにエンティティ自体が持つ属性情報、及び、「長野県は日本国の位置行政区域である」というような、エンティティ間の関係性の情報を含む。知識グラフデータベース230に格納されるデータは、具体的には、RDFで記述される。知識グラフデータベースは、具体的には、RDFストア(Apache Jena、Sesameなど)のデータストアを利用することができる。
図4は、本実施例の情報構造化システムを構成する計算機100の機能ブロック図であり、図5は、本実施例の情報構造化システムによる情報抽出処理のフローチャートである。
まず、初期化部235は、本実施例の情報構造化システムの各部を起動し、各データベースと接続して、処理の準備をする。そして、文献データベース220から同定対象の文書を取得する(ステップ400)。その後、初期化部235は、大域関係スコア計算部250を起動する。
大域関係スコア計算部250は、知識グラフデータベース230から知識グラフ中のエンティティを取得し、同定に寄与するかによって取得したエンティティをスコア付けし、スコア付けの結果を大域関係スコア表265に格納する(ステップ410)。なお、大域関係スコアは、エンティティの一般性を表し、値が大きいほど同定に寄与する(一般性が低い)ように定義する。
例えば、大域関係スコアとして、そのエンティティが持つリンクの数の逆数を用いることができる。エンティティが人であるという情報は、人と人とを識別する場合には何の意味を持たない。多くのエンティティが共通して持っている関係は、同定の際の重要性は低い。このため、リンク数の逆数を大域関係スコアとして用いることが有効である。また、文書における逆文書頻度IDF(Inverse Document Frequency)のように、log(エンティティ数 / リンク数)を大域関係スコアとして用いることもできる。
次に、エンティティ抽出部240は、文献データベース220から文書を取得し、取得した文書に含まれるエンティティを抽出し、抽出されたエンティティにアノテーションを付与し、付与したアノテーションをアノテーションデータベース225に格納する(ステップ420)。
エンティティにアノテーションを付与するために、前述した固有表現抽出技術を用いることができる。固有表現抽出技術は、人名、組織名などの固有表現を所定のルールに基づいて自動的に抽出する技術である。この技術を用いることによって、文書中の固有表現に相当する箇所に「人名」や「組織名」などの固有表現の種類を表すアノテーションを付与することができる。
また、機械学習による固有表現抽出技術を用いてもよい。この技術は、タグ付きコーパスと称される正解データに基づいて、固有表現が文書中で出現する際のパターンを、計算機に学習させ、学習されたパターン(ルール)を用いて、固有表現を抽出する。
しかし、この段階では、文書から抽出されたエンティティが複数の同定候補を有するなど、正しく同定されていない場合がある。このため、本実施例では、抽出されたエンティティの確からしい同定先(すなわち、エンティティのID)を決定する。
図6はエンティティが抽出された文書の例を示す。図6に例示する文書600は、テニスの試合の結果を記述したものである。文書600中の太字かつ下線が付されている部分が、エンティティの表記と判断され抽出された箇所であり、抽出された箇所の各々にアノテーションが付与される。
次に、同定候補列挙部245が起動される。同定候補列挙部245は、文書から抽出されたエンティティに対応する同定候補を知識グラフデータベース230から抽出して、列挙する(ステップ430)。同定候補のエンティティを列挙するために、公知の同定候補列挙技術を用いることができる。例えば、最も単純な方法では、アノテーションに含まれる固有表現の文字列と、知識グラフデータベース中のエンティティの表記との間の類似度を計算し、類似度の大きなものを同定候補として選択することができる。
前述した同定候補列挙技術の拡張として、シソーラス(類義語辞書)を用いて固有表現に代替の読みを追加し、追加された固有表現の読みとエンティティの表記との類似度を計算し、類似度の大きなものを同定候補として選択してもよい。
さらに、アノテーションデータベース225を参照することによって、エンティティが登場する文献を抽出し、現在処理中の文書との文書間距離を計算し、計算された距離が近いものから順に同定候補として選択してもよい。
図7は列挙された同定候補の例を示す。同定候補列挙部245は、エンティティの表記と知識グラフのエントリとを照合した結果、「山田XX」、「東京オープン」、「Roger YY」、「GG社カップ」、「佐藤ZZ」は、一意に同定先が決定された。一方、「田中AA」は、政治家である「Tanaka#AA#(politician)」と、テニスプレーヤーである「Tanaka#AA#(tennis)」の二名が候補となり、同定候補列挙部245によっては同定先が一意に決定できなかった。
図8A、図8Bは同定候補の属性情報の例を示す。なおこの属性情報は、知識グラフから得られるものであり、図6の文書から得られたものではない。
図8Aは、Tanaka#AA#(politician)のエンティティの属性情報800を示す。政治家である田中AAは、人であり、NN党に所属し、MM県出身であるという情報が記述されている。
図8Bは、Tanaka#AA#(tennis)のエンティティの属性情報810を示す。Tanaka#AA#(tennis)は、人であり、US#Open#(tennis)及びFF#Cup#(tennis)というイベントに参加したという情報が記述されている。
同定候補が選択された後、同定スコア計算部260が起動される。同定スコア計算部260は、同定の確からしさを表す同定スコアを計算する。同定スコアは、文中に含まれる固有表現から候補を一つずつ取り出した組に対して計算される。例では(Yamada#XX, Tokyo#Open#(tennis), Roger#YY, GG#CUP#(tennis), Sato#ZZ, Tanaka#AA#(politician))という組と(Yamada#XX, Tokyo#Open#(tennis), Roger#YY, GG#CUP#(tennis), Sato#ZZ, Tanaka#AA#(tennis))という組がある。同定スコアは、値が大きいほど、同定が尤もらしいことを表す。
具体的には、同定スコア計算部260は、列挙された同定先の候補を取得し、ハブ抑制部255を起動する。ハブ抑制部255は、大域関係スコア表265を用いて、大域関係スコアを求め、同定先の候補の組をもとに局所関係スコアを求め、関係グラフに利用する知識グラフに表される有用な関係を選択する(ステップ440)。例えば、ハブ抑制部255は、大域関係スコアと局所関係スコアを合わせて関係スコアを求め、関係スコアが大きい中継ノードの候補から順に選択して、逐次的に中継ノードの候補を選ぶことができる。このとき、ノード間で経由する中継ノード数が多いほど、関係は薄くなり、中継ノード数は増加することから、経由数には上限を定めることができる。また、全ての中継ノードに関係スコアを付与してもよい。この場合、同定スコア計算部260は、同定候補ノードと中継ノードとそれらをつなぐエッジからなる部分グラフを作り、そのエッジに関係スコアを重みとして参照しながら、後述する方法で部分同定スコアの総和をとり、同定スコアを計算する。
その後、同定スコア計算部260は、ハブ抑制部255が選択した有用な関係を用いて、同定先の候補の組の尤度を計算する(ステップ450)。同定スコアの計算方法の具体例は、図11を用いて後述する。なお、本実施例においては、ハブ抑制部255が中継に利用可能なノードを制限する。
同定スコア計算部260による処理は、例えば全ての同定先の候補の組の組み合わせを計算すると終了する。また、同定先の候補の組が持つ同定スコアがある閾値を下回った場合に処理を終了してもよい。
同定スコア計算部260による処理が終了した後、ID決定部270が起動される。ID決定部270は、同定スコアに基づいて、エンティティの識別子を一意に決定する(ステップ460)。例えば、ID決定部270は、同定スコアが最大となる候補を選択してもよい。
エンティティの識別子が決定した後、関係グラフを出力する(ステップ470)。
図9、図10は、本実施例の情報構造化システムによって作成される関係グラフであり、同定先が決定していない状態を示す。
図9では、US#Open#(tennis)への参加という条件(図8Bの2行目)が中継ノードとして選択された場合のエンティティの関係を示す。US#Open#(tennis)は、Tanaka AA#(tennis)、Yamada#XX及びRoger#YYと接続する。これらの者は、USオープンテニス大会に出場したなど、何らかの関係がある者である。このように中継ノードとしてUS#Open#(tennis)を選択することによって、Tanaka#AA#(tennis)とTanaka#AA#(politician)とを分離することができる。
図10では、Personという属性(図8Bの1行目)が中継ノードとして選択された場合のエンティティの関係を示す。Personは、全ての人物が持つ属性であるため、全ての人物のエンティティが接続される。これでは、二つの候補であるTanaka#AA#(tennis)とTanaka#AA#(politician)とを弁別することはできない。これは、各エンティティ間の最短経路を求める場合に起こりうる状況である。このため、本発明では、ハブ抑制部255が、関係スコアに基づいて中継ノードを選別する。
本実施例では、同じ文章に登場する用語は、多くの場合、似ている意味の繋がりを有する特性を利用して、同じ文書に登場する用語と多く繋がっており、区別すべき用語が区別できる中継ノードを選択する。そして、前述したような実施例の構成を採用することによって、以下の二つの機能を発揮し、効果を奏することができる。
(1)外部で作成された一般的な大規模な知識グラフを用いてエンティティ同定ができるため、同定結果を多目的に利用することができる。
(2)同定結果の一貫性を向上させることができる。
(1)外部で作成された一般的な大規模な知識グラフを用いてエンティティ同定ができるため、同定結果を多目的に利用することができる。
(2)同定結果の一貫性を向上させることができる。
図11は、本実施例の情報構造化システムによる同定スコア計算処理のフローチャートである。同定スコア計算処理は、同定スコア計算部260及びハブ抑制部255によって実行される。
まず、選択された同定候補のうち、一意に決定された同定候補と、複数の候補がある同定候補とを分離する(1100)。次に、複数の同定候補を持つエンティティを列挙する(1110)。各同定候補についてエンティティのプロパティを列挙する(1120)。エンティティのプロパティとしては、図8A、図8Bに示すような、属性の種類と値の組を用いることができる。
その後、大域関係スコア表265を参照して、各プロパティの大域関係スコアを求める(1130)。このプロパティが中継ノードの候補となる。次に、中継ノードの候補となるプロパティ及び大域関係スコアをハブ抑制部255に送る(1140)。
ハブ抑制部255は、局所関係スコアを計算し(1145)、局所関係スコアと、大域関係スコアとを用いて関係スコアを計算する。具体的には、局所関係スコアと大域関係スコアの重み付き和を取る、もしくは、局所関係スコアと大域関係スコアの積をとるなど、両方のスコアが大きい方が関係スコアも大きくなるように二つのスコアを統合する。この関係スコアを用いて、中継ノードを選択し、同定スコア計算部260に送る(1150)。具体的には、関係スコアが大きい順に中継ノードを選択することができる。
このため、図12に示す数式(1)を用いて局所関係スコアを計算する。すなわち、局所関係スコアは、IDが既に決定されているノードとの接続スコア(Sdi)の和と、同定候補となっているノードとの接続スコア(Scj)の符号を反転させた値の和を用いて計算することができる。ここで、Scjの符号を反転させるのは、Scjが小さいほど、局所関係スコアが大きくなるようにするためである。そのため、Scjの符号を反転させた値の代わりに、Scjの逆数を利用したり、log(同定候補ノード数/Scj)の値を利用してもよい。数式(1)において、wは重み係数であり、0以上1以下の値である。wに小さい値を採用することによって、同定候補を区別する能力が向上する。
ここで、接続スコアはノードとノードが少ない経由数で、かつ重みの大きなエッジを介して接続されていると大きな値をとるスコアである。例えば、接続スコアはk回経由するノード間の場合、経由係数をg(0<g≦1)、経由数n(1≦n≦k)のときの重みをαnとしたとき、Σ#n (g)^n * αnのように定められる。ここで、重みαnは具体的には定数、大域関係スコア、同定候補となっているノードとの接続数の逆数、log(同定候補ノード数/同定候補となっているノードとの接続数)などを用いることができる。
その後、同定スコア計算部260は、中継ノードを経由する決定済みノードとの距離及び同定候補(他の未決定ノード)の各組について部分同定スコアを計算し、それらを合計することで同定スコアを計算する(1160)。部分同定スコアとは、具体的には、ある組に属する二つのノード間の経路が、関係スコアで重みづけされているグラフを考え、ノード間の経路を関係スコアで加算しながら辿り、その総和を部分同定スコアとする。ここで、関係スコアの合計を取る際に加算を使うことは例であり、乗算と総乗などの演算で置き換えることもできる。また、ノード間の流量を求めることによって、同定スコアを計算してもよい。流量は大きいほど関係が深いことを意味し、例えば、流量の総和や最大値を同定スコアとして利用できる。
このように同定スコアを決めることによって、同定スコアが大きい方が、同定が確からしいといえる。
同定スコアを、各ノード間で順に計算していく際に、部分的な同定スコアが小さいものは以後の計算を取りやめ、計算する候補数を制限することもできる。具体的には、部分的な同定スコアによる順位に閾値を設ける、部分的な同定スコアに閾値を設けるなどの手段により制限する。
その後、終了条件を満たすかを判定する(1170)。例えば、全ての同定候補の組についての計算が終了した場合に終了と判定することができる。また、同定スコアが所定の閾値より大きくなった場合に終了と判定してもよい。この場合、所定の閾値には、区別すべき対象が確実に区別できる値を採用する。
図12に、閾値を用いた局所関係スコアの判定の概念を示す。決定済みノードとの距離Sdjを横軸にとり、同定候補となっているノードとの距離Scjを縦軸にとった2次元空間において、判定閾値は図示したように右上がりの直線で表すことができる。そして、右下が同定に適する中継ノードが存在する領域である。
その後、同定スコア計算部260は、計算した同定スコアをID決定部270に送信する(1180)。
このようにハブ抑制部255が同定に寄与する中継ノードを選択し、選択された中継ノードを用いて同定スコアを計算するので、より確からしい同定をすることができる。
以上に説明したように、本発明の第1実施例によれば、ハブ抑制部255が同定候補であるノードとの距離が小さい中継ノードを選択し、同定スコア計算部260が中継ノードとID決定済みノードとの第1の関係性及び中継ノードと前記候補ノードとの第2の関係性を計算し、ID決定部270が選択された中継ノードと関連付けられたノードの候補を用いて固有表現に対応するエンティティ(ID)を判定するので、適切な候補ノードを絞り込むことができる。
また、ハブ抑制部255は、中継ノードと関連付けられるID決定済みノードとの距離(Sdi)の和である第1の値を計算し、中継ノードと関連付けられる候補ノードとの距離(Scj)の和である第2の値とを計算し、前記第1の値(ΣSdi)が大きく、かつ、前記第2の値(ΣScj)が小さくなる中継ノードを決定するので、同定スコア計算部260と前記ID決定部270は、簡単な計算で適切な候補ノードを絞り込むことができる。
<第2実施例>
次に、本発明の第2実施例について説明する。
次に、本発明の第2実施例について説明する。
図2に示すように、第2実施例の情報構造化システムは、同定候補列挙部245が時間情報認識部246を有する。
このため、第2実施例の同定候補列挙部245は、エンティティに対応する知識グラフ中から、時間情報を考慮してエンティティを列挙する。文書における時間情報とは、文書の作成日、変更日(例えば、ニュース発信日時、新聞の発行日)などのメタ情報、及び、文書のコンテンツ中で登場する日付情報(事件の発生日時)である。例えば、ニュース記事では、ニュース発信日時(新聞の発行日)が文書のメタデータであり、事件の発生日時がコンテンツの日付情報である。
また、第2実施例では、知識グラフデータベース230も時間情報を含む。
さらに、第2実施例の同定候補の属性情報は、図8A、図8Bに示すように、生年月日(BirthDate)を含む。時間情報は、例えば、人物の死亡日時、会社の設立年月日や、上場日でもよい。
同定候補列挙部245は、文書に関係する時間情報を有さない(例えば、発行時点で生存しない人物や、その役職に在職していない人物)ノードを同定候補から削除することによって、同定候補を絞り込むことができる。
なお、第2実施例の前述以外の構成は、第1実施例と同じであるため、それらの説明は省略する。
このように第2実施例(及び、後述する第3実施例)のように、同定候補の属性情報は、第1実施例で説明したように中継ノードとして使っても、中継ノードを絞り込むために使ってもよい。
また、同定候補列挙部245ではなく、ID決定部270が時間情報認識部を有してもよい。この場合、ID決定部270は、同定済みのノードと時間的に離れている候補ノードに低いスコアを与えることができる。
以上に説明したように、本発明の第2実施例によれば、時間的な関係性を利用することによって、より確実に同定することができる。また、同定スコアを計算する前に、同定候補を絞り込むことができる。
<第3実施例>
次に、本発明の第3実施例について説明する。
次に、本発明の第3実施例について説明する。
図2に示すように、第3実施例の情報構造化システムは、同定候補列挙部245が地理情報認識部247を有する。
このため、第2実施例の同定候補列挙部245は、エンティティに対応する知識グラフ中から、地理情報を考慮してエンティティを列挙する。文書における地理情報とは、文書のカテゴリとして付加される地名(例えば、作成国)などのメタ情報や、文書のコンテンツ中に登場する地名、国名、地域名である。例えば、地方版のニュースには、カテゴリ名として対象地域が付加されている。また、コンテンツ中の地理情報として、イベントの開催地や、登場人物の位置情報(例えば、居住地)が記載される。
また、第3実施例では、知識グラフデータベース230も地理情報を含む。例えば、人物のエンティティの属性情報は、国籍、居住地などの地理情報を含んでもよい。また、企業のエンティティの属性情報は、本店や営業所の所在地を含んでもよい。
さらに、第3実施例の同定候補の属性情報は、図8Aに示すように、地理情報(BirthPlaceなど)を含む。
なお、第3実施例の前述以外の構成は、第1実施例と同じであるため、それらの説明は省略する。
第3実施例では、これらの情報を利用することによって、同定スコアを計算する前に、同定候補を絞り込むことができる。
また、同定候補列挙部245ではなく、ID決定部270が地理情報認識部を有してもよい。この場合、ID決定部270は、同定済みのノードと地理的に遠い候補ノードに低いスコアを与えることができる。
以上に説明したように、本発明の第3実施例によれば、地理的な関係性を利用することによって、より確実に同定することができる。また、同定スコアを計算する前に、同定候補を絞り込むことができる。
<第4実施例>
次に、本発明の第4実施例について説明する。第4実施例は、ID決定部270が学習部271を有する点で第1実施例と異なる。
次に、本発明の第4実施例について説明する。第4実施例は、ID決定部270が学習部271を有する点で第1実施例と異なる。
学習部271は、機械学習、特に教師有り学習を行う。教師有り学習では、人間が作成したデータを教師データとして、計算機がパターンを学習する。例えば、同定スコア、時間スコア及び地理スコアを変数とした関数を用いた多変数回帰分析を用いて、同定候補の決定パターンを学習することができる。これによって、計算機が人間の知的処理を代替することができる。
以上に説明したように、本発明の第4実施例によれば、過去の同定の結果をスコア化して学習するので、より確実に同定することができる。
<第5実施例>
次に、本発明の第5実施例について説明する。第5実施例は、ハブ抑制部255が関係スコア計算部を有する点で第1実施例と異なる。
次に、本発明の第5実施例について説明する。第5実施例は、ハブ抑制部255が関係スコア計算部を有する点で第1実施例と異なる。
例えば、中継ノードが関係しているノードの数を予め持っていなくても、必要なときに計算すればよい。このため、大域関係スコア表265を有さず、ハブ抑制部255が関係スコア計算部を有し、その都度、同定スコアを計算する。
以上に説明したように、本発明の第5実施例によれば、記憶容量が少ないシステムでも確実に同定をすることができる。
以上に本発明の実施例について、電子文書データの情報構造化を例にして説明したが、これに限らず、知識グラフと手持ちの知識とのマッチング処理などのデータ処理全般に本発明を広く適用することができる。
また、本発明の実施例について、人名の同定について説明したが、会社名などの固有名詞の同定にも本発明を適用することができる。
なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。
また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、ICカード、SDカード、DVD等の記録媒体に格納することができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。
Claims (10)
- 文書の構造を解析する情報構造化システムであって、
プログラムを実行するプロセッサ、及び前記プロセッサによって実行されるプログラムを格納するメモリを有し、
識別情報が付与された名詞であるノードを格納するデータベースと、
文書から名詞を抽出し、前記抽出された名詞と前記データベースに格納されたノードとを対応付けることによって、前記抽出された名詞にノードを対応付ける抽出部と、
前記抽出された名詞に複数のノードの候補が対応付けられる場合、識別情報が特定された名詞と前記ノードの候補とを繋ぐ中継ノードを探す候補列挙部と、
前記探された中継ノードと前記識別情報が特定された名詞との第1の関係性及び前記探された中継ノードと前記ノードの候補との第2の関係性を計算する計算部と、
前記第1の関係性が大きく、かつ、前記第2の関係性が小さくなる中継ノードを決定する抑制部と、
前記決定された中継ノードと関連付けられたノードの候補を用いて、前記抽出された名詞に対応するノードを決定する決定部と、を有することを特徴とする情報構造化システム。 - 請求項1に記載の情報構造化システムであって、
前記計算部は、前記探された中継ノードと関連付けられる前記識別情報が特定された名詞の数である第1の値と、前記中継ノードと関連付けられる前記ノードの候補の数である第2の値とを計算し、
前記抑制部は、前記第1の値の和が大きく、かつ、前記第2の値の和が小さくなる中継ノードを決定することを特徴とする情報構造化システム。 - 請求項1に記載の情報構造化システムであって、
前記候補列挙部は、前記探された中継ノードと前記ノードとの時間的な関係性を用いて前記ノードの候補を決定することを特徴とする情報構造化システム。 - 請求項1に記載の情報構造化システムであって、
前記候補列挙部は、前記探された中継ノードと前記ノードとの地理的な関係性を用いて前記ノードの候補を決定することを特徴とする情報構造化システム。 - 請求項3又は4に記載の情報構造化システムであって、
前記決定部は、
前記第1の関係性、前記第2の関係性、前記探された中継ノードと前記ノードとの時間的な関係性及び前記探された中継ノードと前記ノードとの地理的な関係性を用いて、前記ノードの候補のスコアを計算し、
前記計算されたスコアを用いた前記ノードの決定結果を学習した回帰式を求め、
前記求められた回帰式を用いてノードを決定することを特徴とする情報構造化システム。 - 計算機を用いる情報構造化方法であって、
前記計算機は、プログラムを実行するプロセッサ、前記プロセッサによって実行されるプログラムを格納するメモリ、及び識別情報が付与された名詞であるノードを格納するデータベースを有し、
前記方法は、
文書から名詞を抽出し、前記抽出された名詞と前記データベースに格納されたノードとを対応付けることによって、前記抽出された名詞にノードを対応付ける抽出ステップと、
前記抽出された名詞に複数のノードの候補が対応付けられる場合、識別情報が特定された名詞と前記ノードの候補とを繋ぐ中継ノードを探す候補列挙ステップと、
前記探された中継ノードと前記識別情報が特定された名詞との第1の関係性及び前記探された中継ノードと前記ノードの候補との第2の関係性を計算する計算ステップと、
前記第1の関係性が大きく、かつ、前記第2の関係性が小さくなる中継ノードを決定する抑制ステップと、
前記決定された中継ノードと関連付けられたノードの候補を用いて、前記抽出された名詞に対応するノードを決定する決定ステップと、を含むことを特徴とする情報構造化方法。 - 請求項6に記載の情報構造化方法であって、
前記計算ステップでは、前記探された中継ノードと関連付けられる前記識別情報が特定された名詞の数である第1の値と、前記中継ノードと関連付けられる前記ノードの候補の数である第2の値とを計算し、
前記抑制ステップでは、前記第1の値の和が大きく、かつ、前記第2の値の和が小さくなる中継ノードを決定することを特徴とする情報構造化方法。 - 請求項6に記載の情報構造化方法であって、
前記候補列挙ステップでは、前記探された中継ノードと前記ノードとの時間的な関係性を用いて前記ノードの候補を決定することを特徴とする情報構造化方法。 - 請求項6に記載の情報構造化方法であって、
前記候補列挙ステップでは、前記探された中継ノードと前記ノードとの地理的な関係性を用いて前記ノードの候補を決定することを特徴とする情報構造化方法。 - 請求項8又は9に記載の情報構造化方法であって、
前記決定ステップでは、
前記第1の関係性、前記第2の関係性、前記探された中継ノードと前記ノードとの時間的な関係性及び前記探された中継ノードと前記ノードとの地理的な関係性を用いて、前記ノードの候補のスコアを計算し、
前記計算されたスコアを用いた前記ノードの決定結果を学習した回帰式を求め、
前記求められた回帰式を用いてノードを決定することを特徴とする情報構造化方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/053763 WO2015125209A1 (ja) | 2014-02-18 | 2014-02-18 | 情報構造化システム及び情報構造化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2015125209A1 true JPWO2015125209A1 (ja) | 2017-03-30 |
JP6145562B2 JP6145562B2 (ja) | 2017-06-14 |
Family
ID=53877750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016503804A Active JP6145562B2 (ja) | 2014-02-18 | 2014-02-18 | 情報構造化システム及び情報構造化方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6145562B2 (ja) |
WO (1) | WO2015125209A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649550B (zh) * | 2016-10-28 | 2019-07-05 | 浙江大学 | 一种基于代价敏感学习的联合知识嵌入方法 |
CN111428507B (zh) * | 2020-06-09 | 2020-09-11 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN112016312B (zh) * | 2020-09-08 | 2023-08-29 | 平安科技(深圳)有限公司 | 数据关系抽取方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000057152A (ja) * | 1998-08-06 | 2000-02-25 | Fuji Xerox Co Ltd | 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2011034583A (ja) * | 2004-06-30 | 2011-02-17 | Google Inc | ユーザ情報及びコンテキストに基づいて自動的に生成されるリンクを用いる高品質なドキュメント・ブラウジング |
JP2013003669A (ja) * | 2011-06-13 | 2013-01-07 | Nippon Telegr & Teleph Corp <Ntt> | グラフ構造を有するデータから頻度の高い部分構造を抽出する方法、その装置およびプログラム |
JP2013054602A (ja) * | 2011-09-05 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | グラフパターンマッチングシステムおよびグラフパターンマッチング方法 |
-
2014
- 2014-02-18 JP JP2016503804A patent/JP6145562B2/ja active Active
- 2014-02-18 WO PCT/JP2014/053763 patent/WO2015125209A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000057152A (ja) * | 1998-08-06 | 2000-02-25 | Fuji Xerox Co Ltd | 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2011034583A (ja) * | 2004-06-30 | 2011-02-17 | Google Inc | ユーザ情報及びコンテキストに基づいて自動的に生成されるリンクを用いる高品質なドキュメント・ブラウジング |
JP2013003669A (ja) * | 2011-06-13 | 2013-01-07 | Nippon Telegr & Teleph Corp <Ntt> | グラフ構造を有するデータから頻度の高い部分構造を抽出する方法、その装置およびプログラム |
JP2013054602A (ja) * | 2011-09-05 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | グラフパターンマッチングシステムおよびグラフパターンマッチング方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6145562B2 (ja) | 2017-06-14 |
WO2015125209A1 (ja) | 2015-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10725836B2 (en) | Intent-based organisation of APIs | |
JP6284643B2 (ja) | 非構造化テキストにおける特徴の曖昧性除去方法 | |
US20160098433A1 (en) | Method for facet searching and search suggestions | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
JP2010225135A (ja) | 多義性解消方法とそのシステム | |
KR102059743B1 (ko) | 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템 | |
US11113607B2 (en) | Computer and response generation method | |
JP2021136027A (ja) | 文書のテーマ・カバレッジの分析 | |
US10198497B2 (en) | Search term clustering | |
KR102046692B1 (ko) | 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템 | |
JP5250009B2 (ja) | サジェスチョンクエリ抽出装置及び方法、並びにプログラム | |
JP6145562B2 (ja) | 情報構造化システム及び情報構造化方法 | |
Eyal et al. | Large scale substitution-based word sense induction | |
Li et al. | A probabilistic topic-based ranking framework for location-sensitive domain information retrieval | |
JP5362807B2 (ja) | ドキュメントランク付け方法および装置 | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
JP2019148933A (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
US11074278B2 (en) | Methods for performing a search and devices thereof | |
Plum et al. | Toponym detection in the bio-medical domain: A hybrid approach with deep learning | |
Shi et al. | Story disambiguation: Tracking evolving news stories across news and social streams | |
JP7106036B2 (ja) | 学習データ作成装置、方法、及びプログラム | |
CN113656574B (zh) | 用于搜索结果排序的方法、计算设备和存储介质 | |
Lu et al. | Improving web search relevance with semantic features | |
JP2024025854A (ja) | 検索装置、固有表現抽出装置、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170425 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170515 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6145562 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |