JPWO2013146736A1 - 同義関係判定装置、同義関係判定方法、及びそのプログラム - Google Patents

同義関係判定装置、同義関係判定方法、及びそのプログラム Download PDF

Info

Publication number
JPWO2013146736A1
JPWO2013146736A1 JP2014507891A JP2014507891A JPWO2013146736A1 JP WO2013146736 A1 JPWO2013146736 A1 JP WO2013146736A1 JP 2014507891 A JP2014507891 A JP 2014507891A JP 2014507891 A JP2014507891 A JP 2014507891A JP WO2013146736 A1 JPWO2013146736 A1 JP WO2013146736A1
Authority
JP
Japan
Prior art keywords
synonym
candidate
expression
time interval
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014507891A
Other languages
English (en)
Other versions
JP6394388B2 (ja
Inventor
貴士 大西
貴士 大西
石川 開
開 石川
正明 土田
正明 土田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014507891A priority Critical patent/JP6394388B2/ja
Publication of JPWO2013146736A1 publication Critical patent/JPWO2013146736A1/ja
Application granted granted Critical
Publication of JP6394388B2 publication Critical patent/JP6394388B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】不特定多数からのテキストで使用される自然語から時間と共に意味が変化する同義候補の同義関係を抽出し、汎用化された同義関係判定装置を提供すること。【解決手段】同義候補EWを当該同義元OWと関連させて記憶する同義表現候補記憶部10と、テキストを発行時間と関連させて収集するテキスト収集部14と、同義候補EWがテキスト集合TX上で検索される時区間PDを当該テキストの発行時間から計算する同義候補検索部16と、同義候補EWが検索される時区間PDと重なる期間のテキスト集合TXから同義元OWを検索して同義元OWの出現を計算する同義元検索部18と、同義候補EWが検索された時区間PDに同義元OWの出現がある際には、同義候補EWと同義元OWと間に同義関係を抽出する同義関係抽出部20とを備えたこと。【選択図】図1

Description

本発明は、同義関係期間判定装置、同義関係期間判定方法、及び、同義関係期間判定プログラムに関し、特に同義関係が成立する期間を判定する同義関係期間判定装置、同義関係期間判定方法、及び、同義関係期間判定プログラムに関する。
自然語データを対象とする情報処理では、自然語と自然語との意味上の関係をコンピュータで計算可能な状態で自動的に取得することが難しい。意味上の関係としては、上位概念と下位概念との関係や、同義語となる同義関係などがある。自然言語アプリケーションでは、特に、同義関係の獲得と利用が重要である。
特に、インターネット上の風評の監視といったタスクの場合、組織名や商品名の正式名称を検索クエリとし、それにマッチした文書を監視対象とするのは不十分で、組織名や商品名の別名、省略形、伏字、隠語といった同義表現を獲得し、それらを検索クエリに追加することで、監視のもれを少なくすることが必要となる。
そのため、同義表現を自動獲得するさまざまな手法が提案されている。
例えば、非特許文献1では、同義表現候補の中で出現する文脈が類似しているものを同義表現として自動的に獲得しようとする手法が提案されている。すなわち、ある文に出現する語の共通性に基づいて、同時に使用される語が共通する際に、同義関係があると自動判定を試みている。
又、特許文献1には、時間と共に同義関係が変化することに対応した同義語辞書の自動作成を目的として、各検索語の使用頻度の時系列の相関係数に基づいて単語同士の関連度を定義する手法が記載されている。
特許文献2には、「○菱電気」・「某A庁」等の隠語と「三菱電機」・「防衛庁」等の元の表現との同義関係を抽出することを目的として、「○」等の隠語表現リストから照合用索引を生成して、元の表現と照合することにより同義語関係を抽出する手法が開示されている。
特許文献3には、番組名とその略称や愛称等の同義関係を抽出することを目的として、放送局と放送時間の情報を使用して、同義語の候補からシリーズ名や各回タイトルを除いた語を同義語とする手法が開示されている。
特開平11−312168号公報 特開2003−296354号公報 特開2006−163710号公報
寺田ら、"文脈情報による同義語辞書作成支援ツール"、社団法人情報処理学会研究報告 自然言語処理研究会報告2006(124)、2006年11月、p.87−94
しかしながら、同義表現の中でも省略語や伏字のなかには、曖昧性がある場合や、時間的に意味が変化する場合があるため、既存の同義表現獲得手法では正しく同義であると判定することが困難である。例えば、「東京電力」の伏字として「東○電力」が考えられるが、これは「東北電力」の伏字にもなりうる。このように、「東○電力」が指す内容は「東京電力」や「東北電力」等の曖昧性がある。
また、実際には、時刻によって「東○電力」が指す内容が「東京電力」や「東北電力」に変化しうる。例えば、図13の例では、「東○電力」は、時刻A及び時刻Cでは「東京電力」を、時刻Bでは「東北電力」を指しており、同義関係が時刻によって変化している例となっている。
このような場合、既存の方法では時刻によって内容が変化するような同義表現を考慮していないため正しく同義性を判定できない。同義性の判定に文脈を用いる非特許文献1のような手法では、時間情報を利用していないため時刻によって同義性が変化することを考慮していない。
また、時系列相関を用いる特許文献1のような手法でも、時刻によって同義性が変化する場合、図13に示すように「東○電力」は「東京電力」、「東北電力」のどちらとも相関が高くならず、同義関係があると判定できない。つまり、特許文献1の場合も時刻によって同義性が変化しないことを前提にして同義性を判定しているため、時刻によって同義性が変化する場合に同義性がある時区間を特定することができない。
前述した非特許文献1では、文脈を用いて同義性を判定することができるが、時間情報を利用していないため、時刻で変化する同義性を把握することができない。
即ち、時間の推移によって同義性が変化し、一つの同義候補が時間によっては異なる同義元と同義となる場合には、特許文献1のような手法で算出する時系列相関は高くならず、その結果、同義関係を抽出できない。
又、特許文献2記載の手法では、隠語や伏せ字に用いられる語(○、「ル」に対して「ノ」と「レ」の組み合わせ「ノレ」)を使用して同義元と同義となる同義候補を生成することができるが、同義候補の意味の時間変化をとらえることはできない。
特許文献3記載の手法では、同義語の判定に時間情報を使用しているが、同一の情報源(放送局)からの情報を対象としており、不特定多数から収集されるテキスト集合に対しては適用することができない。
更に、上述した非特許文献1、特許文献1乃至3、及びこれらを組み合わせた技術では、同義候補の意味が時間とともに変化する際に、同義候補と同義元との同義性を正確に判定することができない、という不都合があった。
[発明の目的]
本発明は、不特定多数からのテキストで使用される自然語から、時間と共に意味が変化する同義候補の同義関係を有効に抽出し特定することを可能とした同義関係判定装置、同義関係判定方法、及びそのプログラムを提供することを、その目的とする。
上記目的を達成するため、本発明に係る同義関係判定装置は、所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部と、外部入力されるテキスト中における前記同義表現候補と前記同義元表現との同義関係を一定の基準に基づいて判定し特定する同義関係判定特定手段とを備えている。
そして、前記同義関係判定特定部が、外部入力される前記テキストを収集しこれに基づいて発行時間が特定可能なテキスト集合を生成するテキスト収集部と、このテキスト収集部14で収集されたテキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを特定し出力する同義候補検出手段と、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定手段とを備えたことを特徴としている。
上記目的を達成するため、本発明に係る同義関係判定方法は、所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定部を備えた同義関係判定装置にあって、
外部入力される前記テキストを収集しこれに基づいて発行時間が特定できるテキスト集合を、前記同義関係判定特定部のテキスト収集部が生成し(テキスト集合生成工程)、
この生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、前記同義関係判定特定部が一定の基準に基づいて判定すると共に特定し(同義関係特定工程)、
前記同義関係を特定する工程にあっては、
前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ前記同義関係判定特定部の同義候補検出手段が検索して特定し(同義候補検出工程)、
続いて、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義関係判定特定部の同義期間特定手段が前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定するように構成したこと(同義期間特定工程)を特徴とする。
上記目的を達成するため、本発明に係る同義関係判定用プログラムは、所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部10と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定手段とを備えた同義関係判定装置にあって、
外部入力されるテキストを収集して発行時間を特定できるテキスト集合を生成するテキスト集合生成処理機能、および生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、一定の基準に基づいて判定すると共に特定処理する同義関係特定処理機能を設けると共に、
前記同義関係特定処理機能が、前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ検索して特定処理する同義候補検出処理機能、および前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定処理機能を含む構成とし、
これらの各処理機能を前記同義関係判定特定手段が備えているコンピュータに実現させるようにしたことを特徴としている。
本発明は以上のように、同義表現候補が多く出現した時点を捉えて同義性の判定を行うように構成したので、同義関係が成立した開始時刻を出力することが可能となり、そのため、時刻によって同義性が変化する場合に、その同義関係が成立する時区間を判定することが可能となるという前述した関連技術にない優れた同義関係判定装置、同義関係判定方法、及びそのプログラムを提供することができる。
本発明に係る同義関係判定装置の第1実施形態を示すブロック図である。 図1にて使用される同義候補リストの一例を示す説明図である。 図1にて使用される同義元の出現の時間推移と同義候補の出現の時間推移の例を示す説明図である。 図1に開示した第1実施形態の全体的な動作を示すフローチャートである。 図1に開示した第1実施形態における同義期間開始判定部の構成例を示すブロック図である。 図5に開示した同義期間開始判定部の他の構成例及び使用するテーブルの例を示す説明図である。 図6に示す同義期間開始判定部の他の構成例にあって、同義元の出現数を計算する処理の一例を示すフローチャートである。 同義元の出現数を使用して同義候補との同義期間の開始を判定する処理の一例を示すフローチャートである。 本発明に係る同義関係判定装置の第2実施形態を示すブロック図である。 図9に開示した第2実施形態の動作を示すフローチャートである。 本発明に係る同義関係判定装置の第3実施形態を示すブロック図である。 図11に開示した第3実施形態で使用する同義候補リストの一例を示す説明図である。 テキスト集合中の同義候補及び同義元の出現数の一例を示すグラフ図である。 第3実施形態における情報処理例を示すフローチャートである。 本発明の各実施形態に共通するハードウエア資源の構成例を示すブロック図である。
以下、本発明の第1実施形態を図1乃至図8に基づいて説明する。
最初に、同義関係の概念を明確にすると共に本第1実施形態の基本的な構成内容を説明し、その後に本第1実施形態について、更に詳述する。
(同義関係の概念)
まず、本第1実施形態では、二つの語(自然語の語句)の同義関係を期間に対応させて判定するようにした。
ここで、同義関係は、種表現となる同義元と、この同義元と同義性を持つ可能性のある同義候補の表現とである。例えば、「日本電気」と「NEC」と「日電」という自然語の語句は、語としての同義性を持つ。そして、「日本電気」を種表現である同義元とすると、「NEC」「日電」は同義候補である。
そして、本第1実施形態では、時間的に変化する同義関係を抽出する。時間的に変化する同義関係としては、同義表現候補が多義的であって複数の同義元の候補となる場合や、同義元について時間的に関心や関係性が変化していくことで意味が変化する場合などがある。 例えば「朝日」は多義的で、新聞、生命保険、飲料など異なる社名を同義元とする。そして、不特定多数から主にインターネットを介して発信されるテキスト(文章)では、「アサヒ」は朝には新聞を意味することが多く、夜には飲料を意味することが多いという傾向が現れる可能性もある。
同義元について時間的に関心や関係性が変化する例としては、番組中で成長する主人公の男優名が、「少年」、「青年」、「恋人」、「夫」、「父」、「祖父」などの語との同義関係を構築しては失うような時間変化がある。この例では、1年間の連続番組であれば数ヶ月毎に同義関係が変化する。
また、通常の辞書に使用されていた用語が流行語として別の意味を獲得することで同義関係を構築することがある。例えば、「サポーター」、「タマちゃん」、「埋蔵金」、「仕分け」、「なでしこ」などは、語の流行開始の前後で同義関係が変化する。流行語が特別な意味を獲得した後、その特別な意味を失うと、同義関係が再度変化する。このような変化は数年又は数十年単位となる。
隠語や伏せ字を用いた表現(同義表現候補となる)は、多義的になりやすく、同義関係も変化しやすい。会社名をアルファベット一文字で表し、また、人物をアルファベット数文字のイニシャルで表すと、同義関係を構築可能な同義元は複数生じる。例えば「NEC」を「NE○」と伏せ字表現すると、「NET」「NEW」「NEO」などの解釈も生じる。
社名をアルファベット表記している場合、何らかのニュースとの関係で伏せ字での電子的な対話がなされることがある。このような場合、ニュースとなったことで同義元の出現数が増加する時期に、当該伏せ字の出現が現れ、同義性を持つ。このようなニュース等による同義性は、数時間で終了することもある。
(基本的内容)
本第1実施形態にあって、同義関係判定装置101は、図1に示すように、所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部10と、外部入力されるテキスト中における前記同義表現候補と前記同義元表現との同義関係を一定の基準に基づいて判定し特定する同義関係判定特定手段12と、を備えている。
また、同義表現候補記録部10には、同義表現候補を生成するための種となる表現を入力しその種表現から同義候補を生成する同義候補生成部10Aが併設されている。
そして、上記同義関係判定特定手段12は、外部入力される前記テキストを収集しこれに基づいて発行時間が特定可能なテキスト集合を生成するテキスト収集部14と、このテキスト収集部14で収集されたテキスト集合から前述した同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを特定し出力する同義候補検出部12Aと、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定部12Bとを備えている。
このため、上記基本構成によると、詳細は後述するが、同義表現候補が多く出現した時点を捉えて同義性の判定を行うようにしたので、同義関係が成立した開始時刻を出力することが可能となり、そのため、時刻によって同義性が変化する場合に、その同義関係が成立する時区間を判定することが可能となる。
ここで、上記同義候補検出部12Aは、前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を(前記同義表現候補が存在する時区間として)特定する同義候補検索部16と、同じく前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を(前記同義元表現が存在する時区間として)特定する同義元検索部18とを含む構成となっている。
又、上記同義期間特定部12Bは、前記同義候補検出手段で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出する同義関係抽出部20と、この抽出された同義元表現が前記同義表現候補と同義関係にあると判定すると共に当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを同義期間と共に予め装備した同義辞書32に登録する同義期間開始判定部22とを含む構成となっている。
上記した同義期間開始判定部22は、前記同義表現候補が前記テキスト集合で検出される時区間における集合中で、前記時区間での単位時間あたりの出現数と前記時区間以前での単位時間あたりの出現数の比率が最も大きい同義元表現についても、これを前記同義表現候補と同義関係にあると判定する機能を備えている。
更に、前記同義期間特定部12Bは、当該同義期間特定部12Bの前記同義期間開始判定部22で同義関係にあると判定され特定された同義表現候補についてその単位期間あたりの出現数が予め設定したしきい値以下になった時点で、前記同義関係が解消した旨判定する同義期間終了判定部24を備えている。
ここで、上述した同義候補生成部10Aは、前述したように同義表現候補を生成するための種となる表現(以下「種表現」と呼ぶ)を入力とし、その種表現から同義表現候補を生成する機能を備えている。この場合、同義表現候補は、種表現に対して部分文字列を抽出して省略語を生成する、種表現の一部を特定の文字に置換して伏字を生成する、種表現を別の言語に翻訳した翻訳表現を生成する、等の操作を複数回適用して、複数生成される。
また、同義表現候補記録部10は、同義候補生成部10Aで生成した同義表現候補を記録する。同義表現候補を見出しとし、対応する種表現(以下、「同義元表現」と呼ぶ)を1個以上記録する。ここで、複数の同義元表現が記録された同義表現候補は、曖昧性のある同義表現候補である。
同義候補検出部12Aは、発行時間を特定できるテキスト集合を読んでいき、同義表現候補記録部10に記録されている同義表現候補、同義元表現が各時点で何回出現しているかを計数する機能を備えている。そして、同義表現候補の単位期間あたりの出現数が大きく増加している時区間を検出する。
更に、同義期間判定手段12Bは、同義候補検出部12Aで検出した時区間でのテキスト集合を用いて同義表現候補と同義関係にある同義元表現を特定し、それらが同義関係にある期間を同義辞書32に登録する。
また、同義期間判定手段12Bの一部を成す同義期間開始判定部22は、同義候補検出部12Aで検出された同義表現候補が、対応する同義元表現のどれと同義関係にあるかを判定し、同義関係であった場合、同義候補検出部12Aで検出された時区間の開始点を同義関係の開始点として同義辞書32に登録する。
この同義関係の判定は、同義表現候補が検出された時区間のテキスト集合中で、最も出現数の多い同義元表現、若しくは、前記時区間での単位時間あたりの出現数と前記時区間以前での単位時間あたりの出現数の比率が最も大きい同義元表現、を前記同義表現候補と同義関係にあると判定することで行う。
同義辞書5は、同義関係にある表現を記録する辞書であり、同義関係の開始、終了時刻もあわせて登録することができる。
上述したように、本第1実施形態において、同義関係判定装置101は、同義表現候補記録部10と同義関係判定特定手段12とを備えている。そして、同義関係判定特定手段12は、テキスト収集部14と、同義候補検索部16と、同義元検索部18と、同義関係抽出部20と、同義期間開始判定部22とを備えている。更に、この同義関係判定装置101は、同義候補生成部30と、同義辞書32とを備えている。
そして、この構成により、同義関係が成立する時区間PDを判定しようとするものである。
ここで、前述したように、同義候補検索部16と同義元検索部18とにより同義候補検出部12Aが構成され、同義関係抽出部20と同義期間開始判定部22とにより同義期間判定手段12Bが構成されている。
同義表現候補記録部10は、同義元OWである語に対して同義語となる候補の同義候補EWを当該同義元OWと関連させて予め記憶する。この同義表現候補記録部10は、同義候補EWを見出しとし、対応する種表現(同義元OW)を1個以上関係させて記憶する。 図2に示す同義候補リスト10Aは、このように同義候補EWと同義元OWとを関連させたデータである。同義候補リスト10Aは、データ収集の直前までに作成されれば良く、過去に収集したテキストを使用して同義候補EWを自動生成しても良いし、ユーザが人為的に検討した同義候補EWが入力されるようにしても良い。
自動生成する例では、同義表現候補記録部10は、同義候補生成部30が自動生成した同義候補EWを同義候補リスト10Aに含めて記憶する。ここで、複数の同義元OWが記憶された同義候補EWは、曖昧性のある同義候補EWである。
同義関係判定特定手段12は、例えばネットワーク96を介して情報処理可能な自然語データを含むテキストを収集すると共に、当該テキストの集合にデータ処理をする(図1参照)。このネットワーク96は、例えばインターネットであり、インターネットに接続されるローカルなネットワーク96でも良い。
自然語データは、日本語、英語等の言語で、語、文、段落などを要素とする文章であり、人間が読み取るための情報である。テキストは、この自然語データを含むデータであり、自然語が表現されるものであればファイル形式はどのようなタイプでも良い。また、一行のコメントから、文書、論文や本としてまとめられたものまで、分量や校正の程度はどのようなものでも良い。
このテキストは、文章の著者と関連した論理的な所在と、発行時間とを属性情報として有すると良い。論理的な所在としては、IPアドレス、IPアドレス等で特定できるサーバ群(Webサイト)中のファイル所在やデータベースの検索結果をも示すURLなどがある。
テキスト収集部14は、テキストを発行時間と関連させて収集することで、テキスト集合TXを生成する。このテキスト収集部14は、発行時間(例えば、書き込み時間)を属性情報として有するテキストについては、当該発行時間に発行されたと扱い、発行時間が不明なテキストが新たに収集された際には、収集した時間(例えば、クロール時間)を当該テキストの発行時間とすることができる。
このテキストの収集は、インターネットに接続された不特定多数のサーバ装置70へのロボット検索としても良いし、予めユーザによって所在が指定されたアドレスにアクセスすることで得られるデータを収集するようにしても良い。サーバ装置からテキストを収集する際には、文字データのみを収集するのではなく、画像やリンクを含むファイル全体を受信しても良い。既に収集したデータとの差分のみを受信するようにしても良い。
テキスト集合TXは、大量の文章を含むテキストデータの集合で、発行時間又は発行時間が属する期間をキーとして同義表現候補記録部10等の記憶媒体に格納しておくと良い。また、テキストのみではなく、同義候補リスト10Aにある同義元OW及び同義候補EWへのインデックスを生成して一体的に格納しても良い。
同義候補検索部16は、テキスト集合TXに含まれる同義候補EWが当該テキスト集合TXで検索される時区間PDを、当該テキストの発行時間から計算する。
時区間PDは、開始時間で区切られる区間であり、本第1実施形態では、同義候補EWが検索される期間である。収集したテキスト集合TXから同義候補EWが検索され始めた際には時区間PDの開始時間はあるが継続中で有り終了時間はない。
当該時区間PD中のテキスト集合TXには当該同義候補EWが一定数以上含まれ、時区間PD前のテキスト集合TXには同義候補EWが一定数以上は含まれない。一定数は、0でも良いし、通常時(平時)の検索数としても良い。
同義候補検索部16は、発行時間を特定できるテキスト集合TXを読んでいき、同義表現候補記録部10に記憶されている同義候補EWが各時点で何回出現しているかを計数する。そして、同義候補EWが当該テキスト集合TXで検索される期間を時区間PDとする。例えば、同義候補EWの単位期間あたりの出現数が大きく増加している期間を当該同義候補EWの時区間PDとする。
同義元検索部18は、同義候補EWが検索される時区間PDと重なる期間のテキスト集合TXから同義表現候補記録部10に記憶された同義元OWを検索することで、当該同義元OWの出現を計算する。「出現」は検索の結果得られるデータ項目であり、例えば出現数や出現比率である。
時区間PDと重なる期間は、時区間PDと完全に同一の期間でも良いし、時区間PD前の一定時間前からとしても良い。この重なる期間は、文字通り一部で時区間PDと重なれば良い。
同義元検索部18は、時区間PDを有する同義候補EWと同義関係となる可能性のある同義元OWを、当該時区間PDと重なる期間のテキスト集合TXから検索する。すると、同義候補EWが出現した時区間PDと重なる期間(同一期間を含む)にて、同義候補EWがどのように出現したのかというデータを得ることができる。同義元OWについても時区間PDを計算するようにしても良い。
同義元検索部18は、情報処理として、時区間PDとは独立して予め定められた検索指定時刻や単位時間毎に同義元OWを検索しておき、その検索結果から、さらに時区間PDと重なる期間のテキスト集合TXでの出現数を計算するようにしても良い。
いずれにせよ、同義元検索部18は、同義元OWが各時点で何回出現しているかを計数する。
そして、同義関係抽出部20は、同義候補EWが検索された時区間PDに同義元OWの出現がある際には、同義候補EWと同義元OWと間に同義関係を抽出する。例えば、時区間PDと同一の期間に出現がある同義元OWと、当該同義候補EWとの同義関係を抽出する。
また、時区間PDの前の期間の出現に対して時区間PD中の出現が増加している同義元OWと同義関係があると抽出しても良い。同義元OWの時区間PDを算出する例では、同義関係抽出部20は同義候補EWの時区間PDと同義元OWの時区間PDとが重なる際に、同義候補EWの時区間PDに同義元OWが出現したと判定することができる。
このように、同義関係抽出部20は、同義候補検索部16及び同義元検索部18で検出した時区間PDでのテキスト集合TXを用いて同義候補EWと同義関係にある同義元OWを特定する。図1に示す同義辞書32と接続されている際には、この時区分PDで特定される同義関係を同義辞書32に登録する。
図1に示す例では、同義候補EWが検索される時区間PDと重なる期間にテキスト集合TXに出現した同義元を検索することで、情報処理により同義候補EWと同義元OWとの同義関係を時区間PDで区切りつつ自動的に抽出することができる。
このような同義候補EWが検索される時区間PDで成立する同義関係を、「時区間同義」という。時区間同義が成立しうる期間は、上述のように様々で有りニュース等に起因する際には数時間で終了することもあり、一方流行語や新概念の登場などでは数十年成立し得る。また、そして、同義関係によっては、時区間同義の開始後、テキストTXの収集時点では終了していないこともある。
同義候補生成部30は、同義候補EWを生成するための種となる種表現を入力とし、その種表現から同義候補EWを自動的に生成する。同義候補生成部30は、同義元OWの表現に対して、次の操作を複数回適用することで、複数の同義候補EWを自動生成する。
(1)種表現に対して部分文字列を抽出して省略語を生成する。(2)種表現の一部を特定の文字に置換して伏字を生成する。(3)種表現を別の言語に翻訳した翻訳表現を生成する。
同義辞書32は、同義関係にある表現を記憶する辞書であり、同義関係の開始、終了時刻もあわせて登録することができる。同義辞書32に格納された同義関係は、シソーラスを使用した検索、テキストデータのクラス分け、グループ分け、自然語解析、データマイニング、トレンド分析、風評・評判調査など様々な用途で使用することができる。
以下、これを更に具体的に説明する。
図2に示す同義候補リスト10Aは、同義候補EWが多義となる例を含んでいる。同義候補EW[1]に対して、同義元OW[1]から[4]が同義関係の候補として登録されている。同義候補EW[1]は、例えば東西南北の内の一語(例えば「東」)であると、社名、国名など多数の同義元OWが有り得る。
この同義候補リスト10Aには、同義候補EW[1]から[n]まで、同義元OW[1]から[n]まである。同一の種表現[1]である同義元OW[1]が、複数の同義候補EW[1],[2],[3]と関連することもある。
ここで、同義表現候補記録部10が、複数の同義元OWに対して同義語の候補となる多義の同義候補EWを記憶している際には、同義元検索部18が、複数出現処理18aを備え、同義関係抽出部20が、選択処理20aを備えると良い(図1参照)。
図1において、複数出現処理18aは、多義の同義候補EWと同義関係となる同義元OW毎に当該同義元OWの出現を計算する。そして、選択処理20aは、当該多義の同義候補EWの時区間PDと重なる期間の複数の同義元OWの出現を比較することで、当該多義の同義候補EWに対して同義関係となる同義元OWを選択する。
例えば、図2に示す同義候補EW[2]の時区間PDに、複数の同義元OW[1],[5]が出現しとする。複数出現処理18aは、時区間PD中、同義元OW[1]の出現と、同義元OW[5]の出現とを算出する。そして、選択処理20aは、同義元OW[1]の出現と、同義元OW[5]の出現とを比較することで、同義関係となる同義元OW[5]を選択する。
比較による選択としては、出現数や出現比率が高い同義元OWの選択や、出現数や出現比率が低い同義元OWを候補から除去する選択などがある。選択処理20aは、唯一の同義元OWを選択しても良いし、複数の同義元OWを選択するようにしても良い。
このように、多義の同義候補EWの時区間PDに複数の同義元OWが検索された際に、同義関係抽出部20が、出現を比較することで同義関係を抽出すると、時区分毎に適した同義元OWを特定することができる。また、同義関係抽出部20は、出現の比較をせず、個々の同義元OWが一定の条件を満たす同義元OWとの同義関係を成立させるようにしても良い。
図3に、同義候補EWの出現と、この同義候補EWと同義関係を持つ可能性のある同義元OW[1]から[8]の出現との時間推移を示す。同義元OWの出現数は図中上方に増加し、同義候補EWの出現数は図中下方に増加する。時区間PDは、同義候補EWが検索されている期間である。図3に示す例では、時区間PD[1]から[6]は同義関係の終了時点を有し、時区間PD[7]は未終了とした。
出現が共通: 時区間PD[1]から時区間PD[4]
上記同義関係抽出部20は、同義候補EWと同義元OWとの出現が時間的に共通する際に、同義関係を抽出することができる。ここで、同義候補EWの時区間PDに同義元OWの時区間PDが重なり合う際には、出現が時間的に共通する。
例えば、同義候補EWの時区間PD[1]で同義元OW[1]が出現しているため、同義関係抽出部20は、同義候補EWと同義元OW[1]とが時区間PD[1]で成立すると判定する。同様に、同義関係抽出部20は、同義候補EWと、時区間PD[2]では同義元OW[2]と、時区間PD[4]では同義元OW[3]との同義関係が成立したと判定することができる。
時区間PD[3]については、時区間PD[3]で出現が共通する同義元OWを特定できないが、時区間PD[3]に重なる期間として時区間PD[3]より前の期間を含めると、同義元OW[2]との同義関係を抽出することができる。また、同義関係抽出部20は、出現の変化率を使用すると、時区間PD[3]中に同義元OW[3]の出現が急増していることから、同義元OW[3]との同義関係を抽出することもできる。
(出現が最多の時区間PD[5]と時区間PD[6]の場合)
同義関係抽出部20は、時区間PD中に複数の同義元OWがある際に、出現数が最多の同義元OWと同義関係が成立したと判定することができる。
ここで、時区間PD[5]と時区間PD[6]の同義元OWの出現数は、同義元検索部18が、それぞれの時区間PDで特定できるテキスト集合TXから同義元OWを検索し、時区間PDでの出現数を合計した値である。
そして、同義関係抽出部20は、時区間PD[5]では、棒グラフで示すように出現が最多である同義元OW[5]を選択し、同義候補EWとの同義関係を成立させることができる。また、同一の時区間PDに複数の同義関係を許容する際には、時区間PD[6]に示す例では、予め定められた条件よりも出現数の少ない同義元OW[4]を除去し、同義元OW[5]及び[6]との同義関係を成立させるようにしても良い。
(出現変化率が高い時区間PD[7]の場合)
同義関係抽出部20は、単位時間当たりの出現数を使用した計算値に基づいて同義関係を抽出することもできる。出現数を単位時間当たりとすることで、同一の出現数の変化率や、異なる同義元OW間の出現数の比などを使用することができる。
例えば、図3に時区分PD[7]との関係で同義元OW[7]と同義元OW[8]の単位時間当たりの出現数の時間変化を示す。図中時区分PD[7]を示す縦線と平行な間隔の短い縦線間の時間が単位時間である。
同義元検索部18は、単位時間毎にテキスト集合TXから同義元OWを検索し、その出現数を計算する。時区間PD[7]では、同義元OW[7]の出現数が多く、時区間PD[7]
単位の出現数(総数)や、単位時間当たりの出現数を同義元OW[8]と比較すると、同義元OW[7]が選択される。
一方、時区間PD[7]と重なる期間で同義元OW[8]の変化率OW[8d]が上昇しており、これに対して、同義元OW[7]の変化率は小さい。同義関係抽出部20は、時区間PD[7]に重なる期間の同義元OWの出現数の変化率に基づいて、最多の同義元OW[7]ではなく、使用が急上昇している同義元OW[8]との同義関係を抽出することができる。
同義関係抽出部20は、同義候補EWの時区間PDと同義元OWの時区間PDとの共通性(重なり合い等)から、同義候補EWと同義元OWとの同義関係を判定しても良い。
まず、同義表現候補記録部10には、同義元OWと同義関係となる表現の候補である同義候補EWが同義元OWと共に記録されている。
そして、同義候補検索部16は、発行時間の特定可能なテキスト集合TXを参照して、同義候補EWがテキスト集合TXで検出される時区間PDを算出する。さらに、同義元検索部18は、同義元OWがテキスト集合TXで検出される時区間PDを算出する。
この例では、同義関係抽出部20は、同義候補EWがテキスト集合TXで検出される時区間PDと、同義元OWがテキスト集合TXで検出される時区間PDとの関係から、同義候補EWと同義元OWが同義関係にある時区間PDを判定する。
(第1実施形態の動作説明)
次に、上記第1実施形態における動作を、図4に基づいて説明する。
まず、同義候補生成部30は、前述したように種表現から同義候補EWを生成し同義表現候補記録部10に記憶する(図4:ステップS101/同義候補生成登録工程)。この場合、同義候補生成部30は、ユーザにより作成された同義候補EWが入力された場合には、これを受け付けて同義表現候補記録部10に記憶するように構成してもよい。
次に、テキスト収集部14は、外部入力されるテキストを収集しこれに基づいて発行時間が特定できるテキスト集合を生成する(図4:ステップS102/テキスト集合生成工程)。
そして、この生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、前記同義関係判定特定手段12が一定の基準に基づいて判定すると共に特定する(図4:ステップS103,S104/同義関係特定工程)。
ここで、この同義関係を特定する工程(図4:ステップS103,S104)にあっては、まず、生成された前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ前記同義関係判定特定手段12の同義候補検出部12Aが検索して特定する(図4:ステップS103/同義候補検出工程)。
続いて、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義関係判定特定手段12の同義期間特定部12Bが、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する(図4:ステップS104/同義期間特定工程)。
ここで、前述した同義候補を検出する工程(図4:ステップS103)にあっては、まず、同義候補検出部12Aの同義候補検索部16が機能して、前記テキスト収集部14で収集された前記テキスト集合TXから前記同義表現候補を検出し計数すると共に、単位時間当たりの出現数の大きい時区間PDを抽出し特定する(図4:ステップS103A/同義候補対応・時区間特定工程)。
具体的には、同義候補検索部16は、テキスト集合TXを読んでいき、例えば、同義表現候補記録部10に記憶されている同義表現候補EWの単位期間あたりの出現数が大きく増加している時区間PDを検出する。
又、これと相前後して、同義候補検出部12Aの同義元検索部18が機能して、同じく前記テキスト収集部で収集された前記テキスト集合から前記同義元表現OWを検出し、その出現数を計数すると共に単位時間当たりの出現数の大きい時区間が抽出し特定する(図4:ステップS103B/同義元対応・時区間特定工程)。
更に、前述した同義期間を特定する工程(図4:ステップS104)にあっては、まず、同義区間特定手段12Bの同義関係抽出判定部20が機能して、前記同義候補の検出工程(図4:ステップS103)で前記同義表現候補が検出された時区間におけるテキスト集合中で最も出現数の多い同義元表現を、同義関係にある同義元として抽出する(図4:ステップS104A/同義関係抽出工程)。
即ち、同義関係抽出部20は、同義候補検索部16で検出された同義候補EWがどの同義元OWと同義関係にあるかを判定し、時区間PDでの同義関係を抽出する。
又、これと相前後して、同義区間特定手段12Bの同義期間開始判定部22が機能して、同じく前記抽出された同義元表現が前記同義表現候補と同義関係にあると判定し、同時に当該両者が同義関係にある時区間の開始点を同義期間の開始点として、これを前記同義期間と共に予め装備した同義辞書に登録する(図4:ステップS104B/同義期間登録工程)。
そして、最後に、同義区間特定手段12Bの同義期間開始判定部22が機能して、前述した同義関係ある旨の判定結果を同義辞書32に記憶し(図4:ステップS105/同義関係登録工程)、これをもって処理を終える。
このように、本第1実施形態では、同義候補EWが出現した時区間PD(または時点)での出現(出現数、出現変化率、出現比等)を用いて同義性を判定し、同義関係が成立する時区間PDを計算する。この同義関係が成立する時区間PDの特定により、多義で曖昧な語について「時区間同義」を判定し、これにより、時刻によって同義性が変化する場合であっても時区間PDで区切った同義関係を取り扱うことができる。
即ち、本第1実施形態では、同義表現候補が出現した時点での単位期間あたりの出現数を用いて同義性の判定を行うため、同義関係が成立した開始時刻を出力することが可能となる。そのため、時刻によって同義性が変化する場合にその同義関係が成立する時区間を判定することが可能となる。
(同義期間開始について)
次に、同義候補EWと同義元OWとの同義関係について同義関係の開始時点を判定する手法を開示する。
この例では、図1に示すように、同義関係判定特定手段12が同義期間開始判定部22を備えている。
この同義期間開始判定部22は、発行時間順のテキスト集合TXで同義候補EWが検索される時区間PDにて当該テキスト集合TXでの同義元OWの出現が予め定められた条件を満たした時点で当該同義元OWと同義となる同義期間が開始したと判定する。
予め定められた条件は、図3等を参照して開示したように、様々なデータ、比較処理及び判定処理を採用することができる。出現についてのデータとしては、出現数、出現変化率、出現比等を使用することができる。
比較及び判定としては、予め定められたしきい値との比較、当該同義元の通常時の出現との比較で求められるしきい値との比較、他の同義元の出現の値との関係で求まる値との比較などがある。
データを比較した結果、条件を満たすと判定しても良いし、実施の具体例によっては例外事項等を定めておき、例えば、しきい値を超えても例外事項に該当する際には条件を満たさないと判定しても良い。
この同義期間開始判定部22は、例えば、同義候補検索部16で検出された同義候補EWが、対応する同義元OWのどれと同義関係にあるかを判定し、同義関係であった場合、同義候補検索部16で検出された時区間PDの開始点を同義関係の開始点として同義辞書32に登録するようにしても良い。
この例では、同義候補EWの意味を、開始時点の前後で異なると把握することができる。
図1に示す例では、同義関係抽出部20と同義期間開始判定部22とは別の部としているが、同義関係抽出部20が同義期間開始判定部22を備える構成としても良い。
同義期間開始判定部22は、出現数で判定するには、まず、同義候補EWがテキスト集合TXで検出される時区間PDにおけるテキスト集合TX中で、最も出現数の多い同義元OWを同義候補EWと同義関係にあると判定する。そして、同義期間開始判定部22は、時区間PDの開始点において同義候補EWと同義元OWとの間での同義関係の開始点と判定する。
図5に、最多出現数での判定処理の構成例を示す。この例では、同義期間開始判定部22が、この最多出現数での判定をするために、出現数処理22aと、最多判定処理22bとを備えている。出現数処理22aは、同義候補EWがテキスト集合TXで検索される時区間PDで当該同義候補EWと関連する複数の同義元OWの出現数を計算する。そして、最多判定処理22bが、出現数が最も多い同義元OWと同義候補EWとの同義期間が同義候補EWの時区間PDの開始点で開始したと判定する。
図5に示す例では、同義元検索部18が同義元OWの検索結果である出現数を同義元テーブル10Bに記録する。同義期間開始判定部22は、この同義元テーブル10Bを参照して最多判定処理22bをする。
図3に示す例では、出現数処理22aは、時区間PD[5]にて複数の同義元OWの出現数を計算する。検索対象の同義元OWは、時区間PD[5]を求めた際の同義候補EWに予め記憶手段10にて関連性があるとして記憶されている同義元OW[4],[5],[6]である。図3に示す例では、出現数処理22aは、時区間PD[5]では同義元OW[4],[5],[6]の出現数を計算し、同義元テーブル10Bに記録する。出現数が0の同義元OWについては計算しなくとも良い。
そして、最多判定処理22bは、図5に示す出現数が90で最多の同義元OW[5]を選択し、同義元OW[5]と同義候補EWとについて、当該時区間PD[5]の開始点で同義関係が開始したと判定する。
この出現数による同義期間開始判定は、通常時から注目されている同義元OWとの同義関係の判定に効果的である。
次に、出現率を使用する処理例を説明する。
同義期間開始判定部22は、出現比率で判定するには、時区間PD中での単位時間あたりの出現数と、時区間PD以前での単位時間あたりの出現数との出現比率が最も大きい同義元OWを同義候補EWと同義関係にあると判定する。そして、同義期間開始判定部22は、時区間PDの開始点において同義候補EWと同義元OWとの間での同義関係の開始点と判定する。
図6に出現比率での判定処理の一例を示す。この例では、同義期間開始判定部22が、この出現比率での判定をするために、時区間中処理22cと、時区間前処理22dと、比率判定処理22eとを備えている。
時区間中処理22cは、同義候補EWがテキスト集合TXで検索される時区間PDでの当該同義候補EWと関連する1以上の同義元OWの単位時間あたりの出現数を計算する。 時区間前処理22dは、当該各同義元OWの時区間PD前での単位時間あたりの出現数を計算する。
そして、比率判定処理22eは、時区間PD前の出現数に対する時区間PD中の出現数の比率が最も大きい同義元OWとの同義期間が、同義候補EWの時区間PDの開始点で開始したと判定する。
即ち、比率判定処理22eは、時区間PDの開始時点より前の出現数と比較して、時区間PD中の出現数が大きい際に、同義期間が同義候補EWの時区間PDの開始点で開始したと判定する。
図6に示す例では、同義元検索部18が、同義候補EWの時区間PD前の出現数も計算し、同義元OWの出現数を同義元テーブル10Bに格納する。さらに、比率判定処理22eが、算出した出現比率を同義候補テーブル10Cに格納する。
図7及び図8のフローチャートを参照し、図3に示す時区間PD[7]を例として出現比率による処理工程を説明する。
まず、テキスト収集部14は、予め定められた周期や時刻(検索時刻)にネットワーク96を介してテキストを検索し、テキスト集合TXを生成する(図7:ステップS201)。テキスト収集部14は、さらに、テキストの発行時間を特定する(図7:ステップS202)。
続いて、同義元検索部18は、記憶手段10に登録されている全ての同義元OWについて順次検索する(図7:ステップS203,S207)。同義元OWが検索されると、同義元検索部18は、テキスト集合TX中の単位時間当たりの出現数を算出し(図7:ステップS204)、同義元テーブル10Bに記録する(図7:ステップS205)。
収集したテキスト集合TXに対して全ての同義元OWの検索が終了すると、次のテキスト収集を待機し、出現数を算出していない同義元があれば、次の同義元を特定して(図7:ステップS207)、検索する(図7:ステップS203)。
同義元検索部18は、同義候補EWと時区間PD[7]とが特定されている際には、図6の同義元テーブル10Bに示すように、時区間PD[7]の前の区間の同義元OW[8]の出現数(100)と、時区間PD[7]中の同義元OW[8]の出現数(400)とを記録する。
図8のフローチャートにあって、同義候補検索部16は、まず、同義表現候補記録部10に登録されている同義候補EWを順次検索する(図8:ステップS211,S213)。同義候補EWが予め定められた数以上発見されると(図8:ステップS212)、同義期間開始判定部22は、発見したテキストの発行時間を開始時点として、同義候補EWの時区間PDを開始する。図3に示す例では、時区間PD[7]を開始する。
続いて、同義期間開始判定部22の時区間中処理22cは、同義候補EWが検索された時区間PD[7]での同義元OWの出現数を計算し(図8:ステップS216)、同義元テーブル10Bに記録する。ここでは、図3に示す最短の単位時間ではなく、一定時間まとめた総数(400)とすると良い。
そして、時区間前処理22dは、当該各同義元OWの時区間PD前での同様の一定時間まとめた出現数(100)を計算し(図8:ステップS217)、同義元テーブル10Bに記録する。
更に、比率判定処理22eは、時区間PD前の出現数(100)に対する時区間PD中の出現数(400)の比率(400%)を算出する(ステップS218)。この比率判定処理22eは、さらに、出現比率が最も大きい同義元OW[8]を選択し、この同義元OW[8]との同義期間が同義候補EWの時区間PD[7]の開始点で開始したと判定する(図8:ステップS221)。
そして、同義期間開始判定部22は、この時区分同義である同義関係を同義辞書32に記録する(図8:ステップS222)。
図8に示す出現比率による同義期間の開始判定処理は、通常時には注目度が低い同義元OWとの同義関係の抽出に効果的である。
ここで、上述した各構成の動作部分における動作内容(特に図4,図7及び図8における各動作ステップ)については、これをコンピュータで実行可能にプログラム化し、これらを前述した各ステップを実行する同義関係判定特定手段12が備えているコンピュータに実行させるようにしてもよい。他の実施形態においても同様である。
この場合、プログラム化したプログラムについては、非一時的な記録媒体、例えば、DVDやCD、フラッシュメモリなどに記録させてもよい。その場合、本プログラムは、記録媒体からコンピュータによって読み出され、実行される。
上述したように、本第1実施形態によると、前述したように同義元OWの出現を使用した情報処理により、時区分同義を判定し、特に、開始時間が明確な時区分同義を判定することができる。
〔第2実施形態〕
次に、本発明の第2実施形態を図9乃至図10に基づいて説明する。
まず、図9に示す第2実施形態にあって、同義関係判定装置102は、前述した図1に開示した第1実施形態の各構成に加えて同義期間の終了を判定する同義期間終了判定部24を備えている点に特徴を有する。
即ち、この第2実施形態では、同義関係判定特定手段12が、発行時間順のテキスト集合TXにて同義候補EWの出現が予め定められた条件未満に減少した時点で同義期間が終了したと判定する同義期間終了判定部24を備えている。そして、この同義期間終了判定部24が、同義候補EWの出現が減少した時点で同義関係が終了したと判定するため、多義的で曖昧な同義候補EWの意味が成立する期間を一定期間内に特定することができる。
図10は、本第2実施形態における同義関係判定装置102による情報処理の一例を示すフローチャートである。
まず、同義表現生成部30で、種表現から同義候補EWを生成し、同義表現候補記録部10に記録する(図10:ステップS221)。
次に、同義候補検索部16で、テキスト集合TXを読んでいき、同義表現候補記録部10に記録されている同義候補EWの単位期間あたりの出現数が大きく増加している時区間PDを検出する(図10:ステップS222)。
そして、同義期間開始判定部22で、同義候補検索部16で検出された同義候補EWがどの同義元OWと同義関係にあるかを判定し、同義関係の開始点を判定する(図10:ステップS223)。
この図10に示す例では、同義期間終了判定部24が、同義期間開始判定部22で同義関係にあると判定された同義候補EWの単位期間あたりの出現数が終了しきい値以下になった場合に、同義関係が解消していると判定し(図10:ステップS224)、同義辞書32に当該同義関係の終了時刻を登録する(図10:ステップS225)。
次に、本第2実施形態における効果について説明する。
本実施の形態では、同義関係が終了時刻を出力することが可能であるため、同義関係が成立している時区間PDを正しく判定することが可能となる。
〔第3実施形態〕
次に、本発明の第3実施形態を図11乃至図12に基づいて説明する。
この第3実施形態では、時区間PD内の同義元を1つとし、同義関係の開始、入替及び終了を判定する点に特徴を有する。
まず、図11に示す第3実施形態にあって、同義関係判定装置103は、同義関係抽出部20が、出現計算処理20bと、開始判定処理20cと、入替処理20dと、終了判定処理20eとを備えている。
出現計算処理20bは、同義候補EWがテキスト集合TXで検索された際に当該同義候補EWと関連する複数の同義元OWの出現を計算する。
開始判定処理20cは、出現が予め定められた開始しきい値を超えた同義元OWのうち当該出現が最多の同義元OWについて、当該開始しきい値を超えた時点で同義候補EWとの同義関係が開始したと判定する。
入替処理20dは、同義関係開始後に当該同義元OWの出現が他の同義元OWの出現を下回った際に、当該下回った時点で当該同義関係が終了したと判定すると共に新たに最多の同義元OWについて同義関係が開始したと判定する。
終了判定処理20eは、同義関係開始後に出現が予め定められた終了しきい値を下回った際に、当該下回った時点で当該同義関係が終了したと判定する。
この構成により、多義的な同義候補EWの意味をより高確率な意味に特定することができる。
その他の構成は、前述した第1実施形態の場合と同一となっている。
これを、更に詳細に説明する。
ここで、いま、種表現(同義元)として、図12に示すように「東京電力」と「東北電力」が与えられた場合を想定する。
まず、同義候補生成部30で、同義元OWの形態素の先頭文字を残して省略語を生成したり、同義元OWの1文字を「○」に置換して伏字を生成したりすることで同義候補EWを複数生成する。たとえば、種表現(同義元OW)が「東京電力」の場合、「東電」や「東京電」のような省略語、「東○電力」のような伏字が生成される。
このように「東京電力」(同義元OW[10])の伏字として「東○電力」(同義候補EW)が考えられるが、これは、「東北電力」(同義元OW[11])の伏字にもなりうる。このように、「東○電力」(同義候補EW)が指す内容は「東京電力」(同義元OW[10])や「東北電力」(同義元OW[11])等の曖昧性がある。
また、種表現(同義元OW)が「東北電力」の場合は、「東電」や「東北電」のような省略語、「東○電力」のような伏字が生成される。以上のようにして、図12に示す同義候補リスト10A又はこのようなデータが記憶手段10に記憶される。
このとき、「東電」、「東○電力」は、「東京電力」、「東北電力」のいずれからも生成されており、上述のように曖昧性がある同義候補EWとなっている。
そして、実際には、時刻によって「東○電力」が指す内容が「東京電力」や「東北電力」に変化しうる。
例えば、図13に示す例では、「東○電力」(同義候補EW)は、時区間PD[A]、時区間PD[C]では「東京電力」(同義元OW[10])を、時区間PD[B]では「東北電力」(同義元OW[11])を指しており、同義関係が時刻によって変化している。
ここで、本第3実施形態の情報処理例を前述した図11を参照して説明する。
まず、同義候補生成部30で、種表現中の形態素の先頭文字を残して省略語を生成したり、種表現中の1文字を「○」に置換して伏字を生成したりすることで同義候補EWを複数生成する。
次に、同義候補検索部16及び同義元検索部18で、同義候補EW及び同義元OWがテキスト集合TX中で(突発的に)出現する時点を検出する。テキスト集合TX中の各テキストには、クロール時間、書き込み時間、等の発行時間が付与されており、それをもとに同義候補EW及び同義元OWが出現する時点を検出する。
そして同義関係抽出部20は、テキスト集合TX中で「東京電力」(同義元OW[11])、「東北電力」(同義元OW[11])、「東○電力」(同義候補EW)の出現の頻度を計数し(出現計算処理20b)、図13に示すような出現頻度になっていた場合、図13の時区間PD[A]、時区間PD[B]、及び時区間PD[C]を算出する。
同義関係抽出部20は、同義性を判定する。例えば、図13の時区間PD[A]では、「東○電力」の同義元OWは、「東京電力」と「東北電力」の2つがあるが、時区間PD[A]での出現数が「東京電力」では、1日あたり800個、「東北電力」では、1日あたり150個だとすると、「東京電力」のほうが多く出現するため、時区間PD[A]の開始時点から「東○電力」と「東京電力」が同義関係であると判定し(開始判定処理20c)、同義辞書32に時区間PD[A]の開始時点から「東○電力」と「東京電力」が同義関係にあると登録される。
同様に、同義関係抽出部20は、時区間PD[B]では、「東○電力」と「東北電力」が(入替処理20d)、時区間PD[C]では、「東○電力」と「東京電力」が同義関係であると判定する(入替処理20d)。
以上のように「東○電力」は時期によって同義関係が変化するが、それに応じて同義辞書32も更新されることになり、時期によって意味が変化する同義関係の成立する時区間PDを正しく判定することが可能となる。
続いて、同義関係抽出部20は、同義関係が成立した後の出現数を監視し、図13の時区間PD[D]のように、「東○電力」の出現がしきい値以下に減少し、「東○電力」と同義関係にある「東京電力」の単位期間あたりの出現数も通常と同レベルにまで減少した場合に、「東○電力」と「東京電力」の同義関係が終了したと判断し(終了判定処理20e)、同義辞書32の当該項目に終了時刻とともに同義関係が終了したことを登録する。
これにより、同義候補EWの出現が少なくなり、同義関係が成立すると言えなくなった場合に、終了時刻とともに同義関係が終了したことを判定することができる。
図14は、第3実施形態での別の情報処理例を示すフローチャートである。
この図14に示す処理では、上述の情報処理とはしきい値や終了の扱い等が異なるが情報処理の概要は同様である。
ここでは、同義元OWの単位時間毎の出現については、図7に示すフローチャートで計算され、同義元テーブル10B等に格納されているとする。
まず、図8に示す処理と同様に、同義関係抽出部20が、記憶手段10に記憶されている同義候補EWを検索し(図14:ステップS211)、同義候補EWを発見しない際には(図14:ステップS212)、次の同義候補EWを特定して(図14:ステップS213)、再度検索する(図14:ステップS211)。
図13に示す「東○電力」が検索されたとすると(図14:ステップS212)、同義関係抽出部20は、図12に示す同義候補リスト10Aを参照して「東○電力」に対応する同義元OWである「東京電力」(同義元OW[10])と「東北電力」(同義元OW[11])とを特定する(図14:ステップS215)。
上記出現計算処理20bは、「東○電力」(同義候補EW)がテキスト集合TXで検索された(ステップS212)後、関連する複数の同義元OW[10],[11]のそれぞれの出現を計算する(図14:ステップS301)。
そして、開始判定処理20cは、複数の同義元OW[10],[11]のうち出現が予め定められた開始しきい値を超えたか否かを確認する(図14:ステップS302)。開始判定処理20cは、続いて、開始しきい値を超えている際には、同義元OW群のうち当該出現が最多の「東京電力」(同義元OW[10])を選択する(図14:ステップS303)。そして、開始判定処理20cは、当該開始しきい値を超えた時点で同義候補EWとの同義関係が開始したと判定する(図14:ステップS304)。
図13に示す例では、時区間PD[B]に至ると、同義元OW[10]の出現数が減少して、同義元OW[11]の出現数が増加している。
入替処理20dは、同義関係開始後に、当該同義元OW[10](東京電力)の出現(現出現)が他の同義元OW[11](東北電力)の出現(他出現)を下回った際に(図14:ステップS305)、当該下回った時点で当該同義関係が終了したと判定し、そして、新たに最多の同義元OWについて同義関係が開始したと判定する(図14:ステップS306)。現出現が他出現より多い状態が継続すれば(図14:ステップS305)、この入替処理20dは実行されず、終了処理の判定に移る。
この図13に示す例では、「東北電力」との入替による同義関係の開始後、出現数が終了しきい値を下回らないまま(図14:ステップS307)、時区間PD[C]に至ったとする。ここでは、再度、他出現である「東京電力」との同義関係の入替がなされる(図14:ステップS305,S306)。
東京電力との同義関係が継続したまま、時区間PD[D]に至ると、同義元OW[10]の出現が終了しきい値を下回る(図14:ステップS307)。この場合、終了判定処理20eが、当該下回った時点で当該同義関係が終了したと判定する(図14:ステップS308)。
次に、同義関係を同義辞書32に格納するのみならず、表示デバイスに表示制御する例を説明する。
前述した図11において、実施例3の同義関係判定装置103は、同義関係判定特定手段12に、データを表示する表示デバイス95を併設している。そして、同義関係判定特定手段12が、表示制御部26を備えている。
この表示制御部26は、同義関係抽出部20によって抽出された同義候補EWと、同義関係開始時点と、当該同義関係開始時点で同義関係が開始した同義元OWと、同義関係終了時点とを時区分別同義データTDとして表示制御する。これにより、同義関係の時間変化の情報を含めてテキスト集合TX等をユーザに表示することができる。
さらに、時区間同義によりフィルタリングしたテキスト集合TXを表示すると、ユーザが手作業で個々に同義候補EWとの対応等を検討して検索することと比較して、大幅に作業の生産性を向上させることができる。
本発明の活用例として、インターネットを対象とした風評監視システム、評判抽出システム、等に適用できる。
<実施形態の全体的な動作>
ここで、上記実施例1乃至実施例3の同義関係判定装置101,102,103に共通する情報処理について、ハードウエア資源を参照して説明する。
(ハードウエア資源)
本実施形態における同義関係判定装置101,102,103による情報処理は、ソフトウエアとハードウエア資源とが協働し、使用目的に応じて情報を演算し、又は加工する具体的手段である。
ハードウエア資源として、図15に示すように、情報処理をするコンピュータ80を有している。コンピュータ80は、中央処理装置(CPU)である演算手段82と、この演算手段82に記憶領域を提供する主記憶手段86を有する。コンピュータ80は、一般に、データバス及び入出力インタフェースを通じて接続される周辺機器を有する。周辺機器は、代表的には、通信手段88、外部記憶手段90、入力手段92、出力手段94である。周辺機器を含めた全体をコンピュータ80ということもある。
通信手段88は、有線又は無線のネットワークを介してサーバ装置70との通信を制御する。外部記憶手段90は、プログラムファイル100や、データを記憶する据え付け又は持ち運び可能な記憶媒体である。入力手段92はキーボード、タッチパネル、ポインティングデバイス、スキャナ等でありユーザの操作に応じてコンピュータ80で読み取り可能なデータを入力する。出力手段94は、ディスプレイ、プリンタなどコンピュータ80が計算したデータ等を表示出力する。
本実施形態による同義関係判定装置101,102,103の記憶手段10は、外部記憶手段90をハードウエア資源として使用して同義候補リスト10A等のデータを記憶する。また、同義関係判定特定手段12は、CPUである演算手段82をハードウエア資源として使用して、テキスト集合TXに対するデータ処理を実行する。すなわち、同義関係判定特定手段12は、プログラムを実行するコンピュータ80で実現することができる。
上述した各実施形態について、その新規な技術内容の要点をまとめると、以下のようになる。尚、上記実施形態の一部又は全部は、新規な技術としては以下のようにまとめられるが、本発明は必ずしもこれに限定されるものではない。
〔付記1〕
所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部10と、外部入力されるテキスト中における前記同義表現候補と前記同義元表現との同義関係を一定の基準に基づいて判定し特定する同義関係判定特定手段12とを備えた同義関係判定装置であって、
前記同義関係判定特定手段12が、
外部入力される前記テキストを収集しこれに基づいて発行時間が特定可能なテキスト集合を生成するテキスト収集部14と、
このテキスト収集部14で収集されたテキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを特定し出力する同義候補検出部12Aと、
前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定部12Bと、
を備えたことを特徴とする同義関係判定装置。
〔付記2〕
付記1に記載の同義関係判定装置において、
前記同義候補検出部12Aを、前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を(前記同義表現候補が存在する時区間として)特定する同義候補検索部16と、同じく前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を(前記同義元表現が存在する時区間として)特定する同義元検索部18とを含む構成としたことを特徴とする同義関係判定装置。
〔付記3〕
付記1又は2に記載の同義関係判定装置において、
前記同義期間特定部12Bを、前記同義候補検出手段で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出する同義関係抽出部20と、この抽出された同義元表現が前記同義表現候補と同義関係にあると判定すると共に当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを同義期間と共に予め装備した同義辞書に登録する同義期間開始判定部22とを含む構成としたことを特徴とする同義関係判定装置。
〔付記4〕
付記3に記載の同義関係判定装置において、
前記同義期間開始判定部22は、前記同義表現候補が前記テキスト集合で検出される時区間における集合中で、前記時区間での単位時間あたりの出現数と前記時区間以前での単位時間あたりの出現数の比率が最も大きい同義元表現についても、これを前記同義表現候補と同義関係にあると判定する機能を備えていることを特徴とした同義関係判定装置。
〔付記5〕
付記1,2,3,又は4に記載の同義関係判定装置において、
前記同義期間特定部12Bは、
当該同義期間特定部12Bの前記同義期間開始判定部22で同義関係にあると判定され特定された同義表現候補についてその単位期間あたりの出現数が予め設定したしきい値以下になった時点で、前記同義関係が解消した旨判定する同義期間終了判定部24を備えていることを特徴とした同義関係判定装置。
〔付記6〕(方法の発明/付記1対応)
所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部10と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定手段12を備えた同義関係判定装置にあって、
外部入力される前記テキストを収集しこれに基づいて発行時間が特定できるテキスト集合を、前記同義関係判定特定手段12のテキスト収集部が生成し(テキスト集合生成工程)、
この生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、前記同義関係判定特定手段12が一定の基準に基づいて判定すると共に特定し(同義関係特定工程)、
前記同義関係を特定する工程にあっては、
前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ前記同義関係判定特定手段12の同義候補検出部12Aが検索して特定し(同義候補検出工程)、
続いて、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義関係判定特定手段12の同義期間特定部12Bが前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定するようにしたこと(同義期間特定工程)を特徴とする同義関係判定方法。
〔付記7〕(付記2対応)
付記6に記載の同義関係判定方法において、
前記同義候補を検出する工程にあっては、
前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定し(同義候補対応・時区間特定工程)、
これと相前後して同じく前記テキスト収集部で収集された前記テキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する構成(同義元対応・時区間特定工程)とし、
これらの各時区間の特定工程における動作内容を前記同義候補検出部12Aが実行することを特徴とした同義関係判定方法。
〔付記8〕(付記3対応)
付記6に記載の同義関係判定方法において、
前記同義期間を特定する工程にあっては、
前記同義候補の検出工程で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出し(同義関係抽出工程)、
これと相前後して、同じく前記抽出された同義元表現が前記同義表現候補と同義関係にあると判定し且つ当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを前記同義期間と共に予め装備した同義辞書に登録する構成とし(同義期間登録工程)、
これらの各抽出/登録工程の動作内容を前記同義区間特定手段12Bが実行することを特徴とした同義関係判定方法。
〔付記9〕(付記5対応)
付記6,7又は8に記載の同義関係判定方法において、
前記同義期間特定部12Bで同義関係にあると判定された同義表現候補の単位期間あたりの出現数を継続的に計数すると共にその出現数が予め設定したしきい値以下になった場合には、前記同義期間特定部12Bの同義期間終了判定部24が前記同義関係が解消したと判定する構成としたことを特徴とする同義関係判定方法。
〔付記10〕(プログラム発明/付記6対応)
所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部10と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定手段12とを備えた同義関係判定装置にあって、
外部入力されるテキストを収集して発行時間を特定できるテキスト集合を生成するテキスト集合生成処理機能、
および生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、一定の基準に基づいて判定すると共に特定処理する同義関係特定処理機能を設けると共に、
前記同義関係特定処理機能が、
前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ検索して特定処理する同義候補検出処理機能、
および前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定処理機能を含む構成とし、
これらの各処理機能を前記同義関係判定特定手段12が備えているコンピュータに実現させるようにしたことを特徴とした同義関係判定プログラム。
〔付記11〕(付記7対応)
付記10に記載の同義関係判定プログラムにおいて、
前記同義候補検出処理機能が、
前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する同義候補対応・時区間特定処理機能、
および前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する同義元対応・時区間特定処理機能、を備えた構成とし、
これら各時区間特定処理機能を前記同義関係判定特定手段12が備えているコンピュータに実現させるようにしたことを特徴とする同義関係判定プログラム。
〔付記12〕(付記8対応)
付記10に記載の同義関係判定プログラムにおいて、
前記同義期間特定処理機能が、
前記同義候補検出処理機能で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出する同義関係抽出処理機能、
およびこれと相前後して、同じく前記抽出された同義元表現が前記同義表現候補と同義関係にあると判定し且つ当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを前記同義期間と共に予め装備した同義辞書に登録する同義期間登録処理機能、を備えた構成とし、
これらの各処理機能を前記同義関係判定特定手段12が備えているコンピュータに実現させるようにしたことを特徴とする同義関係判定プログラム。
〔付記13〕(付記9対応)
付記10,11又は12に記載の同義関係判定プログラムにおいて、
前記同義関係特定処理機能が、
前記同義関係にあると判定された同義表現候補の単位期間あたりの出現数を継続的に計数すると共にその出現数が予め設定したしきい値以下になった場合に、その時点で前記同義関係が解消したと判定する同義期間終了判定機能を備え、
これを前記同義関係判定特定手段12が備えているコンピュータに実現させるようにしたことを特徴とする同義関係判定プログラム。
この出願は2012年3月30日に出願された日本出願特願2012−082722を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、同義関係を利用する全ての自然語データ処理に対して適用可能である。
10 記憶手段
12 同義関係判定特定手段
12A 同義候補検出部
12B 同義期間特定部
14 テキスト収集部
16 同義候補検索部
18 同義元検索部
18a 複数出現処理
20 同義関係抽出部
22 同義期間開始判定部
24 同義期間終了判定部
26 表示制御部
30 同義候補生成部
32 同義辞書
EW 同義候補
OW 同義元
PD 時区間
D 時区分別同義データ
TX テキスト集合

Claims (10)

  1. 所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部と、外部入力されるテキスト中における前記同義表現候補と前記同義元表現との同義関係を一定の基準に基づいて判定し特定する同義関係判定特定手段とを備えた同義関係判定装置であって、
    前記同義関係判定特定手段が、
    外部入力される前記テキストを収集しこれに基づいて発行時間が特定可能なテキスト集合を生成するテキスト収集部と、
    このテキスト収集部で収集されたテキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを特定し出力する同義候補検出部と、
    前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定部と、
    を備えたことを特徴とする同義関係判定装置。
  2. 請求項1に記載の同義関係判定装置において、
    前記同義候補検出部を、前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を前記同義表現候補が存在する時区間として特定する同義候補検索部と、同じく前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を前記同義元表現が存在する時区間として特定する同義元検索部とを含む構成としたことを特徴とする同義関係判定装置。
  3. 請求項1又は2に記載の同義関係判定装置において、
    前記同義期間特定部を、前記同義候補検出部で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出する同義関係抽出部と、この抽出された同義元表現が前記同義表現候補と同義関係にあると判定すると共に当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを同義期間と共に予め装備した同義辞書に登録する同義期間開始判定部とを含む構成としたことを特徴とする同義関係判定装置。
  4. 請求項3に記載の同義関係判定装置において、
    前記同義期間開始判定部は、前記同義表現候補が前記テキスト集合で検出される時区間における集合中で、前記時区間での単位時間あたりの出現数と前記時区間以前での単位時間あたりの出現数の比率が最も大きい同義元表現についても、これを前記同義表現候補と同義関係にあると判定する機能を備えていることを特徴とした同義関係判定装置。
  5. 請求項1,2,3,又は4に記載の同義関係判定装置において、
    前記同義期間特定部は、
    当該同義期間特定部の前記同義期間開始判定部で同義関係にあると判定され特定された同義表現候補についてその単位期間あたりの出現数が予め設定したしきい値以下になった時点で、前記同義関係が解消した旨判定する同義期間終了判定部を備えていることを特徴とした同義関係判定装置。
  6. 所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定手段を備えた同義関係判定装置にあって、
    外部入力される前記テキストを収集しこれに基づいて発行時間が特定できるテキスト集合を、前記同義関係判定特定手段のテキスト収集部が生成し、
    この生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、前記同義関係判定特定手段が一定の基準に基づいて判定すると共に特定し、
    前記同義関係を特定する工程にあっては、
    前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ前記同義関係判定特定手段の同義候補検出部が検索して特定し、
    次に、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義関係判定特定手段の同義期間特定部が前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定するようにしたことを特徴とする同義関係判定方法。
  7. 請求項6に記載の同義関係判定方法において、
    前記同義候補を検出する工程にあっては、
    前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定し、
    これと相前後して同じく前記テキスト収集部で収集された前記テキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する構成とし、
    これらの各時区間の特定工程における動作内容を前記同義候補検出部が実行することを特徴とした同義関係判定方法。
  8. 請求項6に記載の同義関係判定方法において、
    前記同義期間を特定する工程にあっては、
    前記同義候補の検出工程で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出し、
    これと相前後して、同じく前記抽出された同義元表現が前記同義表現候補と同義関係にあると判定し且つ当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを前記同義期間と共に予め装備した同義辞書に登録する構成とし、
    これらの各抽出/登録工程の動作内容を前記同義区間特定手段が実行することを特徴とした同義関係判定方法。
  9. 所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定手段とを備えた同義関係判定装置にあって、
    外部入力されるテキストを収集して発行時間を特定できるテキスト集合を生成するテキスト集合生成処理機能、
    および生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、一定の基準に基づいて判定すると共に特定処理する同義関係特定処理機能を設けると共に、
    前記同義関係特定処理機能が、
    前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ検索して特定処理する同義候補検出処理機能、
    および前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定処理機能を含む構成とし、
    これらの各処理機能を前記同義関係判定特定手段が備えているコンピュータに実現させるようにしたことを特徴とした同義関係判定プログラム。
  10. 請求項9に記載の同義関係判定プログラムにおいて、
    前記同義候補検出処理機能が、
    前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する同義候補対応・時区間特定処理機能、
    および前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する同義元対応・時区間特定処理機能、を備えた構成とし、
    これら各時区間特定処理機能を前記同義関係判定特定手段が備えているコンピュータに実現させるようにしたことを特徴とする同義関係判定プログラム。
JP2014507891A 2012-03-30 2013-03-26 同義関係判定装置、同義関係判定方法、及びそのプログラム Active JP6394388B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014507891A JP6394388B2 (ja) 2012-03-30 2013-03-26 同義関係判定装置、同義関係判定方法、及びそのプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2012082722 2012-03-30
JP2012082722 2012-03-30
PCT/JP2013/058696 WO2013146736A1 (ja) 2012-03-30 2013-03-26 同義関係判定装置、同義関係判定方法、及びそのプログラム
JP2014507891A JP6394388B2 (ja) 2012-03-30 2013-03-26 同義関係判定装置、同義関係判定方法、及びそのプログラム

Publications (2)

Publication Number Publication Date
JPWO2013146736A1 true JPWO2013146736A1 (ja) 2015-12-14
JP6394388B2 JP6394388B2 (ja) 2018-09-26

Family

ID=49259987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014507891A Active JP6394388B2 (ja) 2012-03-30 2013-03-26 同義関係判定装置、同義関係判定方法、及びそのプログラム

Country Status (4)

Country Link
US (1) US9489370B2 (ja)
JP (1) JP6394388B2 (ja)
SG (1) SG11201406240WA (ja)
WO (1) WO2013146736A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9009197B2 (en) 2012-11-05 2015-04-14 Unified Compliance Framework (Network Frontiers) Methods and systems for a compliance framework database schema
US10152532B2 (en) * 2014-08-07 2018-12-11 AT&T Interwise Ltd. Method and system to associate meaningful expressions with abbreviated names
JP6481643B2 (ja) * 2016-03-08 2019-03-13 トヨタ自動車株式会社 音声処理システムおよび音声処理方法
JP2017167851A (ja) * 2016-03-16 2017-09-21 株式会社東芝 概念辞書作成装置、方法およびプログラム
US10943075B2 (en) * 2018-02-22 2021-03-09 Entigenlogic Llc Translating a first language phrase into a second language phrase
US11182416B2 (en) 2018-10-24 2021-11-23 International Business Machines Corporation Augmentation of a text representation model
US10824817B1 (en) * 2019-07-01 2020-11-03 Unified Compliance Framework (Network Frontiers) Automatic compliance tools for substituting authority document synonyms
US10769379B1 (en) 2019-07-01 2020-09-08 Unified Compliance Framework (Network Frontiers) Automatic compliance tools
US11120227B1 (en) 2019-07-01 2021-09-14 Unified Compliance Framework (Network Frontiers) Automatic compliance tools
CA3191100A1 (en) 2020-08-27 2022-03-03 Dorian J. Cougias Automatically identifying multi-word expressions
US20230031040A1 (en) 2021-07-20 2023-02-02 Unified Compliance Framework (Network Frontiers) Retrieval interface for content, such as compliance-related content

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877178A (ja) * 1994-09-01 1996-03-22 Ibm Japan Ltd 情報検索システム及び方法
JPH10320419A (ja) * 1997-05-22 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 情報関連づけ装置およびその方法
JPH11312168A (ja) * 1998-04-28 1999-11-09 Nippon Telegr & Teleph Corp <Ntt> 同義語計算装置及びその方法並びに同義語計算プログラムを記録した媒体

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003296354A (ja) 2002-03-29 2003-10-17 Mitsubishi Electric Corp 辞書作成装置
US7636714B1 (en) 2005-03-31 2009-12-22 Google Inc. Determining query term synonyms within query context
US7925498B1 (en) 2006-12-29 2011-04-12 Google Inc. Identifying a synonym with N-gram agreement for a query phrase
US8037086B1 (en) 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
US8001136B1 (en) 2007-07-10 2011-08-16 Google Inc. Longest-common-subsequence detection for common synonyms
US9092517B2 (en) 2008-09-23 2015-07-28 Microsoft Technology Licensing, Llc Generating synonyms based on query log data
US8612202B2 (en) 2008-09-25 2013-12-17 Nec Corporation Correlation of linguistic expressions in electronic documents with time information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877178A (ja) * 1994-09-01 1996-03-22 Ibm Japan Ltd 情報検索システム及び方法
JPH10320419A (ja) * 1997-05-22 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 情報関連づけ装置およびその方法
JPH11312168A (ja) * 1998-04-28 1999-11-09 Nippon Telegr & Teleph Corp <Ntt> 同義語計算装置及びその方法並びに同義語計算プログラムを記録した媒体

Also Published As

Publication number Publication date
SG11201406240WA (en) 2014-11-27
WO2013146736A1 (ja) 2013-10-03
US20150066478A1 (en) 2015-03-05
US9489370B2 (en) 2016-11-08
JP6394388B2 (ja) 2018-09-26

Similar Documents

Publication Publication Date Title
JP6394388B2 (ja) 同義関係判定装置、同義関係判定方法、及びそのプログラム
US10558754B2 (en) Method and system for automating training of named entity recognition in natural language processing
KR101713831B1 (ko) 문서추천장치 및 방법
US20160335234A1 (en) Systems and Methods for Generating Summaries of Documents
Shi et al. Learning-to-rank for real-time high-precision hashtag recommendation for streaming news
WO2013148852A1 (en) Named entity extraction from a block of text
JP6429382B2 (ja) コンテンツ推薦装置、及びプログラム
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN104978332B (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
WO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
CN102737021A (zh) 搜索引擎及其实现方法
JP2018055142A (ja) シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム
US11887011B2 (en) Schema augmentation system for exploratory research
JP2014197300A (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
US8037403B2 (en) Apparatus, method, and computer program product for extracting structured document
Nasim et al. Evaluation of clustering techniques on Urdu News head-lines: A case of short length text
WO2019231635A1 (en) Method and apparatus for generating digest for broadcasting
Fabo et al. Mapping the Bentham Corpus: concept-based navigation
Ung et al. Combination of features for vietnamese news multi-document summarization
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
JP2017068862A (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Lama Clustering system based on text mining using the K-means algorithm: news headlines clustering
Tsapatsoulis Web image indexing using WICE and a learning-free language model
KR20130142192A (ko) 통신 네트워크를 통한 비디오 콘텐트 검색들을 위한 보조

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180813

R150 Certificate of patent or registration of utility model

Ref document number: 6394388

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150