JPWO2013146736A1

JPWO2013146736A1 - 同義関係判定装置、同義関係判定方法、及びそのプログラム

Info

Publication number: JPWO2013146736A1
Application number: JP2014507891A
Authority: JP
Inventors: 貴士大西; 石川　開; 開石川; 正明土田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-03-30
Filing date: 2013-03-26
Publication date: 2015-12-14
Anticipated expiration: 2033-03-26
Also published as: US20150066478A1; JP6394388B2; WO2013146736A1; SG11201406240WA; US9489370B2

Abstract

【課題】不特定多数からのテキストで使用される自然語から時間と共に意味が変化する同義候補の同義関係を抽出し、汎用化された同義関係判定装置を提供すること。【解決手段】同義候補ＥＷを当該同義元ＯＷと関連させて記憶する同義表現候補記憶部１０と、テキストを発行時間と関連させて収集するテキスト収集部１４と、同義候補ＥＷがテキスト集合ＴＸ上で検索される時区間ＰＤを当該テキストの発行時間から計算する同義候補検索部１６と、同義候補ＥＷが検索される時区間ＰＤと重なる期間のテキスト集合ＴＸから同義元ＯＷを検索して同義元ＯＷの出現を計算する同義元検索部１８と、同義候補ＥＷが検索された時区間ＰＤに同義元ＯＷの出現がある際には、同義候補ＥＷと同義元ＯＷと間に同義関係を抽出する同義関係抽出部２０とを備えたこと。【選択図】図１

Description

本発明は、同義関係期間判定装置、同義関係期間判定方法、及び、同義関係期間判定プログラムに関し、特に同義関係が成立する期間を判定する同義関係期間判定装置、同義関係期間判定方法、及び、同義関係期間判定プログラムに関する。

自然語データを対象とする情報処理では、自然語と自然語との意味上の関係をコンピュータで計算可能な状態で自動的に取得することが難しい。意味上の関係としては、上位概念と下位概念との関係や、同義語となる同義関係などがある。自然言語アプリケーションでは、特に、同義関係の獲得と利用が重要である。

特に、インターネット上の風評の監視といったタスクの場合、組織名や商品名の正式名称を検索クエリとし、それにマッチした文書を監視対象とするのは不十分で、組織名や商品名の別名、省略形、伏字、隠語といった同義表現を獲得し、それらを検索クエリに追加することで、監視のもれを少なくすることが必要となる。
そのため、同義表現を自動獲得するさまざまな手法が提案されている。

例えば、非特許文献１では、同義表現候補の中で出現する文脈が類似しているものを同義表現として自動的に獲得しようとする手法が提案されている。すなわち、ある文に出現する語の共通性に基づいて、同時に使用される語が共通する際に、同義関係があると自動判定を試みている。

又、特許文献１には、時間と共に同義関係が変化することに対応した同義語辞書の自動作成を目的として、各検索語の使用頻度の時系列の相関係数に基づいて単語同士の関連度を定義する手法が記載されている。
特許文献２には、「○菱電気」・「某Ａ庁」等の隠語と「三菱電機」・「防衛庁」等の元の表現との同義関係を抽出することを目的として、「○」等の隠語表現リストから照合用索引を生成して、元の表現と照合することにより同義語関係を抽出する手法が開示されている。

特許文献３には、番組名とその略称や愛称等の同義関係を抽出することを目的として、放送局と放送時間の情報を使用して、同義語の候補からシリーズ名や各回タイトルを除いた語を同義語とする手法が開示されている。

特開平１１−３１２１６８号公報特開２００３−２９６３５４号公報特開２００６−１６３７１０号公報

寺田ら、"文脈情報による同義語辞書作成支援ツール"、社団法人情報処理学会研究報告自然言語処理研究会報告２００６（１２４）、２００６年１１月、ｐ．８７−９４

しかしながら、同義表現の中でも省略語や伏字のなかには、曖昧性がある場合や、時間的に意味が変化する場合があるため、既存の同義表現獲得手法では正しく同義であると判定することが困難である。例えば、「東京電力」の伏字として「東○電力」が考えられるが、これは「東北電力」の伏字にもなりうる。このように、「東○電力」が指す内容は「東京電力」や「東北電力」等の曖昧性がある。

また、実際には、時刻によって「東○電力」が指す内容が「東京電力」や「東北電力」に変化しうる。例えば、図１３の例では、「東○電力」は、時刻Ａ及び時刻Ｃでは「東京電力」を、時刻Ｂでは「東北電力」を指しており、同義関係が時刻によって変化している例となっている。

このような場合、既存の方法では時刻によって内容が変化するような同義表現を考慮していないため正しく同義性を判定できない。同義性の判定に文脈を用いる非特許文献１のような手法では、時間情報を利用していないため時刻によって同義性が変化することを考慮していない。

また、時系列相関を用いる特許文献１のような手法でも、時刻によって同義性が変化する場合、図１３に示すように「東○電力」は「東京電力」、「東北電力」のどちらとも相関が高くならず、同義関係があると判定できない。つまり、特許文献１の場合も時刻によって同義性が変化しないことを前提にして同義性を判定しているため、時刻によって同義性が変化する場合に同義性がある時区間を特定することができない。

前述した非特許文献１では、文脈を用いて同義性を判定することができるが、時間情報を利用していないため、時刻で変化する同義性を把握することができない。
即ち、時間の推移によって同義性が変化し、一つの同義候補が時間によっては異なる同義元と同義となる場合には、特許文献１のような手法で算出する時系列相関は高くならず、その結果、同義関係を抽出できない。

又、特許文献２記載の手法では、隠語や伏せ字に用いられる語（○、「ル」に対して「ノ」と「レ」の組み合わせ「ノレ」）を使用して同義元と同義となる同義候補を生成することができるが、同義候補の意味の時間変化をとらえることはできない。
特許文献３記載の手法では、同義語の判定に時間情報を使用しているが、同一の情報源（放送局）からの情報を対象としており、不特定多数から収集されるテキスト集合に対しては適用することができない。

更に、上述した非特許文献１、特許文献１乃至３、及びこれらを組み合わせた技術では、同義候補の意味が時間とともに変化する際に、同義候補と同義元との同義性を正確に判定することができない、という不都合があった。

［発明の目的］
本発明は、不特定多数からのテキストで使用される自然語から、時間と共に意味が変化する同義候補の同義関係を有効に抽出し特定することを可能とした同義関係判定装置、同義関係判定方法、及びそのプログラムを提供することを、その目的とする。

上記目的を達成するため、本発明に係る同義関係判定装置は、所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部と、外部入力されるテキスト中における前記同義表現候補と前記同義元表現との同義関係を一定の基準に基づいて判定し特定する同義関係判定特定手段とを備えている。
そして、前記同義関係判定特定部が、外部入力される前記テキストを収集しこれに基づいて発行時間が特定可能なテキスト集合を生成するテキスト収集部と、このテキスト収集部１４で収集されたテキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを特定し出力する同義候補検出手段と、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定手段とを備えたことを特徴としている。

上記目的を達成するため、本発明に係る同義関係判定方法は、所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定部を備えた同義関係判定装置にあって、
外部入力される前記テキストを収集しこれに基づいて発行時間が特定できるテキスト集合を、前記同義関係判定特定部のテキスト収集部が生成し（テキスト集合生成工程）、
この生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、前記同義関係判定特定部が一定の基準に基づいて判定すると共に特定し（同義関係特定工程）、
前記同義関係を特定する工程にあっては、
前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ前記同義関係判定特定部の同義候補検出手段が検索して特定し（同義候補検出工程）、
続いて、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義関係判定特定部の同義期間特定手段が前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定するように構成したこと（同義期間特定工程）を特徴とする。

上記目的を達成するため、本発明に係る同義関係判定用プログラムは、所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部１０と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定手段とを備えた同義関係判定装置にあって、
外部入力されるテキストを収集して発行時間を特定できるテキスト集合を生成するテキスト集合生成処理機能、および生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、一定の基準に基づいて判定すると共に特定処理する同義関係特定処理機能を設けると共に、
前記同義関係特定処理機能が、前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ検索して特定処理する同義候補検出処理機能、および前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定処理機能を含む構成とし、
これらの各処理機能を前記同義関係判定特定手段が備えているコンピュータに実現させるようにしたことを特徴としている。

本発明は以上のように、同義表現候補が多く出現した時点を捉えて同義性の判定を行うように構成したので、同義関係が成立した開始時刻を出力することが可能となり、そのため、時刻によって同義性が変化する場合に、その同義関係が成立する時区間を判定することが可能となるという前述した関連技術にない優れた同義関係判定装置、同義関係判定方法、及びそのプログラムを提供することができる。

本発明に係る同義関係判定装置の第１実施形態を示すブロック図である。図１にて使用される同義候補リストの一例を示す説明図である。図１にて使用される同義元の出現の時間推移と同義候補の出現の時間推移の例を示す説明図である。図１に開示した第１実施形態の全体的な動作を示すフローチャートである。図１に開示した第１実施形態における同義期間開始判定部の構成例を示すブロック図である。図５に開示した同義期間開始判定部の他の構成例及び使用するテーブルの例を示す説明図である。図６に示す同義期間開始判定部の他の構成例にあって、同義元の出現数を計算する処理の一例を示すフローチャートである。同義元の出現数を使用して同義候補との同義期間の開始を判定する処理の一例を示すフローチャートである。本発明に係る同義関係判定装置の第２実施形態を示すブロック図である。図９に開示した第２実施形態の動作を示すフローチャートである。本発明に係る同義関係判定装置の第３実施形態を示すブロック図である。図１１に開示した第３実施形態で使用する同義候補リストの一例を示す説明図である。テキスト集合中の同義候補及び同義元の出現数の一例を示すグラフ図である。第３実施形態における情報処理例を示すフローチャートである。本発明の各実施形態に共通するハードウエア資源の構成例を示すブロック図である。

以下、本発明の第１実施形態を図１乃至図８に基づいて説明する。
最初に、同義関係の概念を明確にすると共に本第１実施形態の基本的な構成内容を説明し、その後に本第１実施形態について、更に詳述する。

（同義関係の概念）
まず、本第１実施形態では、二つの語（自然語の語句）の同義関係を期間に対応させて判定するようにした。
ここで、同義関係は、種表現となる同義元と、この同義元と同義性を持つ可能性のある同義候補の表現とである。例えば、「日本電気」と「ＮＥＣ」と「日電」という自然語の語句は、語としての同義性を持つ。そして、「日本電気」を種表現である同義元とすると、「ＮＥＣ」「日電」は同義候補である。

そして、本第１実施形態では、時間的に変化する同義関係を抽出する。時間的に変化する同義関係としては、同義表現候補が多義的であって複数の同義元の候補となる場合や、同義元について時間的に関心や関係性が変化していくことで意味が変化する場合などがある。例えば「朝日」は多義的で、新聞、生命保険、飲料など異なる社名を同義元とする。そして、不特定多数から主にインターネットを介して発信されるテキスト（文章）では、「アサヒ」は朝には新聞を意味することが多く、夜には飲料を意味することが多いという傾向が現れる可能性もある。

同義元について時間的に関心や関係性が変化する例としては、番組中で成長する主人公の男優名が、「少年」、「青年」、「恋人」、「夫」、「父」、「祖父」などの語との同義関係を構築しては失うような時間変化がある。この例では、１年間の連続番組であれば数ヶ月毎に同義関係が変化する。

また、通常の辞書に使用されていた用語が流行語として別の意味を獲得することで同義関係を構築することがある。例えば、「サポーター」、「タマちゃん」、「埋蔵金」、「仕分け」、「なでしこ」などは、語の流行開始の前後で同義関係が変化する。流行語が特別な意味を獲得した後、その特別な意味を失うと、同義関係が再度変化する。このような変化は数年又は数十年単位となる。

隠語や伏せ字を用いた表現（同義表現候補となる）は、多義的になりやすく、同義関係も変化しやすい。会社名をアルファベット一文字で表し、また、人物をアルファベット数文字のイニシャルで表すと、同義関係を構築可能な同義元は複数生じる。例えば「ＮＥＣ」を「ＮＥ○」と伏せ字表現すると、「ＮＥＴ」「ＮＥＷ」「ＮＥＯ」などの解釈も生じる。
社名をアルファベット表記している場合、何らかのニュースとの関係で伏せ字での電子的な対話がなされることがある。このような場合、ニュースとなったことで同義元の出現数が増加する時期に、当該伏せ字の出現が現れ、同義性を持つ。このようなニュース等による同義性は、数時間で終了することもある。

（基本的内容）
本第１実施形態にあって、同義関係判定装置１０１は、図１に示すように、所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部１０と、外部入力されるテキスト中における前記同義表現候補と前記同義元表現との同義関係を一定の基準に基づいて判定し特定する同義関係判定特定手段１２と、を備えている。
また、同義表現候補記録部１０には、同義表現候補を生成するための種となる表現を入力しその種表現から同義候補を生成する同義候補生成部１０Ａが併設されている。

そして、上記同義関係判定特定手段１２は、外部入力される前記テキストを収集しこれに基づいて発行時間が特定可能なテキスト集合を生成するテキスト収集部１４と、このテキスト収集部１４で収集されたテキスト集合から前述した同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを特定し出力する同義候補検出部１２Ａと、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定部１２Ｂとを備えている。

このため、上記基本構成によると、詳細は後述するが、同義表現候補が多く出現した時点を捉えて同義性の判定を行うようにしたので、同義関係が成立した開始時刻を出力することが可能となり、そのため、時刻によって同義性が変化する場合に、その同義関係が成立する時区間を判定することが可能となる。

ここで、上記同義候補検出部１２Ａは、前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を（前記同義表現候補が存在する時区間として）特定する同義候補検索部１６と、同じく前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を（前記同義元表現が存在する時区間として）特定する同義元検索部１８とを含む構成となっている。

又、上記同義期間特定部１２Ｂは、前記同義候補検出手段で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出する同義関係抽出部２０と、この抽出された同義元表現が前記同義表現候補と同義関係にあると判定すると共に当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを同義期間と共に予め装備した同義辞書３２に登録する同義期間開始判定部２２とを含む構成となっている。

上記した同義期間開始判定部２２は、前記同義表現候補が前記テキスト集合で検出される時区間における集合中で、前記時区間での単位時間あたりの出現数と前記時区間以前での単位時間あたりの出現数の比率が最も大きい同義元表現についても、これを前記同義表現候補と同義関係にあると判定する機能を備えている。

更に、前記同義期間特定部１２Ｂは、当該同義期間特定部１２Ｂの前記同義期間開始判定部２２で同義関係にあると判定され特定された同義表現候補についてその単位期間あたりの出現数が予め設定したしきい値以下になった時点で、前記同義関係が解消した旨判定する同義期間終了判定部２４を備えている。

ここで、上述した同義候補生成部１０Ａは、前述したように同義表現候補を生成するための種となる表現（以下「種表現」と呼ぶ）を入力とし、その種表現から同義表現候補を生成する機能を備えている。この場合、同義表現候補は、種表現に対して部分文字列を抽出して省略語を生成する、種表現の一部を特定の文字に置換して伏字を生成する、種表現を別の言語に翻訳した翻訳表現を生成する、等の操作を複数回適用して、複数生成される。

また、同義表現候補記録部１０は、同義候補生成部１０Ａで生成した同義表現候補を記録する。同義表現候補を見出しとし、対応する種表現（以下、「同義元表現」と呼ぶ）を１個以上記録する。ここで、複数の同義元表現が記録された同義表現候補は、曖昧性のある同義表現候補である。

同義候補検出部１２Ａは、発行時間を特定できるテキスト集合を読んでいき、同義表現候補記録部１０に記録されている同義表現候補、同義元表現が各時点で何回出現しているかを計数する機能を備えている。そして、同義表現候補の単位期間あたりの出現数が大きく増加している時区間を検出する。

更に、同義期間判定手段１２Ｂは、同義候補検出部１２Ａで検出した時区間でのテキスト集合を用いて同義表現候補と同義関係にある同義元表現を特定し、それらが同義関係にある期間を同義辞書３２に登録する。

また、同義期間判定手段１２Ｂの一部を成す同義期間開始判定部２２は、同義候補検出部１２Ａで検出された同義表現候補が、対応する同義元表現のどれと同義関係にあるかを判定し、同義関係であった場合、同義候補検出部１２Ａで検出された時区間の開始点を同義関係の開始点として同義辞書３２に登録する。

この同義関係の判定は、同義表現候補が検出された時区間のテキスト集合中で、最も出現数の多い同義元表現、若しくは、前記時区間での単位時間あたりの出現数と前記時区間以前での単位時間あたりの出現数の比率が最も大きい同義元表現、を前記同義表現候補と同義関係にあると判定することで行う。
同義辞書５は、同義関係にある表現を記録する辞書であり、同義関係の開始、終了時刻もあわせて登録することができる。

上述したように、本第１実施形態において、同義関係判定装置１０１は、同義表現候補記録部１０と同義関係判定特定手段１２とを備えている。そして、同義関係判定特定手段１２は、テキスト収集部１４と、同義候補検索部１６と、同義元検索部１８と、同義関係抽出部２０と、同義期間開始判定部２２とを備えている。更に、この同義関係判定装置１０１は、同義候補生成部３０と、同義辞書３２とを備えている。
そして、この構成により、同義関係が成立する時区間ＰＤを判定しようとするものである。

ここで、前述したように、同義候補検索部１６と同義元検索部１８とにより同義候補検出部１２Ａが構成され、同義関係抽出部２０と同義期間開始判定部２２とにより同義期間判定手段１２Ｂが構成されている。

同義表現候補記録部１０は、同義元ＯＷである語に対して同義語となる候補の同義候補ＥＷを当該同義元ＯＷと関連させて予め記憶する。この同義表現候補記録部１０は、同義候補ＥＷを見出しとし、対応する種表現（同義元ＯＷ）を１個以上関係させて記憶する。図２に示す同義候補リスト１０Ａは、このように同義候補ＥＷと同義元ＯＷとを関連させたデータである。同義候補リスト１０Ａは、データ収集の直前までに作成されれば良く、過去に収集したテキストを使用して同義候補ＥＷを自動生成しても良いし、ユーザが人為的に検討した同義候補ＥＷが入力されるようにしても良い。

自動生成する例では、同義表現候補記録部１０は、同義候補生成部３０が自動生成した同義候補ＥＷを同義候補リスト１０Ａに含めて記憶する。ここで、複数の同義元ＯＷが記憶された同義候補ＥＷは、曖昧性のある同義候補ＥＷである。

同義関係判定特定手段１２は、例えばネットワーク９６を介して情報処理可能な自然語データを含むテキストを収集すると共に、当該テキストの集合にデータ処理をする（図１参照）。このネットワーク９６は、例えばインターネットであり、インターネットに接続されるローカルなネットワーク９６でも良い。

自然語データは、日本語、英語等の言語で、語、文、段落などを要素とする文章であり、人間が読み取るための情報である。テキストは、この自然語データを含むデータであり、自然語が表現されるものであればファイル形式はどのようなタイプでも良い。また、一行のコメントから、文書、論文や本としてまとめられたものまで、分量や校正の程度はどのようなものでも良い。

このテキストは、文章の著者と関連した論理的な所在と、発行時間とを属性情報として有すると良い。論理的な所在としては、ＩＰアドレス、ＩＰアドレス等で特定できるサーバ群（Ｗｅｂサイト）中のファイル所在やデータベースの検索結果をも示すＵＲＬなどがある。

テキスト収集部１４は、テキストを発行時間と関連させて収集することで、テキスト集合ＴＸを生成する。このテキスト収集部１４は、発行時間（例えば、書き込み時間）を属性情報として有するテキストについては、当該発行時間に発行されたと扱い、発行時間が不明なテキストが新たに収集された際には、収集した時間（例えば、クロール時間）を当該テキストの発行時間とすることができる。

このテキストの収集は、インターネットに接続された不特定多数のサーバ装置７０へのロボット検索としても良いし、予めユーザによって所在が指定されたアドレスにアクセスすることで得られるデータを収集するようにしても良い。サーバ装置からテキストを収集する際には、文字データのみを収集するのではなく、画像やリンクを含むファイル全体を受信しても良い。既に収集したデータとの差分のみを受信するようにしても良い。

テキスト集合ＴＸは、大量の文章を含むテキストデータの集合で、発行時間又は発行時間が属する期間をキーとして同義表現候補記録部１０等の記憶媒体に格納しておくと良い。また、テキストのみではなく、同義候補リスト１０Ａにある同義元ＯＷ及び同義候補ＥＷへのインデックスを生成して一体的に格納しても良い。

同義候補検索部１６は、テキスト集合ＴＸに含まれる同義候補ＥＷが当該テキスト集合ＴＸで検索される時区間ＰＤを、当該テキストの発行時間から計算する。
時区間ＰＤは、開始時間で区切られる区間であり、本第１実施形態では、同義候補ＥＷが検索される期間である。収集したテキスト集合ＴＸから同義候補ＥＷが検索され始めた際には時区間ＰＤの開始時間はあるが継続中で有り終了時間はない。

当該時区間ＰＤ中のテキスト集合ＴＸには当該同義候補ＥＷが一定数以上含まれ、時区間ＰＤ前のテキスト集合ＴＸには同義候補ＥＷが一定数以上は含まれない。一定数は、０でも良いし、通常時（平時）の検索数としても良い。

同義候補検索部１６は、発行時間を特定できるテキスト集合ＴＸを読んでいき、同義表現候補記録部１０に記憶されている同義候補ＥＷが各時点で何回出現しているかを計数する。そして、同義候補ＥＷが当該テキスト集合ＴＸで検索される期間を時区間ＰＤとする。例えば、同義候補ＥＷの単位期間あたりの出現数が大きく増加している期間を当該同義候補ＥＷの時区間ＰＤとする。

同義元検索部１８は、同義候補ＥＷが検索される時区間ＰＤと重なる期間のテキスト集合ＴＸから同義表現候補記録部１０に記憶された同義元ＯＷを検索することで、当該同義元ＯＷの出現を計算する。「出現」は検索の結果得られるデータ項目であり、例えば出現数や出現比率である。
時区間ＰＤと重なる期間は、時区間ＰＤと完全に同一の期間でも良いし、時区間ＰＤ前の一定時間前からとしても良い。この重なる期間は、文字通り一部で時区間ＰＤと重なれば良い。

同義元検索部１８は、時区間ＰＤを有する同義候補ＥＷと同義関係となる可能性のある同義元ＯＷを、当該時区間ＰＤと重なる期間のテキスト集合ＴＸから検索する。すると、同義候補ＥＷが出現した時区間ＰＤと重なる期間（同一期間を含む）にて、同義候補ＥＷがどのように出現したのかというデータを得ることができる。同義元ＯＷについても時区間ＰＤを計算するようにしても良い。

同義元検索部１８は、情報処理として、時区間ＰＤとは独立して予め定められた検索指定時刻や単位時間毎に同義元ＯＷを検索しておき、その検索結果から、さらに時区間ＰＤと重なる期間のテキスト集合ＴＸでの出現数を計算するようにしても良い。
いずれにせよ、同義元検索部１８は、同義元ＯＷが各時点で何回出現しているかを計数する。

そして、同義関係抽出部２０は、同義候補ＥＷが検索された時区間ＰＤに同義元ＯＷの出現がある際には、同義候補ＥＷと同義元ＯＷと間に同義関係を抽出する。例えば、時区間ＰＤと同一の期間に出現がある同義元ＯＷと、当該同義候補ＥＷとの同義関係を抽出する。

また、時区間ＰＤの前の期間の出現に対して時区間ＰＤ中の出現が増加している同義元ＯＷと同義関係があると抽出しても良い。同義元ＯＷの時区間ＰＤを算出する例では、同義関係抽出部２０は同義候補ＥＷの時区間ＰＤと同義元ＯＷの時区間ＰＤとが重なる際に、同義候補ＥＷの時区間ＰＤに同義元ＯＷが出現したと判定することができる。

このように、同義関係抽出部２０は、同義候補検索部１６及び同義元検索部１８で検出した時区間ＰＤでのテキスト集合ＴＸを用いて同義候補ＥＷと同義関係にある同義元ＯＷを特定する。図１に示す同義辞書３２と接続されている際には、この時区分ＰＤで特定される同義関係を同義辞書３２に登録する。

図１に示す例では、同義候補ＥＷが検索される時区間ＰＤと重なる期間にテキスト集合ＴＸに出現した同義元を検索することで、情報処理により同義候補ＥＷと同義元ＯＷとの同義関係を時区間ＰＤで区切りつつ自動的に抽出することができる。

このような同義候補ＥＷが検索される時区間ＰＤで成立する同義関係を、「時区間同義」という。時区間同義が成立しうる期間は、上述のように様々で有りニュース等に起因する際には数時間で終了することもあり、一方流行語や新概念の登場などでは数十年成立し得る。また、そして、同義関係によっては、時区間同義の開始後、テキストＴＸの収集時点では終了していないこともある。

同義候補生成部３０は、同義候補ＥＷを生成するための種となる種表現を入力とし、その種表現から同義候補ＥＷを自動的に生成する。同義候補生成部３０は、同義元ＯＷの表現に対して、次の操作を複数回適用することで、複数の同義候補ＥＷを自動生成する。
（１）種表現に対して部分文字列を抽出して省略語を生成する。（２）種表現の一部を特定の文字に置換して伏字を生成する。（３）種表現を別の言語に翻訳した翻訳表現を生成する。

同義辞書３２は、同義関係にある表現を記憶する辞書であり、同義関係の開始、終了時刻もあわせて登録することができる。同義辞書３２に格納された同義関係は、シソーラスを使用した検索、テキストデータのクラス分け、グループ分け、自然語解析、データマイニング、トレンド分析、風評・評判調査など様々な用途で使用することができる。

以下、これを更に具体的に説明する。
図２に示す同義候補リスト１０Ａは、同義候補ＥＷが多義となる例を含んでいる。同義候補ＥＷ[1]に対して、同義元ＯＷ[1]から[4]が同義関係の候補として登録されている。同義候補ＥＷ[1]は、例えば東西南北の内の一語（例えば「東」）であると、社名、国名など多数の同義元ＯＷが有り得る。
この同義候補リスト１０Ａには、同義候補ＥＷ[1]から[n]まで、同義元ＯＷ[1]から[n]まである。同一の種表現[1]である同義元ＯＷ[1]が、複数の同義候補ＥＷ[1],[2],[3]と関連することもある。

ここで、同義表現候補記録部１０が、複数の同義元ＯＷに対して同義語の候補となる多義の同義候補ＥＷを記憶している際には、同義元検索部１８が、複数出現処理１８ａを備え、同義関係抽出部２０が、選択処理２０ａを備えると良い（図１参照）。

図１において、複数出現処理１８ａは、多義の同義候補ＥＷと同義関係となる同義元ＯＷ毎に当該同義元ＯＷの出現を計算する。そして、選択処理２０ａは、当該多義の同義候補ＥＷの時区間ＰＤと重なる期間の複数の同義元ＯＷの出現を比較することで、当該多義の同義候補ＥＷに対して同義関係となる同義元ＯＷを選択する。

例えば、図２に示す同義候補ＥＷ[2]の時区間ＰＤに、複数の同義元ＯＷ[1],[5]が出現しとする。複数出現処理１８ａは、時区間ＰＤ中、同義元ＯＷ[1]の出現と、同義元ＯＷ[5]の出現とを算出する。そして、選択処理２０ａは、同義元ＯＷ[1]の出現と、同義元ＯＷ[5]の出現とを比較することで、同義関係となる同義元ＯＷ[5]を選択する。

比較による選択としては、出現数や出現比率が高い同義元ＯＷの選択や、出現数や出現比率が低い同義元ＯＷを候補から除去する選択などがある。選択処理２０ａは、唯一の同義元ＯＷを選択しても良いし、複数の同義元ＯＷを選択するようにしても良い。

このように、多義の同義候補ＥＷの時区間ＰＤに複数の同義元ＯＷが検索された際に、同義関係抽出部２０が、出現を比較することで同義関係を抽出すると、時区分毎に適した同義元ＯＷを特定することができる。また、同義関係抽出部２０は、出現の比較をせず、個々の同義元ＯＷが一定の条件を満たす同義元ＯＷとの同義関係を成立させるようにしても良い。

図３に、同義候補ＥＷの出現と、この同義候補ＥＷと同義関係を持つ可能性のある同義元ＯＷ[1]から[8]の出現との時間推移を示す。同義元ＯＷの出現数は図中上方に増加し、同義候補ＥＷの出現数は図中下方に増加する。時区間ＰＤは、同義候補ＥＷが検索されている期間である。図３に示す例では、時区間ＰＤ[1]から[6]は同義関係の終了時点を有し、時区間ＰＤ[7]は未終了とした。

出現が共通：時区間ＰＤ[1]から時区間ＰＤ[4]
上記同義関係抽出部２０は、同義候補ＥＷと同義元ＯＷとの出現が時間的に共通する際に、同義関係を抽出することができる。ここで、同義候補ＥＷの時区間ＰＤに同義元ＯＷの時区間ＰＤが重なり合う際には、出現が時間的に共通する。

例えば、同義候補ＥＷの時区間ＰＤ[1]で同義元ＯＷ[1]が出現しているため、同義関係抽出部２０は、同義候補ＥＷと同義元ＯＷ[1]とが時区間ＰＤ[1]で成立すると判定する。同様に、同義関係抽出部２０は、同義候補ＥＷと、時区間ＰＤ[2]では同義元ＯＷ[2]と、時区間ＰＤ[4]では同義元ＯＷ[3]との同義関係が成立したと判定することができる。

時区間ＰＤ[3]については、時区間ＰＤ[3]で出現が共通する同義元ＯＷを特定できないが、時区間ＰＤ[3]に重なる期間として時区間ＰＤ[3]より前の期間を含めると、同義元ＯＷ[2]との同義関係を抽出することができる。また、同義関係抽出部２０は、出現の変化率を使用すると、時区間ＰＤ[3]中に同義元ＯＷ[3]の出現が急増していることから、同義元ＯＷ[3]との同義関係を抽出することもできる。

（出現が最多の時区間ＰＤ[5]と時区間ＰＤ[6]の場合）
同義関係抽出部２０は、時区間ＰＤ中に複数の同義元ＯＷがある際に、出現数が最多の同義元ＯＷと同義関係が成立したと判定することができる。
ここで、時区間ＰＤ[5]と時区間ＰＤ[6]の同義元ＯＷの出現数は、同義元検索部１８が、それぞれの時区間ＰＤで特定できるテキスト集合ＴＸから同義元ＯＷを検索し、時区間ＰＤでの出現数を合計した値である。

そして、同義関係抽出部２０は、時区間ＰＤ[5]では、棒グラフで示すように出現が最多である同義元ＯＷ[5]を選択し、同義候補ＥＷとの同義関係を成立させることができる。また、同一の時区間ＰＤに複数の同義関係を許容する際には、時区間ＰＤ[6]に示す例では、予め定められた条件よりも出現数の少ない同義元ＯＷ[4]を除去し、同義元ＯＷ[5]及び[6]との同義関係を成立させるようにしても良い。

（出現変化率が高い時区間ＰＤ[7]の場合）
同義関係抽出部２０は、単位時間当たりの出現数を使用した計算値に基づいて同義関係を抽出することもできる。出現数を単位時間当たりとすることで、同一の出現数の変化率や、異なる同義元ＯＷ間の出現数の比などを使用することができる。
例えば、図３に時区分ＰＤ[7]との関係で同義元ＯＷ[7]と同義元ＯＷ[8]の単位時間当たりの出現数の時間変化を示す。図中時区分ＰＤ[7]を示す縦線と平行な間隔の短い縦線間の時間が単位時間である。

同義元検索部１８は、単位時間毎にテキスト集合ＴＸから同義元ＯＷを検索し、その出現数を計算する。時区間ＰＤ[7]では、同義元ＯＷ[7]の出現数が多く、時区間ＰＤ[7]
単位の出現数（総数）や、単位時間当たりの出現数を同義元ＯＷ[8]と比較すると、同義元ＯＷ[7]が選択される。

一方、時区間ＰＤ[7]と重なる期間で同義元ＯＷ[8]の変化率ＯＷ[8d]が上昇しており、これに対して、同義元ＯＷ[7]の変化率は小さい。同義関係抽出部２０は、時区間ＰＤ[7]に重なる期間の同義元ＯＷの出現数の変化率に基づいて、最多の同義元ＯＷ[7]ではなく、使用が急上昇している同義元ＯＷ[8]との同義関係を抽出することができる。

同義関係抽出部２０は、同義候補ＥＷの時区間ＰＤと同義元ＯＷの時区間ＰＤとの共通性（重なり合い等）から、同義候補ＥＷと同義元ＯＷとの同義関係を判定しても良い。
まず、同義表現候補記録部１０には、同義元ＯＷと同義関係となる表現の候補である同義候補ＥＷが同義元ＯＷと共に記録されている。

そして、同義候補検索部１６は、発行時間の特定可能なテキスト集合ＴＸを参照して、同義候補ＥＷがテキスト集合ＴＸで検出される時区間ＰＤを算出する。さらに、同義元検索部１８は、同義元ＯＷがテキスト集合ＴＸで検出される時区間ＰＤを算出する。

この例では、同義関係抽出部２０は、同義候補ＥＷがテキスト集合ＴＸで検出される時区間ＰＤと、同義元ＯＷがテキスト集合ＴＸで検出される時区間ＰＤとの関係から、同義候補ＥＷと同義元ＯＷが同義関係にある時区間ＰＤを判定する。

（第１実施形態の動作説明）
次に、上記第１実施形態における動作を、図４に基づいて説明する。

まず、同義候補生成部３０は、前述したように種表現から同義候補ＥＷを生成し同義表現候補記録部１０に記憶する（図４：ステップＳ１０１／同義候補生成登録工程）。この場合、同義候補生成部３０は、ユーザにより作成された同義候補ＥＷが入力された場合には、これを受け付けて同義表現候補記録部１０に記憶するように構成してもよい。

次に、テキスト収集部１４は、外部入力されるテキストを収集しこれに基づいて発行時間が特定できるテキスト集合を生成する（図４：ステップＳ１０２／テキスト集合生成工程）。
そして、この生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、前記同義関係判定特定手段１２が一定の基準に基づいて判定すると共に特定する（図４：ステップＳ１０３，Ｓ１０４／同義関係特定工程）。

ここで、この同義関係を特定する工程（図４：ステップＳ１０３，Ｓ１０４）にあっては、まず、生成された前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ前記同義関係判定特定手段１２の同義候補検出部１２Ａが検索して特定する（図４：ステップＳ１０３／同義候補検出工程）。

続いて、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義関係判定特定手段１２の同義期間特定部１２Ｂが、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する（図４：ステップＳ１０４／同義期間特定工程）。

ここで、前述した同義候補を検出する工程（図４：ステップＳ１０３）にあっては、まず、同義候補検出部１２Ａの同義候補検索部１６が機能して、前記テキスト収集部１４で収集された前記テキスト集合ＴＸから前記同義表現候補を検出し計数すると共に、単位時間当たりの出現数の大きい時区間ＰＤを抽出し特定する（図４：ステップＳ１０３Ａ／同義候補対応・時区間特定工程）。
具体的には、同義候補検索部１６は、テキスト集合ＴＸを読んでいき、例えば、同義表現候補記録部１０に記憶されている同義表現候補ＥＷの単位期間あたりの出現数が大きく増加している時区間ＰＤを検出する。

又、これと相前後して、同義候補検出部１２Ａの同義元検索部１８が機能して、同じく前記テキスト収集部で収集された前記テキスト集合から前記同義元表現ＯＷを検出し、その出現数を計数すると共に単位時間当たりの出現数の大きい時区間が抽出し特定する（図４：ステップＳ１０３Ｂ／同義元対応・時区間特定工程）。

更に、前述した同義期間を特定する工程（図４：ステップＳ１０４）にあっては、まず、同義区間特定手段１２Ｂの同義関係抽出判定部２０が機能して、前記同義候補の検出工程（図４：ステップＳ１０３）で前記同義表現候補が検出された時区間におけるテキスト集合中で最も出現数の多い同義元表現を、同義関係にある同義元として抽出する（図４：ステップＳ１０４Ａ／同義関係抽出工程）。
即ち、同義関係抽出部２０は、同義候補検索部１６で検出された同義候補ＥＷがどの同義元ＯＷと同義関係にあるかを判定し、時区間ＰＤでの同義関係を抽出する。

又、これと相前後して、同義区間特定手段１２Ｂの同義期間開始判定部２２が機能して、同じく前記抽出された同義元表現が前記同義表現候補と同義関係にあると判定し、同時に当該両者が同義関係にある時区間の開始点を同義期間の開始点として、これを前記同義期間と共に予め装備した同義辞書に登録する（図４：ステップＳ１０４Ｂ／同義期間登録工程）。

そして、最後に、同義区間特定手段１２Ｂの同義期間開始判定部２２が機能して、前述した同義関係ある旨の判定結果を同義辞書３２に記憶し（図４：ステップＳ１０５／同義関係登録工程）、これをもって処理を終える。

このように、本第１実施形態では、同義候補ＥＷが出現した時区間ＰＤ（または時点）での出現（出現数、出現変化率、出現比等）を用いて同義性を判定し、同義関係が成立する時区間ＰＤを計算する。この同義関係が成立する時区間ＰＤの特定により、多義で曖昧な語について「時区間同義」を判定し、これにより、時刻によって同義性が変化する場合であっても時区間ＰＤで区切った同義関係を取り扱うことができる。

即ち、本第１実施形態では、同義表現候補が出現した時点での単位期間あたりの出現数を用いて同義性の判定を行うため、同義関係が成立した開始時刻を出力することが可能となる。そのため、時刻によって同義性が変化する場合にその同義関係が成立する時区間を判定することが可能となる。

（同義期間開始について）
次に、同義候補ＥＷと同義元ＯＷとの同義関係について同義関係の開始時点を判定する手法を開示する。
この例では、図１に示すように、同義関係判定特定手段１２が同義期間開始判定部２２を備えている。
この同義期間開始判定部２２は、発行時間順のテキスト集合ＴＸで同義候補ＥＷが検索される時区間ＰＤにて当該テキスト集合ＴＸでの同義元ＯＷの出現が予め定められた条件を満たした時点で当該同義元ＯＷと同義となる同義期間が開始したと判定する。

予め定められた条件は、図３等を参照して開示したように、様々なデータ、比較処理及び判定処理を採用することができる。出現についてのデータとしては、出現数、出現変化率、出現比等を使用することができる。

比較及び判定としては、予め定められたしきい値との比較、当該同義元の通常時の出現との比較で求められるしきい値との比較、他の同義元の出現の値との関係で求まる値との比較などがある。
データを比較した結果、条件を満たすと判定しても良いし、実施の具体例によっては例外事項等を定めておき、例えば、しきい値を超えても例外事項に該当する際には条件を満たさないと判定しても良い。

この同義期間開始判定部２２は、例えば、同義候補検索部１６で検出された同義候補ＥＷが、対応する同義元ＯＷのどれと同義関係にあるかを判定し、同義関係であった場合、同義候補検索部１６で検出された時区間ＰＤの開始点を同義関係の開始点として同義辞書３２に登録するようにしても良い。
この例では、同義候補ＥＷの意味を、開始時点の前後で異なると把握することができる。

図１に示す例では、同義関係抽出部２０と同義期間開始判定部２２とは別の部としているが、同義関係抽出部２０が同義期間開始判定部２２を備える構成としても良い。

同義期間開始判定部２２は、出現数で判定するには、まず、同義候補ＥＷがテキスト集合ＴＸで検出される時区間ＰＤにおけるテキスト集合ＴＸ中で、最も出現数の多い同義元ＯＷを同義候補ＥＷと同義関係にあると判定する。そして、同義期間開始判定部２２は、時区間ＰＤの開始点において同義候補ＥＷと同義元ＯＷとの間での同義関係の開始点と判定する。

図５に、最多出現数での判定処理の構成例を示す。この例では、同義期間開始判定部２２が、この最多出現数での判定をするために、出現数処理２２ａと、最多判定処理２２ｂとを備えている。出現数処理２２ａは、同義候補ＥＷがテキスト集合ＴＸで検索される時区間ＰＤで当該同義候補ＥＷと関連する複数の同義元ＯＷの出現数を計算する。そして、最多判定処理２２ｂが、出現数が最も多い同義元ＯＷと同義候補ＥＷとの同義期間が同義候補ＥＷの時区間ＰＤの開始点で開始したと判定する。

図５に示す例では、同義元検索部１８が同義元ＯＷの検索結果である出現数を同義元テーブル１０Ｂに記録する。同義期間開始判定部２２は、この同義元テーブル１０Ｂを参照して最多判定処理２２ｂをする。

図３に示す例では、出現数処理２２ａは、時区間ＰＤ[5]にて複数の同義元ＯＷの出現数を計算する。検索対象の同義元ＯＷは、時区間ＰＤ[5]を求めた際の同義候補ＥＷに予め記憶手段１０にて関連性があるとして記憶されている同義元ＯＷ[4],[5],[6]である。図３に示す例では、出現数処理２２ａは、時区間ＰＤ[5]では同義元ＯＷ[4],[5],[6]の出現数を計算し、同義元テーブル１０Ｂに記録する。出現数が０の同義元ＯＷについては計算しなくとも良い。

そして、最多判定処理２２ｂは、図５に示す出現数が９０で最多の同義元ＯＷ[5]を選択し、同義元ＯＷ[5]と同義候補ＥＷとについて、当該時区間ＰＤ[5]の開始点で同義関係が開始したと判定する。
この出現数による同義期間開始判定は、通常時から注目されている同義元ＯＷとの同義関係の判定に効果的である。

次に、出現率を使用する処理例を説明する。
同義期間開始判定部２２は、出現比率で判定するには、時区間ＰＤ中での単位時間あたりの出現数と、時区間ＰＤ以前での単位時間あたりの出現数との出現比率が最も大きい同義元ＯＷを同義候補ＥＷと同義関係にあると判定する。そして、同義期間開始判定部２２は、時区間ＰＤの開始点において同義候補ＥＷと同義元ＯＷとの間での同義関係の開始点と判定する。

図６に出現比率での判定処理の一例を示す。この例では、同義期間開始判定部２２が、この出現比率での判定をするために、時区間中処理２２ｃと、時区間前処理２２ｄと、比率判定処理２２ｅとを備えている。
時区間中処理２２ｃは、同義候補ＥＷがテキスト集合ＴＸで検索される時区間ＰＤでの当該同義候補ＥＷと関連する１以上の同義元ＯＷの単位時間あたりの出現数を計算する。時区間前処理２２ｄは、当該各同義元ＯＷの時区間ＰＤ前での単位時間あたりの出現数を計算する。

そして、比率判定処理２２ｅは、時区間ＰＤ前の出現数に対する時区間ＰＤ中の出現数の比率が最も大きい同義元ＯＷとの同義期間が、同義候補ＥＷの時区間ＰＤの開始点で開始したと判定する。
即ち、比率判定処理２２ｅは、時区間ＰＤの開始時点より前の出現数と比較して、時区間ＰＤ中の出現数が大きい際に、同義期間が同義候補ＥＷの時区間ＰＤの開始点で開始したと判定する。

図６に示す例では、同義元検索部１８が、同義候補ＥＷの時区間ＰＤ前の出現数も計算し、同義元ＯＷの出現数を同義元テーブル１０Ｂに格納する。さらに、比率判定処理２２ｅが、算出した出現比率を同義候補テーブル１０Ｃに格納する。

図７及び図８のフローチャートを参照し、図３に示す時区間ＰＤ[7]を例として出現比率による処理工程を説明する。
まず、テキスト収集部１４は、予め定められた周期や時刻（検索時刻）にネットワーク９６を介してテキストを検索し、テキスト集合ＴＸを生成する（図７：ステップＳ２０１）。テキスト収集部１４は、さらに、テキストの発行時間を特定する（図７：ステップＳ２０２）。

続いて、同義元検索部１８は、記憶手段１０に登録されている全ての同義元ＯＷについて順次検索する（図７：ステップＳ２０３，Ｓ２０７）。同義元ＯＷが検索されると、同義元検索部１８は、テキスト集合ＴＸ中の単位時間当たりの出現数を算出し（図７：ステップＳ２０４）、同義元テーブル１０Ｂに記録する（図７：ステップＳ２０５）。

収集したテキスト集合ＴＸに対して全ての同義元ＯＷの検索が終了すると、次のテキスト収集を待機し、出現数を算出していない同義元があれば、次の同義元を特定して（図７：ステップＳ２０７）、検索する（図７：ステップＳ２０３）。
同義元検索部１８は、同義候補ＥＷと時区間ＰＤ[7]とが特定されている際には、図６の同義元テーブル１０Ｂに示すように、時区間ＰＤ[7]の前の区間の同義元ＯＷ[8]の出現数（１００）と、時区間ＰＤ[7]中の同義元ＯＷ[8]の出現数（４００）とを記録する。

図８のフローチャートにあって、同義候補検索部１６は、まず、同義表現候補記録部１０に登録されている同義候補ＥＷを順次検索する（図８：ステップＳ２１１，Ｓ２１３）。同義候補ＥＷが予め定められた数以上発見されると（図８：ステップＳ２１２）、同義期間開始判定部２２は、発見したテキストの発行時間を開始時点として、同義候補ＥＷの時区間ＰＤを開始する。図３に示す例では、時区間ＰＤ[7]を開始する。

続いて、同義期間開始判定部２２の時区間中処理２２ｃは、同義候補ＥＷが検索された時区間ＰＤ[7]での同義元ＯＷの出現数を計算し（図８：ステップＳ２１６）、同義元テーブル１０Ｂに記録する。ここでは、図３に示す最短の単位時間ではなく、一定時間まとめた総数（４００）とすると良い。
そして、時区間前処理２２ｄは、当該各同義元ＯＷの時区間ＰＤ前での同様の一定時間まとめた出現数（１００）を計算し（図８：ステップＳ２１７）、同義元テーブル１０Ｂに記録する。

更に、比率判定処理２２ｅは、時区間ＰＤ前の出現数（１００）に対する時区間ＰＤ中の出現数（４００）の比率（４００％）を算出する（ステップＳ２１８）。この比率判定処理２２ｅは、さらに、出現比率が最も大きい同義元ＯＷ[8]を選択し、この同義元ＯＷ[8]との同義期間が同義候補ＥＷの時区間ＰＤ[7]の開始点で開始したと判定する（図８：ステップＳ２２１）。

そして、同義期間開始判定部２２は、この時区分同義である同義関係を同義辞書３２に記録する（図８：ステップＳ２２２）。

図８に示す出現比率による同義期間の開始判定処理は、通常時には注目度が低い同義元ＯＷとの同義関係の抽出に効果的である。

ここで、上述した各構成の動作部分における動作内容（特に図４，図７及び図８における各動作ステップ）については、これをコンピュータで実行可能にプログラム化し、これらを前述した各ステップを実行する同義関係判定特定手段１２が備えているコンピュータに実行させるようにしてもよい。他の実施形態においても同様である。

この場合、プログラム化したプログラムについては、非一時的な記録媒体、例えば、ＤＶＤやＣＤ、フラッシュメモリなどに記録させてもよい。その場合、本プログラムは、記録媒体からコンピュータによって読み出され、実行される。

上述したように、本第１実施形態によると、前述したように同義元ＯＷの出現を使用した情報処理により、時区分同義を判定し、特に、開始時間が明確な時区分同義を判定することができる。
〔第２実施形態〕

次に、本発明の第２実施形態を図９乃至図１０に基づいて説明する。
まず、図９に示す第２実施形態にあって、同義関係判定装置１０２は、前述した図１に開示した第１実施形態の各構成に加えて同義期間の終了を判定する同義期間終了判定部２４を備えている点に特徴を有する。

即ち、この第２実施形態では、同義関係判定特定手段１２が、発行時間順のテキスト集合ＴＸにて同義候補ＥＷの出現が予め定められた条件未満に減少した時点で同義期間が終了したと判定する同義期間終了判定部２４を備えている。そして、この同義期間終了判定部２４が、同義候補ＥＷの出現が減少した時点で同義関係が終了したと判定するため、多義的で曖昧な同義候補ＥＷの意味が成立する期間を一定期間内に特定することができる。

図１０は、本第２実施形態における同義関係判定装置１０２による情報処理の一例を示すフローチャートである。
まず、同義表現生成部３０で、種表現から同義候補ＥＷを生成し、同義表現候補記録部１０に記録する（図１０：ステップＳ２２１）。

次に、同義候補検索部１６で、テキスト集合ＴＸを読んでいき、同義表現候補記録部１０に記録されている同義候補ＥＷの単位期間あたりの出現数が大きく増加している時区間ＰＤを検出する（図１０：ステップＳ２２２）。
そして、同義期間開始判定部２２で、同義候補検索部１６で検出された同義候補ＥＷがどの同義元ＯＷと同義関係にあるかを判定し、同義関係の開始点を判定する（図１０：ステップＳ２２３）。

この図１０に示す例では、同義期間終了判定部２４が、同義期間開始判定部２２で同義関係にあると判定された同義候補ＥＷの単位期間あたりの出現数が終了しきい値以下になった場合に、同義関係が解消していると判定し（図１０：ステップＳ２２４）、同義辞書３２に当該同義関係の終了時刻を登録する（図１０：ステップＳ２２５）。

次に、本第２実施形態における効果について説明する。
本実施の形態では、同義関係が終了時刻を出力することが可能であるため、同義関係が成立している時区間ＰＤを正しく判定することが可能となる。
〔第３実施形態〕

次に、本発明の第３実施形態を図１１乃至図１２に基づいて説明する。
この第３実施形態では、時区間ＰＤ内の同義元を１つとし、同義関係の開始、入替及び終了を判定する点に特徴を有する。

まず、図１１に示す第３実施形態にあって、同義関係判定装置１０３は、同義関係抽出部２０が、出現計算処理２０ｂと、開始判定処理２０ｃと、入替処理２０ｄと、終了判定処理２０ｅとを備えている。

出現計算処理２０ｂは、同義候補ＥＷがテキスト集合ＴＸで検索された際に当該同義候補ＥＷと関連する複数の同義元ＯＷの出現を計算する。
開始判定処理２０ｃは、出現が予め定められた開始しきい値を超えた同義元ＯＷのうち当該出現が最多の同義元ＯＷについて、当該開始しきい値を超えた時点で同義候補ＥＷとの同義関係が開始したと判定する。

入替処理２０ｄは、同義関係開始後に当該同義元ＯＷの出現が他の同義元ＯＷの出現を下回った際に、当該下回った時点で当該同義関係が終了したと判定すると共に新たに最多の同義元ＯＷについて同義関係が開始したと判定する。

終了判定処理２０ｅは、同義関係開始後に出現が予め定められた終了しきい値を下回った際に、当該下回った時点で当該同義関係が終了したと判定する。
この構成により、多義的な同義候補ＥＷの意味をより高確率な意味に特定することができる。
その他の構成は、前述した第１実施形態の場合と同一となっている。

これを、更に詳細に説明する。
ここで、いま、種表現（同義元）として、図１２に示すように「東京電力」と「東北電力」が与えられた場合を想定する。

まず、同義候補生成部３０で、同義元ＯＷの形態素の先頭文字を残して省略語を生成したり、同義元ＯＷの1文字を「○」に置換して伏字を生成したりすることで同義候補ＥＷを複数生成する。たとえば、種表現（同義元ＯＷ）が「東京電力」の場合、「東電」や「東京電」のような省略語、「東○電力」のような伏字が生成される。

このように「東京電力」（同義元ＯＷ[10]）の伏字として「東○電力」（同義候補ＥＷ）が考えられるが、これは、「東北電力」（同義元ＯＷ[11]）の伏字にもなりうる。このように、「東○電力」（同義候補ＥＷ）が指す内容は「東京電力」（同義元ＯＷ[10]）や「東北電力」（同義元ＯＷ[11]）等の曖昧性がある。

また、種表現（同義元ＯＷ）が「東北電力」の場合は、「東電」や「東北電」のような省略語、「東○電力」のような伏字が生成される。以上のようにして、図１２に示す同義候補リスト１０Ａ又はこのようなデータが記憶手段１０に記憶される。

このとき、「東電」、「東○電力」は、「東京電力」、「東北電力」のいずれからも生成されており、上述のように曖昧性がある同義候補ＥＷとなっている。
そして、実際には、時刻によって「東○電力」が指す内容が「東京電力」や「東北電力」に変化しうる。

例えば、図１３に示す例では、「東○電力」（同義候補ＥＷ）は、時区間ＰＤ[A]、時区間ＰＤ[C]では「東京電力」（同義元ＯＷ[10]）を、時区間ＰＤ[B]では「東北電力」（同義元ＯＷ[11]）を指しており、同義関係が時刻によって変化している。

ここで、本第３実施形態の情報処理例を前述した図１１を参照して説明する。
まず、同義候補生成部３０で、種表現中の形態素の先頭文字を残して省略語を生成したり、種表現中の1文字を「○」に置換して伏字を生成したりすることで同義候補ＥＷを複数生成する。
次に、同義候補検索部１６及び同義元検索部１８で、同義候補ＥＷ及び同義元ＯＷがテキスト集合ＴＸ中で（突発的に）出現する時点を検出する。テキスト集合ＴＸ中の各テキストには、クロール時間、書き込み時間、等の発行時間が付与されており、それをもとに同義候補ＥＷ及び同義元ＯＷが出現する時点を検出する。

そして同義関係抽出部２０は、テキスト集合ＴＸ中で「東京電力」（同義元ＯＷ[11]）、「東北電力」（同義元ＯＷ[11]）、「東○電力」（同義候補ＥＷ）の出現の頻度を計数し（出現計算処理２０ｂ）、図１３に示すような出現頻度になっていた場合、図１３の時区間ＰＤ[A]、時区間ＰＤ[B]、及び時区間ＰＤ[C]を算出する。

同義関係抽出部２０は、同義性を判定する。例えば、図１３の時区間ＰＤ[A]では、「東○電力」の同義元ＯＷは、「東京電力」と「東北電力」の2つがあるが、時区間ＰＤ[A]での出現数が「東京電力」では、1日あたり８００個、「東北電力」では、1日あたり１５０個だとすると、「東京電力」のほうが多く出現するため、時区間ＰＤ[A]の開始時点から「東○電力」と「東京電力」が同義関係であると判定し（開始判定処理２０ｃ）、同義辞書３２に時区間ＰＤ[A]の開始時点から「東○電力」と「東京電力」が同義関係にあると登録される。

同様に、同義関係抽出部２０は、時区間ＰＤ[B]では、「東○電力」と「東北電力」が（入替処理２０ｄ）、時区間ＰＤ[C]では、「東○電力」と「東京電力」が同義関係であると判定する（入替処理２０ｄ）。

以上のように「東○電力」は時期によって同義関係が変化するが、それに応じて同義辞書３２も更新されることになり、時期によって意味が変化する同義関係の成立する時区間ＰＤを正しく判定することが可能となる。

続いて、同義関係抽出部２０は、同義関係が成立した後の出現数を監視し、図１３の時区間ＰＤ[D]のように、「東○電力」の出現がしきい値以下に減少し、「東○電力」と同義関係にある「東京電力」の単位期間あたりの出現数も通常と同レベルにまで減少した場合に、「東○電力」と「東京電力」の同義関係が終了したと判断し（終了判定処理２０ｅ）、同義辞書３２の当該項目に終了時刻とともに同義関係が終了したことを登録する。
これにより、同義候補ＥＷの出現が少なくなり、同義関係が成立すると言えなくなった場合に、終了時刻とともに同義関係が終了したことを判定することができる。

図１４は、第３実施形態での別の情報処理例を示すフローチャートである。
この図１４に示す処理では、上述の情報処理とはしきい値や終了の扱い等が異なるが情報処理の概要は同様である。
ここでは、同義元ＯＷの単位時間毎の出現については、図７に示すフローチャートで計算され、同義元テーブル１０Ｂ等に格納されているとする。

まず、図８に示す処理と同様に、同義関係抽出部２０が、記憶手段１０に記憶されている同義候補ＥＷを検索し（図１４：ステップＳ２１１）、同義候補ＥＷを発見しない際には（図１４：ステップＳ２１２）、次の同義候補ＥＷを特定して（図１４：ステップＳ２１３）、再度検索する（図１４：ステップＳ２１１）。

図１３に示す「東○電力」が検索されたとすると（図１４：ステップＳ２１２）、同義関係抽出部２０は、図１２に示す同義候補リスト１０Ａを参照して「東○電力」に対応する同義元ＯＷである「東京電力」（同義元ＯＷ[10]）と「東北電力」（同義元ＯＷ[11]）とを特定する（図１４：ステップＳ２１５）。

上記出現計算処理２０ｂは、「東○電力」（同義候補ＥＷ）がテキスト集合ＴＸで検索された（ステップＳ２１２）後、関連する複数の同義元ＯＷ[10],[11]のそれぞれの出現を計算する（図１４：ステップＳ３０１）。

そして、開始判定処理２０ｃは、複数の同義元ＯＷ[10],[11]のうち出現が予め定められた開始しきい値を超えたか否かを確認する（図１４：ステップＳ３０２）。開始判定処理２０ｃは、続いて、開始しきい値を超えている際には、同義元ＯＷ群のうち当該出現が最多の「東京電力」（同義元ＯＷ[10]）を選択する（図１４：ステップＳ３０３）。そして、開始判定処理２０ｃは、当該開始しきい値を超えた時点で同義候補ＥＷとの同義関係が開始したと判定する（図１４：ステップＳ３０４）。

図１３に示す例では、時区間ＰＤ[B]に至ると、同義元ＯＷ[10]の出現数が減少して、同義元ＯＷ[11]の出現数が増加している。
入替処理２０ｄは、同義関係開始後に、当該同義元ＯＷ[10]（東京電力）の出現（現出現）が他の同義元ＯＷ[11]（東北電力）の出現（他出現）を下回った際に（図１４：ステップＳ３０５）、当該下回った時点で当該同義関係が終了したと判定し、そして、新たに最多の同義元ＯＷについて同義関係が開始したと判定する（図１４：ステップＳ３０６）。現出現が他出現より多い状態が継続すれば（図１４：ステップＳ３０５）、この入替処理２０ｄは実行されず、終了処理の判定に移る。

この図１３に示す例では、「東北電力」との入替による同義関係の開始後、出現数が終了しきい値を下回らないまま（図１４：ステップＳ３０７）、時区間ＰＤ[C]に至ったとする。ここでは、再度、他出現である「東京電力」との同義関係の入替がなされる（図１４：ステップＳ３０５，Ｓ３０６）。

東京電力との同義関係が継続したまま、時区間ＰＤ[D]に至ると、同義元ＯＷ[10]の出現が終了しきい値を下回る（図１４：ステップＳ３０７）。この場合、終了判定処理２０ｅが、当該下回った時点で当該同義関係が終了したと判定する（図１４：ステップＳ３０８）。

次に、同義関係を同義辞書３２に格納するのみならず、表示デバイスに表示制御する例を説明する。
前述した図１１において、実施例３の同義関係判定装置１０３は、同義関係判定特定手段１２に、データを表示する表示デバイス９５を併設している。そして、同義関係判定特定手段１２が、表示制御部２６を備えている。

この表示制御部２６は、同義関係抽出部２０によって抽出された同義候補ＥＷと、同義関係開始時点と、当該同義関係開始時点で同義関係が開始した同義元ＯＷと、同義関係終了時点とを時区分別同義データＴＤとして表示制御する。これにより、同義関係の時間変化の情報を含めてテキスト集合ＴＸ等をユーザに表示することができる。

さらに、時区間同義によりフィルタリングしたテキスト集合ＴＸを表示すると、ユーザが手作業で個々に同義候補ＥＷとの対応等を検討して検索することと比較して、大幅に作業の生産性を向上させることができる。

本発明の活用例として、インターネットを対象とした風評監視システム、評判抽出システム、等に適用できる。

＜実施形態の全体的な動作＞
ここで、上記実施例１乃至実施例３の同義関係判定装置１０１，１０２，１０３に共通する情報処理について、ハードウエア資源を参照して説明する。

（ハードウエア資源）
本実施形態における同義関係判定装置１０１，１０２，１０３による情報処理は、ソフトウエアとハードウエア資源とが協働し、使用目的に応じて情報を演算し、又は加工する具体的手段である。
ハードウエア資源として、図１５に示すように、情報処理をするコンピュータ８０を有している。コンピュータ８０は、中央処理装置（ＣＰＵ）である演算手段８２と、この演算手段８２に記憶領域を提供する主記憶手段８６を有する。コンピュータ８０は、一般に、データバス及び入出力インタフェースを通じて接続される周辺機器を有する。周辺機器は、代表的には、通信手段８８、外部記憶手段９０、入力手段９２、出力手段９４である。周辺機器を含めた全体をコンピュータ８０ということもある。

通信手段８８は、有線又は無線のネットワークを介してサーバ装置７０との通信を制御する。外部記憶手段９０は、プログラムファイル１００や、データを記憶する据え付け又は持ち運び可能な記憶媒体である。入力手段９２はキーボード、タッチパネル、ポインティングデバイス、スキャナ等でありユーザの操作に応じてコンピュータ８０で読み取り可能なデータを入力する。出力手段９４は、ディスプレイ、プリンタなどコンピュータ８０が計算したデータ等を表示出力する。

本実施形態による同義関係判定装置１０１，１０２，１０３の記憶手段１０は、外部記憶手段９０をハードウエア資源として使用して同義候補リスト１０Ａ等のデータを記憶する。また、同義関係判定特定手段１２は、ＣＰＵである演算手段８２をハードウエア資源として使用して、テキスト集合ＴＸに対するデータ処理を実行する。すなわち、同義関係判定特定手段１２は、プログラムを実行するコンピュータ８０で実現することができる。

上述した各実施形態について、その新規な技術内容の要点をまとめると、以下のようになる。尚、上記実施形態の一部又は全部は、新規な技術としては以下のようにまとめられるが、本発明は必ずしもこれに限定されるものではない。

〔付記１〕
所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部１０と、外部入力されるテキスト中における前記同義表現候補と前記同義元表現との同義関係を一定の基準に基づいて判定し特定する同義関係判定特定手段１２とを備えた同義関係判定装置であって、
前記同義関係判定特定手段１２が、
外部入力される前記テキストを収集しこれに基づいて発行時間が特定可能なテキスト集合を生成するテキスト収集部１４と、
このテキスト収集部１４で収集されたテキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを特定し出力する同義候補検出部１２Ａと、
前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定部１２Ｂと、
を備えたことを特徴とする同義関係判定装置。

〔付記２〕
付記１に記載の同義関係判定装置において、
前記同義候補検出部１２Ａを、前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を（前記同義表現候補が存在する時区間として）特定する同義候補検索部１６と、同じく前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を（前記同義元表現が存在する時区間として）特定する同義元検索部１８とを含む構成としたことを特徴とする同義関係判定装置。

〔付記３〕
付記１又は２に記載の同義関係判定装置において、
前記同義期間特定部１２Ｂを、前記同義候補検出手段で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出する同義関係抽出部２０と、この抽出された同義元表現が前記同義表現候補と同義関係にあると判定すると共に当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを同義期間と共に予め装備した同義辞書に登録する同義期間開始判定部２２とを含む構成としたことを特徴とする同義関係判定装置。

〔付記４〕
付記３に記載の同義関係判定装置において、
前記同義期間開始判定部２２は、前記同義表現候補が前記テキスト集合で検出される時区間における集合中で、前記時区間での単位時間あたりの出現数と前記時区間以前での単位時間あたりの出現数の比率が最も大きい同義元表現についても、これを前記同義表現候補と同義関係にあると判定する機能を備えていることを特徴とした同義関係判定装置。

〔付記５〕
付記１，２，３，又は４に記載の同義関係判定装置において、
前記同義期間特定部１２Ｂは、
当該同義期間特定部１２Ｂの前記同義期間開始判定部２２で同義関係にあると判定され特定された同義表現候補についてその単位期間あたりの出現数が予め設定したしきい値以下になった時点で、前記同義関係が解消した旨判定する同義期間終了判定部２４を備えていることを特徴とした同義関係判定装置。

〔付記６〕（方法の発明／付記１対応）
所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部１０と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定手段１２を備えた同義関係判定装置にあって、
外部入力される前記テキストを収集しこれに基づいて発行時間が特定できるテキスト集合を、前記同義関係判定特定手段１２のテキスト収集部が生成し（テキスト集合生成工程）、
この生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、前記同義関係判定特定手段１２が一定の基準に基づいて判定すると共に特定し（同義関係特定工程）、
前記同義関係を特定する工程にあっては、
前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ前記同義関係判定特定手段１２の同義候補検出部１２Ａが検索して特定し（同義候補検出工程）、
続いて、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義関係判定特定手段１２の同義期間特定部１２Ｂが前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定するようにしたこと（同義期間特定工程）を特徴とする同義関係判定方法。

〔付記７〕（付記２対応）
付記６に記載の同義関係判定方法において、
前記同義候補を検出する工程にあっては、
前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定し（同義候補対応・時区間特定工程）、
これと相前後して同じく前記テキスト収集部で収集された前記テキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する構成（同義元対応・時区間特定工程）とし、
これらの各時区間の特定工程における動作内容を前記同義候補検出部１２Ａが実行することを特徴とした同義関係判定方法。

〔付記８〕（付記３対応）
付記６に記載の同義関係判定方法において、
前記同義期間を特定する工程にあっては、
前記同義候補の検出工程で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出し（同義関係抽出工程）、
これと相前後して、同じく前記抽出された同義元表現が前記同義表現候補と同義関係にあると判定し且つ当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを前記同義期間と共に予め装備した同義辞書に登録する構成とし（同義期間登録工程）、
これらの各抽出／登録工程の動作内容を前記同義区間特定手段１２Ｂが実行することを特徴とした同義関係判定方法。

〔付記９〕（付記５対応）
付記６，７又は８に記載の同義関係判定方法において、
前記同義期間特定部１２Ｂで同義関係にあると判定された同義表現候補の単位期間あたりの出現数を継続的に計数すると共にその出現数が予め設定したしきい値以下になった場合には、前記同義期間特定部１２Ｂの同義期間終了判定部２４が前記同義関係が解消したと判定する構成としたことを特徴とする同義関係判定方法。

〔付記１０〕（プログラム発明／付記６対応）
所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部１０と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定手段１２とを備えた同義関係判定装置にあって、
外部入力されるテキストを収集して発行時間を特定できるテキスト集合を生成するテキスト集合生成処理機能、
および生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、一定の基準に基づいて判定すると共に特定処理する同義関係特定処理機能を設けると共に、
前記同義関係特定処理機能が、
前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ検索して特定処理する同義候補検出処理機能、
および前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定処理機能を含む構成とし、
これらの各処理機能を前記同義関係判定特定手段１２が備えているコンピュータに実現させるようにしたことを特徴とした同義関係判定プログラム。

〔付記１１〕（付記７対応）
付記１０に記載の同義関係判定プログラムにおいて、
前記同義候補検出処理機能が、
前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する同義候補対応・時区間特定処理機能、
および前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する同義元対応・時区間特定処理機能、を備えた構成とし、
これら各時区間特定処理機能を前記同義関係判定特定手段１２が備えているコンピュータに実現させるようにしたことを特徴とする同義関係判定プログラム。

〔付記１２〕（付記８対応）
付記１０に記載の同義関係判定プログラムにおいて、
前記同義期間特定処理機能が、
前記同義候補検出処理機能で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出する同義関係抽出処理機能、
およびこれと相前後して、同じく前記抽出された同義元表現が前記同義表現候補と同義関係にあると判定し且つ当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを前記同義期間と共に予め装備した同義辞書に登録する同義期間登録処理機能、を備えた構成とし、
これらの各処理機能を前記同義関係判定特定手段１２が備えているコンピュータに実現させるようにしたことを特徴とする同義関係判定プログラム。

〔付記１３〕（付記９対応）
付記１０，１１又は１２に記載の同義関係判定プログラムにおいて、
前記同義関係特定処理機能が、
前記同義関係にあると判定された同義表現候補の単位期間あたりの出現数を継続的に計数すると共にその出現数が予め設定したしきい値以下になった場合に、その時点で前記同義関係が解消したと判定する同義期間終了判定機能を備え、
これを前記同義関係判定特定手段１２が備えているコンピュータに実現させるようにしたことを特徴とする同義関係判定プログラム。

この出願は２０１２年３月３０日に出願された日本出願特願２０１２−０８２７２２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

本発明は、同義関係を利用する全ての自然語データ処理に対して適用可能である。

１０記憶手段
１２同義関係判定特定手段
１２Ａ同義候補検出部
１２Ｂ同義期間特定部
１４テキスト収集部
１６同義候補検索部
１８同義元検索部
１８ａ複数出現処理
２０同義関係抽出部
２２同義期間開始判定部
２４同義期間終了判定部
２６表示制御部
３０同義候補生成部
３２同義辞書
ＥＷ同義候補
ＯＷ同義元
ＰＤ時区間
Ｄ時区分別同義データ
ＴＸテキスト集合

Claims

所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部と、外部入力されるテキスト中における前記同義表現候補と前記同義元表現との同義関係を一定の基準に基づいて判定し特定する同義関係判定特定手段とを備えた同義関係判定装置であって、
前記同義関係判定特定手段が、
外部入力される前記テキストを収集しこれに基づいて発行時間が特定可能なテキスト集合を生成するテキスト収集部と、
このテキスト収集部で収集されたテキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを特定し出力する同義候補検出部と、
前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定部と、
を備えたことを特徴とする同義関係判定装置。
請求項１に記載の同義関係判定装置において、
前記同義候補検出部を、前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を前記同義表現候補が存在する時区間として特定する同義候補検索部と、同じく前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を前記同義元表現が存在する時区間として特定する同義元検索部とを含む構成としたことを特徴とする同義関係判定装置。
請求項１又は２に記載の同義関係判定装置において、
前記同義期間特定部を、前記同義候補検出部で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出する同義関係抽出部と、この抽出された同義元表現が前記同義表現候補と同義関係にあると判定すると共に当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを同義期間と共に予め装備した同義辞書に登録する同義期間開始判定部とを含む構成としたことを特徴とする同義関係判定装置。
請求項３に記載の同義関係判定装置において、
前記同義期間開始判定部は、前記同義表現候補が前記テキスト集合で検出される時区間における集合中で、前記時区間での単位時間あたりの出現数と前記時区間以前での単位時間あたりの出現数の比率が最も大きい同義元表現についても、これを前記同義表現候補と同義関係にあると判定する機能を備えていることを特徴とした同義関係判定装置。
請求項１，２，３，又は４に記載の同義関係判定装置において、
前記同義期間特定部は、
当該同義期間特定部の前記同義期間開始判定部で同義関係にあると判定され特定された同義表現候補についてその単位期間あたりの出現数が予め設定したしきい値以下になった時点で、前記同義関係が解消した旨判定する同義期間終了判定部を備えていることを特徴とした同義関係判定装置。
所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定手段を備えた同義関係判定装置にあって、
外部入力される前記テキストを収集しこれに基づいて発行時間が特定できるテキスト集合を、前記同義関係判定特定手段のテキスト収集部が生成し、
この生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、前記同義関係判定特定手段が一定の基準に基づいて判定すると共に特定し、
前記同義関係を特定する工程にあっては、
前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ前記同義関係判定特定手段の同義候補検出部が検索して特定し、
次に、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義関係判定特定手段の同義期間特定部が前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定するようにしたことを特徴とする同義関係判定方法。
請求項６に記載の同義関係判定方法において、
前記同義候補を検出する工程にあっては、
前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定し、
これと相前後して同じく前記テキスト収集部で収集された前記テキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する構成とし、
これらの各時区間の特定工程における動作内容を前記同義候補検出部が実行することを特徴とした同義関係判定方法。
請求項６に記載の同義関係判定方法において、
前記同義期間を特定する工程にあっては、
前記同義候補の検出工程で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出し、
これと相前後して、同じく前記抽出された同義元表現が前記同義表現候補と同義関係にあると判定し且つ当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを前記同義期間と共に予め装備した同義辞書に登録する構成とし、
これらの各抽出／登録工程の動作内容を前記同義区間特定手段が実行することを特徴とした同義関係判定方法。
所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定手段とを備えた同義関係判定装置にあって、
外部入力されるテキストを収集して発行時間を特定できるテキスト集合を生成するテキスト集合生成処理機能、
および生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、一定の基準に基づいて判定すると共に特定処理する同義関係特定処理機能を設けると共に、
前記同義関係特定処理機能が、
前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ検索して特定処理する同義候補検出処理機能、
および前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定処理機能を含む構成とし、
これらの各処理機能を前記同義関係判定特定手段が備えているコンピュータに実現させるようにしたことを特徴とした同義関係判定プログラム。
請求項９に記載の同義関係判定プログラムにおいて、
前記同義候補検出処理機能が、
前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する同義候補対応・時区間特定処理機能、
および前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する同義元対応・時区間特定処理機能、を備えた構成とし、
これら各時区間特定処理機能を前記同義関係判定特定手段が備えているコンピュータに実現させるようにしたことを特徴とする同義関係判定プログラム。