JPWO2013146736A1 - 同義関係判定装置、同義関係判定方法、及びそのプログラム - Google Patents
同義関係判定装置、同義関係判定方法、及びそのプログラム Download PDFInfo
- Publication number
- JPWO2013146736A1 JPWO2013146736A1 JP2014507891A JP2014507891A JPWO2013146736A1 JP WO2013146736 A1 JPWO2013146736 A1 JP WO2013146736A1 JP 2014507891 A JP2014507891 A JP 2014507891A JP 2014507891 A JP2014507891 A JP 2014507891A JP WO2013146736 A1 JPWO2013146736 A1 JP WO2013146736A1
- Authority
- JP
- Japan
- Prior art keywords
- synonym
- candidate
- expression
- time interval
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
そのため、同義表現を自動獲得するさまざまな手法が提案されている。
特許文献2には、「○菱電気」・「某A庁」等の隠語と「三菱電機」・「防衛庁」等の元の表現との同義関係を抽出することを目的として、「○」等の隠語表現リストから照合用索引を生成して、元の表現と照合することにより同義語関係を抽出する手法が開示されている。
即ち、時間の推移によって同義性が変化し、一つの同義候補が時間によっては異なる同義元と同義となる場合には、特許文献1のような手法で算出する時系列相関は高くならず、その結果、同義関係を抽出できない。
特許文献3記載の手法では、同義語の判定に時間情報を使用しているが、同一の情報源(放送局)からの情報を対象としており、不特定多数から収集されるテキスト集合に対しては適用することができない。
本発明は、不特定多数からのテキストで使用される自然語から、時間と共に意味が変化する同義候補の同義関係を有効に抽出し特定することを可能とした同義関係判定装置、同義関係判定方法、及びそのプログラムを提供することを、その目的とする。
そして、前記同義関係判定特定部が、外部入力される前記テキストを収集しこれに基づいて発行時間が特定可能なテキスト集合を生成するテキスト収集部と、このテキスト収集部14で収集されたテキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを特定し出力する同義候補検出手段と、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定手段とを備えたことを特徴としている。
外部入力される前記テキストを収集しこれに基づいて発行時間が特定できるテキスト集合を、前記同義関係判定特定部のテキスト収集部が生成し(テキスト集合生成工程)、
この生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、前記同義関係判定特定部が一定の基準に基づいて判定すると共に特定し(同義関係特定工程)、
前記同義関係を特定する工程にあっては、
前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ前記同義関係判定特定部の同義候補検出手段が検索して特定し(同義候補検出工程)、
続いて、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義関係判定特定部の同義期間特定手段が前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定するように構成したこと(同義期間特定工程)を特徴とする。
外部入力されるテキストを収集して発行時間を特定できるテキスト集合を生成するテキスト集合生成処理機能、および生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、一定の基準に基づいて判定すると共に特定処理する同義関係特定処理機能を設けると共に、
前記同義関係特定処理機能が、前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ検索して特定処理する同義候補検出処理機能、および前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定処理機能を含む構成とし、
これらの各処理機能を前記同義関係判定特定手段が備えているコンピュータに実現させるようにしたことを特徴としている。
最初に、同義関係の概念を明確にすると共に本第1実施形態の基本的な構成内容を説明し、その後に本第1実施形態について、更に詳述する。
まず、本第1実施形態では、二つの語(自然語の語句)の同義関係を期間に対応させて判定するようにした。
ここで、同義関係は、種表現となる同義元と、この同義元と同義性を持つ可能性のある同義候補の表現とである。例えば、「日本電気」と「NEC」と「日電」という自然語の語句は、語としての同義性を持つ。そして、「日本電気」を種表現である同義元とすると、「NEC」「日電」は同義候補である。
社名をアルファベット表記している場合、何らかのニュースとの関係で伏せ字での電子的な対話がなされることがある。このような場合、ニュースとなったことで同義元の出現数が増加する時期に、当該伏せ字の出現が現れ、同義性を持つ。このようなニュース等による同義性は、数時間で終了することもある。
本第1実施形態にあって、同義関係判定装置101は、図1に示すように、所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部10と、外部入力されるテキスト中における前記同義表現候補と前記同義元表現との同義関係を一定の基準に基づいて判定し特定する同義関係判定特定手段12と、を備えている。
また、同義表現候補記録部10には、同義表現候補を生成するための種となる表現を入力しその種表現から同義候補を生成する同義候補生成部10Aが併設されている。
同義辞書5は、同義関係にある表現を記録する辞書であり、同義関係の開始、終了時刻もあわせて登録することができる。
そして、この構成により、同義関係が成立する時区間PDを判定しようとするものである。
時区間PDは、開始時間で区切られる区間であり、本第1実施形態では、同義候補EWが検索される期間である。収集したテキスト集合TXから同義候補EWが検索され始めた際には時区間PDの開始時間はあるが継続中で有り終了時間はない。
時区間PDと重なる期間は、時区間PDと完全に同一の期間でも良いし、時区間PD前の一定時間前からとしても良い。この重なる期間は、文字通り一部で時区間PDと重なれば良い。
いずれにせよ、同義元検索部18は、同義元OWが各時点で何回出現しているかを計数する。
(1)種表現に対して部分文字列を抽出して省略語を生成する。(2)種表現の一部を特定の文字に置換して伏字を生成する。(3)種表現を別の言語に翻訳した翻訳表現を生成する。
図2に示す同義候補リスト10Aは、同義候補EWが多義となる例を含んでいる。同義候補EW[1]に対して、同義元OW[1]から[4]が同義関係の候補として登録されている。同義候補EW[1]は、例えば東西南北の内の一語(例えば「東」)であると、社名、国名など多数の同義元OWが有り得る。
この同義候補リスト10Aには、同義候補EW[1]から[n]まで、同義元OW[1]から[n]まである。同一の種表現[1]である同義元OW[1]が、複数の同義候補EW[1],[2],[3]と関連することもある。
上記同義関係抽出部20は、同義候補EWと同義元OWとの出現が時間的に共通する際に、同義関係を抽出することができる。ここで、同義候補EWの時区間PDに同義元OWの時区間PDが重なり合う際には、出現が時間的に共通する。
同義関係抽出部20は、時区間PD中に複数の同義元OWがある際に、出現数が最多の同義元OWと同義関係が成立したと判定することができる。
ここで、時区間PD[5]と時区間PD[6]の同義元OWの出現数は、同義元検索部18が、それぞれの時区間PDで特定できるテキスト集合TXから同義元OWを検索し、時区間PDでの出現数を合計した値である。
同義関係抽出部20は、単位時間当たりの出現数を使用した計算値に基づいて同義関係を抽出することもできる。出現数を単位時間当たりとすることで、同一の出現数の変化率や、異なる同義元OW間の出現数の比などを使用することができる。
例えば、図3に時区分PD[7]との関係で同義元OW[7]と同義元OW[8]の単位時間当たりの出現数の時間変化を示す。図中時区分PD[7]を示す縦線と平行な間隔の短い縦線間の時間が単位時間である。
単位の出現数(総数)や、単位時間当たりの出現数を同義元OW[8]と比較すると、同義元OW[7]が選択される。
まず、同義表現候補記録部10には、同義元OWと同義関係となる表現の候補である同義候補EWが同義元OWと共に記録されている。
次に、上記第1実施形態における動作を、図4に基づいて説明する。
そして、この生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、前記同義関係判定特定手段12が一定の基準に基づいて判定すると共に特定する(図4:ステップS103,S104/同義関係特定工程)。
具体的には、同義候補検索部16は、テキスト集合TXを読んでいき、例えば、同義表現候補記録部10に記憶されている同義表現候補EWの単位期間あたりの出現数が大きく増加している時区間PDを検出する。
即ち、同義関係抽出部20は、同義候補検索部16で検出された同義候補EWがどの同義元OWと同義関係にあるかを判定し、時区間PDでの同義関係を抽出する。
次に、同義候補EWと同義元OWとの同義関係について同義関係の開始時点を判定する手法を開示する。
この例では、図1に示すように、同義関係判定特定手段12が同義期間開始判定部22を備えている。
この同義期間開始判定部22は、発行時間順のテキスト集合TXで同義候補EWが検索される時区間PDにて当該テキスト集合TXでの同義元OWの出現が予め定められた条件を満たした時点で当該同義元OWと同義となる同義期間が開始したと判定する。
データを比較した結果、条件を満たすと判定しても良いし、実施の具体例によっては例外事項等を定めておき、例えば、しきい値を超えても例外事項に該当する際には条件を満たさないと判定しても良い。
この例では、同義候補EWの意味を、開始時点の前後で異なると把握することができる。
この出現数による同義期間開始判定は、通常時から注目されている同義元OWとの同義関係の判定に効果的である。
同義期間開始判定部22は、出現比率で判定するには、時区間PD中での単位時間あたりの出現数と、時区間PD以前での単位時間あたりの出現数との出現比率が最も大きい同義元OWを同義候補EWと同義関係にあると判定する。そして、同義期間開始判定部22は、時区間PDの開始点において同義候補EWと同義元OWとの間での同義関係の開始点と判定する。
時区間中処理22cは、同義候補EWがテキスト集合TXで検索される時区間PDでの当該同義候補EWと関連する1以上の同義元OWの単位時間あたりの出現数を計算する。 時区間前処理22dは、当該各同義元OWの時区間PD前での単位時間あたりの出現数を計算する。
即ち、比率判定処理22eは、時区間PDの開始時点より前の出現数と比較して、時区間PD中の出現数が大きい際に、同義期間が同義候補EWの時区間PDの開始点で開始したと判定する。
まず、テキスト収集部14は、予め定められた周期や時刻(検索時刻)にネットワーク96を介してテキストを検索し、テキスト集合TXを生成する(図7:ステップS201)。テキスト収集部14は、さらに、テキストの発行時間を特定する(図7:ステップS202)。
同義元検索部18は、同義候補EWと時区間PD[7]とが特定されている際には、図6の同義元テーブル10Bに示すように、時区間PD[7]の前の区間の同義元OW[8]の出現数(100)と、時区間PD[7]中の同義元OW[8]の出現数(400)とを記録する。
そして、時区間前処理22dは、当該各同義元OWの時区間PD前での同様の一定時間まとめた出現数(100)を計算し(図8:ステップS217)、同義元テーブル10Bに記録する。
〔第2実施形態〕
まず、図9に示す第2実施形態にあって、同義関係判定装置102は、前述した図1に開示した第1実施形態の各構成に加えて同義期間の終了を判定する同義期間終了判定部24を備えている点に特徴を有する。
まず、同義表現生成部30で、種表現から同義候補EWを生成し、同義表現候補記録部10に記録する(図10:ステップS221)。
そして、同義期間開始判定部22で、同義候補検索部16で検出された同義候補EWがどの同義元OWと同義関係にあるかを判定し、同義関係の開始点を判定する(図10:ステップS223)。
本実施の形態では、同義関係が終了時刻を出力することが可能であるため、同義関係が成立している時区間PDを正しく判定することが可能となる。
〔第3実施形態〕
この第3実施形態では、時区間PD内の同義元を1つとし、同義関係の開始、入替及び終了を判定する点に特徴を有する。
開始判定処理20cは、出現が予め定められた開始しきい値を超えた同義元OWのうち当該出現が最多の同義元OWについて、当該開始しきい値を超えた時点で同義候補EWとの同義関係が開始したと判定する。
この構成により、多義的な同義候補EWの意味をより高確率な意味に特定することができる。
その他の構成は、前述した第1実施形態の場合と同一となっている。
ここで、いま、種表現(同義元)として、図12に示すように「東京電力」と「東北電力」が与えられた場合を想定する。
そして、実際には、時刻によって「東○電力」が指す内容が「東京電力」や「東北電力」に変化しうる。
まず、同義候補生成部30で、種表現中の形態素の先頭文字を残して省略語を生成したり、種表現中の1文字を「○」に置換して伏字を生成したりすることで同義候補EWを複数生成する。
次に、同義候補検索部16及び同義元検索部18で、同義候補EW及び同義元OWがテキスト集合TX中で(突発的に)出現する時点を検出する。テキスト集合TX中の各テキストには、クロール時間、書き込み時間、等の発行時間が付与されており、それをもとに同義候補EW及び同義元OWが出現する時点を検出する。
これにより、同義候補EWの出現が少なくなり、同義関係が成立すると言えなくなった場合に、終了時刻とともに同義関係が終了したことを判定することができる。
この図14に示す処理では、上述の情報処理とはしきい値や終了の扱い等が異なるが情報処理の概要は同様である。
ここでは、同義元OWの単位時間毎の出現については、図7に示すフローチャートで計算され、同義元テーブル10B等に格納されているとする。
入替処理20dは、同義関係開始後に、当該同義元OW[10](東京電力)の出現(現出現)が他の同義元OW[11](東北電力)の出現(他出現)を下回った際に(図14:ステップS305)、当該下回った時点で当該同義関係が終了したと判定し、そして、新たに最多の同義元OWについて同義関係が開始したと判定する(図14:ステップS306)。現出現が他出現より多い状態が継続すれば(図14:ステップS305)、この入替処理20dは実行されず、終了処理の判定に移る。
前述した図11において、実施例3の同義関係判定装置103は、同義関係判定特定手段12に、データを表示する表示デバイス95を併設している。そして、同義関係判定特定手段12が、表示制御部26を備えている。
ここで、上記実施例1乃至実施例3の同義関係判定装置101,102,103に共通する情報処理について、ハードウエア資源を参照して説明する。
本実施形態における同義関係判定装置101,102,103による情報処理は、ソフトウエアとハードウエア資源とが協働し、使用目的に応じて情報を演算し、又は加工する具体的手段である。
ハードウエア資源として、図15に示すように、情報処理をするコンピュータ80を有している。コンピュータ80は、中央処理装置(CPU)である演算手段82と、この演算手段82に記憶領域を提供する主記憶手段86を有する。コンピュータ80は、一般に、データバス及び入出力インタフェースを通じて接続される周辺機器を有する。周辺機器は、代表的には、通信手段88、外部記憶手段90、入力手段92、出力手段94である。周辺機器を含めた全体をコンピュータ80ということもある。
所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部10と、外部入力されるテキスト中における前記同義表現候補と前記同義元表現との同義関係を一定の基準に基づいて判定し特定する同義関係判定特定手段12とを備えた同義関係判定装置であって、
前記同義関係判定特定手段12が、
外部入力される前記テキストを収集しこれに基づいて発行時間が特定可能なテキスト集合を生成するテキスト収集部14と、
このテキスト収集部14で収集されたテキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを特定し出力する同義候補検出部12Aと、
前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定部12Bと、
を備えたことを特徴とする同義関係判定装置。
付記1に記載の同義関係判定装置において、
前記同義候補検出部12Aを、前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を(前記同義表現候補が存在する時区間として)特定する同義候補検索部16と、同じく前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を(前記同義元表現が存在する時区間として)特定する同義元検索部18とを含む構成としたことを特徴とする同義関係判定装置。
付記1又は2に記載の同義関係判定装置において、
前記同義期間特定部12Bを、前記同義候補検出手段で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出する同義関係抽出部20と、この抽出された同義元表現が前記同義表現候補と同義関係にあると判定すると共に当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを同義期間と共に予め装備した同義辞書に登録する同義期間開始判定部22とを含む構成としたことを特徴とする同義関係判定装置。
付記3に記載の同義関係判定装置において、
前記同義期間開始判定部22は、前記同義表現候補が前記テキスト集合で検出される時区間における集合中で、前記時区間での単位時間あたりの出現数と前記時区間以前での単位時間あたりの出現数の比率が最も大きい同義元表現についても、これを前記同義表現候補と同義関係にあると判定する機能を備えていることを特徴とした同義関係判定装置。
付記1,2,3,又は4に記載の同義関係判定装置において、
前記同義期間特定部12Bは、
当該同義期間特定部12Bの前記同義期間開始判定部22で同義関係にあると判定され特定された同義表現候補についてその単位期間あたりの出現数が予め設定したしきい値以下になった時点で、前記同義関係が解消した旨判定する同義期間終了判定部24を備えていることを特徴とした同義関係判定装置。
所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部10と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定手段12を備えた同義関係判定装置にあって、
外部入力される前記テキストを収集しこれに基づいて発行時間が特定できるテキスト集合を、前記同義関係判定特定手段12のテキスト収集部が生成し(テキスト集合生成工程)、
この生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、前記同義関係判定特定手段12が一定の基準に基づいて判定すると共に特定し(同義関係特定工程)、
前記同義関係を特定する工程にあっては、
前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ前記同義関係判定特定手段12の同義候補検出部12Aが検索して特定し(同義候補検出工程)、
続いて、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義関係判定特定手段12の同義期間特定部12Bが前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定するようにしたこと(同義期間特定工程)を特徴とする同義関係判定方法。
付記6に記載の同義関係判定方法において、
前記同義候補を検出する工程にあっては、
前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定し(同義候補対応・時区間特定工程)、
これと相前後して同じく前記テキスト収集部で収集された前記テキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する構成(同義元対応・時区間特定工程)とし、
これらの各時区間の特定工程における動作内容を前記同義候補検出部12Aが実行することを特徴とした同義関係判定方法。
付記6に記載の同義関係判定方法において、
前記同義期間を特定する工程にあっては、
前記同義候補の検出工程で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出し(同義関係抽出工程)、
これと相前後して、同じく前記抽出された同義元表現が前記同義表現候補と同義関係にあると判定し且つ当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを前記同義期間と共に予め装備した同義辞書に登録する構成とし(同義期間登録工程)、
これらの各抽出/登録工程の動作内容を前記同義区間特定手段12Bが実行することを特徴とした同義関係判定方法。
付記6,7又は8に記載の同義関係判定方法において、
前記同義期間特定部12Bで同義関係にあると判定された同義表現候補の単位期間あたりの出現数を継続的に計数すると共にその出現数が予め設定したしきい値以下になった場合には、前記同義期間特定部12Bの同義期間終了判定部24が前記同義関係が解消したと判定する構成としたことを特徴とする同義関係判定方法。
所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部10と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定手段12とを備えた同義関係判定装置にあって、
外部入力されるテキストを収集して発行時間を特定できるテキスト集合を生成するテキスト集合生成処理機能、
および生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、一定の基準に基づいて判定すると共に特定処理する同義関係特定処理機能を設けると共に、
前記同義関係特定処理機能が、
前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ検索して特定処理する同義候補検出処理機能、
および前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定処理機能を含む構成とし、
これらの各処理機能を前記同義関係判定特定手段12が備えているコンピュータに実現させるようにしたことを特徴とした同義関係判定プログラム。
付記10に記載の同義関係判定プログラムにおいて、
前記同義候補検出処理機能が、
前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する同義候補対応・時区間特定処理機能、
および前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する同義元対応・時区間特定処理機能、を備えた構成とし、
これら各時区間特定処理機能を前記同義関係判定特定手段12が備えているコンピュータに実現させるようにしたことを特徴とする同義関係判定プログラム。
付記10に記載の同義関係判定プログラムにおいて、
前記同義期間特定処理機能が、
前記同義候補検出処理機能で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出する同義関係抽出処理機能、
およびこれと相前後して、同じく前記抽出された同義元表現が前記同義表現候補と同義関係にあると判定し且つ当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを前記同義期間と共に予め装備した同義辞書に登録する同義期間登録処理機能、を備えた構成とし、
これらの各処理機能を前記同義関係判定特定手段12が備えているコンピュータに実現させるようにしたことを特徴とする同義関係判定プログラム。
付記10,11又は12に記載の同義関係判定プログラムにおいて、
前記同義関係特定処理機能が、
前記同義関係にあると判定された同義表現候補の単位期間あたりの出現数を継続的に計数すると共にその出現数が予め設定したしきい値以下になった場合に、その時点で前記同義関係が解消したと判定する同義期間終了判定機能を備え、
これを前記同義関係判定特定手段12が備えているコンピュータに実現させるようにしたことを特徴とする同義関係判定プログラム。
12 同義関係判定特定手段
12A 同義候補検出部
12B 同義期間特定部
14 テキスト収集部
16 同義候補検索部
18 同義元検索部
18a 複数出現処理
20 同義関係抽出部
22 同義期間開始判定部
24 同義期間終了判定部
26 表示制御部
30 同義候補生成部
32 同義辞書
EW 同義候補
OW 同義元
PD 時区間
D 時区分別同義データ
TX テキスト集合
Claims (10)
- 所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部と、外部入力されるテキスト中における前記同義表現候補と前記同義元表現との同義関係を一定の基準に基づいて判定し特定する同義関係判定特定手段とを備えた同義関係判定装置であって、
前記同義関係判定特定手段が、
外部入力される前記テキストを収集しこれに基づいて発行時間が特定可能なテキスト集合を生成するテキスト収集部と、
このテキスト収集部で収集されたテキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを特定し出力する同義候補検出部と、
前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定部と、
を備えたことを特徴とする同義関係判定装置。 - 請求項1に記載の同義関係判定装置において、
前記同義候補検出部を、前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を前記同義表現候補が存在する時区間として特定する同義候補検索部と、同じく前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を前記同義元表現が存在する時区間として特定する同義元検索部とを含む構成としたことを特徴とする同義関係判定装置。 - 請求項1又は2に記載の同義関係判定装置において、
前記同義期間特定部を、前記同義候補検出部で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出する同義関係抽出部と、この抽出された同義元表現が前記同義表現候補と同義関係にあると判定すると共に当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを同義期間と共に予め装備した同義辞書に登録する同義期間開始判定部とを含む構成としたことを特徴とする同義関係判定装置。 - 請求項3に記載の同義関係判定装置において、
前記同義期間開始判定部は、前記同義表現候補が前記テキスト集合で検出される時区間における集合中で、前記時区間での単位時間あたりの出現数と前記時区間以前での単位時間あたりの出現数の比率が最も大きい同義元表現についても、これを前記同義表現候補と同義関係にあると判定する機能を備えていることを特徴とした同義関係判定装置。 - 請求項1,2,3,又は4に記載の同義関係判定装置において、
前記同義期間特定部は、
当該同義期間特定部の前記同義期間開始判定部で同義関係にあると判定され特定された同義表現候補についてその単位期間あたりの出現数が予め設定したしきい値以下になった時点で、前記同義関係が解消した旨判定する同義期間終了判定部を備えていることを特徴とした同義関係判定装置。 - 所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定手段を備えた同義関係判定装置にあって、
外部入力される前記テキストを収集しこれに基づいて発行時間が特定できるテキスト集合を、前記同義関係判定特定手段のテキスト収集部が生成し、
この生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、前記同義関係判定特定手段が一定の基準に基づいて判定すると共に特定し、
前記同義関係を特定する工程にあっては、
前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ前記同義関係判定特定手段の同義候補検出部が検索して特定し、
次に、前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義関係判定特定手段の同義期間特定部が前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定するようにしたことを特徴とする同義関係判定方法。 - 請求項6に記載の同義関係判定方法において、
前記同義候補を検出する工程にあっては、
前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定し、
これと相前後して同じく前記テキスト収集部で収集された前記テキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する構成とし、
これらの各時区間の特定工程における動作内容を前記同義候補検出部が実行することを特徴とした同義関係判定方法。 - 請求項6に記載の同義関係判定方法において、
前記同義期間を特定する工程にあっては、
前記同義候補の検出工程で前記同義表現候補が検出された時区間におけるテキスト集合中で少なくとも最も出現数の多い同義元表現を同義関係にある同義元として抽出し、
これと相前後して、同じく前記抽出された同義元表現が前記同義表現候補と同義関係にあると判定し且つ当該両者が同義関係にある時区間の開始点を同義期間の開始点としてこれを前記同義期間と共に予め装備した同義辞書に登録する構成とし、
これらの各抽出/登録工程の動作内容を前記同義区間特定手段が実行することを特徴とした同義関係判定方法。 - 所定の一の同義元表現と同義関係の対象となる複数の同義表現候補とが相互に対応して記録された同義表現候補記録部と、外部入力されるテキスト中における前記同義表現候補と同義元表現との同義関係を判定し特定する同義関係判定特定手段とを備えた同義関係判定装置にあって、
外部入力されるテキストを収集して発行時間を特定できるテキスト集合を生成するテキスト集合生成処理機能、
および生成された前記テキスト集合に含まれる前記同義表現候補と前記同義元表現との同義関係を、一定の基準に基づいて判定すると共に特定処理する同義関係特定処理機能を設けると共に、
前記同義関係特定処理機能が、
前記テキスト収集部で収集された前記テキスト集合から前記同義表現候補が多く検出される時区間と前記同義元表現が多く検出される時区間とを、それぞれ検索して特定処理する同義候補検出処理機能、
および前記同義表現候補が前記テキスト集合で検出される時区間と前記同義元表現が前記テキスト集合で検出される時区間との位置関係及び検出頻度とに基づいて、前記同義表現候補と前記同義元表現とが同義関係にある時区間を同義期間と判定し特定する同義期間特定処理機能を含む構成とし、
これらの各処理機能を前記同義関係判定特定手段が備えているコンピュータに実現させるようにしたことを特徴とした同義関係判定プログラム。 - 請求項9に記載の同義関係判定プログラムにおいて、
前記同義候補検出処理機能が、
前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義表現候補を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する同義候補対応・時区間特定処理機能、
および前記テキスト収集部で収集された発行時間を特定できるテキスト集合から前記同義元表現を検出し計数すると共に単位時間当たりの出現数の大きい時区間を抽出して特定する同義元対応・時区間特定処理機能、を備えた構成とし、
これら各時区間特定処理機能を前記同義関係判定特定手段が備えているコンピュータに実現させるようにしたことを特徴とする同義関係判定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014507891A JP6394388B2 (ja) | 2012-03-30 | 2013-03-26 | 同義関係判定装置、同義関係判定方法、及びそのプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012082722 | 2012-03-30 | ||
JP2012082722 | 2012-03-30 | ||
JP2014507891A JP6394388B2 (ja) | 2012-03-30 | 2013-03-26 | 同義関係判定装置、同義関係判定方法、及びそのプログラム |
PCT/JP2013/058696 WO2013146736A1 (ja) | 2012-03-30 | 2013-03-26 | 同義関係判定装置、同義関係判定方法、及びそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2013146736A1 true JPWO2013146736A1 (ja) | 2015-12-14 |
JP6394388B2 JP6394388B2 (ja) | 2018-09-26 |
Family
ID=49259987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014507891A Active JP6394388B2 (ja) | 2012-03-30 | 2013-03-26 | 同義関係判定装置、同義関係判定方法、及びそのプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US9489370B2 (ja) |
JP (1) | JP6394388B2 (ja) |
SG (1) | SG11201406240WA (ja) |
WO (1) | WO2013146736A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9009197B2 (en) | 2012-11-05 | 2015-04-14 | Unified Compliance Framework (Network Frontiers) | Methods and systems for a compliance framework database schema |
US10152532B2 (en) * | 2014-08-07 | 2018-12-11 | AT&T Interwise Ltd. | Method and system to associate meaningful expressions with abbreviated names |
JP6481643B2 (ja) * | 2016-03-08 | 2019-03-13 | トヨタ自動車株式会社 | 音声処理システムおよび音声処理方法 |
JP2017167851A (ja) * | 2016-03-16 | 2017-09-21 | 株式会社東芝 | 概念辞書作成装置、方法およびプログラム |
US10943075B2 (en) * | 2018-02-22 | 2021-03-09 | Entigenlogic Llc | Translating a first language phrase into a second language phrase |
US11182416B2 (en) | 2018-10-24 | 2021-11-23 | International Business Machines Corporation | Augmentation of a text representation model |
US10769379B1 (en) | 2019-07-01 | 2020-09-08 | Unified Compliance Framework (Network Frontiers) | Automatic compliance tools |
US11120227B1 (en) | 2019-07-01 | 2021-09-14 | Unified Compliance Framework (Network Frontiers) | Automatic compliance tools |
US10824817B1 (en) * | 2019-07-01 | 2020-11-03 | Unified Compliance Framework (Network Frontiers) | Automatic compliance tools for substituting authority document synonyms |
CA3191100A1 (en) | 2020-08-27 | 2022-03-03 | Dorian J. Cougias | Automatically identifying multi-word expressions |
US20230031040A1 (en) | 2021-07-20 | 2023-02-02 | Unified Compliance Framework (Network Frontiers) | Retrieval interface for content, such as compliance-related content |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877178A (ja) * | 1994-09-01 | 1996-03-22 | Ibm Japan Ltd | 情報検索システム及び方法 |
JPH10320419A (ja) * | 1997-05-22 | 1998-12-04 | Nippon Telegr & Teleph Corp <Ntt> | 情報関連づけ装置およびその方法 |
JPH11312168A (ja) * | 1998-04-28 | 1999-11-09 | Nippon Telegr & Teleph Corp <Ntt> | 同義語計算装置及びその方法並びに同義語計算プログラムを記録した媒体 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003296354A (ja) | 2002-03-29 | 2003-10-17 | Mitsubishi Electric Corp | 辞書作成装置 |
US7636714B1 (en) | 2005-03-31 | 2009-12-22 | Google Inc. | Determining query term synonyms within query context |
US7925498B1 (en) | 2006-12-29 | 2011-04-12 | Google Inc. | Identifying a synonym with N-gram agreement for a query phrase |
US8001136B1 (en) | 2007-07-10 | 2011-08-16 | Google Inc. | Longest-common-subsequence detection for common synonyms |
US8037086B1 (en) | 2007-07-10 | 2011-10-11 | Google Inc. | Identifying common co-occurring elements in lists |
US9092517B2 (en) | 2008-09-23 | 2015-07-28 | Microsoft Technology Licensing, Llc | Generating synonyms based on query log data |
US8612202B2 (en) | 2008-09-25 | 2013-12-17 | Nec Corporation | Correlation of linguistic expressions in electronic documents with time information |
-
2013
- 2013-03-26 JP JP2014507891A patent/JP6394388B2/ja active Active
- 2013-03-26 US US14/389,462 patent/US9489370B2/en active Active
- 2013-03-26 SG SG11201406240WA patent/SG11201406240WA/en unknown
- 2013-03-26 WO PCT/JP2013/058696 patent/WO2013146736A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877178A (ja) * | 1994-09-01 | 1996-03-22 | Ibm Japan Ltd | 情報検索システム及び方法 |
JPH10320419A (ja) * | 1997-05-22 | 1998-12-04 | Nippon Telegr & Teleph Corp <Ntt> | 情報関連づけ装置およびその方法 |
JPH11312168A (ja) * | 1998-04-28 | 1999-11-09 | Nippon Telegr & Teleph Corp <Ntt> | 同義語計算装置及びその方法並びに同義語計算プログラムを記録した媒体 |
Also Published As
Publication number | Publication date |
---|---|
US20150066478A1 (en) | 2015-03-05 |
JP6394388B2 (ja) | 2018-09-26 |
WO2013146736A1 (ja) | 2013-10-03 |
SG11201406240WA (en) | 2014-11-27 |
US9489370B2 (en) | 2016-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6394388B2 (ja) | 同義関係判定装置、同義関係判定方法、及びそのプログラム | |
US9317498B2 (en) | Systems and methods for generating summaries of documents | |
Moussa et al. | A survey on opinion summarization techniques for social media | |
US10558754B2 (en) | Method and system for automating training of named entity recognition in natural language processing | |
KR101713831B1 (ko) | 문서추천장치 및 방법 | |
Shi et al. | Learning-to-rank for real-time high-precision hashtag recommendation for streaming news | |
EP2831764A1 (en) | Named entity extraction from a block of text | |
WO2010014082A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
CN104978332B (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
WO2012096388A1 (ja) | 意外性判定システム、意外性判定方法およびプログラム | |
US20240104405A1 (en) | Schema augmentation system for exploratory research | |
JP2014197300A (ja) | テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム | |
JP2016126567A (ja) | コンテンツ推薦装置、及びプログラム | |
Chang et al. | Improving recency ranking using twitter data | |
US8037403B2 (en) | Apparatus, method, and computer program product for extracting structured document | |
JP2017068862A (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
Nasim et al. | Evaluation of clustering techniques on Urdu News head-lines: A case of short length text | |
WO2019231635A1 (en) | Method and apparatus for generating digest for broadcasting | |
Ung et al. | Combination of features for vietnamese news multi-document summarization | |
Lama | Clustering system based on text mining using the K-means algorithm: news headlines clustering | |
Tsapatsoulis | Web image indexing using WICE and a learning-free language model | |
Shah et al. | WebRank: Language-Independent Extraction of Keywords from Webpages | |
Shah et al. | W-rank: A keyphrase extraction method for webpage based on linguistics and DOM-base features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180731 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180813 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6394388 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |