JPWO2014002774A1

JPWO2014002774A1 - 同義語抽出システム、方法および記録媒体

Info

Publication number: JPWO2014002774A1
Application number: JP2014522530A
Authority: JP
Inventors: 英司平尾; 古橋　武; 武古橋; 大弘吉川
Original assignee: Nagoya University NUC; NEC Corp; Tokai National Higher Education and Research System NUC
Current assignee: Nagoya University NUC; NEC Corp; Tokai National Higher Education and Research System NUC
Priority date: 2012-06-25
Filing date: 2013-06-06
Publication date: 2016-05-30
Also published as: WO2014002774A1

Abstract

情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書の曖昧さを改善するために、同義語抽出システムは、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、誤検出されやすい「単語＋定型文」というパターンに用いられる単語組合せの類似度を下げ、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出する。同義語抽出システムは、文書入力部と、単語分析部と、表記文脈類似度算出部と、概念データベースと、概念文脈類似度算出部と、同義語候補推定部と、同義語候補出力部と、を備える。

Description

本発明は、同義語抽出システム、方法および記録媒体に関し、特に、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出する同義語抽出システム、方法および記録媒体に関する。

近年、情報処理装置を用いて、自然言語で書かれた文書を分析して、その文書の意味や意義を自動抽出するシステムが開発されている。そのなかで、文書中の同義語の取り扱いが問題になることがある。尚、同義語とは、意義は同じで語形が異なっている語、換言すれば、発音や表記は異なるが、意味の同じである語をいう。
同義語抽出システムに関する先行技術の一例が、特許文献１に「自動類似度計算システム」として記載されている。この特許文献１に開示された自動類似度計算システムは、文書データ保存部と、候補表現メモリ部と、類似度重み値計算部とから構成されている。このような構成を有する自動類似度計算システムは、次のように動作する。
すなわち、文書データ保存部は、少なくとも一つのテキスト文書を含むテキスト文書の集りをデジタル形式で保存する。候補表現メモリ部は、それぞれ前記集りのテキスト文書の少なくとも一つに出現する表現ｔ_ｉの集合を保存する。類似度重み値計算部は、少なくとも一組の同義語候補ペアｔ_１とｔ_２を選択し、選択された候補ペアについて、前記テキスト文書の集りの任意の文章範囲で前記表現ペアの二つの候補ペアｔ_１とｔ_２が共起する総頻度と、この任意の文章範囲内の異なる文脈表現の総数の両方を考慮に入れた類似尺度｜ｏｃｃ＿ｃｏｎ（ｔ_１、ｔ_２）｜に基づいて候補ペアの類似度重み値ａｇｗ（ｔ_１、ｔ_２）を計算する。ここで、文脈表現とは、任意の文章範囲の集合の少なくとも一つの任意の文章範囲で表現ｔ_１と共起しかつ少なくとも一つの任意の文章範囲で表現ｔ_２と共起する表現であって、ｔ_１とｔ_２のいずれとも一致しない表現、もしくは前記任意の文章範囲で表現ｔ_１とｔ_２の両方と共起する文章を指す。また、前記類似尺度ｏｃｃ＿ｃｏｎ（ｔ_１、ｔ_２）は、前記任意の文章範囲で表現ｔ_１と表現ｔ_２の両方と共起しかつｔ_１とｔ_２のいずれとも対応または一致しない文脈表現の総数であり、一つ以上の任意の文章範囲で同じ形で出現する文脈表現は一回の共起としてのみカウントすることで異なる文脈表現の数だけを考慮に入れることを特徴とする。このような構成で、異なる文脈表現の数だけを考慮に入れることにより、同義語候補ペア間の類似度重み値を改良された方法で計算することができ、実際の類似性をより反映することを実現している。
さらに、同義語抽出システムに関する先行技術の他の例が、特許文献２に「単語意味関係抽出装置」として記載されている。この特許文献２に開示された単語意味関係抽出装置は、テキストから抽出した単語の組に対してそれぞれ異なる複数種類の類似度を要素とする素性ベクトルを生成する手段と、既知の辞書を参照し、前記素性ベクトルに対して単語意味関係を示すラベルを付与する手段と、前記ラベルが付与された複数の素性ベクトルに基づいて単語意味関係判定ルールを学習する手段と、前記学習した単語意味関係判定ルールに基づいて、任意の単語の組に対して単語意味関係を判定する手段とを備える。このような構成により、学習により複数の類似性の的確な統合を行い、高精度な単語意味関係抽出を行うことを実現している。

特表２００９−５１４０７６号公報特開２０１１−１１８５２６号公報

このような先行技術の第一の課題は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書の同義語の抽出に、特許文献１の先行技術による同義語の抽出方法を適用すると、同義語ではないにも拘らず、共起情報を引用すると類似性が高いと誤検出されやすい「単語＋定型文」というパターンに用いられる単語間の類似度を下げる効果が弱いことである。その理由は、情報システム構築に関する提案書や仕様書等といった文書群では、「単語＋定型文」というパターンが絶対に同義語にならない並列関係にある単語において使用されることが多く、特許文献１の先行技術のように、同じ形で出現する文脈表現は一回の共起としてのみカウントし、同義語の候補とした単語の文脈情報を出現回数ではなく、単語の文脈情報のバリエーションの数で評価する方法では、「単語＋定型文」というパターンが類似度に与える影響を弱める効果は見込めるが、「単語＋定型文」というパターンがむしろ非類似を意味するという観点を持たない処理であるため、「単語＋定型文」というパターンが同一単語について複数回利用されていない同義語ではない組合せなど、誤検出に繋がる組合せの類似性を下げることが難しいためである。
上記先行技術の第二の課題は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書の同義語の抽出に、先行技術による同義語の抽出方法を適用すると、特定の案件に関する文書群でのみ成り立つ同義語を抽出することができないことである。その理由は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語は、事前にその同義関係を把握することが難しく、特許文献２の先行手法で用いられているような既知の辞書を準備することが困難であるためである。
本発明の目的は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、誤検出されやすい「単語＋定型文」というパターンに用いられる単語組合せの類似度を下げ、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出する、同義語抽出システム、方法および記録媒体を提供することにある。

本発明に係る同義語抽出システムは、文書を分析して同義語を抽出する同義語抽出システムであって、対象とする文書もしくは文書群の入力を受け付ける文書入力部と；文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の抽出元の文に関する単語情報の抽出を行う単語分析部と；各文章に使用されている各単語について、単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成し、各単語の表記文脈情報の間の類似性を示す表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する表記文脈類似度算出部と；単語の一般概念を体系づけた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースと；上記単語分析部で抽出された各文章に使用されている各単語について、各単語の概念を上記概念データベースに問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成し、各単語の概念文脈情報の間の類似性を示す概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する概念文脈類似度算出部と；各単語に対応する表記文脈類似度と概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高いとする所定の同義判定ルールによって単語間の同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定部と；同義語候補を出力する同義語候補出力部と；を備える。

本発明によれば、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出することが可能となり、誤解に基づく混乱や失敗などの削減につなげられる。

図１は本発明の一実施形態に係る同義語抽出システムの構成を示すブロック図である。
図２は図１に示した同義語抽出システムの動作例を示すシーケンス図である。
図３は本発明の第１の実施例に係る同義語抽出システムの構成を示すブロック図である。
図４は基軸単語共起表Ｅの一部の例を示す説明図である。
図５はインターネット・サーバＺ内に保存されたシソーラスの一般概念情報Ｃｇの分類体系の例を示す説明図である。
図６は大分類の基軸単語概念表ＳＣ１の一部の例を示す説明図である。
図７は中分類の基軸単語概念表ＳＣ２の一部の例を示す説明図である。
図８は小分類の基軸単語概念表ＳＣ３の一部の例を示す説明図である。
図９は単語の組合せ毎の概念間類似度、共起間類似度、単語間類似度の算出結果の例を示す説明図である。

［実施形態］
最初に、本発明の一実施形態について、図面を参照して詳細に説明する。
図１は、本発明の一実施形態に係る同義語抽出システム１００の構成を示すブロック図である。
図１を参照すると、本発明の実施形態に係る同義語抽出システム１００は、基本的に電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、文書入力部１０、単語分析部２０、表記文脈類似度算出部３０、概念文脈類似度算出部４０、同義語候補推定部５０、同義語候補出力部６０、及び概念データベース１１０、を含む。
図示の同義語抽出システム１００は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出する同義語抽出システムである。
少し詳細に述べると、同義語抽出システム１００は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、誤検出されやすい「単語＋定型文」というパターンに用いられる単語組合せの類似度を下げ、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出する、同義語抽出システムである。
電子機器で同義語抽出システムを構成する場合、同義語抽出システム１００は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ（ＲＯＭ）と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ（ＲＡＭ）と、ＲＯＭに記憶されたプログラムに従って、ＲＡＭに記憶されているデータを処理する中央処理装置（ＣＰＵ）とから構成される。
この場合、入力装置が文書入力部１０として働く。データ処理装置が、単語分析部２０、表記文脈類似度算出部３０、概念文脈類似度算出部４０、および同義語候補推定部５０として働く。補助記憶装置が概念データベース１１０として動作する。出力装置が同義語候補出力部６０として働く。
次に、同義語抽出システム１００を構成する各構成要素の動作について説明する。
文書入力部１０は、対象とする文書もしくは文書群の入力を受け付ける。
単語分析部２０は、文書もしくは文書群を構成する各文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語の抽出および単語毎の抽出元の文、段落、目次上の項目、品詞などの単語情報の抽出を行う。
ここで、単語は名詞、動詞、形容詞など単独で意味をなす自立語に限定しても良い。上記単語情報には必要に応じて単語間の係り受け関係などを含めても良い。
表記文脈類似度算出部３０は、単語分析部２０で抽出された各文章に使用されている各単語について、上記単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成する。
ここで、上記表記文脈情報とは、各単語が使用された文における表記的な文脈情報であって、ｉ）単語前後の所定範囲の文字列、ｉｉ）共起判定ルールで単語と共起関係とみなされた共起語とその共起数を１文単位でまとめた共起セット、およびｉｉｉ）共起セットを任意の範囲の文章群について集計した共起ベクトルのグループから選択されたいずれか１つであってよい。
また、上記共起判定ルールとしては、１文、１段落内の全文章、目次上の同一項目内での全文章、文書全体など、文書の特徴に合わせて共起語と見なす範囲を設定して良く、１文内での共起する動詞、および目次上の同一項目内の文章内の名詞のように品詞毎に共起とみなす範囲を変えても良い。さらに、単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語を共起語に限定するのを、上記共起判定ルールとして利用しても良い。また、共起数は共起回数でも良いが、共起回数を単語毎の全共起語数で除した頻度などでも良い。
さらに表記文脈類似度算出部３０は、任意に設定した表記文脈類似度指標によって、各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する。
ここで、上記表記文脈類似度指標とは、各単語の表記文脈情報の間の類似性を示す指標である。表記文脈類似度指標は、上記表記文脈情報が単語前後の所定範囲の文字列である場合は、文字列中で一致する文字の個数もしくは割合や、文字列間の編集距離と単調減少の関係にある関数値が適している。表記文脈類似度指標は、上記表記文脈情報が共起セットの場合は、共起セット内で一致した共起語の個数もしくは割合が適している。表記文脈類似度指標は、上記表記文脈情報が共起ベクトルの場合は、共起ベクトル間のコサイン類似度や、共起ベクトル間のユークリッド距離と単調減少の関係にある関数値が適している。
概念データベース１１０は、単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答するデータベースである。
概念データベース１１０は、単語を分類体系付けて記憶しており、単語間の上位／下位関係、部分／全体関係、同義関係、類義関係について、一般概念情報として取得できるシソーラスなどが相当する。
概念文脈類似度算出部４０は、単語分析部２０で抽出された各文章に使用されている各単語について、各単語の概念を概念データベース１１０に問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成する。
ここで、上記概念文脈情報とは、各単語が使用された文における概念的な文脈情報であり、ｉ）共起判定ルールで単語と共起関係とみなされた共起語とその共起数を１文単位でまとめた共起セットの各共起語を概念語に変換した概念セット、もしくはｉｉ）共起セットを任意の範囲の文章群について集計した共起ベクトルの各共起語を概念語に変換した概念ベクトルなどが適している。
なお、共起セットの概念セットへの変換方法や共起ベクトルの概念ベクトルへの変換方法としては、単に共起語を概念語に変換するだけでなく、変換で異なる共起語が同じ概念となる場合はそれぞれの共起語を合流し、共起数の和を対応箇所へ登録するのが適している。
また、概念データベース１１０として大分類、中分類、小分類、小分類のような複数の階層での概念が一般概念情報として登録されたシソーラスを用いる場合、階層毎に概念ベクトルを作成し、大分類など広い概念での概念ベクトルで異なる共起語が同じ概念となる場合は、それぞれの共起語を合流し、共起数の和を対応箇所へ登録するのが適している。他に、概念データベース１１０として同義語を含む類義語群が一般概念情報として登録された類語辞書を用いた場合、共起語を対応する類義語群の各類義語に変換し、各類義語の共起数として対応する共起語の共起数を割り当て、同一の単語の共起語に関して変換された類義語毎の共起数の延べ数を概念ベクトルとして算出しても良い。なお、概念データベース１１０に共起語に対応する概念が無い場合、上記共起語は概念に変換せず、共起語の単語をそのまま仮の概念として残しても良い。
さらに概念文脈類似度算出部４０は、任意に設定した概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する。
ここで、上記概念文脈類似度指標とは、各単語の概念文脈情報の間の類似性を示す指標である。概念文脈類似度指標は、上記概念文脈情報が概念セットの場合は、概念セット内で一致した概念語の個数もしくは割合が適している。概念文脈類似度指標は、上記概念文脈情報が概念ベクトルの場合は、概念ベクトル間のコサイン距離や、概念ベクトル間のユークリッド距離と単調減少の関係にある関数値が適している。
同義語候補推定部５０は、各単語組合せに対応する表記文脈類似度と概念文脈類似度とに基づき、類似性の判定を行う同義判定ルールによって単語組合せの同義性を判定し、同義語候補の組合せとして抽出（推定）する。
ここで、上記同義判定ルールは、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高い単語組合せとルールであればよい。例えば、同義判定ルールは、概念文脈類似度と単調増加の関係にある関数を表記文脈類似度と単調増加の関係にある関数で除した指標が任意の閾値より大きい単語の組合せを抽出するルールで良い。或いは、同義判定ルールは、表記文脈類似度が任意の閾値より大きい単語の組合せを同義語候補から除外し、残った単語の組合せで概念文脈類似度が高い組合せを抽出するルールでも良い。
なお、概念データベース１１０として複数の階層での概念が一般概念情報として登録されたシソーラスを用いて概念ベクトルを作成した場合、各階層での概念文脈類似度を算出し、小分類などより詳細な深い分類での概念文脈類似度ほど重視するように重み付けした概念文脈類似度を上記同義判定ルールに適用しても良い。
同義語候補出力部６０は、同義語候補推定部５０で抽出（推定）した同義語候補を出力する。
ここで、出力形態は、文書内における同義語候補の組合せを色分けや太字による強調などで明示することで、文書全体を出力する形態などが適当である。他にも、出力形態としては、同義語候補の組合せを抽出した表などの形態であって良い。また、出力形態としては、同義語候補とされた単語を主ノード、その共起語を中間ノード、概念を端ノードとして関係をリンクで結んだグラフを表示し、同義語候補とされた単語を最短で繋ぐリンクを色分けして強調するなどの形態であって良い。また、出力形態としては、同義語候補を抽出する際に用いた非類似度などで同義語間に定量的な同義度を付加し、同義度が任意に設定された閾値より大きい同義語のみに表示を限定しても良い。もしくは、出力形態としては、同義語候補間の同義度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えるなどしても良い。
また、各出力形態を選択できるようにして、ベースとなる表示形態から必要に応じて表やグラフに移行できるようにしてもよい。また、必要に応じて動詞や品詞などを選択的に出力するようにしてもよい。
次に、図１及び図２のシーケンス図を参照して、本発明の実施形態に係る同義語抽出システム１００の全体の動作について詳細に説明する。なお、図２に示すシーケンス図及び以下の説明は処理例であり、適宜求める処理に応じて処理順等を入れ替えたり処理を戻したりすることを行ってもよい。
文書入力部１０は、対象とする文書もしくは文書群の入力を受け付ける（図２のステップＡ１）。
単語分析部２０は、文書もしくは文書群を構成する各文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語の抽出および単語毎の抽出元の文、段落、目次上の項目、品詞などの単語情報の抽出を行う（ステップＡ２）。
表記文脈類似度算出部３０は、単語分析部２０で抽出された各文章に使用されている各単語について、単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成する（ステップＡ３）。
さらに表記文脈類似度算出部３０は、任意に設定した表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する（ステップＡ４）。
概念データベース１１０は、単語の概念分類および同義語、類義語、用法などの一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する（ステップＡ５）。
概念文脈類似度算出部４０は、単語分析部２０で抽出された各文章に使用されている各単語について、各単語の概念を概念データベース１１０に問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成する（ステップＡ６）。
さらに概念文脈類似度算出部４０は、任意に設定した概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する（ステップＡ７）。
同義語候補推定部５０は、各単語組合せに対応する表記文脈類似度と概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高い単語組合せとする所定の同義判定ルールによって単語組合せの同義性を判定し、同義語候補の組合せとして抽出（推定）する（ステップＡ８）。
同義語候補出力部６０は、同義語候補推定部５０で抽出（推定）した同義語候補を出力する（ステップＡ９）。
次に、本発明の実施形態に係る同義語抽出システム１００の効果について説明する。
本実施形態では、文書内もしくは文書群内の単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高い同義語候補の組合せとして抽出することによって、誤検出されやすい「単語＋定型文」というパターンに用いられる単語組合せの類似度を下げるように構成されている。このため、誤検出の少ない類似性の評価が可能になり、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から同義語を抽出できる。
尚、上記本発明の実施形態に係る同義語抽出システム１００は、同義語抽出方法として実現され得る。また、上記本発明の実施形態に係る同義語抽出システム１００は、同義語抽出プログラムによりコンピュータによって実行させるようにしても良い。

次に、図３を参照して、具体的な第１の実施例を用いて、本発明の一実施形態に係る同義語抽出システム１００の動作について説明する。
本第１の実施例では、次のことを目的としている。
先ず、同義語抽出システム１００は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書Ｄ内に含まれる特定の案件に関する文書群でのみ成り立つ同義語候補Ａを推定する。そして、同義語抽出システム１００は、推定結果を出力することで、未登録の用語に関する用語集の作成や語の統一を支援する。また、本第１の実施例では、同義語抽出システム１００は、図３に示されるように、文書解析システムＹと、インターネット・サーバＺとで構成されるものとする。
文書解析システムＹは、分析実施者Ｂの持つＰＣ端末上で動作し、入力部及び出力部を介して、分析実施者Ｂが同義語を抽出したい文書群を構成する文章の入力と、同義語候補Ａの提示を実現する。
インターネット・サーバＺは、通信ネットワークを介して文書解析システムＹを実装した分析実施者Ｂの持つＰＣ端末と接続されている。インターネット・サーバＺは、文書解析システムＹからの単語の意味などの概念情報の問い合わせに対し、単語の概念分類や一般的な同義語や類義語、用法に関連する一般概念情報Ｃｇの検索を可能にする装置である。
図３と図１との対応関係について説明する。
文書入力部１０は、ＰＣ端末の入力部として動作する。単語分析部２０と、表記文脈類似度算出部３０と、概念文脈類似度算出部４０と、同義語候補推定部５０とは、文書解析システムＹ内に含まれている。同義語候補出力部６０は、ＰＣ端末の出力部として動作する。概念データベース１１０はインターネット・サーバＺ内に含まれている。
この様な手段を備えた文書解析システムＹ、インターネット・サーバＺは以下のような動作をする。
文書解析システムＹは、入力部から、分析実施者Ｂが特定の案件に関する文書から、意義は同じで語形が異なっている同義語候補Ａを推定したい文書群を構成する文書Ｄの入力を受け付ける。そして、文書解析システムＹは、文書Ｄを構成する文書の文章毎に形態素解析および構文解析を適用し、文書を構成する単語に分解し、単語毎の抽出元の文および品詞を解析することで、名詞および、動詞、形容詞、形容動詞を単語Ｗとして抽出する。なお、動詞の内でサ行変格活用に属する動詞は活用部分を除去しいわゆるサ変名詞化した形態で抽出する。
さらに文書解析システムＹは、文書Ｄに含まれる単語Ｗの内で名詞を単語Ｓとし、各単語Ｓｉ（ｉ＝１、２、・・・、ｎ）について、特定の単語Ｓｉと同一文中で共起関係にある名詞、動詞、形容詞を、共起語Ｖｊ（ｊ＝１、２、・・・、ｍ）として抽出し、単語Ｓｉに対する各共起語Ｖｉｊの共起回数を共起数Ｎｉｊとして集計し、全ての単語Ｓに対する各共起語Ｖについて表形式にまとめた単語共起表Ｅを作成する。なお、単語共起表Ｅの単語Ｓｉに対する各共起語Ｖｊの共起数Ｎｉｊをまとめたデータセットを単語共起ベクトルＮｉと呼ぶ。
例えば、文書Ｄに「給与管理システムの利用時に各ウインドウを並べて表示する方法」、「給与計算システムの表示の機能として以下の画面を構築する。」、「交通費計算システムの表示の機能として以下の画面を構築する。」などの文章が含まれていた場合、単語Ｓｉとしては、少なくとも「給与管理システム」、「給与計算システム」、「交通費計算システム」、「利用時」、「画面」、「並べる」、「表示」、「方法」、「機能」、「以下」、「ウインドウ」、「構築」が抽出される。単語共起表Ｅの一例として、「給与管理システム」、「給与計算システム」、「交通費計算システム」を単語Ｓｉとした時の単語共起表Ｅは、図４のような、各行に単語Ｓｉを各列に共起語Ｖｉｊを配置し、その共起数Ｎｉｊを記載した表になる。また、図４の単語Ｓｉの行のデータセットが単語共起ベクトルＮｉに相当し、「給与管理システム」の単語共起ベクトルＮｉは｛１、２、１、１、１、０、０、０、０、・・・｝のように表される。なお、単語Ｓと共起語Ｖはいずれも名詞を含むため、先に単語として選択された単語も、他の単語が単語の場合は共起語として扱い、相互で重複して登録する。
インターネット・サーバＺは、単語の一般的な上位／下位関係、部分／全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスの一般概念情報Ｃｇを蓄積する。また、インターネット・サーバＺは、任意の単語の情報を抽出する検索エンジンなどの機能も提供することで、文書解析システムＹからの問い合わせに応じて、問い合わせ対象の単語の一般的な概念分類として大分類、中分類、小分類を一般概念情報Ｃｇとして抽出し、提示する。
文書解析システムＹは、まず単語共起表Ｅの各共起語Ｖｊのそれぞれの一般概念情報Ｃｇについてインターネット・サーバＺに問い合わせを行うことで、インターネット・サーバＺ内に保存されたシソーラスの一般概念情報Ｃｇの分類体系から、各共起語Ｖｊが属する大分類の共起語概念Ｃ１ｖｊと、中分類の共起語概念Ｃ２ｖｊと、小分類の共起語概念Ｃ３ｖｊとを抽出する。次に、文書解析システムＹは、単語共起表Ｅにおける共起語Ｖｊを共起語概念Ｃ１ｖｊに変換し、同じ概念となる共起語Ｖｉをまとめ、共起数Ｎｉｊの和を対応箇所へ登録した、大分類の単語概念表ＳＣ１を作成する。また、文書解析システムＹは、単語共起表Ｅにおける共起語Ｖｊを共起語概念Ｃ２ｖｊに変換し、同じ概念となる共起語Ｖｉをまとめ、共起数Ｎｉｊの和を対応箇所へ登録した、中分類の単語概念表ＳＣ２を作成する。さらに、文書解析システムＹは、単語共起表Ｅにおける共起語Ｖｊを共起語概念Ｃ３ｖｊに変換し、同じ概念となる共起語Ｖｉをまとめ、共起数Ｎｉｊの和を対応箇所へ登録した、小分類の単語概念表ＳＣ３を作成する。
なお、大分類の単語概念表ＳＣ１の単語Ｓｉに対する各共起語概念Ｃ１ｖｊの共起数Ｎｃ１ｉｊをまとめたデータセットを大分類単語概念ベクトルＮｃ１ｉと呼び、中分類の単語概念表ＳＣ２の単語Ｓｉに対する各共起語概念Ｃ２ｖｊの共起数Ｎｃ２ｉｊをまとめたデータセットを中分類単語概念ベクトルＮｃ２ｉと呼び、小分類の単語概念表ＳＣ３の単語Ｓｉに対する各共起語概念Ｃ３ｖｊの共起数Ｎｃ３ｉｊをまとめたデータセットを小分類単語概念ベクトルＮｃ３ｉと呼ぶ。
例えば、図４の単語共起表Ｅにおける各共起語Ｖｊについて、図５のような共起語概念Ｃ１ｖｊ、共起語概念Ｃ２ｖｊ、共起語概念Ｃ３ｖｊが抽出された場合、大分類の単語概念表ＳＣ１は図６、中分類の単語概念表ＳＣ２は図７、小分類の単語概念表ＳＣ３は図８のような各行に単語Ｓを各列に共起語概念Ｃｖｊを配置した表となる。
単語概念表ＳＣ１、ＳＣ２、ＳＣ３の各共起数は大分類の単語概念表ＳＣ１を例とすると、共起語Ｖの内で「利用」、「並べて」、「構築」の共起語概念Ｃ１ｖｊは「動作」で共通のため、これらの共起語における共起数を同一の単語「給与管理システム」に関して足し合わせた「２」がＮｃ１ｉｊとなる。なお、インターネット・サーバＺに一般概念情報Ｃｇの登録が無い単語は、共起語の単語をそのまま仮の概念として残す。図６より、単語「給与管理システム」の大分類単語概念ベクトルＮｃ１ｉは｛２、２、１、１、０、０、・・・｝のように表される。
次に文書解析システムＹは、単語Ｓｐに対応する大分類単語概念ベクトルＮｃ１ｐと単語Ｓｑに対応する大分類単語概念ベクトルＮｃ１ｑの間のコサイン類似度Ｌｃ１ｐｑと、中分類単語概念ベクトルＮｃ２ｐとＮｃ２ｑの間のコサイン類似度Ｌｃ２ｐｑと、小分類単語概念ベクトルＮｃ３ｐとＮｃ３ｑの間のコサイン類似度Ｌｃ３ｐｑとを算出し、以下の数式１によりそれぞれの分類重み付け係数β１、β２、β３（β１＜β２＜β３）を掛けた和を概念間類似度Ｌｃｐｑとして算出する。
Ｌｃｐｑ＝β１×Ｌｃ１ｐｑ＋β２×Ｌｃ２ｐｑ＋β３×Ｌｃ３ｐｑ
… 数式１
さらに、文書解析システムＹは、単語Ｓｐに対応する単語共起ベクトルＮｐと単語Ｓｑに対応する単語共起ベクトルＮｑの間のコサイン類似度を共起間類似度Ｌｐｑとして算出し、以下の数式２により、概念間類似度Ｌｃｐｑを共起間類似度Ｌｐｑで除した値を単語間類似度Ｌｓｐｑとして算出する。
Ｌｓｐｑ＝Ｌｃｐｑ／Ｌｐｑ … 数式２
さらに、文書解析システムＹは、単語間類似度Ｌｓｐｑが任意の判定閾値Ｔより大きい単語Ｓｐと単語Ｓｑの組合せを、単語の共起ベクトルの意味的な類似性が高く、同義語の可能性が想定される単語の組合せである同義語候補Ａとして抽出する。この処理を全ての単語Ｓｉの組合せについて行う。
例えば、図４〜図８の例で、分類重み付け係数をβ１＝０．００９、β２＝０．０９、β３＝０．９、判定閾値Ｔ＝５とすると、「給与管理システム」、「給与計算システム」、「交通費計算システム」の３単語間の概念間類似度Ｌｃｐｑ、共起間類似度Ｌｐｑ、単語間類似度Ｌｓｐｑは、図９の表のように算出される。
図９より、「給与管理システム」と「給与計算システム」の組合せ、および「給与管理システム」と「交通費計算システム」の組合せは「給与計算システム」と「交通費計算システム」の組合せに比べ概念間類似度Ｌｃｐｑ、共起間類似度Ｌｐｑともに低くなっているが、単語間類似度Ｌｓｐｑは高くなり、判定閾値Ｔより大きい「給与管理システム」と「給与計算システム」がこの文章内では同義語である可能性があると判定される。このように定型文で使用された「給与計算システム」と「交通費計算システム」の組合せの類似性を相対的に低下させることができ、的確な同義語の検出が可能になる。
さらに文書解析システムＹは、同義語候補Ａａ｛Ｓｐ、Ｓｑ｝について、要求文書Ｄで該当する同義語候補Ａａ｛Ｓｐ、Ｓｑ｝を色分けもしくは太字による強調などの加工を行い、加工後の要求文書Ｄを、出力部から出力する。
以上説明したように、本発明の同義語抽出システムによれば、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出することが可能となり、誤解に基づく混乱や失敗などの削減につなげられることにある。その理由は、文脈から得られる概念の類似性に対して表記の類似性が高過ぎる単語組合せの類似度を下げることで、同義語として誤検出されやすい「単語＋定型文」というパターンに用いられる単語組合せを除外した単語間の類似性算出を可能にしているためである。
以上、実施形態（実施例）を参照して本願発明を説明したが、本願発明は上記実施形態（及び実施例）に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

本発明によれば、ソフトウェアやシステムの開発における要件定義などの作業においてやり取りされる各種文書に関して、文書の曖昧さに繋がる同義語を除外することで文書の理解・作成・修正を支援することが可能になり、手戻りの減少や顧客満足の向上などシステム開発の効率化に関する用途に適用できる。また、同義語を精度良く抽出できるので、翻訳システムに用いて訳し分けに利用できる。

１０文書入力部
２０単語分析部
３０表記文脈類似度算出部
４０概念文脈類似度算出部
５０同義語候補推定部
６０同義語候補出力部
１００同義語抽出システム
１１０概念データベース
Ｄ文書
Ａ同義語
Ｙ文書解析システム
Ｚインターネット・サーバ
この出願は、２０１２年６月２５日に出願された、日本特許出願第２０１２−１４１７５３号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

文書を分析して同義語を抽出する同義語抽出システムであって、
対象とする文書もしくは文書群の入力を受け付ける文書入力部と、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の抽出元の文に関する単語情報の抽出を行う単語分析部と、
各文章に使用されている各単語について、前記単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成し、各単語の表記文脈情報の間の類似性を示す表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する表記文脈類似度算出部と、
単語の一般概念を体系づけた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースと、
前記単語分析部で抽出された各文章に使用されている各単語について、各単語の概念を前記概念データベースに問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成し、各単語の概念文脈情報の間の類似性を示す概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する概念文脈類似度算出部と、
各単語に対応する前記表記文脈類似度と前記概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高いとする所定の同義判定ルールによって単語間の同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定部と、
同義語候補を出力する同義語候補出力部と、
を備えたことを特徴とする同義語抽出システム。
前記概念データベースは、単語を分類体系付けて記憶しており、単語間の上位／下位関係、部分／全体関係、同義関係、類義関係について、一般概念情報として取得できるシソーラスである、ことを特徴とする請求項１に記載の同義語抽出システム。
前記表記文脈情報は、単語前後の所定範囲の文字列であり、
前記表記文脈類似度指標は、前記文字列中で一致する文字の個数や、文字列間の編集距離と単調減少の関係にある関数値である、ことを特徴とする請求項１又は２に記載の同義語抽出システム。
前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を１文単位でまとめた共起セットであり、
前記表記文脈類似度指標は、前記共起セット内で一致した共起語の個数もしくは割合である、ことを特徴とする請求項１又は２に記載の同義語抽出システム。
前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を１文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルであり、
前記表記文脈類似度指標は、前記共起ベクトル間のコサイン類似度や、前記共起ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項１又は２に記載の同義語抽出システム。
前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を１文単位でまとめた共起セットの各共起語を概念語に変換した概念セットであり、
前記概念文脈類似度指標は、前記概念セット内で一致した概念語の個数もしくは割合である、ことを特徴とする請求項１乃至５のいずれか１項に記載の同義語抽出システム。
前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を１文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルの各共起語を概念語に変換した概念ベクトルであり、
前記概念文脈類似度指標は、前記概念ベクトル間のコサイン距離や、前記概念ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項１乃至５のいずれか１項に記載の同義語抽出システム。
前記共起判定ルールは、品詞毎に共起とみなす範囲を変える、もしくは単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語に共起語を限定する、ことを特徴とする請求項４乃至７のいずれか１項に記載の同義語抽出システム。
前記同義判定ルールは、
ｉ）概念文脈類似度と単調増加の関係にある関数を表記文脈類似度と単調増加の関係にある関数で除した指標が所定の閾値より大きい単語の組合せを抽出するルール、および
ｉｉ）表記文脈類似度が所定の閾値より大きい単語の組合せを同義語候補から除外し、残った単語の組合せで概念文脈類似度が高い組合せを抽出するルール
のグループから選択されたいずれか１つである、ことを特徴とする請求項１乃至８のいずれか１項に記載の同義語抽出システム。
文書を分析して同義語を抽出する同義語抽出方法であって、
対象とする文書もしくは文書群の入力を受け付ける文書受付工程と、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の抽出元の文に関する単語情報の抽出を行う単語情報抽出工程と、
各文章に使用されている各単語について、前記単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成し、各単語の表記文脈情報の間の類似性を示す表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する表記文脈類似度算出工程と、
単語の一般概念を体系づけた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースに、前記単語情報抽出工程で抽出された各文章に使用されている各単語について、各単語の概念を問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成し、各単語の概念文脈情報の間の類似性を示す概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する概念文脈類似度算出工程と、
各単語に対応する前記表記文脈類似度と前記概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高いとする所定の同義判定ルールによって単語間の同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定工程と、
同義語候補を出力する同義語候補出力工程と、
を含むことを特徴とする同義語抽出方法。
前記概念データベースは、単語を分類体系付けて記憶しており、単語間の上位／下位関係、部分／全体関係、同義関係、類義関係について、一般概念情報として取得できるシソーラスである、ことを特徴とする請求項１０に記載の同義語抽出方法。
前記表記文脈情報は、単語前後の所定範囲の文字列であり、
前記表記文脈類似度指標は、前記文字列中で一致する文字の個数や、文字列間の編集距離と単調減少の関係にある関数値である、ことを特徴とする請求項１０又は１１に記載の同義語抽出方法。
前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を１文単位でまとめた共起セットであり、
前記表記文脈類似度指標は、前記共起セット内で一致した共起語の個数もしくは割合である、ことを特徴とする請求項１０又は１１に記載の同義語抽出方法。
前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を１文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルであり、
前記表記文脈類似度指標は、前記共起ベクトル間のコサイン類似度や、前記共起ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項１０又は１１に記載の同義語抽出方法。
前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を１文単位でまとめた共起セットの各共起語を概念語に変換した概念セットであり、
前記概念文脈類似度指標は、前記概念セット内で一致した概念語の個数もしくは割合である、ことを特徴とする請求項１０乃至１４のいずれか１項に記載の同義語抽出方法。
前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を１文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルの各共起語を概念語に変換した概念ベクトルであり、
前記概念文脈類似度指標は、前記概念ベクトル間のコサイン距離や、前記概念ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項１０乃至１４のいずれか１項に記載の同義語抽出方法。
前記共起判定ルールは、品詞毎に共起とみなす範囲を変える、もしくは単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語に共起語を限定する、ことを特徴とする請求項１３乃至１６のいずれか１項に記載の同義語抽出方法。
前記同義判定ルールは、
ｉ）概念文脈類似度と単調増加の関係にある関数を表記文脈類似度と単調増加の関係にある関数で除した指標が所定の閾値より大きい単語の組合せを抽出するルール、および
ｉｉ）表記文脈類似度が所定の閾値より大きい単語の組合せを同義語候補から除外し、残った単語の組合せで概念文脈類似度が高い組合せを抽出するルール
のグループから選択されたいずれか１つである、ことを特徴とする請求項１０乃至１７のいずれか１項に記載の同義語抽出方法。
コンピュータに文書を分析させて、同義語を抽出させる同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記コンピュータに、
対象とする文書もしくは文書群の入力を受け付ける文書受付手順と、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の抽出元の文に関する単語情報の抽出を行う単語情報抽出手順と、
各文章に使用されている各単語について、前記単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成し、各単語の表記文脈情報の間の類似性を示す表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する表記文脈類似度算出手順と、
単語の一般概念を体系づけた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースに、前記単語情報抽出手順で抽出された各文章に使用されている各単語について、各単語の概念を問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成し、各単語の概念文脈情報の間の類似性を示す概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する概念文脈類似度算出手順と、
各単語に対応する前記表記文脈類似度と前記概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高いとする所定の同義判定ルールによって単語間の同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定手順と、
同義語候補を出力する同義語候補出力手順と、
を実行させる同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
前記概念データベースは、単語を分類体系付けて記憶しており、単語間の上位／下位関係、部分／全体関係、同義関係、類義関係について、一般概念情報として取得できるシソーラスである、ことを特徴とする請求項１９に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
前記表記文脈情報は、単語前後の所定範囲の文字列であり、
前記表記文脈類似度指標は、前記文字列中で一致する文字の個数や、文字列間の編集距離と単調減少の関係にある関数値である、ことを特徴とする請求項１９又は２０に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を１文単位でまとめた共起セットであり、
前記表記文脈類似度指標は、前記共起セット内で一致した共起語の個数もしくは割合である、ことを特徴とする請求項１９又は２０に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を１文単位でまとめた共起セットを任意の範囲の文章群について集計した共起ベクトルであり、
前記表記文脈類似度指標は、前記共起ベクトル間のコサイン類似度や、前記共起ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項１９又は２０に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を１文単位でまとめた共起セットの各共起語を概念語に変換した概念セットであり、
前記概念文脈類似度指標は、前記概念セット内で一致した概念語の個数もしくは割合である、ことを特徴とする請求項１９乃至２３のいずれか１項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を１文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルの各共起語を概念語に変換した概念ベクトルであり、
前記概念文脈類似度指標は、前記概念ベクトル間のコサイン距離や、前記概念ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項１９乃至２３のいずれか１項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
前記共起判定ルールは、品詞毎に共起とみなす範囲を変える、もしくは単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語に共起語を限定する、ことを特徴とする請求項２２乃至２５のいずれか１項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
前記同義判定ルールは、
ｉ）概念文脈類似度と単調増加の関係にある関数を表記文脈類似度と単調増加の関係にある関数で除した指標が所定の閾値より大きい単語の組合せを抽出するルール、および
ｉｉ）表記文脈類似度が任意の閾値より大きい単語の組合せを同義語候補から除外し、残った単語の組合せで概念文脈類似度が高い組合せを抽出するルール
のグループから選択されたいずれか１つである、ことを特徴とする請求項１９乃至２６のいずれか１項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。