JPWO2014002774A1 - 同義語抽出システム、方法および記録媒体 - Google Patents
同義語抽出システム、方法および記録媒体 Download PDFInfo
- Publication number
- JPWO2014002774A1 JPWO2014002774A1 JP2014522530A JP2014522530A JPWO2014002774A1 JP WO2014002774 A1 JPWO2014002774 A1 JP WO2014002774A1 JP 2014522530 A JP2014522530 A JP 2014522530A JP 2014522530 A JP2014522530 A JP 2014522530A JP WO2014002774 A1 JPWO2014002774 A1 JP WO2014002774A1
- Authority
- JP
- Japan
- Prior art keywords
- word
- occurrence
- concept
- context
- synonym
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書の曖昧さを改善するために、同義語抽出システムは、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、誤検出されやすい「単語+定型文」というパターンに用いられる単語組合せの類似度を下げ、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出する。同義語抽出システムは、文書入力部と、単語分析部と、表記文脈類似度算出部と、概念データベースと、概念文脈類似度算出部と、同義語候補推定部と、同義語候補出力部と、を備える。
Description
本発明は、同義語抽出システム、方法および記録媒体に関し、特に、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出する同義語抽出システム、方法および記録媒体に関する。
近年、情報処理装置を用いて、自然言語で書かれた文書を分析して、その文書の意味や意義を自動抽出するシステムが開発されている。そのなかで、文書中の同義語の取り扱いが問題になることがある。尚、同義語とは、意義は同じで語形が異なっている語、換言すれば、発音や表記は異なるが、意味の同じである語をいう。
同義語抽出システムに関する先行技術の一例が、特許文献1に「自動類似度計算システム」として記載されている。この特許文献1に開示された自動類似度計算システムは、文書データ保存部と、候補表現メモリ部と、類似度重み値計算部とから構成されている。このような構成を有する自動類似度計算システムは、次のように動作する。
すなわち、文書データ保存部は、少なくとも一つのテキスト文書を含むテキスト文書の集りをデジタル形式で保存する。候補表現メモリ部は、それぞれ前記集りのテキスト文書の少なくとも一つに出現する表現tiの集合を保存する。類似度重み値計算部は、少なくとも一組の同義語候補ペアt1とt2を選択し、選択された候補ペアについて、前記テキスト文書の集りの任意の文章範囲で前記表現ペアの二つの候補ペアt1とt2が共起する総頻度と、この任意の文章範囲内の異なる文脈表現の総数の両方を考慮に入れた類似尺度|occ_con(t1、t2)|に基づいて候補ペアの類似度重み値agw(t1、t2)を計算する。ここで、文脈表現とは、任意の文章範囲の集合の少なくとも一つの任意の文章範囲で表現t1と共起しかつ少なくとも一つの任意の文章範囲で表現t2と共起する表現であって、t1とt2のいずれとも一致しない表現、もしくは前記任意の文章範囲で表現t1とt2の両方と共起する文章を指す。また、前記類似尺度occ_con(t1、t2)は、前記任意の文章範囲で表現t1と表現t2の両方と共起しかつt1とt2のいずれとも対応または一致しない文脈表現の総数であり、一つ以上の任意の文章範囲で同じ形で出現する文脈表現は一回の共起としてのみカウントすることで異なる文脈表現の数だけを考慮に入れることを特徴とする。このような構成で、異なる文脈表現の数だけを考慮に入れることにより、同義語候補ペア間の類似度重み値を改良された方法で計算することができ、実際の類似性をより反映することを実現している。
さらに、同義語抽出システムに関する先行技術の他の例が、特許文献2に「単語意味関係抽出装置」として記載されている。この特許文献2に開示された単語意味関係抽出装置は、テキストから抽出した単語の組に対してそれぞれ異なる複数種類の類似度を要素とする素性ベクトルを生成する手段と、既知の辞書を参照し、前記素性ベクトルに対して単語意味関係を示すラベルを付与する手段と、前記ラベルが付与された複数の素性ベクトルに基づいて単語意味関係判定ルールを学習する手段と、前記学習した単語意味関係判定ルールに基づいて、任意の単語の組に対して単語意味関係を判定する手段とを備える。このような構成により、学習により複数の類似性の的確な統合を行い、高精度な単語意味関係抽出を行うことを実現している。
同義語抽出システムに関する先行技術の一例が、特許文献1に「自動類似度計算システム」として記載されている。この特許文献1に開示された自動類似度計算システムは、文書データ保存部と、候補表現メモリ部と、類似度重み値計算部とから構成されている。このような構成を有する自動類似度計算システムは、次のように動作する。
すなわち、文書データ保存部は、少なくとも一つのテキスト文書を含むテキスト文書の集りをデジタル形式で保存する。候補表現メモリ部は、それぞれ前記集りのテキスト文書の少なくとも一つに出現する表現tiの集合を保存する。類似度重み値計算部は、少なくとも一組の同義語候補ペアt1とt2を選択し、選択された候補ペアについて、前記テキスト文書の集りの任意の文章範囲で前記表現ペアの二つの候補ペアt1とt2が共起する総頻度と、この任意の文章範囲内の異なる文脈表現の総数の両方を考慮に入れた類似尺度|occ_con(t1、t2)|に基づいて候補ペアの類似度重み値agw(t1、t2)を計算する。ここで、文脈表現とは、任意の文章範囲の集合の少なくとも一つの任意の文章範囲で表現t1と共起しかつ少なくとも一つの任意の文章範囲で表現t2と共起する表現であって、t1とt2のいずれとも一致しない表現、もしくは前記任意の文章範囲で表現t1とt2の両方と共起する文章を指す。また、前記類似尺度occ_con(t1、t2)は、前記任意の文章範囲で表現t1と表現t2の両方と共起しかつt1とt2のいずれとも対応または一致しない文脈表現の総数であり、一つ以上の任意の文章範囲で同じ形で出現する文脈表現は一回の共起としてのみカウントすることで異なる文脈表現の数だけを考慮に入れることを特徴とする。このような構成で、異なる文脈表現の数だけを考慮に入れることにより、同義語候補ペア間の類似度重み値を改良された方法で計算することができ、実際の類似性をより反映することを実現している。
さらに、同義語抽出システムに関する先行技術の他の例が、特許文献2に「単語意味関係抽出装置」として記載されている。この特許文献2に開示された単語意味関係抽出装置は、テキストから抽出した単語の組に対してそれぞれ異なる複数種類の類似度を要素とする素性ベクトルを生成する手段と、既知の辞書を参照し、前記素性ベクトルに対して単語意味関係を示すラベルを付与する手段と、前記ラベルが付与された複数の素性ベクトルに基づいて単語意味関係判定ルールを学習する手段と、前記学習した単語意味関係判定ルールに基づいて、任意の単語の組に対して単語意味関係を判定する手段とを備える。このような構成により、学習により複数の類似性の的確な統合を行い、高精度な単語意味関係抽出を行うことを実現している。
このような先行技術の第一の課題は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書の同義語の抽出に、特許文献1の先行技術による同義語の抽出方法を適用すると、同義語ではないにも拘らず、共起情報を引用すると類似性が高いと誤検出されやすい「単語+定型文」というパターンに用いられる単語間の類似度を下げる効果が弱いことである。その理由は、情報システム構築に関する提案書や仕様書等といった文書群では、「単語+定型文」というパターンが絶対に同義語にならない並列関係にある単語において使用されることが多く、特許文献1の先行技術のように、同じ形で出現する文脈表現は一回の共起としてのみカウントし、同義語の候補とした単語の文脈情報を出現回数ではなく、単語の文脈情報のバリエーションの数で評価する方法では、「単語+定型文」というパターンが類似度に与える影響を弱める効果は見込めるが、「単語+定型文」というパターンがむしろ非類似を意味するという観点を持たない処理であるため、「単語+定型文」というパターンが同一単語について複数回利用されていない同義語ではない組合せなど、誤検出に繋がる組合せの類似性を下げることが難しいためである。
上記先行技術の第二の課題は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書の同義語の抽出に、先行技術による同義語の抽出方法を適用すると、特定の案件に関する文書群でのみ成り立つ同義語を抽出することができないことである。その理由は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語は、事前にその同義関係を把握することが難しく、特許文献2の先行手法で用いられているような既知の辞書を準備することが困難であるためである。
本発明の目的は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、誤検出されやすい「単語+定型文」というパターンに用いられる単語組合せの類似度を下げ、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出する、同義語抽出システム、方法および記録媒体を提供することにある。
上記先行技術の第二の課題は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書の同義語の抽出に、先行技術による同義語の抽出方法を適用すると、特定の案件に関する文書群でのみ成り立つ同義語を抽出することができないことである。その理由は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語は、事前にその同義関係を把握することが難しく、特許文献2の先行手法で用いられているような既知の辞書を準備することが困難であるためである。
本発明の目的は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、誤検出されやすい「単語+定型文」というパターンに用いられる単語組合せの類似度を下げ、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出する、同義語抽出システム、方法および記録媒体を提供することにある。
本発明に係る同義語抽出システムは、文書を分析して同義語を抽出する同義語抽出システムであって、対象とする文書もしくは文書群の入力を受け付ける文書入力部と;文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の抽出元の文に関する単語情報の抽出を行う単語分析部と;各文章に使用されている各単語について、単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成し、各単語の表記文脈情報の間の類似性を示す表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する表記文脈類似度算出部と;単語の一般概念を体系づけた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースと;上記単語分析部で抽出された各文章に使用されている各単語について、各単語の概念を上記概念データベースに問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成し、各単語の概念文脈情報の間の類似性を示す概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する概念文脈類似度算出部と;各単語に対応する表記文脈類似度と概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高いとする所定の同義判定ルールによって単語間の同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定部と;同義語候補を出力する同義語候補出力部と;を備える。
本発明によれば、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出することが可能となり、誤解に基づく混乱や失敗などの削減につなげられる。
図1は本発明の一実施形態に係る同義語抽出システムの構成を示すブロック図である。
図2は図1に示した同義語抽出システムの動作例を示すシーケンス図である。
図3は本発明の第1の実施例に係る同義語抽出システムの構成を示すブロック図である。
図4は基軸単語共起表Eの一部の例を示す説明図である。
図5はインターネット・サーバZ内に保存されたシソーラスの一般概念情報Cgの分類体系の例を示す説明図である。
図6は大分類の基軸単語概念表SC1の一部の例を示す説明図である。
図7は中分類の基軸単語概念表SC2の一部の例を示す説明図である。
図8は小分類の基軸単語概念表SC3の一部の例を示す説明図である。
図9は単語の組合せ毎の概念間類似度、共起間類似度、単語間類似度の算出結果の例を示す説明図である。
図2は図1に示した同義語抽出システムの動作例を示すシーケンス図である。
図3は本発明の第1の実施例に係る同義語抽出システムの構成を示すブロック図である。
図4は基軸単語共起表Eの一部の例を示す説明図である。
図5はインターネット・サーバZ内に保存されたシソーラスの一般概念情報Cgの分類体系の例を示す説明図である。
図6は大分類の基軸単語概念表SC1の一部の例を示す説明図である。
図7は中分類の基軸単語概念表SC2の一部の例を示す説明図である。
図8は小分類の基軸単語概念表SC3の一部の例を示す説明図である。
図9は単語の組合せ毎の概念間類似度、共起間類似度、単語間類似度の算出結果の例を示す説明図である。
[実施形態]
最初に、本発明の一実施形態について、図面を参照して詳細に説明する。
図1は、本発明の一実施形態に係る同義語抽出システム100の構成を示すブロック図である。
図1を参照すると、本発明の実施形態に係る同義語抽出システム100は、基本的に電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、文書入力部10、単語分析部20、表記文脈類似度算出部30、概念文脈類似度算出部40、同義語候補推定部50、同義語候補出力部60、及び概念データベース110、を含む。
図示の同義語抽出システム100は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出する同義語抽出システムである。
少し詳細に述べると、同義語抽出システム100は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、誤検出されやすい「単語+定型文」というパターンに用いられる単語組合せの類似度を下げ、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出する、同義語抽出システムである。
電子機器で同義語抽出システムを構成する場合、同義語抽出システム100は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ(ROM)と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ(RAM)と、ROMに記憶されたプログラムに従って、RAMに記憶されているデータを処理する中央処理装置(CPU)とから構成される。
この場合、入力装置が文書入力部10として働く。データ処理装置が、単語分析部20、表記文脈類似度算出部30、概念文脈類似度算出部40、および同義語候補推定部50として働く。補助記憶装置が概念データベース110として動作する。出力装置が同義語候補出力部60として働く。
次に、同義語抽出システム100を構成する各構成要素の動作について説明する。
文書入力部10は、対象とする文書もしくは文書群の入力を受け付ける。
単語分析部20は、文書もしくは文書群を構成する各文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語の抽出および単語毎の抽出元の文、段落、目次上の項目、品詞などの単語情報の抽出を行う。
ここで、単語は名詞、動詞、形容詞など単独で意味をなす自立語に限定しても良い。上記単語情報には必要に応じて単語間の係り受け関係などを含めても良い。
表記文脈類似度算出部30は、単語分析部20で抽出された各文章に使用されている各単語について、上記単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成する。
ここで、上記表記文脈情報とは、各単語が使用された文における表記的な文脈情報であって、i)単語前後の所定範囲の文字列、ii)共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セット、およびiii)共起セットを任意の範囲の文章群について集計した共起ベクトルのグループから選択されたいずれか1つであってよい。
また、上記共起判定ルールとしては、1文、1段落内の全文章、目次上の同一項目内での全文章、文書全体など、文書の特徴に合わせて共起語と見なす範囲を設定して良く、1文内での共起する動詞、および目次上の同一項目内の文章内の名詞のように品詞毎に共起とみなす範囲を変えても良い。さらに、単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語を共起語に限定するのを、上記共起判定ルールとして利用しても良い。また、共起数は共起回数でも良いが、共起回数を単語毎の全共起語数で除した頻度などでも良い。
さらに表記文脈類似度算出部30は、任意に設定した表記文脈類似度指標によって、各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する。
ここで、上記表記文脈類似度指標とは、各単語の表記文脈情報の間の類似性を示す指標である。表記文脈類似度指標は、上記表記文脈情報が単語前後の所定範囲の文字列である場合は、文字列中で一致する文字の個数もしくは割合や、文字列間の編集距離と単調減少の関係にある関数値が適している。表記文脈類似度指標は、上記表記文脈情報が共起セットの場合は、共起セット内で一致した共起語の個数もしくは割合が適している。表記文脈類似度指標は、上記表記文脈情報が共起ベクトルの場合は、共起ベクトル間のコサイン類似度や、共起ベクトル間のユークリッド距離と単調減少の関係にある関数値が適している。
概念データベース110は、単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答するデータベースである。
概念データベース110は、単語を分類体系付けて記憶しており、単語間の上位/下位関係、部分/全体関係、同義関係、類義関係について、一般概念情報として取得できるシソーラスなどが相当する。
概念文脈類似度算出部40は、単語分析部20で抽出された各文章に使用されている各単語について、各単語の概念を概念データベース110に問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成する。
ここで、上記概念文脈情報とは、各単語が使用された文における概念的な文脈情報であり、i)共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットの各共起語を概念語に変換した概念セット、もしくはii)共起セットを任意の範囲の文章群について集計した共起ベクトルの各共起語を概念語に変換した概念ベクトルなどが適している。
なお、共起セットの概念セットへの変換方法や共起ベクトルの概念ベクトルへの変換方法としては、単に共起語を概念語に変換するだけでなく、変換で異なる共起語が同じ概念となる場合はそれぞれの共起語を合流し、共起数の和を対応箇所へ登録するのが適している。
また、概念データベース110として大分類、中分類、小分類、小分類のような複数の階層での概念が一般概念情報として登録されたシソーラスを用いる場合、階層毎に概念ベクトルを作成し、大分類など広い概念での概念ベクトルで異なる共起語が同じ概念となる場合は、それぞれの共起語を合流し、共起数の和を対応箇所へ登録するのが適している。他に、概念データベース110として同義語を含む類義語群が一般概念情報として登録された類語辞書を用いた場合、共起語を対応する類義語群の各類義語に変換し、各類義語の共起数として対応する共起語の共起数を割り当て、同一の単語の共起語に関して変換された類義語毎の共起数の延べ数を概念ベクトルとして算出しても良い。なお、概念データベース110に共起語に対応する概念が無い場合、上記共起語は概念に変換せず、共起語の単語をそのまま仮の概念として残しても良い。
さらに概念文脈類似度算出部40は、任意に設定した概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する。
ここで、上記概念文脈類似度指標とは、各単語の概念文脈情報の間の類似性を示す指標である。概念文脈類似度指標は、上記概念文脈情報が概念セットの場合は、概念セット内で一致した概念語の個数もしくは割合が適している。概念文脈類似度指標は、上記概念文脈情報が概念ベクトルの場合は、概念ベクトル間のコサイン距離や、概念ベクトル間のユークリッド距離と単調減少の関係にある関数値が適している。
同義語候補推定部50は、各単語組合せに対応する表記文脈類似度と概念文脈類似度とに基づき、類似性の判定を行う同義判定ルールによって単語組合せの同義性を判定し、同義語候補の組合せとして抽出(推定)する。
ここで、上記同義判定ルールは、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高い単語組合せとルールであればよい。例えば、同義判定ルールは、概念文脈類似度と単調増加の関係にある関数を表記文脈類似度と単調増加の関係にある関数で除した指標が任意の閾値より大きい単語の組合せを抽出するルールで良い。或いは、同義判定ルールは、表記文脈類似度が任意の閾値より大きい単語の組合せを同義語候補から除外し、残った単語の組合せで概念文脈類似度が高い組合せを抽出するルールでも良い。
なお、概念データベース110として複数の階層での概念が一般概念情報として登録されたシソーラスを用いて概念ベクトルを作成した場合、各階層での概念文脈類似度を算出し、小分類などより詳細な深い分類での概念文脈類似度ほど重視するように重み付けした概念文脈類似度を上記同義判定ルールに適用しても良い。
同義語候補出力部60は、同義語候補推定部50で抽出(推定)した同義語候補を出力する。
ここで、出力形態は、文書内における同義語候補の組合せを色分けや太字による強調などで明示することで、文書全体を出力する形態などが適当である。他にも、出力形態としては、同義語候補の組合せを抽出した表などの形態であって良い。また、出力形態としては、同義語候補とされた単語を主ノード、その共起語を中間ノード、概念を端ノードとして関係をリンクで結んだグラフを表示し、同義語候補とされた単語を最短で繋ぐリンクを色分けして強調するなどの形態であって良い。また、出力形態としては、同義語候補を抽出する際に用いた非類似度などで同義語間に定量的な同義度を付加し、同義度が任意に設定された閾値より大きい同義語のみに表示を限定しても良い。もしくは、出力形態としては、同義語候補間の同義度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えるなどしても良い。
また、各出力形態を選択できるようにして、ベースとなる表示形態から必要に応じて表やグラフに移行できるようにしてもよい。また、必要に応じて動詞や品詞などを選択的に出力するようにしてもよい。
次に、図1及び図2のシーケンス図を参照して、本発明の実施形態に係る同義語抽出システム100の全体の動作について詳細に説明する。なお、図2に示すシーケンス図及び以下の説明は処理例であり、適宜求める処理に応じて処理順等を入れ替えたり処理を戻したりすることを行ってもよい。
文書入力部10は、対象とする文書もしくは文書群の入力を受け付ける(図2のステップA1)。
単語分析部20は、文書もしくは文書群を構成する各文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語の抽出および単語毎の抽出元の文、段落、目次上の項目、品詞などの単語情報の抽出を行う(ステップA2)。
表記文脈類似度算出部30は、単語分析部20で抽出された各文章に使用されている各単語について、単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成する(ステップA3)。
さらに表記文脈類似度算出部30は、任意に設定した表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する(ステップA4)。
概念データベース110は、単語の概念分類および同義語、類義語、用法などの一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する(ステップA5)。
概念文脈類似度算出部40は、単語分析部20で抽出された各文章に使用されている各単語について、各単語の概念を概念データベース110に問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成する(ステップA6)。
さらに概念文脈類似度算出部40は、任意に設定した概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する(ステップA7)。
同義語候補推定部50は、各単語組合せに対応する表記文脈類似度と概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高い単語組合せとする所定の同義判定ルールによって単語組合せの同義性を判定し、同義語候補の組合せとして抽出(推定)する(ステップA8)。
同義語候補出力部60は、同義語候補推定部50で抽出(推定)した同義語候補を出力する(ステップA9)。
次に、本発明の実施形態に係る同義語抽出システム100の効果について説明する。
本実施形態では、文書内もしくは文書群内の単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高い同義語候補の組合せとして抽出することによって、誤検出されやすい「単語+定型文」というパターンに用いられる単語組合せの類似度を下げるように構成されている。このため、誤検出の少ない類似性の評価が可能になり、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から同義語を抽出できる。
尚、上記本発明の実施形態に係る同義語抽出システム100は、同義語抽出方法として実現され得る。また、上記本発明の実施形態に係る同義語抽出システム100は、同義語抽出プログラムによりコンピュータによって実行させるようにしても良い。
最初に、本発明の一実施形態について、図面を参照して詳細に説明する。
図1は、本発明の一実施形態に係る同義語抽出システム100の構成を示すブロック図である。
図1を参照すると、本発明の実施形態に係る同義語抽出システム100は、基本的に電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、文書入力部10、単語分析部20、表記文脈類似度算出部30、概念文脈類似度算出部40、同義語候補推定部50、同義語候補出力部60、及び概念データベース110、を含む。
図示の同義語抽出システム100は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出する同義語抽出システムである。
少し詳細に述べると、同義語抽出システム100は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、誤検出されやすい「単語+定型文」というパターンに用いられる単語組合せの類似度を下げ、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出する、同義語抽出システムである。
電子機器で同義語抽出システムを構成する場合、同義語抽出システム100は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ(ROM)と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ(RAM)と、ROMに記憶されたプログラムに従って、RAMに記憶されているデータを処理する中央処理装置(CPU)とから構成される。
この場合、入力装置が文書入力部10として働く。データ処理装置が、単語分析部20、表記文脈類似度算出部30、概念文脈類似度算出部40、および同義語候補推定部50として働く。補助記憶装置が概念データベース110として動作する。出力装置が同義語候補出力部60として働く。
次に、同義語抽出システム100を構成する各構成要素の動作について説明する。
文書入力部10は、対象とする文書もしくは文書群の入力を受け付ける。
単語分析部20は、文書もしくは文書群を構成する各文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語の抽出および単語毎の抽出元の文、段落、目次上の項目、品詞などの単語情報の抽出を行う。
ここで、単語は名詞、動詞、形容詞など単独で意味をなす自立語に限定しても良い。上記単語情報には必要に応じて単語間の係り受け関係などを含めても良い。
表記文脈類似度算出部30は、単語分析部20で抽出された各文章に使用されている各単語について、上記単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成する。
ここで、上記表記文脈情報とは、各単語が使用された文における表記的な文脈情報であって、i)単語前後の所定範囲の文字列、ii)共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セット、およびiii)共起セットを任意の範囲の文章群について集計した共起ベクトルのグループから選択されたいずれか1つであってよい。
また、上記共起判定ルールとしては、1文、1段落内の全文章、目次上の同一項目内での全文章、文書全体など、文書の特徴に合わせて共起語と見なす範囲を設定して良く、1文内での共起する動詞、および目次上の同一項目内の文章内の名詞のように品詞毎に共起とみなす範囲を変えても良い。さらに、単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語を共起語に限定するのを、上記共起判定ルールとして利用しても良い。また、共起数は共起回数でも良いが、共起回数を単語毎の全共起語数で除した頻度などでも良い。
さらに表記文脈類似度算出部30は、任意に設定した表記文脈類似度指標によって、各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する。
ここで、上記表記文脈類似度指標とは、各単語の表記文脈情報の間の類似性を示す指標である。表記文脈類似度指標は、上記表記文脈情報が単語前後の所定範囲の文字列である場合は、文字列中で一致する文字の個数もしくは割合や、文字列間の編集距離と単調減少の関係にある関数値が適している。表記文脈類似度指標は、上記表記文脈情報が共起セットの場合は、共起セット内で一致した共起語の個数もしくは割合が適している。表記文脈類似度指標は、上記表記文脈情報が共起ベクトルの場合は、共起ベクトル間のコサイン類似度や、共起ベクトル間のユークリッド距離と単調減少の関係にある関数値が適している。
概念データベース110は、単語の概念分類、同義語、類義語、用法といった単語の一般概念を体系付けた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答するデータベースである。
概念データベース110は、単語を分類体系付けて記憶しており、単語間の上位/下位関係、部分/全体関係、同義関係、類義関係について、一般概念情報として取得できるシソーラスなどが相当する。
概念文脈類似度算出部40は、単語分析部20で抽出された各文章に使用されている各単語について、各単語の概念を概念データベース110に問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成する。
ここで、上記概念文脈情報とは、各単語が使用された文における概念的な文脈情報であり、i)共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットの各共起語を概念語に変換した概念セット、もしくはii)共起セットを任意の範囲の文章群について集計した共起ベクトルの各共起語を概念語に変換した概念ベクトルなどが適している。
なお、共起セットの概念セットへの変換方法や共起ベクトルの概念ベクトルへの変換方法としては、単に共起語を概念語に変換するだけでなく、変換で異なる共起語が同じ概念となる場合はそれぞれの共起語を合流し、共起数の和を対応箇所へ登録するのが適している。
また、概念データベース110として大分類、中分類、小分類、小分類のような複数の階層での概念が一般概念情報として登録されたシソーラスを用いる場合、階層毎に概念ベクトルを作成し、大分類など広い概念での概念ベクトルで異なる共起語が同じ概念となる場合は、それぞれの共起語を合流し、共起数の和を対応箇所へ登録するのが適している。他に、概念データベース110として同義語を含む類義語群が一般概念情報として登録された類語辞書を用いた場合、共起語を対応する類義語群の各類義語に変換し、各類義語の共起数として対応する共起語の共起数を割り当て、同一の単語の共起語に関して変換された類義語毎の共起数の延べ数を概念ベクトルとして算出しても良い。なお、概念データベース110に共起語に対応する概念が無い場合、上記共起語は概念に変換せず、共起語の単語をそのまま仮の概念として残しても良い。
さらに概念文脈類似度算出部40は、任意に設定した概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する。
ここで、上記概念文脈類似度指標とは、各単語の概念文脈情報の間の類似性を示す指標である。概念文脈類似度指標は、上記概念文脈情報が概念セットの場合は、概念セット内で一致した概念語の個数もしくは割合が適している。概念文脈類似度指標は、上記概念文脈情報が概念ベクトルの場合は、概念ベクトル間のコサイン距離や、概念ベクトル間のユークリッド距離と単調減少の関係にある関数値が適している。
同義語候補推定部50は、各単語組合せに対応する表記文脈類似度と概念文脈類似度とに基づき、類似性の判定を行う同義判定ルールによって単語組合せの同義性を判定し、同義語候補の組合せとして抽出(推定)する。
ここで、上記同義判定ルールは、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高い単語組合せとルールであればよい。例えば、同義判定ルールは、概念文脈類似度と単調増加の関係にある関数を表記文脈類似度と単調増加の関係にある関数で除した指標が任意の閾値より大きい単語の組合せを抽出するルールで良い。或いは、同義判定ルールは、表記文脈類似度が任意の閾値より大きい単語の組合せを同義語候補から除外し、残った単語の組合せで概念文脈類似度が高い組合せを抽出するルールでも良い。
なお、概念データベース110として複数の階層での概念が一般概念情報として登録されたシソーラスを用いて概念ベクトルを作成した場合、各階層での概念文脈類似度を算出し、小分類などより詳細な深い分類での概念文脈類似度ほど重視するように重み付けした概念文脈類似度を上記同義判定ルールに適用しても良い。
同義語候補出力部60は、同義語候補推定部50で抽出(推定)した同義語候補を出力する。
ここで、出力形態は、文書内における同義語候補の組合せを色分けや太字による強調などで明示することで、文書全体を出力する形態などが適当である。他にも、出力形態としては、同義語候補の組合せを抽出した表などの形態であって良い。また、出力形態としては、同義語候補とされた単語を主ノード、その共起語を中間ノード、概念を端ノードとして関係をリンクで結んだグラフを表示し、同義語候補とされた単語を最短で繋ぐリンクを色分けして強調するなどの形態であって良い。また、出力形態としては、同義語候補を抽出する際に用いた非類似度などで同義語間に定量的な同義度を付加し、同義度が任意に設定された閾値より大きい同義語のみに表示を限定しても良い。もしくは、出力形態としては、同義語候補間の同義度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えるなどしても良い。
また、各出力形態を選択できるようにして、ベースとなる表示形態から必要に応じて表やグラフに移行できるようにしてもよい。また、必要に応じて動詞や品詞などを選択的に出力するようにしてもよい。
次に、図1及び図2のシーケンス図を参照して、本発明の実施形態に係る同義語抽出システム100の全体の動作について詳細に説明する。なお、図2に示すシーケンス図及び以下の説明は処理例であり、適宜求める処理に応じて処理順等を入れ替えたり処理を戻したりすることを行ってもよい。
文書入力部10は、対象とする文書もしくは文書群の入力を受け付ける(図2のステップA1)。
単語分析部20は、文書もしくは文書群を構成する各文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語の抽出および単語毎の抽出元の文、段落、目次上の項目、品詞などの単語情報の抽出を行う(ステップA2)。
表記文脈類似度算出部30は、単語分析部20で抽出された各文章に使用されている各単語について、単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成する(ステップA3)。
さらに表記文脈類似度算出部30は、任意に設定した表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する(ステップA4)。
概念データベース110は、単語の概念分類および同義語、類義語、用法などの一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する(ステップA5)。
概念文脈類似度算出部40は、単語分析部20で抽出された各文章に使用されている各単語について、各単語の概念を概念データベース110に問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成する(ステップA6)。
さらに概念文脈類似度算出部40は、任意に設定した概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する(ステップA7)。
同義語候補推定部50は、各単語組合せに対応する表記文脈類似度と概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高い単語組合せとする所定の同義判定ルールによって単語組合せの同義性を判定し、同義語候補の組合せとして抽出(推定)する(ステップA8)。
同義語候補出力部60は、同義語候補推定部50で抽出(推定)した同義語候補を出力する(ステップA9)。
次に、本発明の実施形態に係る同義語抽出システム100の効果について説明する。
本実施形態では、文書内もしくは文書群内の単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高い同義語候補の組合せとして抽出することによって、誤検出されやすい「単語+定型文」というパターンに用いられる単語組合せの類似度を下げるように構成されている。このため、誤検出の少ない類似性の評価が可能になり、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から同義語を抽出できる。
尚、上記本発明の実施形態に係る同義語抽出システム100は、同義語抽出方法として実現され得る。また、上記本発明の実施形態に係る同義語抽出システム100は、同義語抽出プログラムによりコンピュータによって実行させるようにしても良い。
次に、図3を参照して、具体的な第1の実施例を用いて、本発明の一実施形態に係る同義語抽出システム100の動作について説明する。
本第1の実施例では、次のことを目的としている。
先ず、同義語抽出システム100は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書D内に含まれる特定の案件に関する文書群でのみ成り立つ同義語候補Aを推定する。そして、同義語抽出システム100は、推定結果を出力することで、未登録の用語に関する用語集の作成や語の統一を支援する。また、本第1の実施例では、同義語抽出システム100は、図3に示されるように、文書解析システムYと、インターネット・サーバZとで構成されるものとする。
文書解析システムYは、分析実施者Bの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Bが同義語を抽出したい文書群を構成する文章の入力と、同義語候補Aの提示を実現する。
インターネット・サーバZは、通信ネットワークを介して文書解析システムYを実装した分析実施者Bの持つPC端末と接続されている。インターネット・サーバZは、文書解析システムYからの単語の意味などの概念情報の問い合わせに対し、単語の概念分類や一般的な同義語や類義語、用法に関連する一般概念情報Cgの検索を可能にする装置である。
図3と図1との対応関係について説明する。
文書入力部10は、PC端末の入力部として動作する。単語分析部20と、表記文脈類似度算出部30と、概念文脈類似度算出部40と、同義語候補推定部50とは、文書解析システムY内に含まれている。同義語候補出力部60は、PC端末の出力部として動作する。概念データベース110はインターネット・サーバZ内に含まれている。
この様な手段を備えた文書解析システムY、インターネット・サーバZは以下のような動作をする。
文書解析システムYは、入力部から、分析実施者Bが特定の案件に関する文書から、意義は同じで語形が異なっている同義語候補Aを推定したい文書群を構成する文書Dの入力を受け付ける。そして、文書解析システムYは、文書Dを構成する文書の文章毎に形態素解析および構文解析を適用し、文書を構成する単語に分解し、単語毎の抽出元の文および品詞を解析することで、名詞および、動詞、形容詞、形容動詞を単語Wとして抽出する。なお、動詞の内でサ行変格活用に属する動詞は活用部分を除去しいわゆるサ変名詞化した形態で抽出する。
さらに文書解析システムYは、文書Dに含まれる単語Wの内で名詞を単語Sとし、各単語Si(i=1、2、・・・、n)について、特定の単語Siと同一文中で共起関係にある名詞、動詞、形容詞を、共起語Vj(j=1、2、・・・、m)として抽出し、単語Siに対する各共起語Vijの共起回数を共起数Nijとして集計し、全ての単語Sに対する各共起語Vについて表形式にまとめた単語共起表Eを作成する。なお、単語共起表Eの単語Siに対する各共起語Vjの共起数Nijをまとめたデータセットを単語共起ベクトルNiと呼ぶ。
例えば、文書Dに「給与管理システムの利用時に各ウインドウを並べて表示する方法」、「給与計算システムの表示の機能として以下の画面を構築する。」、「交通費計算システムの表示の機能として以下の画面を構築する。」などの文章が含まれていた場合、単語Siとしては、少なくとも「給与管理システム」、「給与計算システム」、「交通費計算システム」、「利用時」、「画面」、「並べる」、「表示」、「方法」、「機能」、「以下」、「ウインドウ」、「構築」が抽出される。単語共起表Eの一例として、「給与管理システム」、「給与計算システム」、「交通費計算システム」を単語Siとした時の単語共起表Eは、図4のような、各行に単語Siを各列に共起語Vijを配置し、その共起数Nijを記載した表になる。また、図4の単語Siの行のデータセットが単語共起ベクトルNiに相当し、「給与管理システム」の単語共起ベクトルNiは{1、2、1、1、1、0、0、0、0、・・・}のように表される。なお、単語Sと共起語Vはいずれも名詞を含むため、先に単語として選択された単語も、他の単語が単語の場合は共起語として扱い、相互で重複して登録する。
インターネット・サーバZは、単語の一般的な上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスの一般概念情報Cgを蓄積する。また、インターネット・サーバZは、任意の単語の情報を抽出する検索エンジンなどの機能も提供することで、文書解析システムYからの問い合わせに応じて、問い合わせ対象の単語の一般的な概念分類として大分類、中分類、小分類を一般概念情報Cgとして抽出し、提示する。
文書解析システムYは、まず単語共起表Eの各共起語Vjのそれぞれの一般概念情報Cgについてインターネット・サーバZに問い合わせを行うことで、インターネット・サーバZ内に保存されたシソーラスの一般概念情報Cgの分類体系から、各共起語Vjが属する大分類の共起語概念C1vjと、中分類の共起語概念C2vjと、小分類の共起語概念C3vjとを抽出する。次に、文書解析システムYは、単語共起表Eにおける共起語Vjを共起語概念C1vjに変換し、同じ概念となる共起語Viをまとめ、共起数Nijの和を対応箇所へ登録した、大分類の単語概念表SC1を作成する。また、文書解析システムYは、単語共起表Eにおける共起語Vjを共起語概念C2vjに変換し、同じ概念となる共起語Viをまとめ、共起数Nijの和を対応箇所へ登録した、中分類の単語概念表SC2を作成する。さらに、文書解析システムYは、単語共起表Eにおける共起語Vjを共起語概念C3vjに変換し、同じ概念となる共起語Viをまとめ、共起数Nijの和を対応箇所へ登録した、小分類の単語概念表SC3を作成する。
なお、大分類の単語概念表SC1の単語Siに対する各共起語概念C1vjの共起数Nc1ijをまとめたデータセットを大分類単語概念ベクトルNc1iと呼び、中分類の単語概念表SC2の単語Siに対する各共起語概念C2vjの共起数Nc2ijをまとめたデータセットを中分類単語概念ベクトルNc2iと呼び、小分類の単語概念表SC3の単語Siに対する各共起語概念C3vjの共起数Nc3ijをまとめたデータセットを小分類単語概念ベクトルNc3iと呼ぶ。
例えば、図4の単語共起表Eにおける各共起語Vjについて、図5のような共起語概念C1vj、共起語概念C2vj、共起語概念C3vjが抽出された場合、大分類の単語概念表SC1は図6、中分類の単語概念表SC2は図7、小分類の単語概念表SC3は図8のような各行に単語Sを各列に共起語概念Cvjを配置した表となる。
単語概念表SC1、SC2、SC3の各共起数は大分類の単語概念表SC1を例とすると、共起語Vの内で「利用」、「並べて」、「構築」の共起語概念C1vjは「動作」で共通のため、これらの共起語における共起数を同一の単語「給与管理システム」に関して足し合わせた「2」がNc1ijとなる。なお、インターネット・サーバZに一般概念情報Cgの登録が無い単語は、共起語の単語をそのまま仮の概念として残す。図6より、単語「給与管理システム」の大分類単語概念ベクトルNc1iは{2、2、1、1、0、0、・・・}のように表される。
次に文書解析システムYは、単語Spに対応する大分類単語概念ベクトルNc1pと単語Sqに対応する大分類単語概念ベクトルNc1qの間のコサイン類似度Lc1pqと、中分類単語概念ベクトルNc2pとNc2qの間のコサイン類似度Lc2pqと、小分類単語概念ベクトルNc3pとNc3qの間のコサイン類似度Lc3pqとを算出し、以下の数式1によりそれぞれの分類重み付け係数β1、β2、β3(β1<β2<β3)を掛けた和を概念間類似度Lcpqとして算出する。
Lcpq=β1×Lc1pq+β2×Lc2pq+β3×Lc3pq
… 数式1
さらに、文書解析システムYは、単語Spに対応する単語共起ベクトルNpと単語Sqに対応する単語共起ベクトルNqの間のコサイン類似度を共起間類似度Lpqとして算出し、以下の数式2により、概念間類似度Lcpqを共起間類似度Lpqで除した値を単語間類似度Lspqとして算出する。
Lspq=Lcpq/Lpq … 数式2
さらに、文書解析システムYは、単語間類似度Lspqが任意の判定閾値Tより大きい単語Spと単語Sqの組合せを、単語の共起ベクトルの意味的な類似性が高く、同義語の可能性が想定される単語の組合せである同義語候補Aとして抽出する。この処理を全ての単語Siの組合せについて行う。
例えば、図4〜図8の例で、分類重み付け係数をβ1=0.009、β2=0.09、β3=0.9、判定閾値T=5とすると、「給与管理システム」、「給与計算システム」、「交通費計算システム」の3単語間の概念間類似度Lcpq、共起間類似度Lpq、単語間類似度Lspqは、図9の表のように算出される。
図9より、「給与管理システム」と「給与計算システム」の組合せ、および「給与管理システム」と「交通費計算システム」の組合せは「給与計算システム」と「交通費計算システム」の組合せに比べ概念間類似度Lcpq、共起間類似度Lpqともに低くなっているが、単語間類似度Lspqは高くなり、判定閾値Tより大きい「給与管理システム」と「給与計算システム」がこの文章内では同義語である可能性があると判定される。このように定型文で使用された「給与計算システム」と「交通費計算システム」の組合せの類似性を相対的に低下させることができ、的確な同義語の検出が可能になる。
さらに文書解析システムYは、同義語候補Aa{Sp、Sq}について、要求文書Dで該当する同義語候補Aa{Sp、Sq}を色分けもしくは太字による強調などの加工を行い、加工後の要求文書Dを、出力部から出力する。
以上説明したように、本発明の同義語抽出システムによれば、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出することが可能となり、誤解に基づく混乱や失敗などの削減につなげられることにある。その理由は、文脈から得られる概念の類似性に対して表記の類似性が高過ぎる単語組合せの類似度を下げることで、同義語として誤検出されやすい「単語+定型文」というパターンに用いられる単語組合せを除外した単語間の類似性算出を可能にしているためである。
以上、実施形態(実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本第1の実施例では、次のことを目的としている。
先ず、同義語抽出システム100は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書D内に含まれる特定の案件に関する文書群でのみ成り立つ同義語候補Aを推定する。そして、同義語抽出システム100は、推定結果を出力することで、未登録の用語に関する用語集の作成や語の統一を支援する。また、本第1の実施例では、同義語抽出システム100は、図3に示されるように、文書解析システムYと、インターネット・サーバZとで構成されるものとする。
文書解析システムYは、分析実施者Bの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Bが同義語を抽出したい文書群を構成する文章の入力と、同義語候補Aの提示を実現する。
インターネット・サーバZは、通信ネットワークを介して文書解析システムYを実装した分析実施者Bの持つPC端末と接続されている。インターネット・サーバZは、文書解析システムYからの単語の意味などの概念情報の問い合わせに対し、単語の概念分類や一般的な同義語や類義語、用法に関連する一般概念情報Cgの検索を可能にする装置である。
図3と図1との対応関係について説明する。
文書入力部10は、PC端末の入力部として動作する。単語分析部20と、表記文脈類似度算出部30と、概念文脈類似度算出部40と、同義語候補推定部50とは、文書解析システムY内に含まれている。同義語候補出力部60は、PC端末の出力部として動作する。概念データベース110はインターネット・サーバZ内に含まれている。
この様な手段を備えた文書解析システムY、インターネット・サーバZは以下のような動作をする。
文書解析システムYは、入力部から、分析実施者Bが特定の案件に関する文書から、意義は同じで語形が異なっている同義語候補Aを推定したい文書群を構成する文書Dの入力を受け付ける。そして、文書解析システムYは、文書Dを構成する文書の文章毎に形態素解析および構文解析を適用し、文書を構成する単語に分解し、単語毎の抽出元の文および品詞を解析することで、名詞および、動詞、形容詞、形容動詞を単語Wとして抽出する。なお、動詞の内でサ行変格活用に属する動詞は活用部分を除去しいわゆるサ変名詞化した形態で抽出する。
さらに文書解析システムYは、文書Dに含まれる単語Wの内で名詞を単語Sとし、各単語Si(i=1、2、・・・、n)について、特定の単語Siと同一文中で共起関係にある名詞、動詞、形容詞を、共起語Vj(j=1、2、・・・、m)として抽出し、単語Siに対する各共起語Vijの共起回数を共起数Nijとして集計し、全ての単語Sに対する各共起語Vについて表形式にまとめた単語共起表Eを作成する。なお、単語共起表Eの単語Siに対する各共起語Vjの共起数Nijをまとめたデータセットを単語共起ベクトルNiと呼ぶ。
例えば、文書Dに「給与管理システムの利用時に各ウインドウを並べて表示する方法」、「給与計算システムの表示の機能として以下の画面を構築する。」、「交通費計算システムの表示の機能として以下の画面を構築する。」などの文章が含まれていた場合、単語Siとしては、少なくとも「給与管理システム」、「給与計算システム」、「交通費計算システム」、「利用時」、「画面」、「並べる」、「表示」、「方法」、「機能」、「以下」、「ウインドウ」、「構築」が抽出される。単語共起表Eの一例として、「給与管理システム」、「給与計算システム」、「交通費計算システム」を単語Siとした時の単語共起表Eは、図4のような、各行に単語Siを各列に共起語Vijを配置し、その共起数Nijを記載した表になる。また、図4の単語Siの行のデータセットが単語共起ベクトルNiに相当し、「給与管理システム」の単語共起ベクトルNiは{1、2、1、1、1、0、0、0、0、・・・}のように表される。なお、単語Sと共起語Vはいずれも名詞を含むため、先に単語として選択された単語も、他の単語が単語の場合は共起語として扱い、相互で重複して登録する。
インターネット・サーバZは、単語の一般的な上位/下位関係、部分/全体関係、同義関係、類義関係などによって単語を分類し、体系づけたシソーラスの一般概念情報Cgを蓄積する。また、インターネット・サーバZは、任意の単語の情報を抽出する検索エンジンなどの機能も提供することで、文書解析システムYからの問い合わせに応じて、問い合わせ対象の単語の一般的な概念分類として大分類、中分類、小分類を一般概念情報Cgとして抽出し、提示する。
文書解析システムYは、まず単語共起表Eの各共起語Vjのそれぞれの一般概念情報Cgについてインターネット・サーバZに問い合わせを行うことで、インターネット・サーバZ内に保存されたシソーラスの一般概念情報Cgの分類体系から、各共起語Vjが属する大分類の共起語概念C1vjと、中分類の共起語概念C2vjと、小分類の共起語概念C3vjとを抽出する。次に、文書解析システムYは、単語共起表Eにおける共起語Vjを共起語概念C1vjに変換し、同じ概念となる共起語Viをまとめ、共起数Nijの和を対応箇所へ登録した、大分類の単語概念表SC1を作成する。また、文書解析システムYは、単語共起表Eにおける共起語Vjを共起語概念C2vjに変換し、同じ概念となる共起語Viをまとめ、共起数Nijの和を対応箇所へ登録した、中分類の単語概念表SC2を作成する。さらに、文書解析システムYは、単語共起表Eにおける共起語Vjを共起語概念C3vjに変換し、同じ概念となる共起語Viをまとめ、共起数Nijの和を対応箇所へ登録した、小分類の単語概念表SC3を作成する。
なお、大分類の単語概念表SC1の単語Siに対する各共起語概念C1vjの共起数Nc1ijをまとめたデータセットを大分類単語概念ベクトルNc1iと呼び、中分類の単語概念表SC2の単語Siに対する各共起語概念C2vjの共起数Nc2ijをまとめたデータセットを中分類単語概念ベクトルNc2iと呼び、小分類の単語概念表SC3の単語Siに対する各共起語概念C3vjの共起数Nc3ijをまとめたデータセットを小分類単語概念ベクトルNc3iと呼ぶ。
例えば、図4の単語共起表Eにおける各共起語Vjについて、図5のような共起語概念C1vj、共起語概念C2vj、共起語概念C3vjが抽出された場合、大分類の単語概念表SC1は図6、中分類の単語概念表SC2は図7、小分類の単語概念表SC3は図8のような各行に単語Sを各列に共起語概念Cvjを配置した表となる。
単語概念表SC1、SC2、SC3の各共起数は大分類の単語概念表SC1を例とすると、共起語Vの内で「利用」、「並べて」、「構築」の共起語概念C1vjは「動作」で共通のため、これらの共起語における共起数を同一の単語「給与管理システム」に関して足し合わせた「2」がNc1ijとなる。なお、インターネット・サーバZに一般概念情報Cgの登録が無い単語は、共起語の単語をそのまま仮の概念として残す。図6より、単語「給与管理システム」の大分類単語概念ベクトルNc1iは{2、2、1、1、0、0、・・・}のように表される。
次に文書解析システムYは、単語Spに対応する大分類単語概念ベクトルNc1pと単語Sqに対応する大分類単語概念ベクトルNc1qの間のコサイン類似度Lc1pqと、中分類単語概念ベクトルNc2pとNc2qの間のコサイン類似度Lc2pqと、小分類単語概念ベクトルNc3pとNc3qの間のコサイン類似度Lc3pqとを算出し、以下の数式1によりそれぞれの分類重み付け係数β1、β2、β3(β1<β2<β3)を掛けた和を概念間類似度Lcpqとして算出する。
Lcpq=β1×Lc1pq+β2×Lc2pq+β3×Lc3pq
… 数式1
さらに、文書解析システムYは、単語Spに対応する単語共起ベクトルNpと単語Sqに対応する単語共起ベクトルNqの間のコサイン類似度を共起間類似度Lpqとして算出し、以下の数式2により、概念間類似度Lcpqを共起間類似度Lpqで除した値を単語間類似度Lspqとして算出する。
Lspq=Lcpq/Lpq … 数式2
さらに、文書解析システムYは、単語間類似度Lspqが任意の判定閾値Tより大きい単語Spと単語Sqの組合せを、単語の共起ベクトルの意味的な類似性が高く、同義語の可能性が想定される単語の組合せである同義語候補Aとして抽出する。この処理を全ての単語Siの組合せについて行う。
例えば、図4〜図8の例で、分類重み付け係数をβ1=0.009、β2=0.09、β3=0.9、判定閾値T=5とすると、「給与管理システム」、「給与計算システム」、「交通費計算システム」の3単語間の概念間類似度Lcpq、共起間類似度Lpq、単語間類似度Lspqは、図9の表のように算出される。
図9より、「給与管理システム」と「給与計算システム」の組合せ、および「給与管理システム」と「交通費計算システム」の組合せは「給与計算システム」と「交通費計算システム」の組合せに比べ概念間類似度Lcpq、共起間類似度Lpqともに低くなっているが、単語間類似度Lspqは高くなり、判定閾値Tより大きい「給与管理システム」と「給与計算システム」がこの文章内では同義語である可能性があると判定される。このように定型文で使用された「給与計算システム」と「交通費計算システム」の組合せの類似性を相対的に低下させることができ、的確な同義語の検出が可能になる。
さらに文書解析システムYは、同義語候補Aa{Sp、Sq}について、要求文書Dで該当する同義語候補Aa{Sp、Sq}を色分けもしくは太字による強調などの加工を行い、加工後の要求文書Dを、出力部から出力する。
以上説明したように、本発明の同義語抽出システムによれば、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出することが可能となり、誤解に基づく混乱や失敗などの削減につなげられることにある。その理由は、文脈から得られる概念の類似性に対して表記の類似性が高過ぎる単語組合せの類似度を下げることで、同義語として誤検出されやすい「単語+定型文」というパターンに用いられる単語組合せを除外した単語間の類似性算出を可能にしているためである。
以上、実施形態(実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本発明によれば、ソフトウェアやシステムの開発における要件定義などの作業においてやり取りされる各種文書に関して、文書の曖昧さに繋がる同義語を除外することで文書の理解・作成・修正を支援することが可能になり、手戻りの減少や顧客満足の向上などシステム開発の効率化に関する用途に適用できる。また、同義語を精度良く抽出できるので、翻訳システムに用いて訳し分けに利用できる。
10 文書入力部
20 単語分析部
30 表記文脈類似度算出部
40 概念文脈類似度算出部
50 同義語候補推定部
60 同義語候補出力部
100 同義語抽出システム
110 概念データベース
D 文書
A 同義語
Y 文書解析システム
Z インターネット・サーバ
この出願は、2012年6月25日に出願された、日本特許出願第2012−141753号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
20 単語分析部
30 表記文脈類似度算出部
40 概念文脈類似度算出部
50 同義語候補推定部
60 同義語候補出力部
100 同義語抽出システム
110 概念データベース
D 文書
A 同義語
Y 文書解析システム
Z インターネット・サーバ
この出願は、2012年6月25日に出願された、日本特許出願第2012−141753号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
Claims (27)
- 文書を分析して同義語を抽出する同義語抽出システムであって、
対象とする文書もしくは文書群の入力を受け付ける文書入力部と、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の抽出元の文に関する単語情報の抽出を行う単語分析部と、
各文章に使用されている各単語について、前記単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成し、各単語の表記文脈情報の間の類似性を示す表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する表記文脈類似度算出部と、
単語の一般概念を体系づけた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースと、
前記単語分析部で抽出された各文章に使用されている各単語について、各単語の概念を前記概念データベースに問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成し、各単語の概念文脈情報の間の類似性を示す概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する概念文脈類似度算出部と、
各単語に対応する前記表記文脈類似度と前記概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高いとする所定の同義判定ルールによって単語間の同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定部と、
同義語候補を出力する同義語候補出力部と、
を備えたことを特徴とする同義語抽出システム。 - 前記概念データベースは、単語を分類体系付けて記憶しており、単語間の上位/下位関係、部分/全体関係、同義関係、類義関係について、一般概念情報として取得できるシソーラスである、ことを特徴とする請求項1に記載の同義語抽出システム。
- 前記表記文脈情報は、単語前後の所定範囲の文字列であり、
前記表記文脈類似度指標は、前記文字列中で一致する文字の個数や、文字列間の編集距離と単調減少の関係にある関数値である、ことを特徴とする請求項1又は2に記載の同義語抽出システム。 - 前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットであり、
前記表記文脈類似度指標は、前記共起セット内で一致した共起語の個数もしくは割合である、ことを特徴とする請求項1又は2に記載の同義語抽出システム。 - 前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルであり、
前記表記文脈類似度指標は、前記共起ベクトル間のコサイン類似度や、前記共起ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項1又は2に記載の同義語抽出システム。 - 前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットの各共起語を概念語に変換した概念セットであり、
前記概念文脈類似度指標は、前記概念セット内で一致した概念語の個数もしくは割合である、ことを特徴とする請求項1乃至5のいずれか1項に記載の同義語抽出システム。 - 前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルの各共起語を概念語に変換した概念ベクトルであり、
前記概念文脈類似度指標は、前記概念ベクトル間のコサイン距離や、前記概念ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項1乃至5のいずれか1項に記載の同義語抽出システム。 - 前記共起判定ルールは、品詞毎に共起とみなす範囲を変える、もしくは単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語に共起語を限定する、ことを特徴とする請求項4乃至7のいずれか1項に記載の同義語抽出システム。
- 前記同義判定ルールは、
i)概念文脈類似度と単調増加の関係にある関数を表記文脈類似度と単調増加の関係にある関数で除した指標が所定の閾値より大きい単語の組合せを抽出するルール、および
ii)表記文脈類似度が所定の閾値より大きい単語の組合せを同義語候補から除外し、残った単語の組合せで概念文脈類似度が高い組合せを抽出するルール
のグループから選択されたいずれか1つである、ことを特徴とする請求項1乃至8のいずれか1項に記載の同義語抽出システム。 - 文書を分析して同義語を抽出する同義語抽出方法であって、
対象とする文書もしくは文書群の入力を受け付ける文書受付工程と、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の抽出元の文に関する単語情報の抽出を行う単語情報抽出工程と、
各文章に使用されている各単語について、前記単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成し、各単語の表記文脈情報の間の類似性を示す表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する表記文脈類似度算出工程と、
単語の一般概念を体系づけた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースに、前記単語情報抽出工程で抽出された各文章に使用されている各単語について、各単語の概念を問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成し、各単語の概念文脈情報の間の類似性を示す概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する概念文脈類似度算出工程と、
各単語に対応する前記表記文脈類似度と前記概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高いとする所定の同義判定ルールによって単語間の同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定工程と、
同義語候補を出力する同義語候補出力工程と、
を含むことを特徴とする同義語抽出方法。 - 前記概念データベースは、単語を分類体系付けて記憶しており、単語間の上位/下位関係、部分/全体関係、同義関係、類義関係について、一般概念情報として取得できるシソーラスである、ことを特徴とする請求項10に記載の同義語抽出方法。
- 前記表記文脈情報は、単語前後の所定範囲の文字列であり、
前記表記文脈類似度指標は、前記文字列中で一致する文字の個数や、文字列間の編集距離と単調減少の関係にある関数値である、ことを特徴とする請求項10又は11に記載の同義語抽出方法。 - 前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットであり、
前記表記文脈類似度指標は、前記共起セット内で一致した共起語の個数もしくは割合である、ことを特徴とする請求項10又は11に記載の同義語抽出方法。 - 前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルであり、
前記表記文脈類似度指標は、前記共起ベクトル間のコサイン類似度や、前記共起ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項10又は11に記載の同義語抽出方法。 - 前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットの各共起語を概念語に変換した概念セットであり、
前記概念文脈類似度指標は、前記概念セット内で一致した概念語の個数もしくは割合である、ことを特徴とする請求項10乃至14のいずれか1項に記載の同義語抽出方法。 - 前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルの各共起語を概念語に変換した概念ベクトルであり、
前記概念文脈類似度指標は、前記概念ベクトル間のコサイン距離や、前記概念ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項10乃至14のいずれか1項に記載の同義語抽出方法。 - 前記共起判定ルールは、品詞毎に共起とみなす範囲を変える、もしくは単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語に共起語を限定する、ことを特徴とする請求項13乃至16のいずれか1項に記載の同義語抽出方法。
- 前記同義判定ルールは、
i)概念文脈類似度と単調増加の関係にある関数を表記文脈類似度と単調増加の関係にある関数で除した指標が所定の閾値より大きい単語の組合せを抽出するルール、および
ii)表記文脈類似度が所定の閾値より大きい単語の組合せを同義語候補から除外し、残った単語の組合せで概念文脈類似度が高い組合せを抽出するルール
のグループから選択されたいずれか1つである、ことを特徴とする請求項10乃至17のいずれか1項に記載の同義語抽出方法。 - コンピュータに文書を分析させて、同義語を抽出させる同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記コンピュータに、
対象とする文書もしくは文書群の入力を受け付ける文書受付手順と、
文書もしくは文書群を構成する文章に使用されている各単語の抽出および単語毎の抽出元の文に関する単語情報の抽出を行う単語情報抽出手順と、
各文章に使用されている各単語について、前記単語情報を利用して、各単語が使用された文脈での表記的な情報に基づき各単語の表記文脈情報を作成し、各単語の表記文脈情報の間の類似性を示す表記文脈類似度指標によって各単語の表記文脈情報間の類似性を各単語組合せの表記文脈類似度として算出する表記文脈類似度算出手順と、
単語の一般概念を体系づけた一般概念情報を収集して蓄積し、特定の単語に関する問い合わせに対し、単語の意味や用法に関連する一般概念情報を検索し応答する概念データベースに、前記単語情報抽出手順で抽出された各文章に使用されている各単語について、各単語の概念を問い合わせ、各単語が使用された文脈での概念的な情報に基づき各単語の概念文脈情報を作成し、各単語の概念文脈情報の間の類似性を示す概念文脈類似度指標によって各単語の概念文脈情報間の類似性を各単語組合せの概念文脈類似度として算出する概念文脈類似度算出手順と、
各単語に対応する前記表記文脈類似度と前記概念文脈類似度とに基づき、単語間の表記文脈類似度が低く、概念文脈類似度が高いほど同義語の可能性が高いとする所定の同義判定ルールによって単語間の同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定手順と、
同義語候補を出力する同義語候補出力手順と、
を実行させる同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。 - 前記概念データベースは、単語を分類体系付けて記憶しており、単語間の上位/下位関係、部分/全体関係、同義関係、類義関係について、一般概念情報として取得できるシソーラスである、ことを特徴とする請求項19に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
- 前記表記文脈情報は、単語前後の所定範囲の文字列であり、
前記表記文脈類似度指標は、前記文字列中で一致する文字の個数や、文字列間の編集距離と単調減少の関係にある関数値である、ことを特徴とする請求項19又は20に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。 - 前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットであり、
前記表記文脈類似度指標は、前記共起セット内で一致した共起語の個数もしくは割合である、ことを特徴とする請求項19又は20に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。 - 前記表記文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットを任意の範囲の文章群について集計した共起ベクトルであり、
前記表記文脈類似度指標は、前記共起ベクトル間のコサイン類似度や、前記共起ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項19又は20に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。 - 前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットの各共起語を概念語に変換した概念セットであり、
前記概念文脈類似度指標は、前記概念セット内で一致した概念語の個数もしくは割合である、ことを特徴とする請求項19乃至23のいずれか1項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。 - 前記概念文脈情報は、共起判定ルールで単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セットを所定の範囲の文章群について集計した共起ベクトルの各共起語を概念語に変換した概念ベクトルであり、
前記概念文脈類似度指標は、前記概念ベクトル間のコサイン距離や、前記概念ベクトル間のユークリッド距離と単調減少の関係にある関数値である、ことを特徴とする請求項19乃至23のいずれか1項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。 - 前記共起判定ルールは、品詞毎に共起とみなす範囲を変える、もしくは単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語に共起語を限定する、ことを特徴とする請求項22乃至25のいずれか1項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
- 前記同義判定ルールは、
i)概念文脈類似度と単調増加の関係にある関数を表記文脈類似度と単調増加の関係にある関数で除した指標が所定の閾値より大きい単語の組合せを抽出するルール、および
ii)表記文脈類似度が任意の閾値より大きい単語の組合せを同義語候補から除外し、残った単語の組合せで概念文脈類似度が高い組合せを抽出するルール
のグループから選択されたいずれか1つである、ことを特徴とする請求項19乃至26のいずれか1項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012141753 | 2012-06-25 | ||
JP2012141753 | 2012-06-25 | ||
PCT/JP2013/066282 WO2014002774A1 (ja) | 2012-06-25 | 2013-06-06 | 同義語抽出システム、方法および記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2014002774A1 true JPWO2014002774A1 (ja) | 2016-05-30 |
Family
ID=49782936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014522530A Pending JPWO2014002774A1 (ja) | 2012-06-25 | 2013-06-06 | 同義語抽出システム、方法および記録媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2014002774A1 (ja) |
WO (1) | WO2014002774A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822051B (zh) * | 2020-06-19 | 2024-01-30 | 北京彩智科技有限公司 | 一种数据处理的方法、装置及电子设备 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10515152B2 (en) | 2015-08-28 | 2019-12-24 | Freedom Solutions Group, Llc | Mitigation of conflicts between content matchers in automated document analysis |
JP6751188B1 (ja) * | 2019-08-05 | 2020-09-02 | Dmg森精機株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
CN112686035B (zh) * | 2019-10-18 | 2024-07-16 | 北京沃东天骏信息技术有限公司 | 一种未登录词进行向量化的方法和装置 |
CN112232065B (zh) * | 2020-10-29 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 挖掘同义词的方法及装置 |
CN113111187B (zh) * | 2021-04-07 | 2023-03-10 | 河北冀联人力资源服务集团有限公司 | 一种用工平台评论挖掘的方法及系统 |
WO2023238304A1 (ja) * | 2022-06-08 | 2023-12-14 | 日本電信電話株式会社 | 判定装置、判定方法および判定プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH096799A (ja) * | 1995-06-19 | 1997-01-10 | Sharp Corp | 文書分類装置及び文書検索装置 |
JP5079471B2 (ja) * | 2007-11-27 | 2012-11-21 | 株式会社日立製作所 | 同義語抽出装置 |
JP5131923B2 (ja) * | 2008-11-11 | 2013-01-30 | 日本電信電話株式会社 | 単語間関連度判定装置、単語間関連度判定方法、プログラムおよび記録媒体 |
-
2013
- 2013-06-06 WO PCT/JP2013/066282 patent/WO2014002774A1/ja active Application Filing
- 2013-06-06 JP JP2014522530A patent/JPWO2014002774A1/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113822051B (zh) * | 2020-06-19 | 2024-01-30 | 北京彩智科技有限公司 | 一种数据处理的方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2014002774A1 (ja) | 2014-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
JP6187877B2 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN105095204B (zh) | 同义词的获取方法及装置 | |
RU2607975C2 (ru) | Построение корпуса сравнимых документов на основе универсальной меры похожести | |
WO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
JP5754019B2 (ja) | 同義語抽出システム、方法およびプログラム | |
CN109783806B (zh) | 一种利用语义解析结构的文本匹配方法 | |
US20130007020A1 (en) | Method and system of extracting concepts and relationships from texts | |
WO2014002775A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
JP5057474B2 (ja) | オブジェクト間の競合指標計算方法およびシステム | |
JP2013020431A (ja) | 多義語抽出システム、多義語抽出方法、およびプログラム | |
CN112507109A (zh) | 一种基于语义分析与关键词识别的检索方法和装置 | |
JP6108212B2 (ja) | 同義語抽出システム、方法およびプログラム | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Fahrni et al. | HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2013. | |
KR101663038B1 (ko) | 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법 | |
KR101359039B1 (ko) | 복합명사 분석장치 및 복합명사 분석 방법 | |
Nguyen et al. | Systematic knowledge acquisition for question analysis | |
Nishy Reshmi et al. | Textual entailment classification using syntactic structures and semantic relations | |
KR100952077B1 (ko) | 키워드를 이용한 표제어 선정 장치 및 방법 | |
Oudah et al. | Studying the impact of language-independent and language-specific features on hybrid Arabic Person name recognition | |
Saneifar et al. | From terminology extraction to terminology validation: an approach adapted to log files | |
JP4314271B2 (ja) | 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 | |
JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム |