JPWO2014002776A1 - 同義語抽出システム、方法および記録媒体 - Google Patents

同義語抽出システム、方法および記録媒体 Download PDF

Info

Publication number
JPWO2014002776A1
JPWO2014002776A1 JP2014522532A JP2014522532A JPWO2014002776A1 JP WO2014002776 A1 JPWO2014002776 A1 JP WO2014002776A1 JP 2014522532 A JP2014522532 A JP 2014522532A JP 2014522532 A JP2014522532 A JP 2014522532A JP WO2014002776 A1 JPWO2014002776 A1 JP WO2014002776A1
Authority
JP
Japan
Prior art keywords
word
similarity
information
context
notation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014522532A
Other languages
English (en)
Other versions
JP6187877B2 (ja
Inventor
英司 平尾
英司 平尾
古橋 武
武 古橋
大弘 吉川
大弘 吉川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nagoya University NUC
NEC Corp
Tokai National Higher Education and Research System NUC
Original Assignee
Nagoya University NUC
NEC Corp
Tokai National Higher Education and Research System NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nagoya University NUC, NEC Corp, Tokai National Higher Education and Research System NUC filed Critical Nagoya University NUC
Publication of JPWO2014002776A1 publication Critical patent/JPWO2014002776A1/ja
Application granted granted Critical
Publication of JP6187877B2 publication Critical patent/JP6187877B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書の曖昧さを改善するために、同義語抽出システムは、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、単語の出現個数や単語間の個数の割合といった単語組合せに関して計量可能なデータに対する類似度の指標の抽出実績を利用することによって、同義語候補を抽出する可能性の高い類似度の指標を推測して適用することで、正解情報や大量のコーパスを必要とすることなく、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出する。同義語抽出システムは、文書入力部と、単語分析部と、文脈類似度算出部と、表記類似度算出部と、類似度評価データベースと、同義語候補推定部と、同義語候補出力部と、を備える。

Description

本発明は、同義語抽出システム、方法および記録媒体に関し、特に、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出する同義語抽出システム、方法および記録媒体に関する。
近年、情報処理装置を用いて、自然言語で書かれた文書を分析して、その文書の意味や意義を自動抽出するシステムが開発されている。そのなかで、文書中の同義語の取り扱いが問題になることがある。尚、同義語とは、意義は同じで語形が異なっている語、換言すれば、発音や表記は異なるが、意味の同じである語をいう。
同義語抽出システムに関する先行技術の一例が、特許文献1に「単語意味関係抽出装置」として記載されている。この特許文献1に開示された単語意味関係抽出装置は、テキストから抽出した単語の組に対してそれぞれ異なる複数種類の類似度を要素とする素性ベクトルを生成する手段と、既知の辞書を参照し、前記素性ベクトルに対して単語意味関係を示すラベルを付与する手段と、前記ラベルが付与された複数の素性ベクトルに基づいて単語意味関係判定ルールを学習する手段と、前記学習した単語意味関係判定ルールに基づいて、任意の単語の組に対して単語意味関係を判定する手段と、を備える。このような構成により、学習により複数の類似性の的確な統合を行い、高精度な単語意味関係抽出を行うことを実現している。
また、同義語抽出システムに関する先行技術の他の例が、特許文献2に「同義語展開システム及び同義語展開方法」として記載されている。この特許文献2に開示された同義語展開システムは、プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備える。前記プロセッサは、前記メモリに格納された同義語展開処理のためのプログラムを実行することによって、次に述べる処理を実行する。まず、前記プロセッサは、ある単語の係り先となる単語を含む第1文脈情報が格納された第1データベースを参照して、第1単語の前記第1文脈情報と第2単語の前記第1文脈情報とを比較することによって、前記第1単語と前記第2単語との間の意味の近さを示す類似度を計算する。そして、前記プロセッサは、前記計算された類似度が高い少なくとも一以上の前記第2単語を前記第1単語の同義語候補に決定し、前記決定された少なくとも一以上の同義語候補とその類似度とを含む第1情報を出力する。その後、前記プロセッサは、ある単語から文章中で所定の語数内に出現する単語を含む第2文脈情報が格納された第2データベースを参照して、前記第1単語の第2文脈情報と、前記出力された第1情報に含まれる少なくとも一以上の同義語候補の第2文脈情報と、を比較することによって、前記少なくとも一以上の同義語候補が出現する文脈とが一致する確率を示す文脈適合度を計算する。引き続いて、前記プロセッサは、前記少なくとも一以上の同義語候補の類似度と、前記計算された文脈適合度とに基づいて、前記同義語候補の同義語展開スコアを計算し、前記少なくとも一以上の同義語候補とその同義語展開スコアとを含む第2情報を出力する。最後に、前記プロセッサは、前記出力された第2情報に含まれる少なくとも一以上の同義語候補のうち、前記計算された同義語展開スコアの高い同義語候補を前記第1単語の同義語に決定し、前記決定された第1単語の同義語を含む第3情報を出力する。このような構成により、文書中の単語を同じ意味を表す同義語に展開する際に、その単語の出現文脈に沿った意味に展開し、文書検索、文書分類などの精度を向上させることを実現している。
さらに、同義語抽出システムに関する先行技術の他の例が、特許文献3に「辞書登録装置、辞書登録方法および辞書登録プログラム」として記載されている。この特許文献3に開示された辞書登録装置は、辞書に登録されていない単語を辞書へ登録する装置であって、単語を保持する辞書を記憶する辞書記憶手段と、入力文書を形態素解析し未知語を抽出する形態素解析部と、前記未知語の前方と後方の少なくとも一方の単語を結合した拡張未知語を生成する未知語範囲拡張部と、前記未知語を拡張した部分の表記が一致する単語であって前記辞書に登録されている既登録単語を検索する部分一致検索部と、前記既登録単語のうち前記未知語に相当する部分の表記の文字属性と前記未知語の表記の文字属性とに基づき、表記の類似性を判定する表記類似性判定部と、前記表記類似性判例部が前記既登録単語のうち前記未知語に相当する部分の表記と前記未知語の表記とが類似すると判定した場合に、前記拡張未知語を前記辞書に登録する辞書登録部とを備える。このような構成により、複数の文字種が含まれる単語も同時に辞書に登録することができ、未知語抽出の精度を高めることができ、抽出された未知語の確認などのユーザの作業負担を軽減することができる。
特開2011−118526号公報 特開2010−287020号公報 特開2006−155528号公報
このような先行技術の第一の課題は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語の抽出に、特許文献1の先行技術による同義語の抽出方法を適用すると、特定の案件に関する文書群でのみ成り立つ同義語を抽出することができないことである。その理由は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語は、意図せずに埋め込まれており、事前にその同義関係を把握することが難しく、特許文献1の従来手法で用いられているような学習に供する正解情報としての既知の辞書を準備することが困難であるためである。
上記先行技術の第二の課題は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語の抽出に、上記先行技術による同義語の抽出方法を適用すると、同義語の抽出率が低くなってしまうことである。その理由は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書の多くは、文章量が限られたスモールコーパスであるため、特許文献2の従来手法で用いられているような、単語の係り先となる単語を含む第1文脈情報が格納された第1データベースや、単語から文章中で所定の語数内に出現する単語を含む第2文脈情報が格納された第2データベースといった係り受けや共起語などのコーパスが分析対象と同質なテキストデータを用意することが困難で、大量の分析対象と同質のコーパスを前提とした類似判定を行うことが難しいためである。
尚、特許文献3に開示された辞書登録装置における表記類似性判定部は、部分一致検索部が検索した単語に含まれる部分文字列のうち、未知語に相当する部分が、形態素解析部により抽出された未知語と類似するか否かを判定しているに過ぎない。
本発明の目的は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、正解情報や大量のコーパスを必要とすることなく、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出する、同義語抽出システム、方法および記録媒体を提供することにある。
本発明に係る同義語抽出システムは、文書を分析して同義語を抽出する同義語抽出システムであって、対象とする文書もしくは文書群の入力を受け付ける文書入力部と;各文章に使用されている全単語の抽出および単語の定量的特徴である単語計量情報、単語の定性的特徴である単語情報の抽出を行う単語分析部と;この単語分析部で抽出された各文章に使用されている各単語について、単語情報を利用して、各単語が使用された文脈に関する文脈情報を作成し、文脈類似度算出方法によって各単語の文脈情報間の類似性を各単語組合せの文脈類似度として算出する文脈類似度算出部と;上記単語分析部で抽出された各文章に使用されている各単語について、各単語の文字構成に関する表記情報を作成し、表記類似度算出方法によって各単語の表記情報間の類似性を各単語組合せの表記類似度として算出する表記類似度算出部と;過去に同義語かどうか判定された単語組合せに関して、文書内での単語組合せの単語計量情報、単語間の文脈類似度情報、単語間の表記類似度情報、および単語間が同義語かどうかの判定結果を収集して蓄積し、単語計量情報の値によって、単語間の文脈類似度情報と単語間の表記類似度情報がそれぞれどの程度、同義語の判定に有効になるかを示す統計情報である類似度評価情報を任意の類似度評価方法によって算出し、単語組合せの単語の単語計量情報について対応する類似度評価情報を応答する類似度評価データベースと;対象文書内の各単語組合せについて、上記単語分析部で抽出した各単語の単語計量情報に対応する類似度評価情報を、上記類似度評価データベースに問い合わせ、応答される類似度評価情報、および各単語間の文脈類似度と表記類似度から所定の同義判定方法によって単語類似度を算出することで、単語組合せの同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定部と;同義語候補を出力する同義語候補出力部と;を備える。
本発明によれば、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、正解情報や大量のコーパスを必要とすることなく、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出することが可能となる。
図1は本発明の一実施形態に係る同義語抽出システムの構成を示すブロック図である。
図2は図1に示した同義語抽出システムの動作例を示すシーケンス図である。
図3は本発明の第1の実施例に係る同義語抽出システムの構成を示すブロック図である。
図4は単語共起表Eの一部の例を示す説明図である。
図5は単語Si間の文脈類似度Lepqの一部の例を示す説明図である。
図6は単語Si間の表記類似度Lwpqの一部の例を示す説明図である。
図7は出現数P、文脈類似度Leと表記類似度Lwの蓄積データの例を示す説明図である。
図8は単語類似度Lpqを算出した結果の一部の例を示す説明図である。
[実施形態]
最初に、本発明の一実施形態について、図面を参照して詳細に説明する。
図1は、本発明の一実施形態に係る同義語抽出システム100の構成を示すブロック図である。
図1を参照すると、本発明の一実施形態に係る同義語抽出システム100は、基本的に電子機器内もしくはサーバと電子機器およびこれらを相互に接続するインターネット等の情報通信ネットワークからなるシステム内に、少なくとも、文書入力部10、単語分析部20、文脈類似度算出部30、表記類似度算出部40、同義語候補推定部50、同義語候補出力部60、及び類似度評価データベース110、を含む。
図示の同義語抽出システム100は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、同義語を抽出する同義語抽出システムである。
少し詳細に述べると、同義語抽出システム100は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、単語の出現個数や単語間の個数の割合といった単語組合せに関して計量可能なデータに対する類似度の指標の抽出実績を利用することによって、同義語候補を抽出する可能性の高い(同義語候補の生成パターンに応じた)類似度の指標を推測して適用することで、正解情報や大量のコーパスを必要とすることなく、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出する、同義語抽出システムである。
電子機器で同義語抽出システムを構成する場合、同義語抽出システム100は、プログラム制御により動作するコンピュータで実現可能である。図示はしないが、この種のコンピュータは、周知のように、データを入力する入力装置と、データ処理装置と、データ処理装置での処理結果を出力する出力装置と、種々のデータベースとして働く補助記憶装置とを備えている。そして、データ処理装置は、プログラムを記憶するリードオンリメモリ(ROM)と、データを一時的に記憶するワークエリアとして使用されるランダムアクセスメモリ(RAM)と、ROMに記憶されたプログラムに従って、RAMに記憶されているデータを処理する中央処理装置(CPU)とから構成される。
この場合、入力装置が文書入力部10として働く。データ処理装置が、単語分析部20、文脈類似度算出部30、表記類似度算出部40、および同義語候補推定部50として働く。補助記憶装置が類似度評価データベース110として動作する。出力装置が同義語候補出力部60として働く。
次に、同義語抽出システム100を構成する各構成要素の動作について説明する。
文書入力部10は、対象とする文書もしくは文書群の入力を受け付ける。
単語分析部20は、文書もしくは文書群を構成する各文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語の抽出および単語の定量的特徴である単語計量情報、単語の定性的特徴である単語情報の抽出を行う。
ここで、単語は名詞、動詞、形容詞など単独で意味をなす自立語に限定しても良い。また、上記単語計量情報とは、単語組合せに関して計量可能なデータであり、例えば単語組合せが使用された文書の文字数や単語数、もしくはそれぞれの単語の出現数、出現数が少ない単語側の出現数、出現数が多い単語側の出現数、単語間の出現数比率、文字数などのいずれか一つもしくはいくつかが適切である。上記単語情報は、単語の文字構成や抽出元の文を同定可能とする情報に加え、必要に応じて抽出元の文の段落や目次上の項目、単語の品詞、単語間の係り受け関係などを含めても良い。
文脈類似度算出部30は、単語分析部20で抽出された各文章に使用されている各単語について、単語情報を利用して、各単語が使用された文脈に関する文脈情報を作成する。
ここで、上記文脈情報とは、各単語がどのような文脈で使用されたかを示す情報であり、単語前後の任意範囲の文字列や、任意の共起判定方法で任意の単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セット、もしくは共起セットを任意の範囲の文章群について集計した共起ベクトル、などが有効である。
また、上記文脈情報の他の例としては、上記共起セットもしくは上記共起ベクトルの各共起語をシソーラスなどに基づき概念語に変換した概念セットや概念ベクトルなどの概念的な文脈情報も適している。
ここで、上記共起判定方法としては、1文、1段落内の全文章、目次上の同一項目内での全文章、文書全体など、文書の特徴に合わせて共起語と見なす範囲を設定して良く、1文内での共起する動詞、および目次上の同一項目内の文章内の名詞のように品詞毎に共起とみなす範囲を変えても良い。さらに、単語情報に単語間の係り受け関係が含まれる場合は、係り受け関係のある単語かどうかを上記共起判定方法として利用しても良い。また、共起数は共起回数でも良いが、共起回数を単語毎の全共起語数で除した頻度などでも良い。
さらに文脈類似度算出部30は、任意に設定した文脈類似度算出方法によって各単語の文脈情報間の類似性を各単語組合せの文脈類似度として算出する。
ここで、上記文脈類似度算出方法とは、各単語の文脈情報の間の類似性を示す指標の算出方法であって、i)上記文脈情報が単語前後の任意範囲の文字列である場合は文字列中で一致する文字の個数もしくは割合、もしくは文字列間の編集距離と単調減少の関係にある関数値を文脈類似度とする方法、ii)上記文脈情報が共起セットの場合は共起セット内で一致した共起語の個数を文脈類似度とする方法、およびiii)上記文脈情報が共起ベクトルの場合は共起ベクトル間のコサイン類似度や、共起ベクトル間のユークリッド距離と単調減少の関係にある関数値を文脈類似度とする方法のいずれかが適している。
表記類似度算出部40は、単語分析部20で抽出された各文章に使用されている各単語について、単語情報を利用して、各単語の文字構成に関する表記情報を作成する。
ここで、上記表記情報とは、各単語がどのような表記で使用されたかを示す情報であり、単語の文字列が相当する。また、単語が複合語である場合は複合語を構成する部分的な熟語である構成語で複合語を分解し、構成語の組合せを上記表記情報としても良い。
さらに表記類似度算出部40は、任意に設定した表記類似度算出方法によって各単語の表記情報間の類似性を各単語組合せの表記類似度として算出する。
ここで、上記表記類似度算出方法とは、各単語の表記情報の間の類似性を示す指標の算出方法であって、i)上記表記情報が単語の文字列である場合は単語の文字列中で一致する文字の個数もしくは割合や、文字列間の編集距離と単調減少の関係にある関数値を文脈類似度とする方法、およびii)上記表記情報が構成語の組合せの場合は単語間で一致した各構成語の個数もしくは割合を文脈類似度とする方法のいずれかが適している。
また、任意の加重方法で複合語内の構成語に重み付けし、より重みが大きい構成語が一致しているほど単語間の類似度が高くなるように指標を与えても良い。さらに、単語間で一致しない構成語が有る場合、その構成語間のシソーラス距離などで意味的な類似性を定量化し、一致しない構成語の意味的な類似性が高いほど、単語間の類似度が高くなるように指標を与えても良い。
類似度評価データベース110は、文書入力部10で対象とした文書に限らず過去に同義語かどうか判定された単語組合せに関して、文書内での単語組合せの単語計量情報、単語間の文脈類似度情報、単語間の表記類似度情報、および単語間が同義語かどうかの判定結果を収集して蓄積し、単語計量情報の値によって、単語間の文脈類似度情報と単語間の表記類似度情報がそれぞれどの程度、同義語の判定に有効になるかを示す統計情報である類似度評価情報を任意の類似度評価方法によって算出し、同義語候補推定部50からの任意の単語組合せの単語の単語計量情報について、対応する上記類似度評価情報を応答するデータベースである。
ここで、上記文脈類似度情報は、単語の文脈情報に基づく単語間の類似性を表す情報であればよく、例えば、上記文脈類似度や上記文脈類似度に基づく単語組合せの相対順位や偏差値などが考えられる。同様に、上記表記類似度情報は、単語の表記情報に基づく単語間の類似性を表す情報であればよく、例えば、上記表記類似度や上記表記類似度に基づく単語組合せの相対順位や偏差値などが考えられる。
また、上記類似度評価方法は、単語の単語計量情報に関して、単語間の文脈類似度情報、単語間の表記類似度情報が同義語の判定にそれぞれどの程度、有効であるかを示す統計情報を算出可能な分析方法であればよい。例えば、上記類似度評価方法は、i)同義語と判定された単語組合せからなる同義語セット群について、文脈類似度情報を表記類似度情報で除した値を目的変数とし、各同義語セットの単語計量情報のいくつか(例えば単語組合せで多い側の単語の出現数と、少ない側の単語の出現数)を説明変数とした重回帰分析による重回帰式を、上記類似度評価情報として算出する方法や、ii)単語の出現数および単語間の出現数比率をそれぞれ軸とした2次元平面上に各同義語セットを配置した時に、同義性の抽出において文脈類似度情報が表記類似度情報より有効であった同義語セットの重心(例えば単語の出現数と、単語間の出現数比率の座標)である文脈類似度有効重心と、表記類似度情報が文脈類似度情報より有効であった同義語セットの重心である表記類似度有効重心を上記類似度評価情報として算出する方法などが有効である。
他にも、上記類似度評価方法は、iii)上記単語計量情報、単語間の文脈類似度情報、単語間の表記類似度情報を前提条件とした時に、同義語と判定される条件付確率を上記類似度評価情報として算出する方法などでも良い。また、上記「単語の単語計量情報」として「単語の出現数」を想定する場合の出現数は、単語組合せ毎の単語の出現数の和でも良いし、出現数が小さい方の単語出現数もしくは出現数が大きい方の単語出現数でも良い。
同義語候補推定部50は、対象文書内の各単語組合せについて、単語分析部20で抽出した各単語の単語計量情報に対応する上記類似度評価情報を、類似度評価データベース110に問い合わせ、応答される上記類似度評価情報、および各単語間の文脈類似度と表記類似度から所定の同義判定方法によって単語類似度を算出することで、単語組合せの同義性を判定し、同義語候補の組合せとして抽出する。
ここで、上記同義判定方法は、単語計量情報から推測される、同義語の抽出により有効な類似度に基づく同義語候補の判定方法であれば良い。
例えば、上記同義判定方法は、i)上記類似度評価情報が、上記重回帰式である場合は、上記重回帰式に各単語組合せの説明変数とした各単語計量情報(例えば、多い側の単語の出現数と、少ない側の単語の出現数)を代入し、得られる上記目的変数の値と単調増加の関係にある関数値を文脈類似度の重み付け係数に、上記目的変数の値と単調減少の関係にある関数値を表記類似度の重み付け係数にした線形和に基づく平均値を単語類似度とする方法などが有効である。
また、上記同義判定方法は、ii)上記類似度評価情報が、上記2次元平面上における文脈類似度有効重心および表記類似度有効重心であった場合は、上記文脈類似度有効重心と、各単語の出現数と各単語間の出現数比率からなる座標のユークリッド距離と単調減少の関係にある関数値を文脈類似度の係数に、上記表記類似度有効重心と、各単語の出現数と各単語間の出現数比率からなる座標のユークリッド距離と単調減少の関係にある関数値を表記類似度の係数にした線形和を単語類似度とする方法なども有効である。
さらに、上記同義判定方法は、iii)文脈類似度と表記類似度のそれぞれの上記係数を比較し、係数が大きい方の類似度のみを単語類似度とする方法なども有効である。
同義語候補出力部60は、同義語候補推定部50で抽出した同義語候補を出力する。
ここで、出力形態は、文書内における同義語候補の組合せを色分けや太字による強調などで明示することで、文書全体を出力する形態などが適当である。他にも、出力形態としては、同義語候補の組合せを抽出した表などの形態であって良い。また、出力形態としては、同義語候補とされた単語を主ノード、その共起語を中間ノード、概念を端ノードとして関係をリンクで結んだグラフを表示し、同義語候補とされた単語を最短で繋ぐリンクを色分けして強調するなどの形態であって良い。また、出力形態としては、同義語候補を抽出する際に用いた非類似度などで同義語間に定量的な同義度を付加し、同義度が任意に設定された閾値より大きい同義語のみに表示を限定しても良い。もしくは、出力形態としては、同義語候補間の同義度によって色分けや太字による強調もしくはグラフの単語の文字の大きさなどに強弱を与えるなどしても良い。
また、各出力形態を選択できるようにして、ベースとなる表示形態から必要に応じて表やグラフに移行できるようにしてもよい。また、必要に応じて動詞や名詞などを選択的に出力するようにしてもよい。
さらに同義語候補出力部60は、出力した同義語候補の内、同義語と確定された単語組合せを分析者に選択させ、この単語組合せに関する単語計量情報、および各単語間の文脈類似度と表記類似度を上記類似度評価データベース110に登録する。
次に、図1及び図2のシーケンス図を参照して、本発明の実施形態に係る同義語抽出システム100の全体の動作について詳細に説明する。なお、図2に示すシーケンス図及び以下の説明は処理例であり、適宜求める処理に応じて処理順等を入れ替えたり処理を戻したり繰り返したりすることを行ってもよい。
文書入力部10は、対象とする文書もしくは文書群の入力を受け付ける(図2のステップA1)。
単語分析部20は、文書もしくは文書群を構成する各文章に形態素解析や構文解析を適用することで、各文章に使用されている全単語の抽出および単語の定量的特徴である単語計量情報、単語の定性的特徴である単語情報の抽出を行う。(ステップA2)。
文脈類似度算出部30は、単語分析部20で抽出された各文章に使用されている各単語について、単語情報を利用して、各単語が使用された文脈に関する文脈情報を作成する(ステップA3)。
さらに文脈類似度算出部30は、任意に設定した文脈類似度算出方法によって各単語の文脈情報間の類似性を各単語組合せの文脈類似度として算出する(ステップA4)。
表記類似度算出部40は、単語分析部20で抽出された各文章に使用されている各単語について、単語情報を利用して、各単語の文字構成に関する表記情報を作成する(ステップA5)。
さらに表記類似度算出部40は、任意に設定した表記類似度算出方法によって各単語の表記情報間の類似性を各単語組合せの表記類似度として算出する(ステップA6)。
類似度評価データベース110は、文書入力部10で対象とした文書に限らず過去に同義語かどうか判定された単語組合せに関して、文書内での単語組合せの単語計量情報、単語間の文脈類似度情報、単語間の表記類似度情報、および単語間が同義語かどうかの判定結果を収集して蓄積し、単語計量情報の値によって、単語間の文脈類似度情報と単語間の表記類似度情報がそれぞれどの程度、同義語の判定に有効になるかを示す統計情報である類似度評価情報を任意の類似度評価方法によって算出し、同義語候補推定部50からの任意の単語組合せの単語の単語計量情報について、対応する前記類似度評価情報を応答する(ステップA7)。
同義語候補推定部50は、対象文書内の各単語組合せについて、単語分析部20で抽出した各単語の単語計量情報に対応する上記類似度評価情報を、類似度評価データベース110に問い合わせ、応答される前記類似度評価情報、および各単語間の文脈類似度と表記類似度から所定の同義判定方法によって単語類似度を算出することで、単語組合せの同義性を判定し、同義語候補の組合せとして抽出(推定)する(ステップA8)。
同義語候補出力部60は、同義語候補推定部50で抽出(推定)した同義語候補を出力する(ステップA9)。
さらに同義語候補出力部60は、出力した同義語候補の内、同義語と確定された単語組合せを分析者に選択させ、この単語組合せに関する各単語の単語計量情報、および各単語間の文脈類似度と表記類似度を上記類似度評価データベース110に登録する(ステップA10)。
次に、本発明の実施形態に係る同義語抽出システム100の効果について説明する。
本実施形態では、単語の出現個数や単語間の個数の割合といった単語組合せに関して計量可能なデータに対する類似度の抽出実績のような、文書の特徴による変化が少なく収集しやすい統計的情報を利用することによって、同義語セットであった単語組合せを抽出した確率がより高い類似度の指標を重視した同義語候補の抽出を行うように構成されている。そのため、単語の出現の頻度の偏りが大きい誤記パターン、単語の出現の頻度の偏りが小さく記載者が複数人で分担して執筆したなどで発生した用語の不統一パターン、出現頻度が少なく文脈類似度の精度が期待できないパターン、出現頻度が多く文脈類似度が有効な情報と成るパターンといった、同義語の生成パターンに合った類似性の評価が可能になる。その結果、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から同義語を抽出できる。
尚、上記本発明の実施形態に係る同義語抽出システム100は、同義語抽出方法として実現され得る。また、上記本発明の実施形態に係る同義語抽出システム100は、同義語抽出プログラムによりコンピュータによって実行させるようにしても良い。
次に、図3を参照して、具体的な第1の実施例を用いて、本発明の一実施形態に係る同義語抽出システム100の動作について説明する。
本第1の実施例では、次のことを目的としている。
先ず、同義語抽出システム100は、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書D内に含まれる特定の案件に関する文書群でのみ成り立つ同義語候補Aを推定する。そして、同義語抽出システム100は、推定結果を出力することで、誤字の検出や未登録の用語に関する用語集の作成や語の統一を支援する。また、本第1の実施例では、同義語抽出システム100は、図3に示されるように、文書解析システムYと、インターネット・サーバZとで構成されるものとする。
文書解析システムYは、分析実施者Bの持つPC端末上で動作し、入力部及び出力部を介して、分析実施者Bが同義語を抽出したい文書群を構成する文章の入力と、同義語候補Aの提示を実現する。
インターネット・サーバZは、通信ネットワークを介して文書解析システムYを実装した分析実施者Bの持つPC端末と接続されている。インターネット・サーバZは、文書解析システムYからの任意の単語組合せの単語の単語計量情報に対応する上記類似度評価情報の問い合わせに対し、単語計量情報の値によって、単語間の文脈類似度情報と単語間の表記類似度情報がそれぞれどの程度、同義語の判定に有効になるかを示す統計情報である類似度評価情報の検索を可能にする装置である。
図3と図1との対応関係について説明する。
文書入力部10は、PC端末の入力部として動作する。単語分析部20と、文脈類似度算出部30と、表記類似度算出部40と、同義語候補推定部50とは、文書解析システムY内に含まれている。同義語候補出力部60は、PC端末の出力部として動作する。類似度評価データベース110はインターネット・サーバZ内に含まれている。
この様な手段を備えた文書解析システムY、インターネット・サーバZは以下のような動作をする。
文書解析システムYは、入力部から、分析実施者Bが特定の案件に関する文書から、意義は同じで語形が異なっている同義語候補Aを推定したい文書群を構成する文書Dの入力を受け付ける。そして、文書解析システムYは、文書Dを構成する文書の文章毎に形態素解析および構文解析を適用し、文書を構成する単語に分解し、単語毎の抽出元の文および品詞を解析することで、名詞および、動詞、形容詞、形容動詞を単語Wとして抽出する。なお、動詞の内でサ行変格活用に属する動詞は活用部分を除去しいわゆるサ変名詞化した形態で抽出する。
さらに文書解析システムYは、文書Dに含まれる単語Wの内で名詞を単語Sとし、各単語Si(i=1、2、・・・、n)について、文書D内での出現数Piを計量する。
さらに文書解析システムYは、文書Dに含まれる単語Wの内で名詞を単語Sとし、各単語Si(i=1、2、・・・、n)について、特定の単語Siと同一文中で共起関係にある名詞、動詞、形容詞を、共起語Vj(j=1、2、・・・、m)として抽出し、単語Siに対する各共起語Vijの共起回数を共起数Nijとして集計し、全ての単語Sに対する各共起語Vについて表形式にまとめた単語共起表Eを作成する。なお、単語共起表Eの単語Siに対する各共起語Vjの共起数Nijをまとめたデータセットを単語共起ベクトルNiと呼ぶ。
例えば、文書Dの単語Siとして「交通費計算システム」、「通勤費計算」、「遅延証明」、「交通費精算サービス」、「通勤計算」などの単語が含まれていたとする。この場合、単語共起表Eは、図4のような、各行に単語Siを各列に共起語Vijを配置し、その共起数Nijを記載した表になる。また、図4の単語Siの行のデータセットが単語共起ベクトルNiに相当し、「交通費計算システム」の単語共起ベクトルNiは{4、2、1、1、1、0、2、0、0、・・・}のように表される。なお、単語Sと共起語Vはいずれも名詞を含むため、先に単語として選択された単語も、他の単語が単語の場合は共起語として扱い、相互で重複して登録する。
さらに、文書解析システムYは、同義性を評価する単語Sp(i=p)と単語Sq(i=q)に関して、単語Spに対応する単語共起ベクトルNpと単語Sqに対応する単語共起ベクトルNqの間のコサイン類似度を文脈類似度Lepqとして算出する。例えば、図4の単語Si間の文脈類似度Lepqの一部は、図5のような表で示される。
さらに文書解析システムYは、単語Spおよび単語Sqのそれぞれの文字列を表記情報として抽出し、文字列間の編集距離dpqを算出し、さらに単語Spおよび単語Sqの文字数の内で、多い方の文字数Ppqmaxを算出することで、以下の数式1により単語Spおよび単語Sqの表記類似度Lwpqとして算出する。
Lwpq=1−dpq/(Ppqmax+k) … 数式1
ここで、kは式中の分数の分母を0にしないための定数で0.1以下の値が適切である。例えば、編集距離の算出条件として挿入・削除・置換のコストをそれぞれ1、k=0.1として、図4の単語Si間の表記類似度Lwpqの一部は、図6のような表で示される。
インターネット・サーバZは、文書Dに限らず過去に同義語と判定された単語組合せである同義語セットに関して、その同義語セットが使用された各文書内での各同義語の出現数Pを、単語間の文脈類似度Le、および単語間の表記類似度Lwを収集して蓄積する。また、インターネット・サーバZは、収集された同義語セット群について、文脈類似度Leを単語間の表記類似度Lwで除した類似度比を目的変数とし、各同義語セットの単語組合せで多い方の出現数Pmaxと、少ない方の単語の出現数Pminを説明変数とした重回帰分析を行い、以下の数式2のような、単語の出現数PmaxおよびPminの組合せによって、単語間の文脈類似度Leと表記類似度Lwがそれぞれどの程度、同義語の判定に有効になるかを示す統計的な関係を表す式を算出する。さらに、インターネット・サーバZは、文書解析システムYからの問い合わせに応じて、問い合わせ対象の単語組合せの出現数PmaxおよびPminに対応するLe/Lwの値を算出し、応答する。
Le/Lw=α1×Pmax+α2×Pmin+β … 数式2
ここで、α1は単語の出現数Pmaxの重回帰係数、α2は単語の出現数Pminの重回帰係数、βは切片に相当する。例えば、図7のような出現数P、文脈類似度Leと表記類似度Lwの蓄積データからなる同義語セットのデータに基づく重回帰式は、以下の数式3のようになる。
Le/Lw=0.0039×Pmax+0.041×Pmin+0.53
… 数式3
なお、各同義語セットの単語組合せで多い方の出現数Pmaxは文脈類似性に必要な情報量の充実性と相関することを、少ない方の単語の出現数Pminは表記類似度が近い誤字・脱字である可能性と相関することを想定しており、単語間の出現数の和や比率、文章の文字数などを説明変数に加えたり、代替するなどしても良い。
次に文書解析システムYは、上記重回帰式に単語Spおよび単語Sqの文書D中の出現数に基づく出現数PpqmaxおよびPpqminを代入し、以下の数式4のように、得られたLe/Lwの値の2乗を文脈類似度Lepqの重み付け係数に、得られたLe/Lwの値の2乗の逆数を表記脈類似度Lwpqの重み付け係数とした線形和に基づく平均値を、単語間類似度Lpqとして算出する。
Lpq=((Le/Lw)×Lepq+(Lw/Le)×Lwpq)/2
… 数式4
なお、上記重み付け係数は上記数式4のような連続値ではなく、得られたLe/Lwの値が1より大きい場合は文脈類似度Lepqの重み付け係数を1、表記脈類似度Lwpqの重み付け係数を0にし、得られたLe/Lwの値が1の場合は文脈類似度Lepqの重み付け係数を1/2、表記脈類似度Lwpqの重み付け係数を1/2にし、得られたLe/Lwの値が1より小さい場合は文脈類似度Lepqの重み付け係数を0、表記脈類似度Lwpqの重み付け係数を1にするような、不連続値を与えても良い。これは、上記数式2でLe/Lwが1より大きい場合は、文脈類似度Leが表記類似度Lwよりも同義語の判定に有効と考えられるパターンであることを意味し、Le/Lwが1の場合は、同義語の判定の有効性が文脈類似度Leと表記類似度Lwとで同等であるパターンであることを意味し、Le/Lwが1より小さい場合は、表記類似度Lwが文脈類似度Leよりも同義語の判定に有効と考えられるパターンであることを意味するためである。
さらに、文書解析システムYは、単語類似度Lpqが任意の判定閾値Tより大きい単語Spと単語Sqの組合せを、単語の共起ベクトルの意味的な類似性が高く、同義語の可能性が想定される単語の組合せである同義語候補Aとして抽出する。この処理を全ての単語Siの組合せについて行う。
例えば、図4〜図7の例で、「交通費計算システム」と「交通費精算サービス」、「通勤費計算」と「通勤計算」、「遅延証明」と「通勤費計算」の組合せの単語類似度Lpqを算出した結果は、図8の表のようになる。判定閾値T=0.75とすると、文脈類似度Leと表記類似度Lwの単純平均ではいずれも判定閾値Tを越える組合せは無いが、上記数4に基づいて単語類似度Lを算出した結果は、「交通費計算システム」と「交通費精算サービス」、「通勤費計算」と「通勤計算」が判定閾値Tより大きく、この文章内では同義語である可能性があると判定される。これは、単語の出現数がある程度多く文脈類似性が有効かつ、両単語とも極端に少ない出現数では無く誤字・脱字とは考えにくい「交通費計算システム」と「交通費精算サービス」の単語類似度Lは文脈類似度に近い値となり、逆に単語の出現数がある程度多く文脈類似性が有効だが、一方の単語の出現数が極端に少なく誤字・脱字の可能性が高い「通勤費計算」と「通勤計算」の単語類似度Lは表記類似度に近い値となるような重み付けが統計情報により付与されたためである。このように単語の出現数などの計量可能なデータに対する類似度の指標の抽出実績を利用することで、有効な類似度を重視した同義語候補の抽出ができ、的確な同義語の検出が可能になる。
さらに文書解析システムYは、同義語候補Aa{Sp、Sq}について、要求文書Dで該当する同義語候補Aa{Sp、Sq}を色分けもしくは太字による強調などの加工を行い、加工後の要求文書Dを、出力部から出力する。
以上説明したように、本発明の同義語抽出システムによれば、情報システム構築に関する提案書や仕様書等といった、特定の案件に関する文書群でのみ成り立つ同義語のある文書から、正解情報や大量のコーパスを必要とすることなく、特定の案件に関する文書群でのみ成り立つ同義語を高精度で抽出することが可能となり、誤解に基づく混乱や失敗などの削減につなげられることにある。その理由は、単語の出現個数や単語間の個数の割合といった単語組合せに関して計量可能なデータに対する類似度の指標の抽出実績のような、文書の特徴による変化が少なく収集しやすい統計的情報を利用することによって、同義語候補を抽出する可能性の高い(同義語候補の生成パターンに応じた)類似度の指標を推測して適用することで、同義語の生成パターンに応じた類似度の指標を適用した単語間の類似性算出を可能にしているためである。
以上、実施形態(実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本発明によれば、ソフトウェアやシステムの開発における要件定義などの作業においてやり取りされる各種文書に関して、文書の曖昧さに繋がる同義語を除外することで文書の理解・作成・修正を支援することが可能になり、手戻りの減少や顧客満足の向上などシステム開発の効率化に関する用途に適用できる。また、同義語を精度良く抽出できるので、翻訳システムに用いて訳し分けに利用できる。
10 文書入力部
20 単語分析部
30 文脈類似度算出部
40 表記類似度算出部
50 同義語候補推定部
60 同義語候補出力部
100 同義語抽出システム
110 類似度評価データベース
D 文書
A 同義語
Y 文書解析システム
Z インターネット・サーバ
この出願は、2012年6月25日に出願された、日本特許出願第2012−141680号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (30)

  1. 文書を分析して同義語を抽出する同義語抽出システムであって、
    対象とする文書もしくは文書群の入力を受け付ける文書入力部と、
    各文章に使用されている全単語の抽出および単語の定量的特徴である単語計量情報、単語の定性的特徴である単語情報の抽出を行う単語分析部と、
    前記単語分析部で抽出された各文章に使用されている各単語について、単語情報を利用して、各単語が使用された文脈に関する文脈情報を作成し、文脈類似度算出方法によって各単語の文脈情報間の類似性を各単語組合せの文脈類似度として算出する文脈類似度算出部と、
    前記単語分析部で抽出された各文章に使用されている各単語について、各単語の文字構成に関する表記情報を作成し、表記類似度算出方法によって各単語の表記情報間の類似性を各単語組合せの表記類似度として算出する表記類似度算出部と、
    過去に同義語かどうか判定された単語組合せに関して、文書内での単語組合せの単語計量情報、単語間の文脈類似度情報、単語間の表記類似度情報、および単語間が同義語かどうかの判定結果を収集して蓄積し、前記単語計量情報の値によって、前記単語間の文脈類似度情報と前記単語間の表記類似度情報がそれぞれどの程度、同義語の判定に有効になるかを示す統計情報である類似度評価情報を類似度評価方法によって算出し、単語組合せの単語の単語計量情報について対応する前記類似度評価情報を応答する類似度評価データベースと、
    対象文書内の各単語組合せについて、前記単語分析部で抽出した各単語の単語計量情報に対応する前記類似度評価情報を、前記類似度評価データベースに問い合わせ、応答される前記類似度評価情報、および各単語間の文脈類似度と表記類似度から所定の同義判定方法によって単語類似度を算出することで、単語組合せの同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定部と、
    前記同義語候補を出力する同義語候補出力部と、
    を備えたことを特徴とする同義語抽出システム。
  2. 前記単語計量情報は、単語組合せに関して計量可能なデータであって、
    i)単語組合せが使用された文書の文字数や単語数、
    ii)それぞれの単語の出現数、
    iii)出現数が少ない単語側の出現数、
    iv)出現数が多い単語側の出現数、
    v)単語間の出現数比率、および
    vi)文字数
    のいずれか一つもしくはいくつかである、ことを特徴とする請求項1に記載の同義語抽出システム。
  3. 前記文脈情報は、各単語がどのような文脈で使用されたかを示す情報であって、
    i)単語前後の任意範囲の文字列、
    ii)共起判定方法で単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セット、
    iii)該共起セットを所定の範囲の文章群について集計した共起ベクトル、および
    iv)前記共起セットもしくは前記共起ベクトルの各共起語をシソーラスに基づき概念語に変換した概念セットや概念ベクトル
    のグループから選択されたいずれか1つである、ことを特徴とする請求項1又は2に記載の同義語抽出システム。
  4. 前記文脈類似度算出方法は、各単語の文脈情報の間の類似性を示す指標の算出方法であって、
    i)前記文脈情報が単語前後の任意範囲の文字列である場合は文字列中で一致する文字の個数もしくは割合や、文字列間の編集距離と単調減少の関係にある関数値を文脈類似度とする方法、
    ii)前記文脈情報が共起セットの場合は共起セット内で一致した共起語の個数を文脈類似度とする方法、および
    iii)前記文脈情報が共起ベクトルの場合は共起ベクトル間のコサイン類似度や、共起ベクトル間のユークリッド距離と単調減少の関係にある関数値を文脈類似度とする方法
    のグループから選択されたいずれか1つである、ことを特徴とする請求項3に記載の同義語抽出システム。
  5. 前記表記情報は、各単語がどのような表記で使用されたかを示す情報であって、
    i)単語の文字列、および
    ii)単語が複合語である場合は複合語を構成する構成語の組合せ
    のグループから選択されたいずれか1つである、ことを特徴とする請求項1乃至4のいずれか1項に記載の同義語抽出システム。
  6. 前記表記類似度算出方法は、各単語の表記情報の間の類似性を示す指標の算出方法であって、
    i)前記表記情報が単語の文字列である場合は文字列中で一致する文字の個数もしくは割合や、文字列間の編集距離と単調減少の関係にある関数値を表記類似度とする方法、および
    ii)前記表記情報が構成語の組合せの場合は単語間で一致した各構成語の個数もしくは割合を表記類似度とする方法
    のグループから選択されたいずれか1つである、ことを特徴とする請求項5に記載の同義語抽出システム。
  7. 前記文脈類似度情報は、単語の文脈情報に基づく単語間の類似性を表す情報であって、前記文脈類似度や前記文脈類似度に基づく単語組合せの相対順位や偏差値であり、
    前記表記類似度情報は、単語の表記情報に基づく単語間の類似性を表す情報であって、前記表記類似度や前記表記類似度に基づく単語組合せの相対順位や偏差値である、
    ことを特徴とする請求項1乃至6のいずれか1項に記載の同義語抽出システム。
  8. 前記類似度評価方法は、単語の単語計量情報に関して、単語間の文脈類似度情報、単語間の表記類似度情報が同義語の判定にそれぞれどの程度、有効であるかを示す統計情報を算出可能な分析方法であって、
    i)同義語と判定された単語組合せからなる同義語セット群について、文脈類似度情報を表記類似度情報で除した値を目的変数とし、各同義語セットの単語計量情報のいくつかを説明変数とした重回帰分析による重回帰式を、前記類似度評価情報として算出す方法する方法、
    ii)単語の出現数および単語間の出現数比率をそれぞれ軸とした2次元平面上に各同義語セットを配置した時に、同義性の抽出において文脈類似度情報が表記類似度情報より有効であった同義語セットの重心である文脈類似度有効重心と、表記類似度情報が文脈類似度情報より有効であった同義語セットの重心である表記類似度有効重心を前記類似度評価情報として算出する方法、および
    iii)前記単語計量情報、前記単語間の文脈類似度情報、前記単語間の表記類似度情報を前提条件とした時に、同義語と判定される条件付確率を前記類似度評価情報として算出する方法
    のグループから選択されたいずれか1つである、ことを特徴とする請求項7に記載の同義語抽出システム。
  9. 前記同義判定方法は、単語計量情報から推測される、同義語の抽出により有効な類似度に基づく同義語候補の判定方法であって、
    i)前記類似度評価情報が、前記重回帰式である場合は、前記重回帰式に各単語組合せの説明変数とした各単語計量情報を代入し、得られる前記目的変数の値と単調増加の関係にある関数値を文脈類似度の重み付け係数に、前記目的変数の値と単調減少の関係にある関数値を表記類似度の重み付け係数にした線形和に基づく平均値を単語類似度とする方法、
    ii)前記類似度評価情報が、前記2次元平面上における文脈類似度有効重心および表記類似度有効重心であった場合は、前記文脈類似度有効重心と、各単語の出現数と各単語間の出現数比率からなる座標のユークリッド距離と単調減少の関係にある関数値を文脈類似度の係数に、前記表記類似度有効重心と、各単語の出現数と各単語間の出現数比率からなる座標のユークリッド距離と単調減少の関係にある関数値を表記類似度の係数にした線形和を単語類似度とする方法、および
    iii)文脈類似度と表記類似度のそれぞれの前記係数を比較し、係数が大きい方の類似度のみを単語類似度とする方法
    のグループから選択されたいずれか1つである、ことを特徴とする請求項8に記載の同義語抽出システム。
  10. 前記同義語候補出力部は、出力した同義語候補の内、同義語と確定された単語組合せを分析者に選択させ、この単語組合せに関する単語計量情報、および各単語間の文脈類似度と表記類似度を前記類似度評価データベースに登録する、
    ことを特徴とする請求項1乃至9のいずれか1項に記載の同義語抽出システム。
  11. 文書を分析して同義語を抽出する同義語抽出方法であって、
    対象とする文書もしくは文書群の入力を受け付ける文書受付工程と、
    各文章に使用されている全単語の抽出および単語の定量的特徴である単語計量情報、単語の定性的特徴である単語情報の抽出を行う単語情報抽出工程と、
    前記単語情報抽出工程で抽出された各文章に使用されている各単語について、単語情報を利用して、各単語が使用された文脈に関する文脈情報を作成し、文脈類似度算出方法によって各単語の文脈情報間の類似性を各単語組合せの文脈類似度として算出する文脈類似度算出工程と、
    前記単語情報抽出工程で抽出された各文章に使用されている各単語について、各単語の文字構成に関する表記情報を作成し、表記類似度算出方法によって各単語の表記情報間の類似性を各単語組合せの表記類似度として算出する表記類似度算出工程と、
    過去に同義語かどうか判定された単語組合せに関して、文書内での単語組合せの単語計量情報、単語間の文脈類似度情報、単語間の表記類似度情報、および単語間が同義語かどうかの判定結果を収集して蓄積する類似度評価データベースに、前記単語計量情報の値によって、前記単語間の文脈類似度情報と前記単語間の表記類似度情報がそれぞれどの程度、同義語の判定に有効になるかを示す統計情報である類似度評価情報を類似度評価方法によって算出させ、単語組合せの単語の単語計量情報について対応する前記類似度評価情報を応答させる工程と、
    対象文書内の各単語組合せについて、前記単語情報抽出工程で抽出した各単語の単語計量情報に対応する前記類似度評価情報を、前記類似度評価データベースに問い合わせ、応答される前記類似度評価情報、および各単語間の文脈類似度と表記類似度から所定の同義判定方法によって単語類似度を算出することで、単語組合せの同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定工程と、
    前記同義語候補を出力する同義語候補出力工程と、
    を含むことを特徴とする同義語抽出方法。
  12. 前記単語計量情報は、単語組合せに関して計量可能なデータであって、
    i)単語組合せが使用された文書の文字数や単語数、
    ii)それぞれの単語の出現数、
    iii)出現数が少ない単語側の出現数、
    iv)出現数が多い単語側の出現数、
    v)単語間の出現数比率、および
    vi)文字数
    のいずれか一つもしくはいくつかである、ことを特徴とする請求項11に記載の同義語抽出方法。
  13. 前記文脈情報は、各単語がどのような文脈で使用されたかを示す情報であって、
    i)単語前後の任意範囲の文字列、
    ii)共起判定方法で単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セット、
    iii)該共起セットを所定の範囲の文章群について集計した共起ベクトル、および
    iv)前記共起セットもしくは前記共起ベクトルの各共起語をシソーラスに基づき概念語に変換した概念セットや概念ベクトル
    のグループから選択されたいずれか1つである、ことを特徴とする請求項11又は12に記載の同義語抽出方法。
  14. 前記文脈類似度算出方法は、各単語の文脈情報の間の類似性を示す指標の算出方法であって、
    i)前記文脈情報が単語前後の任意範囲の文字列である場合は文字列中で一致する文字の個数もしくは割合や、文字列間の編集距離と単調減少の関係にある関数値を文脈類似度とする方法、
    ii)前記文脈情報が共起セットの場合は共起セット内で一致した共起語の個数を文脈類似度とする方法、および
    iii)前記文脈情報が共起ベクトルの場合は共起ベクトル間のコサイン類似度や、共起ベクトル間のユークリッド距離と単調減少の関係にある関数値を文脈類似度とする方法
    のグループから選択されたいずれか1つである、ことを特徴とする請求項13に記載の同義語抽出方法。
  15. 前記表記情報は、各単語がどのような表記で使用されたかを示す情報であって、
    i)単語の文字列、および
    ii)単語が複合語である場合は複合語を構成する構成語の組合せ
    のグループから選択されたいずれか1つである、ことを特徴とする請求項11乃至14のいずれか1項に記載の同義語抽出方法。
  16. 前記表記類似度算出方法は、各単語の表記情報の間の類似性を示す指標の算出方法であって、
    i)前記表記情報が単語の文字列である場合は文字列中で一致する文字の個数もしくは割合や、文字列間の編集距離と単調減少の関係にある関数値を表記類似度とする方法、および
    ii)前記表記情報が構成語の組合せの場合は単語間で一致した各構成語の個数もしくは割合を表記類似度とする方法
    のグループから選択されたいずれか1つである、ことを特徴とする請求項15に記載の同義語抽出方法。
  17. 前記文脈類似度情報は、単語の文脈情報に基づく単語間の類似性を表す情報であって、前記文脈類似度や前記文脈類似度に基づく単語組合せの相対順位や偏差値であり、
    前記表記類似度情報は、単語の表記情報に基づく単語間の類似性を表す情報であって、前記表記類似度や前記表記類似度に基づく単語組合せの相対順位や偏差値である、
    ことを特徴とする請求項11乃至16のいずれか1項に記載の同義語抽出方法。
  18. 前記類似度評価方法は、単語の単語計量情報に関して、単語間の文脈類似度情報、単語間の表記類似度情報が同義語の判定にそれぞれどの程度、有効であるかを示す統計情報を算出可能な分析方法であって、
    i)同義語と判定された単語組合せからなる同義語セット群について、文脈類似度情報を表記類似度情報で除した値を目的変数とし、各同義語セットの単語計量情報のいくつかを説明変数とした重回帰分析による重回帰式を、前記類似度評価情報として算出す方法する方法、
    ii)単語の出現数および単語間の出現数比率をそれぞれ軸とした2次元平面上に各同義語セットを配置した時に、同義性の抽出において文脈類似度情報が表記類似度情報より有効であった同義語セットの重心である文脈類似度有効重心と、表記類似度情報が文脈類似度情報より有効であった同義語セットの重心である表記類似度有効重心を前記類似度評価情報として算出する方法、および
    iii)前記単語計量情報、前記単語間の文脈類似度情報、前記単語間の表記類似度情報を前提条件とした時に、同義語と判定される条件付確率を前記類似度評価情報として算出する方法
    のグループから選択されたいずれか1つである、ことを特徴とする請求項17に記載の同義語抽出方法。
  19. 前記同義判定方法は、単語計量情報から推測される、同義語の抽出により有効な類似度に基づく同義語候補の判定方法であって、
    i)前記類似度評価情報が、前記重回帰式である場合は、前記重回帰式に各単語組合せの説明変数とした各単語計量情報を代入し、得られる前記目的変数の値と単調増加の関係にある関数値を文脈類似度の重み付け係数に、前記目的変数の値と単調減少の関係にある関数値を表記類似度の重み付け係数にした線形和に基づく平均値を単語類似度とする方法、
    ii)前記類似度評価情報が、前記2次元平面上における文脈類似度有効重心および表記類似度有効重心であった場合は、前記文脈類似度有効重心と、各単語の出現数と各単語間の出現数比率からなる座標のユークリッド距離と単調減少の関係にある関数値を文脈類似度の係数に、前記表記類似度有効重心と、各単語の出現数と各単語間の出現数比率からなる座標のユークリッド距離と単調減少の関係にある関数値を表記類似度の係数にした線形和を単語類似度とする方法、および
    iii)文脈類似度と表記類似度のそれぞれの前記係数を比較し、係数が大きい方の類似度のみを単語類似度とする方法
    のグループから選択されたいずれか1つである、ことを特徴とする請求項18に記載の同義語抽出方法。
  20. 前記同義語候補出力工程は、出力した同義語候補の内、同義語と確定された単語組合せを分析者に選択させ、この単語組合せに関する単語計量情報、および各単語間の文脈類似度と表記類似度を前記類似度評価データベースに登録する、
    ことを特徴とする請求項11乃至19のいずれか1項に記載の同義語抽出方法。
  21. コンピュータに文書を分析させて、同義語を抽出させる同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体であって、前記コンピュータに、
    対象とする文書もしくは文書群の入力を受け付ける文書受付手順と、
    各文章に使用されている全単語の抽出および単語の定量的特徴である単語計量情報、単語の定性的特徴である単語情報の抽出を行う単語情報抽出手順と、
    前記単語情報抽出手順で抽出された各文章に使用されている各単語について、単語情報を利用して、各単語が使用された文脈に関する文脈情報を作成し、文脈類似度算出方法によって各単語の文脈情報間の類似性を各単語組合せの文脈類似度として算出する文脈類似度算出手順と、
    前記単語情報抽出手順で抽出された各文章に使用されている各単語について、各単語の文字構成に関する表記情報を作成し、表記類似度算出方法によって各単語の表記情報間の類似性を各単語組合せの表記類似度として算出する表記類似度算出手順と、
    過去に同義語かどうか判定された単語組合せに関して、文書内での単語組合せの単語計量情報、単語間の文脈類似度情報、単語間の表記類似度情報、および単語間が同義語かどうかの判定結果を収集して蓄積する類似度評価データベースに、前記単語計量情報の値によって、前記単語間の文脈類似度情報と前記単語間の表記類似度情報がそれぞれどの程度、同義語の判定に有効になるかを示す統計情報である類似度評価情報を類似度評価方法によって算出させ、単語組合せの単語の単語計量情報について対応する前記類似度評価情報を応答させる手順と、
    対象文書内の各単語組合せについて、前記単語情報抽出手順で抽出した各単語の単語計量情報に対応する前記類似度評価情報を、前記類似度評価データベースに問い合わせ、応答される前記類似度評価情報、および各単語間の文脈類似度と表記類似度から所定の同義判定方法によって単語類似度を算出することで、単語組合せの同義性を判定し、同義語候補の組合せとして抽出する同義語候補推定手順と、
    前記同義語候補を出力する同義語候補出力手順と、
    を実行させる同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  22. 前記単語計量情報は、単語組合せに関して計量可能なデータであって、
    i)単語組合せが使用された文書の文字数や単語数、
    ii)それぞれの単語の出現数、
    iii)出現数が少ない単語側の出現数、
    iv)出現数が多い単語側の出現数、
    v)単語間の出現数比率、および
    vi)文字数
    のいずれか一つもしくはいくつかである、ことを特徴とする請求項21に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  23. 前記文脈情報は、各単語がどのような文脈で使用されたかを示す情報であって、
    i)単語前後の任意範囲の文字列、
    ii)共起判定方法で単語と共起関係とみなされた共起語とその共起数を1文単位でまとめた共起セット、
    iii)該共起セットを所定の範囲の文章群について集計した共起ベクトル、および
    iv)前記共起セットもしくは前記共起ベクトルの各共起語をシソーラスに基づき概念語に変換した概念セットや概念ベクトル
    のグループから選択されたいずれか1つである、ことを特徴とする請求項21又は22に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  24. 前記文脈類似度算出方法は、各単語の文脈情報の間の類似性を示す指標の算出方法であって、
    i)前記文脈情報が単語前後の任意範囲の文字列である場合は文字列中で一致する文字の個数もしくは割合や、文字列間の編集距離と単調減少の関係にある関数値を文脈類似度とする方法、
    ii)前記文脈情報が共起セットの場合は共起セット内で一致した共起語の個数を文脈類似度とする方法、および
    iii)前記文脈情報が共起ベクトルの場合は共起ベクトル間のコサイン類似度や、共起ベクトル間のユークリッド距離と単調減少の関係にある関数値を文脈類似度とする方法
    のグループから選択されたいずれか1つである、ことを特徴とする請求項23に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  25. 前記表記情報は、各単語がどのような表記で使用されたかを示す情報であって、
    i)単語の文字列、および
    ii)単語が複合語である場合は複合語を構成する構成語の組合せ
    のグループから選択されたいずれか1つである、ことを特徴とする請求項21乃至24のいずれか1項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  26. 前記表記類似度算出方法は、各単語の表記情報の間の類似性を示す指標の算出方法であって、
    i)前記表記情報が単語の文字列である場合は文字列中で一致する文字の個数もしくは割合や、文字列間の編集距離と単調減少の関係にある関数値を表記類似度とする方法、および
    ii)前記表記情報が構成語の組合せの場合は単語間で一致した各構成語の個数もしくは割合を表記類似度とする方法
    のグループから選択されたいずれか1つである、ことを特徴とする請求項25に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  27. 前記文脈類似度情報は、単語の文脈情報に基づく単語間の類似性を表す情報であって、前記文脈類似度や前記文脈類似度に基づく単語組合せの相対順位や偏差値であり、
    前記表記類似度情報は、単語の表記情報に基づく単語間の類似性を表す情報であって、前記表記類似度や前記表記類似度に基づく単語組合せの相対順位や偏差値である、
    ことを特徴とする請求項21乃至26のいずれか1項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  28. 前記類似度評価方法は、単語の単語計量情報に関して、単語間の文脈類似度情報、単語間の表記類似度情報が同義語の判定にそれぞれどの程度、有効であるかを示す統計情報を算出可能な分析方法であって、
    i)同義語と判定された単語組合せからなる同義語セット群について、文脈類似度情報を表記類似度情報で除した値を目的変数とし、各同義語セットの単語計量情報のいくつかを説明変数とした重回帰分析による重回帰式を、前記類似度評価情報として算出す方法する方法、
    ii)単語の出現数および単語間の出現数比率をそれぞれ軸とした2次元平面上に各同義語セットを配置した時に、同義性の抽出において文脈類似度情報が表記類似度情報より有効であった同義語セットの重心である文脈類似度有効重心と、表記類似度情報が文脈類似度情報より有効であった同義語セットの重心である表記類似度有効重心を前記類似度評価情報として算出する方法、および
    iii)前記単語計量情報、前記単語間の文脈類似度情報、前記単語間の表記類似度情報を前提条件とした時に、同義語と判定される条件付確率を前記類似度評価情報として算出する方法
    のグループから選択されたいずれか1つである、ことを特徴とする請求項27に記載の同義語プログラムを記録したコンピュータ読み取り可能な記録媒体。
  29. 前記同義判定方法は、単語計量情報から推測される、同義語の抽出により有効な類似度に基づく同義語候補の判定方法であって、
    i)前記類似度評価情報が、前記重回帰式である場合は、前記重回帰式に各単語組合せの説明変数とした各単語計量情報を代入し、得られる前記目的変数の値と単調増加の関係にある関数値を文脈類似度の重み付け係数に、前記目的変数の値と単調減少の関係にある関数値を表記類似度の重み付け係数にした線形和に基づく平均値を単語類似度とする方法、
    ii)前記類似度評価情報が、前記2次元平面上における文脈類似度有効重心および表記類似度有効重心であった場合は、前記文脈類似度有効重心と、各単語の出現数と各単語間の出現数比率からなる座標のユークリッド距離と単調減少の関係にある関数値を文脈類似度の係数に、前記表記類似度有効重心と、各単語の出現数と各単語間の出現数比率からなる座標のユークリッド距離と単調減少の関係にある関数値を表記類似度の係数にした線形和を単語類似度とする方法、および
    iii)文脈類似度と表記類似度のそれぞれの前記係数を比較し、係数が大きい方の類似度のみを単語類似度とする方法
    のグループから選択されたいずれか1つである、ことを特徴とする請求項28に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
  30. 前記同義語候補出力手順は、出力した同義語候補の内、同義語と確定された単語組合せを分析者に選択させ、この単語組合せに関する単語計量情報、および各単語間の文脈類似度と表記類似度を前記類似度評価データベースに登録する、
    ことを特徴とする請求項21乃至29のいずれか1項に記載の同義語抽出プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2014522532A 2012-06-25 2013-06-06 同義語抽出システム、方法および記録媒体 Active JP6187877B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012141680 2012-06-25
JP2012141680 2012-06-25
PCT/JP2013/066286 WO2014002776A1 (ja) 2012-06-25 2013-06-06 同義語抽出システム、方法および記録媒体

Publications (2)

Publication Number Publication Date
JPWO2014002776A1 true JPWO2014002776A1 (ja) 2016-05-30
JP6187877B2 JP6187877B2 (ja) 2017-08-30

Family

ID=49782938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014522532A Active JP6187877B2 (ja) 2012-06-25 2013-06-06 同義語抽出システム、方法および記録媒体

Country Status (2)

Country Link
JP (1) JP6187877B2 (ja)
WO (1) WO2014002776A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326686B (zh) * 2020-02-28 2024-05-10 株式会社斯库林集团 相似度计算装置、记录介质以及相似度计算方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016021136A (ja) * 2014-07-14 2016-02-04 株式会社東芝 類義語辞書作成装置
US10515152B2 (en) * 2015-08-28 2019-12-24 Freedom Solutions Group, Llc Mitigation of conflicts between content matchers in automated document analysis
JP6737151B2 (ja) * 2016-11-28 2020-08-05 富士通株式会社 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム
WO2018220688A1 (ja) * 2017-05-29 2018-12-06 株式会社Pfu 辞書生成装置、辞書生成方法、及びプログラム
CN107748755B (zh) * 2017-09-19 2019-11-05 华为技术有限公司 同义词挖掘方法、装置、设备和计算机可读存储介质
US11328006B2 (en) * 2017-10-26 2022-05-10 Mitsubishi Electric Corporation Word semantic relation estimation device and word semantic relation estimation method
JP7046592B2 (ja) 2017-12-21 2022-04-04 株式会社日立製作所 検索支援システム、検索支援方法、及び検索支援プログラム
CN110287337A (zh) * 2019-06-19 2019-09-27 上海交通大学 基于深度学习和知识图谱获取医学同义词的系统及方法
CN110348010B (zh) * 2019-06-21 2023-06-02 北京小米智能科技有限公司 同义短语获取方法及装置
CN110399615B (zh) * 2019-07-29 2023-08-18 中国工商银行股份有限公司 交易风险监控方法及装置
CN112733521B (zh) * 2021-01-16 2023-07-04 江苏网进科技股份有限公司 一种用于确认法律案件相似关系的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009129323A (ja) * 2007-11-27 2009-06-11 Hitachi Ltd 同義語抽出装置
JP2010152561A (ja) * 2008-12-24 2010-07-08 Toshiba Corp 類似表現抽出装置、サーバ装置及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009129323A (ja) * 2007-11-27 2009-06-11 Hitachi Ltd 同義語抽出装置
JP2010152561A (ja) * 2008-12-24 2010-07-08 Toshiba Corp 類似表現抽出装置、サーバ装置及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吉田 稔: "テキストマイニングの活用", 情報の科学と技術, vol. 60, no. 6, JPN6017016616, 1 June 2010 (2010-06-01), JP, pages 230 - 235, ISSN: 0003554784 *
平尾 英司: "要求文書中の同義語推定手法の開発", 電子情報通信学会2012年総合大会講演論文集 情報・システム1, JPN6017016615, 6 March 2012 (2012-03-06), pages 26ページ, ISSN: 0003554783 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326686B (zh) * 2020-02-28 2024-05-10 株式会社斯库林集团 相似度计算装置、记录介质以及相似度计算方法

Also Published As

Publication number Publication date
WO2014002776A1 (ja) 2014-01-03
JP6187877B2 (ja) 2017-08-30

Similar Documents

Publication Publication Date Title
JP6187877B2 (ja) 同義語抽出システム、方法および記録媒体
US20190228064A1 (en) Generation apparatus, generation method, and program
Zhou et al. Resolving surface forms to wikipedia topics
US20100205198A1 (en) Search query disambiguation
JP5754018B2 (ja) 多義語抽出システム、多義語抽出方法、およびプログラム
CN101131706A (zh) 一种查询修正方法及系统
CN109783806B (zh) 一种利用语义解析结构的文本匹配方法
JP5754019B2 (ja) 同義語抽出システム、方法およびプログラム
WO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
WO2014002775A1 (ja) 同義語抽出システム、方法および記録媒体
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN108509490B (zh) 一种网络热点话题发现方法及系统
JP5057474B2 (ja) オブジェクト間の競合指標計算方法およびシステム
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
Tumitan et al. Tracking Sentiment Evolution on User-Generated Content: A Case Study on the Brazilian Political Scene.
CN112182145A (zh) 文本相似度确定方法、装置、设备和存储介质
Liu et al. Exploring the steps of verb phrase ellipsis
JP6108212B2 (ja) 同義語抽出システム、方法およびプログラム
CN114970506A (zh) 基于多粒度语法错误模板学习微调的语法纠错方法和系统
JP2019148933A (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体
Alian et al. Unsupervised learning blocking keys technique for indexing Arabic entity resolution
CN110633363A (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN110008307B (zh) 一种基于规则和统计学习的变形实体识别方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170720

R150 Certificate of patent or registration of utility model

Ref document number: 6187877

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250