JPWO2003012679A1 - データ処理方法、データ処理システムおよびプログラム - Google Patents

データ処理方法、データ処理システムおよびプログラム Download PDF

Info

Publication number
JPWO2003012679A1
JPWO2003012679A1 JP2003517784A JP2003517784A JPWO2003012679A1 JP WO2003012679 A1 JPWO2003012679 A1 JP WO2003012679A1 JP 2003517784 A JP2003517784 A JP 2003517784A JP 2003517784 A JP2003517784 A JP 2003517784A JP WO2003012679 A1 JPWO2003012679 A1 JP WO2003012679A1
Authority
JP
Japan
Prior art keywords
word
synonym
speech
data
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003517784A
Other languages
English (en)
Other versions
JP4571404B2 (ja
Inventor
明子 村上
裕史 松澤
哲哉 那須川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPWO2003012679A1 publication Critical patent/JPWO2003012679A1/ja
Application granted granted Critical
Publication of JP4571404B2 publication Critical patent/JP4571404B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

テキストマイニングで利用することができる同義語辞書を作成する際の、同義語候補の生成を効率的に行える支援システムあるいは同義語候補の生成方法を提供する。筆者毎のデータ110から入力単語に類似する筆者毎の同義語候補集合を、全体データ120から入力単語に類似する同義語候補集合を、同義語候補取得装置130によって取得する。生成した同義語候補集合140を入力とし、同義語候補判定装置150によって、全体データ120の同義語候補を評価する。評価は、筆者毎の同義語候補において一位にランクされた語と一致する語に「absolute」のステータスを付加し、二位以下にランクされた語と一致する語に「negative」のステータスを付加する。

Description

技術分野
本発明は、データ処理方法、データ処理システムおよびプログラムに関する。特に、大量の文書データをコーパスとして扱い、文書中に出現する単語の同義語候補の高精度な生成に適用して有効な技術に関する。
背景技術
情報処理システムの低価格化および一般化、あるいはワードプロセッサ等文書作成ツールの一般化、さらに近年のインターネット等ネットワーク環境の進展等を背景に、膨大な量の電子データが蓄積されつつある。たとえば営業報告書等各種の社内文書、カスタマーコールセンターでの顧客との会話記録等あらゆる情報が電子データとして情報処理システムに蓄積されつつある。
一般に、これら情報の蓄積には、企業活動、営業活動等に利用可能な有用な知識の抽出が意図されている。たとえば、商品の販売傾向、顧客動向、品質等の関する不満、要求、不良の早期発見等である。これら有用な知識を生の情報から得るには、生情報を何らかの観点で分析する必要がある。生情報に予め分類項目等のラベル付けが為されている場合、これら分析は比較的容易である。しかし、すでに想定される観点に基づいて項目分けされた文書から得られる知見はその観点の域を出るものではない。つまり、予め想定できないような新たな知識は、分類分けされない自由形式の記述から抽出されることが多い。よって、自由形式で記録された文書から、たとえばその文書の話題が何であるか、話題の時系列な傾向はどうか等、自由な観点で生情報を分析できる手法が必要になる。
このような手法の一つとして、大量のテキストデータを処理し分析するテキストマイニングがある。たとえば、「那須川哲哉、諸橋正幸、長野徹著、テキストマイニング−膨大な文書データの自動分析による知識発見−、情報処理、Vol.40 No.4,pp.358−364(1999)」(文献1)、には、大量の文書データに記述されている多種多様な内容を分析対象にすることを可能にし、その相関関係や出現傾向等を抽出して提示するテキストマイニングの手法を利用した分析ツールが記載されている。このような手法(ツール)を利用すれば、人が全ての生文書を読むことなく、膨大な生文書を機械的に分析することによって有用な知識を発見することが可能になる。
テキストマイニングにおいては、文書中に記述されている概念(話題)やある話題(概念)にどの様な意味づけ(肯定的か否定的か、あるいは質問なのか要望なのか)が為されているかに注目する。よって文書中に表現されている通りの単語ではなく、適切な概念を抽出し、この概念単位での分析を行うことが必要である。つまり、文書中で表現されている単語を単に機械的に取り扱うだけでなく、その単語が意味する概念を適切に把握する必要がある。
表記されている単語から、このような概念を抽出する際に、単語の同義語あるいは異義語の扱いが問題になる。つまり、ある表現がなされている単語が意味する概念が他の表現でもなされる場合、これら同一の概念を意味する単語群は同義語として扱わなければならない。もし、同義であっても表現が違うと異なる単語としてみなされてしまい、それら相違する表現が意味する概念の出現頻度が正しくカウントされず、文書を正しく分析することができなくなる可能性がある。また、同一表記される単語であっても使用する分野や状況に応じて異なる概念を意味する場合がある。たとえば「ドライバ」という単語は、コンピュータ関連の語であればデバイスを動かすためのソフトウエアであり、車関連の語であれば運転する人を意味する。同一表記された単語でも、その意味する概念が相違する場合にはこれを的確に分けて把握しなければ、前記同様に適正な概念の出現頻度がカウントされず、正しい文書の分析が困難になる。
そこで、従来、同義語の問題に対しては、EDR辞書や類語彙表といった既存のシソーラスを用いて単語を同一表現に統一することが行われている。EDR辞書は、日英各20万語の単語辞書、共起辞書、概念辞書であり、たとえば
「http://www.iijnet.or.jp/edr/J_index.html」に記載されている。また、異義語の問題に対しては、語義の違いを注釈として単語に加えることにより解決することが可能である。ただし、大量の文書を処理するためにはこの方法ではコストがかかりすぎ、実現性が低い。そこで、分野が決まっている文書を解析する場合、分野にあった語義を割り当ててその単語と同義として扱うことにより、この問題を解決することができる。そのためには、分野ごとの辞書を作成することが不可欠になる。
なお、コーパス(大量の文書データ)から同義語を抽出する手法に関して以下のような研究が知られている。たとえば「Donald Hindle.Noun Classification From Predicate−Argument Structures.Proc.28th Annual Meeting of ACL,pp.268−275,(1990)」(文献2)には、動詞と主語・目的語などの名詞の共起データを用いて名詞間の類似度を求める研究が記載されており、対象とする名詞との類似度が高い名詞を同義語として抽出する手法に適用できる。また、「Tomek Strzalkowski and Barbara Vauthey.Information Retrieval Using Robust Natural Language Processing.Proc.30th Annual Meeting of ACL,pp.104−111,(1992)」(文献3)には、共起関係ではなく、動詞・形容詞の依存関係を用いて名詞の類似度を求めたあと、その名詞の抽象度の上下関係を見る研究が記載されている。さらに、「浦本直彦.文の多義性解消における置換可能関係を用いた事例の適用率向上.人工知能学会誌、Vol.10No.2 pp.242−249,(1995)」(文献4)には、コーパス中の文法情報を用いて単語の置換可能関係を抽出する研究が記載されている。これらも、名詞の類似度を見るのに利用することができる。
発明が解決しようとする課題
テキストマイニングの手法を適用する際に問題となる同義語、異義語については、前記した通りの解決方法が一応用意されている。しかし、本発明者らは、さらに以下のような問題があることを認識している。すなわち、省略語、スペルミス等に起因する表記の相違の問題である。
一般にテキストマイニングで利用するテキストデータは、社内文書やコールセンターに寄せられた質問などの記録等、複数の人によって作成されたものが多い。これら複数人で作成された文書は単語表記が統一されておらず、また、比較的インフォーマルな文書なので省略語などが多数用いられる傾向にある。たとえばコールセンターでは「customer」という単語が頻繁に使用される。記録する人によってはこれを「cus」や「cust」と表記することがある。省略語が辞書に収録されていることはほとんど期待できないので、既存の辞書を用いて同義語を生成していたのでは、これら省略語をすべて未知語として扱ってしまうことになる。省略語が未知語として扱われると、本来の意味の語ではなく、別の単語として扱われてしまう。本来の語の頻度にも加えられることもなく、また、数も少ないためノイズとして捨ててしまうことになる。また、これら社内文書等ではコンピュータに入力される際にスペルミスが犯される場合も多い。特にコールセンターなどでの記録では、限られた時間内に文書を作成する必要があるので、タイプミスを生じる場合が多い。これらスペルミスを含む文書も前記と同様に意味のないノイズとして取り扱われることになる。
しかし、煩雑に使用される単語であるほど省略表記される可能性が高く、一方煩雑に出現する単語であるからこそそれに関連する概念が重要な場合が多い。また、一般に顧客との直接対応を担う部門で作成される文書は、コールセンターでの例のように作成時間が限られるためスペルミスを含む可能性が高く、一方このような顧客と直接接する部門で作成される文書にこそ有用な顧客情報が記録され、企業にとって重要な知識が内包されている可能性が高い。つまり、これら省略表記される単語やスペルミスされた単語等、辞書には無い単語を意味のあるデータとして扱う意義は極めて高い。なお、日本語、中国語、ハングル語等の2バイト文字がFEP(front−end processor)によって変換ミスされる場合もスペルミスの場合と同様である。
よって、省略語、スペルミス(変換ミスを含む)等を考慮した辞書の作成が必要になる。既存の辞書は省略語やスペルミスの全てを網羅しているわけではないので、テキストマイニングで用いるに必要な辞書は人手で作成しなければならない。これは非常にコストのかかる作業であり、実際のテキストマイニングの運用上、ユーザにとって最も懸念される部分である。よって同義語辞書を作成するための同義語の生成を自動的に行う辞書作成のための支援システムが必要になる。
同義語を自動的に生成する手法として、前記した文献2〜4の研究が利用できる。すなわち、名詞間の類似度を前記研究の手法で求め、類似度の高い所定の範囲内の名詞を同義語とする。しかしこれら手法を用いれば、同義語の他に反義語が取得されてしまう問題がある。つまり、従来の手法をそのまま適用したのでは、反義語その他のノイズを多く取得してしまい、人手によるノイズの除去が煩雑になってしまう。
また、コンピュータ分野等進歩の著しい分野では、新しい用語が次々に生じている。これら新しい用語も速やかにテキストマイニングで適切に取り扱うことができるようにする必要がある。
本発明の目的は、テキストマイニングで利用することができる同義語辞書を作成する際の、同義語候補の生成を効率的に行える支援システムあるいは同義語候補の生成方法を提供することにある。また、この同義語候補の生成において、実際にテキストマイニングを適用する文書を用い、その文書で用いる省略語や独特の用語、さらにスペルミス、変換ミスをも含めた単語を取り扱えるようにすることを目的とする。さらに、テキストマイニングのシステムとともに用いることによって、適用しようとする文書に最適な同義語辞書を動的に生成し、より精密な文書分析を実現できるシステムを提供することを目的とする。
課題を解決するための手段
本願の発明の概略を説明すれば、以下の通りである。すなわち、本発明のデータ処理方法は、文書データで使用されている対象語に対する同義語候補を生成するデータ処理方法であって、文書データの全体を基に、対象語に対する同義語候補の第1集合を生成するステップと、文書データの少なくとも1の部分を基に、対象語に対する同義語候補の少なくとも1の第2集合を生成するステップと、第1集合に含まれる同義語候補を、第2集合に含まれる同義語候補で絞り込むステップと、を有し、絞り込みのステップでは、所定の基準に従って第2集合内の同義語候補が対象語の同義語にあたるか否かを判定し、いずれかの第2集合においてその部分内で同義語と判定された場合を除き、同義語と判定されなかった第2集合内の語に一致する語を第1集合内の同義語候補から除去することによって同義語候補を生成するものである。
すなわち、対象語の同義語候補を生成するに際し、その対象語が使用されている文書データ自体をコーパスとし、このコーパスの部分集合である部分データ(文書データの部分)を抽出または用意する。部分データとして、対象語を特定の同義語で表現していることが判明または推定できるものを用意する。そして、文書データの全体を対象に既存の同義語候補生成処理を行う。この処理により生成される同義語候補(第1集合)には、正解である同義語の他に、本来同義語ではないが候補生成処理によって類似度が高くランクされるため紛れ込むノイズ(反義語その他同義語でない語)が含まれる。一方、部分データもコーパスとして扱い、この部分コーパスを対象に同様の処理を行う。この部分データを対象にした同義語候補(第2集合)にも、文書データの全体を対象にした処理と同様に同義語に加えてノイズが含まれる。ここで、第2集合に含まれる同義語候補のうち既にそれが正解であることが判明または推定される同義語候補が存在しているはずであるから、これを確定同義語候補とする。一方、第2集合内の確定同義語候補以外はノイズであるとみなす。この情報を用いて第1候補の同義語候補の絞込みを行える。つまり、同一の同義語候補生成処理を適用する限り、第1集合および第2集合には同様のノイズが含まれる。第2集合を評価することによりノイズを推定し、この第2集合のノイズを用いて第1集合のノイズをキャンセルする。これにより第1集合の正解率を向上できる。
このように、本発明においては、ノイズを生成する原因となる語およびその関係については偏りなくこれを含み、一方確定同義語候補に関しては確実に高い順位でランクされるようその元になる語および関係を含む部分データを用意する。このような部分データを如何に適正に生成または準備するかが第1集合の正答率を向上するポイントになる。本発明では、このような部分データ(文書データの部分)として、特定の筆者によって作成された文のみからなる文書データを例示する。すなわち、特定の筆者は、ある概念を表記するとき、特定の表記を多用する傾向にあるという事実を本発明者らは認識し、このような知見に基づいて本発明がなされた。たとえば、英文表記での顧客を意味する単語として、「customer」、その略語表記である「Cust」あるいはEnd Userの略語表記である「EU」等を用いることができる。実際、本発明者らが解析した文書データにおいては、顧客を意味する表記として、これら「customer」、「Cust」あるいは「EU」等の表記が混在する。ところが、特定の筆者によって作成された文書に着目すると、ある筆者は主に「customer」と表記し、他の筆者は主に「Cust」と表記し、他の筆者は主に「EU」等と表記する。つまり、筆者毎に文書を解析すると、筆者はその筆者固有の表記を用いてある概念を表す傾向があり、その他の表記で同一概念を表す確率は小さい。このような筆者毎の文書データが持つ内部構造は、すなわち、部分データ内において対象語が表現する概念を特定の同義語(対象語を含む)で表現している構造であり、また筆者毎の部分データはノイズを生じる文書構造を文書データの全体と同様にその内部に含む。よって、筆者毎の文書データを前記した部分データ(文書データの部分)として用い、適正なノイズを検出して第1集合内の同義語候補の絞り込みを行える。
なお、前記データ処理方法において、所定の基準は類似度であり、特定の同義語と判定される語は、第2集合において、対象語との類似度が最も高い同義語候補であるとすることができる。たとえば筆者毎の文書データを部分データに適用する場合、多くの筆者はある概念を単一の表現(語)で表記する。この場合、同義語とみなせる語は最高順位にランクされた語とすることが妥当である。
また、本発明のデータ処理方法は、筆者が相違する文を含む文書データを基に、文書データで使用されている対象語に対する同義語候補を生成するデータ処理方法であって、単一の筆者による文のみを含む文書データの少なくとも1の部分データをその筆者毎に生成または用意するステップと、文書データに含まれる語を抽出し、当該抽出された語と対象語との類似度を計算し、類似度が高い順に上位所定数の当該抽出された語をその要素とする同義語候補の第1集合を生成するステップと、部分データに含まれる語を抽出し、当該抽出された語と対象語との類似度を計算し、類似度が高い順に上位所定数の当該抽出された語をその要素とする同義語候補の第2集合を筆者毎に生成するステップと、第1集合に含まれる語のうち、何れかの第2集合においてしきい値順位以上の高順位にランクされている語と一致する語を「絶対的」であると評価するステップと、「絶対的」であると評価された語以外の第1集合に含まれる語のうち、何れかの第2集合においてしきい値順位より下位にランクされている語と一致する語を「否定的」であると評価するステップと、「否定的」であると評価された語以外の第1集合の語から対象語に対する同義語候補を生成するステップと、を含む。
このようなデータ処理方法によれば、前記と同様に第1集合の同義語候補を第2集合の同義語候補によって絞り込むことができる。この場合、しきい値順位以上の第2集合における候補を「絶対的」と評価する。「絶対的」と評価された同義語候補は、ほぼ同義語とみなされる。それ以外の語をノイズとみなして第1集合から削除することにより、高精度が同義語候補の生成が可能になる。ここで、しきい値順位は以下のように定義できる。すなわち、人ごとのデータから得られる同義語の順位付き結果の中で、第n位までを全体のデータから得られた同義語の集合の中で「絶対的」であると評価するとき、この第n位を「しきい値順位」とする。しきい値順位を高く設定すると、本来含まれるべき同義語が得られる同義語候補から漏れる確率が高くなり、逆にしきい値順位を低く設定すると得られる同義語候補にノイズが含まれる確率が高くなる。よってしきい値順位は、部分データの構造やその数に応じて経験的に好適な順位が採用されるべきある。
なお、しきい値順位は1位とすることができる。たとえば、人ごとのデータを部分データに採用する場合、各人はある概念を表記する際に特定の一つの表現を用いる傾向が強いことは前記した。このような場合、しきい値順位を1位にすると、生成される同義語候補にノイズが含まれる確率が小さくなる。
また、類似度の計算は、文書データまたは部分データから、全ての第1品詞と、第1品詞と係り受け関係を生ずる全ての第2品詞(基本的な自立語)と、を抽出するステップと、抽出された全ての第1品詞および全ての第2品詞をその行または列の指標とする、大きさが第1品詞数×第2品詞数の行列を生成するステップと、行列の各要素に、その要素を指標する第1品詞および第2品詞間の係り受け関係の出現頻度を代入するステップと、文書データを基に生成された行列から、対象語に一致する第1品詞を指標とする行または列の各要素を抽出して、対象語ベクタとするステップと、文書データまたは部分データを基に生成された行列から、任意の行または列の各要素を抽出して、それが指標する第1品詞のベクタとするステップと、第1品詞ベクタと対象語ベクタとを使用してその第1品詞の対象語との類似度を求めるステップとで実現できる。つまり、文書中での第1品詞および第2品詞間の共起頻度および依存関係の頻度によって類似度を計算できる。なお、類似度の計算には、第1品詞ベクタと対象語ベクタとの内積値を用いる方法を例示できる。
なお、前記行列からの行または列の各要素の抽出によって対象語ベクタおよび第1品詞ベクタとする場合において、行要素を抽出して対象語ベクタを生成した場合には、同じく行要素を抽出して第1品詞ベクタを生成することは言うまでもない。逆に列要素を抽出して対象語ベクタを生成した場合には列要素を抽出して第1品詞ベクタを生成する。また、転置行列を用いて、行ベクトルと列ベクトルとを入れ替えて計算することも可能である。
ここで、第1品詞は名詞、第2品詞は動詞、形容詞、形容動詞等名詞との係り受け関係を生じ得る品詞とすることができる。この場合、名詞間の類似度を動詞等との共起頻度あるいは依存関係の頻度を用いて求めることができる。なお、第1品詞として動詞等、第2品詞に名詞を選択することも可能である。この場合動詞等の品詞間の類似度を計算できる。つまり対象語として動詞等、名詞以外の品詞を選択することもできる。
また、文書データまたは部分データに、文書テンプレートを用いて作成された箇所が含まれる場合には、文書テンプレートを利用した箇所を文書データまたは部分データから削除することができる。これにより、筆者毎の文書データにテンプレート等によって統一された表現が混入することを防止する。たとえば、コールセンタでの会話記録を作成するような場合、文書記入の速度が要求される。これら記入速度が要求される場では記入を簡略化するための定型的な表現をテンプレートとして用意する。コールテイカーはテンプレートを用いて簡単な操作により記入を行うことができる。このようなテンプレートを用いれば、作成される文書は書き手に依存しない統一表現となる。これら統一表現が筆者毎の文書に混入した場合には、正当に筆者毎の表現(筆者に固有の同義語表現)を評価することができない。よって、これら統一された表現による語を予め排除するものである。
また、文書データまたは部分データに、同一または類似の話題についての一連の文または文書が含まれる場合、一連の文または文書毎に単語の出現頻度を正規化することができる。すなわち、たとえばある質問がなされ、それに対する応答、更なる質問、応答等、ある話題に対するトランザクションが発生する場合がある。このような場合、ある質問(話題)に対する関連語の出現頻度が多く生じることになる。一方、同様の内容であっても、少ない応答で問題(質問)が解消することもある。このようなトランザクションがある場合の文書と短い応答のみで完結する文書が同一の文書データに存在した場合、出現頻度の多い話題に出現する単語あるいはその単語を含む係り受けを重視することになり、相対的に短い応答で完結した話題に出現する単語等を軽く評価することになる。よって、適正に単語及びその単語を含む係り受けを取り出し、名詞の特性を評価するためにはこのようなトランザクションが生じた時にはそのトランザクション内で登場する語の頻度を正規化することが好ましい。上記はこのような要請に対応したものである。
また、文書データまたは部分データに出現する名詞の出現頻度が所定の頻度より低い場合、類似度の計算の対象からこの名詞を除去することができる。出現頻度の低い名詞はノイズの原因になる場合があるため、予めこれを除去するものである。
なお、対象語は、マニュアル、辞書その他統一された表現で記述されている文書から選択した用語とすることができる。一般的な用語を対象語として同義語候補を生成すると、その正答率が向上するという経験則がある。よって、一般的な用語を用いることにより、同義語候補生成の正答率を向上できる。
本明細書において、同義語の文言には、テキストマイニングのおいて同義語とみなしてよい語も含む。つまり、言語学的に厳密に同義語であるとはいえないものであっても、テキストマイニングに適用する際に同一の概念を表記するような語を含めて同義語という。従って、対象となる語と同等の概念を表現するスペルミスされた語や略語、あるいはFEPによって誤変換された語も同義語になり得る。また、前記した方法の発明はシステムあるいはプログラムの発明として把握することも可能である。
発明の実施の形態
以下、本発明の実施の形態を図面に基づいて詳細に説明する。ただし、本発明は多くの異なる態様で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。なお、実施の形態の全体を通して同じ要素には同じ番号を付するものとする。
以下の実施の形態で説明する方法またはシステムは、当業者であれば明らかなとおり、本発明はコンピュータで使用可能なプログラムとしても実施できる。したがって、本発明は、ハードウェアとしての実施形態、ソフトウェアとしての実施形態またはソフトウェアとハードウェアとの組合せの実施形態をとることができる。プログラムは、ハードディスク、CD−ROM、光記憶装置または磁気記憶装置等の任意のコンピュータ可読媒体に記録できる。
また以下の実施の形態では、そのシステムとして一般的なコンピュータシステムを用いることができる。実施の形態で用いることができるコンピュータシステムは、中央演算処理装置(CPU)、主記憶装置(メインメモリ:RAM)、不揮発性記憶装置(ROM)、コプロセッサ、画像アクセラレータ、キャッシュメモリ、入出力制御装置(I/O)、ハードディスク装置等の外部記憶装置等、一般的なコンピュータシステムに備えられるハードウェア資源を備える。また、インターネット等のネットワークに接続可能な通信手段を備えることもできる。コンピュータシステムには、パーソナルコンピュータ、ワークステーション、メインフレームコンピュータ等各種のコンピュータが含まれる。
以下の実施の形態を説明する前に、本実施の形態で用いる文書の特徴について説明する。図1は、コールセンターにおける複数のコールテイカー(筆者)が作成した会話記録文書内で、「顧客」の概念をどの様に表記しているかを人毎に解析して示したグラフである。A〜Eの指標は人(コールテイカー)を示し、各人での各表記の出現頻度を百分率で示している。文書の全体において「顧客」の概念を表記する語として「customer」、「cust」、「eu」、「user」、「enduser」「cus」の6種類の表記が用いられている。このうち、人Aは「customer」、「cust」、「eu」または「user」と表記し、そのうち「eu」と表記する割合が89.1%と最も高い。その他の表記を用いる割合は11%程度である。つまり人Aは「顧客」概念を主に「eu」と表記する。人Bは、「enduser」、「customer」、「cust」、「eu」または「user」と表記し、そのうち「cust」と表記する割合が66.1%と最も高い。同様に人Cは、「eu」と表記する割合が約83%と最も高く、人Dも「eu」と表記する割合が約92%と最も高く、人Eは「customer」と表記する割合が約79%と最も高い。すなわち、「顧客」の概念を表記する際に、人毎にほぼ決まった表記が行われ、その種類はほぼ1種類に限られる。図2〜図5は、「ACアダプタ」、「ThinkPad」、「CD−ROM」、「フロッピィディスク」の各概念について、図1と同様な解析を行った結果を示したグラフである。図2から、「顧客」の場合と同様に、人Aは「ACアダプタ」の概念を主に「adapter」、人Bも「adapter」、人Cは「ac」、人Dは「ac adapter」、人Eは「adapter」と表記することがわかる。図3から、人A〜Dは「ThinkPad」の概念を「tp」、人Eは「thinkpad」と表記することがわかる。図4から、「CD−ROM」の概念を、人Aは主に「cd」、人Bも「cd」、人Cは「cd−rom」、人Dは「cdrom」、人Eは「cd」と表記することがわかる。図5から、「フロッピィディスク」の概念を、人Aは主に「disk」、人Bは「diskette」あるいは「disk」、人Cも「diskette」あるいは「disk」、人Dは主に「disk」、人Eは主に「diskette」と表記することがわかる。なお、「ThinkPad」は、IBMコーポレーションの商標であり、ノートブック型パーソナルコンピュータの名称である。
つまり、図1〜図5の解析結果は以下の事実を教えてくれる。つまり複数の人によって作成された文書において、ある概念は統一された表記で表現されず、複数の表記が文書内に存在する。そして、文書を人毎に分けて見ると、ある概念を表記するとき、その人固有の表記を主に用い、他の表記を行うことは少ない。このような文書の性質を利用すると、以下のようにして同義語候補の生成の精度を向上できる。すなわち、文書内のある概念は複数の表記によって表現されるため、これを統一した指標語で表す必要があるが、人毎に同義語候補を生成すれば、その人が用いる固有の表記が最高順位を得て(つまり類似度が最も高く)生成されるはずである。一方、人毎の同義語候補の生成によっても、全体文書を対象にした場合と同様にノイズが含まれるはずである。よって、人毎に分類された文書を対象に同義語候補の生成を行い、第1順位の同義語候補は少なくともある概念(入力対象語)に対するその人固有の表記であることが推定されるから、それ以外の語をノイズと推定して文書全体を対象にした同義語候補からこれと一致したものを削除する。これにより同義語候補の生成精度(正答率)を向上できる。なお、人毎の同義語候補集合において二位以下にランクされる語も、その人が統一した表記を用いていない限り対象語の概念を正当に表すものである確率が高い。実際、図1〜5に示すように一人の人がある概念を複数の表記で表現しているので、人毎の同義語候補において二位以下であっても正解の可能性は高い。この正当な表記の削除を防止するため、他の人によって第一位にランクされた同義語候補は正当なものであるとして、仮に二位以下にランクされていてもこれを削除しないようにする。
本発明は、上記のような人毎の文書の特徴をうまく利用して同義語候補の生成精度を向上するものである。以下、具体的な実現手段であるデータ処理システム、データ処理方法を説明する。
図6は、本発明の一実施の形態であるデータ処理システムの一例をその機能について示したブロック図である。本実施の形態のデータ処理システムには、筆者毎のデータ110、全体データ120、同義語候補取得装置130、同義語候補集合140、同義語候補判定装置150、および判定結果の付与された同義語候補160を含む。筆者毎のデータ110は、筆者毎の文書データから生成された名詞、その名詞と共起する動詞、形容詞、形容動詞等の品詞、およびそれらの依存構造を動詞名詞ペアとして表したデータベースである。全体データ120は、全ての筆者による文書を含む文書データの全体から生成された名詞、その名詞と共起する動詞、形容詞、形容動詞等の品詞、およびそれらの依存構造を動詞名詞ペアとして表したデータベースである。同義語候補取得装置130は、同義語生成の対象語を入力単語として入力し、筆者毎のデータ110および全体データ120から入力単語の同義語候補集合140を生成する。つまり同義語候補取得装置130は、筆者毎のデータ110から筆者毎の同義語候補集合を生成し、全体データ120から全体データに対する同義語候補集合を生成する。同義語候補集合140は、同義語候補取得装置130で生成された筆者毎の同義語候補集合および全体データの同義語候補集合である。筆者がm人いる場合には、同義語候補集合140に記録される同義語候補集合の数はm+1となる。同義語候補判定装置150は、同義語候補集合140を入力とし、筆者毎の同義語候補集合を基にして全体データから得られた同義語候補集合を評価する。評価は、全体データから得られた同義語候補に対し、同義語の候補としてふさわしいかを判定する。判定結果は、判定結果の付加された同義語候補160として出力する。
筆者毎のデータ110および全体データ120は、以下のように生成する。まず、調べたい単語である対象語(入力単語)をベースワードbとする。データ全体をF、そのコーパスの筆者をA,B,C,・・・の添字で表すとする。なお、A,B,C,・・・は、データの多いほうから昇順で表す。データ全体に出現する名詞の数をn、動詞等(動詞、形容詞、形容動詞等)の数をmとする。各名詞において、どの動詞等と係り受け関係を持つかを行列で表す。名詞pと動詞qの係り受け関係がデータ中k回出現したとき、行列の要素ipqは、数1の通りである。
Figure 2003012679
各集合から得られる行列はM(F),M(A),M(B),M(C)・・・であり、大きさはすべて(n,m)である。行列M(F)等を式で表せば数2の通りである。
Figure 2003012679
筆者毎のデータ110は、たとえばM(A),M(B),M(C)・・・のように表され、全体データ120はM(F)のように表せる。名詞N(p)がどのような動詞と係り受けを持つかは、行列M中のp番目の行をベクタとして取り出せばよい。このようにして得られた名詞のベクタは数3のように表せる。
Figure 2003012679
次に、図7の同義語候補取得装置130の動作について説明する。同義語候補取得装置130はコンピュータシステム内でソフトウェア的に実現される。まず、入力単語であるベースワードbに対する全体集合の中での情報を求める。M(F)のなかから、数4で示すベースワードbの動詞情報ベクタN(b)を求める。
Figure 2003012679
これと、数5で示す、M(F)のすべての名詞が持つ動詞情報ベクタN(i)との角度をθとする。角度θの小さいものほど、つまりcosθの値が1に近いものほどベースワードに意味が近いと考えることができるので、cosθの値を類似度とすることができる。つまり類似度は0〜1の値で表され、1に近いほど(値が大きいほど)類似度は大きくなる。なお、cosθの値はN(b)とN(i)の内積値を利用して求めることができる。
Figure 2003012679
前記のように求めた類似度の高い順にランキングを行う。ランキングの上位から所定数の順位までランキングされた名詞の集合をC(F)とする。このC(F)が全体データを対象にした同義語候補集合である。
次に筆者ごとのデータ110から筆者毎の同義語候補集合を取得する場合を説明する。前記した数4で示すベースワードbにおける動詞情報ベクタN(b)を用いて、各筆者の名詞の中でベースワードbに意味の近いものをランキングする。筆者Aについての同義語候補候補集合をC(A)とする。ここで、筆者ごとのデータであるM(A)中の名詞bについての動詞情報ベクタを用いていない。なぜなら、ある筆者がbと同義の名詞を記述するとき、表記はbと違うものである可能性がある。そのとき、各筆者のデータ中の名詞bについての動詞情報ベクタの要素はほとんど0であり、これを用いたのでは正しくbと語義の近いものが取れる可能性は少ない。したがって、全体のデータの名詞bについての動詞情報ベクタを用いる。同様にして所定人数の筆者B,C,D・・・についても同義語候補C(B),C(C),C(D),・・・を取得できる。
図7は、本実施の形態のデータ処理方法の一例を示したフローチャートである。まず、入力単語A(対象語)における同義語候補の生成を行う(ステップ210)。この同義語候補集合は、前記した同義語候補取得装置130により生成され、全体データについての同義語候補集合CFull=C(F)と、筆者毎のデータについての同義語候補集合C={C(A),C(B),C(C),C(D)・・・}(k=m、mは筆者の数)が取得される。表1は、コールセンターで作成された文書を対象に、全体データから生成した同義語候補集合CFullの一例を示した表である。
Figure 2003012679
ここで、入力単語は「battery」であり、その概念に含まれない単語も候補として含まれている。4位の「cover」、7位以下の「adapter」、「bezel」、「cheque」、「screw」がノイズである。
表2および表3は、各々筆者Aおよび筆者Bによる筆者毎のデータから生成した「battery」の同義語候補集合の一例を示した表である。
Figure 2003012679
Figure 2003012679
表2および表3共に、第1位に「battery」がランキングされている。この例の場合、筆者A、筆者B共に「battery」概念を表記する固有の語として「battery」を用いていることになる。
次に、ポインタ変数Kに1を代入し(ステップ230)、Kが筆者数mに等しいかを判断し(ステップ230)、ステップ230の判断がnoなら(全ての筆者について評価していないとき)、CとCFullとの比較によるCFullの評価を行う(ステップ240)。
図8は、CFullの評価手順(ステップ240)の一例を示したフローチャートである。まず、評価対象の語がC候補中の一位であるかを判断し(ステップ310)、一位の場合にはCFull中の単語と一致するかを判断する(ステップ320)。CFull中の単語と一致する場合、CFull中の単語のステータスを“absolute”(「絶対的」)にする(ステップ330)。ここで“absolute”は同義語候補として確定的であることを示し、後の評価によって“negative”(「否定的」)になることはない。また、すでに“negative”と評価されている場合であってもステータスは“absolute”に変更される。
ステップ310および320でnoと判断され、あるいはステップ330の後、ステップ340に進み、C中の候補がまだ存在するかを判断する(ステップ340)。存在する場合、CFull中の単語と一致するかを判断し(ステップ350)、一致する場合はCFull中の一致する単語のステータスを“negative”にする(ステップ360)。ただし、ステータスを“negative”にできるのは、既に“absoiute”と評価されていない同義語候補だけである。一致しない場合はステップ340に戻る。ステップ340からステップ360のステップをC中の候補が無くなるまで行い、ステップ340でnoと判断されたとき、評価付きの同義語候補CFullを出力する(ステップ370)。
前記表2のCによって前記表1のCFullを前記手順で評価した場合、表2中3位の「cover」が表1中4位の「cover」と一致するため“negative”のステータスが付される。同様に、表1で10位の「screw」、9位の「cheque」に“negative”のステータスが付される。このようにある筆者についての同義語候補を用いて全体データによる同義語候補集合の評価が行える。
その後、ポインタKを1つ増加し(ステップ250)、ステップ230に戻る。そして、前記と同様に、他の筆者についても評価を行う。前記表3のCによって表1のCFullを前記手順で評価した場合、表1で7位の「adapter」、9位の「cheque」に“negative”のステータスが付される。
全ての筆者について評価すれば、ステップ230でYesと判断され、評価付きの同義語候補CFullを出力し(ステップ260)、処理を終了する。
表1のCFullについて、前記処理を行った結果、4位の「cover」、7位の「adapter」、9位の「cheque」、10位の「screw」に“negative”のステータスが付される。これら結果はステータスを付して、あるいは“negative”ステータスの語を削除した上で、GUI等によってユーザに提示される。ユーザは提示された内容を確認して前記例の場合「battery」という概念に対する同義語を定義できる。なお、この段階でも取りきれないノイズ「bezel」が残っている。ユーザはこの段階で「bezel」を削除して「battery」概念の同義語辞書を生成できる。
ここで、生成された同義語辞書には、「batt」、「batterie」、「bat」、「BTY」「batterry」のように略語やスペルミスが含まれる。本実施の形態のシステムおよび方法を用いれば、実際にテキストマイニングを適用する文書をコーパスとして用いて同義語候補を生成するので、これら略語やスペルミスをも同義語に含めることが可能になる。これにより、従来の同義語辞書等ではノイズとして棄てていた情報を有効に活用することが可能になり、本実施の形態による同義語辞書を用いたテキストマイニングでは、より正確かつ精密な文書の解析が可能になる。また、本実施の形態のシステムあるいは方法によれば、低コストで有効な同義語辞書が作成できるので、テキストマイニングの導入を容易にすることができる。また、テキストマイニングの大きな適用分野であるコールセンターのデータや各種報告書では書き手が分かっている大量のデータが揃っている。そのため、同義語辞書を作成するときの本実施の形態の手法は実現性が高く有効である。
また、テンプレート等を用いて文章が作成されている場合には、このテンプレート部分を削除して全体データ120あるいは人毎のデータ110を生成できる。これにより人毎の相違をより顕著にすることができる。
また、名詞の出現頻度を考慮に入れることができる。たとえばコールセンターにおける顧客とオペレーターのやり取りのようにトランザクションが発生するものがある。あるオペレーターがある製品についての(例えばハードディスクなど)トラブルを処理し、そのやり取りが長く続いてしまった場合には、他の文書中に比べ特定の単語(たとえばハードディスク)の出現が他の文書中に比べ多くなる。しかし、他のオペレーターも同じ問い合わせを受けているにもかかわらずその質問が簡単に終わると、その単語についての出現頻度は低くなってしまう。このような単語の出現頻度の偏りを無くすため、トランザクションごと(又は文書単位ごと)の単語頻度の正規化を行い、より精度のよいものを得ることができる。なお、正規化は、書き手の書き間違いや時間の変化による表記のばらつきを吸収するためにも適用できる。
また、前記のように得られた同義語において、どれが正解であるか(一つの統一表現にまとめるときにどの語が一般的であるか)は人手で判断しなくてはいけない。このため、同様の手法を、同じ分野で表記が一般的な語に統一されているもの(たとえばコンピュータ分野であればコンピューターマニュアル)に適応し、自動的に正解を得ることができる。コンピューターマニュアルのように比較的正確に作成された文書においては表現が統一されており、その表現は同義語の中で一般的に多く使われるものと考えられる。したがって、得られた同義語の動詞情報ベクタを用いてその後の集合に対する適切なラベルとなる単語を選ぶことができる。
また、同義語作成を行う際、前記のような一般的に使われる表現を入力する名詞として選んだほうが、一般的でない省略語等で入力したものよりも精度がよいことが判明している。たとえば同一の文書に対して本実施の形態の同義語候補生成を入力語として「customer」、「cus」、「cust」「end_user」を選択した場合の結果を表4〜7に示す。なお、各表中で名詞の左に「×」を示した候補はノイズである。
Figure 2003012679
Figure 2003012679
Figure 2003012679
Figure 2003012679
表4は「customer」を入力単語として選択した場合の同義語候補生成結果であり、正答率は0.9である。表5は「cus」を入力単語として選択した場合の同義語候補生成結果であり、正答率は0.6である。表6は「cust」を入力単語として選択した場合の同義語候補生成結果であり、正答率は0.7である。表7は「end_user」を入力単語として選択した場合の同義語候補生成結果であり、正答率は0.8である。上記の通り、一般的な用語である「customer」を入力単語(対象語)とした場合に最も正答率が高い。したがって、入力する名詞をマニュアル等から選定することによって、より効果の高い結果が得られる。
前記文献1に記載のテキストマイニングシステムでは、分野ごとに作成したカテゴリー辞書を用いて同義語の吸収を行っている。しかし、このカテゴリー辞書は分野を理解している人が人手で作成しなければならず、よりコストの低い辞書作成の手法が望まれている。一方、テキストマイニングの大きな適用分野であるコールセンターのデータや各種報告書では書き手が分かっている大量のデータが揃っていることから、本実施の形態の手段を用いて辞書の生成の支援を効率よく行うことができる。
また、本実施の形態の手法によれば、専門用語や特殊用途の単語に対しても同義語の候補を得ることができる。また、辞書に載っていないような新しい言葉に対してもスペルミスを含めた同義語や同じカテゴリーに属す単語が発見できる。
また、ある特定の文書の中から、その分野に限る同義語の候補を取り出すことにも有効である。たとえば特定の分野の中での専門用語の同義語の抽出を既存の同義語辞書を使わずに、その特定の分野の文章を用いて動的に作成することも可能である。コールセンターの記録をテキストマイニングする場合においても、コンピュータ分野の発展は著しく、それだけ専門用語の数の増え方も激しい。特に、新製品の情報などの質問を多く受け取ると考えられるので、既存の同義語辞書だけを用いていたのでは不十分であると考えられる。そこで、特定の分野に関する文書が十分に存在するときに本実施の形態の手法を用いると、辞書に無く、新しく登場した単語に対しても既存の単語との同義性を検証することができ、同義語の辞書に新しく付け加えることが可能になる。
以上、本発明者によってなされた発明を発明の実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更することが可能である。
たとえば、前記実施の形態では、人毎に相違する文書の特徴を利用して同義語候補生成の精度を向上したが、その他、ある概念を特定の同義語として表現していることが判明または推定できるような文書が存在する場合には、これら文書を部分データとして用いてもよいことは勿論である。
また、前記実施の形態では、筆者毎の同義語候補集合によって全体データの同義語候補を評価する際に、1位と2位以下とに分けて「absolute」か「negative」かの評価を分けたが、たとえば2位以上を「absolute」、3位以下を「negative」と評価するよう、そのしきい値順位を変更しても良い。
発明の効果
本願で開示される発明のうち、代表的なものによって得られる効果は、以下の通りである。すなわち、テキストマイニングで利用することができる同義語辞書を作成する際の、同義語候補の生成を効率的に行える支援システムあるいは同義語候補の生成方法を提供できる。また、この同義語候補の生成において、実際にテキストマイニングを適用する文書を用い、その文書で用いる省略語や独特の用語、さらにスペルミス、変換ミスをも含めた単語を取り扱えるようにすることができる。さらに、テキストマイニングのシステムとともに用いることによって、適用しようとする文書に最適な同義語辞書を動的に生成し、より精密な文書分析を実現することができる。
【図面の簡単な説明】
[図1]
コールセンターにおける複数のコールテイカー(筆者)が作成した会話記録文書内で、「顧客」の概念をどの様に表記しているかを人毎に解析して示したグラフである。
[図2]
「ACアダプタ」の概念について、図1と同様な解析を行った結果を示したグラフである。
[図3]
「ThinkPad」の概念について、図1と同様な解析を行った結果を示したグラフである。
[図4]
「CD−ROM」の概念について、図1と同様な解析を行った結果を示したグラフである。
[図5]
「フロッピィディスク」の概念について、図1と同様な解析を行った結果を示したグラフである。
[図6]
本発明の一実施の形態であるデータ処理システムの一例をその機能について示したブロック図である。
[図7]
本発明の一実施の形態であるデータ処理方法の一例を示したフローチャートである。
[図8]
Fullの評価手順(ステップ240)の一例を示したフローチャートである。
符号の説明
110…筆者毎のデータ、120…全体データ、130…同義語候補取得装置、140…同義語候補集合、150…同義語候補判定装置、160…判定結果の付加された同義語候補、CFull…全体データの同義語候補集合、C…筆者毎の同義語候補集合。

Claims (22)

  1. 文書データで使用されている対象語に対する同義語候補を生成するデータ処理方法であって、
    前記文書データの全体を基に、前記対象語に対する同義語候補の第1集合を生成するステップと、
    前記文書データの少なくとも1の部分を基に、前記対象語に対する同義語候補の少なくとも1の第2集合を生成するステップと、
    前記第1集合に含まれる同義語候補を、前記第2集合に含まれる同義語候補で絞り込むステップと、を有し、
    前記絞り込みのステップでは、所定の基準に従って前記第2集合内の同義語候補が前記対象語の同義語にあたるか否かを判定し、いずれかの第2集合においてその部分内で同義語と判定された場合を除き、同義語と判定されなかった前記第2集合内の語に一致する語を前記第1集合内の同義語候補から除去することによって同義語候補を生成する、データ処理方法。
  2. 前記文書データの部分は、特定の筆者によって作成された文のみからなる文書データである請求項1記載のデータ処理方法。
  3. 前記所定の基準は類似度であり、前記特定の同義語と判定される語は、前記第2集合において、前記対象語との類似度が最も高い同義語候補である請求項2記載のデータ処理方法。
  4. 筆者が相違する文を含む文書データを基に、前記文書データで使用されている対象語に対する同義語候補を生成するデータ処理方法であって、
    単一の筆者による文のみを含む前記文書データの少なくとも1の部分データをその筆者毎に生成または用意するステップと、
    前記文書データに含まれる語を抽出し、当該抽出された語と前記対象語との類似度を計算し、類似度が高い順に上位所定数の当該抽出された語をその要素とする同義語候補の第1集合を生成するステップと、
    前記部分データに含まれる語を抽出し、当該抽出された語と前記対象語との類似度を計算し、類似度が高い順に上位所定数の当該抽出された語をその要素とする同義語候補の第2集合を前記筆者毎に生成するステップと、
    前記第1集合に含まれる語のうち、何れかの前記第2集合においてしきい値順位以上の高順位にランクされている語と一致する語を「絶対的」であると評価するステップと、
    前記「絶対的」であると評価された語以外の前記第1集合に含まれる語のうち、何れかの前記第2集合において前記しきい値順位より下位にランクされている語と一致する語を「否定的」であると評価するステップと、
    前記「否定的」であると評価された語以外の前記第1集合の語から前記対象語に対する同義語候補を生成するステップと、
    を含むデータ処理方法。
  5. 前記しきい値順位は1位である請求項4記載のデータ処理方法。
  6. 前記類似度の計算は、
    前記文書データまたは部分データから、全ての第1品詞と、前記第1品詞と係り受け関係を生ずる全ての第2品詞と、を抽出するステップと、
    抽出された前記全ての第1品詞および前記全ての第2品詞をその行または列の指標とする、大きさが第1品詞数×第2品詞数の行列を生成するステップと、
    前記行列の各要素に、その要素を指標する第1品詞および第2品詞間の係り受け関係の出現頻度を代入するステップと、
    前記文書データを基に生成された行列から、前記対象語に一致する第1品詞を指標とする行または列の各要素を抽出して、対象語ベクタとするステップと、
    前記文書データまたは部分データを基に生成された行列から、任意の行または列の各要素を抽出して、それが指標する第1品詞のベクタとするステップと、
    前記第1品詞ベクタと前記対象語ベクタとを使用してその第1品詞の前記対象語との類似度を求めるステップと、
    で実現される請求項4記載のデータ処理方法。
  7. 前記第1品詞は名詞であり、前記第2品詞は、動詞、形容詞、形容動詞その他前記名詞との係り受け関係を生ずる品詞である請求項6記載のデータ処理方法。
  8. 前記文書データまたは前記部分データに、文書テンプレートを用いて作成された箇所が含まれる場合には、前記文書テンプレートを利用した箇所を前記文書データまたは部分データから削除するステップを含む請求項4記載のデータ処理方法。
  9. 前記文書データまたは前記部分データに、同一または類似の話題についての一連の文または文書が含まれる場合、当該一連の文または文書毎に単語の出現頻度を正規化するステップを含む請求項4記載のデータ処理方法。
  10. 前記文書データまたは前記部分データに出現する名詞の出現頻度が所定の頻度より低い場合、前記類似度の計算の対象から前記名詞を除去するステップを有する請求項4記載のデータ処理方法。
  11. 文書データで使用されている対象語に対する同義語候補を生成するデータ処理システムであって、
    前記文書データの全体を基に、前記対象語に対する同義語候補の第1集合を生成する手段と、
    前記文書データの少なくとも1の部分を基に、前記対象語に対する同義語候補の少なくとも1の第2集合を生成する手段と、
    前記第1集合に含まれる同義語候補を、前記第2集合に含まれる同義語候補で絞り込む手段と、を有し、
    前記絞り込みの手段では、所定の基準に従って前記第2集合内の同義語候補が前記対象語の同義語にあたるか否かを判定し、いずれかの第2集合においてその部分内で同義語と判定された場合を除き、同義語と判定されなかった前記第2集合内の語に一致する語を前記第1集合内の同義語候補から除去することによって同義語候補を生成する、データ処理システム。
  12. 前記文書データの部分は、特定の筆者によって作成された文のみからなる文書データである請求項11記載のデータ処理システム。
  13. 前記所定の基準は類似度であり、前記特定の同義語と判定される語は、前記第2集合において、前記対象語との類似度が最も高い同義語候補である請求項12記載のデータ処理システム。
  14. 筆者が相違する文を含む文書データ、および、単一の筆者によって作成された文のみを含むその筆者毎の少なくとも1の部分データ、を入力する手段と、
    前記文書データまたは部分データに含まれる語を抽出し、当該抽出された語と前記文書データに含まれる対象語との類似度を計算する手段と、
    前記類似度が高い順に上位所定数の当該抽出された語をその要素とする集合を生成する同義語候補生成手段と、
    前記文書データに基づいて前記同義語候補生成手段で生成された第1集合と、前記部分データに基づいて前記同義語生成手段で生成された前記筆者毎の第2集合とを記録する手段と、
    前記第1集合に含まれる語のうち、何れかの前記第2補集合においてしきい値順位以上の高順位にランクされている語と一致する語を「絶対的」であると評価し、前記「絶対的」であると評価された語以外の前記第1集合に含まれる語のうち、何れかの前記第2集合において前記しきい値順位より下位にランクされている語と一致する語を「否定的」であると評価する手段と、
    前記「否定的」であると評価された語以外の前記第1集合の語から前記対象語に対する同義語候補を生成する手段と、
    を含むデータ処理システム。
  15. 前記しきい値順位は1位である請求項14記載のデータ処理システム。
  16. 前記類似度の計算手段には、
    前記文書データまたは部分データから、全ての第1品詞と、前記第1品詞と係り受け関係を生ずる全ての第2品詞と、を抽出する手段と、
    抽出された前記全ての第1品詞および前記全ての第2品詞をその行または列の指標とする、大きさが第1品詞数×第2品詞数の行列を生成する手段と、
    前記行列の各要素に、その要素を指標する第1品詞および第2品詞間の係り受け関係の出現頻度を代入する手段と、
    前記文書データを基に生成された行列から、前記対象語に一致する第1品詞を指標とする行要素を抽出して、対象語ベクタとする手段と、
    前記文書データまたは部分データを基に生成された行列から、任意の行要素を抽出して、それが指標する第1品詞のベクタとする手段と、
    前記第1品詞ベクタと前記対象語ベクタとを使用してその第1品詞の前記対象語との類似度を求める手段と、
    を含む請求項14記載のデータ処理システム。
  17. 前記第1品詞は名詞であり、前記第2品詞は、動詞、形容詞、形容動詞その他前記名詞との係り受け関係を生ずる品詞である請求項16記載のデータ処理システム。
  18. 前記文書データまたは前記部分データに、文書テンプレートを用いて作成された箇所が含まれる場合には、前記文書テンプレートを利用した箇所を前記文書データまたは部分データから削除する手段を含む請求項14記載のデータ処理システム。
  19. 前記文書データまたは前記部分データに、同一または類似の話題についての一連の文または文書が含まれる場合、前記一連の文または文書毎に単語の出現頻度を正規化する手段を含む請求項14記載のデータ処理システム。
  20. 前記文書データまたは前記部分データに出現する名詞の出現頻度が所定の頻度より低い場合、前記類似度の計算の対象から前記名詞を除去する手段を有する請求項14記載のデータ処理システム。
  21. 文書データで使用されている対象語に対する同義語候補をコンピュータによって生成させるためのコンピュータ可読なプログラムであって、
    前記文書データの全体を基に、前記対象語に対する同義語候補の第1集合を生成する機能と、
    前記文書データの少なくとも1の部分を基に、前記対象語に対する同義語候補の少なくとも1の第2集合を生成する機能と、
    前記第1集合に含まれる同義語候補を、前記第2集合に含まれる同義語候補で絞り込む機能と、を実現し、
    前記絞り込みの機能では、所定の基準に従って前記第2集合内の同義語候補が前記対象語の同義語にあたるか否かを判定し、いずれかの第2集合においてその部分内で同義語と判定された場合を除き、同義語と判定されなかった前記第2集合内の語に一致する語を前記第1集合内の同義語候補から除去することによって同義語候補を生成する機能を実現するプログラム。
  22. 筆者が相違する文を含む文書データを基に、前記文書データで使用されている対象語に対する同義語候補をコンピュータに生成させるためのコンピュータ可読なプログラムであって、
    単一の筆者による文のみを含む前記文書データの少なくとも1の部分データをその筆者毎に生成または用意する機能と、
    前記文書データに含まれる語を抽出し、当該抽出された語と前記対象語との類似度を計算し、類似度が高い順に上位所定数の当該抽出された語をその要素とする同義語候補の第1集合を生成する機能と、
    前記部分データに含まれる語を抽出し、当該抽出された語と前記対象語との類似度を計算し、類似度が高い順に上位所定数の当該抽出された語をその要素とする同義語候補の第2集合を前記筆者毎に生成する機能と、
    前記第1集合に含まれる語のうち、何れかの前記第2集合においてしきい値順位以上の高順位にランクされている語と一致する語を「絶対的」であると評価する機能と、
    前記「絶対的」であると評価された語以外の前記第1集合に含まれる語のうち、何れかの前記第2集合において前記しきい値順位より下位にランクされている語と一致する語を「否定的」であると評価する機能と、
    前記「否定的」であると評価された語以外の前記第1集合の語から前記対象語に対する同義語候補を生成する機能と、
    を実現するためのプログラム。
JP2003517784A 2001-07-26 2002-07-19 データ処理方法、データ処理システムおよびプログラム Expired - Fee Related JP4571404B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001226830 2001-07-26
JP2001226830 2001-07-26
PCT/JP2002/007370 WO2003012679A1 (en) 2001-07-26 2002-07-19 Data processing method, data processing system, and program

Publications (2)

Publication Number Publication Date
JPWO2003012679A1 true JPWO2003012679A1 (ja) 2004-11-25
JP4571404B2 JP4571404B2 (ja) 2010-10-27

Family

ID=19059583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003517784A Expired - Fee Related JP4571404B2 (ja) 2001-07-26 2002-07-19 データ処理方法、データ処理システムおよびプログラム

Country Status (8)

Country Link
US (1) US7483829B2 (ja)
EP (1) EP1429258A4 (ja)
JP (1) JP4571404B2 (ja)
KR (1) KR20040018404A (ja)
CN (1) CN1310172C (ja)
CA (1) CA2451083A1 (ja)
IL (1) IL160069A0 (ja)
WO (1) WO2003012679A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292396A (zh) * 2017-08-14 2017-10-24 南宁学院 一种水电设备报修消息处理方法

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI120755B (fi) 2003-06-06 2010-02-15 Tieto Oyj Tietueiden käsittely vastinparien löytämiseksi vertailutietojoukosta
US7207004B1 (en) * 2004-07-23 2007-04-17 Harrity Paul A Correction of misspelled words
JP4189369B2 (ja) * 2004-09-24 2008-12-03 株式会社東芝 構造化文書検索装置及び構造化文書検索方法
JP4713870B2 (ja) * 2004-10-13 2011-06-29 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. 文書分類装置、方法、プログラム
US8244689B2 (en) * 2006-02-17 2012-08-14 Google Inc. Attribute entropy as a signal in object normalization
US7769579B2 (en) 2005-05-31 2010-08-03 Google Inc. Learning facts from semi-structured text
US7587387B2 (en) 2005-03-31 2009-09-08 Google Inc. User interface for facts query engine with snippets from information sources that include query terms and answer terms
US8682913B1 (en) 2005-03-31 2014-03-25 Google Inc. Corroborating facts extracted from multiple sources
US9208229B2 (en) * 2005-03-31 2015-12-08 Google Inc. Anchor text summarization for corroboration
WO2006128183A2 (en) 2005-05-27 2006-11-30 Schwegman, Lundberg, Woessner & Kluth, P.A. Method and apparatus for cross-referencing important ip relationships
US8996470B1 (en) 2005-05-31 2015-03-31 Google Inc. System for ensuring the internal consistency of a fact repository
JP2007179276A (ja) * 2005-12-27 2007-07-12 Internatl Business Mach Corp <Ibm> 適合判定方法、装置、およびプログラム
US8260785B2 (en) 2006-02-17 2012-09-04 Google Inc. Automatic object reference identification and linking in a browseable fact repository
US7991797B2 (en) 2006-02-17 2011-08-02 Google Inc. ID persistence through normalization
US8700568B2 (en) 2006-02-17 2014-04-15 Google Inc. Entity normalization via name normalization
US8122026B1 (en) 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US8204831B2 (en) * 2006-11-13 2012-06-19 International Business Machines Corporation Post-anonymous fuzzy comparisons without the use of pre-anonymization variants
US8244521B2 (en) * 2007-01-11 2012-08-14 Microsoft Corporation Paraphrasing the web by search-based data collection
US7890521B1 (en) 2007-02-07 2011-02-15 Google Inc. Document-based synonym generation
US8347202B1 (en) 2007-03-14 2013-01-01 Google Inc. Determining geographic locations for place names in a fact repository
US8239350B1 (en) 2007-05-08 2012-08-07 Google Inc. Date ambiguity resolution
US7966291B1 (en) 2007-06-26 2011-06-21 Google Inc. Fact-based object merging
US7970766B1 (en) 2007-07-23 2011-06-28 Google Inc. Entity type assignment
US8738643B1 (en) * 2007-08-02 2014-05-27 Google Inc. Learning synonymous object names from anchor texts
CN100592249C (zh) * 2007-09-21 2010-02-24 上海汉翔信息技术有限公司 快速输入相关词的方法
US8812435B1 (en) 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
US7962486B2 (en) * 2008-01-10 2011-06-14 International Business Machines Corporation Method and system for discovery and modification of data cluster and synonyms
US10176827B2 (en) 2008-01-15 2019-01-08 Verint Americas Inc. Active lab
US8150829B2 (en) * 2008-04-11 2012-04-03 Fujitsu Limited Facilitating display of an interactive and dynamic cloud of terms related to one or more input terms
US9092517B2 (en) * 2008-09-23 2015-07-28 Microsoft Technology Licensing, Llc Generating synonyms based on query log data
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
US10489434B2 (en) * 2008-12-12 2019-11-26 Verint Americas Inc. Leveraging concepts with information retrieval techniques and knowledge bases
US8943094B2 (en) 2009-09-22 2015-01-27 Next It Corporation Apparatus, system, and method for natural language processing
US20110202561A1 (en) * 2009-11-12 2011-08-18 Graboske Benjamin C System and method for providing an adjustment value for keywords retrieved from a data source and adjusting an avm value based on the adjustment value
KR101301534B1 (ko) * 2009-12-14 2013-09-04 한국전자통신연구원 이형태 자동 구축 방법 및 장치
US8812297B2 (en) 2010-04-09 2014-08-19 International Business Machines Corporation Method and system for interactively finding synonyms using positive and negative feedback
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
WO2012044892A2 (en) * 2010-09-30 2012-04-05 Verisign, Inc. Domain name tokenization and alternative domain name generation
US9122744B2 (en) 2010-10-11 2015-09-01 Next It Corporation System and method for providing distributed intelligent assistance
CN102750282B (zh) * 2011-04-19 2014-10-22 北京百度网讯科技有限公司 同义词模板的挖掘方法和装置以及同义词挖掘方法和装置
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
JP5754019B2 (ja) * 2011-07-11 2015-07-22 日本電気株式会社 同義語抽出システム、方法およびプログラム
US9940363B2 (en) 2011-10-03 2018-04-10 Black Hills Ip Holdings, Llc Systems, methods and user interfaces in a patent management system
JP2013089130A (ja) * 2011-10-20 2013-05-13 Sony Corp 情報処理装置、情報処理方法、プログラム、及び記録媒体
CN103106189B (zh) * 2011-11-11 2016-04-27 北京百度网讯科技有限公司 一种挖掘同义属性词的方法和装置
US9836177B2 (en) 2011-12-30 2017-12-05 Next IT Innovation Labs, LLC Providing variable responses in a virtual-assistant environment
US8745019B2 (en) 2012-03-05 2014-06-03 Microsoft Corporation Robust discovery of entity synonyms using query logs
US9223537B2 (en) 2012-04-18 2015-12-29 Next It Corporation Conversation user interface
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
US9229924B2 (en) 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
US9536049B2 (en) 2012-09-07 2017-01-03 Next It Corporation Conversational virtual healthcare assistant
US9280536B2 (en) * 2013-03-28 2016-03-08 Hewlett Packard Enterprise Development Lp Synonym determination among n-grams
US10445115B2 (en) 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
KR101487871B1 (ko) * 2013-07-26 2015-02-03 주식회사 알에스엔 온라인 기반의 위기관리 대응 매뉴얼 자동 생성장치
US9436891B2 (en) 2013-07-30 2016-09-06 GlobalFoundries, Inc. Discriminating synonymous expressions using images
US9823811B2 (en) 2013-12-31 2017-11-21 Next It Corporation Virtual assistant team identification
US20160071517A1 (en) 2014-09-09 2016-03-10 Next It Corporation Evaluating Conversation Data based on Risk Factors
US10839153B2 (en) 2017-05-24 2020-11-17 Microsoft Technology Licensing, Llc Unconscious bias detection
CN107943762A (zh) * 2017-11-24 2018-04-20 四川长虹电器股份有限公司 一种基于es搜索的文本相似度排序方法
US11568175B2 (en) 2018-09-07 2023-01-31 Verint Americas Inc. Dynamic intent classification based on environment variables
US11196863B2 (en) 2018-10-24 2021-12-07 Verint Americas Inc. Method and system for virtual assistant conversations
JP7330691B2 (ja) * 2018-12-12 2023-08-22 株式会社日立製作所 語彙抽出支援システムおよび語彙抽出支援方法
JP7211139B2 (ja) * 2019-02-14 2023-01-24 日本電信電話株式会社 校閲方法、情報処理装置および校閲プログラム
US11222290B2 (en) * 2019-03-18 2022-01-11 Servicenow, Inc. Intelligent capability extraction and assignment
JP7230622B2 (ja) * 2019-03-25 2023-03-01 日本電信電話株式会社 指標値付与装置、指標値付与方法及びプログラム
US11036803B2 (en) 2019-04-10 2021-06-15 International Business Machines Corporation Rapid generation of equivalent terms for domain adaptation in a question-answering system
KR102189688B1 (ko) * 2019-04-22 2020-12-11 넷마블 주식회사 동의어 추출 방법
KR20210043894A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 전자 장치 및 이의 문장 제공 방법
CN111488735B (zh) * 2020-04-09 2023-10-27 中国银行股份有限公司 测试语料生成方法、装置及电子设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4773039A (en) * 1985-11-19 1988-09-20 International Business Machines Corporation Information processing system for compaction and replacement of phrases
US5742834A (en) * 1992-06-24 1998-04-21 Canon Kabushiki Kaisha Document processing apparatus using a synonym dictionary
JP3025724B2 (ja) * 1992-11-24 2000-03-27 富士通株式会社 類義語生成処理方法
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6092064A (en) * 1997-11-04 2000-07-18 International Business Machines Corporation On-line mining of quantitative association rules
JP3622503B2 (ja) * 1998-05-29 2005-02-23 株式会社日立製作所 特徴文字列抽出方法および装置とこれを用いた類似文書検索方法および装置並びに特徴文字列抽出プログラムを格納した記憶媒体および類似文書検索プログラムを格納した記憶媒体
EP1224569A4 (en) * 1999-05-28 2005-08-10 Sehda Inc PHRASE BASED DIALOGUE MODELING WITH SPECIAL APPLICATION FOR GENERATING RECOGNITION GRAMMARK FOR LANGUAGE-CONTROLLED USER INTERFACE
JP2001043236A (ja) * 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292396A (zh) * 2017-08-14 2017-10-24 南宁学院 一种水电设备报修消息处理方法

Also Published As

Publication number Publication date
CN1535428A (zh) 2004-10-06
EP1429258A1 (en) 2004-06-16
IL160069A0 (en) 2004-06-20
KR20040018404A (ko) 2004-03-03
US7483829B2 (en) 2009-01-27
US20040181759A1 (en) 2004-09-16
CA2451083A1 (en) 2003-02-13
JP4571404B2 (ja) 2010-10-27
EP1429258A4 (en) 2007-08-29
CN1310172C (zh) 2007-04-11
WO2003012679A1 (en) 2003-02-13

Similar Documents

Publication Publication Date Title
JP4571404B2 (ja) データ処理方法、データ処理システムおよびプログラム
Kowalski Information retrieval systems: theory and implementation
Kowalski et al. Information storage and retrieval systems: theory and implementation
US10339453B2 (en) Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation
JP3266246B2 (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
US8458198B1 (en) Document analysis and multi-word term detector
Wan et al. Person resolution in person search results: Webhawk
JP5321583B2 (ja) 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム
JP2011118689A (ja) 検索方法及びシステム
Tkach Text Mining Technology
Alami Merrouni et al. EXABSUM: a new text summarization approach for generating extractive and abstractive summaries
Saneifar et al. Enhancing passage retrieval in log files by query expansion based on explicit and pseudo relevance feedback
Alias et al. A Malay text corpus analysis for sentence compression using pattern-growth method
Sindhu et al. Text Summarization: A Technical Overview and Research Perspectives
Rahat et al. Open information extraction as an intermediate semantic structure for Persian text summarization
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
Jabbar et al. An Analytical Analysis of Text Stemming Methodologies in Information Retrieval and Natural Language Processing Systems
Murakami et al. Term aggregation: mining synonymous expressions using personal stylistic variations
Johnny et al. Farmer query answering system
QA Question answering
Bhole et al. Single Document Text Summarization Using Clustering Approach Implementing for News Article
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs
Dave et al. A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages
Sharma Hybrid Query Expansion assisted Adaptive Visual Interface for Exploratory Information Retrieval
Jadhav et al. A Survey on Text Mining-Techniques, Application

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061024

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070118

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070427

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070612

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100518

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100812

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130820

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees