JPWO2003012679A1

JPWO2003012679A1 - データ処理方法、データ処理システムおよびプログラム

Info

Publication number: JPWO2003012679A1
Application number: JP2003517784A
Authority: JP
Inventors: 明子村上; 裕史松澤; 哲哉那須川
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-07-26
Filing date: 2002-07-19
Publication date: 2004-11-25
Anticipated expiration: 2022-07-19
Also published as: CN1535428A; EP1429258A1; IL160069A0; KR20040018404A; US7483829B2; US20040181759A1; CA2451083A1; JP4571404B2; EP1429258A4; CN1310172C; WO2003012679A1

Abstract

テキストマイニングで利用することができる同義語辞書を作成する際の、同義語候補の生成を効率的に行える支援システムあるいは同義語候補の生成方法を提供する。筆者毎のデータ１１０から入力単語に類似する筆者毎の同義語候補集合を、全体データ１２０から入力単語に類似する同義語候補集合を、同義語候補取得装置１３０によって取得する。生成した同義語候補集合１４０を入力とし、同義語候補判定装置１５０によって、全体データ１２０の同義語候補を評価する。評価は、筆者毎の同義語候補において一位にランクされた語と一致する語に「ａｂｓｏｌｕｔｅ」のステータスを付加し、二位以下にランクされた語と一致する語に「ｎｅｇａｔｉｖｅ」のステータスを付加する。

Description

技術分野
本発明は、データ処理方法、データ処理システムおよびプログラムに関する。特に、大量の文書データをコーパスとして扱い、文書中に出現する単語の同義語候補の高精度な生成に適用して有効な技術に関する。
背景技術
情報処理システムの低価格化および一般化、あるいはワードプロセッサ等文書作成ツールの一般化、さらに近年のインターネット等ネットワーク環境の進展等を背景に、膨大な量の電子データが蓄積されつつある。たとえば営業報告書等各種の社内文書、カスタマーコールセンターでの顧客との会話記録等あらゆる情報が電子データとして情報処理システムに蓄積されつつある。
一般に、これら情報の蓄積には、企業活動、営業活動等に利用可能な有用な知識の抽出が意図されている。たとえば、商品の販売傾向、顧客動向、品質等の関する不満、要求、不良の早期発見等である。これら有用な知識を生の情報から得るには、生情報を何らかの観点で分析する必要がある。生情報に予め分類項目等のラベル付けが為されている場合、これら分析は比較的容易である。しかし、すでに想定される観点に基づいて項目分けされた文書から得られる知見はその観点の域を出るものではない。つまり、予め想定できないような新たな知識は、分類分けされない自由形式の記述から抽出されることが多い。よって、自由形式で記録された文書から、たとえばその文書の話題が何であるか、話題の時系列な傾向はどうか等、自由な観点で生情報を分析できる手法が必要になる。
このような手法の一つとして、大量のテキストデータを処理し分析するテキストマイニングがある。たとえば、「那須川哲哉、諸橋正幸、長野徹著、テキストマイニング−膨大な文書データの自動分析による知識発見−、情報処理、Ｖｏｌ．４０Ｎｏ．４，ｐｐ．３５８−３６４（１９９９）」（文献１）、には、大量の文書データに記述されている多種多様な内容を分析対象にすることを可能にし、その相関関係や出現傾向等を抽出して提示するテキストマイニングの手法を利用した分析ツールが記載されている。このような手法（ツール）を利用すれば、人が全ての生文書を読むことなく、膨大な生文書を機械的に分析することによって有用な知識を発見することが可能になる。
テキストマイニングにおいては、文書中に記述されている概念（話題）やある話題（概念）にどの様な意味づけ（肯定的か否定的か、あるいは質問なのか要望なのか）が為されているかに注目する。よって文書中に表現されている通りの単語ではなく、適切な概念を抽出し、この概念単位での分析を行うことが必要である。つまり、文書中で表現されている単語を単に機械的に取り扱うだけでなく、その単語が意味する概念を適切に把握する必要がある。
表記されている単語から、このような概念を抽出する際に、単語の同義語あるいは異義語の扱いが問題になる。つまり、ある表現がなされている単語が意味する概念が他の表現でもなされる場合、これら同一の概念を意味する単語群は同義語として扱わなければならない。もし、同義であっても表現が違うと異なる単語としてみなされてしまい、それら相違する表現が意味する概念の出現頻度が正しくカウントされず、文書を正しく分析することができなくなる可能性がある。また、同一表記される単語であっても使用する分野や状況に応じて異なる概念を意味する場合がある。たとえば「ドライバ」という単語は、コンピュータ関連の語であればデバイスを動かすためのソフトウエアであり、車関連の語であれば運転する人を意味する。同一表記された単語でも、その意味する概念が相違する場合にはこれを的確に分けて把握しなければ、前記同様に適正な概念の出現頻度がカウントされず、正しい文書の分析が困難になる。
そこで、従来、同義語の問題に対しては、ＥＤＲ辞書や類語彙表といった既存のシソーラスを用いて単語を同一表現に統一することが行われている。ＥＤＲ辞書は、日英各２０万語の単語辞書、共起辞書、概念辞書であり、たとえば
「ｈｔｔｐ：／／ｗｗｗ．ｉｉｊｎｅｔ．ｏｒ．ｊｐ／ｅｄｒ／Ｊ＿ｉｎｄｅｘ．ｈｔｍｌ」に記載されている。また、異義語の問題に対しては、語義の違いを注釈として単語に加えることにより解決することが可能である。ただし、大量の文書を処理するためにはこの方法ではコストがかかりすぎ、実現性が低い。そこで、分野が決まっている文書を解析する場合、分野にあった語義を割り当ててその単語と同義として扱うことにより、この問題を解決することができる。そのためには、分野ごとの辞書を作成することが不可欠になる。
なお、コーパス（大量の文書データ）から同義語を抽出する手法に関して以下のような研究が知られている。たとえば「ＤｏｎａｌｄＨｉｎｄｌｅ．ＮｏｕｎＣｌａｓｓｉｆｉｃａｔｉｏｎＦｒｏｍＰｒｅｄｉｃａｔｅ−ＡｒｇｕｍｅｎｔＳｔｒｕｃｔｕｒｅｓ．Ｐｒｏｃ．２８ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆＡＣＬ，ｐｐ．２６８−２７５，（１９９０）」（文献２）には、動詞と主語・目的語などの名詞の共起データを用いて名詞間の類似度を求める研究が記載されており、対象とする名詞との類似度が高い名詞を同義語として抽出する手法に適用できる。また、「ＴｏｍｅｋＳｔｒｚａｌｋｏｗｓｋｉａｎｄＢａｒｂａｒａＶａｕｔｈｅｙ．ＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌＵｓｉｎｇＲｏｂｕｓｔＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｐｒｏｃ．３０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆＡＣＬ，ｐｐ．１０４−１１１，（１９９２）」（文献３）には、共起関係ではなく、動詞・形容詞の依存関係を用いて名詞の類似度を求めたあと、その名詞の抽象度の上下関係を見る研究が記載されている。さらに、「浦本直彦．文の多義性解消における置換可能関係を用いた事例の適用率向上．人工知能学会誌、Ｖｏｌ．１０Ｎｏ．２ｐｐ．２４２−２４９，（１９９５）」（文献４）には、コーパス中の文法情報を用いて単語の置換可能関係を抽出する研究が記載されている。これらも、名詞の類似度を見るのに利用することができる。
発明が解決しようとする課題
テキストマイニングの手法を適用する際に問題となる同義語、異義語については、前記した通りの解決方法が一応用意されている。しかし、本発明者らは、さらに以下のような問題があることを認識している。すなわち、省略語、スペルミス等に起因する表記の相違の問題である。
一般にテキストマイニングで利用するテキストデータは、社内文書やコールセンターに寄せられた質問などの記録等、複数の人によって作成されたものが多い。これら複数人で作成された文書は単語表記が統一されておらず、また、比較的インフォーマルな文書なので省略語などが多数用いられる傾向にある。たとえばコールセンターでは「ｃｕｓｔｏｍｅｒ」という単語が頻繁に使用される。記録する人によってはこれを「ｃｕｓ」や「ｃｕｓｔ」と表記することがある。省略語が辞書に収録されていることはほとんど期待できないので、既存の辞書を用いて同義語を生成していたのでは、これら省略語をすべて未知語として扱ってしまうことになる。省略語が未知語として扱われると、本来の意味の語ではなく、別の単語として扱われてしまう。本来の語の頻度にも加えられることもなく、また、数も少ないためノイズとして捨ててしまうことになる。また、これら社内文書等ではコンピュータに入力される際にスペルミスが犯される場合も多い。特にコールセンターなどでの記録では、限られた時間内に文書を作成する必要があるので、タイプミスを生じる場合が多い。これらスペルミスを含む文書も前記と同様に意味のないノイズとして取り扱われることになる。
しかし、煩雑に使用される単語であるほど省略表記される可能性が高く、一方煩雑に出現する単語であるからこそそれに関連する概念が重要な場合が多い。また、一般に顧客との直接対応を担う部門で作成される文書は、コールセンターでの例のように作成時間が限られるためスペルミスを含む可能性が高く、一方このような顧客と直接接する部門で作成される文書にこそ有用な顧客情報が記録され、企業にとって重要な知識が内包されている可能性が高い。つまり、これら省略表記される単語やスペルミスされた単語等、辞書には無い単語を意味のあるデータとして扱う意義は極めて高い。なお、日本語、中国語、ハングル語等の２バイト文字がＦＥＰ（ｆｒｏｎｔ−ｅｎｄｐｒｏｃｅｓｓｏｒ）によって変換ミスされる場合もスペルミスの場合と同様である。
よって、省略語、スペルミス（変換ミスを含む）等を考慮した辞書の作成が必要になる。既存の辞書は省略語やスペルミスの全てを網羅しているわけではないので、テキストマイニングで用いるに必要な辞書は人手で作成しなければならない。これは非常にコストのかかる作業であり、実際のテキストマイニングの運用上、ユーザにとって最も懸念される部分である。よって同義語辞書を作成するための同義語の生成を自動的に行う辞書作成のための支援システムが必要になる。
同義語を自動的に生成する手法として、前記した文献２〜４の研究が利用できる。すなわち、名詞間の類似度を前記研究の手法で求め、類似度の高い所定の範囲内の名詞を同義語とする。しかしこれら手法を用いれば、同義語の他に反義語が取得されてしまう問題がある。つまり、従来の手法をそのまま適用したのでは、反義語その他のノイズを多く取得してしまい、人手によるノイズの除去が煩雑になってしまう。
また、コンピュータ分野等進歩の著しい分野では、新しい用語が次々に生じている。これら新しい用語も速やかにテキストマイニングで適切に取り扱うことができるようにする必要がある。
本発明の目的は、テキストマイニングで利用することができる同義語辞書を作成する際の、同義語候補の生成を効率的に行える支援システムあるいは同義語候補の生成方法を提供することにある。また、この同義語候補の生成において、実際にテキストマイニングを適用する文書を用い、その文書で用いる省略語や独特の用語、さらにスペルミス、変換ミスをも含めた単語を取り扱えるようにすることを目的とする。さらに、テキストマイニングのシステムとともに用いることによって、適用しようとする文書に最適な同義語辞書を動的に生成し、より精密な文書分析を実現できるシステムを提供することを目的とする。
課題を解決するための手段
本願の発明の概略を説明すれば、以下の通りである。すなわち、本発明のデータ処理方法は、文書データで使用されている対象語に対する同義語候補を生成するデータ処理方法であって、文書データの全体を基に、対象語に対する同義語候補の第１集合を生成するステップと、文書データの少なくとも１の部分を基に、対象語に対する同義語候補の少なくとも１の第２集合を生成するステップと、第１集合に含まれる同義語候補を、第２集合に含まれる同義語候補で絞り込むステップと、を有し、絞り込みのステップでは、所定の基準に従って第２集合内の同義語候補が対象語の同義語にあたるか否かを判定し、いずれかの第２集合においてその部分内で同義語と判定された場合を除き、同義語と判定されなかった第２集合内の語に一致する語を第１集合内の同義語候補から除去することによって同義語候補を生成するものである。
すなわち、対象語の同義語候補を生成するに際し、その対象語が使用されている文書データ自体をコーパスとし、このコーパスの部分集合である部分データ（文書データの部分）を抽出または用意する。部分データとして、対象語を特定の同義語で表現していることが判明または推定できるものを用意する。そして、文書データの全体を対象に既存の同義語候補生成処理を行う。この処理により生成される同義語候補（第１集合）には、正解である同義語の他に、本来同義語ではないが候補生成処理によって類似度が高くランクされるため紛れ込むノイズ（反義語その他同義語でない語）が含まれる。一方、部分データもコーパスとして扱い、この部分コーパスを対象に同様の処理を行う。この部分データを対象にした同義語候補（第２集合）にも、文書データの全体を対象にした処理と同様に同義語に加えてノイズが含まれる。ここで、第２集合に含まれる同義語候補のうち既にそれが正解であることが判明または推定される同義語候補が存在しているはずであるから、これを確定同義語候補とする。一方、第２集合内の確定同義語候補以外はノイズであるとみなす。この情報を用いて第１候補の同義語候補の絞込みを行える。つまり、同一の同義語候補生成処理を適用する限り、第１集合および第２集合には同様のノイズが含まれる。第２集合を評価することによりノイズを推定し、この第２集合のノイズを用いて第１集合のノイズをキャンセルする。これにより第１集合の正解率を向上できる。
このように、本発明においては、ノイズを生成する原因となる語およびその関係については偏りなくこれを含み、一方確定同義語候補に関しては確実に高い順位でランクされるようその元になる語および関係を含む部分データを用意する。このような部分データを如何に適正に生成または準備するかが第１集合の正答率を向上するポイントになる。本発明では、このような部分データ（文書データの部分）として、特定の筆者によって作成された文のみからなる文書データを例示する。すなわち、特定の筆者は、ある概念を表記するとき、特定の表記を多用する傾向にあるという事実を本発明者らは認識し、このような知見に基づいて本発明がなされた。たとえば、英文表記での顧客を意味する単語として、「ｃｕｓｔｏｍｅｒ」、その略語表記である「Ｃｕｓｔ」あるいはＥｎｄＵｓｅｒの略語表記である「ＥＵ」等を用いることができる。実際、本発明者らが解析した文書データにおいては、顧客を意味する表記として、これら「ｃｕｓｔｏｍｅｒ」、「Ｃｕｓｔ」あるいは「ＥＵ」等の表記が混在する。ところが、特定の筆者によって作成された文書に着目すると、ある筆者は主に「ｃｕｓｔｏｍｅｒ」と表記し、他の筆者は主に「Ｃｕｓｔ」と表記し、他の筆者は主に「ＥＵ」等と表記する。つまり、筆者毎に文書を解析すると、筆者はその筆者固有の表記を用いてある概念を表す傾向があり、その他の表記で同一概念を表す確率は小さい。このような筆者毎の文書データが持つ内部構造は、すなわち、部分データ内において対象語が表現する概念を特定の同義語（対象語を含む）で表現している構造であり、また筆者毎の部分データはノイズを生じる文書構造を文書データの全体と同様にその内部に含む。よって、筆者毎の文書データを前記した部分データ（文書データの部分）として用い、適正なノイズを検出して第１集合内の同義語候補の絞り込みを行える。
なお、前記データ処理方法において、所定の基準は類似度であり、特定の同義語と判定される語は、第２集合において、対象語との類似度が最も高い同義語候補であるとすることができる。たとえば筆者毎の文書データを部分データに適用する場合、多くの筆者はある概念を単一の表現（語）で表記する。この場合、同義語とみなせる語は最高順位にランクされた語とすることが妥当である。
また、本発明のデータ処理方法は、筆者が相違する文を含む文書データを基に、文書データで使用されている対象語に対する同義語候補を生成するデータ処理方法であって、単一の筆者による文のみを含む文書データの少なくとも１の部分データをその筆者毎に生成または用意するステップと、文書データに含まれる語を抽出し、当該抽出された語と対象語との類似度を計算し、類似度が高い順に上位所定数の当該抽出された語をその要素とする同義語候補の第１集合を生成するステップと、部分データに含まれる語を抽出し、当該抽出された語と対象語との類似度を計算し、類似度が高い順に上位所定数の当該抽出された語をその要素とする同義語候補の第２集合を筆者毎に生成するステップと、第１集合に含まれる語のうち、何れかの第２集合においてしきい値順位以上の高順位にランクされている語と一致する語を「絶対的」であると評価するステップと、「絶対的」であると評価された語以外の第１集合に含まれる語のうち、何れかの第２集合においてしきい値順位より下位にランクされている語と一致する語を「否定的」であると評価するステップと、「否定的」であると評価された語以外の第１集合の語から対象語に対する同義語候補を生成するステップと、を含む。
このようなデータ処理方法によれば、前記と同様に第１集合の同義語候補を第２集合の同義語候補によって絞り込むことができる。この場合、しきい値順位以上の第２集合における候補を「絶対的」と評価する。「絶対的」と評価された同義語候補は、ほぼ同義語とみなされる。それ以外の語をノイズとみなして第１集合から削除することにより、高精度が同義語候補の生成が可能になる。ここで、しきい値順位は以下のように定義できる。すなわち、人ごとのデータから得られる同義語の順位付き結果の中で、第ｎ位までを全体のデータから得られた同義語の集合の中で「絶対的」であると評価するとき、この第ｎ位を「しきい値順位」とする。しきい値順位を高く設定すると、本来含まれるべき同義語が得られる同義語候補から漏れる確率が高くなり、逆にしきい値順位を低く設定すると得られる同義語候補にノイズが含まれる確率が高くなる。よってしきい値順位は、部分データの構造やその数に応じて経験的に好適な順位が採用されるべきある。
なお、しきい値順位は１位とすることができる。たとえば、人ごとのデータを部分データに採用する場合、各人はある概念を表記する際に特定の一つの表現を用いる傾向が強いことは前記した。このような場合、しきい値順位を１位にすると、生成される同義語候補にノイズが含まれる確率が小さくなる。
また、類似度の計算は、文書データまたは部分データから、全ての第１品詞と、第１品詞と係り受け関係を生ずる全ての第２品詞（基本的な自立語）と、を抽出するステップと、抽出された全ての第１品詞および全ての第２品詞をその行または列の指標とする、大きさが第１品詞数×第２品詞数の行列を生成するステップと、行列の各要素に、その要素を指標する第１品詞および第２品詞間の係り受け関係の出現頻度を代入するステップと、文書データを基に生成された行列から、対象語に一致する第１品詞を指標とする行または列の各要素を抽出して、対象語ベクタとするステップと、文書データまたは部分データを基に生成された行列から、任意の行または列の各要素を抽出して、それが指標する第１品詞のベクタとするステップと、第１品詞ベクタと対象語ベクタとを使用してその第１品詞の対象語との類似度を求めるステップとで実現できる。つまり、文書中での第１品詞および第２品詞間の共起頻度および依存関係の頻度によって類似度を計算できる。なお、類似度の計算には、第１品詞ベクタと対象語ベクタとの内積値を用いる方法を例示できる。
なお、前記行列からの行または列の各要素の抽出によって対象語ベクタおよび第１品詞ベクタとする場合において、行要素を抽出して対象語ベクタを生成した場合には、同じく行要素を抽出して第１品詞ベクタを生成することは言うまでもない。逆に列要素を抽出して対象語ベクタを生成した場合には列要素を抽出して第１品詞ベクタを生成する。また、転置行列を用いて、行ベクトルと列ベクトルとを入れ替えて計算することも可能である。
ここで、第１品詞は名詞、第２品詞は動詞、形容詞、形容動詞等名詞との係り受け関係を生じ得る品詞とすることができる。この場合、名詞間の類似度を動詞等との共起頻度あるいは依存関係の頻度を用いて求めることができる。なお、第１品詞として動詞等、第２品詞に名詞を選択することも可能である。この場合動詞等の品詞間の類似度を計算できる。つまり対象語として動詞等、名詞以外の品詞を選択することもできる。
また、文書データまたは部分データに、文書テンプレートを用いて作成された箇所が含まれる場合には、文書テンプレートを利用した箇所を文書データまたは部分データから削除することができる。これにより、筆者毎の文書データにテンプレート等によって統一された表現が混入することを防止する。たとえば、コールセンタでの会話記録を作成するような場合、文書記入の速度が要求される。これら記入速度が要求される場では記入を簡略化するための定型的な表現をテンプレートとして用意する。コールテイカーはテンプレートを用いて簡単な操作により記入を行うことができる。このようなテンプレートを用いれば、作成される文書は書き手に依存しない統一表現となる。これら統一表現が筆者毎の文書に混入した場合には、正当に筆者毎の表現（筆者に固有の同義語表現）を評価することができない。よって、これら統一された表現による語を予め排除するものである。
また、文書データまたは部分データに、同一または類似の話題についての一連の文または文書が含まれる場合、一連の文または文書毎に単語の出現頻度を正規化することができる。すなわち、たとえばある質問がなされ、それに対する応答、更なる質問、応答等、ある話題に対するトランザクションが発生する場合がある。このような場合、ある質問（話題）に対する関連語の出現頻度が多く生じることになる。一方、同様の内容であっても、少ない応答で問題（質問）が解消することもある。このようなトランザクションがある場合の文書と短い応答のみで完結する文書が同一の文書データに存在した場合、出現頻度の多い話題に出現する単語あるいはその単語を含む係り受けを重視することになり、相対的に短い応答で完結した話題に出現する単語等を軽く評価することになる。よって、適正に単語及びその単語を含む係り受けを取り出し、名詞の特性を評価するためにはこのようなトランザクションが生じた時にはそのトランザクション内で登場する語の頻度を正規化することが好ましい。上記はこのような要請に対応したものである。
また、文書データまたは部分データに出現する名詞の出現頻度が所定の頻度より低い場合、類似度の計算の対象からこの名詞を除去することができる。出現頻度の低い名詞はノイズの原因になる場合があるため、予めこれを除去するものである。
なお、対象語は、マニュアル、辞書その他統一された表現で記述されている文書から選択した用語とすることができる。一般的な用語を対象語として同義語候補を生成すると、その正答率が向上するという経験則がある。よって、一般的な用語を用いることにより、同義語候補生成の正答率を向上できる。
本明細書において、同義語の文言には、テキストマイニングのおいて同義語とみなしてよい語も含む。つまり、言語学的に厳密に同義語であるとはいえないものであっても、テキストマイニングに適用する際に同一の概念を表記するような語を含めて同義語という。従って、対象となる語と同等の概念を表現するスペルミスされた語や略語、あるいはＦＥＰによって誤変換された語も同義語になり得る。また、前記した方法の発明はシステムあるいはプログラムの発明として把握することも可能である。
発明の実施の形態
以下、本発明の実施の形態を図面に基づいて詳細に説明する。ただし、本発明は多くの異なる態様で実施することが可能であり、本実施の形態の記載内容に限定して解釈すべきではない。なお、実施の形態の全体を通して同じ要素には同じ番号を付するものとする。
以下の実施の形態で説明する方法またはシステムは、当業者であれば明らかなとおり、本発明はコンピュータで使用可能なプログラムとしても実施できる。したがって、本発明は、ハードウェアとしての実施形態、ソフトウェアとしての実施形態またはソフトウェアとハードウェアとの組合せの実施形態をとることができる。プログラムは、ハードディスク、ＣＤ−ＲＯＭ、光記憶装置または磁気記憶装置等の任意のコンピュータ可読媒体に記録できる。
また以下の実施の形態では、そのシステムとして一般的なコンピュータシステムを用いることができる。実施の形態で用いることができるコンピュータシステムは、中央演算処理装置（ＣＰＵ）、主記憶装置（メインメモリ：ＲＡＭ）、不揮発性記憶装置（ＲＯＭ）、コプロセッサ、画像アクセラレータ、キャッシュメモリ、入出力制御装置（Ｉ／Ｏ）、ハードディスク装置等の外部記憶装置等、一般的なコンピュータシステムに備えられるハードウェア資源を備える。また、インターネット等のネットワークに接続可能な通信手段を備えることもできる。コンピュータシステムには、パーソナルコンピュータ、ワークステーション、メインフレームコンピュータ等各種のコンピュータが含まれる。
以下の実施の形態を説明する前に、本実施の形態で用いる文書の特徴について説明する。図１は、コールセンターにおける複数のコールテイカー（筆者）が作成した会話記録文書内で、「顧客」の概念をどの様に表記しているかを人毎に解析して示したグラフである。Ａ〜Ｅの指標は人（コールテイカー）を示し、各人での各表記の出現頻度を百分率で示している。文書の全体において「顧客」の概念を表記する語として「ｃｕｓｔｏｍｅｒ」、「ｃｕｓｔ」、「ｅｕ」、「ｕｓｅｒ」、「ｅｎｄｕｓｅｒ」「ｃｕｓ」の６種類の表記が用いられている。このうち、人Ａは「ｃｕｓｔｏｍｅｒ」、「ｃｕｓｔ」、「ｅｕ」または「ｕｓｅｒ」と表記し、そのうち「ｅｕ」と表記する割合が８９．１％と最も高い。その他の表記を用いる割合は１１％程度である。つまり人Ａは「顧客」概念を主に「ｅｕ」と表記する。人Ｂは、「ｅｎｄｕｓｅｒ」、「ｃｕｓｔｏｍｅｒ」、「ｃｕｓｔ」、「ｅｕ」または「ｕｓｅｒ」と表記し、そのうち「ｃｕｓｔ」と表記する割合が６６．１％と最も高い。同様に人Ｃは、「ｅｕ」と表記する割合が約８３％と最も高く、人Ｄも「ｅｕ」と表記する割合が約９２％と最も高く、人Ｅは「ｃｕｓｔｏｍｅｒ」と表記する割合が約７９％と最も高い。すなわち、「顧客」の概念を表記する際に、人毎にほぼ決まった表記が行われ、その種類はほぼ１種類に限られる。図２〜図５は、「ＡＣアダプタ」、「ＴｈｉｎｋＰａｄ」、「ＣＤ−ＲＯＭ」、「フロッピィディスク」の各概念について、図１と同様な解析を行った結果を示したグラフである。図２から、「顧客」の場合と同様に、人Ａは「ＡＣアダプタ」の概念を主に「ａｄａｐｔｅｒ」、人Ｂも「ａｄａｐｔｅｒ」、人Ｃは「ａｃ」、人Ｄは「ａｃａｄａｐｔｅｒ」、人Ｅは「ａｄａｐｔｅｒ」と表記することがわかる。図３から、人Ａ〜Ｄは「ＴｈｉｎｋＰａｄ」の概念を「ｔｐ」、人Ｅは「ｔｈｉｎｋｐａｄ」と表記することがわかる。図４から、「ＣＤ−ＲＯＭ」の概念を、人Ａは主に「ｃｄ」、人Ｂも「ｃｄ」、人Ｃは「ｃｄ−ｒｏｍ」、人Ｄは「ｃｄｒｏｍ」、人Ｅは「ｃｄ」と表記することがわかる。図５から、「フロッピィディスク」の概念を、人Ａは主に「ｄｉｓｋ」、人Ｂは「ｄｉｓｋｅｔｔｅ」あるいは「ｄｉｓｋ」、人Ｃも「ｄｉｓｋｅｔｔｅ」あるいは「ｄｉｓｋ」、人Ｄは主に「ｄｉｓｋ」、人Ｅは主に「ｄｉｓｋｅｔｔｅ」と表記することがわかる。なお、「ＴｈｉｎｋＰａｄ」は、ＩＢＭコーポレーションの商標であり、ノートブック型パーソナルコンピュータの名称である。
つまり、図１〜図５の解析結果は以下の事実を教えてくれる。つまり複数の人によって作成された文書において、ある概念は統一された表記で表現されず、複数の表記が文書内に存在する。そして、文書を人毎に分けて見ると、ある概念を表記するとき、その人固有の表記を主に用い、他の表記を行うことは少ない。このような文書の性質を利用すると、以下のようにして同義語候補の生成の精度を向上できる。すなわち、文書内のある概念は複数の表記によって表現されるため、これを統一した指標語で表す必要があるが、人毎に同義語候補を生成すれば、その人が用いる固有の表記が最高順位を得て（つまり類似度が最も高く）生成されるはずである。一方、人毎の同義語候補の生成によっても、全体文書を対象にした場合と同様にノイズが含まれるはずである。よって、人毎に分類された文書を対象に同義語候補の生成を行い、第１順位の同義語候補は少なくともある概念（入力対象語）に対するその人固有の表記であることが推定されるから、それ以外の語をノイズと推定して文書全体を対象にした同義語候補からこれと一致したものを削除する。これにより同義語候補の生成精度（正答率）を向上できる。なお、人毎の同義語候補集合において二位以下にランクされる語も、その人が統一した表記を用いていない限り対象語の概念を正当に表すものである確率が高い。実際、図１〜５に示すように一人の人がある概念を複数の表記で表現しているので、人毎の同義語候補において二位以下であっても正解の可能性は高い。この正当な表記の削除を防止するため、他の人によって第一位にランクされた同義語候補は正当なものであるとして、仮に二位以下にランクされていてもこれを削除しないようにする。
本発明は、上記のような人毎の文書の特徴をうまく利用して同義語候補の生成精度を向上するものである。以下、具体的な実現手段であるデータ処理システム、データ処理方法を説明する。
図６は、本発明の一実施の形態であるデータ処理システムの一例をその機能について示したブロック図である。本実施の形態のデータ処理システムには、筆者毎のデータ１１０、全体データ１２０、同義語候補取得装置１３０、同義語候補集合１４０、同義語候補判定装置１５０、および判定結果の付与された同義語候補１６０を含む。筆者毎のデータ１１０は、筆者毎の文書データから生成された名詞、その名詞と共起する動詞、形容詞、形容動詞等の品詞、およびそれらの依存構造を動詞名詞ペアとして表したデータベースである。全体データ１２０は、全ての筆者による文書を含む文書データの全体から生成された名詞、その名詞と共起する動詞、形容詞、形容動詞等の品詞、およびそれらの依存構造を動詞名詞ペアとして表したデータベースである。同義語候補取得装置１３０は、同義語生成の対象語を入力単語として入力し、筆者毎のデータ１１０および全体データ１２０から入力単語の同義語候補集合１４０を生成する。つまり同義語候補取得装置１３０は、筆者毎のデータ１１０から筆者毎の同義語候補集合を生成し、全体データ１２０から全体データに対する同義語候補集合を生成する。同義語候補集合１４０は、同義語候補取得装置１３０で生成された筆者毎の同義語候補集合および全体データの同義語候補集合である。筆者がｍ人いる場合には、同義語候補集合１４０に記録される同義語候補集合の数はｍ＋１となる。同義語候補判定装置１５０は、同義語候補集合１４０を入力とし、筆者毎の同義語候補集合を基にして全体データから得られた同義語候補集合を評価する。評価は、全体データから得られた同義語候補に対し、同義語の候補としてふさわしいかを判定する。判定結果は、判定結果の付加された同義語候補１６０として出力する。
筆者毎のデータ１１０および全体データ１２０は、以下のように生成する。まず、調べたい単語である対象語（入力単語）をベースワードｂとする。データ全体をＦ、そのコーパスの筆者をＡ，Ｂ，Ｃ，・・・の添字で表すとする。なお、Ａ，Ｂ，Ｃ，・・・は、データの多いほうから昇順で表す。データ全体に出現する名詞の数をｎ、動詞等（動詞、形容詞、形容動詞等）の数をｍとする。各名詞において、どの動詞等と係り受け関係を持つかを行列で表す。名詞ｐと動詞ｑの係り受け関係がデータ中ｋ回出現したとき、行列の要素ｉ_ｐｑは、数１の通りである。

各集合から得られる行列はＭ_（Ｆ），Ｍ_（Ａ），Ｍ_（Ｂ），Ｍ_（Ｃ）・・・であり、大きさはすべて（ｎ，ｍ）である。行列Ｍ_（Ｆ）等を式で表せば数２の通りである。

筆者毎のデータ１１０は、たとえばＭ_（Ａ），Ｍ_（Ｂ），Ｍ_（Ｃ）・・・のように表され、全体データ１２０はＭ_（Ｆ）のように表せる。名詞Ｎ_（ｐ）がどのような動詞と係り受けを持つかは、行列Ｍ中のｐ番目の行をベクタとして取り出せばよい。このようにして得られた名詞のベクタは数３のように表せる。

次に、図７の同義語候補取得装置１３０の動作について説明する。同義語候補取得装置１３０はコンピュータシステム内でソフトウェア的に実現される。まず、入力単語であるベースワードｂに対する全体集合の中での情報を求める。Ｍ_（Ｆ）のなかから、数４で示すベースワードｂの動詞情報ベクタＮ_（ｂ）を求める。

これと、数５で示す、Ｍ_（Ｆ）のすべての名詞が持つ動詞情報ベクタＮ_（ｉ）との角度をθとする。角度θの小さいものほど、つまりｃｏｓθの値が１に近いものほどベースワードに意味が近いと考えることができるので、ｃｏｓθの値を類似度とすることができる。つまり類似度は０〜１の値で表され、１に近いほど（値が大きいほど）類似度は大きくなる。なお、ｃｏｓθの値はＮ_（ｂ）とＮ_（ｉ）の内積値を利用して求めることができる。

前記のように求めた類似度の高い順にランキングを行う。ランキングの上位から所定数の順位までランキングされた名詞の集合をＣ_（Ｆ）とする。このＣ_（Ｆ）が全体データを対象にした同義語候補集合である。
次に筆者ごとのデータ１１０から筆者毎の同義語候補集合を取得する場合を説明する。前記した数４で示すベースワードｂにおける動詞情報ベクタＮ_（ｂ）を用いて、各筆者の名詞の中でベースワードｂに意味の近いものをランキングする。筆者Ａについての同義語候補候補集合をＣ_（Ａ）とする。ここで、筆者ごとのデータであるＭ_（Ａ）中の名詞ｂについての動詞情報ベクタを用いていない。なぜなら、ある筆者がｂと同義の名詞を記述するとき、表記はｂと違うものである可能性がある。そのとき、各筆者のデータ中の名詞ｂについての動詞情報ベクタの要素はほとんど０であり、これを用いたのでは正しくｂと語義の近いものが取れる可能性は少ない。したがって、全体のデータの名詞ｂについての動詞情報ベクタを用いる。同様にして所定人数の筆者Ｂ，Ｃ，Ｄ・・・についても同義語候補Ｃ_（Ｂ），Ｃ_（Ｃ），Ｃ_（Ｄ），・・・を取得できる。
図７は、本実施の形態のデータ処理方法の一例を示したフローチャートである。まず、入力単語Ａ（対象語）における同義語候補の生成を行う（ステップ２１０）。この同義語候補集合は、前記した同義語候補取得装置１３０により生成され、全体データについての同義語候補集合Ｃ_Ｆｕｌｌ＝Ｃ_（Ｆ）と、筆者毎のデータについての同義語候補集合Ｃ_Ｋ＝｛Ｃ_（Ａ），Ｃ_（Ｂ），Ｃ_（Ｃ），Ｃ_（Ｄ）・・・｝（ｋ＝ｍ、ｍは筆者の数）が取得される。表１は、コールセンターで作成された文書を対象に、全体データから生成した同義語候補集合Ｃ_Ｆｕｌｌの一例を示した表である。

ここで、入力単語は「ｂａｔｔｅｒｙ」であり、その概念に含まれない単語も候補として含まれている。４位の「ｃｏｖｅｒ」、７位以下の「ａｄａｐｔｅｒ」、「ｂｅｚｅｌ」、「ｃｈｅｑｕｅ」、「ｓｃｒｅｗ」がノイズである。
表２および表３は、各々筆者Ａおよび筆者Ｂによる筆者毎のデータから生成した「ｂａｔｔｅｒｙ」の同義語候補集合の一例を示した表である。

表２および表３共に、第１位に「ｂａｔｔｅｒｙ」がランキングされている。この例の場合、筆者Ａ、筆者Ｂ共に「ｂａｔｔｅｒｙ」概念を表記する固有の語として「ｂａｔｔｅｒｙ」を用いていることになる。
次に、ポインタ変数Ｋに１を代入し（ステップ２３０）、Ｋが筆者数ｍに等しいかを判断し（ステップ２３０）、ステップ２３０の判断がｎｏなら（全ての筆者について評価していないとき）、Ｃ_ＫとＣ_Ｆｕｌｌとの比較によるＣ_Ｆｕｌｌの評価を行う（ステップ２４０）。
図８は、Ｃ_Ｆｕｌｌの評価手順（ステップ２４０）の一例を示したフローチャートである。まず、評価対象の語がＣ_Ｋ候補中の一位であるかを判断し（ステップ３１０）、一位の場合にはＣ_Ｆｕｌｌ中の単語と一致するかを判断する（ステップ３２０）。Ｃ_Ｆｕｌｌ中の単語と一致する場合、Ｃ_Ｆｕｌｌ中の単語のステータスを“ａｂｓｏｌｕｔｅ”（「絶対的」）にする（ステップ３３０）。ここで“ａｂｓｏｌｕｔｅ”は同義語候補として確定的であることを示し、後の評価によって“ｎｅｇａｔｉｖｅ”（「否定的」）になることはない。また、すでに“ｎｅｇａｔｉｖｅ”と評価されている場合であってもステータスは“ａｂｓｏｌｕｔｅ”に変更される。
ステップ３１０および３２０でｎｏと判断され、あるいはステップ３３０の後、ステップ３４０に進み、Ｃ_Ｋ中の候補がまだ存在するかを判断する（ステップ３４０）。存在する場合、Ｃ_Ｆｕｌｌ中の単語と一致するかを判断し（ステップ３５０）、一致する場合はＣ_Ｆｕｌｌ中の一致する単語のステータスを“ｎｅｇａｔｉｖｅ”にする（ステップ３６０）。ただし、ステータスを“ｎｅｇａｔｉｖｅ”にできるのは、既に“ａｂｓｏｉｕｔｅ”と評価されていない同義語候補だけである。一致しない場合はステップ３４０に戻る。ステップ３４０からステップ３６０のステップをＣ_Ｋ中の候補が無くなるまで行い、ステップ３４０でｎｏと判断されたとき、評価付きの同義語候補Ｃ_Ｆｕｌｌを出力する（ステップ３７０）。
前記表２のＣ_Ｋによって前記表１のＣ_Ｆｕｌｌを前記手順で評価した場合、表２中３位の「ｃｏｖｅｒ」が表１中４位の「ｃｏｖｅｒ」と一致するため“ｎｅｇａｔｉｖｅ”のステータスが付される。同様に、表１で１０位の「ｓｃｒｅｗ」、９位の「ｃｈｅｑｕｅ」に“ｎｅｇａｔｉｖｅ”のステータスが付される。このようにある筆者についての同義語候補を用いて全体データによる同義語候補集合の評価が行える。
その後、ポインタＫを１つ増加し（ステップ２５０）、ステップ２３０に戻る。そして、前記と同様に、他の筆者についても評価を行う。前記表３のＣ_Ｋによって表１のＣ_Ｆｕｌｌを前記手順で評価した場合、表１で７位の「ａｄａｐｔｅｒ」、９位の「ｃｈｅｑｕｅ」に“ｎｅｇａｔｉｖｅ”のステータスが付される。
全ての筆者について評価すれば、ステップ２３０でＹｅｓと判断され、評価付きの同義語候補Ｃ_Ｆｕｌｌを出力し（ステップ２６０）、処理を終了する。
表１のＣ_Ｆｕｌｌについて、前記処理を行った結果、４位の「ｃｏｖｅｒ」、７位の「ａｄａｐｔｅｒ」、９位の「ｃｈｅｑｕｅ」、１０位の「ｓｃｒｅｗ」に“ｎｅｇａｔｉｖｅ”のステータスが付される。これら結果はステータスを付して、あるいは“ｎｅｇａｔｉｖｅ”ステータスの語を削除した上で、ＧＵＩ等によってユーザに提示される。ユーザは提示された内容を確認して前記例の場合「ｂａｔｔｅｒｙ」という概念に対する同義語を定義できる。なお、この段階でも取りきれないノイズ「ｂｅｚｅｌ」が残っている。ユーザはこの段階で「ｂｅｚｅｌ」を削除して「ｂａｔｔｅｒｙ」概念の同義語辞書を生成できる。
ここで、生成された同義語辞書には、「ｂａｔｔ」、「ｂａｔｔｅｒｉｅ」、「ｂａｔ」、「ＢＴＹ」「ｂａｔｔｅｒｒｙ」のように略語やスペルミスが含まれる。本実施の形態のシステムおよび方法を用いれば、実際にテキストマイニングを適用する文書をコーパスとして用いて同義語候補を生成するので、これら略語やスペルミスをも同義語に含めることが可能になる。これにより、従来の同義語辞書等ではノイズとして棄てていた情報を有効に活用することが可能になり、本実施の形態による同義語辞書を用いたテキストマイニングでは、より正確かつ精密な文書の解析が可能になる。また、本実施の形態のシステムあるいは方法によれば、低コストで有効な同義語辞書が作成できるので、テキストマイニングの導入を容易にすることができる。また、テキストマイニングの大きな適用分野であるコールセンターのデータや各種報告書では書き手が分かっている大量のデータが揃っている。そのため、同義語辞書を作成するときの本実施の形態の手法は実現性が高く有効である。
また、テンプレート等を用いて文章が作成されている場合には、このテンプレート部分を削除して全体データ１２０あるいは人毎のデータ１１０を生成できる。これにより人毎の相違をより顕著にすることができる。
また、名詞の出現頻度を考慮に入れることができる。たとえばコールセンターにおける顧客とオペレーターのやり取りのようにトランザクションが発生するものがある。あるオペレーターがある製品についての（例えばハードディスクなど）トラブルを処理し、そのやり取りが長く続いてしまった場合には、他の文書中に比べ特定の単語（たとえばハードディスク）の出現が他の文書中に比べ多くなる。しかし、他のオペレーターも同じ問い合わせを受けているにもかかわらずその質問が簡単に終わると、その単語についての出現頻度は低くなってしまう。このような単語の出現頻度の偏りを無くすため、トランザクションごと（又は文書単位ごと）の単語頻度の正規化を行い、より精度のよいものを得ることができる。なお、正規化は、書き手の書き間違いや時間の変化による表記のばらつきを吸収するためにも適用できる。
また、前記のように得られた同義語において、どれが正解であるか（一つの統一表現にまとめるときにどの語が一般的であるか）は人手で判断しなくてはいけない。このため、同様の手法を、同じ分野で表記が一般的な語に統一されているもの（たとえばコンピュータ分野であればコンピューターマニュアル）に適応し、自動的に正解を得ることができる。コンピューターマニュアルのように比較的正確に作成された文書においては表現が統一されており、その表現は同義語の中で一般的に多く使われるものと考えられる。したがって、得られた同義語の動詞情報ベクタを用いてその後の集合に対する適切なラベルとなる単語を選ぶことができる。
また、同義語作成を行う際、前記のような一般的に使われる表現を入力する名詞として選んだほうが、一般的でない省略語等で入力したものよりも精度がよいことが判明している。たとえば同一の文書に対して本実施の形態の同義語候補生成を入力語として「ｃｕｓｔｏｍｅｒ」、「ｃｕｓ」、「ｃｕｓｔ」「ｅｎｄ＿ｕｓｅｒ」を選択した場合の結果を表４〜７に示す。なお、各表中で名詞の左に「×」を示した候補はノイズである。

表４は「ｃｕｓｔｏｍｅｒ」を入力単語として選択した場合の同義語候補生成結果であり、正答率は０．９である。表５は「ｃｕｓ」を入力単語として選択した場合の同義語候補生成結果であり、正答率は０．６である。表６は「ｃｕｓｔ」を入力単語として選択した場合の同義語候補生成結果であり、正答率は０．７である。表７は「ｅｎｄ＿ｕｓｅｒ」を入力単語として選択した場合の同義語候補生成結果であり、正答率は０．８である。上記の通り、一般的な用語である「ｃｕｓｔｏｍｅｒ」を入力単語（対象語）とした場合に最も正答率が高い。したがって、入力する名詞をマニュアル等から選定することによって、より効果の高い結果が得られる。
前記文献１に記載のテキストマイニングシステムでは、分野ごとに作成したカテゴリー辞書を用いて同義語の吸収を行っている。しかし、このカテゴリー辞書は分野を理解している人が人手で作成しなければならず、よりコストの低い辞書作成の手法が望まれている。一方、テキストマイニングの大きな適用分野であるコールセンターのデータや各種報告書では書き手が分かっている大量のデータが揃っていることから、本実施の形態の手段を用いて辞書の生成の支援を効率よく行うことができる。
また、本実施の形態の手法によれば、専門用語や特殊用途の単語に対しても同義語の候補を得ることができる。また、辞書に載っていないような新しい言葉に対してもスペルミスを含めた同義語や同じカテゴリーに属す単語が発見できる。
また、ある特定の文書の中から、その分野に限る同義語の候補を取り出すことにも有効である。たとえば特定の分野の中での専門用語の同義語の抽出を既存の同義語辞書を使わずに、その特定の分野の文章を用いて動的に作成することも可能である。コールセンターの記録をテキストマイニングする場合においても、コンピュータ分野の発展は著しく、それだけ専門用語の数の増え方も激しい。特に、新製品の情報などの質問を多く受け取ると考えられるので、既存の同義語辞書だけを用いていたのでは不十分であると考えられる。そこで、特定の分野に関する文書が十分に存在するときに本実施の形態の手法を用いると、辞書に無く、新しく登場した単語に対しても既存の単語との同義性を検証することができ、同義語の辞書に新しく付け加えることが可能になる。
以上、本発明者によってなされた発明を発明の実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更することが可能である。
たとえば、前記実施の形態では、人毎に相違する文書の特徴を利用して同義語候補生成の精度を向上したが、その他、ある概念を特定の同義語として表現していることが判明または推定できるような文書が存在する場合には、これら文書を部分データとして用いてもよいことは勿論である。
また、前記実施の形態では、筆者毎の同義語候補集合によって全体データの同義語候補を評価する際に、１位と２位以下とに分けて「ａｂｓｏｌｕｔｅ」か「ｎｅｇａｔｉｖｅ」かの評価を分けたが、たとえば２位以上を「ａｂｓｏｌｕｔｅ」、３位以下を「ｎｅｇａｔｉｖｅ」と評価するよう、そのしきい値順位を変更しても良い。
発明の効果
本願で開示される発明のうち、代表的なものによって得られる効果は、以下の通りである。すなわち、テキストマイニングで利用することができる同義語辞書を作成する際の、同義語候補の生成を効率的に行える支援システムあるいは同義語候補の生成方法を提供できる。また、この同義語候補の生成において、実際にテキストマイニングを適用する文書を用い、その文書で用いる省略語や独特の用語、さらにスペルミス、変換ミスをも含めた単語を取り扱えるようにすることができる。さらに、テキストマイニングのシステムとともに用いることによって、適用しようとする文書に最適な同義語辞書を動的に生成し、より精密な文書分析を実現することができる。
【図面の簡単な説明】
［図１］
コールセンターにおける複数のコールテイカー（筆者）が作成した会話記録文書内で、「顧客」の概念をどの様に表記しているかを人毎に解析して示したグラフである。
［図２］
「ＡＣアダプタ」の概念について、図１と同様な解析を行った結果を示したグラフである。
［図３］
「ＴｈｉｎｋＰａｄ」の概念について、図１と同様な解析を行った結果を示したグラフである。
［図４］
「ＣＤ−ＲＯＭ」の概念について、図１と同様な解析を行った結果を示したグラフである。
［図５］
「フロッピィディスク」の概念について、図１と同様な解析を行った結果を示したグラフである。
［図６］
本発明の一実施の形態であるデータ処理システムの一例をその機能について示したブロック図である。
［図７］
本発明の一実施の形態であるデータ処理方法の一例を示したフローチャートである。
［図８］
Ｃ_Ｆｕｌｌの評価手順（ステップ２４０）の一例を示したフローチャートである。
符号の説明
１１０…筆者毎のデータ、１２０…全体データ、１３０…同義語候補取得装置、１４０…同義語候補集合、１５０…同義語候補判定装置、１６０…判定結果の付加された同義語候補、Ｃ_Ｆｕｌｌ…全体データの同義語候補集合、Ｃ_Ｋ…筆者毎の同義語候補集合。

Claims

文書データで使用されている対象語に対する同義語候補を生成するデータ処理方法であって、
前記文書データの全体を基に、前記対象語に対する同義語候補の第１集合を生成するステップと、
前記文書データの少なくとも１の部分を基に、前記対象語に対する同義語候補の少なくとも１の第２集合を生成するステップと、
前記第１集合に含まれる同義語候補を、前記第２集合に含まれる同義語候補で絞り込むステップと、を有し、
前記絞り込みのステップでは、所定の基準に従って前記第２集合内の同義語候補が前記対象語の同義語にあたるか否かを判定し、いずれかの第２集合においてその部分内で同義語と判定された場合を除き、同義語と判定されなかった前記第２集合内の語に一致する語を前記第１集合内の同義語候補から除去することによって同義語候補を生成する、データ処理方法。
前記文書データの部分は、特定の筆者によって作成された文のみからなる文書データである請求項１記載のデータ処理方法。
前記所定の基準は類似度であり、前記特定の同義語と判定される語は、前記第２集合において、前記対象語との類似度が最も高い同義語候補である請求項２記載のデータ処理方法。
筆者が相違する文を含む文書データを基に、前記文書データで使用されている対象語に対する同義語候補を生成するデータ処理方法であって、
単一の筆者による文のみを含む前記文書データの少なくとも１の部分データをその筆者毎に生成または用意するステップと、
前記文書データに含まれる語を抽出し、当該抽出された語と前記対象語との類似度を計算し、類似度が高い順に上位所定数の当該抽出された語をその要素とする同義語候補の第１集合を生成するステップと、
前記部分データに含まれる語を抽出し、当該抽出された語と前記対象語との類似度を計算し、類似度が高い順に上位所定数の当該抽出された語をその要素とする同義語候補の第２集合を前記筆者毎に生成するステップと、
前記第１集合に含まれる語のうち、何れかの前記第２集合においてしきい値順位以上の高順位にランクされている語と一致する語を「絶対的」であると評価するステップと、
前記「絶対的」であると評価された語以外の前記第１集合に含まれる語のうち、何れかの前記第２集合において前記しきい値順位より下位にランクされている語と一致する語を「否定的」であると評価するステップと、
前記「否定的」であると評価された語以外の前記第１集合の語から前記対象語に対する同義語候補を生成するステップと、
を含むデータ処理方法。
前記しきい値順位は１位である請求項４記載のデータ処理方法。
前記類似度の計算は、
前記文書データまたは部分データから、全ての第１品詞と、前記第１品詞と係り受け関係を生ずる全ての第２品詞と、を抽出するステップと、
抽出された前記全ての第１品詞および前記全ての第２品詞をその行または列の指標とする、大きさが第１品詞数×第２品詞数の行列を生成するステップと、
前記行列の各要素に、その要素を指標する第１品詞および第２品詞間の係り受け関係の出現頻度を代入するステップと、
前記文書データを基に生成された行列から、前記対象語に一致する第１品詞を指標とする行または列の各要素を抽出して、対象語ベクタとするステップと、
前記文書データまたは部分データを基に生成された行列から、任意の行または列の各要素を抽出して、それが指標する第１品詞のベクタとするステップと、
前記第１品詞ベクタと前記対象語ベクタとを使用してその第１品詞の前記対象語との類似度を求めるステップと、
で実現される請求項４記載のデータ処理方法。
前記第１品詞は名詞であり、前記第２品詞は、動詞、形容詞、形容動詞その他前記名詞との係り受け関係を生ずる品詞である請求項６記載のデータ処理方法。
前記文書データまたは前記部分データに、文書テンプレートを用いて作成された箇所が含まれる場合には、前記文書テンプレートを利用した箇所を前記文書データまたは部分データから削除するステップを含む請求項４記載のデータ処理方法。
前記文書データまたは前記部分データに、同一または類似の話題についての一連の文または文書が含まれる場合、当該一連の文または文書毎に単語の出現頻度を正規化するステップを含む請求項４記載のデータ処理方法。
前記文書データまたは前記部分データに出現する名詞の出現頻度が所定の頻度より低い場合、前記類似度の計算の対象から前記名詞を除去するステップを有する請求項４記載のデータ処理方法。
文書データで使用されている対象語に対する同義語候補を生成するデータ処理システムであって、
前記文書データの全体を基に、前記対象語に対する同義語候補の第１集合を生成する手段と、
前記文書データの少なくとも１の部分を基に、前記対象語に対する同義語候補の少なくとも１の第２集合を生成する手段と、
前記第１集合に含まれる同義語候補を、前記第２集合に含まれる同義語候補で絞り込む手段と、を有し、
前記絞り込みの手段では、所定の基準に従って前記第２集合内の同義語候補が前記対象語の同義語にあたるか否かを判定し、いずれかの第２集合においてその部分内で同義語と判定された場合を除き、同義語と判定されなかった前記第２集合内の語に一致する語を前記第１集合内の同義語候補から除去することによって同義語候補を生成する、データ処理システム。
前記文書データの部分は、特定の筆者によって作成された文のみからなる文書データである請求項１１記載のデータ処理システム。
前記所定の基準は類似度であり、前記特定の同義語と判定される語は、前記第２集合において、前記対象語との類似度が最も高い同義語候補である請求項１２記載のデータ処理システム。
筆者が相違する文を含む文書データ、および、単一の筆者によって作成された文のみを含むその筆者毎の少なくとも１の部分データ、を入力する手段と、
前記文書データまたは部分データに含まれる語を抽出し、当該抽出された語と前記文書データに含まれる対象語との類似度を計算する手段と、
前記類似度が高い順に上位所定数の当該抽出された語をその要素とする集合を生成する同義語候補生成手段と、
前記文書データに基づいて前記同義語候補生成手段で生成された第１集合と、前記部分データに基づいて前記同義語生成手段で生成された前記筆者毎の第２集合とを記録する手段と、
前記第１集合に含まれる語のうち、何れかの前記第２補集合においてしきい値順位以上の高順位にランクされている語と一致する語を「絶対的」であると評価し、前記「絶対的」であると評価された語以外の前記第１集合に含まれる語のうち、何れかの前記第２集合において前記しきい値順位より下位にランクされている語と一致する語を「否定的」であると評価する手段と、
前記「否定的」であると評価された語以外の前記第１集合の語から前記対象語に対する同義語候補を生成する手段と、
を含むデータ処理システム。
前記しきい値順位は１位である請求項１４記載のデータ処理システム。
前記類似度の計算手段には、
前記文書データまたは部分データから、全ての第１品詞と、前記第１品詞と係り受け関係を生ずる全ての第２品詞と、を抽出する手段と、
抽出された前記全ての第１品詞および前記全ての第２品詞をその行または列の指標とする、大きさが第１品詞数×第２品詞数の行列を生成する手段と、
前記行列の各要素に、その要素を指標する第１品詞および第２品詞間の係り受け関係の出現頻度を代入する手段と、
前記文書データを基に生成された行列から、前記対象語に一致する第１品詞を指標とする行要素を抽出して、対象語ベクタとする手段と、
前記文書データまたは部分データを基に生成された行列から、任意の行要素を抽出して、それが指標する第１品詞のベクタとする手段と、
前記第１品詞ベクタと前記対象語ベクタとを使用してその第１品詞の前記対象語との類似度を求める手段と、
を含む請求項１４記載のデータ処理システム。
前記第１品詞は名詞であり、前記第２品詞は、動詞、形容詞、形容動詞その他前記名詞との係り受け関係を生ずる品詞である請求項１６記載のデータ処理システム。
前記文書データまたは前記部分データに、文書テンプレートを用いて作成された箇所が含まれる場合には、前記文書テンプレートを利用した箇所を前記文書データまたは部分データから削除する手段を含む請求項１４記載のデータ処理システム。
前記文書データまたは前記部分データに、同一または類似の話題についての一連の文または文書が含まれる場合、前記一連の文または文書毎に単語の出現頻度を正規化する手段を含む請求項１４記載のデータ処理システム。
前記文書データまたは前記部分データに出現する名詞の出現頻度が所定の頻度より低い場合、前記類似度の計算の対象から前記名詞を除去する手段を有する請求項１４記載のデータ処理システム。
文書データで使用されている対象語に対する同義語候補をコンピュータによって生成させるためのコンピュータ可読なプログラムであって、
前記文書データの全体を基に、前記対象語に対する同義語候補の第１集合を生成する機能と、
前記文書データの少なくとも１の部分を基に、前記対象語に対する同義語候補の少なくとも１の第２集合を生成する機能と、
前記第１集合に含まれる同義語候補を、前記第２集合に含まれる同義語候補で絞り込む機能と、を実現し、
前記絞り込みの機能では、所定の基準に従って前記第２集合内の同義語候補が前記対象語の同義語にあたるか否かを判定し、いずれかの第２集合においてその部分内で同義語と判定された場合を除き、同義語と判定されなかった前記第２集合内の語に一致する語を前記第１集合内の同義語候補から除去することによって同義語候補を生成する機能を実現するプログラム。
筆者が相違する文を含む文書データを基に、前記文書データで使用されている対象語に対する同義語候補をコンピュータに生成させるためのコンピュータ可読なプログラムであって、
単一の筆者による文のみを含む前記文書データの少なくとも１の部分データをその筆者毎に生成または用意する機能と、
前記文書データに含まれる語を抽出し、当該抽出された語と前記対象語との類似度を計算し、類似度が高い順に上位所定数の当該抽出された語をその要素とする同義語候補の第１集合を生成する機能と、
前記部分データに含まれる語を抽出し、当該抽出された語と前記対象語との類似度を計算し、類似度が高い順に上位所定数の当該抽出された語をその要素とする同義語候補の第２集合を前記筆者毎に生成する機能と、
前記第１集合に含まれる語のうち、何れかの前記第２集合においてしきい値順位以上の高順位にランクされている語と一致する語を「絶対的」であると評価する機能と、
前記「絶対的」であると評価された語以外の前記第１集合に含まれる語のうち、何れかの前記第２集合において前記しきい値順位より下位にランクされている語と一致する語を「否定的」であると評価する機能と、
前記「否定的」であると評価された語以外の前記第１集合の語から前記対象語に対する同義語候補を生成する機能と、
を実現するためのプログラム。