WO2010023939A1

WO2010023939A1 - テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体

Info

Publication number: WO2010023939A1
Application number: PCT/JP2009/004211
Authority: WO
Inventors: 石川開; 田村晃裕; 安藤真一
Original assignee: 日本電気株式会社
Priority date: 2008-08-29
Filing date: 2009-08-28
Publication date: 2010-03-04
Also published as: JPWO2010023939A1; US8380741B2; US20110161367A1; JP5472641B2

Abstract

　コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータに対するテキストマイニングにおいて、コンピュータ処理の誤りがマイニング結果に与える影響を抑制し得る、テキストマイニング装置、テキストマイニング方法、及びプログラムを提供する。コンピュータ処理によって生成されたテキストデータを含む、複数のテキストデータそれぞれについて、各テキストデータの他のテキストデータに対する固有部分を抽出する固有部分抽出部６と、各テキストデータに設定された信頼度を用いて、各テキストデータの固有部分に、各固有部分の信頼性を示す固有信頼度を設定する固有信頼度設定部７と、固有信頼度を用いて、各テキストデータの固有部分に対して、テキストマイニングを実行するマイニング処理部８とを備えた、テキストマイニング装置１を用いる。

Description

テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体

　本発明は、コンピュータ処理によって得られたテキストデータをマイニング対象とする、テキストマイニング装置、及びテキストマイニング方法に関する。

　近年、大量のテキストデータの中から有益な情報を抽出する技術として、テキストマイニングが注目されている。テキストマイニングは、定型化されていない文章の集まりを、自然言語解析の手法を使って単語やフレーズに分割し、特徴語を抽出する。そして、特徴語の出現頻度や相関関係が分析され、分析者に有益な情報が提供される。テキストマイニングによれば、これまで人手で分析することが不可能であった、膨大な量のテキストデータの分析が可能となる。

　このようなテキストマイニングの適用分野の一例として、自由記述形式のアンケートが挙げられる。この場合、テキストマイニングは、アンケートの回答結果をタイピング又は文字認識することによって得られたテキストデータに対して実行される（例えば、特許文献１、特許文献２及び非特許文献１参照。）。分析者は、テキストマイニングの結果を用いて、様々な分析や、仮説の検証を行うことができる。

　また、テキストマイニングの適用分野の他の例としては、企業のコールセンターが挙げられる。コールセンターは、顧客とオペレータとの通話を録音した音声や、オペレータが応対の際にキー入力等によって作成したメモを、大量に蓄積している。これらの情報は、近年、企業にとって、消費者のニーズや、自社の製品及びサービスの改善点などを知るための重要な知識源となっている。

　コールセンターへの適用の場合は、テキストマイニングは、通話の音声認識から得られたテキストデータ（音声認識テキストデータ）に対して、又はオペレータが作成した通話メモから得られるテキストデータ（通話メモテキストデータ）に対して実行される。いずれのテキストデータに対してテキストマイニングが実行されるかは、分析者が求める分析の観点によって決定される。

　例えば、音声認識テキストデータは、オペレータと消費者との間の通話を全て網羅している。よって、製品やサービスに対する消費者の要望の抽出が目的である場合は、消費者の発話を全て網羅する必要があるため、音声認識テキストデータに対してテキストマイニングが実行される。

　一方、通話メモテキストデータは、網羅する範囲は狭いが、オペレータが通話の中で重要であると判断した事項、更には、オペレータが通話の内容をヒントにして認識した事項や判断した事項を含んでいる。よって、他のオペレータも共有すべきベテランオペレータの判断ノウハウや、新人オペレータの判断ミスなどを抽出する場合等、オペレータの付加情報に着目した分析が求められる場合は、通話メモテキストデータに対してテキストマイニングが実行される。

　但し、音声認識テキストデータは、殆どの場合、認識誤りを含んでいる。このため、音声認識テキストデータに対するテキストマイニングでは、認識誤りの影響により、特徴語の抽出が正確になされない場合がある。このような問題を解決するため、音声認識によって得られた単語候補に信頼度が付与された音声認識テキストデータ（例えば、非特許文献２参照。）を用いて、テキストマイニングを行うことが提案されている（例えば、特許文献３参照。）。特許文献３に記載のテキストマイニングにおいては、抽出された特徴語を計数する際に、信頼度に基づいた補正が行われ、認識誤りによる影響が低減される。

　ところで、上記コールセンターの例で述べた、音声認識テキストデータ及び通話メモテキストデータは、同一の事象（通話）から別々のチャネルを介して得られる情報である。両者は、チャネルが異なる情報ではあるが、両者の情報源は同一である。よって、両者の特性を利用し、両者を相補的に用いるテキストマイニングを実行すれば、一方のテキストデータに対してテキストマイニングを行った場合や、単に両方それぞれに対してテキストマイニングを行った場合よりも、複雑な分析が可能になると考えられる。

　具体的には、先ず、音声認識テキストデータは、通話メモテキストデータと共通の部分と、通話メモテキストデータには記述されていない通話音声に固有の部分とに分離される。同様に、通話メモテキストデータも、音声認識テキストデータと共通の部分と、音声認識テキストデータには記述されていない通話メモに固有の部分とに分離される。

　次に、音声認識テキストデータの通話音声に固有の部分について、テキストマイニングが実行される。このテキストマイニングは、通話音声には出現するが、通話メモの記述から漏れている情報に対して、重点的な分析を実行する。そして、この分析により、通話メモとして記録すべきであったが、漏れてしまった情報が抽出される。抽出された情報は、通話メモの記述ガイドラインの改良に利用できる。

　続いて、通話メモテキストデータの通話メモに固有の部分について、テキストマイニングが実行される。このテキストマイニングは、通話メモには出現するが、通話音声の音声認識テキストデータには現れない情報に対して、重点的な分析を実行する。この分析によれば、上述した通話メモテキストデータのみに対してテキストマイニングを実行する場合よりも、確実に、経験を積んだオペレータの判断ノウハウを抽出できる。抽出された判断ノウハウは、新人オペレータの教育材料に活用できる。

　このような、同一の事象から別々のチャンネルを介して得られる複数のテキストデータに対して行うテキストマイニング（以下「クロスチャネルテキストマイニング」という。）は、他の例にも利用できる。

　例えば、クロスチャネルテキストマイニングは、報道された内容から企業イメージを分析する場合、会議などのコミュニケーションの場における会話内容を分析する場合に利用できる。前者の場合は、アナウンサー等の発話からの音声認識テキストデータと、発話原稿や新聞記事等のテキストデータとに対してテキストマイニングが実行される。また、後者の場合は、参加者の会話を音声認識することによって得られた音声認識テキストデータと、その場において参加者が参照した文書、参加者が作成したメモや議事録等のテキストデータとに対してテキストマイニングが実行される。

　また、クロスチャネルテキストマイニングにおいて、マイニング対象は、音声認識テキストデータや、キー入力によって作成されたテキストデータである必要は無い。例えば、上述したアンケートや議事録等を文字認識することによって得られた文字認識テキストデータ（非特許文献３参照。）等も、マイニング対象となる。

　また、クロスチャネルテキストマイニングを実行する場合は、一方のテキストデータと他方のテキストデータとの間で、それぞれの共通部分と固有の部分とを明確に分けることが重要である。明確でない場合は、分析精度が大きく低下してしまうからである。

特開２００１－１０１１９４号公報特開２００４－１６４０７９号公報特開２００８－０３９９８３号公報

H. Li and K. Yamanishi, "Mining from open answers inquestionnaire data", In Proceedings of the seventh ACM SIGKDDinternational conference on Knowledge discovery and data mining, pp.443-449,2001. Frank Wessel 他, "Confidence Measures for Large Vocabulary Continuous SpeechRecognition", IEEE Trans. Speech and Audio Processing, vol. 9, No. 3,March 2001, pp.288-298. John F. Pitrelli, Michael P. Perrone, "Confidence-scoring post-processing for off-linehandwritten-character recognition verification", In Proceedings of the seventh InternationalConference on Document Analysis and Recognition (ICDAR), vol. 1, August 2003,pp.278-282.

　しかしながら、音声認識や文字認識といったコンピュータ処理によって生成されたテキストデータには、殆どの場合、誤りが含まれている。例えば、上述したように、音声認識テキストデータには、認識誤りが含まれている。これらの誤りは、特に、クロスチャネルテキストマイニングにおいては、テキストデータ間の共通部分と固有部分との判別に影響を与えるため、マイニング結果の信頼性を大きく低下させる可能性がある。

　また、上述したように、上記特許文献３は、音声認識の認識誤りがテキストマイニングに影響を与える場合に、それを軽減する技術を開示しているが、この技術はクロスチャネルテキストマイニングへの適用を考慮した技術ではない。特許文献３に開示の技術をクロスチャネルテキストマイニングに適用したとしても、認識誤りがテキストデータ間の共通部分と固有部分との判別に与える影響は除去されないため、マイニング結果の信頼性の向上は困難である。

　本発明の目的は、上記問題を解消し、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータに対するテキストマイニングにおいて、コンピュータ処理の誤りがマイニング結果に与える影響を抑制し得る、テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。

　上記目的を達成するために本発明におけるテキストマイニング装置は、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するテキストマイニング装置であって、
　前記複数のテキストデータそれぞれに信頼度が設定されており、
　前記複数のテキストデータそれぞれについて、各テキストデータの他のテキストデータに対する固有部分を抽出する、固有部分抽出部と、
　前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに、各固有部分の信頼性を示す固有信頼度を設定する固有信頼度設定部と、
　前記固有信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに対して、テキストマイニングを実行するマイニング処理部とを備えている、ことを特徴とする。

　また、上記目的を達成するため本発明におけるテキストマイニング方法は、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としたテキストマイニングを実行するテキストマイニング方法であって、
（ａ）前記複数のテキストデータそれぞれに信頼度を設定するステップと、
（ｂ）前記複数のテキストデータそれぞれについて、各テキストデータの他のテキストデータに対する固有部分を抽出するステップと、
（ｃ）前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに、各固有部分の信頼性を示す固有信頼度を設定するステップと、
（ｄ）前記固有信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに対して、テキストマイニングを実行するステップとを有する、ことを特徴とする。

　また、上記目的を達成するため、本発明におけるコンピュータ読み取り可能な記録媒体、コンピュータ装置を用いて、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータ装置に、
（ａ）前記複数のテキストデータそれぞれに信頼度を設定するステップと、
（ｂ）前記複数のテキストデータそれぞれについて、各テキストデータの他のテキストデータに対する固有部分を抽出するステップと、
（ｃ）前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに、各固有部分の信頼性を示す固有信頼度を設定するステップと、
（ｄ）前記固有信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに対して、テキストマイニングを実行するステップとを実行させる、命令を含むプログラムを記録していることを特徴とする。

　以上の特徴により、本発明によれば、コンピュータ処理で生成されたテキストデータを含む複数のテキストデータに対するテキストマイニングにおいて、コンピュータ処理の誤りがマイニング結果に与える影響を抑制できる。

図１は、本発明の実施の形態１におけるテキストマイニング装置の概略構成を示すブロック図である。図２は、本発明の実施の形態１においてテキストマイニングの対象となるデータの一例を示す図である。図３は、信頼度が設定された音声認識テキストデータの一例を示す図である。図４は、信頼度が設定された音声認識テキストデータの一例であって言語が英語である場合を示す図である。図５は、本発明の実施の形態１におけるテキストマイニング装置で実行される固有部分の抽出処理について説明する図である。図６は、固有信頼度の設定状況の一例を示す図である。図７は、テキストマイニング処理の結果の一例を示す図である。図８は、本発明の実施の形態１におけるテキストマイニング方法で行われる処理の流れを示すフロー図である。図９は、本発明の実施の形態２におけるテキストマイニング装置の概略構成を示すブロック図である。図１０は、本発明の実施の形態２におけるテキストマイニング装置が抽出した固有部分の一例を示す図である。図１１は、本発明の実施の形態２におけるテキストマイニング方法で行われる処理の流れを示すフロー図である。図１２は、本発明の実施の形態３におけるテキストマイニング装置の概略構成を示すブロック図である。図１３は、本発明の実施の形態３におけるテキストマイニング方法で行われる処理の流れを示すフロー図である。

　（実施の形態１）
　以下、本発明の実施の形態１におけるテキストマイニング装置、テキストマイニング方法及びプログラムについて、図１～図８を参照しながら説明する。最初に、本発明の実施の形態２におけるテキストマイニング装置の構成について図１～図７を用いて説明する。

　図１は、本発明の実施の形態１におけるテキストマイニング装置の概略構成を示すブロック図である。図２は、本発明の実施の形態１においてテキストマイニングの対象となるデータの一例を示す図である。図３は、信頼度が設定された音声認識テキストデータの一例を示す図である。図４は、信頼度が設定された音声認識テキストデータの一例であって言語が英語である場合を示す図である。図５は、本発明の実施の形態１におけるテキストマイニング装置で実行される固有部分の抽出処理について説明する図である。図６は、固有信頼度の設定状況の一例を示す図である。図７は、テキストマイニング処理の結果の一例を示す図である。

　図１に示すテキストマイニング装置１は、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行する。図１に示すように、テキストマイニング装置１は、固有部分抽出部６と、固有信頼度設定部７と、マイニング処理部８とを備えている。

　また、複数のテキストデータそれぞれには、信頼度が設定されている。ここでいう「信頼度」は、テキストデータを構成する単語が適切であることの度合いを示している。よって、例えば、コンピュータ処理によって生成されたテキストデータにおいては、「信頼度」は、テキストデータを構成する各単語がコンピュータ処理の処理結果として正しいかどうかの指標となる。

　固有部分抽出部６は、複数のテキストデータそれぞれについて、各テキストデータの他のテキストデータに対する固有部分を抽出する。ここで、各テキストデータの他のテキストデータに対する固有部分とは、各テキストデータそれぞれを構成する単語又はフレーズであって、他のテキストデータに全く含まれていなもの、又は含まれていても僅かであるものをいう。

　また、固有信頼度設定部７は、複数のテキストデータそれぞれに設定された信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分それぞれに、各固有部分の信頼性を示す固有信頼度を設定する。マイニング処理部８は、固有信頼度を用いて、各テキストデータの他のテキストデータに対する固有部分それぞれに対して、テキストマイニングを実行する。

　このように、テキストマイニング装置１は、各テキストデータの固有部分に、固有部分の信頼性を示す固有信頼度を設定する。また、固有信頼度は、各テキストデータに設定された信頼度から求められており、固有部分が、コンピュータ処理の処理結果として正しいかどうかの指標となる。そして、テキストマイニング処理においては、この固有信頼度が参照される。

　このため、テキストマイニング装置１によれば、マイニング結果から、簡単に、コンピュータ処理における誤りの影響が除去される。この結果、コンピュータ処理における誤りの影響が抑制された、信頼性の高いマイニング結果が得られることとなる。

　なお、本発明において「コンピュータ処理」とは、一定のアルゴリズムに従ってコンピュータによって実行される解析処理をいう。また、「コンピュータ処理によって得られたテキストデータ」とは、コンピュータ処理によって自動的に生成されるテキストデータをいう。コンピュータ処理の具体例としては、音声認識処理、文字認識処理、機械翻訳処理といった処理が挙げられる。

　続いて、テキストマイニング装置１の構成について更に具体的に説明する。また、以下においては、テキストマイニング装置１をコールセンターに適用する例について説明する。本実施の形態１では、コールセンターで録音された通話音声データＤ１（図２参照）を音声認識（コンピュータ処理）して得られたテキストデータと、通話メモテキストデータＤ２（図２参照）とが、マイニング対象となる。

　図１に示すように、テキストマイニング装置１には、図２に示す、通話音声データＤ１、通話メモテキストデータＤ２、及び付帯情報Ｄ３といった三種類のデータが入力される。通話音声データＤ１は、コールセンターでのオペレータと顧客とのやりとりを記録した音声データである。図２において「Ａ」はオペレータを示し、「Ｂ」は顧客を示している。

　通話メモテキストデータＤ２は、オペレータが通話の際にメモとして作成したテキストデータであり、コンピュータ処理によって得られたテキストデータではない。付帯情報Ｄ３は、通話音声データＤ１及び通話メモテキストデータＤ２に付随するデータであり、図２には一部のみが示されている。付帯情報Ｄ３は、主に、後述する特徴度の算出において利用される。

　また、通話音声データＤ１は、オペレータと顧客との通話の開始から終了までを１単位（１レコード）とし、通話メモテキストデータＤ２及び付帯情報Ｄ３は、１レコード毎に作成される。図２は、１レコードの通話音声データＤ１と、対応する通話メモテキストデータＤ２及び付帯情報Ｄ３とが示されている。実際には、レコード番号ｌのレコードにおける通話音声データＤ１（ｌ）と、これに対応する通話メモテキストデータＤ２（ｌ）及び付帯情報Ｄ３（ｌ）とを１組として、複数組がテキストマイニング装置１に入力される。なお、以降において、「ｌ」は、１からＬまでの自然数である（ｌ＝１、２、・・・、Ｌ）。

　また、図１に示すように、テキストマイニング装置１は、固有部分抽出部６、固有信頼度設定部７、及びマイニング処理部８に加えて、データ入力部２と、音声認識部３と、言語処理部５とを備えている。

　更に、テキストマイニング装置１には、入力装置１３及び出力装置１４が接続されている。入力装置１３の具体例としては、キーボードや、マウス等が挙げられる。出力装置１４の具体例としては、液晶ディスプレイ等の表示装置や、プリンタ等が挙げられる。また、入力装置１３及び出力装置１４は、テキストマイニング装置１にネットワークを介して接続された別のコンピュータ装置に、取り付けられていても良い。

　先ず、各レコードｌにおける通話音声データＤ１（ｌ）、対応する通話メモテキストデータＤ２（ｌ）、及び同じく対応する付帯情報Ｄ３（ｌ）といった入力データは、データ入力部２に入力される。このとき、これらのデータは、外部のコンピュータ装置からネットワークを介して、直接、データ入力部２に入力されても良いし、記録媒体に格納された状態で提供されても良い。前者の場合は、データ入力部２としては、外部とテキストマイニング装置１とを接続するためのインターフェイスが用いられる。また、後者の場合は、データ入力部２としては、読取装置が用いられる。

　これらのデータが入力されると、データ入力部２は、通話音声データＤ１（ｌ）を音声認識部３に出力し、通話メモテキストデータＤ２（ｌ）を言語処理部５に出力する。また、データ入力部２は、付帯情報Ｄ３（ｌ）をマイニング処理部８に出力する。

　音声認識部３は、通話音声データＤ１（ｌ）に対して音声認識を実行し、音声認識テキストデータを生成する。また、音声認識部３は、信頼度設定部４を備えている。信頼度設定部４は、音声認識テキストデータに対して、それを構成する単語毎に、信頼度を設定する。信頼度が設定された音声認識テキストデータは、固有部分抽出部６に出力される。

　ここで、図２に示した通話音声データＤ１に含まれる会話を用いて、音声認識部３における処理を図３及び図４に基づいて説明する。会話としては、通話音声データＤ１に含まれる多数の会話のうち、「保存機能は付いていますか」と、「白は無いですか。」とが用いられることとする。

　先ず、音声認識部３は、各レコードｌにおける通話音声データＤ１（ｌ）毎に、音声認識を行う。そして、音声認識部３は、図３に示すように、時間フレームｍ毎に候補となる単語ｗ_ｉを抽出する。図３において、横軸に付された番号はフレーム番号であり、一つのレコードｌ内においてフレーム番号は連続している。

　また、同一の時間フレームｍに複数の候補が存在する場合は、音声認識部３は、複数個の単語を抽出する。図３の例では、フレーム番号２０において、「保存」と「保温」の二つの候補が抽出されている。また、フレーム番号３３において、「色」と「白」の二つが抽出されている。

　また、会話の言語が英語である場合も、音声認識部３は、時間フレームｍ毎に候補となる単語ｗ_ｉを抽出する。例えば、会話が、図３の例の英訳に相当する「Does it have heat retaining function ?」及び「Do you have white color ?」である場合は、音声認識部３は、図４に示すように、単語ｗ_ｉを抽出する。

　但し、図４の例では、フレーム番号２３－２４において、「heat retaining」と「eat remaining」の二つの候補が抽出され、フレーム番号３７において、「color」と「collar」の二つの候補が抽出されている。また、図４においても、横軸に付された番号はフレーム番号であり、一つのレコードｌ内においてフレーム番号は連続している。

　なお、音声認識部３は全ての単語を候補として抽出する必要はない。本実施の形態では、音声認識部３は、言語の種類に拘わらず、助詞や前置詞等の単独では意味を成さない単語については候補として抽出せず、名詞、動詞、副詞といった自立語の品詞のみを候補として抽出する。

　信頼度設定部４は、単語ｗ_ｉ毎に、信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）を設定する。図３及び図４においては、各単語の下側に併記された０以上１以下の数字が信頼度を表している。また、本実施の形態では、信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）は、特に限定されるものではなく、音声認識テキストデータを構成する単語が認識結果として正しいかどうかの指標となるものであれば良い。

　例えば、信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）としては、上述した非特許文献２に開示された「Confidence Measure」を用いることができる。具体的には、前提として、入力音声又はその音声に対して観測された音響特徴量が与えられているとする。この場合、単語ｗ_ｉの信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）は、単語ｗ_ｉの事後確率として、入力音声又は音響特徴量に対する認識結果として得られるワードグラフを元にForward-Backwardアルゴリズムを用いて計算可能である。

　更に、信頼度設定部４は、各単語ｗ_ｉについて、上記で求めた信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）を用いて、各レコードｌに対する信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ）も算出する。具体的には、信頼度設定部４は、下記の式（数１）を用いて、全ての単語ｗ_ｉについて計算を行う。

　また、本実施の形態１は、予め、テキストマイニング装置１の外部の音声認識装置によって音声認識が行われ、単語毎に信頼度が設定された音声認識テキストデータが、テキストマイニング装置１への入力前に作成されている態様であっても良い。この場合は、テキストマイニング装置１は音声認識部３を備える必要がなく、音声認識テキストデータは、データ入力部２を介して、固有部分抽出部６に入力される。但し、テキストマイニング装置１が、音声認識部３を備える場合は、音声認識に用いられる言語モデルや音響モデルの調整が容易となり、音声認識の認識精度の向上が図られる。

　言語処理部５は、通話メモテキストデータに対して、形態素解析、係り受け解析、同義語処理、不用語処理等の言語処理を実行する。また、言語処理部５は、通話メモテキストデータを、音声認識テキストデータの単語ｗ_ｉに対応するように、単語ｗ_ｊ毎に区切り、単語列を生成する。単語列は、固有部分抽出部６に出力される。

　固有部分抽出部６は、本実施の形態１では、音声認識テキストデータの通話メモテキストデータに対する固有部分と、通話メモテキストデータの音声認識テキストデータに対する固有部分とを抽出する。なお、以降においては、これらの固有部分は、それぞれ「音声認識テキストデータの固有部分」、「通話メモテキストデータの固有部分」とする。

　また、本実施の形態１においては、固有部分抽出部６は、先ず、各テキストデータについて、それを構成する単語群の中から、他のテキストデータを構成している単語と一致しない単語を抽出する。次に、固有部分抽出部６は、抽出された単語を、各テキストデータの他のテキストデータに対する固有部分とする。

　具体的には、図５に示すように、例えば、レコード１では、通話音声データＤ（１）から得られた音声認識テキストデータに「白」が含まれているが、対応する通話メモテキストデータＤ（１）には「白」が含まれていない。この場合、固有部分抽出部６は、「白」を音声認識テキストデータの固有部分として抽出する。また、レコード１では、通話音声データＤ（１）から得られた音声認識テキストデータに「色」は含まれていないが、対応する通話メモテキストデータＤ（１）に「色」が含まれている。この場合、固有部分抽出部６は、「色」を通話メモテキストデータＤ（１）の固有部分として抽出する。

　一方、図５に示すように、レコード２では、通話音声データＤ（２）から得られた音声認識テキストデータと、対応する通話メモテキストデータＤ（２）との両方に、白が含まれている。この場合、固有部分抽出部６は、「白」をいずれの固有部分としても抽出しない。

　また、図５に示すように、レコード３では、通話音声データＤ（３）から得られた音声認識テキストデータは、同一のフレーム番号について「色」と「白」との二つの候補を有している（図３参照）。対応する通話メモテキストデータＤ（３）には、「白」のみが含まれている。この場合は、固有部分抽出部６は、「色」を音声認識テキストデータの固有部分として抽出するが、「白」についてはいずれの固有部分としても抽出しない。

　このようにして抽出された、音声認識テキストデータの固有部分と、通話メモテキストデータの固有部分とは、固有信頼度設定部７に入力される。具体的には、音声認識テキストデータの固有部分として抽出された単語ｗ_ｉ（以下「固有部分要素ｗ_ｉ」）と、通話メモテキストデータの固有部分として抽出された単語ｗ_ｊ（以下「固有部分要素ｗ_ｊ」）とが、固有信頼度設定部７に入力される。

　固有信頼度設定部７は、本実施の形態１では、先ず、言語処理部５が出力した単語列を用いて、通話メモテキストデータを構成している各単語ｗ_ｊに対して信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を設定する。この場合、通話メモテキストデータは、オペレータによるキー入力によって生成されているため、通話メモテキストデータ中に含まれている単語であれば、その信頼度は「１．０」となる。なお、通話メモテキストデータ中に含まれていない単語の信頼度は、「０．０」となる。

　続いて、固有信頼度設定部７は、固有部分要素ｗ_ｉに対する固有信頼度Ｃ_Ｃａｌｌ（ｗ_ｉ，ｌ）と、固有部分要素ｗ_ｊに対する固有信頼度Ｃ_Ｍｅｍｏ（ｗ_ｊ，ｌ）とを設定する。具体的には、固有信頼度設定部７は、信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ）、信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）、信頼度Ｒ_Ｃａｌｌ（ｗ_ｊ，ｌ）、及び信頼度Ｒ_Ｍｅｍｏ（ｗ_ｉ，ｌ）を、下記の式（数２）及び（数３）に当てはめる。

　なお、ここで、信頼度Ｒ_Ｃａｌｌ（ｗ_ｊ，ｌ）は、通話テキストデータに含まれる単語ｗ_ｊと同一の音声認識テキストデータ中の単語に設定されている信頼度を示している。よって、単語ｗ_ｊが音声認識テキストデータ中に含まれない場合は、信頼度Ｒ_Ｃａｌｌ（ｗ_ｊ，ｌ）＝０として計算する。また、信頼度Ｒ_Ｍｅｍｏ（ｗ_ｉ，ｌ）は、音声認識テキストデータに含まれている単語ｗ_ｉと同一の通話メモテキストデータ中の単語に設定されている信頼度を示している。同様に、単語ｗ_ｉが通話メモテキストデータ中に含まれない場合は、信頼度Ｒ_Ｍｅｍｏ（ｗ_ｉ，ｌ）＝０として計算する。

　この結果、例えば、図６に示すように、固有信頼度Ｃ_Ｃａｌｌ（ｗ_ｉ，ｌ）及び固有信頼度Ｃ_Ｍｅｍｏ（ｗ_ｊ，ｌ）が算出される。算出された、固有信頼度Ｃ_Ｃａｌｌ（ｗ_ｉ，ｌ）及び固有信頼度Ｃ_Ｍｅｍｏ（ｗ_ｊ，ｌ）は、固有部分要素ｗ_ｉ及び固有部分要素ｗ_ｊと共に、マイニング処理部８に入力される。

　このように、本実施の形態１においては、固有信頼度設定部７は、一のテキストデータの固有部分に固有信頼度を設定する際、他のテキストデータに設定されている信頼度を１から減算して得られる値を、一のテキストデータに設定されている信頼度に乗算する。このようにして得られた固有信頼度は、設定が容易で、且つ、確実に固有部分の信頼性を提示する。

　マイニング処理部８は、本実施の形態１では、固有信頼度Ｃ_ｃａｌｌ（ｗ_ｉ，ｌ）及び固有信頼度Ｃ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を用いて、いわゆるクロスチャネルテキストマイニングを実行する。つまり、マイニング処理部８によって、固有部分要素ｗ_ｉに対するマイニング処理と、固有部分要素ｗ_ｊに対するマイニング処理とが行われる。

　具体的には、本実施の形態１においては、マイニング処理部８は、マイニング処理として、特徴語を抽出し、その特徴度を算出する。「特徴語」とは、マイニング処理によって抽出される単語やフレーズをいう。例えば、固有部分要素ｗ_ｉ又は固有部分要素ｗ_ｊと判断された単語の中から、特徴語が抽出される。「特徴度」は、抽出された特徴語が、任意のカテゴリー（例えば、付帯情報Ｄ３において特定の値を持つレコード集合が挙げられる。）において、どの程度特徴的であるかの度合いを示している。

　上記の処理を行うため、マイニング処理部８は、マイニング処理管理部８と、特徴語計数部１０と、特徴度算出部１１と、マイニング結果出力部１２とを備えている。特徴語計数部１０は、固有部分要素ｗ_ｉ及び固有部分要素ｗ_ｊから特徴語を抽出し、抽出した特徴語が、対応するテキストデータにおいて、或いは、全てのテキストデータにおいて何回出現したかカウントする。これにより、出現頻度及び総出現頻度が求められる（図７参照）。

　具体的には、特徴語計数部１０は、固有信頼度Ｃ_ｃａｌｌ（ｗ_ｉ，ｌ）及び固有信頼度Ｃ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を用いて、特徴語を抽出する。例えば、固有信頼度に閾値を設定し、固有信頼度が閾値以上の固有部分要素のみを特徴語として抽出する。図７の例では、閾値は０．４に設定されており、固有信頼度が０．３に設定された固有部分要素「黒」は、特徴語から除外されている。

　また、本実施の形態１において、閾値は、適宜設定されれば良いが、予め実験を行い、その実験結果に基づいて設定されるのが好ましい。具体的には、固有部分が予め設定された音声データと、同じく固有部分が予め設定されたテキストデータとを実験データとして用い、上述した手順で固有信頼度Ｃ_ｃａｌｌ（ｗ_ｉ，ｌ）及び固有信頼度Ｃ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を算出する。そして、各データで予め設定されている固有部分が、抽出されるように、閾値を設定する。この場合、閾値の設定は、固有信頼度毎に行うことができる。また、設定された閾値の信頼性を高めるため、できるだけ多くの実験データを用意しておくのが好ましい。

　また、特徴語計数部１０は、複数のレコードに対して、特徴語の計数を行うことができる。本実施の形態では、特徴語の計数の対象となるレコードの数は特に限定されるものではない。なお、クロスチャネルマイニングが行われない場合は、特徴語計数部１０は、固有部分要素ではなく、音声認識テキストデータ又は通話メモテキストデータに含まれる全ての単語（意味をなさない単語を除く）に対して、出現頻度をカウントする。

　特徴度算出部１１は、特徴語計数部１０で得られた出現頻度や総出現頻度を用いて特徴度（図７参照）を算出する。特徴度の算出方法は、特に限定されるものではなく、マイニングの目的等に応じて、種々の統計解析技術を利用して行うことができる。

　具体的には、特徴語算出部１１は、特定のカテゴリーにおける、各単語の頻度、対数尤度比、χ２値、イエーツ補正χ２値、自己相互情報量、ＳＥ、ＥＳＣなどの統計的尺度を、単語の特徴量として計算し、得られた値を特徴度とすることができる。なお、特定のカテゴリーとしては、上述したように、例えば、付帯情報Ｄ３において分析者が指定する特定の値を持つレコード集合等が挙げられる。また、特徴度の算出には、重回帰分析、主成分分析、因子分析、判別分析、クラスター解析などの統計解析技術を用いることもできる。

　また、マイニング処理管理部８は、入力装置１３を介して、ユーザが入力したマイニング条件を受け付け、受け付けた条件に応じて、特徴語計数部１０及び特徴度算出部１１を動作させている。例えば、ユーザが、音声認識テキストデータの固有部分に対してのみテキストマイニングを行う旨を指示した場合は、マイニング処理管理部８は、特徴語計数部１０に、音声認識テキストデータの固有部分要素ｗ_ｉから特徴語を抽出させ、特徴語の計数を実施させる。また、マイニング処理管理部８は、特徴度算出部１１に対しては、特徴度の算出を行わせる。

　マイニング結果出力部１２は、図７に示すようなマイニング結果を出力装置１４に出力する。図７においては、マイニング結果は、特徴語、出現頻度、総出現頻度、固有信頼度及び特徴度を含んでいる。また、本実施の形態では、クロスチャネルテキストマイニングが実行されるため、音声認識テキストデータと通話メモテキストデータとの両方についてのマイニング結果が出力される。マイニング結果は、表示装置が出力装置１４である場合は、表示画面に表示される。

　次に、本発明の実施の形態１におけるテキストマイニング方法について、図８を用いて説明する。図８は、本発明の実施の形態１におけるテキストマイニング方法で行われる処理の流れを示すフロー図である。

　本実施の形態１におけるテキストマイニング方法は、図１に示したテキストマイニング装置１を動作させることによって実施できる。このため、以降において、本実施の形態１におけるテキストマイニング方法の説明は、適宜図１～図７を参酌しながら、図１に示したテキストマイニング装置１の動作の説明と共に行う。

　先ず、レコード（１）～レコード（Ｌ）それぞれの通話音声データＤ１（ｌ）、通話メモテキストデータＤ２（ｌ）、及び付帯情報Ｄ３（ｌ）が、テキストマイニング装置１のデータ入力部２に入力される。このとき、各レコードｌ（ｌ＝１、２、・・・、Ｌ）における、通話音声データＤ１（ｌ）、通話メモテキストデータＤ２（ｌ）、及び付帯情報Ｄ３（ｌ）は、レコード番号が同一のものを一つの組として、組毎に入力される。

　それにより、図８に示すように、言語処理部５が、通話メモテキストデータに対して、言語処理を実行する（ステップＡ１）。ステップＡ１の結果、通話メモテキストデータは、単語ｗ_ｊの単語列となり、単語列となった状態で、固有部分抽出部６及び固有信頼度設定部７に出力される。

　次に、音声認識部３が、音声認識を行い、候補となる単語ｗ_ｉを抽出して音声認識テキストデータを作成する（ステップＡ２）。また、ステップＡ２においては、信頼度設定部４は、音声認識テキストデータに対して、それを構成する単語ｗ_ｉ毎に、信頼度信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）を設定する。続いて、信頼度設定部４が、信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ，ｍ）を上記の式（数１）に当てはめて、各レコードｌに対する信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ）を算出する（ステップＡ３）。

　なお、単語毎に信頼度が設定された音声認識テキストデータが、テキストマイニング装置１への入力前に作成されている場合は、ステップＡ２及びＡ３は省略される。また、ステップＡ２及びＡ３は、ステップＡ１の前に実行しても良いし、ステップＡ１と同時に実行しても良い。

　次に、固有部分抽出部６が、音声認識テキストデータの単語ｗ_ｉと通話メモテキストデータの単語ｗ_ｊとを対比し、音声認識テキストデータの固有部分（固有部分要素ｗ_ｉ）と、通話メモテキストデータの固有部分（固有部分要素ｗ_ｊ）とを抽出する（ステップＡ４）。また、固有部分抽出部６は、抽出した固有部分要素ｗ_ｉ及び固有部分要素ｗ_ｊを固有信頼度設定部７に入力する。

　次に、固有信頼度設定部７は、言語処理部５が出力した単語列を用いて、各レコードｌにおける通話メモテキストデータＤ２（ｌ）を構成している、各単語ｗ_ｊに対して、信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を設定する（ステップＡ５）。続いて、固有信頼度設定部７は、固有部分要素ｗ_ｉに対する固有信頼度Ｃ_Ｃａｌｌ（ｗ_ｉ，ｌ）と、固有部分要素ｗ_ｊに対する固有信頼度Ｃ_Ｍｅｍｏ（ｗ_ｊ，ｌ）とを設定する（ステップＡ６）。

　具体的には、固有信頼度設定部７は、信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ）及び信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を上記の式（数２）及び（数３）に当てはめ、固有信頼度Ｃ_Ｃａｌｌ（ｗ_ｉ，ｌ）と固有信頼度Ｃ_Ｍｅｍｏ（ｗ_ｊ，ｌ）とを算出する。固有信頼度設定部７は、算出した固有信頼度Ｃ_Ｃａｌｌ（ｗ_ｉ，ｌ）及び固有信頼度Ｃ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を、特徴語計数部１０に入力する。

　次いで、マイニング処理部８がマイニング処理を実行する（ステップＡ７）。具体的には、先ず、特徴語計数部１０は、固有信頼度Ｃ_Ｃａｌｌ（ｗ_ｉ，ｌ）及び固有信頼度Ｃ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を利用して、固有部分要素ｗ_ｉ及び固有部分要素ｗ_ｊの中から特徴語を抽出する。更に、特徴語計数部１０は、その出現頻度及び総出現頻度をカウントする。そして、特徴語算出部１１が、抽出された特徴語について、特徴度を算出する。ステップＡ７の実行により、図７に示すデータが得られる。

　その後、マイニング結果出力部１４が、ステップＡ７で得られた結果を出力装置１４に出力する（ステップＡ８）。ステップＡ８の実行後、テキストマイニング装置１は、処理を終了する。

　このように、本実施の形態１におけるテキストマイニング方法では、各テキストデータの固有部分に設定された固有信頼度を用いて、固有部分に対するマイニング処理が行われる。このため、音声認識時に発生した認識誤りがマイニング結果に与える影響は、極めて小さいものとなる。

　また、本実施の形態１におけるプログラムは、コンピュータに、図８に示すステップＡ１～ステップＡ８を実行させる命令を含むプログラムであれば良い。この場合、コンピュータに、この本実施の形態１におけるプログラムをインストールし、このプログラムを実行することによって、テキストマイニング装置１を実現することができる。更に、この場合、コンピュータのＣＰＵ（Central Processing Unit）は、音声認識部３、言語処理部５、固有部分抽出部６、固有信頼度設定部７及びマイニング処理部８として機能し、ステップＡ１～ステップＡ８の処理を行なう。

　また、本実施の形態１におけるプログラムは、コンピュータ読み取り可能な記録媒体、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等に記憶された状態で、又はネットワークを介して供給される。

　（実施の形態２）
　次に、本発明の実施の形態２におけるテキストマイニング装置、テキストマイニング方法及びプログラムについて、図９～図１１を参照しながら説明する。最初に、本発明の実施の形態２におけるテキストマイニング装置の構成について、図９及び図１０を用いて説明する。図９は、本発明の実施の形態２におけるテキストマイニング装置の概略構成を示すブロック図である。図１０は、本発明の実施の形態２におけるテキストマイニング装置が抽出した固有部分の一例を示す図である。

　図９に示すように、本実施の形態２におけるテキストマイニング装置２０は、固有部分抽出部６の構成及び機能の点で、図１に示した実施の形態１におけるテキストマイニング装置１と異なっている。本実施の形態２においては、固有部分かどうかの判断が、実施の形態１に比べて更に厳密に行われる。以下、実施の形態１との相違点を中心に説明する。

　なお、本実施の形態２においても、テキストマイニング装置２０をコールセンターに適用する例について説明する。そして、レコード番号１～レコード番号Ｌまでのレコードがテキストマイニング装置２０に入力される。また、レコード番号ｌ（ｌ＝１、２、・・・、Ｌ）のレコードにおける通話音声データＤ１（ｌ）と、これに対応する通話メモテキストデータＤ２（ｌ）と、同じく対応する付帯情報Ｄ３（ｌ）とを１組として、複数組がテキストマイニング装置２０に入力される。

　図９に示すように、本実施の形態２においては、固有部分抽出部６は、各テキストデータを構成する単語毎に、スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）又はスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を算出し、算出された値に基づいて、各テキストデータの固有部分を抽出する。スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）は、音声認識テキストデータを構成する各単語ｗ_ｉがその固有部分に該当する度合いを示している。また、スコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）は、音声メモテキストデータを構成する各単語ｗ_ｊがその固有部分に該当する度合いを示している。

　上記機能を実現するため、固有部分抽出部６は、頻度算出部１５と、スコア算出部１６と、固有部分判定部１７とを備えている。頻度算出部１５は、言語処理部５が出力した単語列を用いて、通話メモテキストデータを構成している各単語ｗ_ｊに対して、信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を設定する。

　このとき設定される信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）は、実施の形態１において、固有信頼度設定部７が設定していた信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）と同一のものである。本実施の形態２では、信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）は、スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）又はスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）の算出に必要であるため、頻度算出部１５によって設定される。また、算出された信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）は、固有信頼度の算出にも必要となるため、固有信頼度設定部７に入力される。

　また、頻度算出部１５は、信頼度設定部４が設定した信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ）と、信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）とから、単語ｗ_ｉ及び単語ｗ_ｊそれぞれの出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）及びＮ_Ｍｅｍｏ（ｗ_ｊ）を求める。また、頻度算出部１５は、信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ）と信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）とから、全てのレコード（レコード（１）～レコード（Ｌ））に対する両者の共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）も求める。

　具体的には、頻度算出部１５は、下記の式（数４）を用いて、単語ｗ_ｉの出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）を求め、下記の式（数５）を用いて、単語ｗ_ｊの出現頻度Ｎ_Ｍｅｍｏ（ｗ_ｊ）を求める。また、頻度算出部１５は、下記の式（数５）を用いて、共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）を求める。その後、頻度算出部１５は、出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）、出現頻度Ｎ_Ｍｅｍｏ（ｗ_ｊ）、共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）をスコア算出部１６に出力する。

　スコア算出部１６は、出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）、出現頻度Ｎ_Ｍｅｍｏ（ｗ_ｊ）、及び共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）を用いて、上述したスコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を算出する。具体的には、スコア算出部１６は、先ず、ｗ_ｉとｗ_ｊとを離散確率変数とする相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を算出する。

　ここで、出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）、出現頻度Ｎ_Ｍｅｍｏ（ｗ_ｊ）、及び共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）の計数対象である全レコード数が、「Ｌ」であるとする。また、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）の同時分布関数をＰ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）とする。Ｐ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）は、下記の式（数７）によって算出できる。

　上記の式（数７）より、Ｐ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）は、ある１レコードにおいて、単語ｗ_ｉが音声認識テキストデータＣａｌｌに出現し、且つ、単語ｗ_ｊが通話メモテキストデータＭｅｍｏに出現する確率事象に対する、同時分布関数であることが分かる。

　また、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）の周辺確率分布関数をＰ_Ｃａｌｌ（ｗ_ｉ）及びＰ_Ｍｅｍｏ（ｗ_ｊ）とする。Ｐ_Ｃａｌｌ（ｗ_ｉ）は下記の式（数８）によって算出される。また、Ｐ_Ｍｅｍｏ（ｗ_ｊ）は、下記の式（数９）によって算出される。

　上記の式（数８）より、Ｐ_Ｃａｌｌ（ｗ_ｉ）は、ある１レコードにおいて、単語ｗ_ｉが音声認識テキストデータＣａｌｌに出現する確率事象に対する、周辺確立分布関数であることが分かる。また、上記の式（数９）より、Ｐ_Ｍｅｍｏ（ｗ_ｊ）は、ある１レコードにおいて、単語ｗ_ｊが通話メモテキストデータＭｅｍｏに出現する確率事象に対する、周辺確率分布関数であることが分かる。

　そして、ｗ_ｉとｗ_ｊとを離散確率変数とする相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）は、下記の式（数１０）を用いて算出することができる。

　次に、スコア算出部１６は、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）を利用して、スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を算出する。本実施の形態では、スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）としては、相互情報量Ｉ（ｗ_ｉ；ｗ_ｊ）に対して単調に減少する関数が用いられる。具体的には、スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）は、下記の式（数１１）によって算出され、スコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）は、下記の式（数１２）によって算出される。なお、式（数１１）及び式（数１２）において、βは、０（ゼロ）より大きい任意の定数である。算出されたスコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）は、固有部分判定部１７に出力される。

　このようにして算出されたスコアは、音声認識テキストデータや音声メモテキストデータに設定された信頼度の値に応じて変動する。つまり、スコアは、音声認識における認識誤りに応じても変動する。

　なお、本実施の形態において、スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）の算出方法は、上記の算出方法に限定されるものではない。スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）は、固有部分かどうかの判定に使用できるものであれば良い。

　固有部分判定部１７は、スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を、予め設定された閾値と対比し、固有部分かどうかを判定する。本実施の形態では、固定部分判定部９は、スコアが閾値以上の場合に、その単語を固有部分と判定する。例えば、図１０に示すように、音声認識テキストデータを構成する単語ｗ_ｉと通話メモテキストデータを構成する単語ｗ_ｊについてスコアが算出され、閾値がスコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）のいずれに対しても０．５００に設定されていたとする。

　この場合は、固有部分判定部１７は、音声認識テキストデータの固有部分として、「広告」と「白」を抽出する。また、固有部分判定部１７は、通話メモテキストデータの固有部分として「今後」、「カラーバリエーション」、「増加」、「新たな」、「付加」、及び「検討」を抽出する。

　また、本実施の形態２において、固有部分の判定に用いられる閾値の大きさは、特に限定されず、テキストマイニング処理の結果に基づいて、適宜選択すれば良い。但し、クロスチャネルテキストマイニングにおいて、良好な結果を得る点からは、閾値は、予め実験を行い、その実験結果に基づいて設定するのが好ましい。

　具体的には、この場合の閾値の設定も、実施の形態１において、固有信頼度に閾値を設定する場合と同様に行うことができる。つまり、固有部分が予め設定された音声データと、同じく固有部分が予め設定されたテキストデータとを実験データとして用い、上述した手順でスコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を算出する。そして、各データで予め設定されている各固有部分が、抽出されるように、閾値を設定する。この場合、閾値の設定は、スコア毎に行うことができる。また、設定された閾値の信頼性を高めるため、できるだけ多くの実験データを用意しておくのが好ましい。

　そして、固有部分判定部１７は、音声認識テキストデータの固有部分と判定した単語ｗ_ｉ（固有部分要素ｗ_ｉ）と、通話メモテキストデータの固有部分と判定した単語ｗ_ｊ（固有部分要素ｗ_ｊ）とを、固有信頼度設定部７に入力する。なお、固有信頼度設定部７は、信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）の設定処理を除き、実施の形態１と同様に機能し、各固有部分に対して固有信頼度Ｃ_Ｃａｌｌ（ｗ_ｉ，ｌ）及び固有信頼度Ｃ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を設定する。また、マイニング処理部８も、実施の形態１と同様に機能し、マイニングを実行する。

　次に、本発明の実施の形態２におけるテキストマイニング方法について、図１１を用いて説明する。図１１は、本発明の実施の形態２におけるテキストマイニング方法で行われる処理の流れを示すフロー図である。

　本実施の形態２におけるテキストマイニング方法は、図９に示したテキストマイニング装置２０を動作させることによって実施できる。このため、以降において、本実施の形態２におけるテキストマイニング方法の説明は、適宜図９及び図１０を参酌しながら、図９に示したテキストマイニング装置２０の動作の説明と共に行う。

　それにより、図８に示すように、言語処理部５による言語処理（ステップＡ１１）、音声認識部３による音声認識（ステップＡ１２）、及び信頼度設定部４による信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ）の算出（ステップＡ１３）が、実行される。ステップＡ１１～Ａ１３は、実施の形態１において図８に示したステップＡ１～Ａ３と同様のステップである。

　次に、本実施の形態２においては、頻度算出部１５が、言語処理部５が出力した単語列を用いて、通話メモテキストデータを構成している各単語ｗ_ｊに対して信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を設定する（ステップＡ１４）。なお、ステップＡ１４は、実施の形態１において図８に示されたステップＡ５と同様の処理によって行われる。

　続いて、頻度算出部１５は、単語ｗ_ｉの信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ）と、単語ｗ_ｊの信頼度Ｒ_Ｍｅｍｏ（ｗ_ｊ，ｌ）とから、それぞれの出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）及びＮ_Ｍｅｍｏ（ｗ_ｊ）と、全てのレコード（レコード（１）～レコード（Ｌ））に対する両者の共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）とを求める（ステップＡ１５）。ステップＡ１５では、上記の式（数４）～（数６）が用いられる。

　次に、頻度算出部１５での処理（ステップＡ１４及びＡ１５）が終了すると、スコア算出部１６が、出現頻度Ｎ_Ｃａｌｌ（ｗ_ｉ）及びＮ_Ｍｅｍｏ（ｗ_ｊ）と、共起頻度Ｎ_{Ｃａｌｌ，Ｍｅｍｏ}（ｗ_ｉ，ｗ_ｊ）とを用いて、スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）を算出する（ステップＡ１６）。スコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）及びＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）の算出は、レコード（１）～レコード（Ｌ）それぞれについて行われている。具体的には、上述したように、スコア算出部８は、上記の式（数７）～（数１０）を用いて、相互情報量Ｉ（ｗ_ｉ，ｗ_ｊ）を算出した後、これを上記の式（数１１）と（数１２）とに当てはめる。ステップＡ１６の結果、図１０に示すデータが得られる。

　次に、固有部分判定部９は、レコード（１）～レコード（Ｌ）それぞれの各単語について、対応するスコアＳ_ｃａｌｌ（ｗ_ｉ，ｌ）又はスコアＳ_Ｍｅｍｏ（ｗ_ｊ，ｌ）が、予め設定された閾値以上となっているかどうかを判定し、閾値以上となった単語を固有部分であると判定する（ステップＡ１７）。ステップＡ１７において固有部分であると判定された単語を特定する情報が、固有信頼度設定部７に送られる。

　次に、固有信頼度設定部７によって、レコード（１）～レコード（Ｌ）それぞれの固有部分であると判定された各単語について、固有信頼度Ｃ_Ｃａｌｌ（ｗ_ｉ，ｌ）及び固有信頼度Ｃ_Ｍｅｍｏ（ｗ_ｊ，ｌ）が設定される（ステップＡ１８）。ステップＡ１８は、実施の形態１において図８に示したステップＡ６と同様のステップである。

　その後、マイニング処理部８によるマイニング処理（ステップＡ１９）、マイニング結果出力部１２によるマイニング結果の出力（ステップＡ２０）が行われる。ステップＡ２０の実行後、テキストマイニング装置２０は、処理を終了する。

　このように本実施の形態２によれば、固有部分かどうかの判断が、実施の形態１に比べて厳密に行われる。よって、クロスチャネルマイニングによって得られるマイニング結果の信頼性を更に高めることができる。なお、実施の形態１を用いた場合は、固有部分の抽出に必要な処理を軽減でき、テキストマイニング装置全体における処理速度の向上が図られる。

　また、本実施の形態２におけるプログラムは、コンピュータに、図１１に示すステップＡ１１～ステップＡ２０を実行させる命令を含むプログラムであれば良い。この場合、コンピュータに、この本実施の形態２におけるプログラムをインストールし、このプログラムを実行することによって、テキストマイニング装置２０を実現することができる。更に、この場合、コンピュータのＣＰＵ（Central Processing Unit）は、音声認識部３、言語処理部５、固有部分抽出部６、及びマイニング処理部８として機能し、ステップＡ１１～ステップＡ２０の処理を行なう。

　また、本実施の形態２におけるプログラムは、コンピュータ読み取り可能な記録媒体、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等に記憶された状態で、又はネットワークを介して供給される。

　（実施の形態３）
　次に、本発明の実施の形態３におけるテキストマイニング装置、テキストマイニング方法及びプログラムについて、図１２及び図１３を参照しながら説明する。最初に、本発明の実施の形態３におけるテキストマイニング装置の構成について、図１２を用いて説明する。図１２は、本発明の実施の形態３におけるテキストマイニング装置の概略構成を示すブロック図である。

　図１２に示すテキストマイニング装置２１は、音声認識テキストデータと、文字認識を行うことによって得られたテキストデータ（文字認識テキストデータ）とをマイニング対象とする。このため、テキストマイニング装置２１には、スキャナー等の光学読取装置から出力された文書の画像データＤ４が入力される。

　なお、本実施の形態３においても、レコード番号１～レコード番号Ｌまでのレコードがテキストマイニング装置２０に入力される。また、レコード番号ｌ（ｌ＝１、２、・・・、Ｌ）のレコードにおける通話音声データＤ１（ｌ）と、これに対応する画像データＤ４（ｌ）と、同じく対応する付帯情報Ｄ３（ｌ）とを１組として、複数組がテキストマイニング装置２０に入力される。

　図１２に示すように、テキストマイニング装置２１は、各レコードｌに対応する文書の画像データＤ４（ｌ）毎に、文字認識を行うため、実施の形態１において図１に示された言語処理部５の代わりに、文字認識部２２を備えている。

　本実施の形態３においても、テキストマイニング装置２１は、実施の形態１と同様に、コールセンターに適用される。各レコードｌに対応する画像データＤ４（ｌ）の元となった文書は、オペレータが手書きで作成したメモや、顧客から送られてきたＦＡＸ等である。

　文字認識部２２は、各レコードｌに対応する画像データＤ４（ｌ）毎に、文字認識を行い、各レコードｌに対応する文字認識テキストデータを生成する。また、文字認識部２２は、文字認識テキストデータを構成する単語を抽出し、単語毎に信頼度を設定する。この場合の信頼度は、文字認識テキストデータを構成する単語が入力画像の認識結果として正しいかどうかの指標となるものであれば良い。

　具体的には、文字認識テキストデータ中の単語の信頼度としては、入力画像データＤ４、（ｌ）又は入力画像データＤ４（ｌ）から観測された文字認識の特徴量が与えられた場合における、単語の事後確率を用いることができる。具体的には、この場合の事後確率としては、上述した非特許文献３に開示された「Estimated posterior probability」を用いることができる。

　なお、上述した点以外については、テキストマイニング装置２１は、図１に示したテキストマイニング装置１と同様に構成されている。よって、データ入力部２、音声認識部３、固有部分抽出部６、固有信頼度設定部７及びマイニング処理部１０は、実施の形態１の例と同様に機能する。本実施の形態３においては、音声認識テキストデータと文字認識テキストデータとに対して、固有部分の抽出及び固有信頼度の設定が行われ、その後、クロスチャネルマイニングが実行される。

　また、本実施の形態３は、予め、テキストマイニング装置２１の外部の文字認識装置によって文字認識が行われ、単語毎に信頼度が設定された文字認識テキストデータが、テキストマイニング装置２１への入力前に作成されている態様であっても良い。この場合は、テキストマイニング装置２１は文字認識部２２を備える必要がなく、文字認識テキストデータは、データ入力部２を介して、固有部分抽出部６に入力される。

　次に、本発明の実施の形態３におけるテキストマイニング方法について、図１３を用いて説明する。図１３は、本発明の実施の形態３におけるテキストマイニング方法で行われる処理の流れを示すフロー図である。

　本実施の形態３におけるテキストマイニング方法は、図１２に示したテキストマイニング装置２１を動作させることによって実施できる。以降においては、本実施の形態３におけるテキストマイニング方法の説明は、適宜図１２を参酌しながら、図１２に示したテキストマイニング装置２１の動作の説明と共に行う。

　先ず、レコード（１）～レコード（Ｌ）それぞれの通話音声データＤ１（ｌ）、画像データＤ４（ｌ）、及び付帯情報Ｄ３（ｌ）が、テキストマイニング装置２０のデータ入力部２に入力されるこのとき、各レコードｌ（ｌ＝１、２、・・・、Ｌ）における、通話音声データＤ１（ｌ）、画像データＤ４（ｌ）、及び付帯情報Ｄ３（ｌ）は、レコード番号が同一のものを一つの組として、組毎に入力される。

　それにより、図１３に示すように、文字認識部２２が、各レコードｌに対応する画像データＤ４（ｌ）それぞれに対して、文字認識を実行する（ステップＡ２１）。これにより、各画像データＤ４（ｌ）から文字認識テキストデータが生成され、更に、文字認識テキストデータを構成する単語ｗ_ｊの抽出、単語ｗ_ｊ毎の信頼度の設定が行われる。

　次に、音声認識部３による音声認識テキストデータの生成（ステップＡ２２）、信頼度設定部４による信頼度Ｒ_Ｃａｌｌ（ｗ_ｉ，ｌ）の算出（ステップＡ２３）が、行われる。ステップＡ２２及びステップＡ２３は、図８に示したステップＡ２及びＡ３のステップと同様のステップである。

　なお、単語毎に信頼度が設定された文字認識テキストデータが、テキストマイニング装置２１への入力前に作成されている場合は、ステップＡ２１は省略される。また、単語毎に信頼度が設定された音声認識テキストデータが、テキストマイニング装置１への入力前に作成されている場合は、ステップＡ２２及びＡ２３も省略される。また、ステップＡ２２及びＡ２３は、ステップＡ２１の前に実行しても良いし、ステップＡ２１と同時に実行しても良い。

　次に、固有部分抽出部６が、固有部分要素ｗ_ｉ及び固有部分要素ｗ_ｊを抽出する（ステップＡ２４）。続いて、固有信頼度設定部７が、固有部分要素ｗ_ｉに対する固有信頼度と、固有部分要素ｗ_ｊに対する固有信頼度とを設定する（ステップＡ２５）。ステップＡ２４及びステップＡ２５は、それぞれ、図８に示したステップＡ４及びＡ６と同様のステップである。但し、ステップＡ２５における固有信頼度の設定においては、ステップＡ２１において設定された信頼度が用いられる。

　その後、マイニング処理部８によるマイニング処理（ステップＡ２６）、マイニング結果出力部１２によるマイニング結果の出力（ステップＡ２７）が行われる。ステップＡ２７の実行後、テキストマイニング装置２１は、処理を終了する。

　このように、本実施の形態３では、音声認識テキストデータの固有部分と、文字認識テキストデータの固有部分とに対して固有信頼度が設定される。本実施の形態３によれば、マイニング対象の一つが文字認識テキストデータである場合に、文字認識時に発生した認識誤りがマイニング結果に与える影響を抑制できる。

　また、本実施の形態３におけるプログラムは、コンピュータに、図１３に示すステップＡ２１～ステップＡ２７を実行させる命令を含むプログラムであれば良い。この場合、コンピュータに、この本実施の形態１におけるプログラムをインストールし、このプログラムを実行することによって、テキストマイニング装置２１を実現することができる。更に、この場合、コンピュータのＣＰＵ（Central Processing Unit）は、音声認識部３、文字認識部２２、固有部分抽出部６、及びマイニング処理部８として機能し、ステップＡ２１～ステップＡ２７の処理を行なう。

　また、本実施の形態３におけるプログラムは、コンピュータ読み取り可能な記録媒体、例えば、光ディスク、磁気ディスク、光磁気ディスク、半導体メモリ、フロッピーディスク等に記憶された状態で、又はネットワークを介して供給される。

　実施の形態１～３は、テキストマイニング装置がコールセンターに適用される例を示しているが、テキストマイニング装置の適用例は、これに限定されるものではない。テキストマイニング装置は、テレビやラジオで報道された内容から企業イメージを分析する場合や、会議などのコミュニケーションの場における会話内容を分析する場合等にも適用できる。また、実施の形態１～３では、固有部分の抽出は、二つのテキストデータに対して行われているが、これに限定されるものではない。固有部分の抽出は、三つ以上のテキストデータに対して行われていても良い。

　また、上述した実施の形態１及び２は、誤りを含み得る音声認識テキストデータと、誤りを含まない通話メモテキストデータとの組を、テキストマイニングの対象とする例について説明している。上述した実施の形態３は、誤りを含み得る音声認識テキストデータと、同じく誤りを含みうる文字認識テキストデータとの組みを、テキストマイニングの対象とする例について説明している。但し、本発明は、上記の組み合わせを対象とする場合に限定されず、上記の組み合わせ以外の組み合わせに対しても、テキストマイニングを実行することができる。

　本発明は、複数のテキストデータそれぞれの固有部分について、固有信頼度を設定し、これを用いてテキストマイニングを実施する。よって、例えば、上記の組以外の組、例えば、オペレータの通話音声に対する音声認識テキストデータと、顧客の通話音声に対する音声認識テキストデータとの組をテキストマイニングの対象とすることもできる。

　また、テキストマイニングの対象となるテキストデータは、音声認識テキストデータや、キー入力によって生成されたテキストデータ（通話メモテキストデータ）、文字認識テキストデータ以外のテキストデータであっても良い。このようなテキストデータであっても、その構成要素である単語を抽出でき、更に単語毎に信頼度の設定が可能であれば、本発明の適用は可能である。具体的には、その他に、機械翻訳によって得られたテキストデータが挙げられる。

　以上、実施の形態１～３を参照して本願発明を説明したが、本願発明は上記実施の形態１～３に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２００８年８月２９日出願された日本出願特願２００８－２２２４５５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本願発明におけるテキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体は以下の特徴を有する。

（１）コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するテキストマイニング装置であって、
　前記複数のテキストデータそれぞれに信頼度が設定されており、
　前記複数のテキストデータそれぞれについて、各テキストデータの他のテキストデータに対する固有部分を抽出する、固有部分抽出部と、
　前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに、各固有部分の信頼性を示す固有信頼度を設定する固有信頼度設定部と、
　前記固有信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに対して、テキストマイニングを実行するマイニング処理部とを備えている、ことを特徴とするテキストマイニング装置。

（２）前記複数のテキストデータそれぞれに、１以下の数値で前記信頼度が設定され、
　前記固有信頼度設定部が、一のテキストデータの他のテキストデータに対する固有部分に前記固有信頼度を設定する際に、前記他のテキストデータに設定されている信頼度を１から減算して得られる値を、前記一のテキストデータに設定されている信頼度に乗算することによって、前記固有信頼度を設定する、上記（１）に記載のテキストマイニング装置。

（３）前記固有部分抽出部が、前記各テキストデータについて、それを構成する単語群の中から、他のテキストデータを構成している単語と一致しない単語を抽出し、抽出された単語を、前記各テキストデータの他のテキストデータに対する固有部分とする、上記（１）に記載のテキストマイニング装置。

（４）前記固有部分抽出部が、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータについて、それを構成する各単語が、前記各テキストデータの他のテキストデータに対する固有部分に該当する度合いを算出し、
算出された前記度合いに基づいて、前記各テキストデータの他のテキストデータに対する固有部分を抽出する、上記（１）に記載のテキストマイニング装置。

（５）前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
　更に、前記音声認識によって生成されたテキストデータに、音声認識の際に得られた単語グラフ又はＮベスト単語列を利用して、信頼度を設定する信頼度設定部が、備えられている、上記（１）に記載のテキストマイニング装置。

（６）コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としたテキストマイニングを実行するテキストマイニング方法であって、
（ａ）前記複数のテキストデータそれぞれに信頼度を設定するステップと、
（ｂ）前記複数のテキストデータそれぞれについて、各テキストデータの他のテキストデータに対する固有部分を抽出するステップと、
（ｃ）前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに、各固有部分の信頼性を示す固有信頼度を設定するステップと、
（ｄ）前記固有信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに対して、テキストマイニングを実行するステップとを有する、ことを特徴とするテキストマイニング方法。

（７）前記（ａ）のステップにおいて、前記複数のテキストデータそれぞれに、１以下の数値で前記信頼度が設定され、
　前記（ｃ）のステップにおいて、一のテキストデータの他のテキストデータに対する固有部分に前記固有信頼度を設定する際に、前記他のテキストデータに設定されている信頼度を１から減算して得られる値を、前記一のテキストデータに設定されている信頼度に乗算することによって、前記固有信頼度を設定する、上記（６）に記載のテキストマイニング方法。

（８）前記（ｂ）のステップにおいて、前記各テキストデータについて、それを構成する単語群の中から、他のテキストデータを構成している単語と一致しない単語を抽出し、抽出された単語を、前記各テキストデータの他のテキストデータに対する固有部分とする、上記（６）に記載のテキストマイニング方法。

（９）前記（ｂ）のステップにおいて、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータについて、それを構成する各単語が、前記各テキストデータの他のテキストデータに対する固有部分に該当する度合いを算出し、
算出された前記度合いに基づいて、前記各テキストデータの他のテキストデータに対する固有部分を抽出する、上記（６）に記載のテキストマイニング方法。

（１０）前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
　更に、前記音声認識によって生成されたテキストデータに、音声認識の際に得られた単語グラフ又はＮベスト単語列を利用して、信頼度を設定するステップを有する、上記（６）に記載のテキストマイニング方法。

（１１）コンピュータ装置を用いて、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータ装置に、
（ａ）前記複数のテキストデータそれぞれに信頼度を設定するステップと、
（ｂ）前記複数のテキストデータそれぞれについて、各テキストデータの他のテキストデータに対する固有部分を抽出するステップと、
（ｃ）前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに、各固有部分の信頼性を示す固有信頼度を設定するステップと、
（ｄ）前記固有信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに対して、テキストマイニングを実行するステップとを実行させる、命令を含むプログラムを記録したコンピュータ読み取り可能な記録媒体。

（１２）前記（ａ）のステップにおいて、前記複数のテキストデータそれぞれに、１以下の数値で前記信頼度が設定され、
　前記（ｃ）のステップにおいて、一のテキストデータの他のテキストデータに対する固有部分に前記固有信頼度を設定する際に、前記他のテキストデータに設定されている信頼度を１から減算して得られる値を、前記一のテキストデータに設定されている信頼度に乗算することによって、前記固有信頼度を設定する、上記（１１）に記載のコンピュータ読み取り可能な記録媒体。

（１３）前記（ｂ）のステップにおいて、前記各テキストデータについて、それを構成する単語群の中から、他のテキストデータを構成している単語と一致しない単語を抽出し、抽出された単語を、前記各テキストデータの他のテキストデータに対する固有部分とする、上記（１１）に記載のコンピュータ読み取り可能な記録媒体。

（１４）前記（ｂ）のステップにおいて、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータについて、それを構成する各単語が、前記各テキストデータの他のテキストデータに対する固有部分に該当する度合いを算出し、
算出された前記度合いに基づいて、前記各テキストデータの他のテキストデータに対する固有部分を抽出する、上記（１１）に記載のコンピュータ読み取り可能な記録媒体。

（１５）前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
　前記プログラムが、前記音声認識によって生成されたテキストデータに、音声認識の際に得られた単語グラフ又はＮベスト単語列を利用して、信頼度を設定するステップを、前記コンピュータ装置に実行させる命令を更に含む、上記（１１）に記載のコンピュータ読み取り可能な記録媒体。

　１　テキストマイニング装置（実施の形態１）
　２　データ入力部
　３　音声認識部
　４　信頼度設定部
　５　言語処理部
　６　固有部分抽出部
　７　固有信頼度設定部
　８　マイニング処理部
　９　マイニング処理管理部
　１０　特徴語計数部
　１１　特徴度算出部
　１２　マイニング結果出力部
　１３　入力装置
　１４　出力装置
　１５　頻度算出部
　１６　スコア算出部
　１７　固有部分判定部
　２０　テキストマイニング装置（実施の形態２）
　２１　テキストマイニング装置（実施の形態３）
　２２　文字認識部
　Ｄ１（ｌ）　通話音声データ
　Ｄ２（ｌ）　通話メモテキストデータ
　Ｄ３（ｌ）　付帯情報
　Ｄ４（ｌ）　画像データ

Claims

　コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するテキストマイニング装置であって、
　前記複数のテキストデータそれぞれに信頼度が設定されており、
　前記複数のテキストデータそれぞれについて、各テキストデータの他のテキストデータに対する固有部分を抽出する、固有部分抽出部と、
　前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに、各固有部分の信頼性を示す固有信頼度を設定する固有信頼度設定部と、
　前記固有信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに対して、テキストマイニングを実行するマイニング処理部とを備えている、ことを特徴とするテキストマイニング装置。
　前記複数のテキストデータそれぞれに、１以下の数値で前記信頼度が設定され、
　前記固有信頼度設定部が、一のテキストデータの他のテキストデータに対する固有部分に前記固有信頼度を設定する際に、前記他のテキストデータに設定されている信頼度を１から減算して得られる値を、前記一のテキストデータに設定されている信頼度に乗算することによって、前記固有信頼度を設定する、請求項１に記載のテキストマイニング装置。
　前記固有部分抽出部が、前記各テキストデータについて、それを構成する単語群の中から、他のテキストデータを構成している単語と一致しない単語を抽出し、抽出された単語を、前記各テキストデータの他のテキストデータに対する固有部分とする、請求項１または２に記載のテキストマイニング装置。
　前記固有部分抽出部が、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータについて、それを構成する各単語が、前記各テキストデータの他のテキストデータに対する固有部分に該当する度合いを算出し、
算出された前記度合いに基づいて、前記各テキストデータの他のテキストデータに対する固有部分を抽出する、請求項１または２に記載のテキストマイニング装置。
　前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
　更に、前記音声認識によって生成されたテキストデータに、音声認識の際に得られた単語グラフ又はＮベスト単語列を利用して、信頼度を設定する信頼度設定部が、備えられている、請求項１～４のいずれかに記載のテキストマイニング装置。
　コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としたテキストマイニングを実行するテキストマイニング方法であって、
（ａ）前記複数のテキストデータそれぞれに信頼度を設定するステップと、
（ｂ）前記複数のテキストデータそれぞれについて、各テキストデータの他のテキストデータに対する固有部分を抽出するステップと、
（ｃ）前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに、各固有部分の信頼性を示す固有信頼度を設定するステップと、
（ｄ）前記固有信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに対して、テキストマイニングを実行するステップとを有する、ことを特徴とするテキストマイニング方法。
　前記（ａ）のステップにおいて、前記複数のテキストデータそれぞれに、１以下の数値で前記信頼度が設定され、
　前記（ｃ）のステップにおいて、一のテキストデータの他のテキストデータに対する固有部分に前記固有信頼度を設定する際に、前記他のテキストデータに設定されている信頼度を１から減算して得られる値を、前記一のテキストデータに設定されている信頼度に乗算することによって、前記固有信頼度を設定する、請求項６に記載のテキストマイニング方法。
　前記（ｂ）のステップにおいて、前記各テキストデータについて、それを構成する単語群の中から、他のテキストデータを構成している単語と一致しない単語を抽出し、抽出された単語を、前記各テキストデータの他のテキストデータに対する固有部分とする、請求項６または７に記載のテキストマイニング方法。
　前記（ｂ）のステップにおいて、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータについて、それを構成する各単語が、前記各テキストデータの他のテキストデータに対する固有部分に該当する度合いを算出し、
算出された前記度合いに基づいて、前記各テキストデータの他のテキストデータに対する固有部分を抽出する、請求項６または７に記載のテキストマイニング方法。
　前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
　更に、前記音声認識によって生成されたテキストデータに、音声認識の際に得られた単語グラフ又はＮベスト単語列を利用して、信頼度を設定するステップを有する、請求項６～９のいずれかに記載のテキストマイニング方法。
　コンピュータ装置を用いて、コンピュータ処理によって生成されたテキストデータを含む複数のテキストデータを対象としてテキストマイニングを実行するための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータ装置に、
（ａ）前記複数のテキストデータそれぞれに信頼度を設定するステップと、
（ｂ）前記複数のテキストデータそれぞれについて、各テキストデータの他のテキストデータに対する固有部分を抽出するステップと、
（ｃ）前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに、各固有部分の信頼性を示す固有信頼度を設定するステップと、
（ｄ）前記固有信頼度を用いて、前記各テキストデータの他のテキストデータに対する固有部分それぞれに対して、テキストマイニングを実行するステップとを実行させる、命令を含むプログラムを記録したコンピュータ読み取り可能な記録媒体。
　前記（ａ）のステップにおいて、前記複数のテキストデータそれぞれに、１以下の数値で前記信頼度が設定され、
　前記（ｃ）のステップにおいて、一のテキストデータの他のテキストデータに対する固有部分に前記固有信頼度を設定する際に、前記他のテキストデータに設定されている信頼度を１から減算して得られる値を、前記一のテキストデータに設定されている信頼度に乗算することによって、前記固有信頼度を設定する、請求項１１に記載のコンピュータ読み取り可能な記録媒体。
　前記（ｂ）のステップにおいて、前記各テキストデータについて、それを構成する単語群の中から、他のテキストデータを構成している単語と一致しない単語を抽出し、抽出された単語を、前記各テキストデータの他のテキストデータに対する固有部分とする、請求項１１または１２に記載のコンピュータ読み取り可能な記録媒体。
　前記（ｂ）のステップにおいて、前記複数のテキストデータそれぞれに設定された信頼度を用いて、前記各テキストデータについて、それを構成する各単語が、前記各テキストデータの他のテキストデータに対する固有部分に該当する度合いを算出し、
算出された前記度合いに基づいて、前記各テキストデータの他のテキストデータに対する固有部分を抽出する、請求項１１または１２に記載のコンピュータ読み取り可能な記録媒体。
　前記コンピュータ処理によって生成されたテキストデータとして、音声認識によって生成されたテキストデータが用いられ、
　前記プログラムが、前記音声認識によって生成されたテキストデータに、音声認識の際に得られた単語グラフ又はＮベスト単語列を利用して、信頼度を設定するステップを、前記コンピュータ装置に実行させる命令を更に含む、請求項１１～１４のいずれかに記載のコンピュータ読み取り可能な記録媒体。