WO2011071174A1

WO2011071174A1 - テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム

Info

Publication number: WO2011071174A1
Application number: PCT/JP2010/072310
Authority: WO
Inventors: 晃裕田村; 開石川; 真一安藤
Original assignee: 日本電気株式会社
Priority date: 2009-12-10
Filing date: 2010-12-07
Publication date: 2011-06-16
Also published as: US20120284016A1; JPWO2011071174A1; US9135326B2

Abstract

特定のトピックを対象としたテキストマイニングを精度良く行うことができるテキストマイニング方法、装置、及びプログラムを提供する。　要素特定手段８１は、分析対象のテキストの集合である着目テキスト集合中にそのテキストの要素が出現する程度を示す指標である特徴度を算出する。出力部３０は、算出された特徴度をもとに、その着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する。要素特定手段８１は、分析対象のテキストを所定の単位で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度に基づいて、特徴度を補正する。

Description

テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム

　本発明は、特定のトピックを対象としたテキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムに関する。

　大量のテキストを分析する技術の一つにテキストマイニング技術がある。テキストマイニング技術とは、あるテキスト集合の特徴や傾向を分析するための技術である。テキストマイニング技術を適用したシステム（以降、テキストマイニングシステムと呼ぶ。）は、テキスト集合において各テキスト中の単語や句など各要素の特徴度を算出し、その特徴度を基にテキスト集合の中から特徴的な要素を特定する。
　ここで、特徴や傾向を調べる対象となるテキスト集合は、以下の説明では、「着目テキスト集合」と記される。テキストマイニングシステムは、各要素の特徴度として、例えば、各要素がテキスト中に出現する頻度を用いる。この場合、着目テキスト集合の中で頻出する要素が着目テキスト集合の中で特徴的な要素と特定される。また、テキストマイニングシステムは、特徴度として、例えば、統計的基準を用いる。この場合、テキストマイニングシステムは、着目テキスト集合中で意味のある要素を特定することができる。
　テキストマイニング技術の一つが、非特許文献１に記載されている。非特許文献１は、入力となったテキスト集合が２つ以上のカテゴリに分割できるとき、着目するカテゴリを定めた場合に、その着目したカテゴリのテキストに特徴的な単語や句などの要素を特定する技術を開示する。つまり、非特許文献１に記載された技術が適用されたテキストマイニングシステムは、着目するカテゴリに属するテキストの集合を着目テキスト集合とし、その着目テキスト集合に特徴的な要素を特定する。
　特徴的な要素を決める具体的な方法について説明する。まず、非特許文献１に記載のテキストマイニングシステムは、着目カテゴリのテキストにおける各要素の出現数、及び、着目カテゴリ以外のカテゴリのテキストにおける各要素の出現数を算出する。そして、そのテキストマイニングシステムは、各要素に対して、所定の統計量を計算する。所定の統計量は、例えば、着目カテゴリのテキストにおける出現数が多いほど高くなり、着目カテゴリ以外のカテゴリのテキストにおける出現数が少ないほど高くなるような「ＳＣ（Ｓｔｏｃｈａｓｔｉｃ　Ｃｏｍｐｌｅｘｉｔｙ）」や「ＥＳＣ（Ｅｘｔｅｎｄｅｄ　Ｓｔｏｃｈａｓｔｉｃ　Ｃｏｍｐｌｅｘｉｔｙ）」といった統計量である。そして、そのテキストマイニングシステムは、この統計量を、各要素の着目カテゴリにおける特徴度として捉え、統計量が高い要素を、着目カテゴリに特徴的な要素として特定する。
　このようなテキストマイニングシステムを用いて複数のトピックを含むテキストの集合を分析する際に、分析者が、ある特定トピック（以下、「分析対象トピック」と記す。）を対象にしてテキストマイニングを行う場合がある。図１７は、コールセンターで顧客とオペレータとの対話から作成された通話テキストを示す説明図である。図１７に示す通話テキストは、「オープニング、顧客特定、問い合わせ内容、処置、連絡方法」といった複数のトピックを含む。例えば、このような通話テキスト集合の中から問い合わせ内容に関して分析するために、分析者が「問い合わせ内容」というトピックを対象にテキストマイニングを行う場合がある。
　この場合、まず、分析者は、トピック解析システムによって、入力テキスト集合の各テキストの中から、分析対象トピックに該当する部分を特定する必要がある。分析対象トピックに該当する部分を特定する一般的なトピック解析システムは、非特許文献２に記載されている。非特許文献２に記載されたトピック解析システムは、トピックに対する単語の出現度合いをモデル化したモデルを用いて、複数のトピックを含むテキストを同じトピックの塊に分割し、その塊に対してトピックを割り当てる。分析者は、このようなシステムを用いて各テキストを分析対象トピックに該当する部分と該当しない部分とに分類する。分析者は、分類された分析対象トピックに該当する部分に対して一般的なテキストマイニング技術を適用する。この結果、図１７に示す通話テキストを分析することが可能となる。
　図１７を用いて、テキストの分析方法について具体的に説明する。トピック「問い合わせ内容」を対象にテキストマイニングを行う場合、まず、分析者は、入力された各通話テキストに対して、非特許文献２に記載されたトピック解析システムを適用し、トピック「問い合わせ内容」に該当する部分を特定する。図１７に示すように、入力された通話テキストが発話ごとに区切られ、各発話にトピックと各発話とを特定する識別子（発言インデックス）が付与される。分析者は、トピック解析システムによってトピックを特定したあと、区切られた発話を、トピックが「問い合わせ内容」である発言インデックス「６」~「１５」が示す部分とそれ以外の部分とに分類する。分析者は、ここで分類された通話テキストに対してテキストマイニングを行うことで、問い合わせ内容に関する分析を行うことができる。
　トピックの特定後に適用されるテキストマイニング方法について、さらに説明する。トピックが特定された後、分析者は、分析対象トピックに該当する部分と該当しない部分とに分類することが可能である。これらの部分を、分析者がどのようにテキストマイニングに利用するかについては、使用するテキストマイニング技術や、分析者の要求によって異なる。ここでは、非特許文献１に記載されたテキストマイニングシステムを用いてテキストマイニングを行う方法について説明する。分析対象トピックをテキストマイニングの対象にする場合、非特許文献１に記載されたテキストマイニングシステムは、二種類のテキストマイニングを実施することができる。
　一種類目のテキストマイニングは、分析対象をテキスト中の分析対象トピックに該当する部分に限定した方法である。つまり、非特許文献１に記載のテキストマイニングシステムは、入力されたテキスト集合の各テキストに対して分析対象トピックの該当部分を特定した後、分析対象トピックに該当しない部分は分析対象から外す。そのテキストマイニングシステムは、分析対象トピックの該当部分のみに対して、テキストマイニングを行う。
　例えば、図１７に示すコールセンターにおける通話テキストの集合を分析対象とし、分析者が、問い合わせ内容に関してのみ興味がある場合を考える。この場合、非特許文献１に記載のテキストマイニングシステムは、分析対象トピック「問い合わせ内容」に該当する部分のみをテキストマイニングの分析対象にする。つまり、非特許文献１に記載のテキストマイニングシステムは、図１７に示す通話テキスト全体を対象にテキストマイニングを行うのではなく、「問い合わせ内容」である発言インデックス「６」~「１５」が示す部分のみにテキストマイニングを行う。これにより、分析者は、例えば着目テキスト集合を「オペレータＡが対応したテキスト集合」とすることで、問い合わせ内容に関して、オペレータＡの通話テキストの要素のうち、他のオペレータの通話テキストに比べて特徴的な要素を分析することができる。
　二種類目のテキストマイニングは、分析対象トピックに該当する部分で特徴的な要素を分析する方法であり、分析対象トピックに該当しないトピックも分析に利用する方法である。つまり、このテキストマイニングは、入力のテキスト集合の各テキストに対し、分析対象トピックの該当部分を特定した後、分析対象トピックに該当する部分からなるテキストの集合を着目テキスト集合とした分析である。これにより、分析者は、例えば図１７に示すコールセンターにおける通話テキストの集合を分析対象とすると、分析対象トピック「問い合わせ内容」に該当する部分の要素のうち、他のトピックに該当する部分と比べて特徴的な要素を分析することができる。
　なお、特許文献１には、テキスト集合の特徴表現を抽出するテキストマイニング装置が記載されている。特許文献２には、固有名に相当するキーワードの関連度を高めて関連度値を算出する技術が記載されている。

特開２００６−０３１１９８号公報（段落００２０等）特開２００３−０１６１０６号公報（段落０００９、００３３、００３４等）

Ｈａｎｇ　Ｌｉ　ａｎｄ　Ｋｅｎｊｉ　Ｙａｍａｎｉｓｈｉ，"Ｍｉｎｉｎｇ　ｆｒｏｍ　ｏｐｅｎ　ａｎｓｗｅｒｓ　ｉｎ　ｑｕｅｓｔｉｏｎｎａｉｒｅ　ｄａｔａ"，Ｉｎ　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ＫＤＤ−０１，ｐｐ．４４３−４４９，２００１．Ｒｕｉ　Ａｍａｒａｌ　ａｎｄ　Ｉｓａｂｅｌ　Ｔｒａｎｃｏｓｏ，"Ｔｏｐｉｃ　Ｄｅｔｅｃｔｉｏｎ　ｉｎ　Ｒｅａｄ　Ｄｏｃｕｍｅｎｔｓ"，Ｉｎ　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　４ｔｈ　Ｅｕｒｏｐｅａｎ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ａｄｖａｎｃｅｄ　Ｔｅｃｈｎｏｌｏｇｙ　ｆｏｒ　Ｄｉｇｉｔａｌ　Ｌｉｂｒａｒｉｅｓ，ｐｐ．３１５−３１８，２０００．

　分析対象トピックを対象にテキストマイニングが行われる場合、分析対象とするテキスト中の分析対象トピックに該当する部分の間で、分析対象トピックに関与する度合いが異なっている場合がある。その場合、分析対象トピックに関して深い内容になっている部分の方が、そうでない部分よりも重要であり、有益な情報が含まれている。特に、トピックの重複部分が存在するテキストが分析対象である場合、各トピックに関与する度合いが異なることが多い。
　しかし、非特許文献１に記載のテキストマイニングシステムは、トピックに関与する度合いが異なる部分を含むテキストにおける分析対象トピックを対象にテキストマイニングを行う場合、分析対象トピックに関して深い内容になっている部分と、そうでない部分とを分けて扱うことができない。そのため、非特許文献１に記載のテキストマイニングシステムは、分析対象トピックに関与する度合いに応じたテキストマイニングを行うことができない。すなわち、テキストマイニングシステムが、非特許文献１に記載のテキストマイニング技術を初めとした、一般的なテキストマイニング技術を用いる場合、分析対象トピックに関するテキストマイニング結果として、分析対象トピックにあまり関与していない部分を基に解析した比較的重要でない要素も混ざりこんでしまう。その結果、分析対象トピックを対象にしたテキストマイニングの精度が悪くなってしまうという問題がある。
　例えば、テキストマイニングシステムの分析対象が図１７に示す通話テキストである場合を考える。図１７に示す通話テキストは、複数のトピックを含んでいる。それら複数のトピックは、お互い独立でなく、また、排他でない。そのため、通話テキスト中には、トピックの重複部分が存在している。図１７において、発言インデックス「２０」が示す部分は、トピック「処置」における発言でもあり、トピック「連絡方法」における発言でもある。このようなトピックが重複している部分は、ある特定トピックに深く関わるというよりもトピックが移り変わるつなぎになっている場合が多い。
　ここで、テキストマイニングシステムが、トピック「処置」を対象にテキストマイニングを行う場合について説明する。発言インデックス「２０」が示す部分のように、トピック「処置」と「連絡方法」の二つのトピックに属し、二つのトピックのつなぎとなっている部分よりも、発言インデックス「１６」が示す部分のようにトピック「処置」に深く関わっている部分の方が重要である。したがってその部分は、有益な情報を含むと言える。
　しかし、一般的なテキストマイニングは、発言インデックス「２０」が示す部分のように、トピックのつなぎとしてトピックが重複している部分（すなわち、トピック「処置」に深く関与していない部分）であっても、その部分がトピック「処置」に該当すると判定されれば、この部分をあたかもトピック「処置」に深く関与している部分（例えば、発言インデックス「１６」が示す部分）と同等に扱ってしまう。そのため、一般的なテキストマイニング技術を利用したシステムは、分析対象トピックに関与する度合いに応じたテキストマイニングを行えないという問題がある。
　このように、一般的なテキストマイニング技術では、トピック「処置」を対象としたテキストマイニング結果として、トピック「処置」にあまり関与していない部分（例えば、発言インデックス「２０」が示す部分）から由来する比較的重要でない要素も混ざりこんでしまい、精度が悪くなってしまうという課題がある。
　そこで、本発明は、特定のトピックを対象としたテキストマイニングを精度良く行うことができるテキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムを提供することを目的とする。

　本発明によるテキストマイニング装置は、分析対象のテキストの集合である着目テキスト集合中に当該テキストの要素が出現する程度を示す指標である特徴度を算出し、特徴度を算出する際、分析対象のテキストを所定の単位で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度に基づいて、前記特徴度を補正する要素特定部と、前記特徴度をもとに、前記着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する出力部と、を含む。
　本発明によるテキストマイニング方法は、分析対象のテキストの集合である着目テキスト集合中に当該テキストの要素が出現する程度を示す指標である特徴度を算出し、特徴度を算出する際、分析対象のテキストを所定の単位で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度に基づいて、前記特徴度を補正し、前記特徴度をもとに、前記着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する。
　本発明によるプログラム記録媒体に格納されているテキストマイニングプログラムは、コンピュータに、分析対象のテキストの集合である着目テキスト集合中に当該テキストの要素が出現する程度を示す指標である特徴度を算出し、特徴度を算出する際、分析対象のテキストを所定の単位で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度に基づいて、前記特徴度を補正し、前記特徴度をもとに、前記着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する、処理を実行させる。

　本発明によれば、特定のトピックを対象としたテキストマイニングを精度良く行うことができる。

本発明によるテキストマイニング装置の一実施形態を示すブロック図である。トピック関与度に応じて出現数を補正する例を示す説明図である。音声認識を行った結果の例を示す説明図である。着目テキスト集合に対する要素の特徴度を計算する例を示す説明図である。本実施形態におけるテキストマイニング方法を示すフローチャートである。テキストのみを含む入力テキスト集合の例を示す説明図である。テキストの各部分に、全トピック情報が付与された入力テキスト集合の例を示す説明図である。トピック「処置」に関するトピック関与度が付与された入力テキスト集合の例を示す説明図である。発言テキストを解析した例を示す説明図である。発言テキストを解析した例を示す説明図である。同義語辞書の例を示す説明図である。不要語辞書の例を示す説明図である。モデルが行う処理の例を示す説明図である。出力部３０が出力する出力例を示す説明図である。出力部３０が出力する出力例を示す説明図である。本発明によるテキストマイニング装置の最小構成を示すブロック図である。通話テキストを示す説明図である。

　以下、本発明の実施形態について図面を参照して説明する。なお、以下の本発明の実施の形態においては、本発明の対象の文書は日本語で記述されているものとして説明する。それに伴い、図面に示される例も日本語によって記述する。しかし、本発明の技術的範囲はこれに限られるものではない。すなわち、本発明は、日本語以外の言語で記述された文書が対象である場合であっても、各言語の文法に対応させて適用が可能である。
　図１は、本発明によるテキストマイニング装置の一実施形態を示すブロック図である。本発明によるテキストマイニング装置は、データ入力部１０と、分析設定入力部２０と、出力部３０と、プログラム制御により動作するコンピュータ４０とを備えている。コンピュータ４０は、中央処理装置やプロセッサを含むデータ処理装置などにより実現される。
　また、コンピュータ４０は、分析管理部４１と、言語処理部４２と、トピック関与度算出部４３と、トピック関与度補正特徴度計算部４４とを備えている。また、トピック関与度補正特徴度計算部４４は、出現度算出部４５と、特徴度計算部４６とを備えている。これらの構成部は次のように動作する。
　データ入力部１０は、本発明の実施の形態によるテキストマイニングを行う対象のテキストの集合（以下、「入力テキスト集合」と記す。）を入力として受け付ける。
　ここで、入力テキスト集合の各テキストは、単語、文、文章、段落、発話などの単位の部分が集まったものである。データ入力部１０は、これらの単位に分割されたテキストの各部分（部分テキストと記すこともある。）が属するトピックと、その部分がトピックに関与している度合いを示す値（以下、トピック関与度と記す。）とを、各部分に付与した情報を受け付けてもよい。すなわち、入力テキスト集合の各テキストの各部分（すなわち、単語、文、文章、段落、発話などの単位）は、これらの部分が属するトピックと、そのトピックへ関与している度合い（トピック関与度）という、トピックについての情報が付与されてもよい。ここで、各部分がトピックに関与しているとは、各部分がそのトピックと関連することを意味する。すなわち、トピック関与度は、トピックに関連する度合いを示す値に相当することから、トピック関連度と言うこともできる。また、上記トピックについての情報は、全ての部分に付与されてもよく、一部に付与されてもよい。また、上記トピックについての情報は、特定のトピックに限って付与されてもよい。また、データ入力部１０が受け付けるテキストに、上記トピックについての情報が付与されなくてもよい。なお、以下の説明では、発話単位にトピック関与度が付与される場合について説明する。ただし、トピック関与度が付与される単位は、発話単位に限定されない。
　続いて、分析設定入力部２０は、ユーザの指示に応じ、入力テキスト集合に対してテキストマイニングを行うために必要な各種設定情報を受け付ける。分析設定入力部２０は、例えば、キーボードなどの入力装置によって実現される。
　分析設定入力部２０は、分析の対象とするトピック（分析対象トピック）が何かという情報、及び、入力テキスト集合の中から、特徴や傾向を調べる対象とする入力テキスト集合の部分集合（以下、着目テキスト集合と記す。）がどれかという情報を受け付ける。そして、分析設定入力部２０は、これらの情報を分析管理部４１に通知する。
　また、分析設定入力部２０は、オプションとして、入力テキスト集合の中でテキストマイニングの対象を絞り込むことを示す設定を受け付けてもよい。この場合、分析設定入力部２０は、後述の分析管理部４１にこの設定を伝える。以降の処理では、コンピュータ４０は、入力テキスト集合全体ではなく、設定された対象に対して処理を行う。
　分析管理部４１は、分析設定入力部２０から伝えられた各種情報を、適宜、各部（より詳しくは、トピック関与度算出部４３及びトピック関与度補正特徴度計算部４４）へ通知する。具体的には、分析管理部４１は、トピック関与度算出部４３に分析対象トピックの情報を伝える。また、分析管理部４１は、トピック関与度補正特徴度計算部４４に分析対象トピックの情報及び着目テキスト集合の情報を伝える。なお、これらの情報を受け取った各部の動作については、後述する。
　言語処理部４２は、テキストマイニングを行う対象になるテキスト集合の各テキストに対して言語処理を行う。言語処理部４２は、テキストマイニングの分析対象になる要素を生成する。言語処理を行う対象のテキストは、データ入力部１０が受け付けた入力テキスト集合であってもよく、分析設定入力部２０から伝えられた（すなわち、入力テキスト集合から絞り込まれた）着目テキスト集合であってもよい。
　言語処理部４２が行う言語処理とは、本実施形態で利用する要素を生成する処理であり、具体的には、形態素解析、構文解析、係り受け解析、同義語処理、不要語処理などが含まれる。言語処理部４２が生成する要素は、入力テキストを、例えば、単語、単語ｎグラム、文節、もしくはこれらの係り受け、またはこれらのｎ連続の係り受け、または、構文木の部分木の単位で分割した各要素、もしくはこれらの要素を複数組み合わせた各要素である（ｎは自然数）。言語処理部４２が行う言語処理の内容、及び、生成する要素の単位は、予め設定されていてもよく、分析設定入力部２０がユーザから受け付けた言語処理の内容及び要素の単位であってもよい。以下の説明では、言語処理部４２が生成した要素を、単に要素と記す。
　トピック関与度算出部４３は、分析設定入力部２０がユーザから受け付けた分析対象トピックを、分析管理部４１を通じて受け取る。そして、トピック関与度算出部４３は、テキストマイニングを行う対象のテキスト集合（すなわち、入力テキスト集合、もしくは、着目テキスト集合）の各テキストの部分（すなわち、単語、文、文章、段落、発話などの単位）ごとに、その部分が分析対象トピックに関与している度合い（すなわち、トピック関与度）を計算する。その後、トピック関与度算出部４３は、計算したトピック関与度を各部分に付与する。なお、以下の説明では、トピック関与度算出部４３が、発話単位にトピック関与度を計算する場合について説明する。ただし、トピック関与後を計算する単位は、発話単位に限定されない。
　トピック関与度は、分析対象トピックに関与している度合いが高いほど大きな値になってもよい。また、トピック関与度は、分析対象トピックに関与している度合いが高いほど小さな値になってもよい。なお、以下の説明では、分析対象トピックに関与している度合いが高いほど大きな値になるトピック関与度は、正の相関があるトピック関与度と記される。また、分析対象トピックに関与している度合いが高いほど小さな値になるトピック関与度を、負の相関があるトピック関与度と記される。
　トピック関与度算出部４３は、例えば、入力テキスト集合の各テキストにおける部分ごとに、分析対象トピックに関与している度合いが既に付与されている場合、その度合いをトピック関与度としてもよい。また、トピック関与度算出部４３は、上述の通り、トピック関与度として、分析対象トピックに関与している度合いが高いほど大きな値になる（すなわち、正の相関がある）トピック関与度を採用してもよい。ここで、トピック関与度算出部４３は、例えば、入力箇所が分析対象トピックであるか否かを推定する予め作成されたモデルを各部分へ適用して、分析対象トピックの確信度合いを示す確信度を算出してもよい。その後、トピック関与度算出部４３は、算出した各部分の確信度をトピック関与度としてもよい。なお、トピック関与度算出部４３は、分析対象トピックを付与する単位（例えば、発話単位）ごとにモデルを適用して確信度を算出してもよい。
　例えば、上述のモデルが、入力箇所が分析対象トピックである確率を算出する際に用いられるモデルである場合を考える。この場合、トピック関与度算出部４３は、このモデルによって算出された確率を確信度としてもよい。ただし、確信度は、確率である場合に限られない。また、確信度を示す値の範囲も、０から１の場合に限られない。確信度は、分析対象トピックである確率が高いほど高くなる値であってもよい。
　また、トピック関与度算出部４３は、各部分が分析対象トピック以外のトピックに多く該当するほど、トピック関与度の値を小さくするように計算してもよい。また、トピック関与度算出部４３は、トピックの遷移境界への近さを利用してトピック関与度を計算してもよい。ここで、トピックの遷移境界とは、各部分の前後でトピックが変わる場所のことを示す。なお、トピック関与度の具体的な算出方法、及び、トピックの遷移境界への近さを利用したトピック関与度の算出方法については後述する。
　トピック関与度算出部４３が行うトピック関与度の算出方法や、トピック関与度の算出に用いられる各種設定情報は、予め設定されていてもよい。または、算出方法や設定情報は、分析設定入力部２０がユーザから受け付けてもよい。
　ところで、テキストマイニング装置は、各要素の着目テキスト集合に対する特徴度を計算する際、分析対象トピック以外のトピックに該当する部分も用いる分析（例えば、上述した二種類目のテキストマイニングのような分析）をユーザが希望する場合がある。この場合、テキストマイニング装置は、着目テキスト集合を分析対象トピックに該当する部分からなるテキスト集合と見なし、その着目テキスト集合に特徴的な要素を分析する。そこで、トピック関与度算出部４３は、トピック関与度だけでなく、テキストマイニングを行う対象のテキスト集合の各テキストの部分ごとに、その部分が分析対象トピック以外のトピックに関与している度合い（以下、他のトピック関与度と記す。）を計算してもよい。この場合、トピック関与度算出部４３は、トピック関与度と同様の方法で他のトピック関与度を算出すればよい。
　トピック関与度補正特徴度計算部４４は、分析設定入力部２０がユーザから受け付けた分析対象トピック及び着目テキスト集合の情報を、分析管理部４１を通じて受け取る。そして、トピック関与度補正特徴度計算部４４は、着目テキスト集合に対する各要素の特徴度を、各要素が着目テキスト集合中に出現する度合いに基づいて算出する。このとき、トピック関与度補正特徴度計算部４４は、各要素を含むテキストの部分ごとに付与されたトピック関与度に基づいて特徴度を補正する。
　なお、着目テキスト集合に対する各要素の特徴度を計算する際、分析対象トピック以外のトピックに該当する部分も用いる分析（例えば、上述した二種類目のテキストマイニングのような分析）をユーザが希望する場合がある。この場合、トピック関与度補正特徴度計算部４４は、各要素を含むテキストの部分ごとに付与されたトピック関与度に加え、他のトピック関与度（分析対象トピック以外のトピックに関与している度合い）も用いて特徴度を補正する。
　ここで、特徴度とは、要素ごとに定義される値であり、着目テキスト集合中に要素が出現する程度を示す指標である。言い換えると、特徴度とは、各要素が着目テキスト集合にどの位特徴的に出現するかを表す指標である。出現する程度の指標として、例えば、要素が着目テキスト集合にどの位多く出現するか（出現頻度）を示す。もしくは、出現する程度の指標として、要素が着目テキスト集合にどの位偏って出現するか（例えば、要素が着目テキスト集合にどの位多く出現していて、かつ、着目テキスト集合以外にどの位少なく出現しているか）を示す。特徴度の例としては、要素の着目テキスト集合に対する「ＳＣ」や「ＥＳＣ」、「χ二乗値」が挙げられるが、特徴度はこれらの内容に限定されない。
　以下、トピック関与度補正特徴度計算部４４に含まれる出現度算出部４５及び特徴度計算部４６が行う動作について具体的に説明する。
　出現度算出部４５は、言語処理部４２が生成した各要素が分析対象トピックに該当する部分（部分テキスト）に出現する度合いを示す値（以下、出現度と記す。）を算出する。出現度算出部４５は、算出した出現度をトピック関与度に応じて補正する。出現度は、例えば、要素が多く出現しているほどより大きな値をとる指標である。すなわち、出現度算出部４５は、入力テキストの各部分の分析対象トピックに関するトピック関与度に応じて、各要素の分析対象トピックに該当する部分で出現する度合い（すなわち、出現度）を補正した値を算出する。以下、出現度算出部４５が補正した出現度を、補正後の出現度と記す。
　なお、トピック関与度補正特徴度計算部４４が着目テキスト集合に対する各要素の特徴度を計算する際、分析対象トピック以外のトピックに該当する部分も用いる分析（例えば、上述した二種類目のテキストマイニングのような分析）をユーザが希望する場合がある。この場合、出現度算出部４５は、各要素の分析対象トピック以外のトピックに対応する部分で出現する度合いを、他のトピック関与度（分析対象トピック以外のトピックに関与している度合い）に応じて補正して算出する。このようにすることで、各要素の分析対象トピック以外のトピックに該当する部分の補正後の出現度も利用することができる。
　出現度算出部４５が行う補正方法や、補正の際に用いられる各種設定情報は、予め設定されていてもよい。または、補正方法や設定情報は、分析設定入力部２０がユーザから受け付けてもよい。
　また、出現度算出部４５は、出現度として「出現数」を用いてもよい。ここで、「出現数」とは、出現度のうち各箇所に出現した回数を表す数である。例えば、要素が１回出現した場合、出現数は「１」になる。要素が出現していない場合、出現数は「０」になる。この場合、出現度算出部４５は、分析対象トピックに該当する部分において各要素が出現する出現数を、分析対象トピックのトピック関与度が高い部分に各要素が出現しているほど高くなるように補正する。なお、以上に示す通り、「出現度」及び「出現数」は、各要素の各出現箇所（各部分）に対して定義される。また、出現度算出部４５は、分析対象トピック以外のトピックに該当する部分で各要素が出現する出現数の補正も、上記の分析対象トピックに対する補正と同様に行えばよい。
　図２は、出現度算出部４５がトピック関与度に応じて出現数を補正する例を示す説明図である。図２に示す例では、出現度算出部４５が、動詞「動く」の出現数を算出し、算出した出現数を補正していることを示す。図２に例示する発言インデックス「５６」が示す部分「再起動したんだけど動かないんだよね。」には、「動か」という単語が含まれ、発言インデックス「５７」が示す部分「あー、動かないですが。。。」にも、「動か」という単語が含まれている。そのため、発言インデックス「５６」が示す部分、及び、発言インデックス「５７」が示す部分における「動く」の出現数は、それぞれ「１」になる。
　そして、出現度算出部４５は、このように導出した出現数を、トピック関与度に応じて補正する。例えば、発言インデックス「５６」が示す部分のトピック関与度が０．８であり、発言インデックス「５７」が示す部分のトピック関与度が０．７であるとする。このとき、出現度算出部４５は、このトピック関与度に応じて、発言インデックス「５６」が示す部分における要素「動く」の出現数を０．８に補正する。同様に、出現度算出部４５は、発言インデックス「５７」が示す部分における要素「動く」の出現数を０．７に補正する。
　なお、出現度算出部４５が出現数を補正する方法については後述する。
　上記説明では、出現度算出部４５が出現度として出現数を利用する場合について説明したが、出現度は出現数に限定されない。例えば、出現度算出部４５は、出現度として「出現信頼度」を利用してもよい。ここで、出現信頼度とは、音声認識や文字認識した場合に付与される各単語を認識したときの信頼度を表す指標である。
　図３は、音声認識を行った結果の例を示す説明図である。図３に示す例では、「きょうはとってもあつい」という音声を認識したときに候補になる単語と、その単語の信頼度（音声認識信頼度）とを示している。例えば、「きょう」という部分が、単語「今日」と認識され、その信頼度が「１．０」であることを示す、また、「とっても」という部分が、「とっても」と認識されるときの信頼度が「０．８」であり、「取っ手」及び「も」と認識されるときの信頼度が、それぞれ「０．２」であることを示す。
　この信頼度は、単語がその箇所で実際に出現する度合いととらえることが可能である。そのため、出現度算出部４５は、この出現信頼度を出現度とし、トピック関与度に応じて出現信頼度を補正してもよい。
　続いて、特徴度計算部４６は、補正後の出現度を用いて、着目テキスト集合に対する各要素の特徴度を計算する。以下の説明では、補正後の出現度を用いて計算された特徴度のことを、「補正後の特徴度」と記す。特徴度計算部４６は、一般的なテキストマイニングに用いる方法と同様の方法を用いて特徴度を計算すればよい。例えば、特徴度計算部４６は、出現度（出現数）をもとに算出できる「ＳＣ」や「ＥＳＣ」、「χ二乗値」などを特徴度の指標として用いてもよい。なお、この際用いられる出現度は、補正後の出現度である。また、特徴度計算部４６は、最も簡単な特徴度の指標として「頻度」を用いてもよい。上述の特徴度の算出方法は広く知られているため、詳細な説明は省略する。なお、特徴度計算部４６が用いる特徴度の指標や、特徴度の計算方法などの各種設定情報は、予め設定されていてもよい。また、指標や設定情報は、分析設定入力部２０がユーザから受け付けてもよい。
　図４は、特徴度計算部４６が、補正後の出現数を用いて、着目テキスト集合に対するある要素の特徴度を計算する例を示す説明図である。図４に示す例では、すでに、出現度算出部４５が補正した出現数が与えられている。図４は、特徴度計算部４６が、補正後の出現数を用いて、テキスト１~５を含む着目テキスト集合（点線で囲まれた部分）に対する動詞「動く」の特徴度を計算していることを示す。ここでは、補正後の出現数を用いて、動詞「動く」の頻度を計算し、計算した頻度を特徴度としている。
　図４に示す例では、テキスト１には、動詞「動く」が１つ出現する部分が２箇所存在し、各部分の出現数が、それぞれ０．８、０．６に補正されている。また、テキスト２には、動詞「動く」が１つ出現する部分が１箇所存在し、出現数が０．３に補正されている。同様に、テキスト５には、動詞「動く」が１つ出現する部分が１箇所存在し、出現数が０．９に補正されている。なお、テキスト３及びテキスト４には、動詞「動く」が出現する部分は存在しない。
　ここで、着目テキスト集合内のテキストに出現する単語の総数を１０００とする。一般的な特徴度（頻度）の算出方法によれば、動詞「動く」は着目テキスト集合に４つ出現することから、動詞「動く」の特徴度を４／１０００と算出できる。一方、本実施形態では、特徴度計算部４６は、補正後の出現数をもとに特徴度を算出する。ここで、着目テキスト集合内テキストに出現した全単語の補正後の値の総和を６７８．９とする。また、動詞「動く」の補正後の出現数の総和は、０．８＋０．６＋０．３＋０．９である。本実施形態による計算方法によれば、動詞「動く」の特徴度を、（０．８＋０．６＋０．３＋０．９）／６７８．９と算出できる。
　このように、本実施形態では、特徴度計算部４６は、トピック関与度に応じて補正された出現数をもとに特徴度を算出する。そのため、本実施形態によれば、分析者は、分析対象トピックに関与している度合いに応じたテキストマイニングができる。すなわち、分析者は、分析対象トピックを対象としたテキストマイニングを精度良く行うことができる。
　出力部３０は、補正後の特徴度をもとに、着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する。具体的には、出力部３０は、補正後の特徴度の中から、より高い特徴度の要素を着目テキスト集合の特徴的な要素として特定し、その特定した要素を出力する。出力部３０は、例えば、予め設定された閾値以上の特徴度をもつ要素を特徴的な要素と特定し、その要素を出力してもよい。他にも、出力部３０は、特徴度の高い順で要素を並び替え、上位ｎ件（ｎは、ユーザ等により予め定められた値）の要素を特徴的な要素と特定してもよい。また、出力部３０は、特徴的な要素を出力する際、特徴的と判定した要素のみを出力してもよいし、特徴的と判定した要素とその特徴度の組を出力してもよい。また、出力部３０は、特徴的と判定した要素だけでなく、全要素について要素と特徴度の組を出力してもよい。また、出力部３０は、特徴度に応じて並び替えた出力順で特徴度を出力してもよいし、特徴度にこだわらず（すなわち、並び替えず）に出力してもよい。
　なお、上述の通り、分析設定入力部２０は、オプションとして、言語処理部４２が実行する言語処理の設定や、トピック関与度算出部４３が実行する算出方法に関する各種設定を受け付けてもよい。また、分析設定入力部２０は、オプションとして、出現度算出部４５が実行する補正時に用いる各種設定や、特徴度計算部４６が特徴度を計算する際の各種設定を受け付けてもよい。このとき、分析設定入力部２０は、入力された情報を分析管理部４１に伝えてもよい。分析管理部４１は、適宜、伝えられた情報を各部（より詳しくは、言語処理部４２と、トピック関与度算出部４３と、出現度算出部４５と、特徴度計算部４６）へと伝え、各部は、処理を行う際に、これらの情報を利用してもよい。
　分析管理部４１と、言語処理部４２と、トピック関与度算出部４３と、トピック関与度補正特徴度計算部４４（より詳しくは、出現度算出部４５と、特徴度計算部４６）は、プログラム（テキストマイニングプログラム）に従って動作するコンピュータ４０の中央処理装置等によって実現される。例えば、プログラムは、メモリやＨＤＤ等の記憶部５０に記憶され、中央処理装置は、そのプログラムを読み込み、プログラムに従って、分析管理部４１、言語処理部４２、トピック関与度算出部４３及びトピック関与度補正特徴度計算部４４（より詳しくは、出現度算出部４５及び特徴度計算部４６）として動作してもよい。また、分析管理部４１と、言語処理部４２と、トピック関与度算出部４３と、トピック関与度補正特徴度計算部４４（より詳しくは、出現度算出部４５と、特徴度計算部４６）とは、それぞれが専用のハードウェアで実現されていてもよい。
　次に、動作について説明する。図５は、本実施形態におけるテキストマイニング方法を示すフローチャートである。
　まず、データ入力部１０は、本発明の実施形態によるテキストマイニングを行う対象のテキストの集合（すなわち、入力テキスト集合）を入力として受け付ける（ステップＡ１）。続いて、分析設定入力部２０は、ユーザの指示に応じ、入力テキスト集合に対してテキストマイニングを行うために必要な各種設定情報を受け付ける（ステップＡ２）。なお、分析設定入力部２０は、オプションとして、言語処理部４２が実行する言語処理の設定や、トピック関与度算出部４３が実行する算出方法に関する各種設定を受け付けてもよい。また、分析設定入力部２０は、オプションとして、出現度算出部４５が実行する補正時に用いる各種設定や、特徴度計算部４６が特徴度を計算する際の各種設定を受け付けてもよい。入力された情報は、後述のステップＡ３以降の動作を行う際に、適宜、分析管理部４１から各部へと伝えられる。また、ステップＡ２において、分析設定入力部２０は、指定された分析対象ごとに処理を繰り返す旨の指示を受け付けてもよい。
　続いて、言語処理部４２は、テキストマイニングを行う対象となるテキスト集合の各テキストに対して言語処理を行い、テキストマイニングの分析対象になる要素を生成する（ステップＡ３）。ステップＡ４以降、言語処理部４２が生成した要素に対して各処理が行われる。なお、ステップＡ４以降の各処理では、着目テキスト集合中に存在する要素のみに限定した処理を行ってもよい。
　次に、トピック関与度算出部４３は、ステップＡ２においてユーザから指定された分析対象トピック（すなわち、分析設定入力部２０がユーザから受け付けた分析対象トピック）を、分析管理部４１を通じて受け取る。そして、トピック関与度算出部４３は、テキストマイニングの対象の各テキストの各部分に対し、分析対象トピックに対するトピック関与度を計算する。なお、トピック関与度算出部４３は、分析対象トピック以外のトピックに対するトピック関与度を計算してもよい（ステップＡ４）。
　続いて、トピック関与度補正特徴度計算部４４は、ステップＡ２でユーザが指定した分析対象トピック及び着目テキスト集合の情報（すなわち、分析設定入力部２０がユーザから受け付けた分析対象トピック及び着目テキスト集合の情報）を、分析管理部４１を通じて受け取る。そして、トピック関与度補正特徴度計算部４４は、着目テキスト集合に対する各要素の特徴度を算出する。このとき、トピック関与度補正特徴度計算部４４は、ステップＡ４で算出された、入力テキストの各部分の分析対象トピックに関与している度合いを表すトピック関与度に応じて各要素の特徴度を補正する。
　具体的には、出現度算出部４５は、分析対象トピックに該当する各部分において各要素が出現する出現度を算出し、算出した各出現度をトピック関与度に応じて補正する。なお、出現度算出部４５は、分析対象トピック以外のトピックに該当する各部分で出現する出現度を算出し、算出した出現度を他のトピック関与度に応じて補正してもよい（ステップＡ５）。すなわち、出現度算出部４５は、ステップＡ４において算出された、入力テキストの各部分の分析対象トピックに関するトピック関与度に応じて、ステップＡ３で生成した各要素の分析対象トピックに該当する部分で出現する度合い（すなわち、出現度）を補正した値を算出する。
　次に、特徴度計算部４６が、補正後の出現度を用いて、着目テキスト集合に対する各要素の特徴度を計算する。最後に、出力部３０は、ステップＡ６において計算された補正後の特徴度をもとに、着目テキスト集合に対して特徴的な要素を出力する（ステップＡ７）。
　なお、ステップＡ２において、分析設定入力部２０は、指定された分析対象ごとに処理を繰り返す旨の指示を受け付けてもよい。この場合、分析管理部４１は、分析設定入力部２０からテキストマイニングの処理手順を受け取る。その後、分析管理部４１が、言語処理部４２、トピック関与度算出部４３、及び、トピック関与度補正特徴度計算部４４（より詳しくは、出現度算出部４５と、特徴度計算部４６）を管理することで、指示された処理手順通りにそれぞれの構成部が各処理を実行する。
　このように、処理を繰り返す旨の指示に基づいて処理を行うことで、着目テキスト集合や分析対象トピックなどの分析の軸を１つに限った１回のテキストマイニングの試行だけでなく、分析の軸を変えながら複数回のテキストマイニングを試行する事が可能になる。
　また、処理を繰り返す旨の指示は、ステップＡ１~Ａ７に例示する各ステップを必ずしも全て行う指示ではなく、解析処理に応じて処理を変更する指示であってもよい。例えば、一度解析した結果を利用できる処理については、その処理を再度行わない指示を含んでいてもよい。例えば、テキストマイニング対象のテキストが同一であり、分析対象トピックだけを変化させる場合、テキストマイニング対象のテキストの言語処理結果は、トピックを変化した際、利用されてもよい。そのため、２回目以降の分析では、ステップＡ２に例示する処理を行わない指示に基づいて動作させることで、分析処理を効率化できる。
　以上のように、本実施形態によれば、トピック関与度補正特徴度計算部４４は、分析対象のテキストの集合である着目テキスト集合中にテキストの要素が出現する程度を示す指標（特徴度）を算出する。トピック関与度補正特徴度計算部４４は、算出した特徴度をもとに、着目テキスト集合中の特徴的な要素を特定する。具体的には、出現度算出部４５は、分析対象のテキストを、例えば、発話単位などの所定の単位で分割した各テキスト部分が分析対象トピックに関与している（関連する）度合いを示す値（トピック関与度）に基づいて特徴度を補正する。以上の方法により特徴的な要素を特定するため、分析者は、特定のトピックを対象としたテキストマイニングを精度良く行うことができる。
　また、本実施形態によれば、トピック関与度補正特徴度計算部４４は、分析対象トピックに対応する部分テキストにおいて要素が出現する度合い（出現度）を算出する。そして、特徴度を算出する際、出現度算出部４５は、トピック関与度（トピック関連度と言うこともできる。）の高い部分に要素が出現しているほど出現度をより高く補正する。そして、特徴度計算部４６は、補正された出現度を用いて特徴度を計算し、補正された出現度を用いて計算された特徴度をもとに、（例えば、閾値以上の特徴度をもつ要素や上位ｎ件の要素を）着目テキスト中の特徴的な要素と特定する。
　このように、要素の出現部分が分析対象トピックに関与している度合いに応じて入力テキスト内の各要素の特徴度を補正するため、分析者は、分析対象トピックに関与している度合いに応じたテキストマイニングができる。また、分析者は、分析対象トピックを対象としたテキストマイニングを精度良く行うことができる。
　すなわち、本実施形態では、ステップＡ５において、出現度算出部４５は、入力テキスト内の分析対象トピックに該当する部分で各要素が出現する出現度を、その要素の出現部分が分析対象トピックに関与している度合いに応じて補正する。そして、ステップＡ６において、特徴度計算部４６は、その補正した値を用いて特徴度を計算する。したがって、入力テキスト内の各要素の特徴度は、各要素の出現部分が分析対象トピックに関与している度合いに応じて補正される。つまり、分析者は、分析対象トピックに関与している度合いに応じたテキストマイニングができ、分析対象トピックを対象としたテキストマイニングを精度良く行うことができる。
　例えば、ステップＡ５における補正方法として、各要素が出現する出現度を、その要素の出現部分のトピック関与度が高ければ高いほど、高くなるように補正する、という方法を採用したとする。この場合、分析対象トピックに深く関わり、分析対象トピックの分析において重要である部分（トピック関与度の高い部分）に出現する要素の影響は大きくなる。逆に、この場合、分析対象トピックにあまり関与しない比較的重要でない部分（トピック関与度の低い部分）に出現する要素の影響は小さくなる。そのため、例えば、特定トピックの分析において比較的重要でないトピックのつなぎ部分で出現する要素が特徴的な要素になりづらくなるといった効果が得られる。このようにして、分析者は、分析対象トピックを対象としたテキストマイニングを精度良くおこなう事ができる。

　以下、具体的な実施例及び図面を用いて本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。なお、以下の説明では、図５に例示するフローチャートに沿って処理が行われるものとする。
　ここでは、分析者が、コールセンターで顧客とオペレータの間でなされた通話を対象に処置の部分に限定したテキストマイニングを行う場合の処理について説明する。また、このテキストマイニングでは、他のオペレータに比べてオペレータＡに特徴的なものを分析するものとする。
　この場合のテキストマイニングでは、データ入力部１０が、入力テキスト集合として、図６、図７及び図８に例示する、コールセンターで顧客とオペレータの対話から作成された通話テキストの集合を受け付けるものとする。また、分析設定入力部２０が、分析対象トピックとしてトピック「処置」を、着目テキスト集合として「オペレータＡが対応したテキスト集合」を、それぞれ受け付けるものとする。上記テキストマイニング（処置の部分に限定したテキストマイニング）を用いた分析を、以下、分析（１）と記す。分析（１）は、テキスト内の各要素の着目テキスト集合に対する特徴度を計算する際、分析対象トピックに該当する部分のみを用いる分析の例である。
　なお、以下の実施例において、分析者がコールセンターで顧客とオペレータの間でなされた通話を対象に、他のトピックに比べてトピック「処置」に特徴的な要素を分析する場合に行われるテキストマイニングの例も、適宜、説明する。
　この場合のテキストマイニングでも、データ入力部１０は、入力テキスト集合として、図６、図７及び図８に例示する、コールセンターで顧客とオペレータとの対話から作成された通話テキストの集合を受け付けるものとする。また、分析設定入力部２０は、分析対象トピックとしてトピック「処置」を、着目テキスト集合として「トピック「処置」に該当するテキスト部分の集合」を、それぞれ受け付けるものとする。以下、上記テキストマイニング（他のトピックに比べてトピック「処置」に特徴的な要素を分析する場合に行われるテキストマイニング）を用いた分析を、以下、分析（２）と記す。分析（２）は、テキスト内の各要素の着目テキスト集合に対する特徴度を計算する際、分析対象トピックに該当する部分に加え、分析対象トピック以外のトピックに該当する部分も用いる分析の例である。
　まず、データ入力部１０は、入力テキスト集合として、図６、図７及び図８に例示するコールセンターで顧客とオペレータとの対話から作成された通話テキストの集合を受け付ける。図６は、テキストのみを含む入力テキスト集合の例を示す説明図である。図７は、テキストの各部分に、全トピック情報（トピック及びトピック関与度）が付与された入力テキスト集合の例を示す説明図である。図８は、トピックのうち、「処置」に関するトピック関与度が付与された入力テキスト集合の例を示す説明図である。なお、図６、図７及び図８には、説明の都合上、発言インデックスの列を付与しているが、入力テキスト集合に、発言インデックスは含まれていなくてもよい。
　本実施例における入力テキスト集合の各テキストは、図７の例に示すように、複数のトピックに関する情報を含んでおり、図７における発言インデックス「２０」に例示するように、複数のトピック（「処置」及び「連絡方法」）に該当する部分が存在するテキストである。
　以下の説明では、図７に例示するように、入力テキスト集合の各テキストの発話単位に、各部分が属するトピックとそのトピックへ関与している度合い（すなわち、トピック関与度）を含むトピック情報が付与されている場合について説明する。なお、トピック情報が付与される単位（すなわち、各テキストを分割した単位）は、発話単位に限定されない。トピック情報は、発話単位でなくてもよく、単語単位や文単位、文章単位や段落単位などであってもよい。
　また、図７に示す例では、例えば、発言インデックス「１６」が示す部分は、トピック「処置」に、０．８３という度合いで関与していることを示す。また、発言インデックス「２０」が示す部分は、トピック「処置」に０．４２、トピック「連絡方法」に０．３５という度合いで関与していることを示す。このことは、発言インデックス「１６」が示す部分の方が、発言インデックス「２０」が示す部分よりもトピック「処置」に関して、深く関与していることを示している。
　なお、トピック情報は、全てのトピックについての情報でなくてもよく、図８に例示するように、一部のトピックについての情報でもよい。図８の例では、トピック「処置」に関する情報のみが付与されていることを示す。また、図６に例示するように、入力テキストは、トピック情報が付与されていないテキストであってもよい。
　なお、ここまでの処理が、図５に例示するステップＡ１までの処理に対応する。
　続いて、ユーザが希望する分析を行うため、分析設定入力部２０は、入力テキスト集合に対して、ある分析対象トピックを対象にテキストマイニングを行うために必要な各種情報をユーザから受け付ける。具体的には、分析対象トピックがトピック「処置」であること、及び、着目テキスト集合が「オペレータＡが対応したテキスト集合」であることがユーザから指定される。
　例えば、分析設定入力部２０は、入力テキスト集合の各テキストに含まれる全てのトピックのリストをユーザに提示し、ユーザがそのリストの中から指定した分析対象トピックを認識して、分析対象トピックの指定を受け付けたと判断してもよい。
　具体的には、まず、分析設定入力部２０は、ユーザに「オープニング、処置、連絡方法、・・・」というリストを提示する。そして、ユーザがリストの中から分析対象トピックとして「処置」を指定すると、分析設定入力部２０は、ユーザがトピック「処置」を指定した事を認識し、分析対象トピックを「処置」に設定する。
　また、例えば、分析設定入力部２０は、入力テキスト集合の各テキストをユーザに提示し、ユーザが着目テキスト集合としたいテキストとして指定したテキスト集合を認識して、着目テキスト集合の指定を受け付けたと判断してもよい。
　具体的には、まず、分析設定入力部２０は、入力テキスト集合の各テキストをユーザに提示する。そして、提示されたテキストから「オペレータＡが対応したテキスト集合」をユーザが指定すると、分析設定入力部２０は、ユーザが指定したテキスト集合を認識し、着目テキスト集合を、「オペレータＡが対応したテキスト集合」に設定する。
　なお、分析（２）に例示する方法で分析を行う場合、分析設定入力部２０は、着目テキスト集合として、特定トピックに該当するテキスト部分の集合の指定を受け取ってもよい。この場合、例えば、分析設定入力部２０は、入力テキスト集合の各テキストに含まれる全てのトピックのリストをユーザに提示する。そして、分析設定入力部２０は、ユーザがそのリストの中から指定した着目テキスト集合として着目したいトピックを認識することで、指定されたトピックに該当する部分の集合を着目テキスト集合に設定してもよい。
　また、入力テキスト集合の各テキストに予め付加情報（対応したオペレータ名、対応日時、対応時間、顧客名など）が付与されている場合、分析設定入力部２０は、付加情報のリストを分析の観点としてユーザに提示してもよい。そして、ユーザが着目テキスト集合としたい分析の観点を指定した場合、分析設定入力部２０は、指定された観点を認識し、その観点に該当するテキストを着目テキスト集合に設定してもよい。
　例えば、入力テキスト集合の各テキストに、予め付加情報として、対応したオペレータ名が予め付与されていた場合、分析設定入力部２０は、対応したオペレータ名のリストをユーザに提示してもよい。そして、ユーザが「オペレータＡ」を指定したとき、分析設定入力部２０は、その指定を認識して、着目テキスト集合を「オペレータＡが対応したテキスト集合」に設定してもよい。このようにして、ユーザが指定した観点に該当するテキストを着目テキスト集合と設定できる。
　分析設定入力部２０は、分析対象トピック及び着目テキスト集合の情報を分析管理部４１に伝える。そして、以降の処理（例えば、図５に例示するステップＡ４の処理）において、分析対象トピックの情報は、分析管理部４１によってトピック関与度算出部４３に伝えられて、使用される。同様に、以降の処理（例えば、図５に例示するステップＡ５及びステップＡ６の処理）において、分析対象トピック及び着目テキスト集合の情報は、分析管理部４１によってトピック関与度補正特徴度計算部４４に伝えられて、使用される。
　分析設定入力部２０は、オプションとして、言語処理部４２が実行する言語処理の設定や、トピック関与度算出部４３が実行する算出方法に関する各種設定を受け付けてもよい。また、分析設定入力部２０は、オプションとして、出現度算出部４５が実行する補正時に用いる各種設定や、特徴度計算部４６が特徴度を計算する際の各種設定を受け付けてもよい。この場合、分析管理部４１に分析設定入力部２０が受け付けた設定や情報を伝え、例えば、図５に例示するステップＡ３以降の動作が行われる際に、各部（より詳しくは、言語処理部４２、トピック関与度算出部４３、出現度算出部４５及び特徴度計算部４６）は、各種設定を分析管理部４１から受け取って利用してもよい。具体的な設定項目の例は、設定が利用される各部の後述する処理で説明する。
　また、分析設定入力部２０は、オプションとして、入力テキスト集合の中からテキストマイニングの対象を絞り込む際の設定を受け付けてもよい。なお、分析設定入力部２０が、テキストマイニングの対象を絞り込む処理は、上述した着目テキスト集合を設定する方法と同様の処理で実現できる。
　つまり、分析設定入力部２０が入力テキスト集合の各テキストをユーザに提示し、ユーザがテキストマイニングの対象にしたいテキストを指定したときに、分析設定入力部２０は、指定されたテキストをテキストマイニングの対象と認識すればよい。また、入力テキスト集合の各テキストに予め付加情報が付与されている場合、分析設定入力部２０は、付加情報のリストをユーザに提示し、ユーザがテキストマイニングの対象にしたい部分が指定されたときに、指定された部分をテキストマイニングの対象と認識すればよい。
　このように絞り込まれた結果、テキストマイニングの対象になったテキスト集合は、分析管理部４１に伝えられ、その後、図５に例示するステップＡ３以降の各処理で利用される。この場合、図５に例示するステップＡ３以降の各処理では、入力テキスト集合全体を対象とするのではなく、絞り込んだ結果のテキスト集合を対象として各処理が行われる。
　なお、以下の説明では、テキストマイニングの対象を絞り込まない場合の処理を例に説明するが、テキストマイニングの対象を絞り込んだ場合の処理も同様である。すなわち、テキストマイニングの対象を絞り込んだ場合には、以下の説明において「入力テキスト集合」を対象にした処理を、「図５に例示するステップＡ２において入力テキスト集合を絞り込んだ結果のテキスト集合」（すなわち、分析設定入力部２０が入力テキスト集合を絞り込んだ結果のテキスト集合）を対象にした処理と読み替えればよい。
　なお、ここまでの処理が、図５に例示するステップＡ２までの処理に対応する。
　続いて、言語処理部４２は、入力テキスト集合の各テキストに対して言語処理を行い、テキストマイニングの分析対象になる要素を生成する。言語処理部４２が行う具体的な言語処理や生成する要素の単位は、予め設定されていてもよく、図５に例示するステップＡ２で、（すなわち、分析設定入力部２０から伝えられて）設定されてもよい。
　なお、具体的な言語処理や要素の単位は、通常のテキストマイニング技術で用いられる言語処理や要素の単位と同様である。具体的な要素の単位として、例えば、単語、単語ｎグラム、文節、もしくはこれらの係り受け、またはこれらのｎ連続の係り受け、または、構文木の部分木の単位で分割した各要素、もしくはこれらの要素を複数組み合わせた各要素が挙げられる。ここで、単語ｎグラムの「ｎ」やｎ連続の係り受けの「ｎ」は自然数であり、例えば、人手で設定される値でもよい。
　また、具体的な言語処理として、生成する要素の単位にあわせた形態素解析、構文解析、係り受け解析などが行われる。例えば、要素の単位として、単語や、単語ｎグラムが含まれた場合、言語処理部４２は、形態素解析を行い、要素を生成する。
　図９は、図６に例示する発言インデックス「１７」が示す発言テキストを解析した例を示す説明図である。図９に例示する表は、発言テキスト「したけど、動かないですね。」という文章を形態素解析して単語に分割し、各単語と品詞とを対応付けた表である。ここで、要素の単位を単語単位とした場合、要素は、「し」、「た」、「けど」、「、」、「動か」、「ない」、「です」、「ね」、「。」の９つになる。また、要素の単位を単語２グラム単位とした場合、要素は、「した」、「たけど」、「けど、」、「、動か」、「動かない」、「ないです」、「ですね」、「ね。」の８つになる。
　また、例えば、係り受けや、ｎ連続の係り受けや、文節や、構文木の部分木が含まれた場合、言語処理部４２は、係り受け解析や構文解析を行い、要素を生成する。
　図１０は、図６に例示する発言インデックス「１７」が示す発言テキストを解析した例を示す説明図である。図１０に示す例では、解析文「したけど、動かないですね。」を係り受け解析した結果を示している。図１０に例示する係り受け解析結果では、図中の斜線「／」が文節の区切りを示し、図中の矢印が、矢印の始点の文節が矢印の終点の文節に係ることを示す。
　ここで、要素の単位を係り受け単位とした場合、要素は、「したけど→動かないですね。」の１つになる。また、要素の単位を文節単位とした場合、要素は、「したけど、」、「動かないですね。」の２つになる。さらに、要素を構文木の部分木単位にした場合、要素は、「したけど、」、「動かないですね」、「したけど→動かないですね。」の３つになる。
　さらに、言語処理の設定として同義語処理や不要語処理が指定されている場合、言語処理部４２は、これらの処理を行ってもよい。例えば、言語処理部４２は、予め設定され、もしくは、分析設定入力部２０が受け付けた要素同士の同義関係の情報を利用して、同義語処理を行う。図１１は、同義語辞書の例を示す説明図である。図１１に示す例では、ある代表語に対して複数の同義な単語（同義語）が対応付けられていることを示す。例えば、図１１に例示する表の２行目は、「再起動」「リブート」「ｒｅｂｏｏｔ」が同じ意味である事を示す。言語処理部４２は、図１１に例示する単語同士の同義関係を定めた辞書を利用して同義語処理を行ってもよい。この場合、言語処理部４２は、入力された情報の中から、同義関係にある要素同士を同じ要素とみなす。以下、このようにみなした情報を用いて、図５に例示するステップＡ４以降の処理が行われる。例えば、図１１に例示する同義語辞書を用いる場合、言語処理部４２は、同義語に設定されている単語が出現してきた場合に、その単語を対応する代表語に置き換える。以下、置き換えた代表語を用いて、図５に例示するステップＡ４以降の処理が行われる。
　また、言語処理部４２は、予め設定され、もしくは、分析設定入力部２０が受け付けたテキストマイニングの分析対象として不要な要素の情報を利用して不要語処理を行ってもよい。図１２は、不要語辞書の例を示す説明図である。図１２に示す例では、不要語の一覧が不要語辞書として登録されていることを示す。図１２に例示するように、不要語辞書に登録される要素は、単語だけに限られない。不要語辞書には、品詞など単語以外の情報を用いて不要な要素を規定してもよい。この場合、言語処理部４２は、設定されている情報を基に、テキストマイニングの分析対象になる要素から該当する要素を取り除く。
　例えば、図１２に例示する不要語辞書を用いた場合、言語処理部４２は、図９に例示する発言インデックス「１７」が示す発言テキストの単語単位の要素「し」、「た」、「けど」、「、」、「動か」、「ない」、「です」、「ね」及び「。」から、「、」、「。」、「けど」及び「ね」を取り除く。この場合、図５に例示するステップＡ３において、解析文「したけど、動かないですね。」の単語単位の要素としては、「し」、「た」、「動か」、「ない」及び「です」の合計５個が出力される。
　なお、ここまでの処理が、図５に例示するステップＡ３までの処理に対応する。
　続いて、トピック関与度算出部４３は、分析管理部４１を通じて、ユーザから分析対象トピックとしてトピック「処置」が指定されたことを受け取る。そして、トピック関与度算出部４３は、入力テキスト集合の各テキストの各部分が分析対象トピック「処置」に関与している度合いを表すトピック関与度を計算し、計算したトピック関与度を各部分に付与する。
　図５に例示するステップＡ４において、トピック関与度算出部４３は、トピック関与度を付与する各部分の単位として、例えば、単語、文、文章、段落、発話単位などを用いる事ができる。各部分の単位は、予め設定されていてもよく、分析設定入力部２０が受け取った単位であってもよい。ここでは、発話単位でトピック関与度が付与される場合について説明する。
　ここで、図７に例示するように、入力テキスト集合の各テキストの各部分に、その部分が属するトピックと、そのトピックに関与している度合いを含むトピック情報が付与されている場合、トピック関与度算出部４３は、トピックに関与されている度合いとして既に付与されている情報をトピック関与度として用いてもよい。また、図８に例示するように、各テキストの各部分に、その部分が分析対象トピック（ここでは、トピック「処置」）に関与している度合いが付与さている場合、トピック関与度算出部４３は、トピックに関与されている度合いとして既に付与されている情報を分析対象トピックのトピック関与度として用いてもよい。
　例えば、図７や図８に例示するテキストが入力された場合、発言インデックス「１」、「１６」、「２０」が示す部分の分析対象トピック「処置」についてのトピック関与度は、それぞれ、０、０．８３、０．４２になる。
　なお、図７及び図８に例示する入力テキスト集合の各テキストに付与されている関与度合いの単位と、図５に例示するステップＡ４において、トピック関与度算出部４３がトピック関与度を付与する単位のいずれも発話単位である。そのため、入力時に付与された関与度合いをそのままトピック関与度として利用できた。ただし、入力テキスト集合の各テキストに付与されている関与度合いの単位と、トピック関与度算出部４３がトピック単位を付与する単位とは異なっていてもよい。以下、入力されたテキストに付与されている関与度合いの単位と、図５に例示するステップＡ４において、トピック関与度算出部４３がトピック関与度を付与する単位とが異なっている場合の処理について説明する。
　まず、図５に例示するステップＡ４において、トピック関与度算出部４３がトピック関与度を付与する単位が、入力テキストに付与された関与度合いの単位よりも短い場合について説明する。例えば、入力テキストに付与された関与度合いの単位が発話単位であり、図５に例示するステップＡ４においてトピック関与度算出部４３がトピック関与度を付与する単位が単語単位である場合などが、この例に挙げられる。この場合、トピック関与度が付与される単位は、入力テキストに付与されていた単位の一部である。そのため、図５に例示するステップＡ４において、トピック関与度算出部４３は、トピック関与度を付与する部分が含まれる入力テキストの該当箇所の値（関与度合い）をトピック関与度として用いることができる。
　例えば、トピック関与度算出部４３は、図７に例示する発言インデックス「１６」が示す発言テキスト内の単語「再起動」部分のトピック「処置」についてのトピック関与度を、入力時に発言インデックス「１６」が示す部分に付与されている関与度合いである０．８３とすることができる。
　次に、図５に例示するステップＡ４において、トピック関与度算出部４３がトピック関与度を付与する単位が、入力テキストに付与された関与度合いの単位よりも長い場合について説明する。例えば、入力テキストに付与された関与度合いの単位が単語単位であり、図５に例示するステップＡ４において、トピック関与度算出部４３がトピック関与度を付与する単位が発話単位である場合などが、この例に挙げられる。
　この場合、トピック関与度を付与する単位に対して、入力テキストに付与された関与度合いが複数存在することになる。例えば、図５に例示するステップＡ４において、トピック関与度算出部４３は、トピック関与度を付与する対象の箇所に対し、入力テキストに付与された複数の関与度合いをもとに平均値を算出し、その平均値をトピック関与度としてもよい。例えば、トピック関与度算出部４３は、発言インデックス「１７」が示す部分のトピック関与度を、入力時に付与されている発言インデックス「１７」が示す発言テキスト内の各単語「し」、「た」、「けど」、「、」、「動か」、「ない」、「です」、「ね」、「。」の９個の値（関与度合い）の平均としてもよい。
　なお、上記説明では、トピック関与度を入力テキストに付与された関与度の平均値にする場合について説明した。他にも、トピック関与度算出部４３は、トピック関与度を付与する対象の箇所に対し、入力テキストに付与された複数の関与度合いの中から最大値を選択し、その値をトピック関与度としてもよい。もしくは、トピック関与度算出部４３は、トピック関与度を付与する対象の箇所に対し、入力テキストに付与された複数の関与度合いの中から最小値を選択し、その値をトピック関与度としてもよい。
　また、入力テキストの各部分に重要度の差がある場合、トピック関与度算出部４３は、例えば、トピック関与度を付与する対象の箇所に対して入力テキストに付与された複数の値（関与度合い）のうち、重要な部分に付与された値をトピック関与度として採用してもよい。
　例えば、入力テキストには単語単位で値が付与されており、図５に例示するステップＡ４において、発話単位にトピック関与度が付与されるものとする。ここで、単語の種類を示す「自立語」が「付属語」よりも重要度が高い場合、トピック関与度算出部４３は、付属語に付与された値ではなく、自立語に付与された値を採用してもよい。
　また、入力テキストには文節単位で値が付与されており、図５に例示するステップＡ４において、文単位にトピック関与度が付与されるものとする。ここで、文節の種類を示す「主節」が「条件節」よりも重要度が高い場合、トピック関与度算出部４３は、条件節に付与された値ではなく、主節に付与された値を採用してもよい。
　次に、入力テキストに分析対象トピックについての関与度合いが付与されていない場合、もしくは、入力テキストに分析対象トピックについての関与度合いが付与されていてもその関与度を用いない場合に、トピック関与度算出部４３が、分析対象トピックと正の相関がある（すなわち、分析対象トピックに関与している度合いが高いほど大きな値になる）トピック関与度を算出する方法について説明する。ただし、トピック関与度算出部４３は、分析対象トピックと負の相関がある（すなわち、分析対象トピックに関与している度合いが高いほど小さな値になる）トピック関与度を算出してもよい。負の相関があるトピック関与度を算出する場合、トピック関与度算出部４３は、例えば、後述する方法で分析対象トピックと正の相関があるトピック関与度を算出したあと、そのトピック関与度の逆数を負の相関があるトピック関与度としてもよい。
　正の相関があるトピック関与度を算出する場合、トピック関与度算出部４３は、例えば、入力箇所が分析対象トピックであるか否かを推定する予め作成されたモデルを利用して、入力テキスト集合中の各発話にトピック関与度を付与してもよい。なお、このモデルは、トピック関与度算出部４３が利用するモデルとして予め定められていてもよく、分析設定入力部２０が受け付けたモデルであってもよい。ここでは、トピック関与度算出部４３が、分析対象トピックである確率が高いほど確信度を高く算出するモデルを用いて確信度を算出し、算出された確信度を基にトピック関与度を算出する場合について説明する。
　このモデルは、例えば、分析対象トピック（例えば、トピック「処置」）に該当する発話を正例、分析対象トピック以外のトピックに該当する発話を負例として、シンプルベイズ法や、決定木学習、最大エントロピー法や、サポートベクトルマシンなどの学習アルゴリズムを用いて学習することにより生成される。これらのアルゴリズムを用いて、入力箇所が正例に該当する（分析対象トピックである）か否かを推定するモデルを作成する方法や、作成したモデルを用いて入力箇所が正例に該当する（分析対象トピックである）確信度を算出する方法は広く知られているため、ここでは説明を省略する。
　図１３は、上記方法により作成されたモデルが行う処理の例を示す説明図である。図１３に例示するモデルは、入力された発話に対して、その発話が分析対象トピックであるか否かを示す判定結果と、その判定に利用した発話が分析対象トピックである確信度を出力する。この確信度は、入力箇所が分析対象トピックである確率が高いほど高くなる値である。すなわち、この確信度は、分析対象トピックである確率や、０から１の値でなくてもよい。
　入力箇所が分析対象トピックであるか否かを推定するモデルとして、例えば、シンプルベイズ法により学習、作成されたモデルを用いて、発話が分析対象トピックになる確率を導出してもよい。シンプルベイズ法で作成されたモデルを用いた場合、トピック関与度算出部４３は、発話ａが入力として与えられたときに、発話ａのトピックが分析対象トピックｂとなる確率（以下、この確率をＰ（ｂ｜ａ）と表わす。）を計算し、分析対象トピックであるか否かを判定する。なお、この場合、入力発話が分析対象トピックである確信度を、確率Ｐ（ｂ｜ａ）とすることができる。
　上記モデルを用いてトピック関与度を付与する方法について説明する。まず、トピック関与度算出部４３は、トピック関与度の付与対象である各発話の確信度を上記モデルを用いて算出する。そして、トピック関与度算出部４３は、算出した確信度をトピック関与度とみなし、このトピック関与度を各発話に付与する。
　例えば、図１３に例示する「お世話になっております。」（図７に例示する発言インデックス「２」が示す発言テキスト）をモデルに適用した結果が、「確信度０．１２」であったとする。この場合、発言インデックス「２」が示す発言テキストのトピック関与度は０．１２になる。同様に、図１３に例示する「再起動して頂いていいですか？」（図７に例示する発言インデックス「１６」が示す発言テキスト）をモデルに適用した結果が、「確信度０．７５」であったとする。この場合、発言インデックス「１６」が示す発言テキストのトピック関与度は０．７５になる。
　なお、上記説明では、トピック関与度算出部４３が算出した確信度をトピック関与度とみなす場合について説明した。他にも、トピック関与度算出部４３は、入力箇所が分析対象トピックか否かを判定するための確信度に対する閾値を人手や予備実験等で予め定めておき、確信度が閾値以下であった場合にはトピック関与度を０にしてもよい。例えば、図１３に示す例で閾値を０．５と定めた場合、「お世話になっております。」の確信度は閾値以下のため、判定結果は「×」になり、トピック関与度は０になる。一方、「再起動して頂いていいですか？」の確信度は閾値を超えているため、判定結果は「○」になり、トピック関与度は０．７５になる。
　また、トピック関与度算出部４３は、各発話が分析対象トピック以外のトピックに多く該当するほど、各発話のトピック関与度を小さくするように計算してもよい。以下、各発話が分析対象トピック以外のトピックに多く該当するほど、各発話のトピック関与度を小さく計算する方法の例について説明する。なお、ここでは、図７に例示するトピックが、各発話（発言テキスト）に付与されており、分析対象トピックが「処置」である場合を例に説明する。
　まず、人手や予備実験等で、発話が属するトピックが分析対象トピック１つのみである場合のトピック関与度のデフォルト値を予め設定する。また、各発話が分析対象トピックに該当しない場合、発話のトピック関与度を０とし、各発話が分析対象トピックに該当する場合、上述のデフォルト値をその発話が該当するトピックの数で割った値とする。
　この場合、発話をｕｔ、発話ｕｔのトピック関与度をＴｏｐｉｃ＿Ｄｅｇｒｅｅ（ｕｔ）、発話ｕｔが該当するトピックの数をｔｏｐｉｃ（ｕｔ）、トピック関与度のデフォルト値をＤｅｆａｕｌｔと表わすと、発話ｕｔが分析対象トピックに該当する場合、発話ｕｔのトピック関与度Ｔｏｐｉｃ＿Ｄｅｇｒｅｅ（ｕｔ）は、以下に例示する式１で算出できる。
　Ｔｏｐｉｃ＿Ｄｅｇｒｅｅ（ｕｔ）＝Ｄｅｆａｕｌｔ／ｆ（ｔｏｐｉｃ（ｕｔ））　　（式１）
　ここで、ｆ（ｘ）は、ｆ（ｘ）＝ｘを満たす関数である。
　例えば、デフォルト値（Ｄｅｆａｕｌｔ）を１とした場合、図７に例示する発言インデックス「２」が示す部分は、分析対象トピック「処置」に該当しない。そのため、図７に例示する発言インデックス「２」が示す部分のトピック関与度は０になる。一方、発言インデックス「１６」が示す部分のトピック関与度は１（＝１／１）、発言インデックス「２０」が示す部分のトピック関与度は０．５（＝１／２）になる。
　なお、デフォルト値は、予め設定された定数ではなく、上述のモデル（入力箇所が分析対象トピックであるか否かを推定する予め作成されたモデル）が出力する確信度でもよい。
　また、発話が該当するトピックの数に応じて、トピック関与度に与える影響度合いを変化させてもよい。すなわち、上記式１で用いられる関数ｆ（ｘ）として、ｆ（ｘ）＝ｘ以外の広義単調増加関数を用いてもよい。ここで、広義単調増加関数とは、ｆ（ｘ）の定義域である任意の要素ａ、ｂに対し、ａ＜ｂならば、常にｆ（ａ）≦ｆ（ｂ）となる関数のことである。例えば、トピックの数が増えるに従って、トピック関与度への影響度合いを増加させ、トピック関与度をより減少させたい場合、式１にｆ（ｘ）＝ｘ２などの凸関数を用いてもよい。また、例えば、トピックの数が一つから複数になることのトピック関与度への影響は大きく考慮するが、トピック数が増えるに従い、トピック数の増加に対するトピック関与度への影響度合いを小さくする場合には、式１に、以下の式２に例示する凹関数を用いてもよい。

　また、トピック関与度算出部４３は、各発話のトピック関与度を、トピックの遷移境界への近さを利用して計算してもよい。これは、トピックの遷移境界に近いほど、トピックとトピックのつなぎになりやすいことを利用するものである。そこで、トピック関与度算出部４３は、トピックの遷移境界に近いほど、トピックとトピックのつなぎになりやすい事を考慮して、トピックの遷移境界へ近いほど特定のトピックへ関与している度合い（トピック関与度）を減らすように計算してもよい。
　ここで、発話ｕｔのトピック関与度Ｔｏｐｉｃ＿Ｄｅｇｒｅｅ（ｕｔ）は、発話ｕｔが分析対象トピックに該当しない場合は０、該当する場合は、以下に例示する式３を用いて算出される。
　Ｔｏｐｉｃ＿Ｄｅｇｒｅｅ（ｕｔ）＝Ｄｅｆａｕｌｔ×ｇ（ｄｉｓ（ｕｔ））　　（式３）
　ここで、式３に用いられるＴｏｐｉｃ＿Ｄｅｇｒｅｅ（ｕｔ）及びＤｅｆａｕｌｔは、上記式１について説明した内容と同様である。また、ｄｉｓ（ｕｔ）は、発話ｕｔとその発話から最も近いトピック遷移境界との距離を表す。関数ｇ（ｘ）は広義単調増加関数であり、広義単調増加関数であれば任意の関数を用いることができる。例えば、ｇ（ｘ）＝１−１／（１＋ｘ）とした場合、トピック関与度算出部４３は、発話ｕｔが分析対象トピックに該当する場合、トピック関与度Ｔｏｐｉｃ＿Ｄｅｇｒｅｅ（ｕｔ）を以下に例示する式４で算出できる。
　Ｔｏｐｉｃ＿Ｄｅｇｒｅｅ（ｕｔ）＝Ｄｅｆａｕｌｔ×［１−１／（１＋ｄｉｓ（ｕｔ））］　　（式４）
　ここで、ある発話と最も近いトピック遷移境界を境界Ａとする。このとき、ｄｉｓ（ｕｔ）は、例えば、発話ｕｔを含め、発話ｕｔとトピック境界Ａとの間に存在する発話の数と定義できる。例えば、Ｄｅｆａｕｌｔ＝１とし、定義したｄｉｓ（ｕｔ）を用いた場合、図７に例示する発言インデックス「２」が示す部分は、分析対象トピック「処置」に該当しない。そのため、図７に例示する発言インデックス「２」が示す部分のトピック関与度は０になる。一方、発言インデックス「１８」が示す部分のトピック関与度は０．７５（＝１×（１−１／（１＋３）））、発言インデックス「２０」が示す部分のトピック関与度は０．５（＝１×（１−１／（１＋１）））になる。
　なお、上記説明では、ｄｉｓ（ｕｔ）を、発話ｕｔを含め、発話ｕｔとトピック境界Ａとの間に存在する発話の数と定義した。例えば、ｄｉｓ（ｕｔ）を、発話ｕｔを含め、発話ｕｔと境界Ａとの間に存在する単語の数としてもよい。
　一方で、トピック関与度算出部４３は、最も近いトピック遷移境界との距離が一定以上離れると、トピックのつなぎにはならないという性質を利用してトピック関与度を算出してもよい。ここでは、式３において、関数ｇ（ｘ）として、広義単調増加関数であり、かつ、ｇ（ｘ）の定義域である任意の要素ｘに対し、０≦ｘの時、０≦ｇ（ｘ）≦１となる関数を用いるものとする（式４は、この条件を満たす式の一例となっている）。また、人手や予備実験等により、一定距離以上離れたか否かを判定するための閾値を予め設定する。この場合、発話ｕｔのトピック関与度Ｔｏｐｉｃ＿Ｄｅｇｒｅｅ（ｕｔ）は、発話ｕｔが分析対象トピックに該当しない場合は０と算出される。トピック関与度Ｔｏｐｉｃ＿Ｄｅｇｒｅｅ（ｕｔ）は、発話ｕｔが分析対象トピックに該当し、ｄｉｓ（ｕｔ）が閾値以上の場合にＤｅｆａｕｌｔとなる。また、トピック関与度Ｔｏｐｉｃ＿Ｄｅｇｒｅｅ（ｕｔ）は、発話ｕｔが分析対象トピックに該当し、ｄｉｓ（ｕｔ）が閾値未満の場合、上述の式４を用いて算出される。
　例えば、Ｄｅｆａｕｌｔ＝１、ｇ（ｘ）＝１−１／（１＋ｘ）、閾値を２とした場合、図７に例示する発言インデックス「２」が示す部分は、分析対象トピック「処置」に該当しない。そのため、図７に例示する発言インデックス「２」が示す発言テキストのトピック関与度は０になる。また、発言インデックス「１８」が示す発言テキストのトピック関与度は、発言インデックス「１８」と最も近いトピック遷移境界との距離が３（閾値以上）なので、デフォルト値の１になる。また、発言インデックス「２０」が示す発言トピックのトピック関与度は、発言インデックス「２０」と最も近いトピック遷移境界との距離が１（閾値未満）なので、上述の式４を用いて、０．５（＝１×（１−１／（１＋１）））と計算される。
　また、トピック関与度算出部４３は、各発話が該当する分析対象トピック以外のトピック数と、トピックの遷移境界への近さの両方を利用して各発話のトピック関与度を計算してもよい。具体的には、トピック関与度算出部４３は、例えば、各発話が分析対象トピックに該当しない場合、トピック関与度を０としてもよい。トピック関与度算出部４３は、各発話が分析対象トピックに該当する場合、上述の式１及び式３を組み合わせた以下に例示する式５を用いてトピック関与度を算出してもよい。なお、以下に例示する式５で用いられる各変数（項目）は、上記式１及び式３について説明した内容と同様である。
　Ｔｏｐｉｃ＿Ｄｅｇｒｅｅ（ｕｔ）＝Ｄｅｆａｕｌｔ×ｇ（ｄｉｓ（ｕｔ））／ｆ（ｔｏｐｉｃ（ｕｔ））　　（式５）
　以上、図５に例示するステップＡ４において、トピック関与度を算出する方法について説明した。なお、トピック関与度算出部４３が用いる算出方法や、その算出方法で用いる関数、閾値、パラメータなどの各種設定情報は、予め定められていてもよい。または、算出方法や各種設定情報は、ステップＡ２において、分析設定入力部２０がユーザから受け付けてもよい。
　なお、分析（２）に例示する方法で分析を行う場合、トピック関与度算出部４３は、入力テキスト集合の各テキストの各部分が分析対象トピック以外のトピックに関与している度合いを表すトピック関与度（すなわち、他のトピック関与度）を計算し、各部分に付与してもよい。トピック関与度算出部４３は、他のトピック関与度を算出する方法として、上述したトピック関与度を算出する方法と同様の方法を用いてもよい。
　なお、ここまでの処理が、図５に例示するステップＡ４までの処理に対応する。
　続いて、トピック関与度補正特徴度計算部４４は、図５に例示するステップＡ２において、ユーザから指定された分析対象トピック及び着目テキスト集合の情報を、分析管理部４１を通じて受け取る。そして、トピック関与度補正特徴度計算部４４は、図５に例示するステップＡ４において算出されたトピック関与度に応じて、ステップＡ３において生成した各要素について、着目テキスト集合に対する特徴度を補正する。
　なお、分析（２）に例示する方法で分析を行う場合、トピック関与度補正特徴度計算部４４は、図５に例示するステップＡ４において算出された他のトピック関与度を用いて、各要素の特徴度を補正してもよい。
　以下、図５に例示するステップＡ５において出現度算出部４５が行う処理、及び、ステップＡ６において特徴度計算部４６が行う処理について、具体的に説明する。
　まず、出現度算出部４５は、ステップＡ３において生成された各要素が分析対象トピックに該当する部分において出現する出現度合い（出現度）を算出する。出現度算出部４５は、算出した出現度を、図５に例示するステップＡ４において算出されたトピック関与度に応じて補正する。本例では、出現度算出部４５が算出及び補正する出現度の一例として、「出現数」を用いて説明する。また、補正方法の一例として、分析対象トピックに該当する部分で各要素が出現する出現数を、分析対象トピックのトピック関与度が高い部分に各要素が出現しているほど高くなるように補正する補正方法を説明する。
　本例では、ある要素が各箇所（部分）に１回出現した場合に、その箇所の出現数を１とする。補正しない通常の場合、ある要素が１回出現したら出現数は「１」になる。ここで、補正するとは、ある要素が１回出現した場合の出現数を「ｍ（ｍは実数）」とし、ｍ回出現したものと捉えることを意味する。以降の説明では、この補正を「出現数をｍに補正する」と記す。
　まず、図５に例示するステップＡ４において付与されたトピック関与度が、分析対象トピックと正の相関がある場合について説明する。この場合、出現度算出部４５は、例えば、要素の出現数を、元々の出現数（補正前の出現数）に、その要素が出現している箇所のトピック関与度を乗じた値に補正する。具体例として、まず、要素の単位とステップＡ４においてトピック関与度が付与された単位が同じ場合、もしくは、要素の単位の方が短い場合について説明する。この場合、出現度算出部４５は、要素の出現数を、その要素が含まれる箇所のトピック関与度を乗じた値に補正する。
　例えば、図５に例示するステップＡ４において、トピック関与度が発話単位で付与されているとする。また、要素が入力テキストを単語単位で分割したものであるとする。補正しない通常の場合、例えば、図９に例示する「し−動詞」は、発言インデックス「１７」が示す部分に１回出現したものと捉える。一方、出現度算出部４５は、元々の出現数１に、発言インデックス「１７」が示す部分に付与された、トピック関与度を乗じた値（例えば、「０．７８＝１×０．７８」）の数だけ出現したものと捉える。
　次に、ステップＡ４においてトピック関与度が付与された単位よりも要素の単位の方が長い場合について説明する。この場合、要素が出現する箇所に付与されたトピック関与度は、複数存在することになる。出現度算出部４５は、例えば、要素の出現数を、元々の出現数に、その要素の出現箇所に付与された複数のトピック関与度の平均値を乗じた値に補正してもよい。
　例えば、ステップＡ４において、トピック関与度が発話単位で付与されており、要素が発話単位であるとする。このとき、出現度算出部４５は、発言インデックス「１７」が示す発言テキストの出現数を、元々の出現数に、発言インデックス「１７」が示す発言テキスト内の「し」、「た」、「けど」、「、」、「動か」、「ない」、「です」、「ね」、「。」の９個の単語に付与されたトピック関与度の平均値を乗じた値に補正する。
　また、出現度算出部４５は、要素の出現数を、元々の出現数に、その要素の出現箇所に付与された複数のトピック関与度の最小値を乗じた値に補正してもよい。同様に、出現度算出部４５は、要素の出現数を、元々の出現数に、その要素の出現箇所に付与された複数のトピック関与度の最大値を乗じた値に補正してもよい。
　また、ステップＡ４において、トピック関与度が付与された各部分に重要度の差がある場合、出現度算出部４５は、要素の出現箇所に付与された複数のトピック関与度のうち、重要な部分に付与されたトピック関与度のみに着目し、上述の方法で補正してもよい。
　例えば、ステップＡ４において、トピック関与度が発話単位で付与されており、要素が発話単位であるとする。このとき、出現度算出部４５は、発話中の各単語に付与されたトピック関与度のうち、付属語に付与されたトピック関与度ではなく、自立語に付与されたトピック関与度を用いて補正してもよい。また、例えば、ステップＡ４において、トピック関与度が文節単位で付与されており、要素が文単位であるとする。このとき、出現度算出部４５は、文中の各文節に付与されたトピック関与度のうち、条件節に付与されたトピック関与度ではなく主節に付与されたトピック関与度を用いて補正してもよい。
　以下、補正方法の例についてさらに説明する。なお、トピック関与度が付与された単位と要素の単位が異なった場合については、上述の方法を用いて補正を行えばよい。
　例えば、出現度算出部４５は、要素の出現数を補正するか否かを判定するための閾値を人手や予備実験等で予め定めておいてもよい。このとき、要素が出現している箇所のトピック関与度が閾値以上であった場合、出現度算出部４５は、その要素の出現数を、元々の出現数の値（例えば、「１」）としてもよい。または、出現度算出部４５は、その要素が出現している箇所のトピック関与度を元々の出現数に乗じた値に補正してもよい。同様に、要素が出現している箇所のトピック関与度が閾値未満であった場合、出現度算出部４５は、その要素の出現数を「０」に補正してもよい。
　また、出現度算出部４５は、要素の出現数を、元々の出現数に、要素が出現している箇所のトピック関与度を離散的に変換した値を乗じた値に補正してもよい。例えば、出現度算出部４５は、トピック関与度を離散的に変換する方法として、人手等により予め設定された「ｉｆ　ｍ≦トピック関与度＜ｎ　ｔｈａｎ　トピック関与度＝ｋ（ｋ、ｍ、ｎはいずれも実数）」のようなルールを用いてもよい。また、出現度算出部４５は、上述のような複数のルールを用いてトピック関与度を離散的に変換してもよい。
　また、今まで説明してきた補正方法により補正された出現数の値が、０から１の範囲に収まっていない場合、出現度算出部４５は、この値を０から１の範囲に正規化した値に要素の出現数を補正してもよい。例えば、補正した出現数が負の値を持つ場合、出現度算出部４５は、最小の出現数の絶対値を全ての出現数に加算して、全ての出現数を０以上にする。そして、出現度算出部４５は、全ての出現数を、最大の出現数の値で割ることにより、出現数の値を０から１へ正規化する。
　次に、図５に例示するステップＡ４において付与されたトピック関与度が、分析対象トピックと負の相関がある場合について説明する。この場合、出現度算出部４５は、例えば、要素の出現数を、元々の出現数に、その要素が出現している箇所のトピック関与度の逆数を乗じた値に補正する。
　なお、図５に例示するステップＡ５において、出現度算出部４５が行う補正方法や補正の際に用いられる閾値などの各種設定情報は、予め設定されていてもよい。または、補正方法や各種設定情報は、分析設定入力部２０がユーザから受け付けてもよい。
　また、図５に例示するステップＡ５において、分析（２）に例示する方法で分析を行う場合を考える。この場合、出現度算出部４５は、図５に例示するステップＡ４において算出された他のトピック関与度に応じて、各要素の分析対象トピック以外のトピックに該当する箇所で出現する出現数を補正してもよい。分析対象トピック以外のトピックに該当する部分で出現する要素の出現数の補正方法は、上述の分析対象トピックに該当する部分で出現する各要素の出現数の補正方法と同様である。
　なお、ここまで、補正し、算出する出現度として「出現数」を用いた場合の例を説明してきた。ただし、補正し、算出する出現度として、他の出現度（例えば「出現信頼度」）を用いてもよい。この場合も、上述の補正方法と同様の方法で、各要素の出現度を補正する事ができる。つまり、他の出現度を出現度として用いる場合、上述の補正方法における「出現数」を「他の出現度（例えば「出現信頼度」）」と読み替えればよい。
　なお、ここまでの処理が、図５に例示するステップＡ５までの処理に対応する。
　続いて、特徴度計算部４６は、図５に例示するステップＡ５において出現度算出部４５が算出した補正後の出現数を用いて、着目テキスト集合「オペレータＡが対応したテキスト集合」に対する各要素の特徴度を計算する。
　図５に例示するステップＡ６において、例えば、分析（１）に例示する方法（すなわち、特徴度を計算する際に、分析対象トピックに該当する部分のみを用いる方法）で分析を行う場合、特徴度計算部４６は、ステップＡ５において出現度算出部４５が補正した出現数のうち、各要素の分析対象トピックに該当する部分において出現する出現数のみを特徴度の計算に用いればよい。
　一方、分析（２）に例示する方法（すなわち、特徴度を計算する際に、分析対象トピックに該当する部分に加え、分析対象トピック以外のトピックに該当する部分も用いる方法）で分析を行ってもよい。この場合、特徴度計算部４６は、図５に例示するステップＡ５において出現度算出部４５が補正した出現数のうち、各要素の分析対象トピックに該当する部分において出現する出現数と、分析対象トピック以外のトピックに該当する部分において出現する出現数とを特徴度の計算に用いればよい。
　特徴度を算出する際に用いられる指標や計算方法は、一般的なテキストマイニングに用いられる指標や計算方法と同様である。例えば、特徴度計算部４６は、特徴度の指標として、出現頻度や、χ二乗値、ＳＣや、ＥＳＣなどを用いてもよい。
　また、図５に例示するステップＡ５において補正された出現数の値が０から１に正規化されていない場合にもかかわらず、図５に例示するステップＡ６において特徴度の指標を計算する際に、出現数として取り得る値の範囲が１以下であることを前提としている場合がある。この場合、特徴度計算部４６は、図５に例示するステップＡ５で補正された出現数を０から１の値に正規化し、正規化後の値を用いて特徴度を計算すればよい。特徴度計算部４６は、出現数を正規化する方法として、例えば、図５に例示するステップＡ５において出現度算出部４５が出現数を正規化する方法を用いてもよい。
　なお、図５に例示するステップＡ６において、特徴度計算部４６が行う特徴度の計算方法や特徴度の指標などの各種設定情報は、予め設定されていてもよい。または、計算方法や各種設定情報は、分析設定入力部２０がユーザから受け付けてもよい。
　なお、ここまでの処理が、図５に例示するステップＡ６までの処理に対応する。
　最後に、出力部３０は、図５に例示するステップＡ６において計算された特徴度をもとに、着目テキスト集合「オペレータＡが対応したテキスト集合」の特徴的な要素を出力する。出力部３０は、例えば、特徴度が人手等により予め設定された閾値以上になった要素を特徴的な要素と決定し、その要素を出力してもよい。他にも、出力部３０は、特徴度の高い順で要素を並び替え、上位ｎ件（ｎは、ユーザ等により予め定められた値）の要素を特徴的な要素と決定してもよい。
　図１４及び図１５は、出力部３０が出力する出力例を示す説明図である。出力部３０は、例えば、図１４に例示するように、特徴的と判定された要素のみを出力してもよく、図１５に例示するように、特徴的と判定された要素と、その要素の特徴度の組を出力してもよい。
　また、出力部３０は、特徴的と判定された要素だけでなく、図５に例示するステップＡ３において言語処理部４２が生成した全要素について、要素と特徴度の組を出力してもよい。また、出力部３０は、特徴度に応じて並び替えた出力順で特徴度を出力してもよいし、特徴度にこだわらず（すなわち、並び替えず）に出力してもよい。
　なお、図５に例示するステップＡ７において、出力部３０が出力する方法や、出力の際に用いられる閾値や変数などの各種設定情報は、予め設定されていてもよい。出力する方法や各種設定情報は、分析設定入力部２０がユーザから受け付けてもよい。
　なお、ここまでの処理が、図５に例示するステップＡ７までの処理に対応する。
　なお、図５に例示するステップＡ２において、分析設定入力部２０が、テキストマイニングの処理手順として指定された分析対象ごとに処理を繰り返す旨の指示を受け付けてもよい。この場合、分析管理部４１が分析設定入力部２０からテキストマイニングの処理手順を受け取り、言語処理部４２、トピック関与度算出部４３、トピック関与度補正特徴度計算部４４（より詳しくは、出現度算出部４５と、特徴度計算部４６）を管理することで、指示された処理手順通りにそれぞれの構成部が各処理を実行する。
　以下、ユーザが、コールセンターで顧客とオペレータの間でなされた通話を対象に分析を行う場合を例に挙げて説明する。ここでは、ユーザが、まず、トピック「処置」の部分に限定して、オペレータＡに最も特徴的な単語を求める処理（以下、この処理を分析Ｂ１と記す。）が予め設定されているとする。また、分析Ｂ１の後、トピック「連絡方法」の部分に限定して、分析Ｂ１で求めた最も特徴的な単語を含む文書集合に特徴的な単語を求める処理（以下、この処理を分析Ｂ２と記す。）が予め設定されているものとする。
　まず、分析管理部４１は、入力テキスト（コールセンターでの顧客とオペレータでなされた通話テキスト）全体に対して、図５に例示するステップＡ３で行われる処理を行うよう、言語処理部４２に指示する。具体的には、分析管理部４１は、テキストマイニングの対象の各テキストに言語処理を行い、要素を生成するよう、言語処理部４２に指示する。
　次に、分析管理部４１は、分析対象トピックを「処置」として、図５に例示するステップＡ４で行われる処理、及び、図５に例示するステップＡ５で行われる処理を行うよう、トピック関与度算出部４３、及び、出現度算出部４５に指示する。具体的には、分析管理部４１は、分析対象トピック「処理」に対するトピック関与度を計算するよう、トピック関与度算出部４３に指示する。そして、分析管理部４１は、分析対象トピック「処置」に該当する部分で出現する各単語の出現度を算出させ、算出させた出現度をトピック関与度に応じて補正するよう、出現度算出部４５に指示する。
　そして、分析管理部４１は、着目テキスト集合を「オペレータＡが対応したテキスト集合」として、図５に例示するステップＡ６で行われる処理を行うよう、特徴度計算部４６に指示する。具体的には、分析管理部４１は、各単語の着目テキスト集合「オペレータＡが対応したテキスト集合」に対する特徴度を特徴度計算部４６に計算させる。このようにして、分析Ｂ１が行われる。
　続いて、分析管理部４１は、分析対象トピックを「連絡方法」として、図５に例示するステップＡ４で行われる処理、及び、図５に例示するステップＡ５で行われる処理を行うよう、トピック関与度算出部４３、及び、出現度算出部４５に指示し、分析対象トピック「連絡方法」に該当する部分で出現する各単語の出現度を求めさせる。
　そして、分析管理部４１は、着目テキスト集合を「分析Ｂ１で求めたオペレータＡに最も特徴的な単語を含むテキスト集合」として、図５に例示するステップＡ６で行われる処理を行うよう、特徴度計算部４６に指示する。このようにして、分析Ｂ２が行われる。
　このような処理手順を、分析設定入力部２０が受け付けることにより、分析者は、分析の軸を変えながらテキストマイニングを試行する事が可能になる。
　次に、本実施例による効果について説明する。本実施例によれば、図５に例示するステップＡ５において、出現度算出部４５は、分析対象トピック「処置」に該当する部分で入力テキスト内の各要素が出現する出現度を算出する。出現度算出部４５は、その要素が出現した発話に付与された分析対象トピックに関与しているトピック関与度に応じて出現度を補正する。
　また、例えば、上記ステップＡ５に該当する処理として説明した補正方法によれば、トピック「処置」に深く関わるといえる、図６に例示する発言インデックス「１６」が示す部分など、トピック「処置」の分析において重要な部分に出現する要素の出現数は、大きくなるように補正される。その一方で、トピック間のつなぎといえる、トピック「処置」の分析において比較的重要でない発言インデックス「２０」が示す部分に出現する要素の出現数は、小さくなるように補正される。
　そして、図５に例示するステップＡ６において、特徴度計算部４６が、その補正した値を用いて特徴度を計算する。そのため、要素の出現部分が分析対象トピック「処置」に関与している度合いに応じて入力テキスト内の各要素の特徴度を補正できる。つまり、分析者は、分析対象トピック「処置」に関与している度合いに応じたテキストマイニングができる。従って、分析者は、分析対象トピック「処置」を対象としたテキストマイニングを精度良くおこなう事ができる。
　次に、本発明によるテキストマイニング装置の最小構成の例を説明する。図１６は、本発明によるテキストマイニング装置の最小構成を示すブロック図である。本発明によるテキストマイニング装置は、分析対象のテキストの集合である着目テキスト集合中にそのテキストの要素が出現する程度を示す指標である特徴度を算出する要素特定部８１（例えば、トピック関与度補正特徴度計算部４４）と、算出された特徴度をもとに、その着目テキスト集合中の特徴的な要素を特定する（例えば、特徴度のうち、より特徴度の高い要素を、特徴的な要素と特定する）出力部３０と、を備えている。
　要素特定部８１は、分析対象のテキストを所定の単位（例えば、発話単位）で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度（例えば、トピック関与度）に基づいて、特徴度を補正する（例えば、トピック関与度の高い部分に要素が出現しているほどより高く補正した出現度をもとに特徴度を算出する）。そのような構成により、本発明によるテキストマイニング装置は、特定のトピックを対象としたテキストマイニングを精度良く行うことができる。
　なお、要素特定部８１が、分析対象トピックに対応する部分テキストに要素が出現する度合いを示す出現度を算出し（例えば、要素が多く出現しているほどより大きな値になるように出現度を算出し）、特徴度を算出する際、トピック関連度（例えば、トピック関与度）の高い部分テキストに要素が出現しているほど出現度をより高く補正する出現度算出部（例えば、出現度算出部４５）と、補正された出現度を用いて特徴度を計算し（例えば、「ＳＣ」や「ＥＳＣ」、「χ二乗値」などを計算し）、補正された出現度を用いて計算された特徴度をもとに、（例えば、閾値以上の特徴度をもつ要素や上位ｎ件の要素を）着目テキスト集合中の特徴的な要素を特定する特徴度計算部（例えば、特徴度計算部４６）を含んでいてもよい。このような構成によっても、本発明によるテキストマイニング装置は、特定のトピックを対象としたテキストマイニングを精度良く行うことができる。
　なお、本発明のプログラム記録媒体は、上述の実施形態で説明した各動作を、コンピュータに実行させるプログラムを格納した記録媒体であれば良い。本発明に係るテキストマイニング装置は、ＣＰＵが、上記において記憶部５０として説明したメモリ又はＨＤＤ等の記憶媒体に記憶されているプログラムを実行することにより実現されても良い。
　以上、実施の形態を参照して本願発明を説明したが、本願発明は以上の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で同業者が理解し得る様々な変更をすることができる。
　この出願は、２００９年１２月１０日に出願された日本出願特願２００９−２８０５５８を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、特定のトピックを対象にテキストマイニングを行う場合に好適に適用できる。特に、本発明は、入力テキスト集合の各テキストが複数のトピックを含み、複数のトピックに該当する部分がテキスト中に存在する場合に効果を発揮する。例えば、本発明は、コールセンターの通話音声を音声認識した結果得られるテキストやその書き起こしテキストの集合を入力テキスト集合として、特定のトピックを対象にテキストマイニングを行う場合に効果を発揮する。また、本発明は、会議音声を音声認識した結果得られるテキストやその書き起こしのテキストの集合を入力テキスト集合として、特定のトピックを対象にテキストマイニングを行う場合にも効果を発揮する。また、本発明は、店頭販売での店員と顧客のやり取りを音声認識した結果得られるテキストやその書き起しテキストの集合を入力テキスト集合として、特定のトピックを対象にテキストマイニングを行う場合にも効果を発揮する。また、本発明は、ウェブ上のＢＢＳ（Ｂｕｌｌｅｔｉｎ　Ｂｏａｒｄ　Ｓｙｓｔｅｍ：電子掲示板）の集合を入力テキスト集合として、特定のトピックを対象にテキストマイニングを行う場合にも効果を発揮する。

　１０　データ入力部
　２０　分析設定入力部
　３０　出力部
　４０　コンピュータ
　４１　分析管理部
　４２　言語処理部
　４３　トピック関与度算出部
　４４　トピック関与度補正特徴度計算部
　４５　出現度算出部
　４６　特徴度計算部
　５０　記憶部

Claims

　分析対象のテキストの集合である着目テキスト集合中に当該テキストの要素が出現する程度を示す指標である特徴度を算出し、
　特徴度を算出する際、分析対象のテキストを所定の単位で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度に基づいて、前記特徴度を補正する要素特定部と、
　前記特徴度をもとに、前記着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する出力部と、
　を含むテキストマイニング装置。
　前記要素特定部は、
　分析対象トピックに該当する部分テキストに要素が出現する度合いを示す出現度を算出する出現度算出部と、
　特徴度を算出する際、トピック関連度の高い部分テキストに前記要素が出現しているほど前記出現度をより高く補正し、補正された出現度を用いて特徴度を計算する特徴度計算部と、
　を含み、
　前記出力部は、補正された出現度を用いて計算された特徴度をもとに、着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する
　請求項１に記載のテキストマイニング装置。
　前記トピック関連度を算出するトピック関与度算出部をさらに含む
　請求項１または２に記載のテキストマイニング装置。
　前記トピック関与度算出部は、部分テキストごとに前記トピック関連度を算出する
　請求項３に記載のテキストマイニング装置。
　前記トピック関与度算出部は、トピック関連度を算出する際、部分テキストが分析対象トピックであるか否かを推定するモデルに基づいて、部分テキストが分析対象トピックである確信度合いを示す確信度を算出し、当該確信度をトピック関連度として算出する
　請求項４に記載のテキストマイニング装置。
　前記トピック関与度算出部は、トピック関連度を算出する際、部分テキストが分析対象トピック以外のトピックに多く該当するほど、トピック関連度をより小さく算出する
　請求項４または請求項５記載のテキストマイニング装置。
　前記トピック関与度算出部は、トピック関連度を算出する際、部分テキストのトピックの遷移境界に近いほど、トピック関連度をより小さく算出する
　請求項４から請求項６のうちのいずれか１項に記載のテキストマイニング装置。
　前記要素特定部は、ｎを自然数としたときに、分析対象のテキストの要素として、当該テキストの単語、単語ｎグラム、文節、もしくはこれらの係り受け、またはこれらのｎ連続の係り受け、または、構文木の部分木の単位で分割した各要素、もしくはこれらの要素を組み合わせた各要素が着目テキスト集合中に出現する特徴度を算出する
　請求項１から請求項７のうちのいずれか１項に記載のテキストマイニング装置。
　前記要素特定部は、特徴度として、着目テキスト集合中に分析対象のテキストの要素が出現する頻度もしくは偏りを示す指標を算出する
　請求項１から請求項８のうちのいずれか１項に記載のテキストマイニング装置。
　分析対象のテキストの集合である着目テキスト集合中に当該テキストの要素が出現する程度を示す指標である特徴度を算出し、
　特徴度を算出する際、分析対象のテキストを所定の単位で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度に基づいて、前記特徴度を補正し、
　前記特徴度をもとに、前記着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する、
　テキストマイニング方法。
　コンピュータに、
　分析対象のテキストの集合である着目テキスト集合中に当該テキストの要素が出現する程度を示す指標である特徴度を算出し、
　特徴度を算出する際、分析対象のテキストを所定の単位で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度に基づいて、前記特徴度を補正し、
　前記特徴度をもとに、前記着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する、
　処理を実行させるテキストマイニングプログラムを格納したプログラム記録媒体。