WO2011071174A1 - テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム - Google Patents

テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム Download PDF

Info

Publication number
WO2011071174A1
WO2011071174A1 PCT/JP2010/072310 JP2010072310W WO2011071174A1 WO 2011071174 A1 WO2011071174 A1 WO 2011071174A1 JP 2010072310 W JP2010072310 W JP 2010072310W WO 2011071174 A1 WO2011071174 A1 WO 2011071174A1
Authority
WO
WIPO (PCT)
Prior art keywords
topic
text
degree
feature
unit
Prior art date
Application number
PCT/JP2010/072310
Other languages
English (en)
French (fr)
Inventor
晃裕 田村
開 石川
真一 安藤
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US13/511,504 priority Critical patent/US9135326B2/en
Priority to JP2011545274A priority patent/JPWO2011071174A1/ja
Publication of WO2011071174A1 publication Critical patent/WO2011071174A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Definitions

  • the present invention relates to a text mining method, a text mining apparatus, and a text mining program for a specific topic.
  • Text mining technology is a technology for analyzing the characteristics and trends of a text set.
  • a system to which text mining technology is applied (hereinafter referred to as a text mining system) calculates the feature level of each element such as a word or phrase in each text in the text set, and from the text set based on the feature level Identify characteristic elements.
  • a text set to be examined for features and trends is referred to as a “target text set” in the following description.
  • the text mining system uses, for example, the frequency at which each element appears in the text as the feature level of each element. In this case, elements that frequently appear in the focused text set are identified as characteristic elements in the focused text set.
  • the analyst When text mining is performed on the topic “inquiry content”, the analyst first applies the topic analysis system described in Non-Patent Document 2 to each input call text, and the topic “inquiry content”. The part corresponding to is identified. As shown in FIG. 17, the input call text is divided for each utterance, and an identifier (utterance index) for identifying the topic and each utterance is given to each utterance. After the topic is identified by the topic analysis system, the analyst classifies the divided utterances into a portion indicated by the speech indexes “6” to “15” whose topic is “inquiry content” and other portions. The analyst can analyze the content of the inquiry by performing text mining on the call text classified here. The text mining method applied after the topic is specified will be further described.
  • the data input unit 10 includes a topic to which each part of the text divided into these units (sometimes referred to as partial text) and a value indicating the degree to which the part is involved in the topic (hereinafter referred to as topic participation).
  • topic participation a value indicating the degree to which the part is involved in the topic.
  • the information given to each part may be received. That is, each part of each text of the input text set (that is, a unit such as a word, sentence, sentence, paragraph, utterance, etc.), a topic to which these parts belong, and a degree of involvement in the topic (topic participation degree) Information about a topic may be given.
  • each part is involved in a topic means that each part is associated with the topic.
  • the analysis setting input unit 20 is realized by an input device such as a keyboard, for example.
  • the analysis setting input unit 20 is a subset of the input text set (hereinafter referred to as “target text”) whose characteristics and tendency are to be investigated from the information on the topic to be analyzed (analysis target topic) and the input text set. It is described as a focused text set). Then, the analysis setting input unit 20 notifies the analysis management unit 41 of these pieces of information.
  • the analysis setting input unit 20 may optionally accept a setting indicating that the target of text mining is narrowed down in the input text set. In this case, the analysis setting input unit 20 transmits this setting to the analysis management unit 41 described later. In the subsequent processing, the computer 40 performs processing on the set target instead of the entire input text set.
  • the topic participation correction feature level calculation unit 44 adds other topic participation levels (degrees related to topics other than the analysis target topic). ) Is also used to correct the feature.
  • the feature degree is a value defined for each element, and is an index indicating the degree of appearance of the element in the text set of interest. In other words, the feature degree is an index representing how much each element appears in the target text set.
  • the text 1 has two portions where one verb “moving” appears, and the number of appearances of each portion is corrected to 0.8 and 0.6, respectively.
  • the text 2 has one portion where one verb “moving” appears, and the number of appearances is corrected to 0.3.
  • the text 5 has one portion where one verb “moving” appears, and the number of appearances is corrected to 0.9.
  • the total number of words appearing in the text in the text set of interest is 1000.
  • four verbs “move” appear in the focused text set, so that the feature degree of the verb “move” can be calculated as 4/1000.
  • the output unit 30 may output only the element determined to be characteristic, or may output the combination of the element determined to be characteristic and its characteristic degree. Further, the output unit 30 may output not only the elements determined to be characteristic but also sets of elements and features for all elements. The output unit 30 may output the feature degrees in the output order rearranged according to the feature degrees, or may output the feature degrees regardless of the feature degrees (that is, without rearranging). Note that, as described above, the analysis setting input unit 20 may accept, as options, settings for language processing executed by the language processing unit 42 and various settings related to the calculation method executed by the topic participation degree calculating unit 43.
  • the analysis setting input unit 20 may optionally accept various settings used at the time of correction executed by the appearance degree calculation unit 45 and various settings when the feature degree calculation unit 46 calculates the feature degree.
  • the analysis setting input unit 20 may transmit the input information to the analysis management unit 41.
  • the analysis management unit 41 appropriately transmits the transmitted information to each unit (more specifically, the language processing unit 42, the topic participation calculation unit 43, the appearance calculation unit 45, and the feature calculation unit 46). Each unit may use these pieces of information when performing processing.
  • the analysis management unit 41, the language processing unit 42, the topic participation degree calculation unit 43, and the topic participation degree correction feature degree calculation unit 44 are programmed.
  • a central processing unit of the computer 40 that operates according to the (text mining program).
  • the program is stored in the storage unit 50 such as a memory or HDD, and the central processing unit reads the program, and according to the program, the analysis management unit 41, the language processing unit 42, the topic participation degree calculation unit 43, and the topic participation degree.
  • the corrected feature level calculation unit 44 (more specifically, the appearance level calculation unit 45 and the feature level calculation unit 46) may be operated.
  • the analysis management unit 41, the language processing unit 42, the topic participation calculation unit 43, the topic participation correction feature calculation unit 44 (more specifically, the appearance calculation unit 45 and the feature calculation unit 46), Each may be realized by dedicated hardware. Next, the operation will be described. FIG.
  • the data input unit 10 receives a set of texts (ie, an input text set) to be subjected to text mining according to the embodiment of the present invention as an input (step A1).
  • the analysis setting input unit 20 receives various setting information necessary for performing text mining on the input text set in accordance with a user instruction (step A2).
  • the analysis setting input unit 20 may accept, as options, settings for language processing executed by the language processing unit 42 and various settings related to the calculation method executed by the topic participation degree calculating unit 43.
  • the analysis setting input unit 20 may optionally accept various settings used at the time of correction executed by the appearance degree calculation unit 45 and various settings when the feature degree calculation unit 46 calculates the feature degree.
  • the topic participation degree calculation unit 43 calculates the topic participation degree with respect to the analysis target topic for each part of each text to be text mined.
  • the topic participation degree calculation unit 43 may calculate a topic participation degree for a topic other than the analysis target topic (step A4).
  • the topic participation correction characteristic calculation unit 44 analyzes the analysis target topic and the target text set information specified by the user in step A2 (that is, the analysis target topic and the target text set received by the analysis setting input unit 20 from the user). Information) is received through the analysis management unit 41. Then, the topic participation correction feature calculation unit 44 calculates the feature of each element with respect to the target text set.
  • the analysis management unit 41 includes a language processing unit 42, a topic participation degree calculation unit 43, and a topic participation degree correction feature degree calculation unit 44 (more specifically, an appearance degree calculation unit 45 and a feature degree calculation unit 46).
  • each component unit executes each process according to the instructed processing procedure. In this way, by performing processing based on an instruction to repeat the processing, not only a single text mining trial with only one axis of analysis such as the text set of interest and the topic to be analyzed but also analysis It is possible to try text mining multiple times while changing the axis.
  • the instruction to repeat the process is not necessarily an instruction to perform all the steps exemplified in steps A1 to A7, but may be an instruction to change the process according to the analysis process.
  • the unit to which the topic information is assigned (that is, the unit obtained by dividing each text) is not limited to the utterance unit.
  • the topic information may not be an utterance unit, but may be a word unit, a sentence unit, a sentence unit, a paragraph unit, or the like.
  • the part indicated by the speech index “16” indicates that it is involved in the topic “treatment” with a degree of 0.83.
  • the portion indicated by the speech index “20” indicates that the topic “treatment” is involved in a degree of 0.42, and the topic “contact method” is involved in a degree of 0.35.
  • the topic information may not be information on all topics, but may be information on some topics as illustrated in FIG.
  • the example of FIG. 8 indicates that only information related to the topic “treatment” is given.
  • the input text may be text to which topic information is not given. Note that the processing so far corresponds to the processing up to step A1 illustrated in FIG. Subsequently, in order to perform an analysis desired by the user, the analysis setting input unit 20 receives, from the user, various kinds of information necessary for performing text mining on a certain analysis target topic with respect to the input text set.
  • the analysis setting input unit 20 presents each text of the input text set to the user, recognizes the text set designated as the text that the user wants to be the focused text set, and determines that the designation of the focused text set has been accepted. May be. Specifically, first, the analysis setting input unit 20 presents each text of the input text set to the user. When the user designates “text set corresponding to operator A” from the presented text, the analysis setting input unit 20 recognizes the text set designated by the user, and sets the target text set to “operator A supported”. Set to Text Set. When analysis is performed by the method exemplified in analysis (2), the analysis setting input unit 20 may receive designation of a set of text portions corresponding to a specific topic as the focused text set.
  • the analysis setting input unit 20 may optionally accept various settings used at the time of correction executed by the appearance degree calculation unit 45 and various settings when the feature degree calculation unit 46 calculates the feature degree.
  • the settings and information received by the analysis setting input unit 20 are transmitted to the analysis management unit 41.
  • each unit more specifically, the language processing unit 42.
  • the topic participation degree calculation unit 43, the appearance degree calculation unit 45, and the feature degree calculation unit 46 may receive various settings from the analysis management unit 41 and use them. Specific examples of the setting items will be described in the later-described processing of each unit in which the setting is used.
  • the analysis setting input unit 20 may optionally accept a setting for narrowing down text mining targets from the input text set.
  • each processing is performed not on the entire input text set but on the narrowed-down text set.
  • a process when the text mining target is not narrowed down will be described as an example, but the process when the text mining target is narrowed down is also the same. That is, when the target of text mining is narrowed down, the process for “input text set” in the following description is performed as “text set as a result of narrowing down the input text set in step A2 illustrated in FIG.
  • each element is a combination of a plurality of elements.
  • “n” in the word n-gram and “n” in n consecutive dependency are natural numbers, and may be values set manually, for example.
  • specific language processing morphological analysis, syntax analysis, dependency analysis, and the like are performed in accordance with the unit of the element to be generated. For example, when a word or a word n-gram is included as an element unit, the language processing unit 42 performs morphological analysis and generates an element.
  • the topic participation correction feature calculation unit 44 receives the analysis target topic and the information on the text set of interest specified by the user through the analysis management unit 41. Then, the topic participation degree correction feature degree calculation unit 44 corrects the feature degree with respect to the text set of interest for each element generated in step A3 according to the topic participation degree calculated in step A4 illustrated in FIG. In the case of performing the analysis by the method illustrated in the analysis (2), the topic participation correction feature degree calculation unit 44 uses the other topic participation degrees calculated in step A4 illustrated in FIG. The feature degree may be corrected.
  • the analysis is performed by the method illustrated in the analysis (1) (that is, the method using only the portion corresponding to the analysis target topic when calculating the characteristic)
  • the calculation unit 46 may use only the number of appearances appearing in the portion corresponding to the analysis target topic of each element among the numbers of appearances corrected by the appearance degree calculation unit 45 in step A5 for calculating the feature level.
  • the analysis is performed by the method exemplified in the analysis (2) (that is, a method that uses a part corresponding to a topic other than the analysis target topic in addition to a part corresponding to the analysis target topic). Also good.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

特定のトピックを対象としたテキストマイニングを精度良く行うことができるテキストマイニング方法、装置、及びプログラムを提供する。  要素特定手段81は、分析対象のテキストの集合である着目テキスト集合中にそのテキストの要素が出現する程度を示す指標である特徴度を算出する。出力部30は、算出された特徴度をもとに、その着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する。要素特定手段81は、分析対象のテキストを所定の単位で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度に基づいて、特徴度を補正する。

Description

テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム
 本発明は、特定のトピックを対象としたテキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムに関する。
 大量のテキストを分析する技術の一つにテキストマイニング技術がある。テキストマイニング技術とは、あるテキスト集合の特徴や傾向を分析するための技術である。テキストマイニング技術を適用したシステム(以降、テキストマイニングシステムと呼ぶ。)は、テキスト集合において各テキスト中の単語や句など各要素の特徴度を算出し、その特徴度を基にテキスト集合の中から特徴的な要素を特定する。
 ここで、特徴や傾向を調べる対象となるテキスト集合は、以下の説明では、「着目テキスト集合」と記される。テキストマイニングシステムは、各要素の特徴度として、例えば、各要素がテキスト中に出現する頻度を用いる。この場合、着目テキスト集合の中で頻出する要素が着目テキスト集合の中で特徴的な要素と特定される。また、テキストマイニングシステムは、特徴度として、例えば、統計的基準を用いる。この場合、テキストマイニングシステムは、着目テキスト集合中で意味のある要素を特定することができる。
 テキストマイニング技術の一つが、非特許文献1に記載されている。非特許文献1は、入力となったテキスト集合が2つ以上のカテゴリに分割できるとき、着目するカテゴリを定めた場合に、その着目したカテゴリのテキストに特徴的な単語や句などの要素を特定する技術を開示する。つまり、非特許文献1に記載された技術が適用されたテキストマイニングシステムは、着目するカテゴリに属するテキストの集合を着目テキスト集合とし、その着目テキスト集合に特徴的な要素を特定する。
 特徴的な要素を決める具体的な方法について説明する。まず、非特許文献1に記載のテキストマイニングシステムは、着目カテゴリのテキストにおける各要素の出現数、及び、着目カテゴリ以外のカテゴリのテキストにおける各要素の出現数を算出する。そして、そのテキストマイニングシステムは、各要素に対して、所定の統計量を計算する。所定の統計量は、例えば、着目カテゴリのテキストにおける出現数が多いほど高くなり、着目カテゴリ以外のカテゴリのテキストにおける出現数が少ないほど高くなるような「SC(Stochastic Complexity)」や「ESC(Extended Stochastic Complexity)」といった統計量である。そして、そのテキストマイニングシステムは、この統計量を、各要素の着目カテゴリにおける特徴度として捉え、統計量が高い要素を、着目カテゴリに特徴的な要素として特定する。
 このようなテキストマイニングシステムを用いて複数のトピックを含むテキストの集合を分析する際に、分析者が、ある特定トピック(以下、「分析対象トピック」と記す。)を対象にしてテキストマイニングを行う場合がある。図17は、コールセンターで顧客とオペレータとの対話から作成された通話テキストを示す説明図である。図17に示す通話テキストは、「オープニング、顧客特定、問い合わせ内容、処置、連絡方法」といった複数のトピックを含む。例えば、このような通話テキスト集合の中から問い合わせ内容に関して分析するために、分析者が「問い合わせ内容」というトピックを対象にテキストマイニングを行う場合がある。
 この場合、まず、分析者は、トピック解析システムによって、入力テキスト集合の各テキストの中から、分析対象トピックに該当する部分を特定する必要がある。分析対象トピックに該当する部分を特定する一般的なトピック解析システムは、非特許文献2に記載されている。非特許文献2に記載されたトピック解析システムは、トピックに対する単語の出現度合いをモデル化したモデルを用いて、複数のトピックを含むテキストを同じトピックの塊に分割し、その塊に対してトピックを割り当てる。分析者は、このようなシステムを用いて各テキストを分析対象トピックに該当する部分と該当しない部分とに分類する。分析者は、分類された分析対象トピックに該当する部分に対して一般的なテキストマイニング技術を適用する。この結果、図17に示す通話テキストを分析することが可能となる。
 図17を用いて、テキストの分析方法について具体的に説明する。トピック「問い合わせ内容」を対象にテキストマイニングを行う場合、まず、分析者は、入力された各通話テキストに対して、非特許文献2に記載されたトピック解析システムを適用し、トピック「問い合わせ内容」に該当する部分を特定する。図17に示すように、入力された通話テキストが発話ごとに区切られ、各発話にトピックと各発話とを特定する識別子(発言インデックス)が付与される。分析者は、トピック解析システムによってトピックを特定したあと、区切られた発話を、トピックが「問い合わせ内容」である発言インデックス「6」~「15」が示す部分とそれ以外の部分とに分類する。分析者は、ここで分類された通話テキストに対してテキストマイニングを行うことで、問い合わせ内容に関する分析を行うことができる。
 トピックの特定後に適用されるテキストマイニング方法について、さらに説明する。トピックが特定された後、分析者は、分析対象トピックに該当する部分と該当しない部分とに分類することが可能である。これらの部分を、分析者がどのようにテキストマイニングに利用するかについては、使用するテキストマイニング技術や、分析者の要求によって異なる。ここでは、非特許文献1に記載されたテキストマイニングシステムを用いてテキストマイニングを行う方法について説明する。分析対象トピックをテキストマイニングの対象にする場合、非特許文献1に記載されたテキストマイニングシステムは、二種類のテキストマイニングを実施することができる。
 一種類目のテキストマイニングは、分析対象をテキスト中の分析対象トピックに該当する部分に限定した方法である。つまり、非特許文献1に記載のテキストマイニングシステムは、入力されたテキスト集合の各テキストに対して分析対象トピックの該当部分を特定した後、分析対象トピックに該当しない部分は分析対象から外す。そのテキストマイニングシステムは、分析対象トピックの該当部分のみに対して、テキストマイニングを行う。
 例えば、図17に示すコールセンターにおける通話テキストの集合を分析対象とし、分析者が、問い合わせ内容に関してのみ興味がある場合を考える。この場合、非特許文献1に記載のテキストマイニングシステムは、分析対象トピック「問い合わせ内容」に該当する部分のみをテキストマイニングの分析対象にする。つまり、非特許文献1に記載のテキストマイニングシステムは、図17に示す通話テキスト全体を対象にテキストマイニングを行うのではなく、「問い合わせ内容」である発言インデックス「6」~「15」が示す部分のみにテキストマイニングを行う。これにより、分析者は、例えば着目テキスト集合を「オペレータAが対応したテキスト集合」とすることで、問い合わせ内容に関して、オペレータAの通話テキストの要素のうち、他のオペレータの通話テキストに比べて特徴的な要素を分析することができる。
 二種類目のテキストマイニングは、分析対象トピックに該当する部分で特徴的な要素を分析する方法であり、分析対象トピックに該当しないトピックも分析に利用する方法である。つまり、このテキストマイニングは、入力のテキスト集合の各テキストに対し、分析対象トピックの該当部分を特定した後、分析対象トピックに該当する部分からなるテキストの集合を着目テキスト集合とした分析である。これにより、分析者は、例えば図17に示すコールセンターにおける通話テキストの集合を分析対象とすると、分析対象トピック「問い合わせ内容」に該当する部分の要素のうち、他のトピックに該当する部分と比べて特徴的な要素を分析することができる。
 なお、特許文献1には、テキスト集合の特徴表現を抽出するテキストマイニング装置が記載されている。特許文献2には、固有名に相当するキーワードの関連度を高めて関連度値を算出する技術が記載されている。
特開2006−031198号公報(段落0020等) 特開2003−016106号公報(段落0009、0033、0034等)
Hang Li and Kenji Yamanishi,"Mining from open answers in questionnaire data",In Proceedings of KDD−01,pp.443−449,2001. Rui Amaral and Isabel Trancoso,"Topic Detection in Read Documents",In Proceedings of 4th European Conference on Research and Advanced Technology for Digital Libraries,pp.315−318,2000.
 分析対象トピックを対象にテキストマイニングが行われる場合、分析対象とするテキスト中の分析対象トピックに該当する部分の間で、分析対象トピックに関与する度合いが異なっている場合がある。その場合、分析対象トピックに関して深い内容になっている部分の方が、そうでない部分よりも重要であり、有益な情報が含まれている。特に、トピックの重複部分が存在するテキストが分析対象である場合、各トピックに関与する度合いが異なることが多い。
 しかし、非特許文献1に記載のテキストマイニングシステムは、トピックに関与する度合いが異なる部分を含むテキストにおける分析対象トピックを対象にテキストマイニングを行う場合、分析対象トピックに関して深い内容になっている部分と、そうでない部分とを分けて扱うことができない。そのため、非特許文献1に記載のテキストマイニングシステムは、分析対象トピックに関与する度合いに応じたテキストマイニングを行うことができない。すなわち、テキストマイニングシステムが、非特許文献1に記載のテキストマイニング技術を初めとした、一般的なテキストマイニング技術を用いる場合、分析対象トピックに関するテキストマイニング結果として、分析対象トピックにあまり関与していない部分を基に解析した比較的重要でない要素も混ざりこんでしまう。その結果、分析対象トピックを対象にしたテキストマイニングの精度が悪くなってしまうという問題がある。
 例えば、テキストマイニングシステムの分析対象が図17に示す通話テキストである場合を考える。図17に示す通話テキストは、複数のトピックを含んでいる。それら複数のトピックは、お互い独立でなく、また、排他でない。そのため、通話テキスト中には、トピックの重複部分が存在している。図17において、発言インデックス「20」が示す部分は、トピック「処置」における発言でもあり、トピック「連絡方法」における発言でもある。このようなトピックが重複している部分は、ある特定トピックに深く関わるというよりもトピックが移り変わるつなぎになっている場合が多い。
 ここで、テキストマイニングシステムが、トピック「処置」を対象にテキストマイニングを行う場合について説明する。発言インデックス「20」が示す部分のように、トピック「処置」と「連絡方法」の二つのトピックに属し、二つのトピックのつなぎとなっている部分よりも、発言インデックス「16」が示す部分のようにトピック「処置」に深く関わっている部分の方が重要である。したがってその部分は、有益な情報を含むと言える。
 しかし、一般的なテキストマイニングは、発言インデックス「20」が示す部分のように、トピックのつなぎとしてトピックが重複している部分(すなわち、トピック「処置」に深く関与していない部分)であっても、その部分がトピック「処置」に該当すると判定されれば、この部分をあたかもトピック「処置」に深く関与している部分(例えば、発言インデックス「16」が示す部分)と同等に扱ってしまう。そのため、一般的なテキストマイニング技術を利用したシステムは、分析対象トピックに関与する度合いに応じたテキストマイニングを行えないという問題がある。
 このように、一般的なテキストマイニング技術では、トピック「処置」を対象としたテキストマイニング結果として、トピック「処置」にあまり関与していない部分(例えば、発言インデックス「20」が示す部分)から由来する比較的重要でない要素も混ざりこんでしまい、精度が悪くなってしまうという課題がある。
 そこで、本発明は、特定のトピックを対象としたテキストマイニングを精度良く行うことができるテキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラムを提供することを目的とする。
 本発明によるテキストマイニング装置は、分析対象のテキストの集合である着目テキスト集合中に当該テキストの要素が出現する程度を示す指標である特徴度を算出し、特徴度を算出する際、分析対象のテキストを所定の単位で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度に基づいて、前記特徴度を補正する要素特定部と、前記特徴度をもとに、前記着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する出力部と、を含む。
 本発明によるテキストマイニング方法は、分析対象のテキストの集合である着目テキスト集合中に当該テキストの要素が出現する程度を示す指標である特徴度を算出し、特徴度を算出する際、分析対象のテキストを所定の単位で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度に基づいて、前記特徴度を補正し、前記特徴度をもとに、前記着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する。
 本発明によるプログラム記録媒体に格納されているテキストマイニングプログラムは、コンピュータに、分析対象のテキストの集合である着目テキスト集合中に当該テキストの要素が出現する程度を示す指標である特徴度を算出し、特徴度を算出する際、分析対象のテキストを所定の単位で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度に基づいて、前記特徴度を補正し、前記特徴度をもとに、前記着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する、処理を実行させる。
 本発明によれば、特定のトピックを対象としたテキストマイニングを精度良く行うことができる。
本発明によるテキストマイニング装置の一実施形態を示すブロック図である。 トピック関与度に応じて出現数を補正する例を示す説明図である。 音声認識を行った結果の例を示す説明図である。 着目テキスト集合に対する要素の特徴度を計算する例を示す説明図である。 本実施形態におけるテキストマイニング方法を示すフローチャートである。 テキストのみを含む入力テキスト集合の例を示す説明図である。 テキストの各部分に、全トピック情報が付与された入力テキスト集合の例を示す説明図である。 トピック「処置」に関するトピック関与度が付与された入力テキスト集合の例を示す説明図である。 発言テキストを解析した例を示す説明図である。 発言テキストを解析した例を示す説明図である。 同義語辞書の例を示す説明図である。 不要語辞書の例を示す説明図である。 モデルが行う処理の例を示す説明図である。 出力部30が出力する出力例を示す説明図である。 出力部30が出力する出力例を示す説明図である。 本発明によるテキストマイニング装置の最小構成を示すブロック図である。 通話テキストを示す説明図である。
 以下、本発明の実施形態について図面を参照して説明する。なお、以下の本発明の実施の形態においては、本発明の対象の文書は日本語で記述されているものとして説明する。それに伴い、図面に示される例も日本語によって記述する。しかし、本発明の技術的範囲はこれに限られるものではない。すなわち、本発明は、日本語以外の言語で記述された文書が対象である場合であっても、各言語の文法に対応させて適用が可能である。
 図1は、本発明によるテキストマイニング装置の一実施形態を示すブロック図である。本発明によるテキストマイニング装置は、データ入力部10と、分析設定入力部20と、出力部30と、プログラム制御により動作するコンピュータ40とを備えている。コンピュータ40は、中央処理装置やプロセッサを含むデータ処理装置などにより実現される。
 また、コンピュータ40は、分析管理部41と、言語処理部42と、トピック関与度算出部43と、トピック関与度補正特徴度計算部44とを備えている。また、トピック関与度補正特徴度計算部44は、出現度算出部45と、特徴度計算部46とを備えている。これらの構成部は次のように動作する。
 データ入力部10は、本発明の実施の形態によるテキストマイニングを行う対象のテキストの集合(以下、「入力テキスト集合」と記す。)を入力として受け付ける。
 ここで、入力テキスト集合の各テキストは、単語、文、文章、段落、発話などの単位の部分が集まったものである。データ入力部10は、これらの単位に分割されたテキストの各部分(部分テキストと記すこともある。)が属するトピックと、その部分がトピックに関与している度合いを示す値(以下、トピック関与度と記す。)とを、各部分に付与した情報を受け付けてもよい。すなわち、入力テキスト集合の各テキストの各部分(すなわち、単語、文、文章、段落、発話などの単位)は、これらの部分が属するトピックと、そのトピックへ関与している度合い(トピック関与度)という、トピックについての情報が付与されてもよい。ここで、各部分がトピックに関与しているとは、各部分がそのトピックと関連することを意味する。すなわち、トピック関与度は、トピックに関連する度合いを示す値に相当することから、トピック関連度と言うこともできる。また、上記トピックについての情報は、全ての部分に付与されてもよく、一部に付与されてもよい。また、上記トピックについての情報は、特定のトピックに限って付与されてもよい。また、データ入力部10が受け付けるテキストに、上記トピックについての情報が付与されなくてもよい。なお、以下の説明では、発話単位にトピック関与度が付与される場合について説明する。ただし、トピック関与度が付与される単位は、発話単位に限定されない。
 続いて、分析設定入力部20は、ユーザの指示に応じ、入力テキスト集合に対してテキストマイニングを行うために必要な各種設定情報を受け付ける。分析設定入力部20は、例えば、キーボードなどの入力装置によって実現される。
 分析設定入力部20は、分析の対象とするトピック(分析対象トピック)が何かという情報、及び、入力テキスト集合の中から、特徴や傾向を調べる対象とする入力テキスト集合の部分集合(以下、着目テキスト集合と記す。)がどれかという情報を受け付ける。そして、分析設定入力部20は、これらの情報を分析管理部41に通知する。
 また、分析設定入力部20は、オプションとして、入力テキスト集合の中でテキストマイニングの対象を絞り込むことを示す設定を受け付けてもよい。この場合、分析設定入力部20は、後述の分析管理部41にこの設定を伝える。以降の処理では、コンピュータ40は、入力テキスト集合全体ではなく、設定された対象に対して処理を行う。
 分析管理部41は、分析設定入力部20から伝えられた各種情報を、適宜、各部(より詳しくは、トピック関与度算出部43及びトピック関与度補正特徴度計算部44)へ通知する。具体的には、分析管理部41は、トピック関与度算出部43に分析対象トピックの情報を伝える。また、分析管理部41は、トピック関与度補正特徴度計算部44に分析対象トピックの情報及び着目テキスト集合の情報を伝える。なお、これらの情報を受け取った各部の動作については、後述する。
 言語処理部42は、テキストマイニングを行う対象になるテキスト集合の各テキストに対して言語処理を行う。言語処理部42は、テキストマイニングの分析対象になる要素を生成する。言語処理を行う対象のテキストは、データ入力部10が受け付けた入力テキスト集合であってもよく、分析設定入力部20から伝えられた(すなわち、入力テキスト集合から絞り込まれた)着目テキスト集合であってもよい。
 言語処理部42が行う言語処理とは、本実施形態で利用する要素を生成する処理であり、具体的には、形態素解析、構文解析、係り受け解析、同義語処理、不要語処理などが含まれる。言語処理部42が生成する要素は、入力テキストを、例えば、単語、単語nグラム、文節、もしくはこれらの係り受け、またはこれらのn連続の係り受け、または、構文木の部分木の単位で分割した各要素、もしくはこれらの要素を複数組み合わせた各要素である(nは自然数)。言語処理部42が行う言語処理の内容、及び、生成する要素の単位は、予め設定されていてもよく、分析設定入力部20がユーザから受け付けた言語処理の内容及び要素の単位であってもよい。以下の説明では、言語処理部42が生成した要素を、単に要素と記す。
 トピック関与度算出部43は、分析設定入力部20がユーザから受け付けた分析対象トピックを、分析管理部41を通じて受け取る。そして、トピック関与度算出部43は、テキストマイニングを行う対象のテキスト集合(すなわち、入力テキスト集合、もしくは、着目テキスト集合)の各テキストの部分(すなわち、単語、文、文章、段落、発話などの単位)ごとに、その部分が分析対象トピックに関与している度合い(すなわち、トピック関与度)を計算する。その後、トピック関与度算出部43は、計算したトピック関与度を各部分に付与する。なお、以下の説明では、トピック関与度算出部43が、発話単位にトピック関与度を計算する場合について説明する。ただし、トピック関与後を計算する単位は、発話単位に限定されない。
 トピック関与度は、分析対象トピックに関与している度合いが高いほど大きな値になってもよい。また、トピック関与度は、分析対象トピックに関与している度合いが高いほど小さな値になってもよい。なお、以下の説明では、分析対象トピックに関与している度合いが高いほど大きな値になるトピック関与度は、正の相関があるトピック関与度と記される。また、分析対象トピックに関与している度合いが高いほど小さな値になるトピック関与度を、負の相関があるトピック関与度と記される。
 トピック関与度算出部43は、例えば、入力テキスト集合の各テキストにおける部分ごとに、分析対象トピックに関与している度合いが既に付与されている場合、その度合いをトピック関与度としてもよい。また、トピック関与度算出部43は、上述の通り、トピック関与度として、分析対象トピックに関与している度合いが高いほど大きな値になる(すなわち、正の相関がある)トピック関与度を採用してもよい。ここで、トピック関与度算出部43は、例えば、入力箇所が分析対象トピックであるか否かを推定する予め作成されたモデルを各部分へ適用して、分析対象トピックの確信度合いを示す確信度を算出してもよい。その後、トピック関与度算出部43は、算出した各部分の確信度をトピック関与度としてもよい。なお、トピック関与度算出部43は、分析対象トピックを付与する単位(例えば、発話単位)ごとにモデルを適用して確信度を算出してもよい。
 例えば、上述のモデルが、入力箇所が分析対象トピックである確率を算出する際に用いられるモデルである場合を考える。この場合、トピック関与度算出部43は、このモデルによって算出された確率を確信度としてもよい。ただし、確信度は、確率である場合に限られない。また、確信度を示す値の範囲も、0から1の場合に限られない。確信度は、分析対象トピックである確率が高いほど高くなる値であってもよい。
 また、トピック関与度算出部43は、各部分が分析対象トピック以外のトピックに多く該当するほど、トピック関与度の値を小さくするように計算してもよい。また、トピック関与度算出部43は、トピックの遷移境界への近さを利用してトピック関与度を計算してもよい。ここで、トピックの遷移境界とは、各部分の前後でトピックが変わる場所のことを示す。なお、トピック関与度の具体的な算出方法、及び、トピックの遷移境界への近さを利用したトピック関与度の算出方法については後述する。
 トピック関与度算出部43が行うトピック関与度の算出方法や、トピック関与度の算出に用いられる各種設定情報は、予め設定されていてもよい。または、算出方法や設定情報は、分析設定入力部20がユーザから受け付けてもよい。
 ところで、テキストマイニング装置は、各要素の着目テキスト集合に対する特徴度を計算する際、分析対象トピック以外のトピックに該当する部分も用いる分析(例えば、上述した二種類目のテキストマイニングのような分析)をユーザが希望する場合がある。この場合、テキストマイニング装置は、着目テキスト集合を分析対象トピックに該当する部分からなるテキスト集合と見なし、その着目テキスト集合に特徴的な要素を分析する。そこで、トピック関与度算出部43は、トピック関与度だけでなく、テキストマイニングを行う対象のテキスト集合の各テキストの部分ごとに、その部分が分析対象トピック以外のトピックに関与している度合い(以下、他のトピック関与度と記す。)を計算してもよい。この場合、トピック関与度算出部43は、トピック関与度と同様の方法で他のトピック関与度を算出すればよい。
 トピック関与度補正特徴度計算部44は、分析設定入力部20がユーザから受け付けた分析対象トピック及び着目テキスト集合の情報を、分析管理部41を通じて受け取る。そして、トピック関与度補正特徴度計算部44は、着目テキスト集合に対する各要素の特徴度を、各要素が着目テキスト集合中に出現する度合いに基づいて算出する。このとき、トピック関与度補正特徴度計算部44は、各要素を含むテキストの部分ごとに付与されたトピック関与度に基づいて特徴度を補正する。
 なお、着目テキスト集合に対する各要素の特徴度を計算する際、分析対象トピック以外のトピックに該当する部分も用いる分析(例えば、上述した二種類目のテキストマイニングのような分析)をユーザが希望する場合がある。この場合、トピック関与度補正特徴度計算部44は、各要素を含むテキストの部分ごとに付与されたトピック関与度に加え、他のトピック関与度(分析対象トピック以外のトピックに関与している度合い)も用いて特徴度を補正する。
 ここで、特徴度とは、要素ごとに定義される値であり、着目テキスト集合中に要素が出現する程度を示す指標である。言い換えると、特徴度とは、各要素が着目テキスト集合にどの位特徴的に出現するかを表す指標である。出現する程度の指標として、例えば、要素が着目テキスト集合にどの位多く出現するか(出現頻度)を示す。もしくは、出現する程度の指標として、要素が着目テキスト集合にどの位偏って出現するか(例えば、要素が着目テキスト集合にどの位多く出現していて、かつ、着目テキスト集合以外にどの位少なく出現しているか)を示す。特徴度の例としては、要素の着目テキスト集合に対する「SC」や「ESC」、「χ二乗値」が挙げられるが、特徴度はこれらの内容に限定されない。
 以下、トピック関与度補正特徴度計算部44に含まれる出現度算出部45及び特徴度計算部46が行う動作について具体的に説明する。
 出現度算出部45は、言語処理部42が生成した各要素が分析対象トピックに該当する部分(部分テキスト)に出現する度合いを示す値(以下、出現度と記す。)を算出する。出現度算出部45は、算出した出現度をトピック関与度に応じて補正する。出現度は、例えば、要素が多く出現しているほどより大きな値をとる指標である。すなわち、出現度算出部45は、入力テキストの各部分の分析対象トピックに関するトピック関与度に応じて、各要素の分析対象トピックに該当する部分で出現する度合い(すなわち、出現度)を補正した値を算出する。以下、出現度算出部45が補正した出現度を、補正後の出現度と記す。
 なお、トピック関与度補正特徴度計算部44が着目テキスト集合に対する各要素の特徴度を計算する際、分析対象トピック以外のトピックに該当する部分も用いる分析(例えば、上述した二種類目のテキストマイニングのような分析)をユーザが希望する場合がある。この場合、出現度算出部45は、各要素の分析対象トピック以外のトピックに対応する部分で出現する度合いを、他のトピック関与度(分析対象トピック以外のトピックに関与している度合い)に応じて補正して算出する。このようにすることで、各要素の分析対象トピック以外のトピックに該当する部分の補正後の出現度も利用することができる。
 出現度算出部45が行う補正方法や、補正の際に用いられる各種設定情報は、予め設定されていてもよい。または、補正方法や設定情報は、分析設定入力部20がユーザから受け付けてもよい。
 また、出現度算出部45は、出現度として「出現数」を用いてもよい。ここで、「出現数」とは、出現度のうち各箇所に出現した回数を表す数である。例えば、要素が1回出現した場合、出現数は「1」になる。要素が出現していない場合、出現数は「0」になる。この場合、出現度算出部45は、分析対象トピックに該当する部分において各要素が出現する出現数を、分析対象トピックのトピック関与度が高い部分に各要素が出現しているほど高くなるように補正する。なお、以上に示す通り、「出現度」及び「出現数」は、各要素の各出現箇所(各部分)に対して定義される。また、出現度算出部45は、分析対象トピック以外のトピックに該当する部分で各要素が出現する出現数の補正も、上記の分析対象トピックに対する補正と同様に行えばよい。
 図2は、出現度算出部45がトピック関与度に応じて出現数を補正する例を示す説明図である。図2に示す例では、出現度算出部45が、動詞「動く」の出現数を算出し、算出した出現数を補正していることを示す。図2に例示する発言インデックス「56」が示す部分「再起動したんだけど動かないんだよね。」には、「動か」という単語が含まれ、発言インデックス「57」が示す部分「あー、動かないですが。。。」にも、「動か」という単語が含まれている。そのため、発言インデックス「56」が示す部分、及び、発言インデックス「57」が示す部分における「動く」の出現数は、それぞれ「1」になる。
 そして、出現度算出部45は、このように導出した出現数を、トピック関与度に応じて補正する。例えば、発言インデックス「56」が示す部分のトピック関与度が0.8であり、発言インデックス「57」が示す部分のトピック関与度が0.7であるとする。このとき、出現度算出部45は、このトピック関与度に応じて、発言インデックス「56」が示す部分における要素「動く」の出現数を0.8に補正する。同様に、出現度算出部45は、発言インデックス「57」が示す部分における要素「動く」の出現数を0.7に補正する。
 なお、出現度算出部45が出現数を補正する方法については後述する。
 上記説明では、出現度算出部45が出現度として出現数を利用する場合について説明したが、出現度は出現数に限定されない。例えば、出現度算出部45は、出現度として「出現信頼度」を利用してもよい。ここで、出現信頼度とは、音声認識や文字認識した場合に付与される各単語を認識したときの信頼度を表す指標である。
 図3は、音声認識を行った結果の例を示す説明図である。図3に示す例では、「きょうはとってもあつい」という音声を認識したときに候補になる単語と、その単語の信頼度(音声認識信頼度)とを示している。例えば、「きょう」という部分が、単語「今日」と認識され、その信頼度が「1.0」であることを示す、また、「とっても」という部分が、「とっても」と認識されるときの信頼度が「0.8」であり、「取っ手」及び「も」と認識されるときの信頼度が、それぞれ「0.2」であることを示す。
 この信頼度は、単語がその箇所で実際に出現する度合いととらえることが可能である。そのため、出現度算出部45は、この出現信頼度を出現度とし、トピック関与度に応じて出現信頼度を補正してもよい。
 続いて、特徴度計算部46は、補正後の出現度を用いて、着目テキスト集合に対する各要素の特徴度を計算する。以下の説明では、補正後の出現度を用いて計算された特徴度のことを、「補正後の特徴度」と記す。特徴度計算部46は、一般的なテキストマイニングに用いる方法と同様の方法を用いて特徴度を計算すればよい。例えば、特徴度計算部46は、出現度(出現数)をもとに算出できる「SC」や「ESC」、「χ二乗値」などを特徴度の指標として用いてもよい。なお、この際用いられる出現度は、補正後の出現度である。また、特徴度計算部46は、最も簡単な特徴度の指標として「頻度」を用いてもよい。上述の特徴度の算出方法は広く知られているため、詳細な説明は省略する。なお、特徴度計算部46が用いる特徴度の指標や、特徴度の計算方法などの各種設定情報は、予め設定されていてもよい。また、指標や設定情報は、分析設定入力部20がユーザから受け付けてもよい。
 図4は、特徴度計算部46が、補正後の出現数を用いて、着目テキスト集合に対するある要素の特徴度を計算する例を示す説明図である。図4に示す例では、すでに、出現度算出部45が補正した出現数が与えられている。図4は、特徴度計算部46が、補正後の出現数を用いて、テキスト1~5を含む着目テキスト集合(点線で囲まれた部分)に対する動詞「動く」の特徴度を計算していることを示す。ここでは、補正後の出現数を用いて、動詞「動く」の頻度を計算し、計算した頻度を特徴度としている。
 図4に示す例では、テキスト1には、動詞「動く」が1つ出現する部分が2箇所存在し、各部分の出現数が、それぞれ0.8、0.6に補正されている。また、テキスト2には、動詞「動く」が1つ出現する部分が1箇所存在し、出現数が0.3に補正されている。同様に、テキスト5には、動詞「動く」が1つ出現する部分が1箇所存在し、出現数が0.9に補正されている。なお、テキスト3及びテキスト4には、動詞「動く」が出現する部分は存在しない。
 ここで、着目テキスト集合内のテキストに出現する単語の総数を1000とする。一般的な特徴度(頻度)の算出方法によれば、動詞「動く」は着目テキスト集合に4つ出現することから、動詞「動く」の特徴度を4/1000と算出できる。一方、本実施形態では、特徴度計算部46は、補正後の出現数をもとに特徴度を算出する。ここで、着目テキスト集合内テキストに出現した全単語の補正後の値の総和を678.9とする。また、動詞「動く」の補正後の出現数の総和は、0.8+0.6+0.3+0.9である。本実施形態による計算方法によれば、動詞「動く」の特徴度を、(0.8+0.6+0.3+0.9)/678.9と算出できる。
 このように、本実施形態では、特徴度計算部46は、トピック関与度に応じて補正された出現数をもとに特徴度を算出する。そのため、本実施形態によれば、分析者は、分析対象トピックに関与している度合いに応じたテキストマイニングができる。すなわち、分析者は、分析対象トピックを対象としたテキストマイニングを精度良く行うことができる。
 出力部30は、補正後の特徴度をもとに、着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する。具体的には、出力部30は、補正後の特徴度の中から、より高い特徴度の要素を着目テキスト集合の特徴的な要素として特定し、その特定した要素を出力する。出力部30は、例えば、予め設定された閾値以上の特徴度をもつ要素を特徴的な要素と特定し、その要素を出力してもよい。他にも、出力部30は、特徴度の高い順で要素を並び替え、上位n件(nは、ユーザ等により予め定められた値)の要素を特徴的な要素と特定してもよい。また、出力部30は、特徴的な要素を出力する際、特徴的と判定した要素のみを出力してもよいし、特徴的と判定した要素とその特徴度の組を出力してもよい。また、出力部30は、特徴的と判定した要素だけでなく、全要素について要素と特徴度の組を出力してもよい。また、出力部30は、特徴度に応じて並び替えた出力順で特徴度を出力してもよいし、特徴度にこだわらず(すなわち、並び替えず)に出力してもよい。
 なお、上述の通り、分析設定入力部20は、オプションとして、言語処理部42が実行する言語処理の設定や、トピック関与度算出部43が実行する算出方法に関する各種設定を受け付けてもよい。また、分析設定入力部20は、オプションとして、出現度算出部45が実行する補正時に用いる各種設定や、特徴度計算部46が特徴度を計算する際の各種設定を受け付けてもよい。このとき、分析設定入力部20は、入力された情報を分析管理部41に伝えてもよい。分析管理部41は、適宜、伝えられた情報を各部(より詳しくは、言語処理部42と、トピック関与度算出部43と、出現度算出部45と、特徴度計算部46)へと伝え、各部は、処理を行う際に、これらの情報を利用してもよい。
 分析管理部41と、言語処理部42と、トピック関与度算出部43と、トピック関与度補正特徴度計算部44(より詳しくは、出現度算出部45と、特徴度計算部46)は、プログラム(テキストマイニングプログラム)に従って動作するコンピュータ40の中央処理装置等によって実現される。例えば、プログラムは、メモリやHDD等の記憶部50に記憶され、中央処理装置は、そのプログラムを読み込み、プログラムに従って、分析管理部41、言語処理部42、トピック関与度算出部43及びトピック関与度補正特徴度計算部44(より詳しくは、出現度算出部45及び特徴度計算部46)として動作してもよい。また、分析管理部41と、言語処理部42と、トピック関与度算出部43と、トピック関与度補正特徴度計算部44(より詳しくは、出現度算出部45と、特徴度計算部46)とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、動作について説明する。図5は、本実施形態におけるテキストマイニング方法を示すフローチャートである。
 まず、データ入力部10は、本発明の実施形態によるテキストマイニングを行う対象のテキストの集合(すなわち、入力テキスト集合)を入力として受け付ける(ステップA1)。続いて、分析設定入力部20は、ユーザの指示に応じ、入力テキスト集合に対してテキストマイニングを行うために必要な各種設定情報を受け付ける(ステップA2)。なお、分析設定入力部20は、オプションとして、言語処理部42が実行する言語処理の設定や、トピック関与度算出部43が実行する算出方法に関する各種設定を受け付けてもよい。また、分析設定入力部20は、オプションとして、出現度算出部45が実行する補正時に用いる各種設定や、特徴度計算部46が特徴度を計算する際の各種設定を受け付けてもよい。入力された情報は、後述のステップA3以降の動作を行う際に、適宜、分析管理部41から各部へと伝えられる。また、ステップA2において、分析設定入力部20は、指定された分析対象ごとに処理を繰り返す旨の指示を受け付けてもよい。
 続いて、言語処理部42は、テキストマイニングを行う対象となるテキスト集合の各テキストに対して言語処理を行い、テキストマイニングの分析対象になる要素を生成する(ステップA3)。ステップA4以降、言語処理部42が生成した要素に対して各処理が行われる。なお、ステップA4以降の各処理では、着目テキスト集合中に存在する要素のみに限定した処理を行ってもよい。
 次に、トピック関与度算出部43は、ステップA2においてユーザから指定された分析対象トピック(すなわち、分析設定入力部20がユーザから受け付けた分析対象トピック)を、分析管理部41を通じて受け取る。そして、トピック関与度算出部43は、テキストマイニングの対象の各テキストの各部分に対し、分析対象トピックに対するトピック関与度を計算する。なお、トピック関与度算出部43は、分析対象トピック以外のトピックに対するトピック関与度を計算してもよい(ステップA4)。
 続いて、トピック関与度補正特徴度計算部44は、ステップA2でユーザが指定した分析対象トピック及び着目テキスト集合の情報(すなわち、分析設定入力部20がユーザから受け付けた分析対象トピック及び着目テキスト集合の情報)を、分析管理部41を通じて受け取る。そして、トピック関与度補正特徴度計算部44は、着目テキスト集合に対する各要素の特徴度を算出する。このとき、トピック関与度補正特徴度計算部44は、ステップA4で算出された、入力テキストの各部分の分析対象トピックに関与している度合いを表すトピック関与度に応じて各要素の特徴度を補正する。
 具体的には、出現度算出部45は、分析対象トピックに該当する各部分において各要素が出現する出現度を算出し、算出した各出現度をトピック関与度に応じて補正する。なお、出現度算出部45は、分析対象トピック以外のトピックに該当する各部分で出現する出現度を算出し、算出した出現度を他のトピック関与度に応じて補正してもよい(ステップA5)。すなわち、出現度算出部45は、ステップA4において算出された、入力テキストの各部分の分析対象トピックに関するトピック関与度に応じて、ステップA3で生成した各要素の分析対象トピックに該当する部分で出現する度合い(すなわち、出現度)を補正した値を算出する。
 次に、特徴度計算部46が、補正後の出現度を用いて、着目テキスト集合に対する各要素の特徴度を計算する。最後に、出力部30は、ステップA6において計算された補正後の特徴度をもとに、着目テキスト集合に対して特徴的な要素を出力する(ステップA7)。
 なお、ステップA2において、分析設定入力部20は、指定された分析対象ごとに処理を繰り返す旨の指示を受け付けてもよい。この場合、分析管理部41は、分析設定入力部20からテキストマイニングの処理手順を受け取る。その後、分析管理部41が、言語処理部42、トピック関与度算出部43、及び、トピック関与度補正特徴度計算部44(より詳しくは、出現度算出部45と、特徴度計算部46)を管理することで、指示された処理手順通りにそれぞれの構成部が各処理を実行する。
 このように、処理を繰り返す旨の指示に基づいて処理を行うことで、着目テキスト集合や分析対象トピックなどの分析の軸を1つに限った1回のテキストマイニングの試行だけでなく、分析の軸を変えながら複数回のテキストマイニングを試行する事が可能になる。
 また、処理を繰り返す旨の指示は、ステップA1~A7に例示する各ステップを必ずしも全て行う指示ではなく、解析処理に応じて処理を変更する指示であってもよい。例えば、一度解析した結果を利用できる処理については、その処理を再度行わない指示を含んでいてもよい。例えば、テキストマイニング対象のテキストが同一であり、分析対象トピックだけを変化させる場合、テキストマイニング対象のテキストの言語処理結果は、トピックを変化した際、利用されてもよい。そのため、2回目以降の分析では、ステップA2に例示する処理を行わない指示に基づいて動作させることで、分析処理を効率化できる。
 以上のように、本実施形態によれば、トピック関与度補正特徴度計算部44は、分析対象のテキストの集合である着目テキスト集合中にテキストの要素が出現する程度を示す指標(特徴度)を算出する。トピック関与度補正特徴度計算部44は、算出した特徴度をもとに、着目テキスト集合中の特徴的な要素を特定する。具体的には、出現度算出部45は、分析対象のテキストを、例えば、発話単位などの所定の単位で分割した各テキスト部分が分析対象トピックに関与している(関連する)度合いを示す値(トピック関与度)に基づいて特徴度を補正する。以上の方法により特徴的な要素を特定するため、分析者は、特定のトピックを対象としたテキストマイニングを精度良く行うことができる。
 また、本実施形態によれば、トピック関与度補正特徴度計算部44は、分析対象トピックに対応する部分テキストにおいて要素が出現する度合い(出現度)を算出する。そして、特徴度を算出する際、出現度算出部45は、トピック関与度(トピック関連度と言うこともできる。)の高い部分に要素が出現しているほど出現度をより高く補正する。そして、特徴度計算部46は、補正された出現度を用いて特徴度を計算し、補正された出現度を用いて計算された特徴度をもとに、(例えば、閾値以上の特徴度をもつ要素や上位n件の要素を)着目テキスト中の特徴的な要素と特定する。
 このように、要素の出現部分が分析対象トピックに関与している度合いに応じて入力テキスト内の各要素の特徴度を補正するため、分析者は、分析対象トピックに関与している度合いに応じたテキストマイニングができる。また、分析者は、分析対象トピックを対象としたテキストマイニングを精度良く行うことができる。
 すなわち、本実施形態では、ステップA5において、出現度算出部45は、入力テキスト内の分析対象トピックに該当する部分で各要素が出現する出現度を、その要素の出現部分が分析対象トピックに関与している度合いに応じて補正する。そして、ステップA6において、特徴度計算部46は、その補正した値を用いて特徴度を計算する。したがって、入力テキスト内の各要素の特徴度は、各要素の出現部分が分析対象トピックに関与している度合いに応じて補正される。つまり、分析者は、分析対象トピックに関与している度合いに応じたテキストマイニングができ、分析対象トピックを対象としたテキストマイニングを精度良く行うことができる。
 例えば、ステップA5における補正方法として、各要素が出現する出現度を、その要素の出現部分のトピック関与度が高ければ高いほど、高くなるように補正する、という方法を採用したとする。この場合、分析対象トピックに深く関わり、分析対象トピックの分析において重要である部分(トピック関与度の高い部分)に出現する要素の影響は大きくなる。逆に、この場合、分析対象トピックにあまり関与しない比較的重要でない部分(トピック関与度の低い部分)に出現する要素の影響は小さくなる。そのため、例えば、特定トピックの分析において比較的重要でないトピックのつなぎ部分で出現する要素が特徴的な要素になりづらくなるといった効果が得られる。このようにして、分析者は、分析対象トピックを対象としたテキストマイニングを精度良くおこなう事ができる。
 以下、具体的な実施例及び図面を用いて本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。なお、以下の説明では、図5に例示するフローチャートに沿って処理が行われるものとする。
 ここでは、分析者が、コールセンターで顧客とオペレータの間でなされた通話を対象に処置の部分に限定したテキストマイニングを行う場合の処理について説明する。また、このテキストマイニングでは、他のオペレータに比べてオペレータAに特徴的なものを分析するものとする。
 この場合のテキストマイニングでは、データ入力部10が、入力テキスト集合として、図6、図7及び図8に例示する、コールセンターで顧客とオペレータの対話から作成された通話テキストの集合を受け付けるものとする。また、分析設定入力部20が、分析対象トピックとしてトピック「処置」を、着目テキスト集合として「オペレータAが対応したテキスト集合」を、それぞれ受け付けるものとする。上記テキストマイニング(処置の部分に限定したテキストマイニング)を用いた分析を、以下、分析(1)と記す。分析(1)は、テキスト内の各要素の着目テキスト集合に対する特徴度を計算する際、分析対象トピックに該当する部分のみを用いる分析の例である。
 なお、以下の実施例において、分析者がコールセンターで顧客とオペレータの間でなされた通話を対象に、他のトピックに比べてトピック「処置」に特徴的な要素を分析する場合に行われるテキストマイニングの例も、適宜、説明する。
 この場合のテキストマイニングでも、データ入力部10は、入力テキスト集合として、図6、図7及び図8に例示する、コールセンターで顧客とオペレータとの対話から作成された通話テキストの集合を受け付けるものとする。また、分析設定入力部20は、分析対象トピックとしてトピック「処置」を、着目テキスト集合として「トピック「処置」に該当するテキスト部分の集合」を、それぞれ受け付けるものとする。以下、上記テキストマイニング(他のトピックに比べてトピック「処置」に特徴的な要素を分析する場合に行われるテキストマイニング)を用いた分析を、以下、分析(2)と記す。分析(2)は、テキスト内の各要素の着目テキスト集合に対する特徴度を計算する際、分析対象トピックに該当する部分に加え、分析対象トピック以外のトピックに該当する部分も用いる分析の例である。
 まず、データ入力部10は、入力テキスト集合として、図6、図7及び図8に例示するコールセンターで顧客とオペレータとの対話から作成された通話テキストの集合を受け付ける。図6は、テキストのみを含む入力テキスト集合の例を示す説明図である。図7は、テキストの各部分に、全トピック情報(トピック及びトピック関与度)が付与された入力テキスト集合の例を示す説明図である。図8は、トピックのうち、「処置」に関するトピック関与度が付与された入力テキスト集合の例を示す説明図である。なお、図6、図7及び図8には、説明の都合上、発言インデックスの列を付与しているが、入力テキスト集合に、発言インデックスは含まれていなくてもよい。
 本実施例における入力テキスト集合の各テキストは、図7の例に示すように、複数のトピックに関する情報を含んでおり、図7における発言インデックス「20」に例示するように、複数のトピック(「処置」及び「連絡方法」)に該当する部分が存在するテキストである。
 以下の説明では、図7に例示するように、入力テキスト集合の各テキストの発話単位に、各部分が属するトピックとそのトピックへ関与している度合い(すなわち、トピック関与度)を含むトピック情報が付与されている場合について説明する。なお、トピック情報が付与される単位(すなわち、各テキストを分割した単位)は、発話単位に限定されない。トピック情報は、発話単位でなくてもよく、単語単位や文単位、文章単位や段落単位などであってもよい。
 また、図7に示す例では、例えば、発言インデックス「16」が示す部分は、トピック「処置」に、0.83という度合いで関与していることを示す。また、発言インデックス「20」が示す部分は、トピック「処置」に0.42、トピック「連絡方法」に0.35という度合いで関与していることを示す。このことは、発言インデックス「16」が示す部分の方が、発言インデックス「20」が示す部分よりもトピック「処置」に関して、深く関与していることを示している。
 なお、トピック情報は、全てのトピックについての情報でなくてもよく、図8に例示するように、一部のトピックについての情報でもよい。図8の例では、トピック「処置」に関する情報のみが付与されていることを示す。また、図6に例示するように、入力テキストは、トピック情報が付与されていないテキストであってもよい。
 なお、ここまでの処理が、図5に例示するステップA1までの処理に対応する。
 続いて、ユーザが希望する分析を行うため、分析設定入力部20は、入力テキスト集合に対して、ある分析対象トピックを対象にテキストマイニングを行うために必要な各種情報をユーザから受け付ける。具体的には、分析対象トピックがトピック「処置」であること、及び、着目テキスト集合が「オペレータAが対応したテキスト集合」であることがユーザから指定される。
 例えば、分析設定入力部20は、入力テキスト集合の各テキストに含まれる全てのトピックのリストをユーザに提示し、ユーザがそのリストの中から指定した分析対象トピックを認識して、分析対象トピックの指定を受け付けたと判断してもよい。
 具体的には、まず、分析設定入力部20は、ユーザに「オープニング、処置、連絡方法、・・・」というリストを提示する。そして、ユーザがリストの中から分析対象トピックとして「処置」を指定すると、分析設定入力部20は、ユーザがトピック「処置」を指定した事を認識し、分析対象トピックを「処置」に設定する。
 また、例えば、分析設定入力部20は、入力テキスト集合の各テキストをユーザに提示し、ユーザが着目テキスト集合としたいテキストとして指定したテキスト集合を認識して、着目テキスト集合の指定を受け付けたと判断してもよい。
 具体的には、まず、分析設定入力部20は、入力テキスト集合の各テキストをユーザに提示する。そして、提示されたテキストから「オペレータAが対応したテキスト集合」をユーザが指定すると、分析設定入力部20は、ユーザが指定したテキスト集合を認識し、着目テキスト集合を、「オペレータAが対応したテキスト集合」に設定する。
 なお、分析(2)に例示する方法で分析を行う場合、分析設定入力部20は、着目テキスト集合として、特定トピックに該当するテキスト部分の集合の指定を受け取ってもよい。この場合、例えば、分析設定入力部20は、入力テキスト集合の各テキストに含まれる全てのトピックのリストをユーザに提示する。そして、分析設定入力部20は、ユーザがそのリストの中から指定した着目テキスト集合として着目したいトピックを認識することで、指定されたトピックに該当する部分の集合を着目テキスト集合に設定してもよい。
 また、入力テキスト集合の各テキストに予め付加情報(対応したオペレータ名、対応日時、対応時間、顧客名など)が付与されている場合、分析設定入力部20は、付加情報のリストを分析の観点としてユーザに提示してもよい。そして、ユーザが着目テキスト集合としたい分析の観点を指定した場合、分析設定入力部20は、指定された観点を認識し、その観点に該当するテキストを着目テキスト集合に設定してもよい。
 例えば、入力テキスト集合の各テキストに、予め付加情報として、対応したオペレータ名が予め付与されていた場合、分析設定入力部20は、対応したオペレータ名のリストをユーザに提示してもよい。そして、ユーザが「オペレータA」を指定したとき、分析設定入力部20は、その指定を認識して、着目テキスト集合を「オペレータAが対応したテキスト集合」に設定してもよい。このようにして、ユーザが指定した観点に該当するテキストを着目テキスト集合と設定できる。
 分析設定入力部20は、分析対象トピック及び着目テキスト集合の情報を分析管理部41に伝える。そして、以降の処理(例えば、図5に例示するステップA4の処理)において、分析対象トピックの情報は、分析管理部41によってトピック関与度算出部43に伝えられて、使用される。同様に、以降の処理(例えば、図5に例示するステップA5及びステップA6の処理)において、分析対象トピック及び着目テキスト集合の情報は、分析管理部41によってトピック関与度補正特徴度計算部44に伝えられて、使用される。
 分析設定入力部20は、オプションとして、言語処理部42が実行する言語処理の設定や、トピック関与度算出部43が実行する算出方法に関する各種設定を受け付けてもよい。また、分析設定入力部20は、オプションとして、出現度算出部45が実行する補正時に用いる各種設定や、特徴度計算部46が特徴度を計算する際の各種設定を受け付けてもよい。この場合、分析管理部41に分析設定入力部20が受け付けた設定や情報を伝え、例えば、図5に例示するステップA3以降の動作が行われる際に、各部(より詳しくは、言語処理部42、トピック関与度算出部43、出現度算出部45及び特徴度計算部46)は、各種設定を分析管理部41から受け取って利用してもよい。具体的な設定項目の例は、設定が利用される各部の後述する処理で説明する。
 また、分析設定入力部20は、オプションとして、入力テキスト集合の中からテキストマイニングの対象を絞り込む際の設定を受け付けてもよい。なお、分析設定入力部20が、テキストマイニングの対象を絞り込む処理は、上述した着目テキスト集合を設定する方法と同様の処理で実現できる。
 つまり、分析設定入力部20が入力テキスト集合の各テキストをユーザに提示し、ユーザがテキストマイニングの対象にしたいテキストを指定したときに、分析設定入力部20は、指定されたテキストをテキストマイニングの対象と認識すればよい。また、入力テキスト集合の各テキストに予め付加情報が付与されている場合、分析設定入力部20は、付加情報のリストをユーザに提示し、ユーザがテキストマイニングの対象にしたい部分が指定されたときに、指定された部分をテキストマイニングの対象と認識すればよい。
 このように絞り込まれた結果、テキストマイニングの対象になったテキスト集合は、分析管理部41に伝えられ、その後、図5に例示するステップA3以降の各処理で利用される。この場合、図5に例示するステップA3以降の各処理では、入力テキスト集合全体を対象とするのではなく、絞り込んだ結果のテキスト集合を対象として各処理が行われる。
 なお、以下の説明では、テキストマイニングの対象を絞り込まない場合の処理を例に説明するが、テキストマイニングの対象を絞り込んだ場合の処理も同様である。すなわち、テキストマイニングの対象を絞り込んだ場合には、以下の説明において「入力テキスト集合」を対象にした処理を、「図5に例示するステップA2において入力テキスト集合を絞り込んだ結果のテキスト集合」(すなわち、分析設定入力部20が入力テキスト集合を絞り込んだ結果のテキスト集合)を対象にした処理と読み替えればよい。
 なお、ここまでの処理が、図5に例示するステップA2までの処理に対応する。
 続いて、言語処理部42は、入力テキスト集合の各テキストに対して言語処理を行い、テキストマイニングの分析対象になる要素を生成する。言語処理部42が行う具体的な言語処理や生成する要素の単位は、予め設定されていてもよく、図5に例示するステップA2で、(すなわち、分析設定入力部20から伝えられて)設定されてもよい。
 なお、具体的な言語処理や要素の単位は、通常のテキストマイニング技術で用いられる言語処理や要素の単位と同様である。具体的な要素の単位として、例えば、単語、単語nグラム、文節、もしくはこれらの係り受け、またはこれらのn連続の係り受け、または、構文木の部分木の単位で分割した各要素、もしくはこれらの要素を複数組み合わせた各要素が挙げられる。ここで、単語nグラムの「n」やn連続の係り受けの「n」は自然数であり、例えば、人手で設定される値でもよい。
 また、具体的な言語処理として、生成する要素の単位にあわせた形態素解析、構文解析、係り受け解析などが行われる。例えば、要素の単位として、単語や、単語nグラムが含まれた場合、言語処理部42は、形態素解析を行い、要素を生成する。
 図9は、図6に例示する発言インデックス「17」が示す発言テキストを解析した例を示す説明図である。図9に例示する表は、発言テキスト「したけど、動かないですね。」という文章を形態素解析して単語に分割し、各単語と品詞とを対応付けた表である。ここで、要素の単位を単語単位とした場合、要素は、「し」、「た」、「けど」、「、」、「動か」、「ない」、「です」、「ね」、「。」の9つになる。また、要素の単位を単語2グラム単位とした場合、要素は、「した」、「たけど」、「けど、」、「、動か」、「動かない」、「ないです」、「ですね」、「ね。」の8つになる。
 また、例えば、係り受けや、n連続の係り受けや、文節や、構文木の部分木が含まれた場合、言語処理部42は、係り受け解析や構文解析を行い、要素を生成する。
 図10は、図6に例示する発言インデックス「17」が示す発言テキストを解析した例を示す説明図である。図10に示す例では、解析文「したけど、動かないですね。」を係り受け解析した結果を示している。図10に例示する係り受け解析結果では、図中の斜線「/」が文節の区切りを示し、図中の矢印が、矢印の始点の文節が矢印の終点の文節に係ることを示す。
 ここで、要素の単位を係り受け単位とした場合、要素は、「したけど→動かないですね。」の1つになる。また、要素の単位を文節単位とした場合、要素は、「したけど、」、「動かないですね。」の2つになる。さらに、要素を構文木の部分木単位にした場合、要素は、「したけど、」、「動かないですね」、「したけど→動かないですね。」の3つになる。
 さらに、言語処理の設定として同義語処理や不要語処理が指定されている場合、言語処理部42は、これらの処理を行ってもよい。例えば、言語処理部42は、予め設定され、もしくは、分析設定入力部20が受け付けた要素同士の同義関係の情報を利用して、同義語処理を行う。図11は、同義語辞書の例を示す説明図である。図11に示す例では、ある代表語に対して複数の同義な単語(同義語)が対応付けられていることを示す。例えば、図11に例示する表の2行目は、「再起動」「リブート」「reboot」が同じ意味である事を示す。言語処理部42は、図11に例示する単語同士の同義関係を定めた辞書を利用して同義語処理を行ってもよい。この場合、言語処理部42は、入力された情報の中から、同義関係にある要素同士を同じ要素とみなす。以下、このようにみなした情報を用いて、図5に例示するステップA4以降の処理が行われる。例えば、図11に例示する同義語辞書を用いる場合、言語処理部42は、同義語に設定されている単語が出現してきた場合に、その単語を対応する代表語に置き換える。以下、置き換えた代表語を用いて、図5に例示するステップA4以降の処理が行われる。
 また、言語処理部42は、予め設定され、もしくは、分析設定入力部20が受け付けたテキストマイニングの分析対象として不要な要素の情報を利用して不要語処理を行ってもよい。図12は、不要語辞書の例を示す説明図である。図12に示す例では、不要語の一覧が不要語辞書として登録されていることを示す。図12に例示するように、不要語辞書に登録される要素は、単語だけに限られない。不要語辞書には、品詞など単語以外の情報を用いて不要な要素を規定してもよい。この場合、言語処理部42は、設定されている情報を基に、テキストマイニングの分析対象になる要素から該当する要素を取り除く。
 例えば、図12に例示する不要語辞書を用いた場合、言語処理部42は、図9に例示する発言インデックス「17」が示す発言テキストの単語単位の要素「し」、「た」、「けど」、「、」、「動か」、「ない」、「です」、「ね」及び「。」から、「、」、「。」、「けど」及び「ね」を取り除く。この場合、図5に例示するステップA3において、解析文「したけど、動かないですね。」の単語単位の要素としては、「し」、「た」、「動か」、「ない」及び「です」の合計5個が出力される。
 なお、ここまでの処理が、図5に例示するステップA3までの処理に対応する。
 続いて、トピック関与度算出部43は、分析管理部41を通じて、ユーザから分析対象トピックとしてトピック「処置」が指定されたことを受け取る。そして、トピック関与度算出部43は、入力テキスト集合の各テキストの各部分が分析対象トピック「処置」に関与している度合いを表すトピック関与度を計算し、計算したトピック関与度を各部分に付与する。
 図5に例示するステップA4において、トピック関与度算出部43は、トピック関与度を付与する各部分の単位として、例えば、単語、文、文章、段落、発話単位などを用いる事ができる。各部分の単位は、予め設定されていてもよく、分析設定入力部20が受け取った単位であってもよい。ここでは、発話単位でトピック関与度が付与される場合について説明する。
 ここで、図7に例示するように、入力テキスト集合の各テキストの各部分に、その部分が属するトピックと、そのトピックに関与している度合いを含むトピック情報が付与されている場合、トピック関与度算出部43は、トピックに関与されている度合いとして既に付与されている情報をトピック関与度として用いてもよい。また、図8に例示するように、各テキストの各部分に、その部分が分析対象トピック(ここでは、トピック「処置」)に関与している度合いが付与さている場合、トピック関与度算出部43は、トピックに関与されている度合いとして既に付与されている情報を分析対象トピックのトピック関与度として用いてもよい。
 例えば、図7や図8に例示するテキストが入力された場合、発言インデックス「1」、「16」、「20」が示す部分の分析対象トピック「処置」についてのトピック関与度は、それぞれ、0、0.83、0.42になる。
 なお、図7及び図8に例示する入力テキスト集合の各テキストに付与されている関与度合いの単位と、図5に例示するステップA4において、トピック関与度算出部43がトピック関与度を付与する単位のいずれも発話単位である。そのため、入力時に付与された関与度合いをそのままトピック関与度として利用できた。ただし、入力テキスト集合の各テキストに付与されている関与度合いの単位と、トピック関与度算出部43がトピック単位を付与する単位とは異なっていてもよい。以下、入力されたテキストに付与されている関与度合いの単位と、図5に例示するステップA4において、トピック関与度算出部43がトピック関与度を付与する単位とが異なっている場合の処理について説明する。
 まず、図5に例示するステップA4において、トピック関与度算出部43がトピック関与度を付与する単位が、入力テキストに付与された関与度合いの単位よりも短い場合について説明する。例えば、入力テキストに付与された関与度合いの単位が発話単位であり、図5に例示するステップA4においてトピック関与度算出部43がトピック関与度を付与する単位が単語単位である場合などが、この例に挙げられる。この場合、トピック関与度が付与される単位は、入力テキストに付与されていた単位の一部である。そのため、図5に例示するステップA4において、トピック関与度算出部43は、トピック関与度を付与する部分が含まれる入力テキストの該当箇所の値(関与度合い)をトピック関与度として用いることができる。
 例えば、トピック関与度算出部43は、図7に例示する発言インデックス「16」が示す発言テキスト内の単語「再起動」部分のトピック「処置」についてのトピック関与度を、入力時に発言インデックス「16」が示す部分に付与されている関与度合いである0.83とすることができる。
 次に、図5に例示するステップA4において、トピック関与度算出部43がトピック関与度を付与する単位が、入力テキストに付与された関与度合いの単位よりも長い場合について説明する。例えば、入力テキストに付与された関与度合いの単位が単語単位であり、図5に例示するステップA4において、トピック関与度算出部43がトピック関与度を付与する単位が発話単位である場合などが、この例に挙げられる。
 この場合、トピック関与度を付与する単位に対して、入力テキストに付与された関与度合いが複数存在することになる。例えば、図5に例示するステップA4において、トピック関与度算出部43は、トピック関与度を付与する対象の箇所に対し、入力テキストに付与された複数の関与度合いをもとに平均値を算出し、その平均値をトピック関与度としてもよい。例えば、トピック関与度算出部43は、発言インデックス「17」が示す部分のトピック関与度を、入力時に付与されている発言インデックス「17」が示す発言テキスト内の各単語「し」、「た」、「けど」、「、」、「動か」、「ない」、「です」、「ね」、「。」の9個の値(関与度合い)の平均としてもよい。
 なお、上記説明では、トピック関与度を入力テキストに付与された関与度の平均値にする場合について説明した。他にも、トピック関与度算出部43は、トピック関与度を付与する対象の箇所に対し、入力テキストに付与された複数の関与度合いの中から最大値を選択し、その値をトピック関与度としてもよい。もしくは、トピック関与度算出部43は、トピック関与度を付与する対象の箇所に対し、入力テキストに付与された複数の関与度合いの中から最小値を選択し、その値をトピック関与度としてもよい。
 また、入力テキストの各部分に重要度の差がある場合、トピック関与度算出部43は、例えば、トピック関与度を付与する対象の箇所に対して入力テキストに付与された複数の値(関与度合い)のうち、重要な部分に付与された値をトピック関与度として採用してもよい。
 例えば、入力テキストには単語単位で値が付与されており、図5に例示するステップA4において、発話単位にトピック関与度が付与されるものとする。ここで、単語の種類を示す「自立語」が「付属語」よりも重要度が高い場合、トピック関与度算出部43は、付属語に付与された値ではなく、自立語に付与された値を採用してもよい。
 また、入力テキストには文節単位で値が付与されており、図5に例示するステップA4において、文単位にトピック関与度が付与されるものとする。ここで、文節の種類を示す「主節」が「条件節」よりも重要度が高い場合、トピック関与度算出部43は、条件節に付与された値ではなく、主節に付与された値を採用してもよい。
 次に、入力テキストに分析対象トピックについての関与度合いが付与されていない場合、もしくは、入力テキストに分析対象トピックについての関与度合いが付与されていてもその関与度を用いない場合に、トピック関与度算出部43が、分析対象トピックと正の相関がある(すなわち、分析対象トピックに関与している度合いが高いほど大きな値になる)トピック関与度を算出する方法について説明する。ただし、トピック関与度算出部43は、分析対象トピックと負の相関がある(すなわち、分析対象トピックに関与している度合いが高いほど小さな値になる)トピック関与度を算出してもよい。負の相関があるトピック関与度を算出する場合、トピック関与度算出部43は、例えば、後述する方法で分析対象トピックと正の相関があるトピック関与度を算出したあと、そのトピック関与度の逆数を負の相関があるトピック関与度としてもよい。
 正の相関があるトピック関与度を算出する場合、トピック関与度算出部43は、例えば、入力箇所が分析対象トピックであるか否かを推定する予め作成されたモデルを利用して、入力テキスト集合中の各発話にトピック関与度を付与してもよい。なお、このモデルは、トピック関与度算出部43が利用するモデルとして予め定められていてもよく、分析設定入力部20が受け付けたモデルであってもよい。ここでは、トピック関与度算出部43が、分析対象トピックである確率が高いほど確信度を高く算出するモデルを用いて確信度を算出し、算出された確信度を基にトピック関与度を算出する場合について説明する。
 このモデルは、例えば、分析対象トピック(例えば、トピック「処置」)に該当する発話を正例、分析対象トピック以外のトピックに該当する発話を負例として、シンプルベイズ法や、決定木学習、最大エントロピー法や、サポートベクトルマシンなどの学習アルゴリズムを用いて学習することにより生成される。これらのアルゴリズムを用いて、入力箇所が正例に該当する(分析対象トピックである)か否かを推定するモデルを作成する方法や、作成したモデルを用いて入力箇所が正例に該当する(分析対象トピックである)確信度を算出する方法は広く知られているため、ここでは説明を省略する。
 図13は、上記方法により作成されたモデルが行う処理の例を示す説明図である。図13に例示するモデルは、入力された発話に対して、その発話が分析対象トピックであるか否かを示す判定結果と、その判定に利用した発話が分析対象トピックである確信度を出力する。この確信度は、入力箇所が分析対象トピックである確率が高いほど高くなる値である。すなわち、この確信度は、分析対象トピックである確率や、0から1の値でなくてもよい。
 入力箇所が分析対象トピックであるか否かを推定するモデルとして、例えば、シンプルベイズ法により学習、作成されたモデルを用いて、発話が分析対象トピックになる確率を導出してもよい。シンプルベイズ法で作成されたモデルを用いた場合、トピック関与度算出部43は、発話aが入力として与えられたときに、発話aのトピックが分析対象トピックbとなる確率(以下、この確率をP(b|a)と表わす。)を計算し、分析対象トピックであるか否かを判定する。なお、この場合、入力発話が分析対象トピックである確信度を、確率P(b|a)とすることができる。
 上記モデルを用いてトピック関与度を付与する方法について説明する。まず、トピック関与度算出部43は、トピック関与度の付与対象である各発話の確信度を上記モデルを用いて算出する。そして、トピック関与度算出部43は、算出した確信度をトピック関与度とみなし、このトピック関与度を各発話に付与する。
 例えば、図13に例示する「お世話になっております。」(図7に例示する発言インデックス「2」が示す発言テキスト)をモデルに適用した結果が、「確信度0.12」であったとする。この場合、発言インデックス「2」が示す発言テキストのトピック関与度は0.12になる。同様に、図13に例示する「再起動して頂いていいですか?」(図7に例示する発言インデックス「16」が示す発言テキスト)をモデルに適用した結果が、「確信度0.75」であったとする。この場合、発言インデックス「16」が示す発言テキストのトピック関与度は0.75になる。
 なお、上記説明では、トピック関与度算出部43が算出した確信度をトピック関与度とみなす場合について説明した。他にも、トピック関与度算出部43は、入力箇所が分析対象トピックか否かを判定するための確信度に対する閾値を人手や予備実験等で予め定めておき、確信度が閾値以下であった場合にはトピック関与度を0にしてもよい。例えば、図13に示す例で閾値を0.5と定めた場合、「お世話になっております。」の確信度は閾値以下のため、判定結果は「×」になり、トピック関与度は0になる。一方、「再起動して頂いていいですか?」の確信度は閾値を超えているため、判定結果は「○」になり、トピック関与度は0.75になる。
 また、トピック関与度算出部43は、各発話が分析対象トピック以外のトピックに多く該当するほど、各発話のトピック関与度を小さくするように計算してもよい。以下、各発話が分析対象トピック以外のトピックに多く該当するほど、各発話のトピック関与度を小さく計算する方法の例について説明する。なお、ここでは、図7に例示するトピックが、各発話(発言テキスト)に付与されており、分析対象トピックが「処置」である場合を例に説明する。
 まず、人手や予備実験等で、発話が属するトピックが分析対象トピック1つのみである場合のトピック関与度のデフォルト値を予め設定する。また、各発話が分析対象トピックに該当しない場合、発話のトピック関与度を0とし、各発話が分析対象トピックに該当する場合、上述のデフォルト値をその発話が該当するトピックの数で割った値とする。
 この場合、発話をut、発話utのトピック関与度をTopic_Degree(ut)、発話utが該当するトピックの数をtopic(ut)、トピック関与度のデフォルト値をDefaultと表わすと、発話utが分析対象トピックに該当する場合、発話utのトピック関与度Topic_Degree(ut)は、以下に例示する式1で算出できる。
 Topic_Degree(ut)=Default/f(topic(ut))  (式1)
 ここで、f(x)は、f(x)=xを満たす関数である。
 例えば、デフォルト値(Default)を1とした場合、図7に例示する発言インデックス「2」が示す部分は、分析対象トピック「処置」に該当しない。そのため、図7に例示する発言インデックス「2」が示す部分のトピック関与度は0になる。一方、発言インデックス「16」が示す部分のトピック関与度は1(=1/1)、発言インデックス「20」が示す部分のトピック関与度は0.5(=1/2)になる。
 なお、デフォルト値は、予め設定された定数ではなく、上述のモデル(入力箇所が分析対象トピックであるか否かを推定する予め作成されたモデル)が出力する確信度でもよい。
 また、発話が該当するトピックの数に応じて、トピック関与度に与える影響度合いを変化させてもよい。すなわち、上記式1で用いられる関数f(x)として、f(x)=x以外の広義単調増加関数を用いてもよい。ここで、広義単調増加関数とは、f(x)の定義域である任意の要素a、bに対し、a<bならば、常にf(a)≦f(b)となる関数のことである。例えば、トピックの数が増えるに従って、トピック関与度への影響度合いを増加させ、トピック関与度をより減少させたい場合、式1にf(x)=x2などの凸関数を用いてもよい。また、例えば、トピックの数が一つから複数になることのトピック関与度への影響は大きく考慮するが、トピック数が増えるに従い、トピック数の増加に対するトピック関与度への影響度合いを小さくする場合には、式1に、以下の式2に例示する凹関数を用いてもよい。
Figure JPOXMLDOC01-appb-I000001
 また、トピック関与度算出部43は、各発話のトピック関与度を、トピックの遷移境界への近さを利用して計算してもよい。これは、トピックの遷移境界に近いほど、トピックとトピックのつなぎになりやすいことを利用するものである。そこで、トピック関与度算出部43は、トピックの遷移境界に近いほど、トピックとトピックのつなぎになりやすい事を考慮して、トピックの遷移境界へ近いほど特定のトピックへ関与している度合い(トピック関与度)を減らすように計算してもよい。
 ここで、発話utのトピック関与度Topic_Degree(ut)は、発話utが分析対象トピックに該当しない場合は0、該当する場合は、以下に例示する式3を用いて算出される。
 Topic_Degree(ut)=Default×g(dis(ut))  (式3)
 ここで、式3に用いられるTopic_Degree(ut)及びDefaultは、上記式1について説明した内容と同様である。また、dis(ut)は、発話utとその発話から最も近いトピック遷移境界との距離を表す。関数g(x)は広義単調増加関数であり、広義単調増加関数であれば任意の関数を用いることができる。例えば、g(x)=1−1/(1+x)とした場合、トピック関与度算出部43は、発話utが分析対象トピックに該当する場合、トピック関与度Topic_Degree(ut)を以下に例示する式4で算出できる。
 Topic_Degree(ut)=Default×[1−1/(1+dis(ut))]  (式4)
 ここで、ある発話と最も近いトピック遷移境界を境界Aとする。このとき、dis(ut)は、例えば、発話utを含め、発話utとトピック境界Aとの間に存在する発話の数と定義できる。例えば、Default=1とし、定義したdis(ut)を用いた場合、図7に例示する発言インデックス「2」が示す部分は、分析対象トピック「処置」に該当しない。そのため、図7に例示する発言インデックス「2」が示す部分のトピック関与度は0になる。一方、発言インデックス「18」が示す部分のトピック関与度は0.75(=1×(1−1/(1+3)))、発言インデックス「20」が示す部分のトピック関与度は0.5(=1×(1−1/(1+1)))になる。
 なお、上記説明では、dis(ut)を、発話utを含め、発話utとトピック境界Aとの間に存在する発話の数と定義した。例えば、dis(ut)を、発話utを含め、発話utと境界Aとの間に存在する単語の数としてもよい。
 一方で、トピック関与度算出部43は、最も近いトピック遷移境界との距離が一定以上離れると、トピックのつなぎにはならないという性質を利用してトピック関与度を算出してもよい。ここでは、式3において、関数g(x)として、広義単調増加関数であり、かつ、g(x)の定義域である任意の要素xに対し、0≦xの時、0≦g(x)≦1となる関数を用いるものとする(式4は、この条件を満たす式の一例となっている)。また、人手や予備実験等により、一定距離以上離れたか否かを判定するための閾値を予め設定する。この場合、発話utのトピック関与度Topic_Degree(ut)は、発話utが分析対象トピックに該当しない場合は0と算出される。トピック関与度Topic_Degree(ut)は、発話utが分析対象トピックに該当し、dis(ut)が閾値以上の場合にDefaultとなる。また、トピック関与度Topic_Degree(ut)は、発話utが分析対象トピックに該当し、dis(ut)が閾値未満の場合、上述の式4を用いて算出される。
 例えば、Default=1、g(x)=1−1/(1+x)、閾値を2とした場合、図7に例示する発言インデックス「2」が示す部分は、分析対象トピック「処置」に該当しない。そのため、図7に例示する発言インデックス「2」が示す発言テキストのトピック関与度は0になる。また、発言インデックス「18」が示す発言テキストのトピック関与度は、発言インデックス「18」と最も近いトピック遷移境界との距離が3(閾値以上)なので、デフォルト値の1になる。また、発言インデックス「20」が示す発言トピックのトピック関与度は、発言インデックス「20」と最も近いトピック遷移境界との距離が1(閾値未満)なので、上述の式4を用いて、0.5(=1×(1−1/(1+1)))と計算される。
 また、トピック関与度算出部43は、各発話が該当する分析対象トピック以外のトピック数と、トピックの遷移境界への近さの両方を利用して各発話のトピック関与度を計算してもよい。具体的には、トピック関与度算出部43は、例えば、各発話が分析対象トピックに該当しない場合、トピック関与度を0としてもよい。トピック関与度算出部43は、各発話が分析対象トピックに該当する場合、上述の式1及び式3を組み合わせた以下に例示する式5を用いてトピック関与度を算出してもよい。なお、以下に例示する式5で用いられる各変数(項目)は、上記式1及び式3について説明した内容と同様である。
 Topic_Degree(ut)=Default×g(dis(ut))/f(topic(ut))  (式5)
 以上、図5に例示するステップA4において、トピック関与度を算出する方法について説明した。なお、トピック関与度算出部43が用いる算出方法や、その算出方法で用いる関数、閾値、パラメータなどの各種設定情報は、予め定められていてもよい。または、算出方法や各種設定情報は、ステップA2において、分析設定入力部20がユーザから受け付けてもよい。
 なお、分析(2)に例示する方法で分析を行う場合、トピック関与度算出部43は、入力テキスト集合の各テキストの各部分が分析対象トピック以外のトピックに関与している度合いを表すトピック関与度(すなわち、他のトピック関与度)を計算し、各部分に付与してもよい。トピック関与度算出部43は、他のトピック関与度を算出する方法として、上述したトピック関与度を算出する方法と同様の方法を用いてもよい。
 なお、ここまでの処理が、図5に例示するステップA4までの処理に対応する。
 続いて、トピック関与度補正特徴度計算部44は、図5に例示するステップA2において、ユーザから指定された分析対象トピック及び着目テキスト集合の情報を、分析管理部41を通じて受け取る。そして、トピック関与度補正特徴度計算部44は、図5に例示するステップA4において算出されたトピック関与度に応じて、ステップA3において生成した各要素について、着目テキスト集合に対する特徴度を補正する。
 なお、分析(2)に例示する方法で分析を行う場合、トピック関与度補正特徴度計算部44は、図5に例示するステップA4において算出された他のトピック関与度を用いて、各要素の特徴度を補正してもよい。
 以下、図5に例示するステップA5において出現度算出部45が行う処理、及び、ステップA6において特徴度計算部46が行う処理について、具体的に説明する。
 まず、出現度算出部45は、ステップA3において生成された各要素が分析対象トピックに該当する部分において出現する出現度合い(出現度)を算出する。出現度算出部45は、算出した出現度を、図5に例示するステップA4において算出されたトピック関与度に応じて補正する。本例では、出現度算出部45が算出及び補正する出現度の一例として、「出現数」を用いて説明する。また、補正方法の一例として、分析対象トピックに該当する部分で各要素が出現する出現数を、分析対象トピックのトピック関与度が高い部分に各要素が出現しているほど高くなるように補正する補正方法を説明する。
 本例では、ある要素が各箇所(部分)に1回出現した場合に、その箇所の出現数を1とする。補正しない通常の場合、ある要素が1回出現したら出現数は「1」になる。ここで、補正するとは、ある要素が1回出現した場合の出現数を「m(mは実数)」とし、m回出現したものと捉えることを意味する。以降の説明では、この補正を「出現数をmに補正する」と記す。
 まず、図5に例示するステップA4において付与されたトピック関与度が、分析対象トピックと正の相関がある場合について説明する。この場合、出現度算出部45は、例えば、要素の出現数を、元々の出現数(補正前の出現数)に、その要素が出現している箇所のトピック関与度を乗じた値に補正する。具体例として、まず、要素の単位とステップA4においてトピック関与度が付与された単位が同じ場合、もしくは、要素の単位の方が短い場合について説明する。この場合、出現度算出部45は、要素の出現数を、その要素が含まれる箇所のトピック関与度を乗じた値に補正する。
 例えば、図5に例示するステップA4において、トピック関与度が発話単位で付与されているとする。また、要素が入力テキストを単語単位で分割したものであるとする。補正しない通常の場合、例えば、図9に例示する「し−動詞」は、発言インデックス「17」が示す部分に1回出現したものと捉える。一方、出現度算出部45は、元々の出現数1に、発言インデックス「17」が示す部分に付与された、トピック関与度を乗じた値(例えば、「0.78=1×0.78」)の数だけ出現したものと捉える。
 次に、ステップA4においてトピック関与度が付与された単位よりも要素の単位の方が長い場合について説明する。この場合、要素が出現する箇所に付与されたトピック関与度は、複数存在することになる。出現度算出部45は、例えば、要素の出現数を、元々の出現数に、その要素の出現箇所に付与された複数のトピック関与度の平均値を乗じた値に補正してもよい。
 例えば、ステップA4において、トピック関与度が発話単位で付与されており、要素が発話単位であるとする。このとき、出現度算出部45は、発言インデックス「17」が示す発言テキストの出現数を、元々の出現数に、発言インデックス「17」が示す発言テキスト内の「し」、「た」、「けど」、「、」、「動か」、「ない」、「です」、「ね」、「。」の9個の単語に付与されたトピック関与度の平均値を乗じた値に補正する。
 また、出現度算出部45は、要素の出現数を、元々の出現数に、その要素の出現箇所に付与された複数のトピック関与度の最小値を乗じた値に補正してもよい。同様に、出現度算出部45は、要素の出現数を、元々の出現数に、その要素の出現箇所に付与された複数のトピック関与度の最大値を乗じた値に補正してもよい。
 また、ステップA4において、トピック関与度が付与された各部分に重要度の差がある場合、出現度算出部45は、要素の出現箇所に付与された複数のトピック関与度のうち、重要な部分に付与されたトピック関与度のみに着目し、上述の方法で補正してもよい。
 例えば、ステップA4において、トピック関与度が発話単位で付与されており、要素が発話単位であるとする。このとき、出現度算出部45は、発話中の各単語に付与されたトピック関与度のうち、付属語に付与されたトピック関与度ではなく、自立語に付与されたトピック関与度を用いて補正してもよい。また、例えば、ステップA4において、トピック関与度が文節単位で付与されており、要素が文単位であるとする。このとき、出現度算出部45は、文中の各文節に付与されたトピック関与度のうち、条件節に付与されたトピック関与度ではなく主節に付与されたトピック関与度を用いて補正してもよい。
 以下、補正方法の例についてさらに説明する。なお、トピック関与度が付与された単位と要素の単位が異なった場合については、上述の方法を用いて補正を行えばよい。
 例えば、出現度算出部45は、要素の出現数を補正するか否かを判定するための閾値を人手や予備実験等で予め定めておいてもよい。このとき、要素が出現している箇所のトピック関与度が閾値以上であった場合、出現度算出部45は、その要素の出現数を、元々の出現数の値(例えば、「1」)としてもよい。または、出現度算出部45は、その要素が出現している箇所のトピック関与度を元々の出現数に乗じた値に補正してもよい。同様に、要素が出現している箇所のトピック関与度が閾値未満であった場合、出現度算出部45は、その要素の出現数を「0」に補正してもよい。
 また、出現度算出部45は、要素の出現数を、元々の出現数に、要素が出現している箇所のトピック関与度を離散的に変換した値を乗じた値に補正してもよい。例えば、出現度算出部45は、トピック関与度を離散的に変換する方法として、人手等により予め設定された「if m≦トピック関与度<n than トピック関与度=k(k、m、nはいずれも実数)」のようなルールを用いてもよい。また、出現度算出部45は、上述のような複数のルールを用いてトピック関与度を離散的に変換してもよい。
 また、今まで説明してきた補正方法により補正された出現数の値が、0から1の範囲に収まっていない場合、出現度算出部45は、この値を0から1の範囲に正規化した値に要素の出現数を補正してもよい。例えば、補正した出現数が負の値を持つ場合、出現度算出部45は、最小の出現数の絶対値を全ての出現数に加算して、全ての出現数を0以上にする。そして、出現度算出部45は、全ての出現数を、最大の出現数の値で割ることにより、出現数の値を0から1へ正規化する。
 次に、図5に例示するステップA4において付与されたトピック関与度が、分析対象トピックと負の相関がある場合について説明する。この場合、出現度算出部45は、例えば、要素の出現数を、元々の出現数に、その要素が出現している箇所のトピック関与度の逆数を乗じた値に補正する。
 なお、図5に例示するステップA5において、出現度算出部45が行う補正方法や補正の際に用いられる閾値などの各種設定情報は、予め設定されていてもよい。または、補正方法や各種設定情報は、分析設定入力部20がユーザから受け付けてもよい。
 また、図5に例示するステップA5において、分析(2)に例示する方法で分析を行う場合を考える。この場合、出現度算出部45は、図5に例示するステップA4において算出された他のトピック関与度に応じて、各要素の分析対象トピック以外のトピックに該当する箇所で出現する出現数を補正してもよい。分析対象トピック以外のトピックに該当する部分で出現する要素の出現数の補正方法は、上述の分析対象トピックに該当する部分で出現する各要素の出現数の補正方法と同様である。
 なお、ここまで、補正し、算出する出現度として「出現数」を用いた場合の例を説明してきた。ただし、補正し、算出する出現度として、他の出現度(例えば「出現信頼度」)を用いてもよい。この場合も、上述の補正方法と同様の方法で、各要素の出現度を補正する事ができる。つまり、他の出現度を出現度として用いる場合、上述の補正方法における「出現数」を「他の出現度(例えば「出現信頼度」)」と読み替えればよい。
 なお、ここまでの処理が、図5に例示するステップA5までの処理に対応する。
 続いて、特徴度計算部46は、図5に例示するステップA5において出現度算出部45が算出した補正後の出現数を用いて、着目テキスト集合「オペレータAが対応したテキスト集合」に対する各要素の特徴度を計算する。
 図5に例示するステップA6において、例えば、分析(1)に例示する方法(すなわち、特徴度を計算する際に、分析対象トピックに該当する部分のみを用いる方法)で分析を行う場合、特徴度計算部46は、ステップA5において出現度算出部45が補正した出現数のうち、各要素の分析対象トピックに該当する部分において出現する出現数のみを特徴度の計算に用いればよい。
 一方、分析(2)に例示する方法(すなわち、特徴度を計算する際に、分析対象トピックに該当する部分に加え、分析対象トピック以外のトピックに該当する部分も用いる方法)で分析を行ってもよい。この場合、特徴度計算部46は、図5に例示するステップA5において出現度算出部45が補正した出現数のうち、各要素の分析対象トピックに該当する部分において出現する出現数と、分析対象トピック以外のトピックに該当する部分において出現する出現数とを特徴度の計算に用いればよい。
 特徴度を算出する際に用いられる指標や計算方法は、一般的なテキストマイニングに用いられる指標や計算方法と同様である。例えば、特徴度計算部46は、特徴度の指標として、出現頻度や、χ二乗値、SCや、ESCなどを用いてもよい。
 また、図5に例示するステップA5において補正された出現数の値が0から1に正規化されていない場合にもかかわらず、図5に例示するステップA6において特徴度の指標を計算する際に、出現数として取り得る値の範囲が1以下であることを前提としている場合がある。この場合、特徴度計算部46は、図5に例示するステップA5で補正された出現数を0から1の値に正規化し、正規化後の値を用いて特徴度を計算すればよい。特徴度計算部46は、出現数を正規化する方法として、例えば、図5に例示するステップA5において出現度算出部45が出現数を正規化する方法を用いてもよい。
 なお、図5に例示するステップA6において、特徴度計算部46が行う特徴度の計算方法や特徴度の指標などの各種設定情報は、予め設定されていてもよい。または、計算方法や各種設定情報は、分析設定入力部20がユーザから受け付けてもよい。
 なお、ここまでの処理が、図5に例示するステップA6までの処理に対応する。
 最後に、出力部30は、図5に例示するステップA6において計算された特徴度をもとに、着目テキスト集合「オペレータAが対応したテキスト集合」の特徴的な要素を出力する。出力部30は、例えば、特徴度が人手等により予め設定された閾値以上になった要素を特徴的な要素と決定し、その要素を出力してもよい。他にも、出力部30は、特徴度の高い順で要素を並び替え、上位n件(nは、ユーザ等により予め定められた値)の要素を特徴的な要素と決定してもよい。
 図14及び図15は、出力部30が出力する出力例を示す説明図である。出力部30は、例えば、図14に例示するように、特徴的と判定された要素のみを出力してもよく、図15に例示するように、特徴的と判定された要素と、その要素の特徴度の組を出力してもよい。
 また、出力部30は、特徴的と判定された要素だけでなく、図5に例示するステップA3において言語処理部42が生成した全要素について、要素と特徴度の組を出力してもよい。また、出力部30は、特徴度に応じて並び替えた出力順で特徴度を出力してもよいし、特徴度にこだわらず(すなわち、並び替えず)に出力してもよい。
 なお、図5に例示するステップA7において、出力部30が出力する方法や、出力の際に用いられる閾値や変数などの各種設定情報は、予め設定されていてもよい。出力する方法や各種設定情報は、分析設定入力部20がユーザから受け付けてもよい。
 なお、ここまでの処理が、図5に例示するステップA7までの処理に対応する。
 なお、図5に例示するステップA2において、分析設定入力部20が、テキストマイニングの処理手順として指定された分析対象ごとに処理を繰り返す旨の指示を受け付けてもよい。この場合、分析管理部41が分析設定入力部20からテキストマイニングの処理手順を受け取り、言語処理部42、トピック関与度算出部43、トピック関与度補正特徴度計算部44(より詳しくは、出現度算出部45と、特徴度計算部46)を管理することで、指示された処理手順通りにそれぞれの構成部が各処理を実行する。
 以下、ユーザが、コールセンターで顧客とオペレータの間でなされた通話を対象に分析を行う場合を例に挙げて説明する。ここでは、ユーザが、まず、トピック「処置」の部分に限定して、オペレータAに最も特徴的な単語を求める処理(以下、この処理を分析B1と記す。)が予め設定されているとする。また、分析B1の後、トピック「連絡方法」の部分に限定して、分析B1で求めた最も特徴的な単語を含む文書集合に特徴的な単語を求める処理(以下、この処理を分析B2と記す。)が予め設定されているものとする。
 まず、分析管理部41は、入力テキスト(コールセンターでの顧客とオペレータでなされた通話テキスト)全体に対して、図5に例示するステップA3で行われる処理を行うよう、言語処理部42に指示する。具体的には、分析管理部41は、テキストマイニングの対象の各テキストに言語処理を行い、要素を生成するよう、言語処理部42に指示する。
 次に、分析管理部41は、分析対象トピックを「処置」として、図5に例示するステップA4で行われる処理、及び、図5に例示するステップA5で行われる処理を行うよう、トピック関与度算出部43、及び、出現度算出部45に指示する。具体的には、分析管理部41は、分析対象トピック「処理」に対するトピック関与度を計算するよう、トピック関与度算出部43に指示する。そして、分析管理部41は、分析対象トピック「処置」に該当する部分で出現する各単語の出現度を算出させ、算出させた出現度をトピック関与度に応じて補正するよう、出現度算出部45に指示する。
 そして、分析管理部41は、着目テキスト集合を「オペレータAが対応したテキスト集合」として、図5に例示するステップA6で行われる処理を行うよう、特徴度計算部46に指示する。具体的には、分析管理部41は、各単語の着目テキスト集合「オペレータAが対応したテキスト集合」に対する特徴度を特徴度計算部46に計算させる。このようにして、分析B1が行われる。
 続いて、分析管理部41は、分析対象トピックを「連絡方法」として、図5に例示するステップA4で行われる処理、及び、図5に例示するステップA5で行われる処理を行うよう、トピック関与度算出部43、及び、出現度算出部45に指示し、分析対象トピック「連絡方法」に該当する部分で出現する各単語の出現度を求めさせる。
 そして、分析管理部41は、着目テキスト集合を「分析B1で求めたオペレータAに最も特徴的な単語を含むテキスト集合」として、図5に例示するステップA6で行われる処理を行うよう、特徴度計算部46に指示する。このようにして、分析B2が行われる。
 このような処理手順を、分析設定入力部20が受け付けることにより、分析者は、分析の軸を変えながらテキストマイニングを試行する事が可能になる。
 次に、本実施例による効果について説明する。本実施例によれば、図5に例示するステップA5において、出現度算出部45は、分析対象トピック「処置」に該当する部分で入力テキスト内の各要素が出現する出現度を算出する。出現度算出部45は、その要素が出現した発話に付与された分析対象トピックに関与しているトピック関与度に応じて出現度を補正する。
 また、例えば、上記ステップA5に該当する処理として説明した補正方法によれば、トピック「処置」に深く関わるといえる、図6に例示する発言インデックス「16」が示す部分など、トピック「処置」の分析において重要な部分に出現する要素の出現数は、大きくなるように補正される。その一方で、トピック間のつなぎといえる、トピック「処置」の分析において比較的重要でない発言インデックス「20」が示す部分に出現する要素の出現数は、小さくなるように補正される。
 そして、図5に例示するステップA6において、特徴度計算部46が、その補正した値を用いて特徴度を計算する。そのため、要素の出現部分が分析対象トピック「処置」に関与している度合いに応じて入力テキスト内の各要素の特徴度を補正できる。つまり、分析者は、分析対象トピック「処置」に関与している度合いに応じたテキストマイニングができる。従って、分析者は、分析対象トピック「処置」を対象としたテキストマイニングを精度良くおこなう事ができる。
 次に、本発明によるテキストマイニング装置の最小構成の例を説明する。図16は、本発明によるテキストマイニング装置の最小構成を示すブロック図である。本発明によるテキストマイニング装置は、分析対象のテキストの集合である着目テキスト集合中にそのテキストの要素が出現する程度を示す指標である特徴度を算出する要素特定部81(例えば、トピック関与度補正特徴度計算部44)と、算出された特徴度をもとに、その着目テキスト集合中の特徴的な要素を特定する(例えば、特徴度のうち、より特徴度の高い要素を、特徴的な要素と特定する)出力部30と、を備えている。
 要素特定部81は、分析対象のテキストを所定の単位(例えば、発話単位)で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度(例えば、トピック関与度)に基づいて、特徴度を補正する(例えば、トピック関与度の高い部分に要素が出現しているほどより高く補正した出現度をもとに特徴度を算出する)。そのような構成により、本発明によるテキストマイニング装置は、特定のトピックを対象としたテキストマイニングを精度良く行うことができる。
 なお、要素特定部81が、分析対象トピックに対応する部分テキストに要素が出現する度合いを示す出現度を算出し(例えば、要素が多く出現しているほどより大きな値になるように出現度を算出し)、特徴度を算出する際、トピック関連度(例えば、トピック関与度)の高い部分テキストに要素が出現しているほど出現度をより高く補正する出現度算出部(例えば、出現度算出部45)と、補正された出現度を用いて特徴度を計算し(例えば、「SC」や「ESC」、「χ二乗値」などを計算し)、補正された出現度を用いて計算された特徴度をもとに、(例えば、閾値以上の特徴度をもつ要素や上位n件の要素を)着目テキスト集合中の特徴的な要素を特定する特徴度計算部(例えば、特徴度計算部46)を含んでいてもよい。このような構成によっても、本発明によるテキストマイニング装置は、特定のトピックを対象としたテキストマイニングを精度良く行うことができる。
 なお、本発明のプログラム記録媒体は、上述の実施形態で説明した各動作を、コンピュータに実行させるプログラムを格納した記録媒体であれば良い。本発明に係るテキストマイニング装置は、CPUが、上記において記憶部50として説明したメモリ又はHDD等の記憶媒体に記憶されているプログラムを実行することにより実現されても良い。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は以上の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で同業者が理解し得る様々な変更をすることができる。
 この出願は、2009年12月10日に出願された日本出願特願2009−280558を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、特定のトピックを対象にテキストマイニングを行う場合に好適に適用できる。特に、本発明は、入力テキスト集合の各テキストが複数のトピックを含み、複数のトピックに該当する部分がテキスト中に存在する場合に効果を発揮する。例えば、本発明は、コールセンターの通話音声を音声認識した結果得られるテキストやその書き起こしテキストの集合を入力テキスト集合として、特定のトピックを対象にテキストマイニングを行う場合に効果を発揮する。また、本発明は、会議音声を音声認識した結果得られるテキストやその書き起こしのテキストの集合を入力テキスト集合として、特定のトピックを対象にテキストマイニングを行う場合にも効果を発揮する。また、本発明は、店頭販売での店員と顧客のやり取りを音声認識した結果得られるテキストやその書き起しテキストの集合を入力テキスト集合として、特定のトピックを対象にテキストマイニングを行う場合にも効果を発揮する。また、本発明は、ウェブ上のBBS(Bulletin Board System:電子掲示板)の集合を入力テキスト集合として、特定のトピックを対象にテキストマイニングを行う場合にも効果を発揮する。
 10 データ入力部
 20 分析設定入力部
 30 出力部
 40 コンピュータ
 41 分析管理部
 42 言語処理部
 43 トピック関与度算出部
 44 トピック関与度補正特徴度計算部
 45 出現度算出部
 46 特徴度計算部
 50 記憶部

Claims (11)

  1.  分析対象のテキストの集合である着目テキスト集合中に当該テキストの要素が出現する程度を示す指標である特徴度を算出し、
     特徴度を算出する際、分析対象のテキストを所定の単位で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度に基づいて、前記特徴度を補正する要素特定部と、
     前記特徴度をもとに、前記着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する出力部と、
     を含むテキストマイニング装置。
  2.  前記要素特定部は、
     分析対象トピックに該当する部分テキストに要素が出現する度合いを示す出現度を算出する出現度算出部と、
     特徴度を算出する際、トピック関連度の高い部分テキストに前記要素が出現しているほど前記出現度をより高く補正し、補正された出現度を用いて特徴度を計算する特徴度計算部と、
     を含み、
     前記出力部は、補正された出現度を用いて計算された特徴度をもとに、着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する
     請求項1に記載のテキストマイニング装置。
  3.  前記トピック関連度を算出するトピック関与度算出部をさらに含む
     請求項1または2に記載のテキストマイニング装置。
  4.  前記トピック関与度算出部は、部分テキストごとに前記トピック関連度を算出する
     請求項3に記載のテキストマイニング装置。
  5.  前記トピック関与度算出部は、トピック関連度を算出する際、部分テキストが分析対象トピックであるか否かを推定するモデルに基づいて、部分テキストが分析対象トピックである確信度合いを示す確信度を算出し、当該確信度をトピック関連度として算出する
     請求項4に記載のテキストマイニング装置。
  6.  前記トピック関与度算出部は、トピック関連度を算出する際、部分テキストが分析対象トピック以外のトピックに多く該当するほど、トピック関連度をより小さく算出する
     請求項4または請求項5記載のテキストマイニング装置。
  7.  前記トピック関与度算出部は、トピック関連度を算出する際、部分テキストのトピックの遷移境界に近いほど、トピック関連度をより小さく算出する
     請求項4から請求項6のうちのいずれか1項に記載のテキストマイニング装置。
  8.  前記要素特定部は、nを自然数としたときに、分析対象のテキストの要素として、当該テキストの単語、単語nグラム、文節、もしくはこれらの係り受け、またはこれらのn連続の係り受け、または、構文木の部分木の単位で分割した各要素、もしくはこれらの要素を組み合わせた各要素が着目テキスト集合中に出現する特徴度を算出する
     請求項1から請求項7のうちのいずれか1項に記載のテキストマイニング装置。
  9.  前記要素特定部は、特徴度として、着目テキスト集合中に分析対象のテキストの要素が出現する頻度もしくは偏りを示す指標を算出する
     請求項1から請求項8のうちのいずれか1項に記載のテキストマイニング装置。
  10.  分析対象のテキストの集合である着目テキスト集合中に当該テキストの要素が出現する程度を示す指標である特徴度を算出し、
     特徴度を算出する際、分析対象のテキストを所定の単位で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度に基づいて、前記特徴度を補正し、
     前記特徴度をもとに、前記着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する、
     テキストマイニング方法。
  11.  コンピュータに、
     分析対象のテキストの集合である着目テキスト集合中に当該テキストの要素が出現する程度を示す指標である特徴度を算出し、
     特徴度を算出する際、分析対象のテキストを所定の単位で分割した各部分テキストが分析の対象とするトピックである分析対象トピックに関連する度合いを示す値であるトピック関連度に基づいて、前記特徴度を補正し、
     前記特徴度をもとに、前記着目テキスト集合中の特徴的な要素を特定し、特定した要素を出力する、
     処理を実行させるテキストマイニングプログラムを格納したプログラム記録媒体。
PCT/JP2010/072310 2009-12-10 2010-12-07 テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム WO2011071174A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/511,504 US9135326B2 (en) 2009-12-10 2010-12-07 Text mining method, text mining device and text mining program
JP2011545274A JPWO2011071174A1 (ja) 2009-12-10 2010-12-07 テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009280558 2009-12-10
JP2009-280558 2009-12-10

Publications (1)

Publication Number Publication Date
WO2011071174A1 true WO2011071174A1 (ja) 2011-06-16

Family

ID=44145716

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/072310 WO2011071174A1 (ja) 2009-12-10 2010-12-07 テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム

Country Status (3)

Country Link
US (1) US9135326B2 (ja)
JP (1) JPWO2011071174A1 (ja)
WO (1) WO2011071174A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016081412A (ja) * 2014-10-21 2016-05-16 日本電気株式会社 情報処理システム、情報処理プログラム、及び、情報処理方法
WO2020044558A1 (ja) * 2018-08-31 2020-03-05 富士通株式会社 分類規則生成プログラム、分類規則生成方法および分類規則生成装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5940135B2 (ja) * 2014-12-02 2016-06-29 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 話題提示方法、装置及びコンピュータ・プログラム。
JP6794921B2 (ja) * 2017-05-01 2020-12-02 トヨタ自動車株式会社 興味判定装置、興味判定方法、及びプログラム
CN112069394B (zh) * 2020-08-14 2023-09-29 上海风秩科技有限公司 文本信息的挖掘方法及装置
CN112101030B (zh) * 2020-08-24 2024-01-26 沈阳东软智能医疗科技研究院有限公司 建立术语映射模型、实现标准词映射的方法、装置及设备
US11876633B2 (en) * 2022-04-30 2024-01-16 Zoom Video Communications, Inc. Dynamically generated topic segments for a communication session

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146461A (ja) * 2006-12-12 2008-06-26 Yahoo Japan Corp 会話記録ブログ化装置
JP2008204274A (ja) * 2007-02-21 2008-09-04 Nomura Research Institute Ltd 会話解析装置および会話解析プログラム
JP2008278088A (ja) * 2007-04-27 2008-11-13 Hitachi Ltd 動画コンテンツに関するコメント管理装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
US5875446A (en) * 1997-02-24 1999-02-23 International Business Machines Corporation System and method for hierarchically grouping and ranking a set of objects in a query context based on one or more relationships
JP3918374B2 (ja) * 1999-09-10 2007-05-23 富士ゼロックス株式会社 文書検索装置および方法
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US20020065857A1 (en) * 2000-10-04 2002-05-30 Zbigniew Michalewicz System and method for analysis and clustering of documents for search engine
US7269546B2 (en) * 2001-05-09 2007-09-11 International Business Machines Corporation System and method of finding documents related to other documents and of finding related words in response to a query to refine a search
JP2003016106A (ja) 2001-06-29 2003-01-17 Fuji Xerox Co Ltd 関連度値算出装置
US20030204496A1 (en) * 2002-04-29 2003-10-30 X-Mine, Inc. Inter-term relevance analysis for large libraries
US7243105B2 (en) * 2002-12-31 2007-07-10 British Telecommunications Public Limited Company Method and apparatus for automatic updating of user profiles
CN1629834A (zh) * 2003-12-17 2005-06-22 国际商业机器公司 计算机辅助写作、电子文档的浏览、检索和预订发布
US7596571B2 (en) * 2004-06-30 2009-09-29 Technorati, Inc. Ecosystem method of aggregation and search and related techniques
JP2006031198A (ja) 2004-07-14 2006-02-02 Nec Corp テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそのプログラム
US8396864B1 (en) * 2005-06-29 2013-03-12 Wal-Mart Stores, Inc. Categorizing documents
US7739294B2 (en) * 2006-01-12 2010-06-15 Alexander David Wissner-Gross Method for creating a topical reading list
US7769751B1 (en) * 2006-01-17 2010-08-03 Google Inc. Method and apparatus for classifying documents based on user inputs
JP2007241348A (ja) 2006-03-06 2007-09-20 Advanced Telecommunication Research Institute International 用語収集装置、およびプログラム
US8201107B2 (en) * 2006-09-15 2012-06-12 Emc Corporation User readability improvement for dynamic updating of search results
CA2572116A1 (en) * 2006-12-27 2008-06-27 Ibm Canada Limited - Ibm Canada Limitee System and method for processing multi-modal communication within a workgroup
US20090282028A1 (en) * 2008-09-23 2009-11-12 Michael Subotin User Interface and Method for Web Browsing based on Topical Relatedness of Domain Names

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008146461A (ja) * 2006-12-12 2008-06-26 Yahoo Japan Corp 会話記録ブログ化装置
JP2008204274A (ja) * 2007-02-21 2008-09-04 Nomura Research Institute Ltd 会話解析装置および会話解析プログラム
JP2008278088A (ja) * 2007-04-27 2008-11-13 Hitachi Ltd 動画コンテンツに関するコメント管理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016081412A (ja) * 2014-10-21 2016-05-16 日本電気株式会社 情報処理システム、情報処理プログラム、及び、情報処理方法
WO2020044558A1 (ja) * 2018-08-31 2020-03-05 富士通株式会社 分類規則生成プログラム、分類規則生成方法および分類規則生成装置
JPWO2020044558A1 (ja) * 2018-08-31 2021-04-30 富士通株式会社 分類規則生成プログラム、分類規則生成方法および分類規則生成装置
JP7044162B2 (ja) 2018-08-31 2022-03-30 富士通株式会社 分類規則生成プログラム、分類規則生成方法および分類規則生成装置

Also Published As

Publication number Publication date
US20120284016A1 (en) 2012-11-08
JPWO2011071174A1 (ja) 2013-04-22
US9135326B2 (en) 2015-09-15

Similar Documents

Publication Publication Date Title
CN110765244B (zh) 获取应答话术的方法、装置、计算机设备及存储介质
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US10303683B2 (en) Translation of natural language questions and requests to a structured query format
US9236047B2 (en) Voice stream augmented note taking
WO2011071174A1 (ja) テキストマイニング方法、テキストマイニング装置及びテキストマイニングプログラム
Mairesse et al. Phrase-based statistical language generation using graphical models and active learning
JP5440815B2 (ja) 情報分析装置、情報分析方法、及びプログラム
US10754886B2 (en) Using multiple natural language classifier to associate a generic query with a structured question type
US10748528B2 (en) Language model generating device, language model generating method, and recording medium
WO2010023938A1 (ja) テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体
JP2012083543A (ja) 言語モデル生成装置、その方法及びそのプログラム
CN111326144B (zh) 语音数据处理方法、装置、介质和计算设备
CN112836016B (zh) 会议纪要生成方法、装置、设备和存储介质
CN111161730B (zh) 语音指令匹配方法、装置、设备及存储介质
WO2010023939A1 (ja) テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体
JP4653598B2 (ja) 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
JP2018181259A (ja) 対話ルール照合装置、対話装置、対話ルール照合方法、対話方法、対話ルール照合プログラム、及び対話プログラム
CN114444491A (zh) 新词识别方法和装置
JP2008165718A (ja) 意図判定装置、意図判定方法、及びプログラム
KR102445172B1 (ko) 질의 해석 방법 및 장치
US20220405488A1 (en) Providing a well-formed alternate phrase as a suggestion in lieu of a not well-formed phrase
JP3737817B2 (ja) 表現変換方法及び表現変換装置
Al-Anzi et al. Exploring the language modeling toolkits for Arabic text
CN114707489A (zh) 标注数据集获取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10836093

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011545274

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13511504

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10836093

Country of ref document: EP

Kind code of ref document: A1