WO2009113457A1 - テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムおよび記録媒体 - Google Patents

テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムおよび記録媒体 Download PDF

Info

Publication number
WO2009113457A1
WO2009113457A1 PCT/JP2009/054300 JP2009054300W WO2009113457A1 WO 2009113457 A1 WO2009113457 A1 WO 2009113457A1 JP 2009054300 W JP2009054300 W JP 2009054300W WO 2009113457 A1 WO2009113457 A1 WO 2009113457A1
Authority
WO
WIPO (PCT)
Prior art keywords
difference
document data
extracted
text mining
elements
Prior art date
Application number
PCT/JP2009/054300
Other languages
English (en)
French (fr)
Inventor
開 石川
晃裕 田村
真一 安藤
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2010502791A priority Critical patent/JP5459203B2/ja
Priority to US12/919,463 priority patent/US8452782B2/en
Publication of WO2009113457A1 publication Critical patent/WO2009113457A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Definitions

  • the present invention relates to a text mining apparatus, a text mining method, a text mining program, and a recording medium on which the program is recorded. Specifically, the present invention relates to text mining focusing on differences between related document data.
  • Patent Document 1 and Patent Document 2 disclose a technique for analyzing a questionnaire response document by text mining. Document analysis that extracts feature words that appear frequently in a lot of questionnaire response document data or extracts related words that appear with high correlation with a specific word by such text mining Can be used for marketing.
  • An object of the present invention is to provide a text mining apparatus, a text mining method, a text mining program, and a recording medium on which this program is recorded, which appropriately performs analysis on differences between a plurality of related document data.
  • the text mining device of the present invention includes an element extraction unit that extracts a language element from each of two or more related document data, and the document data by comparing the elements extracted by the element extraction unit between the document data. And a statistical processing unit that performs statistical processing on the difference extracted by the difference processing unit.
  • the table which shows the result of having extracted the difference block without a corresponding element The data table which recorded the non-corresponding difference block in 3rd Embodiment.
  • the figure which shows the structure of 4th Embodiment. The flowchart which shows the procedure of the text mining method in 4th Embodiment.
  • the table which shows the result of having extracted the difference element The example of the data table which recorded the difference element in 4th Embodiment.
  • the table which shows the difference score calculated for every difference element The data table which recorded the difference element and the difference score in 5th Embodiment.
  • FIG. 1 is a diagram showing a configuration of a first embodiment according to a text mining device 100 of the present invention.
  • the text mining apparatus 100 includes an input unit 110 that inputs document data to be text mined, an analysis unit 120 that analyzes the input document data and performs text mining, and an output unit 180 that outputs the analysis result. It is equipped with.
  • the input unit 110 may be, for example, a keyboard, a voice recognition microphone, a scanner, or a drive device for reading data stored in an external storage medium.
  • the target of text mining processing is a plurality of related document data, and the number of document data is not particularly limited.
  • the number of document data is not particularly limited.
  • a case where a set of two related document data is input from the input unit 110 as an object of text mining will be described as an example. Data.
  • the analysis unit 120 temporarily stores document data input from the input unit 110, and performs language processing on the document data stored in the input data storage unit 130 as a text component.
  • An element extraction unit 140 that extracts independent words, a difference processing unit 150 that extracts differences between document data, a difference data storage unit 160 that temporarily buffers difference processed data, and statistical processing on the extracted differences And a statistical processing unit 170 to perform.
  • the input data storage unit 130 temporarily stores and saves data (first document data and second document data) input from the input unit 110.
  • the element extraction unit 140 performs natural language processing on the first document data and the second document data and extracts the constituent elements of the sentence.
  • the element extracted by the element extraction unit 140 is at least one of a character string, a word, a character N-gram, a word N-gram, a syntax structure, a partial structure of a syntax structure, and a sentence included in the document data.
  • a case where an independent word is extracted will be described as an example.
  • the difference processing unit 150 compares the elements extracted from each of the two document data and associates the elements between the two documents with each other, and the element association unit 151 performs correspondence.
  • a difference element extraction unit 152 that extracts an element that does not have a pair of elements as a difference element.
  • the element association unit 151 compares the elements of the two documents extracted by the element extraction unit 140. Then, the elements having the same, similar, synonymous, and similar relationships are associated with each element of the two documents.
  • the difference element extraction unit 152 extracts a difference element that does not have a corresponding element between two pieces of document data in the association by the element association unit 151. Furthermore, as a difference between two document data, when attention is paid to an element that exists in one document data but does not exist in the other document data, it corresponds to the second document data that is an element of the first document data. That do not have an element to extract is extracted as a difference element.
  • the difference data storage unit 160 temporarily buffers the extracted difference before statistical processing.
  • First document data and second document data which are pairs of document data associated with each other, are input one after another from the input unit 110, and after being subjected to difference processing, are accumulated in the difference data storage unit 160.
  • the statistical processing unit 170 performs statistical processing on the extracted difference element.
  • An example of such statistical processing is extended stochastic complexity.
  • the output unit 180 is configured with a printer, a monitor, and the like, and displays the processing result by the statistical processing unit 170.
  • FIG. 2 is a flowchart showing the procedure of the text mining method in the present embodiment.
  • text mining first, document data to be text mined is input from the input unit 110 (input process, ST100).
  • a set of document data whose difference should be noted is input.
  • An example of a set of document data that should pay attention to the difference is, for example, a related document created by a different method for one target.
  • Such related documents include a common part and a difference part that is included in one document data but not included in the other document data. In some cases, this difference part has valuable information.
  • the call center is responsible for sales of products by telephone reception, but in recent years it has become an important department in strategic marketing not only by telephone reception but also by building a database of customer information based on the response results.
  • customer records are recorded with raw data such as call voice records, faxes, and e-mails using telephone and fax functions integrated in computers, and customer correspondence is also provided in the form of report documents created by operators.
  • FIG. 3 is an example of a voice call record
  • FIG. 4 is an example of a report document.
  • the report document is prepared in a concise form at the discretion of the operator, becomes a highly useful document that includes the main contents in customer service, and this information is usually sufficient.
  • the call voice record (FIG. 3) is input as the first document data from the input unit 110, and the report document (FIG. 4) is input as the second document data.
  • Document data input in the input step (ST100) is stored in the input data storage unit 130 (input data storage step ST110). At this time, a call voice record and a report document having the same reception index are stored as a set.
  • the data stored in the input data storage unit 130 is output to the element extraction unit 140 for each set, and elements are extracted using the element extraction unit 140 (element extraction step ST120).
  • element a word is extracted, and in particular, an independent word is extracted from a morpheme obtained by morpheme analysis.
  • elements are extracted from the customer speech for call voice recording.
  • FIG. 5 shows the result of element extraction for the call voice recording
  • FIG. 6 shows the result of element extraction for the report document.
  • the extracted elements are output to the element associating unit 151 for each document data, and associating with each element is performed between documents of the same set (element associating step ST130). That is, elements having the same, similar, synonymous, and similar relationships are associated with each other.
  • an existing method can be used as a method of associating elements with each other.
  • a synonym dictionary may be used, or the correspondence a can be obtained from the relationship in which the report document corresponds to the abstract of the call voice recording. That is, if the set of elements extracted from the customer speech in the call voice recording is D and the set of elements extracted from the report document is R, the set R is an abstract of the set D.
  • difference element extraction unit 152 extracts the difference element (difference element extraction step ST140).
  • difference element extraction step ST140 difference element extraction step.
  • elements of call voice recording that do not have corresponding elements in the report document are extracted as difference elements.
  • FIG. 8 is a table of elements extracted as difference elements.
  • the elements extracted by the difference element extraction unit 152 are output to the difference data storage unit 160 and temporarily buffered (difference data storage step ST150). At this time, the extracted difference elements are arranged in a data table together with related factors such as a reception index, a person in charge, a customer name, and an ordered product.
  • FIG. 9 is an example of a data table in which differences are recorded.
  • FIG. 10 is an example of the result of statistical processing of the difference data regarding the customer who purchased the product MP32-Y. Such statistical results are output from the output unit 180 and displayed on a print output by a printer or a monitor (output step ST170).
  • the present embodiment employs a configuration in which a difference between two document data is extracted and statistical processing is performed on the difference data. Therefore, information that cannot be extracted by conventional text mining can be extracted. For example, useful information such as “white is good”, “yellow is good”, “green is good” that many customers say when ordering colors can be dug up.
  • FIG. 11 is a diagram illustrating a configuration of the second embodiment.
  • the difference processing unit 250 includes an element association unit 151, a difference element extraction unit 152, and a difference block extraction unit 153.
  • the difference block extraction unit 153 receives the difference element extracted by the difference element extraction unit 152, and includes the difference element by comparing the difference element with the document data stored in the input data storage unit 130. Extract large elements as difference blocks.
  • the difference block extraction unit extracts a syntax structure or a partial structure of the syntax structure as a unit of the difference block.
  • FIG. 12 is a flowchart showing the procedure of the text mining method according to the second embodiment.
  • the difference element extraction step ST240
  • the difference elements between the call voice recording and the report document are extracted, and the table of FIG. 8 is obtained.
  • a sentence including the difference element extracted as described above is extracted from the call voice record as a difference block (difference block extraction step ST250).
  • the original voice call record including these elements has speech indexes of 4, 5, 9, 16, and 17 (see FIG. 3). Therefore, the speech indexes 4, 5, 9, 16, and 17 are extracted as difference blocks.
  • FIG. 13 is a data table of differential blocks extracted in this way.
  • the difference block extracted in this way is buffered in the difference data storage unit 160 (difference data storage step ST260).
  • the data of the difference block is organized in a data table together with related factors such as a reception index, a person in charge, a customer name, and an ordered product.
  • FIG. 14 is an example of a data table in which differences are recorded.
  • the statistical processing is performed on the difference data collected in this way by the statistical processing unit 170 (statistical processing step ST160) and is output to the output unit 180 (output step ST170).
  • the difference information can be picked up without omission and accurate and accurate difference data can be obtained. it can. Then, by performing statistical processing on the difference data thus obtained, it is possible to more accurately extract important information that has been buried in the past.
  • FIG. 15 is a diagram illustrating a configuration of the third embodiment.
  • the difference processing unit 350 includes an element association unit 151, a difference element extraction unit 152, a difference block extraction unit 153, a corresponding element extraction unit 154, and an uncorresponding difference block extraction unit 155.
  • the element association unit 151, the difference element extraction unit 152, and the difference block extraction unit 153 have the same configuration as described in the above embodiment.
  • the difference block extraction unit 153 extracts a block (sentence) including a difference element.
  • the corresponding element extraction unit 154 extracts elements having elements corresponding to each other from the data of the elements associated by the element association unit 151.
  • the non-corresponding difference block extracting unit 155 deletes the difference block extracted by the difference block extracting unit 153 from the difference block containing the corresponding element extracted by the corresponding element extracting unit 154 and has no corresponding element. Just extract.
  • FIG. 16 is a flowchart showing the procedure of the text mining method according to the third embodiment.
  • the difference block extraction step (ST333) the difference block including the difference element is extracted, and the difference block table shown in FIG. 13 is obtained. Further, when the table of FIG. 7 is obtained by the association (ST331) by the element association unit 151, those having elements corresponding to each other are extracted from the table (FIG. 7) by the corresponding element extraction unit 154 ( Corresponding element extraction step, ST334). When a table having corresponding elements is extracted from the table shown in FIG. 7, the table shown in FIG. 17 is obtained. Then, the block having the corresponding element (FIG. 17) is deleted from the difference block table (FIG. 13), and a block having no corresponding element is extracted (uncorresponding block extracting step ST335). Then, only the block of the statement index 16 is extracted as a difference block with no corresponding element (FIG. 18).
  • the difference block without corresponding element extracted in this way is buffered in the difference data storage unit 160 (difference data storage step ST340).
  • the data of the difference block is organized in a data table together with related factors such as a reception index, a person in charge, a customer name, and an ordered product.
  • FIG. 19 is an example of a data table in which unmatched difference blocks are recorded.
  • the statistical processing unit 170 performs statistical processing on the data of the non-corresponding difference block collected in this way (statistic processing step ST350), and outputs it to the output unit 180 (output step ST360).
  • the difference between the two is extracted as a difference block without any deficiency, and further, only those having no corresponding element are extracted.
  • the included differences can be extracted accurately and accurately. Then, by performing statistical processing on the uncorresponding difference block extracted in this way, important information that has been buried in the past can be extracted more accurately.
  • FIG. 20 is a diagram illustrating the configuration of the fourth embodiment.
  • the difference processing unit 450 includes a difference score calculation unit 156 and a difference element extraction unit 157.
  • the difference score calculation unit calculates a difference score representing the likelihood of difference for each element in the first document data. That is, when each element is extracted from the first document data and the second document data by the element extraction unit 140, the first document data is compared with the elements of the first document data and the elements of the second document data.
  • a difference score (d) for an arbitrary element d in the first document data is defined by the following equation (1).
  • is a positive integer.
  • D is the probability that the element d appears in the first document data
  • R i is the probability that the element r i appears in the second document data
  • I (D; R i ) is the random variables D and R Mutual information amount with i .
  • a difference score threshold for extracting a difference element is set in the difference element extraction unit 157, and the difference element extraction unit 157 selects an element whose difference score calculated by the difference score calculation unit 156 is equal to or greater than the threshold. Extract as a difference element.
  • FIG. 21 is a flowchart showing the procedure of the text mining method according to the fourth embodiment.
  • the difference score calculation unit calculates a difference score for each element (FIG. 5) during the voice call recording (difference score calculation step, ST430).
  • the difference score is calculated using the above equation (1) for an arbitrary element d during call voice recording.
  • is set to 100 and a difference score is calculated for each element during call voice recording, data of the difference score shown in FIG. 22 is obtained.
  • the calculated difference score data is output to the difference element extraction unit 157, and a difference element is extracted based on the difference score (difference element extraction step ST440). That is, an element whose difference score is greater than or equal to the threshold is extracted as a difference element.
  • the difference threshold is set to 0.5, a difference element is extracted as shown in FIG.
  • difference data storage step ST450 The difference elements extracted in this way are buffered in the difference data storage unit 160 (difference data storage step ST450).
  • the data of the difference element is organized in a data table together with related factors such as a reception index, a person in charge, a customer name, and an ordered product.
  • FIG. 24 is an example of a data table in which difference elements are recorded.
  • the statistical processing is performed on the difference data collected in this way by the statistical processing unit 170 (statistical processing step ST460) and is output to the output unit 180 (output step ST470).
  • the difference is extracted using the calculated value of the difference score, so that the difference element can be extracted without depending on the synonym dictionary or the word association learning data. it can. That is, since it is not necessary to examine the correspondence between elements such as the same, similar, synonymous, and similar one by one, the processing efficiency can be improved.
  • the threshold value of the difference score in the difference element extraction unit 157 can be arbitrarily set, it is also possible to arbitrarily expand or narrow the difference range to be extracted according to the property of the information to be extracted, so that desired information can be obtained.
  • the accuracy of text mining can be improved at the same time as the accuracy of mining is improved.
  • FIG. 25 is a diagram illustrating the configuration of the fifth embodiment.
  • the difference processing unit 550 includes an element association unit 151, a difference element extraction unit 152, and a difference score calculation unit 156.
  • the element association unit 151 and the difference element extraction unit 152 are the same as those described in the first embodiment.
  • the element association unit associates the elements of the two document data.
  • the difference element extraction unit 152 extracts only one document data that does not have a corresponding element as a difference element.
  • the difference score calculation unit is the same as the configuration described in the fourth embodiment. However, in the fifth embodiment, the difference score calculation unit 156 calculates a difference score for each difference element extracted by the difference element extraction unit 157. Then, the difference data extracted by the difference element extraction unit 152 is stored in the difference data storage unit 160 with a difference score attached thereto.
  • FIG. 26 is a flowchart showing the procedure of the text mining method according to the fifth embodiment.
  • the element association table shown in FIG. 7 is obtained by the element association step (ST530), and further, difference elements having no corresponding element are extracted by the difference element extraction step (ST540) (see FIG. 8). Further, a difference score is calculated for each extracted difference element. Then, as shown in FIG. 27, a difference score for each difference element is obtained.
  • the difference element and the difference score thus obtained are buffered in the difference data storage unit 160 (difference data storage step ST560).
  • a differential element and a differential score are arranged and stored in a data table together with related factors such as a reception index, a person in charge, a customer name, and an ordered product (see FIG. 28).
  • Statistical processing is performed on the difference data collected in this way by the statistical processing unit 170 (statistic processing step ST570).
  • the statistical processing step (ST570) in the statistical processing unit 170 by treating the difference score calculated for each difference element as a weight of difference likelihood, the difference extracted for one keyword is simply uniform. Not a difference set, but a subset of differences with high certainty is extracted.
  • the processing result is output to the output unit 180 (output step ST580).
  • a difference score is calculated for a difference element, and statistical processing is performed in consideration of the difference score. Therefore, in text mining focusing on the difference between two document data , Text mining with higher confidence is possible.
  • the text mining device 10 of the present invention includes, for example, an element extraction unit as shown in FIG. 14, the difference processing unit 15, and the statistical processing unit 17.
  • elements such as character strings and words included in the document data are extracted from the input document data by the element extraction unit, and the extraction result is output to the difference processing unit.
  • the difference processing unit compares the extracted elements and extracts a difference between the document data. Then, statistical processing is performed on the difference by the statistical processing unit, and a result is obtained.
  • the configuration is such that only elements that are not common between documents can be accurately extracted as differences. This is because the higher the accuracy of the difference extraction, the higher the effect of the present invention that can extract information characteristic of the difference more effectively.
  • the difference generation method for extracting a readable sentence as a difference may deteriorate the difference extraction accuracy in exchange for the readability, it is not necessary to extract a readable sentence as a difference in the present invention.
  • the extraction accuracy of the difference element is important, and the readability of the difference is unnecessary.
  • the generation of a difference that narrows down important information from a specific viewpoint in advance is not a difference generation method suitable for the present invention. This is because it affects the evaluation of statistics in text mining.
  • the same, similar, synonymous, and similar words may be associated with each other using a synonym dictionary in addition to the word association method described above.
  • the difference element is extracted by the difference element extraction unit after the element association by the element association unit when the difference element is extracted.
  • a configuration may be employed in which an element having a difference score equal to or greater than a predetermined threshold is extracted as a difference element after calculating a difference score for each element.
  • the difference block extraction unit first extracts the difference block including the difference element, and then deletes the difference block having the corresponding element to extract the uncorresponding difference block.
  • the difference block extraction part does not need to be provided. That is, the difference element extraction unit and the corresponding element extraction unit respectively extract the difference element and the corresponding element, and the non-corresponding difference block extraction unit extracts the block that includes the difference element and does not include the corresponding element. You may extract directly from document data. Further, in the third embodiment, document data based on a block that does not include the corresponding element with respect to the corresponding element extracted by the corresponding element extracting unit without including the difference element extracting unit and the difference block extracting unit. May be extracted as an unsupported difference block.
  • the present invention is not limited to those configured by hardware such as various logic elements, but a predetermined program is incorporated into a computer having a CPU (central processing unit), a memory (storage device), etc., and the computer is implemented as described above. It may be operated as each functional unit described in the embodiment, and the processes of the above steps may be executed.
  • a CPU and a memory are arranged so as to function as a computer, and a predetermined program is installed in this memory via a communication means such as the Internet or a recording medium such as a CD-ROM or a memory card.
  • the function of each functional unit may be realized by operating a CPU or the like with the programmed program.
  • the present invention can be used for text mining that focuses on differences between a plurality of associated document data. For example, when a plurality of opinions are collected for one object, or an e-mail is collected for one object. It can be used for text mining when information is obtained from a plurality of channels such as FAX, telephone. More specifically, examples include text mining for analyzing a plurality of free description questionnaires obtained for a specific target, text mining for analyzing a call voice record and a report document in a call center, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 関連ある複数の文書データ間の差異に関する解析を適切に行うテキストマイニング装置を提供する。関連する二以上の文書データのそれぞれから言語の要素を抽出する要素抽出部140と、要素抽出部140にて抽出された要素を文書データ間で対比して文書データ間の差分を抽出する処理を行う差分処理部150と、差分処理部150にて抽出された差分に対して統計処理を行う統計処理部170と、を備える。差分処理部150は、要素抽出部140にて抽出された文書データの要素を文書データ間で対比し、各要素に対して同一、類義、同義、類義のいずれかの関係にある要素同士を対応づける要素対応付け部151と、要素対応付け部151による対応付けにおいて対応する対の要素を持たなかった要素を差分要素として抽出する差分要素抽出部152と、を備える。

Description

テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムおよび記録媒体
 本発明は、テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムおよびこのプログラムを記録した記録媒体に関する。具体的には、関連する文書データ間の差異に注目するテキストマイニングに関する。
 定型化されない自然文章を自然言語処理技術によって分割したうえで統計解析処理し、その文章の傾向や特徴を分析するテキストマイニングが知られている。
 このようなテキストマイニング技術を利用することにより、膨大に蓄積された文書情報から有益な情報を絞り出し、マーケティング等のビジネス手法に有効活用することが期待されている。
 例えば、アンケートの回答文書をテキストマイニングで分析する手法が特許文献1、特許文献2に開示されている。
 このようなテキストマイニングによって、多くのアンケート回答文書データのなかで出現頻度の高い特徴語を抽出したり、あるいは、特定の単語に対して高い相関性をもって出現する関連語を抽出したりする文書解析が可能となり、マーケティング等に活用されている。
特開2001-266060号公報 特開2006-286026号公報
 確かにアンケート回答の処理等にあっては共通語の抽出などは有益であるが、実際の文書分析にあっては、関連がある複数の文書間で違いに注目すべき時もある。
 しかしながら、従前のテキストマイニングのごとく自然言語処理(例えば単語に分割)したデータに統計処理を行うだけでは文書間の差異に注目する分析結果を得ることはできない。
 そのため、今なお蓄積された文書データに埋もれている有用な情報を活用できないままとなっている。
 このような問題のため、複数のテキストデータ間の差異に注目する文書解析を行うテキストマイニングの手法が切望されていた。
 本発明の目的は、関連ある複数の文書データ間の差異に関する解析を適切に行うテキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムおよびこのプログラムを記録した記録媒体を提供することにある。
 本発明のテキストマイニング装置は、関連する二以上の文書データのそれぞれから言語要素を抽出する要素抽出部と、前記要素抽出部にて抽出された要素を前記文書データ間で対比して前記文書データ間の差分を抽出する処理を行う差分処理部と、前記差分処理部にて抽出された差分に対して統計処理を行う統計処理部と、を備えることを特徴とする。
 このような構成において、関連する文書データ間の差分を抽出したうえでこの差分データに対して統計処理を行うことができる。したがって、複数の文書データ間の差異に注目して情報を取り出すことができ、従来活用されなかった有益な情報を有効に利用することができる。
第1実施形態の構成を示す図。 第1実施形態において、テキストマイニング方法の手順を示すフローチャート。 音声通話記録の一例を示す図。 報告文書の一例を示す図。 第1実施形態において、通話音声記録の要素を抽出した結果を示すテーブル。 第1実施形態において、報告文書の要素を抽出した結果を示すテーブル。 第1実施形態において、通話音声記録の要素と報告文書の要素とを対応付けした結果を示すテーブル。 第1実施形態において、差分要素として抽出された要素のテーブル。 第1実施形態において、差分を記録したデータテーブルの例。 第1実施形態において、特定商品(MP32-Y)を購入した顧客に関する差分データを統計処理した結果の一例を示すテーブル。 第2実施形態の構成を示す図。 第2実施形態において、テキストマイニング方法の手順を示すフローチャート。 第2実施形態において、抽出された差分ブロックのデータテーブル。 第2実施形態において、差分を記録したデータテーブルの例を示すテーブル。 第3実施形態の構成を示す図。 第3実施形態において、テキストマイニング方法の手順を示すフローチャート。 第3実施形態において、対応要素をもつものを抽出した結果を示すテーブル。 第3実施形態において、対応要素無し差分ブロックを抽出した結果を示すテーブル。 第3実施形態において、対応無し差分ブロックを記録したデータテーブル。 第4実施形態の構成を示す図。 第4実施形態において、テキストマイニング方法の手順を示すフローチャート。 第4実施形態において、各要素の差分スコアを計算した結果を示すテーブル。 第4実施形態において、差分要素を抽出した結果を示すテーブル。 第4実施形態において、差分要素を記録したデータテーブルの例。 第5実施形態の構成を示す図。 第5実施形態において、テキストマイニング方法の手順を示すフローチャート。 第5実施形態において、差分要素ごとに算出した差分スコアを示すテーブル。 第5実施形態において、差分要素と差分スコアとを記録したデータテーブル。 本発明を実施する最小限の構成を示す図。
符号の説明
10、100、200、300、400、500…テキストマイニング装置、110…入力部、120…解析部、130…入力データ記憶部、14、140…要素抽出部、15、150、250、350、450、550…差分処理部、151…要素対応付け部、152…差分要素抽出部、153…差分ブロック抽出部、154…対応要素抽出部、155…対応無し差分ブロック抽出部、156…差分スコア計算部、157…差分要素抽出部、160…差分データ記憶部、17、170…統計処理部、180…出力部。
 本発明の実施の形態を図示するとともに図中の各要素に付した符号を参照して説明する。
(第1実施形態)
 図1は、本発明のテキストマイニング装置100に係る第1実施形態の構成を示す図である。
 テキストマイニング装置100は、テキストマイニングの対象となる文書データを入力する入力部110と、入力された文書データを解析してテキストマイニングを行う解析部120と、解析した結果を出力する出力部180と、を備えている。
 入力部110は、たとえば、キーボードや音声認識マイク、スキャナー、の他、外部記憶メディアの記憶データを読み込むためのドライブ装置などであってもよい。
 本実施形態においてテキストマイニング処理の対象となるのは、関連ある複数の文書データであり、文書データの数は特に限定されるものではない。
 説明の都合上、以下においては、関連する二つの文書データからなる組をテキストマイニングの対象として入力部110から入力する場合を例にし、ある組の二つの文書を第1文書データと第2文書データとする。
 解析部120は、入力部110から入力された文書データを一時保存する入力データ記憶部130と、入力データ記憶部130に保存された文書データに対して言語処理を行ってテキストの構成要素としての独立単語を抜き出す要素抽出部140と、文書データ間の差分を抽出する差分処理部150と、差分処理されたデータを一時バッファする差分データ記憶部160と、抽出された差分に対して統計処理を行う統計処理部170と、を備える。
 入力データ記憶部130は、入力部110から入力されるデータ(第1文書データおよび第2文書データ)を一時的に記憶保存する。
 要素抽出部140は、第1文書データおよび第2文書データに対して自然言語処理を行うとともに文の構成要素を抽出する。要素抽出部140が抽出する要素としては、文書データに含まれる文字列、単語、文字Nグラム、単語Nグラム、構文構造、構文構造の部分構造、および、文のうちいずれか一つ以上であり、本実施形態では独立単語を抽出する場合を例にして説明する。
 差分処理部150は、二つの文書データのそれぞれから抽出された要素を対比して二つの文書間の要素同士を対応づける要素対応付け部151と、要素対応付け部151による対応付けにおいて、対応する対の要素を持たなかった要素を差分要素として抽出する差分要素抽出部152と、を備える。
 要素対応付け部151は、要素抽出部140にて抽出された二つの文書の各要素を対比する。そして、二つの文書の各要素に対し、同一、類似、同義、類義の関係にある要素同士を対応付ける。
 差分要素抽出部152は、要素対応付け部151による対応付けにおいて、二つの文書データ間で対応要素を持たなかったものを差分要素として抽出する。さらに、二つの文書データの差分として、一方の文書データには存在しかつ他方の文書データにはない要素に注目する場合には、第1文書データの要素であって第2文書データ中に対応する要素を持たなかったものを差分要素として抽出する。
 差分データ記憶部160は、抽出された差分を統計処理の前に一時バッファする。入力部110から互いに関連付けられた文書データの組である第1文書データと第2文書データとが次々に入力され、差分処理を経たのちに差分データ記憶部160に蓄積されていく。
 統計処理部170は、抽出された差分要素に対して統計処理を行う。
 このような統計処理としては拡張型確率的コンプレキシティなどが例として挙げられる。
 出力部180は、プリンタ、モニター等で構成され、統計処理部170による処理結果を表示する。
 このような構成を備える第1実施形態の動作について説明する。
 図2は、本実施形態におけるテキストマイニング方法の手順を示すフローチャートである。
 テキストマイニングにあたって、まず、テキストマイニングの対象となる文書データを入力部110から入力する(入力工程、ST100)。
 ここで、ST100の入力工程において入力する文書データについて説明する。
 本実施形態のテキストマイニングでは、差分に注目すべき文書データの組を入力する。差分に注目すべき文書データの組としては、例えば、一つの対象に対して異なる方式で作成された関連ドキュメントが例として挙げられる。
 このような関連ドキュメントは、互いに共通する部分と、一方の文書データには含まれるが他方の文書データには含まれていない差分の部分と、が存在する。そして、このような差分の部分に価値ある情報を有している場合がある。
 コールセンターでの業務を例にして説明する。
 コールセンターは、電話応対による商品のセールスを受け持つが、近年では単なる電話応対のみならず、応対結果に基づいた顧客情報のデータベース構築などにより戦略的マーケティング上でも重要な部署になっている。
 コールセンターでは、コンピュータに統合された電話、FAXの機能によって通話音声記録、FAX、電子メールといった生データで顧客との応対記録が記録されるとともに、オペレータによって作成される報告文書の形でも顧客対応が記録される。
 たとえば、図3は音声通話記録の一例であり、図4は報告文書の一例である。
 報告文書は、オペレータの判断により簡潔な形で作成され、顧客応対における主要な内容を含んだ有用性の高いドキュメントとなり、通常はこちらの情報で十分に必要を満たす。
 ただし、オペレータが顧客の発言のなかで理解できなかった部分や、セールスの主題から外れたやり取り、顧客との間で交わされる詳細な商品説明やヒヤリングの過程などは報告文書から割愛されることが多くなる。
 また、オペレータの状況判断や推測事項、顧客に対して直接に説明する必要がない事項などは通話音声記録には現れず、報告文書にのみ記録されることとなる。
 このように一方にのみ記録される情報には顧客の生の声、オペレータの応対の仕方など有用な情報が大いに含まれている。そこで、このような通話音声記録と報告文書との差異を分析する必要が生じてくる。
 本実施形態の説明では、入力部110から第1文書データとして通話音声記録(図3)を入力し、第2文書データとして報告文書(図4)を入力する。
 入力工程(ST100)にて入力された文書データは、入力データ記憶部130に記憶される(入力データ記憶工程ST110)。このとき、受付インデックスが同じである通話音声記録と報告文書とを組にして記憶していく。
 入力データ記憶部130に記憶されたデータは、組ごとに要素抽出部140に出力され、要素抽出部140を用いて要素の抽出が行われる(要素抽出工程ST120)。要素としては、単語を抽出し、特に形態素解析によって得られる形態素から自立語を抽出する。なおここでは、顧客発言のなかにマーケティング上の重要情報が埋もれていると考える趣旨から、通話音声記録に対しては顧客発言から要素を抽出することとする。図5は通話音声記録に対する要素抽出の結果であり、図6は報告文書に対する要素抽出の結果である。
 次に、抽出された要素は文書データごとに要素対応付け部151に出力され、同じ組同士の文書間において各要素に対する対応付けが行われる(要素対応付け工程ST130)。
 すなわち、同一、類似、同義、類義の関係にある要素同士が対応付けられる。
 ここで、要素同士を対応付ける手法については既存の方法を用いることができる。
 例えば、同義語辞書を用いてもよく、または報告文書が通話音声記録の抄録に当たる関係から対応関係aを次のように求めることができる。
 すなわち、通話音声記録の顧客発言から抽出された要素の集合をD、報告文書から抽出された要素の集合をRとすると、集合Rは集合Dの抄録という関係にある。
 このとき、集合Dに対して集合Rが生成される事後確率P(R|D)を最大化するような、集合Dと集合Rとの要素d、r間の対応関係aが次のように求められる(例えば、Stephan Vogel, Hermann Ney, and Christoph Tillmann. 1996. HMM-Based Word Alignment in Statistical Translation. In COLING'96: The 16th Int. Conf. on Computational Linguistics, pages 836-841, Copenhagen, Denmark, August.に開示されている)。
a=argmaxaP(R|D,a)=argmaxaP(D|R,a)P(R)
 その結果、図7に示される対応付けが得られる。
 このように対応付けされた要素のデータは差分要素抽出部152に出力され、差分要素抽出部152にて差分要素の抽出が行われる(差分要素抽出工程ST140)。図7中において、通話音声記録の要素であって報告文書中に対応する要素を持たなかったものが差分要素として抽出される。図8は、差分要素として抽出された要素の表である。
 差分要素抽出部152にて抽出された要素は差分データ記憶部160に出力され、一時バッファされる(差分データ記憶工程ST150)。このとき、抽出された差分要素は、受付インデックス、担当者、顧客名、注文商品といった関連因子とともにデータテーブルに整理される。図9は、差分を記録したデータテーブルの例である。
 このようにして収集された差分データに対して統計処理部170により統計処理が行われる(統計処理工程ST160)。図10は、商品MP32-Yを購入した顧客に関する差分データを統計処理した結果の一例である。このような統計結果は、出力部180から出力され、プリンタによる印刷出力もしくはモニターにて表示される(出力工程ST170)。
 このような第1実施形態によれば、たとえば、電気ポットMP32のイエローを購入する顧客の中には、「白が良い」という要望が少なからず存在するといった発見が得られる。
 従来、上記のような有益な情報があるにも関わらず、通話音声記録と報告文書の双方に共通して頻度が高い表現が目立ってしまい、重要な情報であっても埋もれて利用されないままとなっていた。
 この点、本実施形態では、二つの文書データの差分を抽出したうえでこの差分データに対して統計処理を行う構成を採用している。そのため、従来のテキストマイニングでは取り出すことができなかった情報を取り出すことができる。例えば、多くの顧客が色のオーダーをする際に発言する「白が良い」、「黄が良い」、「緑が良い」等の有益な情報を掘り起こすことができる。
 (第2実施形態)
 次に、本発明の第2実施形態に係るテキストマイニング装置200について説明する。
 第2実施形態の基本的な構成は第1実施形態に同様であるが、差分処理部250において差分ブロックを抽出する点に特徴を有する。
 図11は、第2実施形態の構成を示す図である。
 第2実施形態において、差分処理部250は、要素対応付け部151と、差分要素抽出部152と、差分ブロック抽出部153と、を備えている。
 差分ブロック抽出部153は、差分要素抽出部152にて抽出された差分の要素を受け取るとともに、この差分要素を入力データ記憶部130に記憶されている文書データに対比して、差分要素を含むより大きな要素を差分ブロックとして抽出する。ここで、差分ブロック抽出部は、構文構造または構文構造の部分構造を差分ブロックの単位として抽出する。
 図12は、第2実施形態に係るテキストマイニング方法の手順を示すフローチャートである。
 差分要素抽出工程(ST240)において、通話音声記録と報告文書との間の差分要素が抽出され、図8のテーブルが得られる。
 このように抽出された差分要素を含む文が差分ブロックとして通話音声記録から抽出される(差分ブロック抽出工程ST250)。例えば、図8に示される差分要素に対して、これらの要素を含むもとの音声通話記録は、発言インデックスが4、5、9、16、17である(図3を参照)。そこで、この発言インデックス4、5、9、16、17を差分ブロックとして抽出する。
 図13は、このようにして抽出された差分ブロックのデータテーブルである。
 このように抽出された差分ブロックは差分データ記憶部160にバッファされていく(差分データ記憶工程ST260)。差分ブロックのデータは、受付インデックス、担当者、顧客名、注文商品といった関連因子とともにデータテーブルに整理される。図14は、差分を記録したデータテーブルの例である。このようにして収集された差分データに対して統計処理部170により統計処理が行われ(統計処理工程ST160)、出力部180に出力される(出力工程ST170)。
 このような第2実施形態によれば、差分要素からもとのセンテンス(差分ブロック)を抽出することとしているので、差分情報を漏れなく拾うことができ、的確かつ正確な差分データを得ることができる。そして、このように得た差分のデータに対して統計処理を行うことにより、従来は埋もれていた重要な情報をより正確に抽出することができる。
 (第3実施形態)
 次に、本発明の第3実施形態に係るテキストマイニング装置300について説明する。
 第3実施形態の基本的構成は第2実施形態に同様であるが、差分ブロック抽出部153にて抽出される差分ブロックのうち、さらに、対応要素を有しないブロックだけを差分として抽出する点に特徴を有する。
 図15は、第3実施形態の構成を示す図である。
 第3実施形態において、差分処理部350は、要素対応付け部151と、差分要素抽出部152と、差分ブロック抽出部153と、対応要素抽出部154と、対応無し差分ブロック抽出部155と、を備える。
 要素対応付け部151、差分要素抽出部152および差分ブロック抽出部153は、前記実施形態にて説明した構成と同様である。
 すなわち、差分ブロック抽出部153は、差分要素を含むブロック(センテンス)を抽出する。
 ここで、対応要素抽出部154は、要素対応付け部151にて対応付けられた要素のデータから互いに対応する要素を持つものを抽出する。
 対応無し差分ブロック抽出部155は、差分ブロック抽出部153にて抽出された差分ブロックのうち対応要素抽出部154にて抽出された対応要素を含有するものを削除して対応要素を持たない差分ブロックだけを抽出する。
 図16は、第3実施形態に係るテキストマイニング方法の手順を示すフローチャートである。
 差分ブロック抽出工程(ST333)において差分要素を含む差分ブロックが抽出され、図13に示される差分ブロックのテーブルが得られる。
 また、要素対応付け部151による対応付け(ST331)によって図7のテーブルが得られているところ、このテーブル(図7)から互いに対応する要素を持つものが対応要素抽出部154によって抽出される(対応要素抽出工程、ST334)。
 図7に示されるテーブルから対応要素を持つものを抽出すると図17に示すテーブルが得られる。そして、差分ブロックのテーブル(図13)から対応要素をもつもの(図17)を削除して対応要素を持たないブロックが抽出される(対応無しブロック抽出工程ST335)。すると、発言インデックス16のブロックだけが対応要素無し差分ブロックとして抽出される(図18)。
 このように抽出された対応要素無し差分ブロックは差分データ記憶部160にバッファされていく(差分データ記憶工程ST340)。
 差分ブロックのデータは、受付インデックス、担当者、顧客名、注文商品といった関連因子とともにデータテーブルに整理される。
 図19は、対応無し差分ブロックを記録したデータテーブルの例である。
 このようにして収集された対応無し差分ブロックのデータに対して統計処理部170により統計処理が行われ(統計処理工程ST350)、出力部180に出力される(出力工程ST360)。
 このような構成を備える第3実施形態によれば、両者の差分を差分ブロックとして不足なく抽出したうえで、さらに、対応要素を持たないものだけを抽出するので、一方の文書データにのみ固有に含まれる差分を正確かつ的確に抽出することができる。そして、このように抽出した対応無し差分ブロックに対して統計処理を行うことにより、従来は埋もれていた重要な情報をより正確に抽出することができる。
 (第4実施形態)
 次に、本発明の第4実施形態に係るテキストマイニング装置400について説明する。
 第4実施形態の基本的構成は第1実施形態に同様であるが、差分処理部450において差分要素を抽出する構成に特徴を有する。
 図20は、第4実施形態の構成を示す図である。
 第4実施形態において、差分処理部450は、差分スコア計算部156と、差分要素抽出部157と、を備えている。
 差分スコア計算部は、第1文書データ中の各要素に対して差分らしさを表す差分スコアを計算する。すなわち、要素抽出部140によって第1文書データと第2文書データとからそれぞれの要素が抽出されているところ、第1文書データの要素と第2文書データの要素とを対比して第1文書データの要素ごとに差分スコアを計算する。
 ここで、第1文書データ中の任意の要素dに対する差分スコア(d)を次の式(1)で定義する。
 なお、βは正の整数である。
 Dは第1文書データ中に要素dが出現する確率であり、Rは第2文書データ中に要素rが出現する確率であり、I(D;R)は前記確率変数DとRとの相互情報量である。
Figure JPOXMLDOC01-appb-M000001
 差分要素抽出部157には差分要素を抽出するための差分スコア閾値が設定されており、差分要素抽出部157は、差分スコア計算部156にて計算された差分スコアが前記閾値以上である要素を差分要素として抽出する。
 図21は、第4実施形態に係るテキストマイニング方法の手順を示すフローチャートである。
 要素抽出工程(ST420)にて通話音声記録と報告文書とからそれぞれ要素が抽出され、図5、図6に示される要素のテーブルがそれぞれ得られる。そして、差分スコア計算部によって、音声通話記録中の各要素(図5)に対して差分スコアが計算される(差分スコア計算工程、ST430)。
 差分スコアは、通話音声記録中の任意の要素dに対して、前記式(1)を用いて算出される。ここでは前記βを100として、通話音声記録中の各要素に対して差分スコアを算出すると、図22に示す差分スコアのデータが得られる。
 算出された差分スコアのデータは差分要素抽出部157に出力され、差分スコアに基づいて差分要素が抽出される(差分要素抽出工程ST440)。
 すなわち、差分スコアが閾値以上である要素が差分要素として抽出される。
 ここで、差分閾値を0.5に設定した場合、図23のように差分要素が抽出される。
 このように抽出された差分要素は差分データ記憶部160にバッファされていく(差分データ記憶工程ST450)。
 差分要素のデータは、受付インデックス、担当者、顧客名、注文商品といった関連因子とともにデータテーブルに整理される。図24は、差分要素を記録したデータテーブルの例である。このようにして収集された差分のデータに対して統計処理部170により統計処理が行われ(統計処理工程ST460)、出力部180に出力される(出力工程ST470)。
 このような構成を備える第4実施形態によれば、差分スコアの計算値を用いて差分を抽出するので、同義語辞書や単語対応付けの学習データに頼ることなく差分要素の抽出を行うことができる。すなわち、要素同士の同一、類似、同義、類義といった対応を一つ一つ検討する手間が必要ないので、処理効率を高めることができる。また、差分要素抽出部157における差分スコアの閾値を任意に設定することができるため、抽出する差分の範囲を拾い出したい情報の性質に応じて広げたり狭めたりすることも任意となり、所望の情報を的確にマイニングする確度を高めると同時にテキストマイニングの効率を向上させることができる。
 (第5実施形態)
 次に、本発明の第5実施形態に係るテキストマイニング装置500について説明する。
 第5実施形態の基本的構成は第1実施形態に同様であるが、差分処理部550において差分スコア計算部156を備えている点に特徴を有する。
 図25は、第5実施形態の構成を示す図である。
 第5実施形態において、差分処理部550は、要素対応付け部151と、差分要素抽出部152と、差分スコア計算部156と、を備える。
 要素対応付け部151および差分要素抽出部152は、第1実施形態において説明した構成に同様である。
 要素対応付け部によって二つの文書データの要素同士が対応付けられる。差分要素抽出部152によって一方の文書データのみに現れ、対応する要素を持たないものが差分要素として抽出される。
 差分スコア計算部は、第4実施形態において説明した構成に同様である。
 ただし、第5実施形態においては、差分スコア計算部156は、差分要素抽出部157にて抽出された各差分要素に対して差分スコアを計算する。そして、差分要素抽出部152にて抽出された差分要素に差分スコアが付された状態で差分データ記憶部160に記憶されていく。
 図26は、第5実施形態に係るテキストマイニング方法の手順を示すフローチャートである。
 要素対応付け工程(ST530)によって図7に示される要素対応付けの表が得られ、さらに、差分要素抽出工程(ST540)によって対応要素を持たない差分要素が抽出される(図8参照)。さらに、抽出された各差分要素に対して差分スコアが計算される。すると、図27に示されるように差分要素ごとの差分スコアが得られる。
 このように得られた差分要素と差分スコアとは差分データ記憶部160にバッファされていく(差分データ記憶工程ST560)。受付インデックス、担当者、顧客名、注文商品といった関連因子とともに差分要素および差分スコアがデータテーブルに整理されて記憶される(図28参照)。
 このようにして収集された差分のデータに対して統計処理部170により統計処理が行われる(統計処理工程ST570)。統計処理部170における統計処理工程(ST570)にあっては、差分要素ごとに算出された差分スコアを差分らしさの重みとして取り扱うことにより、一つのキーワードに対して抜き出される差分を単なる一様な差分集合としてではなく、さらに、確信度の高い差分の部分集合を抜き出す。処理結果は出力部180に出力される(出力工程ST580)。
 このような構成を備える第5実施形態によれば、差分要素に対して差分スコアを計算し、差分スコアを考慮に入れて統計処理を行うので、二つの文書データの差分に着目するテキストマイニングにおいて、より確信度の高いテキストマイニングが可能となる。
 なお、本発明は上記実施形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加えうることはもちろんである。
 上記実施形態においては本発明を実施する場合の詳細な構成を例示したが、上記実施形態に限定されることなく、本発明のテキストマイニング装置10としては例えば図29に示されるように要素抽出部14と、差分処理部15と、統計処理部17と、を備えていればよい。
 このような構成において、入力される文書データから要素抽出部によって文書データに含まれる文字列や単語等の要素を抽出し、抽出結果を差分処理部に出力する。
 差分処理部は、抽出された要素同士を対比し、文書データ間の差分を抽出する。
 そして、差分に対して統計処理部によって統計処理が行われ、結果が得られる。
 このような構成によれば、関連する文書データ間の差分を抽出したうえでこの差分データに対して統計処理を行うことができるので、複数の文書データ間の差異に注目して情報を取り出すことができ、従来活用されなかった有益な情報を有効に利用することができる。
 差分処理部における差分の生成では、文書間に共通しない要素のみを差分として精度よく抽出可能な構成であることが好ましい。
 差分抽出の精度が高いほど、差分に特徴的な情報をより有効に抽出できるという本発明の効果が期待できるからである。
 ここで、差分として可読な文を抽出する差分の生成方法は、可読性と引き換えに差分の抽出精度を劣化させる恐れがあるため、本発明では可読性を有する文を差分として抽出する必要はない。本発明においては、差分要素の抽出精度が重要であり、差分の可読性は不要である。
 また、あらかじめ特定の観点で重要情報を絞りこむ差分の生成も本発明に適した差分の生成方法とはいえない。テキストマイニングにおける統計量の評価に影響を与えるためである。
 要素対応付け部において要素を対応付けるにあたっては、上記に説明した単語対応付けの手法の他、同義語辞書によって同一、類似、同義、類義の単語同士を対応付けてもよい。
 上記第2実施形態および第3実施形態において、差分要素を抽出するにあたっては要素対応付け部による要素対応付けの後に対応要素が存在しないものを差分要素抽出部にて抽出する構成を採用したが、これに代えて、第4実施形態にて説明したように要素ごとに差分スコアを算出した後に差分スコアが所定閾値以上である要素を差分要素として抽出する構成を採用してもよい。
 上記第3実施形態において、対応無し差分ブロックを抽出するにあたり、まず差分ブロック抽出部において差分要素を内包する差分ブロックを抽出したうえで対応要素をもつ差分ブロックを削除して対応無し差分ブロックを抽出する構成を説明したが、差分ブロック抽出部を備えていなくてもよい。すなわち、差分要素抽出部と対応要素抽出部とで差分要素と対応要素とをそれぞれ抽出しておいて、対応無し差分ブロック抽出部において差分要素を内包しかつ対応要素を内包しないブロックをもとの文書データから直に抽出してもよい。
 さらには、第3実施形態において、差分要素抽出部および差分ブロック抽出部を備えずに、対応要素抽出部にて抽出した対応要素に対して、この対応要素を内包しないブロックをもとの文書データから対応無し差分ブロックとして抽出してもよい。
 本発明は、各種論理素子等のハードウェアで構成されたものに限らず、CPU(中央処理装置)、メモリ(記憶装置)等を備えたコンピュータに所定のプログラムを組み込んで、このコンピュータを上記実施形態にて説明した各機能部として動作させ、上記各工程の処理を実行させてもよい。すなわち、CPUやメモリを配置してコンピュータとして機能できるように構成し、このメモリに所定のプログラムをインターネット等の通信手段や、CD-ROM、メモリカード等の記録媒体を介してインストールし、このインストールされたプログラムでCPU等を動作させて、各機能部の機能を実現させればよい。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2008年3月12日に出願された日本出願特願2008-062667号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、関連付けられた複数の文書データ間にある差異に注目するテキストマイニングに利用でき、例えば、一つの対象に対して複数の意見が収集される場合や、一つの対象に対して電子メール、FAX、電話などの複数チャンネルから情報が得られる場合のテキストマイニングに利用できる。
 より具体的には、特定対象に対して複数得られた自由記述のアンケートを分析するテキストマイニングや、コールセンターにおける通話音声記録と報告文書を分析するテキストマイニングなどが例として挙げられる。

Claims (13)

  1.  関連する二以上の文書データのそれぞれから言語の要素を抽出する要素抽出手段と、
     前記要素抽出手段にて抽出された要素を前記文書データ間で対比して前記文書データ間の差分を抽出する処理を行う差分処理手段と、
     前記差分処理手段にて抽出された差分に対して統計処理を行う統計処理手段と、を備える
     ことを特徴とするテキストマイニング装置。
  2.  請求項1に記載のテキストマイニング装置において、
     前記要素抽出手段は、前記文書データに含まれる文字列、単語、文字Nグラム、単語Nグラム、構文構造、構文構造の部分構造、および、文のうちいずれか一つ以上を前記要素として抽出する
     ことを特徴とするテキストマイニング装置。
  3.  請求項2に記載のテキストマイニング装置において、
     前記差分処理手段は、
     前記要素抽出手段にて抽出された前記文書データの要素を文書データ間で対比し、各要素に対して同一、類義、同義、類義のいずれかの関係にある要素同士を対応づける要素対応付け手段と、
     前記要素対応付け手段による対応付けにおいて対応する対の要素を持たなかった要素を差分要素として抽出する差分要素抽出手段と、を備える
     ことを特徴とするテキストマイニング装置。
  4.  請求項3に記載のテキストマイニング装置において、
     前記差分処理手段は、さらに、
     前記差分要素抽出手段にて抽出された差分要素を内包しておりこの差分要素よりも大きな要素からなるブロックをもとの前記文書データから差分ブロックとして抽出する差分ブロック抽出手段を備える
     ことを特徴とするテキストマイニング装置。
  5.  請求項4に記載のテキストマイニング装置において、
     前記差分ブロック抽出手段は、構文構造または構文構造の部分構造を前記差分ブロックの単位とする
     ことを特徴とするテキストマイニング装置。
  6.  請求項3に記載のテキストマイニング装置において、
     前記差分処理手段は、さらに、
     前記要素対応付け手段による対応付けにおいて対応する対の要素を持つ要素を抽出する対応要素抽出手段と、
     前記差分要素抽出手段にて抽出された前記差分要素を内包し、かつ、前記対応要素抽出手段にて抽出された対応要素を内包していない要素のブロックをもとの前記文書データから差分ブロックとして抽出する対応無し差分ブロック抽出手段と、を備える
     ことを特徴とするテキストマイニング装置。
  7.  請求項4または請求項5に記載のテキストマイニング装置において、
     前記差分処理手段は、さらに、
     前記要素対応付け手段による対応付けにおいて対応する対の要素を持つ要素を抽出する対応要素抽出手段と、
     前記差分ブロック抽出手段にて抽出された前記差分ブロックのうち前記対応要素抽出手段にて抽出された要素を内包するものを削除して対応要素を持たない差分ブロックのみを抽出する対応無し差分ブロック抽出手段と、を備える
     ことを特徴とするテキストマイニング装置。
  8.  請求項1または請求項2に記載のテキストマイニング装置において、
     前記差分処理手段は、さらに、
     前記要素抽出手段にて抽出された前記文書データの要素を文書データ間で対比し、各要素に対して同一、類義、同義、類義のいずれかの関係にある要素同士を対応づける要素対応付け手段と、
     前記要素対応付け手段による対応付けにおいて対応する対の要素を持つ要素を抽出する対応要素抽出手段と、
     前記対応要素抽出手段にて抽出された対応要素を内包していない要素のブロックをもとの前記文書データから差分ブロックとして抽出する対応無し差分ブロック抽出手段と、を備える
     ことを特徴とするテキストマイニング装置。
  9.  請求項3に記載のテキストマイニング装置において、
     前記差分処理手段は、前記要素対応付け手段に代えて、前記要素抽出手段にて抽出された前記文書データの要素を文書データ間で対比し、一の文書データの要素について他の文書データの要素に対する差分らしさを表す差分スコアを算出する差分スコア計算手段を備え、
     前記差分要素抽出手段は、前記差分スコアが所定閾値以上である要素を差分要素として抽出する
     ことを特徴とするテキストマイニング装置。
  10.  請求項3に記載のテキストマイニング装置において、
     前記差分処理手段は、さらに、
     前記要素抽出手段にて抽出された前記文書データの要素を文書データ間で対比し、一の文書データの要素について他の文書データの要素に対する差分らしさを表す差分スコアを算出する差分スコア計算手段を備え、
     前記統計処理手段は、前記差分スコアを加味しつつ前記差分に対して統計処理を行う
     ことを特徴とするテキストマイニング装置。
  11.  請求項9または請求項10に記載のテキストマイニング装置において、
     前記差分スコア計算手段は、一の文書データの要素と他の文書データの要素との相互情報量をパラメータに含む指数関数の逆数に基づいて前記差分スコアを算出する
     ことを特徴とするテキストマイニング装置
  12.  関連する二以上の文書データのそれぞれから言語要素を抽出し、
     抽出した言語要素を前記文書データ間で対比して前記文書データ間の差分を抽出し、
     抽出した差分に対して統計処理を行う
     ことを特徴とするテキストマイニング方法。
  13.  コンピュータを、
     関連する二以上の文書データのそれぞれから言語要素を抽出する要素抽出手段と、
     前記要素抽出手段にて抽出された要素を前記文書データ間で対比して前記文書データ間の差分を抽出する処理を行う差分処理手段と、
     前記差分処理手段にて抽出された差分に対して統計処理を行う統計処理手段、として機能させるテキストマイニングプログラムをコンピュータ読み取り可能に記録した記録媒体。
PCT/JP2009/054300 2008-03-12 2009-03-06 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムおよび記録媒体 WO2009113457A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010502791A JP5459203B2 (ja) 2008-03-12 2009-03-06 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム
US12/919,463 US8452782B2 (en) 2008-03-12 2009-03-06 Text mining device, text mining method, text mining program, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008062667 2008-03-12
JP2008-062667 2008-03-12

Publications (1)

Publication Number Publication Date
WO2009113457A1 true WO2009113457A1 (ja) 2009-09-17

Family

ID=41065126

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/054300 WO2009113457A1 (ja) 2008-03-12 2009-03-06 テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラムおよび記録媒体

Country Status (3)

Country Link
US (1) US8452782B2 (ja)
JP (1) JP5459203B2 (ja)
WO (1) WO2009113457A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012098838A1 (ja) * 2011-01-17 2012-07-26 日本電気株式会社 報告文書作成支援システム、報告文書作成支援方法および報告文書作成支援プログラム
JP2015530665A (ja) * 2012-09-07 2015-10-15 ティヴァーサ アイピー インコーポレイテッド ファイル共有ネットワークにおけるスニペット照合
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5963312B2 (ja) * 2013-03-01 2016-08-03 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、情報処理方法、及びプログラム
CN111078823A (zh) * 2019-12-13 2020-04-28 北京明略软件系统有限公司 文本要素提取方法、装置及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180057A (ja) * 1994-12-22 1996-07-12 Toshiba Corp 文書検索方法および装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3587120B2 (ja) 2000-03-15 2004-11-10 日本電気株式会社 アンケート回答分析システム
JP4992243B2 (ja) * 2006-01-31 2012-08-08 富士通株式会社 情報要素処理プログラム、情報要素処理方法及び情報要素処理装置
JP4539616B2 (ja) 2006-07-28 2010-09-08 日本電気株式会社 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08180057A (ja) * 1994-12-22 1996-07-12 Toshiba Corp 文書検索方法および装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AKIHIRO TAMURA ET AL.: "Call Center no Call Memo to Tsuwa o Taisho to shita Sabun Mining", FIT2008 (THE 7TH FORUM ON INFORMATION TECHNOLOGY) KOEN RONBUNSHU [CD-ROM], vol. 2, 20 August 2008 (2008-08-20), pages 295 - 298 *
TOSHIHIKO MATSUNAGA ET AL.: "Kaiban Bunsho Hon'yaku System ni Okeru Bunmyaku o Koryo shita Bun Taio Tsuke Shuho", IEICE TECHNICAL REPORT, (NLC2003-15-24), vol. 103, no. 280, 22 August 2003 (2003-08-22), pages 43 - 48 *
YOSHIHIRO UEDA ET AL.: "Cokan Rule o Mochiita Soshikinai ni Okeru Bunsho Kosei Shien", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J85-D-1, no. 7, 1 July 2002 (2002-07-01), pages 681 - 690 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012098838A1 (ja) * 2011-01-17 2012-07-26 日本電気株式会社 報告文書作成支援システム、報告文書作成支援方法および報告文書作成支援プログラム
JP2015530665A (ja) * 2012-09-07 2015-10-15 ティヴァーサ アイピー インコーポレイテッド ファイル共有ネットワークにおけるスニペット照合
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置

Also Published As

Publication number Publication date
JPWO2009113457A1 (ja) 2011-07-21
US8452782B2 (en) 2013-05-28
JP5459203B2 (ja) 2014-04-02
US20110010373A1 (en) 2011-01-13

Similar Documents

Publication Publication Date Title
Coussement et al. Integrating the voice of customers through call center emails into a decision support system for churn prediction
US11900960B2 (en) System and method for frustration detection
US8325189B2 (en) Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products
JP5459203B2 (ja) テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム
JP5472640B2 (ja) テキストマイニング装置、テキストマイニング方法、及びプログラム
WO2007108529A1 (ja) 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
CN102227723B (zh) 辅助误译的检测的装置及方法
JP2012198684A (ja) 情報処理装置、帳票種別推定方法および帳票種別推定用プログラム
Widyaningrum et al. Sentiment analysis to assess the community’s enthusiasm towards the development chatbot using an appraisal theory
TW201415402A (zh) 取證系統、取證方法及取證程式
CN114548072A (zh) 用于合同类文件的自动内容解析与信息评测方法及系统
CN107329968A (zh) 一种针对企业官网的数据清洗、整合方法及系统
US20190073682A1 (en) Evaluation apparatus, evaluation method, noise removal apparatus, and program
JP5423380B2 (ja) 情報処理プログラム及び情報処理方法
Liu et al. Tracking disclosure change trajectories for financial fraud detection
WO2010023939A1 (ja) テキストマイニング装置、テキストマイニング方法、及びコンピュータ読み取り可能な記録媒体
Harding BI crucial to making the right decision: business intelligence is all about collecting useful information from multiple sources and then presenting it in an easy to understand format.(Special Report: Business Intelligence)
Hashfi et al. Sentiment Analysis of An Internet Provider Company Based on Twitter Using Support Vector Machine and Naïve Bayes Method
JP2020119087A (ja) 文書審査支援方法、文書審査支援装置及びコンピュータプログラム
Scholz et al. Extraction of statements in news for a media response analysis
CN111275410A (zh) 用于企业的远程法律顾问远程交互方法
JP2018067215A (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Porntrakoon et al. Text Summarization for Thai Food Reviews using Simplified Sentiment Analysis
Aggarwal Identification of quality parameters associated with 3V's of Big Data
CN111368521B (zh) 用于法律顾问服务的管理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09719014

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 12919463

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2010502791

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09719014

Country of ref document: EP

Kind code of ref document: A1