WO2016013209A1 - 文集合抽出システム、方法およびプログラム - Google Patents

文集合抽出システム、方法およびプログラム Download PDF

Info

Publication number
WO2016013209A1
WO2016013209A1 PCT/JP2015/003652 JP2015003652W WO2016013209A1 WO 2016013209 A1 WO2016013209 A1 WO 2016013209A1 JP 2015003652 W JP2015003652 W JP 2015003652W WO 2016013209 A1 WO2016013209 A1 WO 2016013209A1
Authority
WO
WIPO (PCT)
Prior art keywords
sentence
sentences
similar
sentence set
specific
Prior art date
Application number
PCT/JP2015/003652
Other languages
English (en)
French (fr)
Inventor
康高 山本
貴士 大西
正明 土田
弘紀 水口
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US15/328,199 priority Critical patent/US20170220585A1/en
Priority to JP2016535794A priority patent/JP6536580B2/ja
Publication of WO2016013209A1 publication Critical patent/WO2016013209A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Definitions

  • the present invention relates to a sentence set extraction system, a sentence set extraction method, and a sentence set extraction program for extracting a set into which a sentence to be analyzed is classified.
  • Text mining is a data analysis technique that uses text data written in a natural language as input, grasps the overall tendency of the content, and discovers useful knowledge. By using text mining, for example, it is possible to grasp the contents of an inquiry from a call memo in a call center.
  • Patent Document 1 describes a text mining system that displays a dependency relationship network structure between words by paying attention to a relationship of three or more words.
  • the text mining system described in Patent Document 1 analyzes linguistic information included in a large amount of text data, extracts relevance of words and dependency relationships, and visualizes the text mining results of these relevances. indicate.
  • Patent Document 2 describes a method of determining the synonyms and implications between texts and clustering the texts having the same meaning so that the contents of the texts can be directly comprehended.
  • Such an extractor can be realized by constructing an extraction rule and an extraction learning model in advance.
  • the target text can be efficiently extracted from a large amount of text data. Can be extracted.
  • the text that can be extracted by such an extractor is limited to text that indicates the content of the assumed classification in advance. That is, since it is difficult to prepare an extractor having a content that cannot be assumed in advance, the text having an unexpected content may be overlooked.
  • FIG. 12 is an explanatory diagram showing an example of a method for extracting a specific opinion by a general method.
  • FIG. 12 shows an example of a call center. For example, it is assumed that complaints and requests are classified and extracted from inquiries to a call center.
  • the underlined text illustrated in FIG. 12 indicates a claim or a request.
  • the present invention provides a sentence set extraction system, a sentence that can exhaustively and efficiently extract each classified sentence even when the sentence set to be analyzed includes various classifications. It is an object to provide a set extraction method and a sentence set extraction program.
  • the sentence set extraction system includes a similar sentence set generation unit that creates a similar sentence set by grouping sentences representing the same concept or event from a set of analysis target sentences, and a specific classification from the set of analysis target sentences.
  • a similar sentence that extracts one or more sentences that are not extracted by the specific sentence extractor from the sentences belonging to the similar sentence set as an excluded similar sentence set by using one or more specific sentence extractors that can extract the belonging specific sentence And a set extraction unit.
  • Another sentence set extraction system uses one or more specific sentence extractors capable of extracting a specific sentence belonging to a specific classification from a set of analysis target sentences, and extracts a specific sentence from the set of analysis target sentences.
  • Analytical sentence set generation unit that generates an analytical sentence set excluding the sentence extracted by a container, and a sentence that represents the same concept or event is grouped from the analytical sentence set to create a similar sentence set, and the number of included sentences Is provided with a similar sentence set specifying unit for specifying a similar sentence set satisfying a predetermined condition.
  • the sentence set extraction method creates a similar sentence set by grouping sentences representing the same concept or event from a set of analysis target sentences, and can extract a specific sentence belonging to a specific classification from the set of analysis target sentences.
  • One or more specific sentence extractors are used to extract one or more sentences not extracted by the specific sentence extractor from the sentences belonging to the similar sentence set as an excluded similar sentence set.
  • Another sentence set extraction method uses one or more specific sentence extractors capable of extracting a specific sentence belonging to a specific classification from a set of analysis target sentences, and extracts a specific sentence from the set of analysis target sentences. Generate a set of analysis sentences that excludes sentences extracted by the container, group sentences that represent the same concept or event from the analysis sentence set, create a similar sentence set, and the number of included sentences satisfies the specified condition It is characterized by specifying a set of similar sentences.
  • the sentence set extraction program includes a similar sentence set generation process for creating a similar sentence set by grouping sentences representing the same concept or event from a set of analysis target sentences, and a set of analysis target sentences. Using one or more specific sentence extractors that can extract specific sentences belonging to a specific classification, one or more sentences that are not extracted by the specific sentence extractor from sentences belonging to the similar sentence set are excluded as similar sentence sets. A similar sentence set extraction process to be extracted is executed.
  • Another sentence set extraction program uses a computer to extract one or more specific sentence extractors that can extract a specific sentence belonging to a specific category from a set of analysis target sentences.
  • Analytical sentence set generation processing that generates an analytical sentence set excluding the sentence extracted by the specific sentence extractor, and a sentence that represents the same concept or event is grouped from the analytical sentence set, and a similar sentence set is created and included
  • a similar sentence set specifying process for specifying a similar sentence set in which the number of sentences to be satisfied satisfies a predetermined condition is executed.
  • each classified sentence can be extracted comprehensively and efficiently.
  • FIG. FIG. 1 is a block diagram showing a configuration example of a first embodiment of a sentence set extraction system according to the present invention.
  • the sentence set extraction system of this embodiment includes an analysis target sentence input unit 11, a similar sentence set generation unit 12, and a similar sentence set extraction unit 13.
  • the sentence set extraction system extracts a sentence set for each classification from a sentence set in which a content to be analyzed is described.
  • the sentence is not limited to a unit delimited by a period or a period, and includes a group of words representing a predetermined meaning.
  • FIG. 2 is an explanatory diagram showing the relationship of sentences used in the present invention.
  • a set of sentences in which contents to be analyzed, such as requests and claims, are included in the set of sentences.
  • this sentence is referred to as an analysis target sentence.
  • the analysis target sentence corresponds to a request sentence indicating a request from each user.
  • each sentence included in the set of analysis target sentences is classified according to the characteristics of the analysis target sentence.
  • sentences classified as analysis target sentences are referred to as specific sentences. Note that, among the sentences to be analyzed, sentences in which the contents of requests and complaints are classified can be referred to as specific opinion sentences.
  • memos created by call center operators are information that can be used to improve products and services.
  • the entire sentence included in the memo or the like corresponds to a set of sentences, and a sentence indicating a request or a complaint corresponds to an analysis target sentence.
  • the sentence to be analyzed is divided into a plurality of items such as “I want you to reduce the price” and “I want you to improve the service contents”, which corresponds to the specific sentence (specific opinion sentence).
  • the analysis target sentence input unit 11 inputs an analysis target sentence.
  • the analysis target sentence input unit 11 may read and input an analysis target sentence stored in a storage device (not shown), or may be input by receiving an analysis target sentence transmitted from another system or apparatus. May be.
  • the analysis target sentence input unit 11 extracts an analysis target sentence including contents to be analyzed from the input sentence set. Also good. In this case, the analysis target sentence input unit 11 may extract the analysis target sentence using a generally known extractor.
  • the analysis target sentence input unit 11 may input the text input in the input field as the analysis target sentence. . Further, the analysis target sentence input unit 11 may perform format conversion of the input analysis target sentence as necessary.
  • the similar sentence set generation unit 12 creates a similar sentence set by grouping similar sentences from the set of analysis target sentences.
  • a method for creating a similar sentence set is arbitrary.
  • the similar sentence set generation unit 12 calculates similarity between sentences based on words and syntax included in each sentence, and aggregates similar sentences to collect similar sentences. May be.
  • the similar sentence set generation unit 12 may generate a similar sentence set using a general clustering technique. Each sentence included in the similar sentence set classified in this way corresponds to a specific sentence.
  • FIG. 3 is an explanatory diagram showing an example of processing for generating a similar sentence set.
  • the analysis target sentence input unit 11 performs analysis target sentence extraction processing from ten pieces of text data indicating an inquiry to the call center, and extracts eight analysis target sentences.
  • the similar sentence set generation unit 12 creates a similar sentence set from the set of analysis target sentences.
  • each row indicated in the similar sentence count result corresponds to a similar sentence set.
  • the specific sentences “high price” and “high price” indicating the same event belong to the same similar sentence set, and the specific sentences “UI is bad” and “useless” are the same. Belong to the same sentence set.
  • the similar sentence set in which the analysis target sentences are classified preferably has a semantic group (the same concept) so that the classified contents can be understood. Therefore, it is desirable that the similar sentence set generation unit 12 generates a similar sentence set by grouping semantically similar sentences from the set of analysis target sentences.
  • a method of grouping semantically similar sentences a method of clustering based on synonyms or implications is known.
  • the similar sentence set generation unit 12 may generate a similar sentence set from a set of analysis target sentences using, for example, a method described in Patent Document 2. By clustering based on synonyms or implications, the contents of a set of similar sentences can be tabulated in a form that can be directly understood.
  • the similar sentence set generation unit 12 may specify a sentence (hereinafter referred to as a representative sentence) indicating the contents of the similar sentence set.
  • a sentence hereinafter referred to as a representative sentence
  • the similar sentence set generation unit 12 may specify text indicating content implied by a large number of sentences included in the similar sentence set as a representative sentence.
  • the similar sentence set generation unit 12 may specify a cluster-centered text as a representative sentence.
  • the similar sentence set extraction unit 13 extracts a specific sentence from sentences belonging to the similar sentence set using an extractor (hereinafter referred to as a specific sentence extractor) that can extract a specific sentence from a set of analysis target sentences. Identify sentences that cannot be extracted with a container.
  • a specific sentence extractor an extractor that can extract a specific sentence from a set of analysis target sentences.
  • the specific sentence extractor is prepared in advance according to the extraction target. If the specific sentence extractor can extract the specific sentence which shows the desired content from the set of analysis object sentences, the aspect is arbitrary.
  • the similar sentence set extraction unit 13 may use, for example, a specific sentence extractor that extracts text that matches a regular expression including a word indicating a desired content.
  • the method used by the specific sentence extractor to extract the specific sentence is not limited to a regular expression, and for example, a method of extracting a specific sentence based on an extraction rule or an extraction learning model may be used. .
  • the similar sentence set extraction unit 13 extracts a specific sentence for each similar sentence set using one or more specific sentence extractors.
  • the similar sentence set extraction unit 13 may count the number of specific sentences extracted from each similar sentence set for each specific sentence extractor.
  • the similar sentence set extraction part 13 specifies the sentence which was not extracted by the specific sentence extractor for every similar sentence set.
  • the similar sentence set extraction unit 13 may specify a sentence that has not been extracted, for example, by excluding the specific sentence extracted by the specific sentence extractor from the entire similar sentence set.
  • the similar sentence set extraction unit 13 counts the number of sentences not extracted for each similar sentence set. Then, the similar sentence set extraction unit 13 extracts one or more sentences not extracted by the specific sentence extractor from the sentences belonging to the similar sentence set as a similar sentence set. At this time, the similar sentence set extraction unit 13 extracts a similar sentence set according to the number of extracted specific sentences. Specifically, the similar sentence set extraction unit 13 extracts a similar sentence set in which the number of sentences included in the specified similar sentence set satisfies a predetermined condition.
  • the similar sentence set extraction unit 13 may extract, for example, a similar sentence set in which the number of specified sentences is equal to or greater than a predetermined threshold.
  • the similar sentence set extraction unit 13 determines a threshold according to a ratio between “the number of sentences extracted by the specific sentence extractor” and “the number of sentences not extracted by the specific sentence extractor”, for example.
  • a similar sentence set in which the number of specified sentences is equal to or greater than the determined threshold value may be extracted.
  • the threshold value is set lower as the “number of sentences not extracted by the specific sentence extractor” is larger than the “number of sentences extracted by the specific sentence extractor”.
  • the classification of a similar sentence set extracted in this way can be said to be a classification in which there is no extractor for individually extracting the sentence to which the sentence belongs, despite the classification to which many sentences included in the analysis target sentence belong. Therefore, by separately creating an extractor for extracting sentences belonging to this similar sentence set, it becomes possible to efficiently extract a specific sentence from the analysis target sentence, and the classification extracted from the analysis target sentence. Comprehensiveness can also be improved.
  • the extracted similar sentence set can be used as learning data for generating an extractor.
  • the similar sentence set extraction unit 13 extracts a similar sentence set, thereby specifying a target similar sentence set for which an extractor should be individually generated, and further generating the extractor. Learning data can be collected efficiently.
  • the similar sentence set extraction unit 13 may count the number of sentences extracted using the specific sentence extractor for each similar sentence set and display it in a table format.
  • FIG. 4 is an explanatory diagram showing an example in which the number of sentences to be extracted is displayed in a table format.
  • a similar sentence set is set on the front side, and the content of the specific sentence extractor used for extraction is set on the front of the table.
  • the rightmost column of the table indicates the number of sentences that have not been extracted by the specific sentence extractor.
  • sentences included in the similar sentence set indicating the content “high charge, high price” are extracted by using a specific sentence extractor that extracts “dissatisfaction with charge”. It is shown that five cases have been extracted using a specific sentence extractor that extracts “dissatisfaction regarding service contents”. In the case of the example shown in FIG. 4, the number of sentences that are not extracted using these two extractors among the sentences included in the similar sentence set indicating the content “high price, high price” is 0. It shows that there was.
  • the similar sentence set extraction unit 13 can determine that “other companies have better benefits, other companies better”, “ Two similar sentence sets that cannot be used on their own terminals can be extracted.
  • condition used by the similar sentence set extraction unit 13 to extract a similar sentence set is not limited to the number of sentences included in one similar sentence set.
  • the similar sentence set extraction unit 13 may use the number of sentences included in a new similar sentence set obtained by combining a plurality of identified similar sentence sets as a condition for extracting the similar sentence set.
  • the similar sentence set extraction unit 13 has a predetermined number of sentences included in a new similar sentence set in which one or more similar sentence sets including sentences not extracted by the specific sentence extractor are combined (combined). A similar sentence set that satisfies the conditions (ratio and number of cases) may be extracted.
  • the similar sentence set generation unit 12 may determine whether or not to extract a new similar sentence set obtained by combining a plurality of similar sentence sets.
  • ⁇ A method for combining a plurality of similar sentence sets is arbitrary.
  • the similar sentence set generation unit 12 may combine a plurality of similar sentence sets designated by the user.
  • the similar sentence set generation unit 12 may combine the similar sentence sets determined to be similar using any method for determining the similarity between the similar sentence sets.
  • the similar sentence set generation unit 12 is similar according to the number of sentences included in the similar sentence set and the ratio of the sentence extracted by the specific sentence extractor and the sentence not extracted, as in the method described above.
  • a sentence set may be extracted.
  • the similar sentence set generation unit 12 compares the value calculated according to the similarity between the combined similar sentence sets with a threshold without using the number of sentences included in each combined similar sentence set as it is. You may do it.
  • the similar sentence set generation unit 12 is generated by combining, for example, when the number of sentences included in two combined similar sentence sets is added or multiplied and the value obtained by multiplying the similarity exceeds a predetermined threshold value. A new set of similar sentences may be extracted.
  • the analysis target sentence input unit 11, the similar sentence set generation unit 12, and the similar sentence set extraction unit 13 are realized by a CPU of a computer that operates according to a program (sentence set extraction program).
  • the program is stored in a storage unit (not shown) included in the information processing apparatus that implements the sentence set extraction system, and the CPU reads the program, and according to the program, the analysis target sentence input unit 11 and the similar sentence set generation
  • the unit 12 and the similar sentence set extraction unit 13 may operate.
  • the analysis target sentence input unit 11, the similar sentence set generation unit 12, and the similar sentence set extraction unit 13 may each be realized by dedicated hardware.
  • FIG. 5 is a flowchart showing an operation example of the sentence set extraction system of this embodiment.
  • the analysis target sentence input unit 11 inputs an analysis target sentence (step S11).
  • the similar sentence set generation unit 12 creates a similar sentence set by grouping sentences having similar semantic contents from the set of input analysis target sentences (step S12).
  • the similar sentence set extraction unit 13 specifies sentences that are not extracted by the specific sentence extractor from sentences belonging to the similar sentence set (step S13), and counts the number of sentences specified for each similar sentence set (step S14). ). Then, the similar sentence set extraction unit 13 extracts a similar sentence set in which the number of specified sentences satisfies a predetermined condition (step S15).
  • the similar sentence set generation unit 12 creates a similar sentence set by grouping similar sentences from the set of analysis target sentences, and one or more similar sentence set extraction units 13 The one or more sentences that are not extracted by the specific sentence extractor are extracted as a similar sentence set from the sentences belonging to the similar sentence set.
  • FIG. FIG. 6 is a block diagram showing a configuration example of the second embodiment of the sentence set extraction system according to the present invention.
  • symbol same as FIG. 1 is attached
  • subjected and description is abbreviate
  • the sentence set extraction system of this embodiment includes an analysis target sentence input unit 11, an analysis sentence set generation unit 22, and a similar sentence set specification unit 23.
  • the sentence set extraction system of the present exemplary embodiment includes an analysis sentence set generation unit 22 and a similar sentence set identification unit 23 instead of the similar sentence set generation unit 12 and the similar sentence set extraction unit 13 in the first embodiment. ing.
  • the analysis sentence set generation unit 22 generates a set excluding the sentence extracted by the specific sentence extractor (hereinafter referred to as an analysis sentence set) from the set of analysis target sentences.
  • the contents of the specific sentence extractor used by the analysis sentence set generation unit 22 are the same as those of the specific sentence extractor used by the similar sentence set extraction unit 13 in the first embodiment.
  • the analysis sentence set generation unit 22 extracts a specific sentence from the analysis sentence target sentence using one or more specific sentence extractors, and excludes the extracted specific sentence from the analysis target sentence. Generate an analysis sentence set.
  • the similar sentence set specifying unit 23 creates a similar sentence set by grouping similar sentences from the generated analysis sentence set.
  • the method for creating the similar sentence set is the same as the method for creating the similar sentence set by the similar sentence set generation unit 12 of the first embodiment.
  • the similar sentence set specifying unit 23 counts the number of sentences included in each similar sentence set, and specifies a similar sentence set in which the number of sentences included in the similar sentence set satisfies a predetermined condition.
  • the similar sentence set specifying unit 23 may specify a similar sentence set in which the number of sentences included in the similar sentence set is equal to or greater than a predetermined threshold, and the similar sentence set extraction of the first embodiment
  • the ratio used by the unit 13 may be compared with a threshold value to specify a similar sentence set.
  • the classification of the similar sentence set identified in this way is an extraction for individually extracting the sentence to which the sentence belongs, regardless of the classification to which many sentences included in the analysis target sentence belong. It can be said that there is no vessel. Therefore, by creating a separate extractor for extracting sentences belonging to this set of similar sentences, it becomes possible to efficiently extract specific sentences from the analysis target sentence, and the comprehensiveness of the classification extracted from the analysis target sentence Can also be increased.
  • the similar sentence set specifying unit 23 may display the number of sentences included in each similar sentence set in a table format.
  • FIG. 7 is an explanatory diagram showing an example in which the number of sentences included in the extracted similar sentence set is displayed in a table format.
  • the number of sentences included in each similar sentence set illustrated in FIG. 7 corresponds to the number of sentences not extracted by the specific sentence extractor in FIG.
  • the analysis target sentence input unit 11, the analysis sentence set generation unit 22, and the similar sentence set specification unit 23 are realized by a CPU of a computer that operates according to a program (sentence set extraction program).
  • the analysis target sentence input unit 11, the analysis sentence set generation unit 22, and the similar sentence set specification unit 23 may each be realized by dedicated hardware.
  • FIG. 8 is a flowchart showing an operation example of the sentence set extraction system of this embodiment.
  • the analysis target sentence input unit 11 inputs an analysis target sentence (step S11).
  • the analysis sentence set generation unit 22 generates an analysis sentence set by excluding the sentence extracted by the specific sentence extractor from the set of analysis target sentences (step S22).
  • the similar sentence set specifying unit 23 creates a similar sentence set by grouping sentences having similar semantic contents from the analysis sentence set (step S23).
  • the similar sentence set specifying unit 23 counts the number of sentences included in each similar sentence set (step S24), and specifies a similar sentence set in which the number of sentences included in the similar sentence set satisfies a predetermined condition (step S25). ).
  • the analysis sentence set generation unit 22 generates an analysis sentence set excluding sentences extracted by one or more specific sentence extractors from a set of analysis target sentences, and a similar sentence set
  • the specifying unit 23 creates a similar sentence set by grouping similar sentences from the analysis sentence set. Then, the similar sentence set specifying unit 23 specifies a similar sentence set in which the number of included sentences satisfies a predetermined condition.
  • the sentence set extraction system since the sentence extracted by the specific sentence extractor is excluded before the similar sentence set is created, it is possible to reduce the sentences to which the similar sentence set is created. Compared with the sentence set extraction system of the first embodiment, the processing time can be further shortened.
  • the sentence extracted by each specific sentence extractor can be specified before excluding the sentence extracted by the specific sentence extractor. Therefore, as compared with the sentence set extraction system of the second embodiment, the number of sentences extracted by a plurality of specific sentence extractors can be specified.
  • FIG. 9 is a block diagram showing an outline of a sentence set extraction system according to the present invention.
  • a sentence set extraction system 81 according to the present invention generates a similar sentence set (for example, a set of specific sentences) by grouping sentences representing the same concept or event from a set of analysis target sentences.
  • a similar sentence set generation unit 12 and one or more specific sentence extractors capable of extracting a specific sentence belonging to a specific classification from a set of analysis target sentences, a specific sentence is extracted from sentences belonging to the similar sentence set
  • a similar sentence set extraction unit 82 for example, a similar sentence set extraction unit 13 that extracts one or more sentences that are not extracted by a container as an excluded similar sentence set.
  • Such a configuration makes it possible to exhaustively and efficiently extract each classified sentence even when the classification of sentences to be analyzed includes various classifications.
  • the similar sentence set extraction unit 82 determines that the number of sentences included in a new similar sentence set including one or more similar sentence sets including sentences that are not extracted by the specific sentence extractor is a predetermined condition (for example, A similar sentence set that satisfies the number of sentences, the ratio, etc. is equal to or greater than a predetermined threshold) may be extracted. Further, the similar sentence set extraction unit 82 specifies a similar sentence set including sentences that are not extracted by the specific sentence extractor, and selects a similar sentence set in which the number of sentences included in the specified similar sentence set satisfies a predetermined condition. It may be extracted.
  • a predetermined condition for example, A similar sentence set that satisfies the number of sentences, the ratio, etc. is equal to or greater than a predetermined threshold
  • the similar sentence set generation unit 81 may create a similar sentence set by clustering a set of analysis target sentences based on synonyms or implications between the analysis target sentences. With such a configuration, the contents of a similar sentence set can be tabulated in a form that can be directly understood. Therefore, the contents extracted by the extractor to be newly generated can also be classified into easy-to-understand contents.
  • the similar sentence set extraction unit 82 totals the number of sentences extracted using the specific sentence extractor for each similar sentence set, and the number of sentences extracted by each feature sentence extractor and the specific sentence extractor. The number of sentences that are not extracted may be output for each similar sentence set. By doing so, it becomes easy to grasp the extraction status of the specific sentence extractor currently used and the similar sentence set that needs to be newly created.
  • the sentence set extraction system may include an analysis target sentence input unit (for example, the analysis target sentence input unit 11) that extracts an analysis target sentence from a set of input sentences.
  • an analysis target sentence input unit for example, the analysis target sentence input unit 11
  • information other than the object for which the extractor is to be created can be excluded in advance, so that a specific sentence extractor with high accuracy can be generated.
  • FIG. 10 is a block diagram showing another outline of the sentence set extraction system according to the present invention.
  • Another sentence set extraction system according to the present invention uses one or more specific sentence extractors capable of extracting a specific sentence belonging to a specific classification from a set of analysis target sentences, and extracts a specific sentence from the set of analysis target sentences.
  • An analysis sentence set generation unit 91 (for example, an analysis sentence set generation unit 22) that generates an analysis sentence set excluding sentences extracted by a container, and sentences that represent the same concept or event from the analysis sentence set are grouped and similar
  • a similar sentence set identifying unit 92 (for example, a similar sentence set identifying unit 23) that creates a sentence set and identifies a similar sentence set that satisfies a predetermined condition (for example, a predetermined threshold or more).
  • each classified sentence can be exhaustively and efficiently extracted even when various classifications are included in the set of sentences to be analyzed.
  • the similar sentence set specifying unit 92 may create a similar sentence set by clustering the analysis sentence sets based on the synonyms or implications of the analysis target sentences. Even with such a configuration, the contents of a similar sentence set can be tabulated in a form that can be directly understood. Therefore, the contents extracted by the extractor to be newly generated can also be classified into easy-to-understand contents.
  • FIG. 11 is a block diagram showing an outline of the configuration of a computer.
  • the computer 1000 includes a CPU 1001, a main storage device 1002, an auxiliary storage device 1003, and an interface 1004.
  • the sentence set extraction system described above is implemented in one or more computers 1000.
  • the sentence set extraction system according to the present invention may be configured by one device, or may be configured by connecting two or more physically separated devices in a wired or wireless manner.
  • each processing unit described above is stored in the auxiliary storage device 1003 in the form of a program (sentence set extraction program).
  • the CPU 1001 reads out the program from the auxiliary storage device 1003, develops it in the main storage device 1002, and executes the above processing according to the above program.
  • the auxiliary storage device 1003 is an example of a tangible medium that is not temporary.
  • Other examples of non-temporary tangible media include magnetic disk, magneto-optical disk, CD-ROM (Compact Disc Read Only Memory), DVD-ROM (Digital Versatile Disk Read Only Memory) connected via the interface 1004 And semiconductor memory.
  • CD-ROM Compact Disc Read Only Memory
  • DVD-ROM Digital Versatile Disk Read Only Memory
  • the program may be for realizing a part of the above-described functions. Further, the program may be a so-called difference file (difference program) that realizes the above-described function in combination with another program already stored in the auxiliary storage device 1003.
  • difference file difference program

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 類似文集合生成部81は、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する。類似文集合抽出部82は、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する。

Description

文集合抽出システム、方法およびプログラム
 本発明は、分析対象の文が分類される集合を抽出する文集合抽出システム、文集合抽出方法および文集合抽出プログラムに関する。
 テキストマイニングは、自然言語で書かれたテキストデータを入力に、その内容の全体的な傾向を把握することや、有用な知見を発見するためのデータ分析手法である。テキストマイニングを利用することで、例えば、コールセンタの応対メモから問い合わせの内容を把握することなどが可能になる。
 例えば、特許文献1には、3単語以上の関係に着目して単語間の係り受け関係ネットワーク構造を表示するテキストマイニングシステムが記載されている。特許文献1に記載されたテキストマイニングシステムは、大量のテキストデータに含まれる言語情報を分析して、単語や係り受け関係の関連性を抽出し、これらの関連性のテキストマイニング結果を視覚化して表示する。
 なお、特許文献2には、テキスト間の同義や含意関係を判定し、意味が同じテキストをクラスタリングすることにより、テキストの内容を直接理解できる形式で集計する方法が記載されている。
特開2007-293685号公報 国際公開第2013/161850号
 一方、大量のテキストデータの中から特定の内容を示すテキストを抽出したい場合、特許文献1に記載されたシステムを用いるよりも、その内容を抽出するための抽出器を用いることが効率的である。抽出用ルールや抽出用学習モデルを予め構築しておくことで、このような抽出器を実現可能である。
 例えば、コールセンタへの問い合わせのうち、特定の要望やクレームを抽出したいとする。この場、例えば、「料金が高い」という内容や、「使い勝手が悪い」という内容に分類されるテキストを抽出する抽出器を用いることで、大量のテキストデータの中から効率的に対象のテキストを抽出することができる。
 しかし、このような抽出器で抽出可能なテキストは、予め想定される分類の内容を示すテキストに限られる。すなわち、想定できない内容の抽出器を予め準備しておくことは困難なため、想定しない内容のテキストについては、見落としが発生してしまう。
 例えば、上述する抽出器を利用する場合、コールセンタへの問い合わせを示すテキストデータの中から、「料金が高い」という内容や、「使い勝手が悪い」という内容を示すテキストを抽出することは可能である。しかし、このテキストデータの中に、「他社の方が良い」という内容を示すテキストが含まれていても、そのような内容を抽出する抽出器が存在しない場合には、そのテキストが見落とされてしまうことになる。
 図12は、一般的な方法により特定の意見を抽出する方法の例を示す説明図である。図12は、コールセンタの事例を示している。例えば、コールセンタへの問い合わせの中から、クレームや要望を分類して抽出するとする。図12に例示するアンダーラインが付された文は、クレームまたは要望を示している。
 図12に例示するように、「料金に関する不満」と「サービス内容に関する不満」の2種類の抽出器が存在するとする。この場合、「料金に関する不満」を抽出する抽出器を用いて2つの文が抽出され、「サービス内容に関する不満」を抽出する抽出器を用いて3つの文が抽出される。しかし、コールセンタへの問い合わせの中には、クレームまたは要望を示す文が他にも3つ存在するにもかかわらず、これらの文を抽出するための抽出器は存在していない。そのため、この場合、残りの3つの文は見落とされてしまうことになる。
 このように、大量のテキストデータに様々な分類が含まれているような場合、分類された各テキストを網羅的かつ効率的に抽出できることが望ましい。
 そこで、本発明は、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる文集合抽出システム、文集合抽出方法および文集合抽出プログラムを提供することを目的とする。
 本発明による文集合抽出システムは、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成部と、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する類似文集合抽出部とを備えたことを特徴とする。
 本発明による他の文集合抽出システムは、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、その分析対象文の集合から特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成部と、分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす類似文集合を特定する類似文集合特定部とを備えたことを特徴とする。
 本発明による文集合抽出方法は、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出することを特徴とする。
 本発明による他の文集合抽出方法は、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、その分析対象文の集合から特定文抽出器で抽出される文を除外した分析文集合を生成し、分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす類似文集合を特定することを特徴とする。
 本発明による文集合抽出プログラムは、コンピュータに、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成処理、および、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する類似文集合抽出処理を実行させることを特徴とする。
 本発明による他の文集合抽出プログラムは、コンピュータに、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、その分析対象文の集合から特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成処理、および、分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす類似文集合を特定する類似文集合特定処理を実行させることを特徴とする。
 本発明によれば、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。
本発明による文集合抽出システムの第1の実施形態の構成例を示すブロック図である。 文の関係を示す説明図である。 類似文集合を生成する処理の例を示す説明図である。 抽出される文の数を表形式で表示した例を示す説明図である。 第1の実施形態の文集合抽出システムの動作例を示すフローチャートである。 本発明による文集合抽出システムの第2の実施形態の構成例を示すブロック図である。 類似文集合に含まれる文の数を表形式で表示した例を示す説明図である。 第2の実施形態の文集合抽出システムの動作例を示すフローチャートである。 本発明による文集合抽出システムの概要を示すブロック図である。 本発明による文集合抽出システムの他の概要を示すブロック図である。 コンピュータの構成概要を示すブロック図である。 一般的な方法により特定の意見を抽出する方法の例を示す説明図である。
 以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
 図1は、本発明による文集合抽出システムの第1の実施形態の構成例を示すブロック図である。本実施形態の文集合抽出システムは、分析対象文入力部11と、類似文集合生成部12と、類似文集合抽出部13とを備えている。
 本実施形態の文集合抽出システムは、文の集合のうち、分析したい内容が記載された文の集合から、分類ごとに文の集合を抽出する。なお、本実施形態で文とは、句点やピリオドなどで区切られる単位に限定されず、所定の意味を表す単語のまとまりも含む。
 図2は、本発明で用いられる文の関係を示す説明図である。図2に例示するように、文の集合の中に、要望やクレームなど、分析したい内容が記載された文の集合が含まれる。以下の説明では、この文を分析対象文と記す。例えば、ユーザ等による要求を分析したい場合、この分析対象文は、各ユーザからの要求を示す要求文に該当する。
 また、図2に例示するように、分析対象文の集合に含まれる各文は、その分析対象文の特性に応じて分類される。以下、分析対象文を分類した文のことを、特定文と記す。なお、分析対象文のうち、要望やクレームの内容を分類した文は、特定意見文と言うこともできる。
 例えば、コールセンタのオペレータが作成するメモ等は、製品・サービスの改善に役立て得る情報である。このメモ等に含まれる文全体が、文の集合に相当し、要望やクレームを示す文が分析対象文に相当する。また、分析対象文を、「料金を安くしてほしい」、「サービス内容を充実してほしい」など、複数の項目に分けたものが特定文(特定意見文)に相当する。
 分析対象文入力部11は、分析対象文を入力する。分析対象文入力部11は、記憶装置(図示せず)に記憶された分析対象文を読み取って入力してもよく、他のシステムや装置から送信される分析対象文を受信することによって入力してもよい。
 また、分析対象文の代わりに、その上位である文の集合が入力された場合、分析対象文入力部11は、入力された文の集合から、分析したい内容を含む分析対象文を抽出してもよい。この場合、分析対象文入力部11は、一般的に知られた抽出器を用いて、分析対象文を抽出すればよい。
 また、例えば、コールセンタのオペレータが入力する画面上にクレームや要望の入力欄が存在する場合、分析対象文入力部11は、その入力欄に入力されるテキストを分析対象文として入力してもよい。また、分析対象文入力部11は、必要に応じて、入力される分析対象文のフォーマット変換等を行ってもよい。
 類似文集合生成部12は、分析対象文の集合から、類似する文をグループ化して類似文集合を作成する。類似文集合の作成方法は任意である。類似文集合生成部12は、例えば、文と文の間の類似性を、各文に含まれる単語や構文に基づいて総当たりで算出し、類似性の高い文を集約して類似文集合してもよい。また、類似文集合生成部12は、一般的なクラスタリング手法を用いて類似文集合を生成してもよい。このように分類された類似文集合に含まれる各文は、特定文に対応する。
 図3は、類似文集合を生成する処理の例を示す説明図である。図3に示す例では、分析対象文入力部11がコールセンタへの問い合わせを示す10個のテキストデータの中から、分析対象文抽出処理を行い、8つの分析対象文を抽出している。
 次に、類似文集合生成部12は、分析対象文の集合から類似文集合を作成する。図3に示す例では、類似文集計結果に示す各行が、類似文集合に対応する。図3に示す例では、同じ出来事を示す「料金が高い」、「値段が高い」という特定文が同じ類似文集合に属し、同様に、「UIが悪い」、「使い勝手が悪い」という特定文が同じ類似文集合に属している。
 なお、分析対象文を分類した類似文集合は、分類された内容が分かるように、意味的なまとまり(同じ概念)があることが望ましい。そのため、類似文集合生成部12は、分析対象文の集合から意味的に類似する文をグループ化して類似文集合を生成することが望ましい。意味的に類似する文をグループ化する方法として、同義または含意関係に基づいてクラスタリングする方法が知られている。類似文集合生成部12は、例えば、特許文献2に記載されているような方法を用いて、分析対象文の集合から類似文集合を生成してもよい。同義または含意関係に基づいてクラスタリングすることにより、類似文集合の内容を直接理解できる形で集計できる。
 また、類似文集合生成部12は、類似文集合の内容を示す文(以下、代表文と記す。)を特定してもよい。例えば、含意認識技術を用いて類似文集合を生成する場合、類似文集合生成部12は、その類似文集合に含まれる多数の文が含意する内容を示すテキストを代表文に特定してもよい。また、例えば、一般的なクラスタリング手法を用いて類似文集合を生成する場合、類似文集合生成部12は、クラスタ中心のテキストを代表文に特定してもよい。
 類似文集合抽出部13は、分析対象文の集合から特定文を抽出可能な抽出器(以下、特定文抽出器と記す。)を用いて、類似文集合に属する文の中から、特定文抽出器で抽出されない文を特定する。
 特定文抽出器は、抽出の対象に応じて予め準備される。特定文抽出器は、分析対象文の集合から所望の内容を示す特定文を抽出できるものであれば、その態様は任意である。類似文集合抽出部13は、例えば、所望の内容を示す単語を含む正規表現に一致するテキストを抽出する特定文抽出器を利用してもよい。ただし、特定文抽出器が特定文を抽出するために用いる方法は、正規表現に限定されず、例えば、抽出用ルールや抽出用学習モデルに基づいて特定文を抽出する方法が用いられてもよい。
 具体的には、類似文集合抽出部13は、1つ以上の特定文抽出器を用いて、類似文集合ごとに特定文を抽出する。このとき、類似文集合抽出部13は、各類似文集合から抽出された特定文の数を、特定文抽出器ごとに集計してもよい。そして、類似文集合抽出部13は、特定文抽出器によって抽出されなかった文を類似文集合ごとに特定する。類似文集合抽出部13は、例えば、特定文抽出器によって抽出された特定文を類似文集合全体から除外することによって、抽出されなかった文を特定してもよい。
 次に、類似文集合抽出部13は、抽出されなかった文の数を類似文集合ごとに集計する。そして、類似文集合抽出部13は、類似文集合に属する文の中から特定文抽出器で抽出されない1つ以上の文を類似文集合として抽出する。このとき、類似文集合抽出部13は、抽出された特定文の数に応じて類似文集合を抽出する。具体的には、類似文集合抽出部13は、特定された類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する。
 類似文集合抽出部13は、例えば、特定された文の数が予め定めた閾値以上である類似文集合を抽出してもよい。また、類似文集合抽出部13は、例えば、「特定文抽出器で抽出される文の数」と「特定文抽出器で抽出されなかった文の数」との比率に応じて閾値を決定し、特定された文の数が決定された閾値以上である類似文集合を抽出してもよい。具体的には、閾値は、「特定文抽出器で抽出されなかった文の数」が「特定文抽出器で抽出される文の数」に対して多いほど低く設定される。
 このようにして抽出される類似文集合の分類は、分析対象文に含まれる多くの文が属する分類にも関わらず、属する文を個別に抽出するための抽出器が存在しない分類と言える。したがって、この類似文集合に属する文を抽出するための抽出器を別途作成することにより、分析対象文から、効率よく特定文を抽出できるようになり、かつ、分析対象文から抽出される分類の網羅性も高めることができる。
 また、抽出される類似文集合は、抽出器を生成するための学習データとして利用することが可能である。このように、本実施形態では、類似文集合抽出部13が類似文集合を抽出することにより、個々に抽出器を生成すべき対象の類似文集合を特定でき、さらに、その抽出器を生成するための学習データも効率的に収集できる。
 また、類似文集合抽出部13は、特定文抽出器を用いて抽出される文の数を類似文集合ごとに集計し、表形式で表示してもよい。図4は、抽出される文の数を表形式で表示した例を示す説明図である。図4に例示する表では、表側に類似文集合を設定し、表頭に抽出に用いた特定文抽出器の内容を設定している。また、表の一番右の列は、特定文抽出器で抽出されなかった文の数を示している。
 図4に示す例の場合、例えば、「料金が高い、値段が高い」という内容を示す類似文集合に含まれる文は、「料金に関する不満」を抽出する特定文抽出器を用いて30件抽出され、「サービス内容に関する不満」を抽出する特定文抽出器を用いて5件抽出されたことを示す。また、図4に示す例の場合、「料金が高い、値段が高い」という内容を示す類似文集合に含まれる文のうち、この2つの抽出器を用いて抽出されない文の件数が0件であったことを示す。
 一方、「他社の方が特典が良い、他社の方が良い」という内容を示す類似文集合に含まれる文は、「料金に関する不満」を抽出する特定文抽出器を用いて5件抽出され、「サービス内容に関する不満」を抽出する特定文抽出器を用いて5件抽出されたことを示す。また、「他社の方が特典が良い、他社の方が良い」という内容を示す類似文集合に含まれる文のうち、この2つの抽出器を用いて抽出されない文の件数が30件だったことを示す。
 この表から、「他社の方が特典が良い、他社の方が良い」という内容を示す文が分析対象文に多く含まれているにもかかわらず、このような文を適切に抽出する抽出器が存在しないことが分かる。この結果をもとに、管理者等は、「他社の方が特典が良い、他社の方が良い」という内容を抽出するための抽出器を作成すればよい。
 図4に示す例の場合、例えば、抽出されない文の数の閾値を20に設定することで、類似文集合抽出部13は、「他社の方が特典が良い、他社の方が良い」、「自分の端末で使えない」という2つの類似文集合を抽出できる。
 なお、類似文集合抽出部13が類似文集合を抽出するために用いられる条件は、1つの類似文集合に含まれる文の数に限定されない。類似文集合抽出部13は、特定された複数の類似文集合を結合した新たな類似文集合に含まれる文の数を、類似文集合を抽出するための条件に用いてもよい。
 すなわち、類似文集合抽出部13は、特定文抽出器で抽出されない文を含む1つ以上の類似文集合が結合された(纏められた)新たな類似文集合に含まれる文の数が所定の条件(比率や件数)を満たす類似文集合を抽出してもよい。
 例えば、類似文集合生成部12がそれぞれ別の集合として生成した類似文集合であっても、抽出器を生成する際、類似する文を含む類似文集合をまとめて抽出可能な抽出器を生成したいと考える場合が想定される。ここで、以下の2つの類似文集合を想定する。
 含意による類似文集合1:「動画がかくかくする、動画の描画が遅い」
 含意による類似文集合2:「待ち時間が長い、画面切り替えで待たされる」
 類似文集合生成部12が、この2つの類似文集合をそれぞれ別に生成したとする。一方、この2つの類似文集合の両方に含まれる文を抽出するための抽出器として、「描画速度への要求」という抽出器を生成することが考えられる。そこで、類似文集合生成部12は、複数の類似文集合を結合した新たな類似文集合を対象に、抽出の有無を判断してもよい。
 複数の類似文集合を結合する方法は任意である。類似文集合生成部12は、例えば、ユーザによって指定された複数の類似文集合を結合してもよい。また、類似文集合生成部12は、類似文集合同士の類似度を判断する任意の方法を用いて、類似すると判定された類似文集合同士を結合してもよい。
 このとき、類似文集合生成部12は、上述する方法と同様に、類似文集合に含まれる文の数や、特定文抽出器で抽出された文と抽出されなかった文の比率に応じて類似文集合を抽出してもよい。また、類似文集合生成部12は、結合したそれぞれの類似文集合に含まれる文の数をそのまま用いずに、結合した類似文集合同士の類似度に応じて算出される値を閾値と比較するようにしてもよい。類似文集合生成部12は、例えば、結合した2つの類似文集合に含まれる文の数を加算又は乗算し、さらに類似度を乗じた値が所定の閾値を超える場合に、結合して生成された新たな類似文集合を抽出してもよい。
 分析対象文入力部11と、類似文集合生成部12と、類似文集合抽出部13とは、プログラム(文集合抽出プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、文集合抽出システムを実現する情報処理装置が備える記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、分析対象文入力部11、類似文集合生成部12および類似文集合抽出部13として動作してもよい。また、分析対象文入力部11と、類似文集合生成部12と、類似文集合抽出部13とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、本実施形態の文集合抽出システムの動作を説明する。図5は、本実施形態の文集合抽出システムの動作例を示すフローチャートである。
 分析対象文入力部11は、分析対象文を入力する(ステップS11)。類似文集合生成部12は、入力された分析対象文の集合から、意味内容が類似する文をグループ化して類似文集合を作成する(ステップS12)。類似文集合抽出部13は、類似文集合に属する文の中から特定文抽出器で抽出されない文を特定し(ステップS13)、類似文集合ごとに特定された文の数を集計する(ステップS14)。そして、類似文集合抽出部13は、特定された文の数が所定の条件を満たす類似文集合を抽出する(ステップS15)。
 以上のように、本実施形態では、類似文集合生成部12が、分析対象文の集合から、類似する文をグループ化して類似文集合を作成し、類似文集合抽出部13が、1つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない1つ以上の文を類似文集合として抽出する。
 そのような構成により、抽出器を作成すべき類似文集合が特定できるため、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。
実施形態2.
 図6は、本発明による文集合抽出システムの第2の実施形態の構成例を示すブロック図である。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。本実施形態の文集合抽出システムは、分析対象文入力部11と、分析文集合生成部22と、類似文集合特定部23とを備えている。
 すなわち、本実施形態の文集合抽出システムは、第1の実施形態における類似文集合生成部12と類似文集合抽出部13の代わりに、分析文集合生成部22と類似文集合特定部23を備えている。
 分析文集合生成部22は、分析対象文の集合から、特定文抽出器で抽出される文を除外した集合(以下、分析文集合と記す。)を生成する。分析文集合生成部22が用いる特定文抽出器の内容は、第1の実施形態で類似文集合抽出部13が用いる特定文抽出器と同様である。
 具体的には、分析文集合生成部22は、1つ以上の特定文抽出器を用いて、分析文対象文から特定文を抽出し、抽出した特定文を分析対象文から除外することで、分析文集合を生成する。
 類似文集合特定部23は、生成された分析文集合から、類似する文をグループ化して類似文集合を作成する。この類似文集合の作成方法は、第1の実施形態の類似文集合生成部12が類似文集合を作成する方法と同様である。そして、類似文集合特定部23は、各類似文集合に含まれる文の数を集計し、その類似文集合に含まれる文の数が所定の条件を満たす類似文集合を特定する。具体的には、類似文集合特定部23は、類似文集合に含まれる文の数が予め定めた閾値以上である類似文集合を特定してもよく、第1の実施形態の類似文集合抽出部13が用いる比率を閾値と比較して類似文集合を特定してもよい。
 このようにして特定される類似文集合の分類も、第1の実施形態と同様に、分析対象文に含まれる多くの文が属する分類にも関わらず、属する文を個別に抽出するための抽出器が存在しない分類と言える。したがって、この類似文集合に属する文を抽出するための抽出器を別途作成することにより、分析対象文から、効率よく特定文を抽出できるようになり、分析対象文から抽出される分類の網羅性も高めることができる。
 また、類似文集合特定部23は、各類似文集合に含まれる文の数を表形式で表示してもよい。図7は、抽出される類似文集合に含まれる文の数を表形式で表示した例を示す説明図である。なお、図7に例示する各類似文集合に含まれる文の数は、図4において、特定文抽出器で抽出されなかった文の数に対応する。
 分析対象文入力部11と、分析文集合生成部22と、類似文集合特定部23とは、プログラム(文集合抽出プログラム)に従って動作するコンピュータのCPUによって実現される。また、分析対象文入力部11と、分析文集合生成部22と、類似文集合特定部23とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、本実施形態の文集合抽出システムの動作を説明する。図8は、本実施形態の文集合抽出システムの動作例を示すフローチャートである。
 分析対象文入力部11は、分析対象文を入力する(ステップS11)。分析文集合生成部22は、特定文抽出器で抽出される文を分析対象文の集合から除外した分析文集合を生成する(ステップS22)。類似文集合特定部23は、分析文集合から、意味内容が類似する文をグループ化して類似文集合を作成する(ステップS23)。類似文集合特定部23は、各類似文集合に含まれる文の数を集計し(ステップS24)、類似文集合に含まれる文の数が所定の条件を満たす類似文集合を特定する(ステップS25)。
 以上のように、本実施形態では、分析文集合生成部22が、分析対象文の集合から1つ以上の特定文抽出器で抽出される文を除外した分析文集合を生成し、類似文集合特定部23が、分析文集合から、類似する文をグループ化して類似文集合を作成する。そして、類似文集合特定部23が、含まれる文の数が所定の条件を満たす類似文集合を特定する。
 そのような構成によっても、第1の実施形態と同様に、抽出器を作成すべき類似文集合が特定できるため、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。
 なお、第2の実施形態の文集合抽出システムでは、類似文集合を作成する前に、特定文抽出器で抽出される文を除外するため、類似文集合を作成する対象の文を削減できるため、第1の実施形態の文集合抽出システムと比較すると、より処理時間を短くできる。
 一方、第1の実施形態の文集合抽出システムでは、特定文抽出器で抽出される文を除外する前に、各特定文抽出器で抽出される文を特定できる。そのため、第2の実施形態の文集合抽出システムと比較すると、複数の特定文抽出器で抽出される文の数も特定することが可能になる。
 次に、本発明の概要を説明する。図9は、本発明による文集合抽出システムの概要を示すブロック図である。本発明による文集合抽出システムは、分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合(例えば、特定文の集合)を作成する類似文集合生成部81(例えば、類似文集合生成部12)と、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、類似文集合に属する文の中から特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する類似文集合抽出部82(例えば、類似文集合抽出部13)とを備えている。
 そのような構成により、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。
 具体的には、類似文集合抽出部82は、特定文抽出器で抽出されない文を含む1つ以上の類似文集合を纏めた新たな類似文集合に含まれる文の数が所定の条件(例えば、文の数、比率などが所定の閾値以上)を満たす類似文集合を抽出してもよい。また、類似文集合抽出部82は、特定文抽出器で抽出されない文を含む類似文集合をそれぞれ特定し、特定された類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出してもよい。
 また、類似文集合生成部81は、分析対象文同士の同義または含意関係に基づいて、分析対象文の集合をクラスタリングすることにより、類似文集合を作成してもよい。そのような構成により、類似文集合の内容を直接理解できる形で集計できる。よって、新たに生成しようとする抽出器で抽出される内容も、理解しやすい内容に分類できる。
 また、類似文集合抽出部82は、特定文抽出器を用いて抽出される文の数を類似文集合ごとに集計し、各特徴文抽出器で抽出された文の数および特定文抽出器で抽出されなかった文の数を類似文集合ごとに出力してもよい。そのようにすることで、現在利用している特定文抽出器の抽出状況や、新たに特定文抽出器の作成が必要な類似文集合の把握が容易になる。
 また、文集合抽出システムは、入力される文の集合から、分析対象文を抽出する分析対象文入力部(例えば、分析対象文入力部11)を備えていてもよい。そのような構成によれば、抽出器を作成する対象以外の情報を事前に除外できるため、精度の良い特定文抽出器を生成することが可能になる。
 図10は、本発明による文集合抽出システムの他の概要を示すブロック図である。本発明による他の文集合抽出システムは、分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、その分析対象文の集合から特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成部91(例えば、分析文集合生成部22)と、分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす(例えば、予め定めた閾値以上である)類似文集合を特定する類似文集合特定部92(例えば、類似文集合特定部23)とを備えている。
 そのような構成であっても、分析対象とする文の集合に様々な分類が含まれているような場合であっても、分類された各文を網羅的かつ効率的に抽出できる。
 また、類似文集合特定部92は、分析対象文同士の同義または含意関係に基づいて、分析文集合をクラスタリングすることにより、類似文集合を作成してもよい。そのような構成によっても、類似文集合の内容を直接理解できる形で集計できる。よって、新たに生成しようとする抽出器で抽出される内容も、理解しやすい内容に分類できる。
 図11は、コンピュータの構成概要を示すブロック図である。コンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004とを備える。
 上述の文集合抽出システムは、1つ以上のコンピュータ1000に実装される。本発明に係る文集合抽出システムは、1つの装置で構成されていてもよく、2つ以上の物理的に分離した装置が有線または無線で接続されることにより構成されていてもよい。
 上述した各処理部の動作は、プログラム(文集合抽出プログラム)の形式で補助記憶装置1003に記憶されている。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、上記プログラムに従って上記処理を実行する。
 なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory )、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が上記プログラムを主記憶装置1002に展開し、上記処理を実行しても良い。
 また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、上記プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であっても良い。
 以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2014年7月23日に出願された日本特許出願2014-149425を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 11 分析対象文入力部
 12 類似文集合生成部
 13 類似文集合抽出部
 22 分析文集合生成部
 23 類似文集合特定部

Claims (16)

  1.  分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成部と、
     分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する類似文集合抽出部とを備えた
     ことを特徴とする文集合抽出システム。
  2.  類似文集合抽出部は、特定文抽出器で抽出されない文を含む1つ以上の類似文集合を纏めた新たな類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する
     請求項1記載の文集合抽出システム。
  3.  類似文集合抽出部は、特定文抽出器で抽出されない文を含む類似文集合をそれぞれ特定し、特定された類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する
     請求項1記載の文集合抽出システム。
  4.  類似文集合生成部は、分析対象文同士の同義または含意関係に基づいて、分析対象文の集合をクラスタリングすることにより、類似文集合を作成する
     請求項1から請求項3のうちのいずれか1項に記載の文集合抽出システム。
  5.  類似文集合抽出部は、特定文抽出器を用いて抽出される文の数を類似文集合ごとに集計し、各特徴文抽出器で抽出された文の数および当該特定文抽出器で抽出されなかった文の数を類似文集合ごとに出力する
     請求項1から請求項4のうちのいずれか1項に記載の文集合抽出システム。
  6.  入力される文の集合から、分析対象文を抽出する分析対象文入力部を備えた
     請求項1から請求項5のうちのいずれか1項に記載の文集合抽出システム。
  7.  分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、当該分析対象文の集合から前記特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成部と、
     前記分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす類似文集合を特定する類似文集合特定部とを備えた
     ことを特徴とする文集合抽出システム。
  8.  類似文集合特定部は、分析対象文同士の同義または含意関係に基づいて、分析文集合をクラスタリングすることにより、類似文集合を作成する
     請求項7記載の文集合抽出システム。
  9.  分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、
     分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する
     ことを特徴とする文集合抽出方法。
  10.  特定文抽出器で抽出されない文を含む1つ以上の類似文集合を纏めた新たな類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出する
     請求項9記載の文集合抽出方法。
  11.  分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、当該分析対象文の集合から前記特定文抽出器で抽出される文を除外した分析文集合を生成し、
     前記分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、
     含まれる文の数が所定の条件を満たす類似文集合を特定する
     ことを特徴とする文集合抽出方法。
  12.  分析対象文同士の同義または含意関係に基づいて、分析文集合をクラスタリングすることにより、類似文集合を作成する
     請求項11記載の文集合抽出方法。
  13.  コンピュータに、
     分析対象文の集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成する類似文集合生成処理、および、
     分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、前記類似文集合に属する文の中から当該特定文抽出器で抽出されない1つ以上の文を除外類似文集合として抽出する類似文集合抽出処理
     を実行させるための文集合抽出プログラム。
  14.  コンピュータに、
     類似文集合抽出処理で、特定文抽出器で抽出されない文を含む1つ以上の類似文集合を纏めた新たな類似文集合に含まれる文の数が所定の条件を満たす類似文集合を抽出させる
     請求項13記載の文集合抽出プログラム。
  15.  コンピュータに、
     分析対象文の集合から特定の分類に属する特定文を抽出可能な1つ以上の特定文抽出器を用いて、当該分析対象文の集合から前記特定文抽出器で抽出される文を除外した分析文集合を生成する分析文集合生成処理、および、
     前記分析文集合から、同じ概念または出来事を表わす文をグループ化して類似文集合を作成し、含まれる文の数が所定の条件を満たす類似文集合を特定する類似文集合特定処理
     を実行させるための文集合抽出プログラム。
  16.  コンピュータに、
     類似文集合特定処理で、分析対象文同士の同義または含意関係に基づいて、分析文集合をクラスタリングさせることにより、類似文集合を作成させる
     請求項15記載の文集合抽出プログラム。
PCT/JP2015/003652 2014-07-23 2015-07-21 文集合抽出システム、方法およびプログラム WO2016013209A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/328,199 US20170220585A1 (en) 2014-07-23 2015-07-21 Sentence set extraction system, method, and program
JP2016535794A JP6536580B2 (ja) 2014-07-23 2015-07-21 文集合抽出システム、方法およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014149425 2014-07-23
JP2014-149425 2014-07-23

Publications (1)

Publication Number Publication Date
WO2016013209A1 true WO2016013209A1 (ja) 2016-01-28

Family

ID=55162753

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/003652 WO2016013209A1 (ja) 2014-07-23 2015-07-21 文集合抽出システム、方法およびプログラム

Country Status (3)

Country Link
US (1) US20170220585A1 (ja)
JP (1) JP6536580B2 (ja)
WO (1) WO2016013209A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11328025B1 (en) 2019-04-26 2022-05-10 Bank Of America Corporation Validating mappings between documents using machine learning
US11783005B2 (en) 2019-04-26 2023-10-10 Bank Of America Corporation Classifying and mapping sentences using machine learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141132A (ja) * 2001-10-30 2003-05-16 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2010267141A (ja) * 2009-05-15 2010-11-25 Toshiba Corp 文書分類装置およびプログラム
WO2013038774A1 (ja) * 2011-09-15 2013-03-21 株式会社東芝 文書分類装置、方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003141132A (ja) * 2001-10-30 2003-05-16 Nippon Yunishisu Kk 情報処理装置およびその方法
JP2010267141A (ja) * 2009-05-15 2010-11-25 Toshiba Corp 文書分類装置およびプログラム
WO2013038774A1 (ja) * 2011-09-15 2013-03-21 株式会社東芝 文書分類装置、方法およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAZUYUKI GOTO ET AL.: "Interactive document classification system to accelerate information and knowledge utilization", TOSHIBA REVIEW, vol. 65, no. 2, 1 February 2010 (2010-02-01), pages 60 - 63 *
YASUNARI MIYABE: "User no Ito o Han'ei shita Taiwagata Bunsho Bunrui Gijutsu", TOSHIBA REVIEW, vol. 64, no. 2, 1 February 2009 (2009-02-01), pages 58 - 59 *

Also Published As

Publication number Publication date
JPWO2016013209A1 (ja) 2017-04-27
US20170220585A1 (en) 2017-08-03
JP6536580B2 (ja) 2019-07-03

Similar Documents

Publication Publication Date Title
JP6653334B2 (ja) 情報抽出方法及び装置
US10546005B2 (en) Perspective data analysis and management
AU2017216520A1 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
CN104142990A (zh) 搜索方法及装置
JP7309811B2 (ja) データ注釈方法、装置、電子機器および記憶媒体
KR20120047622A (ko) 디지털 콘텐츠 관리 시스템 및 방법
CN113627132B (zh) 数据去重标记码生成方法、系统、电子设备及存储介质
WO2016013209A1 (ja) 文集合抽出システム、方法およびプログラム
CN109033082B (zh) 语义模型的学习训练方法、装置及计算机可读存储介质
CN112148841B (zh) 一种对象分类以及分类模型构建方法和装置
CN110874366A (zh) 数据处理、查询方法和装置
US20170139897A1 (en) Method, system, and computer program product for dividing a term with appropriate granularity
EP3370136A1 (en) Input data processing method, apparatus and device, and non-volatile computer storage medium
JP6508327B2 (ja) テキスト可視化システム、テキスト可視化方法、及び、プログラム
WO2015016133A1 (ja) 情報管理装置及び情報管理方法
CN103678355B (zh) 文本挖掘方法和文本挖掘装置
CN106446046B (zh) 一种在关系数据库中及时快速分析记录的方法
JP6642429B2 (ja) テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
CN106462614B (zh) 信息分析系统、信息分析方法以及信息分析程序
JP5162215B2 (ja) データ処理装置、データ処理方法、および、プログラム
JP6190341B2 (ja) データ生成装置、データ生成方法、及びプログラム
JP5954742B2 (ja) 文書を検索する装置及び方法
KR102078541B1 (ko) 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체
CN113656443B (zh) 数据拆解方法、装置、电子设备和存储介质
US10909154B2 (en) Search system, search method and search program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15825290

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016535794

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 15328199

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 15825290

Country of ref document: EP

Kind code of ref document: A1