WO2012124213A1 - 要約作成装置、要約作成方法、およびコンピュータ読み取り可能な記録媒体 - Google Patents

要約作成装置、要約作成方法、およびコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
WO2012124213A1
WO2012124213A1 PCT/JP2011/077340 JP2011077340W WO2012124213A1 WO 2012124213 A1 WO2012124213 A1 WO 2012124213A1 JP 2011077340 W JP2011077340 W JP 2011077340W WO 2012124213 A1 WO2012124213 A1 WO 2012124213A1
Authority
WO
WIPO (PCT)
Prior art keywords
reaction
sentence
evaluation
reason
classification
Prior art date
Application number
PCT/JP2011/077340
Other languages
English (en)
French (fr)
Inventor
村岡優輔
楠村幸貴
水口弘紀
久寿居大
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2013504513A priority Critical patent/JP5942981B2/ja
Publication of WO2012124213A1 publication Critical patent/WO2012124213A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present invention relates to a summary creation device, and more particularly, to a summary creation device, a summary creation method, and a program for creating a summary for a document that describes a response to an article.
  • FIG. 11 is a block diagram showing an example of a conventional summarization system.
  • the conventional summarization system 200 disclosed in Patent Document 1 includes a word dividing unit 201, an importance level assigning unit 202, a partial word string generating unit 203, an N-gram probability giving unit 204, An N-gram probability table 205, a summary sentence probability calculation unit 206, and a summary sentence output unit 207 are provided.
  • the word dividing unit 201 divides the input text into words, and the importance level assigning unit 202 assigns importance levels to each word in the divided word sequence. Is granted.
  • the partial word string generation unit 203 generates a partial word string that is a summary sentence candidate from the word string, and the N-gram probability assignment unit 204 assigns an N-gram probability to the partial word string.
  • the summary sentence probability calculating unit 206 calculates the summary sentence likelihood of the partial word string based on the importance of the word and the N-gram probability
  • the summary sentence output unit 207 displays the partial word having the maximum summary sentence likelihood. Output a column.
  • the summarization system disclosed in Patent Document 1 should leave each word in the summary result using whether it is an independent word, the importance of each word by TF / IDF, and the N-gram probability of the word sequence. Decide if it is a word.
  • An object of the present invention is to provide a summary creation device, a summary creation method, and a computer-readable recording medium capable of solving the above-described problems and creating a summary including a plurality of different opinions.
  • a summary creation device is a device for creating a summary of a set of reaction sentences, An extraction unit that extracts an evaluation expression indicating evaluation and a reason part indicating the reason for the evaluation from each reaction sentence included in the reaction sentence set; A ranking unit that classifies each response sentence included in the reaction set based on the evaluation expression and the reason part, and assigns a rank to each classification; and A summary creation unit for creating a summary of the set of reaction sentences based on the summary of each classification and the ranking; It is characterized by having.
  • a summary creation method in one aspect of the present invention is a method for creating a summary of a set of reaction sentences, (A) extracting an evaluation expression indicating evaluation and a reason portion indicating the reason for the evaluation from each reaction sentence included in the reaction sentence set; (B) classifying each reaction sentence included in the reaction set based on the evaluation expression and the reason part, and assigning a rank for each classification; (C) creating a summary of the set of reaction sentences based on the summary of each classification and the ranking; It is characterized by having.
  • a computer-readable recording medium is a recording medium recording a program for creating a summary of a set of reaction sentences by a computer, In the computer, (A) extracting an evaluation expression indicating evaluation and a reason portion indicating the reason for the evaluation from each reaction sentence included in the reaction sentence set; (B) classifying each reaction sentence included in the reaction set based on the evaluation expression and the reason part, and assigning a rank for each classification; (C) creating a summary of the set of reaction sentences based on the summary of each classification and the ranking; A program including an instruction for executing is recorded.
  • a summary including a plurality of different opinions can be created.
  • FIG. 1 is a block diagram showing a configuration of a summary creation device according to Embodiment 1 of the present invention.
  • FIG. 2 is a flowchart showing the operation of the summary creation device according to Embodiment 1 of the present invention.
  • FIG. 3 is a diagram showing a specific example of the reaction sentence set used in Embodiment 1 of the present invention.
  • FIG. 4 is a diagram showing a specific example of evaluation expressions and their classifications stored in advance in the evaluation expression classification storage device in the first embodiment of the present invention.
  • FIG. 5 is a diagram showing a specific example of data stored in the reaction text storage device in the first exemplary embodiment of the present invention.
  • FIG. 6 is a diagram illustrating a state after clustering of the data illustrated in FIG. FIG.
  • FIG. 7 is a block diagram showing the configuration of the summary creation device according to Embodiment 2 of the present invention.
  • FIG. 8 is a flowchart showing the operation of the summary creation device according to Embodiment 2 of the present invention.
  • FIG. 9 is a diagram showing a specific example of data stored in the reaction text storage device in the second exemplary embodiment of the present invention.
  • FIG. 10 is a block diagram illustrating an example of a computer that implements the summary creation device according to Embodiments 1 and 2 of the present invention.
  • FIG. 11 is a block diagram showing an example of a conventional summarization system.
  • Embodiment 1 The summary creation device, summary creation method, and program according to Embodiment 1 of the present invention will be described below with reference to FIGS.
  • reaction sentence is a sentence in which a reader of a document states an impression of the document or an opinion on the document.
  • An example of a response to a blog post is a reader comment displayed on the site.
  • An example of a response sentence to an article posted on a Web site is a Twitter tweet including the URL of the article.
  • Evaluation expression is an expression that can determine the value of an object.
  • the evaluation expression includes nouns such as “best”, “exquisite”, and “unusual” in addition to the phrases “good”, “cool”, and “bad”.
  • the “reason part” is a part that becomes the basis of the evaluation expression, and is, for example, a word or a sentence having a dependency relationship with the evaluation expression.
  • FIG. 1 is a block diagram showing a configuration of a summary creation device according to Embodiment 1 of the present invention.
  • the summary creation device 2 includes an extraction unit 21, a ranking unit 22, and a summary creation unit 24.
  • a response sentence set is input to the summary creation device 2 from the outside.
  • the extraction unit 21 extracts an evaluation expression indicating evaluation and a reason portion indicating the reason for evaluation from each reaction sentence included in the reaction sentence set.
  • the ranking unit 22 classifies each reaction sentence included in the reaction set based on the extracted evaluation expression and reason part, and assigns a rank to each classification.
  • the summary creation unit 24 creates a summary of the response sentence set based on the summary and rank of each classification.
  • each response sentence is classified according to the content of the opinion by classification based on the evaluation expression and the reason part included in each reaction sentence. Further, since the summaries of the respective categories are combined based on the rank for each category, as a result, a summary including a plurality of different opinions is created.
  • an input device 1 As shown in FIG. 1, an input device 1, a storage device 3, and an output device 4 are connected to the summary creation device 2, and a summary system is configured by these devices.
  • the input device 1 is a terminal device used by a user, and is connected to the summary creation device 2 via a network.
  • the output device 1 is a display device such as a liquid crystal display device or a printer. Note that the output device 1 may also be a terminal device connected to the summary creation device 2 via a network, like the input device 1.
  • the storage device 3 further includes an evaluation expression classification storage device 31 and a reaction sentence storage device 32.
  • the evaluation expression classification storage device 31 stores a preset surface character string of the evaluation expression and a classification number of the evaluation expression in association with each other (see FIG. 4 described later).
  • the reaction sentence storage device 32 associates the surface character string of the evaluation expression extracted by the extraction unit 21 and its classification number, the surface character string of the reason part extracted in the same manner, and the original reaction sentence. Store (see FIG. 5 described later). In addition, when the processing by the ranking unit 22 is further performed, the response sentence storage device 32 also stores information (classification number of a reason part described later) that specifies the classification result in association with the evaluation expression and the reason part. (See FIG. 6 described later).
  • the ranking unit 22 includes a clustering unit 23 that classifies reaction sentences in the first embodiment.
  • the clustering unit 23 performs classification (clustering) based on commonality of evaluation expressions and classification (clustering) based on commonality of reason parts, and thereby each reaction included in the reaction set. Classify sentences into multiple clusters.
  • the ranking unit 22 ranks each classification (cluster) based on the appearance frequency of each evaluation expression extracted by the extraction unit 21 and the appearance frequency of each reason part extracted by the extraction unit 21. Give.
  • the summary creation unit 24 creates a summary for each classification (cluster). At this time, the summary creation unit 24 sets the length of the summary for each category according to the rank, for example, so that the summary for the higher-level category becomes longer, and the set length. Create a summary.
  • the summary creation unit 24 includes a summary selection unit 25.
  • the summary selection unit 25 selects a summary based on the ranking from the created summaries, and creates a summary of the reaction sentence set using the selected summary.
  • the summary creating unit 25 selects the summaries in order from the top in the range of the number of characters set in advance, arranges the selected summaries in the order of rank, and summarizes the reaction sentence set. It can also be.
  • FIG. 2 is a flowchart showing the operation of the summary creation device according to Embodiment 1 of the present invention.
  • FIG. 1 is taken into consideration as appropriate.
  • the summary creation method is implemented by operating the summary creation device 2. Therefore, the description of the summary creation method in the first embodiment is replaced with the following description of the operation of the summary creation device 2.
  • the user inputs a response sentence set (see FIG. 3) for a certain article to the input device 1, and sets the number of characters (summary sentence length) of the summary of the reaction sentence set. Thereafter, the input device 1 inputs the reaction sentence set to the extraction unit 21 and inputs the summary sentence length to the summary creation unit 24.
  • the extraction unit 21 and the summary creation unit 24 accept input of each data from the input device 1 (step S ⁇ b> 2). A1).
  • the extracting unit 21 refers to the surface character string of the evaluation expression stored in the evaluation expression classification storage device 31 (see FIG. 4), and from each reaction sentence included in the reaction sentence set input in step A1.
  • the evaluation expression is extracted (step A2).
  • the extraction unit 21 leaves the reaction sentence that does not include the evaluation expression as it is. Only the reaction sentence including the evaluation expression proceeds to Step A3.
  • the extraction unit 21 extracts the reason part of the evaluation expression for the reaction sentence including the evaluation expression (step A3). Specifically, the extraction unit 21 first extracts a word having a dependency relationship with the evaluation expression as a reason part of the evaluation expression.
  • the extraction unit 21 determines a phrase indicating the reason for the reaction sentence based on the particle and the conjunction, and uses the determined phrase as the reason part of the evaluation expression. . Further, when there is no phrase indicating the reason, the extraction unit 21 sets the reason part of the evaluation expression as an empty character string. In step A3, the extraction unit 21 records the surface character string of the evaluation expression, its classification number, the reason part of the evaluation expression, and the original reaction sentence in the reaction sentence storage device 32 (see FIG. 5). .
  • the clustering unit 23 clusters the reaction sentences stored in the reaction sentence storage device 32 on the basis of the commonality of the reason parts of the evaluation expressions, and further adds a common evaluation expression to the obtained clusters. Clustering based on sex is also executed (step A4).
  • the ranking unit 22 obtains the appearance frequency of each evaluation expression and each reason part stored in the response sentence storage device 32, and for each cluster created in step A4 based on the obtained appearance frequency. The ranking is performed, and the ranking is given to each cluster (step A5). The ranking unit 22 inputs the ranking result to the summary creation unit 24.
  • the summary creation unit 24 determines the length of the summary to be assigned to each cluster in order from the top ranking based on the ranking result input in step A5 (step A6). Then, the summary creation unit 24 creates a summary for each cluster so as to have the length determined in step A6 (step A7).
  • the summary is created by using, for example, the reason part of one of the reaction sentences in the cluster.
  • each summary (text) arranged in order of rank is input to the summary selection unit 25.
  • the summary selection unit 25 ranks higher in order so that the length of the text is less than or equal to the summary sentence length. Selections are made in order from the summary (step A8). That is, the summary selection unit 25 extracts a part of the text input in step A7 from the beginning of the sentence to the break of the reaction sentence so as to be less than the summary sentence length. Thereafter, the summary selection unit 25 inputs the text obtained by arranging the selected summaries in order of rank to the output device 4 as a summary of the reaction sentence set.
  • FIG. 3 is a diagram showing a specific example of the reaction sentence set used in Embodiment 1 of the present invention.
  • FIG. 4 is a diagram showing a specific example of evaluation expressions and their classifications stored in advance in the evaluation expression classification storage device in the first embodiment of the present invention.
  • FIG. 5 is a diagram showing a specific example of data stored in the reaction text storage device in the first exemplary embodiment of the present invention.
  • FIG. 6 is a diagram illustrating a state after clustering of the data illustrated in FIG.
  • Step A1 First, it is assumed that the user inputs the reaction sentence set shown in FIG. 3 to the input device 1 and further sets the summary sentence length to “6 words”. Thereby, the input device 1 inputs the reaction sentence set shown in FIG. 3 to the extraction unit 21 and inputs the length of the summary sentence to the summary creation unit 24.
  • the extraction unit 21 receives the input of the reaction sentence set illustrated in FIG. 3, and the summary creation unit 24 receives the summary sentence length “6 words”.
  • the extraction unit 21 refers to the surface character string of the evaluation expression shown in FIG. 4 and determines whether or not the input reaction sentence includes the evaluation expression stored in the evaluation expression classification storage device 31. In the case of judging, the evaluation expression is extracted from the reaction sentence. At this time, the extraction unit 21 also extracts a classification number (evaluation expression classification number) set to the evaluation expression. Then, as illustrated in FIG. 5, the extraction unit 21 records the extracted evaluation expression, the evaluation expression classification number, and the original reaction sentence in the reaction sentence storage device 32.
  • a classification number evaluation expression classification number
  • the extraction unit 21 determines that the evaluation expression “highest” (see FIG. 5) is included, extracts the evaluation expression, and then performs the next step A3. Execute. On the other hand, for the response sentence “I missed again”, the extraction unit 21 determines that the evaluation expression is not included, and does not perform any further processing.
  • the evaluation expression classification symbols are assigned so that the evaluation expressions having similar meanings have the same number.
  • numbers may be assigned based on other fixed classifications such as positive evaluation, negative evaluation, and neutral evaluation.
  • Step A3 The extraction unit 21 extracts a reason part of the evaluation for the reaction sentence including the evaluation expression. For example, in response to a response sentence “I am happy that I win every day”, the extraction unit 21 determines that the main character of the evaluation expression “I am happy” is “Victory”, and the phrase that qualifies “Victory” is “ Is determined. Then, the extraction unit 21 extracts the character string “winning every day” as the reason portion.
  • the extraction unit 21 uses a phrase indicating the reason of the response sentence as the reason part. Extract. Specifically, the extraction unit 21 extracts a phrase ending with the particle “So”, that is, “Because B has been injured” as a phrase indicating “reason” before “unfortunate”. To do. Then, the extraction unit 21 extracts “B has been injured” excluding the particle part as a reason part.
  • the extraction unit 21 determines that the reason part is an empty character string for the reaction sentence because there is no phrase representing the reason in the reaction sentence “highest!”. As shown in FIG. 5, the extraction unit 21 records the reason part of the evaluation expression extracted in this way in the reaction sentence storage device 32.
  • Step A4 the clustering unit 23 refers to the reason part stored in the reaction sentence storage device 32 and clusters each reaction sentence. For example, suppose that the reasoning part “B has been injured” and the evaluation expression “sorry” are recorded for the response sentence “B is injured because it has been injured”. On the other hand, there are other reaction sentences in which the evaluation expression is “sorry”, “B is unfortunate”, “injury is unfortunate”, and “B injuries are unfortunate”.
  • the clustering unit 23 collects each reaction sentence for one reason. For example, the clustering unit 23 determines that all the independent words in the reason part of a certain reaction sentence are the reasons for other reaction sentences. If included in the part, the two response sentences are judged to be the same cluster.
  • the clustering unit 23 further divides the cluster based on the commonness of the evaluation expressions, that is, the classification number of the evaluation expressions (see FIG. 4).
  • the method of clustering reaction sentences is not limited to the above example.
  • the clustering may be performed from the viewpoint of whether the appearance frequency of the evaluation expression is high (or low).
  • the clustering unit 23 assigns a reason part classification number to each reaction sentence in order to identify the cluster. Then, as shown in FIG. 6, the clustering unit 23 records the reason part classification number in the reaction sentence storage device 32.
  • the ranking unit 22 refers to the information recorded in the reaction text storage device 32 and ranks each cluster. Specifically, for example, the ranking unit 22 compares the appearance frequencies of the reason part and the evaluation part between the clusters, and ranks them in order from the cluster having the highest appearance frequency. In addition, when the appearance frequency of the reason part and the evaluation part is the same among the clusters, the ranking unit 22 ranks the one having the larger number of reaction sentences included in the cluster in the higher rank.
  • each cluster is represented by “(reason partial classification number, evaluation expression classification number)”.
  • the ranking results are (4, 2), (5, 3), (1, 1), (6, 4), (2, 1), ( 3, 1).
  • the ranking criteria is not limited to the above.
  • a criterion for selecting a cluster having a reverse property with respect to the previously selected cluster and the reason part or evaluation expression for example, the appearance frequency of the reason part and the evaluation part is , High frequency / low frequency.
  • the summary unit 24 determines the length of the summary assigned to each cluster based on the ranking result. In the present embodiment, it is assumed that the summary creation unit 24 always assigns two or more words according to the rank of the cluster. For example, the summary creation unit 24 assigns the length assigned to the first ranked cluster (4, 2) to 3 words, the second assigned to the second cluster (5, 3), 2 words, the third ranked cluster (1, 2). The length to be assigned to 1) is determined to be 2 words, and the length to be assigned to the fourth and lower clusters is determined to be 2 words.
  • Step A7 The summary creation unit 24 creates a summary for each cluster so as to have the length determined in step A6.
  • the summary creation unit 24 executes the summarization according to the summarization technique using the importance of existing words. Specifically, the summary creating unit 24 sets the score of the independent word of the reason part and the score of the word of the evaluation expression high, and specifies the reaction sentence with the most detailed reason part in each cluster. Then, the summary creation unit 24 summarizes the identified response sentence and makes it a summary of the corresponding cluster.
  • the summary creating unit 24 has three types, “I am very sorry because B is injured”, “I am looking forward to the next final match”, and “Best!”.
  • a summary will be created for the response sentence.
  • the summary sentence “B injury unfortunate, final match fun, best” obtained by arranging the summary sentences “B injury unfortunate”, “fun for the final match”, and “best” obtained in order from each reaction sentence is the summary selection unit 25. Is input.
  • the obtained text is a collection of cluster summaries and corresponds to a summary of reaction sentence set, but step A8 is further executed.
  • Step A8 The summary selection unit 25 divides a part of the text from the beginning of the sentence to the break of the reaction sentence so that the text input in step A7 is less than or equal to the summary sentence length “6 words” input in step A1.
  • the extracted result is input to the output device 4.
  • the summary selection unit 25 inputs “B injury unfortunate, final game fun” to the output device 4.
  • the text input to the output device 4 becomes the final summary of the reaction sentence set.
  • the program in the first embodiment may be a program that causes a computer to execute steps A1 to A8 shown in FIG. By installing and executing this program on a computer, the summary creation device 2 and the summary creation method according to the first embodiment can be realized.
  • a CPU Central Processing Unit
  • the computer functions as the extraction unit 21, the ranking unit 22, and the summary creation unit 24 to perform processing.
  • the storage device 3 may be realized by a storage device such as a hard disk provided in the computer, or may be realized by an external storage device connected to the computer. good.
  • reaction sentences having different evaluations such as a positive evaluation and a negative evaluation are separately clustered, and a summary prepared for each cluster is used. An overall summary is created. Therefore, since the obtained summary includes many different opinions, the user can easily determine whether or not it is necessary to read a huge amount of reaction sentences (utterances) in detail.
  • FIG. 7 is a block diagram showing the configuration of the summary creation device according to Embodiment 2 of the present invention.
  • article summary sentence a summary of an article (hereinafter referred to as “article summary sentence”) that is a source of a response sentence is input from the input device 1 to the summary creation apparatus 5 according to the second embodiment. . Then, the clustering unit 26 of the summary creation device 5 performs clustering using the article summary.
  • the summary creation device 5 in the second embodiment is configured in the same manner as the summary creation device 2 in the first embodiment shown in FIG. Hereinafter, the difference will be mainly described.
  • the clustering unit 26 determines whether the reason part is included in the article summary sentence for each reaction sentence. Further, the clustering unit 26 causes the reaction sentence storage device 32 to record the determination result for each reaction sentence. Specifically, the response sentence storage device 32 stores information indicating whether or not the reason part is included in the article summary sentence for each reaction sentence. Then, the clustering unit 26 performs clustering on each reaction sentence included in the reaction set, using the obtained determination result.
  • FIG. 8 is a flowchart showing the operation of the summary creation device according to Embodiment 2 of the present invention.
  • FIG. 7 is referred to as appropriate.
  • the summary creation method is implemented by operating the summary creation device 5. Therefore, the description of the summary creation method in the second embodiment is replaced with the following description of the operation of the summary creation apparatus 2.
  • the user in addition to the input of the response sentence set to the input device 1 and the setting of the number of characters (summary sentence length) of the summary of the reaction sentence set, the user The article summary sentence input to 1 is also executed. Thereafter, the input device 1 inputs the reaction sentence set to the extraction unit 21, inputs the summary sentence length to the summary creation unit 24, and inputs the article summary sentence to the clustering unit 23.
  • the extraction unit 21 refers to the evaluation expression surface character string stored in the evaluation expression classification storage device 31 (see FIG. 4), extracts the evaluation expression from each reaction sentence (step B2), and then continues. Then, the reason part is extracted from the response sentence (step B3). Steps B2 and B3 are similar to steps A2 and A3 shown in FIG.
  • the extraction unit 21 determines whether or not the reason part of the extracted evaluation expression is included in the article summary sentence input in Step B1 (Step B4). For example, in step B ⁇ b> 4, the extraction unit 21 determines “included in the article summary sentence” if the independent part of the reason part is included in the article summary sentence. On the other hand, if the independent part of the reason part is not included in the article summary sentence, it is determined as “not included in the article summary sentence”.
  • step B4 will be described with reference to FIG.
  • the word “win” included in the reason part of the response sentence “I am happy to win every day” is the article summary. include.
  • the extraction part 21 determines with the reason part of the reaction sentence "I am glad to win every day” included in the article summary sentence.
  • the clustering unit 23 determines that the reason part of the reaction sentence is not included in the article summary sentence. . Further, the clustering unit 23 determines that the reason portion is included in the article summary sentence when the reason portion is an empty character string.
  • the extraction unit 21 includes the reason part in the article summary sentence in addition to the surface character string of the evaluation expression, its classification number, the reason part of the evaluation expression, and the original reaction sentence.
  • the information indicating whether or not to be recorded is recorded in the reaction sentence storage device 32.
  • FIG. 9 is a diagram showing a specific example of data stored in the reaction text storage device in the second exemplary embodiment of the present invention.
  • the clustering unit 23 clusters the reaction sentences stored in the reaction sentence storage device 32 based on the determination result of step B4, and further, based on the commonness of the evaluation expressions for the obtained clusters. Clustering is also executed (step B5). That is, in step B5, clustering is performed from the viewpoint of whether the reason part is included in the article summary sentence.
  • Step B6 is the same as step A5 shown in FIG.
  • the summary creation unit 24 determines the summary length to be assigned to each cluster in order from the top of the ranking (step B7). Then, the summary creation unit 24 creates a summary for each cluster, and arranges the created summaries along the ranking (step B8). After that, the summary selection unit 25 selects the summaries in order from the top summary so that the length of the text obtained in step B8 is equal to or less than the summary sentence length (step B9). As a result, a summary of the set of reaction sentences is obtained and input to the output device 4. Steps B7 to B9 are the same as steps A6 to A8 shown in FIG.
  • the program in the second embodiment may be a program that causes a computer to execute steps B1 to B9 shown in FIG.
  • the summary creation device 5 and the summary creation method according to the second embodiment can be realized.
  • the CPU of the computer functions as the extraction unit 21, the ranking unit 22, and the summary creation unit 24 to perform processing.
  • the storage device 3 may be realized by a storage device such as a hard disk provided in the computer, or an external device connected to the computer. It may be realized by the storage device.
  • reaction sentences having different evaluations are clustered separately, and a summary of the entire reaction sentence set is created using summaries created for each cluster. For this reason, even when this Embodiment 2 is used, since the obtained summary includes many different opinions, as in Embodiment 1, the user has a huge amount of reaction sentences (sentences). Can be easily determined whether it is necessary to read.
  • FIG. 10 is a block diagram illustrating an example of a computer that implements the summary creation device according to Embodiments 1 and 2 of the present invention.
  • the computer 110 includes a CPU 111, a main memory 112, a storage device 113, an input interface 114, a display controller 115, a data reader / writer 116, and a communication interface 117. These units are connected to each other via a bus 121 so that data communication is possible.
  • the CPU 111 performs various operations by expanding the program (code) in the present embodiment stored in the storage device 113 in the main memory 112 and executing them in a predetermined order.
  • the main memory 112 is typically a volatile storage device such as a DRAM (Dynamic Random Access Memory).
  • the program in the present embodiment is provided in a state of being stored in a computer-readable recording medium 120. Note that the program in the present embodiment may be distributed on the Internet connected via the communication interface 117.
  • the storage device 113 include a semiconductor storage device such as a flash memory in addition to a hard disk.
  • the input interface 114 mediates data transmission between the CPU 111 and an input device 118 such as a keyboard and a mouse.
  • the display controller 115 is connected to the display device 119 and controls display on the display device 119.
  • the data reader / writer 116 mediates data transmission between the CPU 111 and the recording medium 120, and reads a program from the recording medium 120 and writes a processing result in the computer 110 to the recording medium 120.
  • the communication interface 117 mediates data transmission between the CPU 111 and another computer.
  • the recording medium 120 include general-purpose semiconductor storage devices such as CF (Compact Flash) and SD (Secure Digital), magnetic storage media such as a flexible disk, or CD-ROM (Compact Disk).
  • Optical storage media such as “Read Only Memory”.
  • a summary creating device comprising:
  • the summary creation unit creates a summary for each classification, selects a summary based on the ranking from the created summaries, and creates a summary of the reaction sentence set using the selected summary. 4.
  • the summary creation device according to any one of items 1 to 3.
  • Additional summary 4 or 5 wherein the summary creation unit selects the summaries in order from the highest summary within the range of the number of characters set in advance, and arranges the selected summaries in the order of the ranks to obtain the summary of the reaction sentence set.
  • (Appendix 7) A method for creating a summary of a set of response sentences, (A) extracting an evaluation expression indicating evaluation and a reason portion indicating the reason for the evaluation from each reaction sentence included in the reaction sentence set; (B) classifying each reaction sentence included in the reaction set based on the evaluation expression and the reason part, and assigning a rank for each classification; (C) creating a summary of the set of reaction sentences based on the summary of each classification and the ranking;
  • a method for creating a summary comprising:
  • step (c) a summary is created for each classification, a summary is selected from the created summaries based on the ranking, and a summary of the reaction sentence set is created using the selected summary.
  • the summary creation method according to any one of appendices 7 to 9.
  • a computer-readable recording medium storing a program for creating a summary of a set of reaction sentences by a computer, In the computer, (A) extracting an evaluation expression indicating evaluation and a reason portion indicating the reason for the evaluation from each reaction sentence included in the reaction sentence set; (B) classifying each reaction sentence included in the reaction set based on the evaluation expression and the reason part, and assigning a rank for each classification; (C) creating a summary of the set of reaction sentences based on the summary of each classification and the ranking; The computer-readable recording medium which records the program containing the instruction
  • step (b) classification based on the commonality of the evaluation expressions and classification based on the commonality of the reason part are performed to classify each reaction sentence included in the reaction set,
  • reaction sentence included in the reaction sentence set is created based on a specific article, In the step (b), for each reaction sentence, it is determined whether the reason part is included in the summary of the specific article, and using the obtained determination result, each reason included in the reaction set
  • step (c) a summary is created for each classification, a summary is selected from the created summaries based on the ranking, and a summary of the reaction sentence set is created using the selected summary.
  • the computer-readable recording medium according to any one of appendices 7 to 9.
  • this invention is useful for the system which summarizes the response sentence with respect to an article.
  • the present invention is particularly useful for a purpose of presenting a noticed portion of an article in which a reaction exists on the Web, a purpose of presenting a response sentence to an article, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 要約作成装置2は、反応文集合の要約を作成する。要約作成装置2は、反応文集合に含まれる各反応文から、評価を示す評価表現、および評価の理由を示す理由部分を抽出する、抽出部21と、評価表現および理由部分に基づいて、反応集合に含まれる各反応文を分類し、分類毎に順位を付与する、ランキング部22と、分類それぞれの要約および順位に基づいて、反応文集合の要約を作成する、要約作成部24とを備えている。

Description

要約作成装置、要約作成方法、およびコンピュータ読み取り可能な記録媒体
 本発明は、要約作成装置に関し、特には、記事に対する反応を記述した文書を対象として要約を作成する、要約作成装置、要約作成方法、およびプログラムに関する。
 Twitterのようなマイクロブログでは、ある発言、記事に対して、その発言または記事を見た人の意見または好き嫌いなどの反応が発言として関連付けられる。このような発言は、近年、膨大なものとなっており、自分が関心を持つ発言だけでも全てを読むことは困難になりつつある。従って、膨大な量の発言を、詳しく読むかどうかを判断するために、要約を作成することは有用である。
 このため、特許文献1は、文書を要約するシステムの一例を提案している。図11は、従来からの要約システムの一例を示すブロック図である。図11に示すように、特許文献1に開示された従来の要約システム200は、単語分割部201と、重要度付与部202と、部分単語列生成部203と、Nグラム確率付与部204と、Nグラム確率テーブル205と、要約文確率算出部206と、要約文出力部207とを備えている。
 要約システム200において、まず、テキストが入力されると、単語分割部201が、入力されたテキストを単語に分割し、重要度付与部202が、分割された単語列の各単語に対して重要度を付与する。次に、部分単語列生成部203が、単語列から要約文候補となる部分単語列を生成し、Nグラム確率付与部204が、部分単語列に対して、Nグラム確率を付与する。その後、要約文確率算出部206が、単語の重要度とNグラム確率とに基づいて、部分単語列の要約文らしさを計算すると、要約文出力部207が、要約文らしさが最大となる部分単語列を出力する。
 このように、特許文献1に開示された要約システム200によれば、最も要約文らしい部分単語例が出力される。このため、出力された部分単語列を用いることで、簡単に要約を作成することができる。
特許第3790187号公報
 ところで、特許文献1に開示された要約システムは、自立語かどうかと、TF・IDFによる各単語の重要度と、単語の並びのNグラム確率とを用いて、各単語が要約結果に残すべき単語であるかどうかを決定している。
 つまり、特許文献1に開示された要約システムでは、文書に記載されている意見または評価の内容までは考慮されておらず、反応文の集合はまとめて扱われている。このため、特許文献1に開示された要約システムには、多くの異なった意見を含んだ要約を作成することができないという問題がある。
[発明の目的]
 本発明の目的の一例は、上記問題を解消し、複数の異なった意見を含む要約を作成し得る、要約作成装置、要約作成方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
 上記目的を達成するため、本発明の一側面における要約作成装置は、反応文集合の要約を作成する装置であって、
 前記反応文集合に含まれる各反応文から、評価を示す評価表現、および前記評価の理由を示す理由部分を抽出する、抽出部と、
 前記評価表現および前記理由部分に基づいて、前記反応集合に含まれる各反応文を分類し、分類毎に順位を付与する、ランキング部と、
 前記分類それぞれの要約および前記順位に基づいて、前記反応文集合の要約を作成する、要約作成部と、
を備えていることを特徴とする。
 また、上記目的を達成するため、本発明の一側面における要約作成方法は、反応文集合の要約を作成するための方法であって、
(a)前記反応文集合に含まれる各反応文から、評価を示す評価表現、および前記評価の理由を示す理由部分を抽出する、ステップと、
(b)前記評価表現および前記理由部分に基づいて、前記反応集合に含まれる各反応文を分類し、分類毎に順位を付与する、ステップと、
(c)前記分類それぞれの要約および前記順位に基づいて、前記反応文集合の要約を作成する、ステップと、
を有することを特徴とする。
 更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、コンピュータによって反応文集合の要約を作成するための、プログラムを記録した記録媒体であって、
前記コンピュータに、
(a)前記反応文集合に含まれる各反応文から、評価を示す評価表現、および前記評価の理由を示す理由部分を抽出する、ステップと、
(b)前記評価表現および前記理由部分に基づいて、前記反応集合に含まれる各反応文を分類し、分類毎に順位を付与する、ステップと、
(c)前記分類それぞれの要約および前記順位に基づいて、前記反応文集合の要約を作成する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とする。
 以上のように、本発明によれば、複数の異なった意見を含む要約を作成することができる。
図1は、本発明の実施の形態1における要約作成装置の構成を示すブロック図である。 図2は、本発明の実施の形態1における要約作成装置の動作を示すフロー図である。 図3は、本発明の実施の形態1において用いられる反応文集合の具体例を示す図である。 図4は、本発明の実施の形態1において、評価表現分類記憶装置に予め記憶されている評価表現とその分類との具体例を示す図である。 図5は、本発明の実施の形態1において反応文記憶装置に記憶されているデータの具体例を示す図である。 図6は、図5に示したデータのクラスタリング後の状態を示す図である。 図7は、本発明の実施の形態2における要約作成装置の構成を示すブロック図である。 図8は、本発明の実施の形態2における要約作成装置の動作を示すフロー図である。 図9は、本発明の実施の形態2において反応文記憶装置に記憶されているデータの具体例を示す図である。 図10は、本発明の実施の形態1および2における要約作成装置を実現するコンピュータの一例を示すブロック図である。 図11は、従来からの要約システムの一例を示すブロック図である。
(実施の形態1)
 以下、本発明の実施の形態1における、要約作成装置、要約作成方法、およびプログラムについて、図1~図6を参照しながら説明する。
 最初に、本明細書で用いる用語について以下の通りに定義する。
 「反応文」とは、ある文書の読者が、その文書の感想または文書に対する意見などを述べた文のことである。ブログ記事に対する反応文の例としては、サイトで表示される読者コメントなどが挙げられる。また、Webサイトに掲載された記事に対する反応文の例としては、記事のURLを含むTwitterのつぶやきなどが挙げられる。
 「評価表現」とは、事物に対する価値を定めることのできる表現である。例えば、評価表現としては、「良い」、「かっこいい」、「悪い」といった用言の他に、「最高」、「絶品」、「駄作」といった名詞も含まれる。また、「理由部分」とは、評価表現の根拠となった部分であり、例えば、評価表現と係り受け関係にある単語および文章などである。
[装置構成]
 続いて、本実施の形態1における要約作成装置2の構成について図1を用いて説明する。図1は、本発明の実施の形態1における要約作成装置の構成を示すブロック図である。
 図1に示すように、本実施の形態1における要約作成装置2は、抽出部21と、ランキング部22と、要約作成部24とを備えている。要約作成装置2には、外部から、反応文集合が入力される。
 抽出部21は、反応文集合に含まれる各反応文から、評価を示す評価表現、および評価の理由を示す理由部分を抽出する。ランキング部22は、抽出された評価表現および理由部分に基づいて、反応集合に含まれる各反応文を分類し、分類毎に順位を付与する。要約作成部24は、分類それぞれの要約および順位に基づいて、反応文集合の要約を作成する。
 このように、要約作成装置2においては、各反応文に含まれる評価表現および理由部分に基づく分類により、各反応文は、意見の内容に応じて分類される。また、分類毎の順位に基づいて各分類の要約が組み合わされるため、結果、複数の異なった意見を含む要約が作成される。
 ここで、要約作成装置2の構成についてさらに具体的に説明する。図1に示すように、要約作成装置2には、入力装置1と、記憶装置3と、出力装置4とが接続され、これらによって要約システムが構成されている。
 入力装置1は、利用者が使用する端末装置であり、ネットワークを介して要約作成装置2に接続されている。出力装置1は、液晶表示装置といったディスプレイ装置、またはプリンタである。なお、出力装置1も、入力装置1と同様に、要約作成装置2にネットワークを介して接続された端末装置であっても良い。
 記憶装置3は、さらに、評価表現分類記憶装置31と、反応文記憶装置32を備えている。評価表現分類記憶装置31は、予め設定された、評価表現の表層文字列と、その評価表現の分類番号とを対応付けて記憶している(後述の図4参照)。
 反応文記憶装置32は、抽出部21によって抽出された、評価表現の表層文字列およびその分類番号と、同じく抽出された理由部分の表層文字列と、元になった反応文とを対応付けて記憶する(後述の図5参照)。また、反応文記憶装置32は、更に、ランキング部22による処理が行われると、分類の結果を特定する情報(後述する理由部分の分類番号)も、評価表現および理由部分に対応付けて記憶する(後述の図6参照)。
 ランキング部22は、本実施の形態1では、反応文の分類を行うクラスタリング部23を備えている。クラスタリング23部は、本実施の形態1では、評価表現の共通性に基づく分類(クラスタリング)と、理由部分の共通性に基づく分類(クラスタリング)とを行い、これによって、反応集合に含まれる各反応文を複数のクラスタに分類する。
 また、ランキング部22は、抽出部21によって抽出された各評価表現の出現頻度と、同じく抽出部21によって抽出された各理由部分の出現頻度とに基づいて、分類(クラスタ)毎に、順位を付与する。
 要約作成部24は、本実施の形態1では、分類(クラスタ)毎に要約を作成する。また、このとき、要約作成部24は、分類それぞれについて、順位に応じて、例えば、上位の分類の要約については長さが長くなるように、要約の長さを設定し、設定した長さで、要約を作成する。
 また、要約作成部24は、要約選択部25を備えている。要約選択部25は、作成された要約の中から順位に基づいて要約を選択し、選択した要約を用いて、反応文集合の要約を作成する。このとき、本実施の形態1では、要約作成部25は、予め設定された字数の範囲内で、順位が上位の要約から順に選択し、選択した要約を順位の順に並べて、反応文集合の要約とすることもできる。
[装置動作]
 次に、本発明の実施の形態1における要約作成装置2の動作について、図2を用いて説明する。図2は、本発明の実施の形態1における要約作成装置の動作を示すフロー図である。以下の説明においては、適宜図1を参酌する。また、本実施の形態1では、要約作成装置2を動作させることによって、要約作成方法が実施される。よって、本実施の形態1における要約作成方法の説明は、以下の要約作成装置2の動作説明に代える。
 まず、前提として、利用者が、入力装置1に、ある記事に対する反応文集合(図3参照)を入力し、そして、反応文集合の要約の字数(要約文長さ)を設定する。その後、入力装置1は、反応文集合を抽出部21に入力し、要約文長さを要約作成部24に入力する。
 入力装置1からの各データの入力が行われると、図2に示すように、要約作成装置2において、抽出部21および要約作成部24は、入力装置1からの各データの入力を受け付ける(ステップA1)。
 次に、抽出部21は、評価表現分類記憶装置31に記憶されている評価表現の表層文字列(図4参照)を参照し、ステップA1で入力された反応文集合に含まれる各反応文から、評価表現を抽出する(ステップA2)。なお、抽出部21は、ステップA2において、評価表現を含まない反応文については、そのまま放置する。評価表現を含む反応文のみがステップA3に進む。
 次に、抽出部21は、評価表現を含む反応文に対して、評価表現の理由部分を抽出する(ステップA3)。具体的には、抽出部21は、まず、評価表現と係り受け関係にある単語を、評価表現の理由部分として抽出する。
 また、抽出部21は、もし、係り受け関係にある単語が存在しない場合は、反応文の理由を表す句を、助詞および接続詞を元に判定し、判定した句を評価表現の理由部分とする。さらに、抽出部21は、理由を表す句が存在しない場合、評価表現の理由部分を空文字列とする。また、ステップA3では、抽出部21は、評価表現の表層文字列、その分類番号、評価表現の理由部分、および元となった反応文を、反応文記憶装置32に記録させる(図5参照)。
 次に、クラスタリング部23は、反応文記憶装置32に記憶されている反応文を、評価表現の理由部分の共通性に基づいてクラスタリングし、得られたクラスタに対して、さらに、評価表現の共通性に基づいたクラスタリングも実行する(ステップA4)。
 次に、ランキング部22は、反応文記憶装置32に記憶されている各評価表現および各理由部分の出現頻度を求め、求めた各出現頻度に基づいて、ステップA4で作成された各クラスタに対してランキングを行い、各クラスタに順位を付与する(ステップA5)。また、ランキング部22は、ランキング結果を、要約作成部24に入力する。
 次に、要約作成部24は、ステップA5で入力されたランキング結果に基づいて、各クラスタに割当てる要約の長さを、ランキング上位から順に決定する(ステップA6)。そして、要約作成部24は、ステップA6で決定した長さとなるようにして、クラスタ毎に要約を作成する(ステップA7)。要約の作成は、例えば、クラスタ中のいずれかの反応文の理由部分を用いるなどして行われる。また、ステップA7により、要約選択部25には、順位の順に並べられた各要約(テキスト)が入力される。
 次に、要約選択部25は、ステップA7で入力されたテキストと、ステップA1で入力された要約文長さとに基づき、当該テキストの長さが要約文長さ以下になるよう、順位が上位の要約から順に選択する(ステップA8)。即ち、要約選択部25は、ステップA7で入力されたテキストの一部を、要約文長さ以下となるようにして、文頭から反応文の区切りまでで抽出する。その後、要約選択部25は、選択した要約を順位の順に並べて得られるテキストを、反応文集合の要約として、出力装置4に入力する。
[装置動作:具体例]
 ここで、図3~図6に示す具体的なデータを用いて、本実施の形態における要約作成装置2の処理動作をさらに詳細に説明する。また、以下の説明は、図2に示した各ステップに沿って説明する。図3は、本発明の実施の形態1において用いられる反応文集合の具体例を示す図である。図4は、本発明の実施の形態1において、評価表現分類記憶装置に予め記憶されている評価表現とその分類との具体例を示す図である。図5は、本発明の実施の形態1において反応文記憶装置に記憶されているデータの具体例を示す図である。図6は、図5に示したデータのクラスタリング後の状態を示す図である。
(ステップA1)
 まず、利用者が、入力装置1に、図3に示す反応文集合を入力し、さらに、要約文長さを「6単語」に設定したとする。これにより、入力装置1は、図3に示す反応文集合を抽出部21に入力し、要約文の長さを要約作成部24に入力する。そして、要約作成装置2において、抽出部21は図3に示す反応文集合の入力を受け付け、要約作成部24は要約文長さ「6単語」を受け付ける
(ステップA2)
 抽出部21は、図4に示した評価表現の表層文字列を参照し、入力された反応文が評価表現分類記憶装置31に記憶された評価表現を含んでいるかどうかを判定し、含んでいると判定する場合は、当該反応文から評価表現を抽出する。また、このとき、抽出部21は、評価表現と共にそれに設定されている分類番号(評価表現分類番号)も抽出する。そして、図5に示すように、抽出部21は、抽出した評価表現と、評価表現分類番号と、元になった反応文とを、反応文記憶装置32に記録させる。
 例えば、「日本最高!」という反応文に対しては、抽出部21は、「最高」(図5参照)という評価表現が含まれると判定し、評価表現を抽出し、更に、次のステップA3を実行する。一方、「また見逃した。」という反応文に対しては、抽出部21は、評価表現が含まれないと判定し、これ以上処理を行わない。
 なお、図4に示すように、本実施の形態1において、評価表現分類記号は、評価表現の意味が近いもの同士が同じ番号となるように付与されている。但し、本実施の形態1では、他の固定的な分類、例えば、肯定的な評価、否定的な評価、中立的な評価という分類に基づいて、番号が付与されていても良い。
(ステップA3)
 抽出部21は、評価表現を含む反応文に対して、評価の理由部分を抽出する。例えば、「連日の勝利がうれしい。」という反応文に対して、抽出部21は、評価表現「うれしい」の主格を「勝利」と判定し、「勝利」を修飾している文節を「連日の」と判定する。そして、抽出部21は、「連日の勝利」という文字列を、理由部分として抽出する。
 また、「Bが怪我してしまったので、非常に残念」という反応文には、係り受け関係にある単語が存在しないので、抽出部21は、反応文の理由を表す句を、理由部分として抽出する。具体的には、抽出部21は、「残念」の前にあり、且つ、理由を表している句として、助詞「ので」で終わる句、即ち、「Bが怪我してしまったので」を抽出する。そして、抽出部21は、助詞の部分を除いた「Bが怪我してしまった」を理由部分として抽出する。
 更に、抽出部21は、「最高!」という反応文には理由を表す字句が存在しないので、この反応文に対しては、理由部分を空文字列と判定する。また、図5に示すように、抽出部21は、このようにして抽出した評価表現の理由部分を、反応文記憶装置32に記録させる。
(ステップA4)
 まず、クラスタリング部23は、反応文記憶装置32に記憶されている理由部分を参照して、各反応文をクラスタリングする。例えば、反応文「Bが怪我してしまったので、非常に残念。」に対して、理由部分「Bが怪我してしまった」と、評価表現「残念」とが記録されているとする。一方、評価表現が「残念」となる反応文としては、他に、「Bが残念だ」、「怪我が残念だ」、「Bの怪我が残念だ」が存在する。
 このように表記がゆれてしまっている場合に、各反応文を、一つの理由によってまとめるため、クラスタリング部23は、例えば、ある反応文の理由部分の自立語全てが、他の反応文の理由部分に含まれるならば、その2つの反応文は同じクラスタであると判断する。
 また、本実施の形態では、クラスタリング部23は、評価表現の共通性、即ち、評価表現の分類番号(図4参照)に基づいて、クラスタをさらに分割する。なお、本実施の形態において、反応文のクラスタリングの方法は、上述の例に限定されることはない。その他に、クラスタリングは、評価表現の出現頻度が高頻度(または低頻度)であるかどうかという観点から行われても良い。
 また、クラスタリング部23は、理由部分に基づくクラスタリングを行った後、クラスタを特定するため、各反応文に、理由部分分類番号を付与する。そして、図6に示すように、クラスタリング部23は、理由部分分類番号を、反応文記憶装置32に記録させる。
(ステップA5)
 ランキング部22は、反応文記憶装置32に記録されている情報を参照して、クラスタ毎にランキングする。具体的には、例えば、ランキング部22は、クラスタ間で、理由部分および評価部分の出現頻度を比較し、これらの出現頻度が高いクラスタから順に上位にランクづける。また、クラスタ間で、理由部分および評価部分の出現頻度が同じである場合には、ランキング部22は、クラスタに含まれる反応文の数が多い方を上位にランクづける。
 ここで、各クラスタを、「(理由部分分類番号、評価表現分類番号)」で表すとする。上記の基準に基づいてランキングした場合、ランキングの結果は、上位から順に、(4、2)、(5、3)、(1、1)、(6、4)、(2、1)、(3、1)となる。
 なお、ステップA5において、ランキングの基準は、上記に限定されるものではない。その他のランキング基準として、次のクラスタを選択する際に、前回選択したクラスタと、理由部分または評価表現に関して逆の性質を持つクラスタを選択するという基準(例えば、理由部分および評価部分の出現頻度が、高頻度/低頻度)が挙げられる。
(ステップA6)
 要約部24は、ランキング結果に基づいて、各クラスタに割当てられる要約の長さを決定する。本実施の形態では、要約作成部24は、必ず2単語以上を、クラスタの順位に応じて割り当てるとする。例えば、要約作成部24は、ランキング1位のクラスタ(4、2)に割当てる長さを3単語、2位のクラスタ(5、3)に割当てる長さを2単語、3位のクラスタ(1、1)に割当てる長さを2単語、4位以下のクラスタに割当てる長さを2単語と決定する。
(ステップA7)
 要約作成部24は、ステップA6で決定した長さとなるように、クラスタ毎に要約を作成する。本実施の形態では、要約作成部24は、既存の単語の重要度を用いた要約手法に準じて要約を実行する。具体的には、要約作成部24は、理由部分の自立語のスコアと、評価表現の単語のスコアとを高く設定し、各クラスタにおいて、理由部分が最も詳しい反応文を特定する。そして、要約作成部24は、特定した反応文を要約し、対応するクラスタの要約とする。
 例えば、図6の例では、要約作成部24は、「Bが怪我してしまったので、非常に残念。」と、「次の決勝戦が楽しみ。」と、「最高!」との3つの反応文に対して要約を作成することになる。そして、各反応文から得られた要約文「B怪我残念」、「決勝戦楽しみ」、「最高」を順に並べて得られたテキスト「B怪我残念、決勝戦楽しみ、最高」が、要約選択部25に入力される。なお、得られたテキストは、クラスタの要約の集合であり、反応文集合の要約に相当するが、更に、ステップA8が実行される。
(ステップA8)
 要約選択部25は、ステップA7で入力されたテキストが、ステップA1で入力された要約文長さ「6単語」以下となるように、当該テキストの一部を、文頭から反応文の区切りまでで抽出し、抽出した結果を出力装置4に入力する。具体的には、要約選択部25は、「B怪我残念、決勝戦楽しみ」を出力装置4に入力する。本実施の形態1では、出力装置4に入力されたテキストが、反応文集合の最終的な要約となる。
 また、本実施の形態1におけるプログラムは、コンピュータに、図2に示すステップA1~A8を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態1における要約作成装置2と要約作成方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、抽出部21、ランキング部22、及び要約作成部24として機能し、処理を行なう。
 また、本実施の形態1では、記憶装置3は、当該コンピュータに備えられたハードディスク等の記憶装置によって実現されていても良いし、当該コンピュータと接続された外部の記憶装置によって実現されていても良い。
 以上のように本実施の形態1では、肯定的な評価と否定的な評価といった、異なる評価を持った反応文が別々にクラスタリングされ、そしてクラスタ毎に作成された要約を用いて、反応文集合全体の要約が作成される。よって、得られた要約は、多くの異なった意見を含むため、利用者は、膨大な量の反応文(発言)を、詳しく読む必要があるかどうかを簡単に判断できる。
 (実施の形態2)
 次に本発明の実施の形態2における、要約作成装置、要約作成方法、およびプログラムについて、図7~図9を参照しながら説明する。
[装置構成]
 最初に、図7を用いて、本実施の形態2における要約作成装置5の構成および機能について説明する。図7は、本発明の実施の形態2における要約作成装置の構成を示すブロック図である。
 図7に示すように、本実施の形態2における要約作成装置5には、入力装置1から、反応文の元になった記事の要約(以下「記事要約文」とする。)が入力される。そして、要約作成装置5のクラスタリング部26は、記事の要約を用いてクラスタリングを実行する。
 上述の点以外については、本実施の形態2における要約作成装置5は、図1に示した実施の形態1における要約作成装置2と同様に構成されている。以下、相違点を中心に説明する。
 本実施の形態2においては、クラスタリング部26は、反応文毎に、理由部分が、記事要約文に含まれているかどうかを判定する。また、クラスタリング部26は、各反応文についての判定の結果を反応文記憶装置32に記録させる。具体的には、反応文記憶装置32は、反応文毎に、理由部分が記事要約文に含まれているかどうかを示す情報を記憶する。そして、クラスタリング部26は、得られた判定結果を用いて、反応集合に含まれる各反応文に対してクラスタリングを実行する。
[装置動作]
 次に、本発明の実施の形態2における要約作成装置5の動作について、図8および図9を用いて説明する。図8は、本発明の実施の形態2における要約作成装置の動作を示すフロー図である。以下の説明においては、適宜図7を参酌する。また、本実施の形態2でも、要約作成装置5を動作させることによって、要約作成方法が実施される。よって、本実施の形態2における要約作成方法の説明は、以下の要約作成装置2の動作説明に代える。
 まず、前提として、本実施の形態2においては、利用者は、入力装置1への反応文集合の入力と、反応文集合の要約の字数(要約文長さ)の設定とに加え、入力装置1への記事要約文の入力も実行する。その後、入力装置1は、反応文集合を抽出部21に入力し、要約文長さを要約作成部24に入力し、加えて、記事の要約文をクラスタリング部23に入力する。
 入力装置1からの各データの入力が行われると、図8に示すように、要約作成装置5において、抽出部21、クラスタリング部23、および要約作成部24は、入力装置1からの各データの入力を受け付ける(ステップB1)。
 次に、抽出部21は、評価表現分類記憶装置31に記憶されている評価表現の表層文字列(図4参照)を参照して、各反応文から評価表現を抽出し(ステップB2)、続いて、反応文から理由部分を抽出する(ステップB3)。なお、ステップB2およびB3は、図2に示したステップA2およびA3と同様のステップである。
 次に、抽出部21は、抽出した評価表現の理由部分が、ステップB1で入力された記事要約文に含まれているかどうかを判定する(ステップB4)。例えば、ステップB4では、抽出部21は、理由部分の自立語が記事要約文に含まれるならば、「記事要約文に含まれる」と判定する。一方、理由部分の自立語が記事要約文に含まれないならば、「記事要約文に含まれない」と判定する。
 ここで、図3を参照してステップB4を説明する。例えば、記事要約文として、「日本勝利、次は決勝戦」が入力されているとすると、反応文「連日の勝利がうれしい。」の理由部分に含まれる「勝利」という単語は、記事要約文に含まれる。このため、抽出部21は、反応文「連日の勝利がうれしい。」の理由部分は記事要約文に含まれると判定する。
 また、「Bが怪我してしまったので」については、どの自立語も記事要約文に含まれないため、クラスタリング部23は、この反応文の理由部分は記事要約文に含まれないと判定する。更に、クラスタリング部23は、理由部分が空文字列の場合には、記事要約文に含まれると判定する。
 その後、図9に示すように、抽出部21は、評価表現の表層文字列、その分類番号、評価表現の理由部分、および元となった反応文に加えて、理由部分が記事要約文に含まれるどうかを示す情報を、反応文記憶装置32に記録させる。図9は、本発明の実施の形態2において反応文記憶装置に記憶されているデータの具体例を示す図である。
 次に、クラスタリング部23は、反応文記憶装置32に記憶されている反応文を、ステップB4の判定結果に基づいてクラスタリングし、得られたクラスタに対して、さらに、評価表現の共通性に基づいたクラスタリングも実行する(ステップB5)。つまり、ステップB5では、クラスタリングは、理由部分が記事要約文に含まれるかどうかという観点から行われる。
 次に、ランキング部22は、反応文記憶装置32に記憶されている各評価表現および各理由部分の出現頻度に基づいて、ステップB5で作成された各クラスタに対してランキングを行う(ステップB6)。ステップB6は、図2に示したステップA5と同様のステップである。
 次に、要約作成部24は、各クラスタに割当てる要約の長さを、ランキング上位から順に決定する(ステップB7)。そして、要約作成部24は、クラスタ毎に要約を作成し、作成した要約をランキングに沿って並べる(ステップB8)。その後、要約選択部25は、ステップB8で得られたテキストの長さが要約文長さ以下になるよう、順位が上位の要約から順に選択する(ステップB9)。この結果、反応文集合の要約が得られ、出力装置4に入力される。なお、ステップB7~B9は、図2に示したステップA6~A8と同様のステップである。
 また、本実施の形態2におけるプログラムは、コンピュータに、図8に示すステップB1~B9を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態2における要約作成装置5と要約作成方法とを実現することができる。この場合、コンピュータのCPUは、抽出部21、ランキング部22、及び要約作成部24として機能し、処理を行なう。
 また、本実施の形態2においても、実施の形態1と同様に、記憶装置3は、当該コンピュータに備えられたハードディスク等の記憶装置によって実現されていても良いし、当該コンピュータと接続された外部の記憶装置によって実現されていても良い。
 以上のように本実施の形態2においても、異なる評価を持った反応文が別々にクラスタリングされ、そしてクラスタ毎に作成された要約を用いて、反応文集合全体の要約が作成される。このため、本実施の形態2を用いた場合も、実施の形態1と同様に、得られた要約は、多くの異なった意見を含むため、利用者は、膨大な量の反応文(発言)を、詳しく読む必要があるかどうかを簡単に判断できる。
 ここで、実施の形態1および2におけるプログラムを実行することによって、要約作成装置を実現するコンピュータについて図10を用いて説明する。図10は、本発明の実施の形態1および2における要約作成装置を実現するコンピュータの一例を示すブロック図である。
 図10に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
 CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
 また、記憶装置113の具体例としては、ハードディスクの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
 また、記録媒体120の具体例としては、CF(Compact Flash)及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD-ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。
 上述した実施の形態の一部又は全部は、以下に記載する(付記1)~(付記18)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
 反応文集合の要約を作成する装置であって、
 前記反応文集合に含まれる各反応文から、評価を示す評価表現、および前記評価の理由を示す理由部分を抽出する、抽出部と、
 前記評価表現および前記理由部分に基づいて、前記反応集合に含まれる各反応文を分類し、分類毎に順位を付与する、ランキング部と、
 前記分類それぞれの要約および前記順位に基づいて、前記反応文集合の要約を作成する、要約作成部と、
を備えていることを特徴とする、要約作成装置。
(付記2)
 前記ランキング部が、
前記評価表現の共通性に基づく分類と、前記理由部分の共通性に基づく分類とを行って、前記反応集合に含まれる各反応文を分類し、
前記評価表現それぞれの出現頻度と、前記理由部分それぞれの出現頻度とに基づいて、前記分類毎に、順位を付与する、付記1に記載の要約作成装置。
(付記3)
 前記反応文集合に含まれる各反応文が特定の記事に基づいて作成されており、
 前記ランキング部が、反応文毎に、前記理由部分が、前記特定の記事の要約に含まれているかどうかを判定し、得られた判定結果を用いて、前記反応集合に含まれる各反応文を分類する、付記1に記載の要約作成装置。
(付記4)
 前記要約作成部が、前記分類毎に要約を作成し、作成した要約の中から前記順位に基づいて要約を選択し、選択した要約を用いて、前記反応文集合の要約を作成する、付記1~3のいずれかに記載の要約作成装置。
(付記5)
 前記要約作成部が、前記分類それぞれについて前記順位に応じて要約の長さを設定し、設定した長さで、前記分類毎に要約を作成する、付記4に記載の要約作成装置。
(付記6)
 前記要約作成部が、予め設定された字数の範囲内で、前記順位が上位の要約から順に選択し、選択した要約を前記順位の順に並べて、前記反応文集合の要約とする、付記4または5に記載の要約作成装置。
(付記7)
 反応文集合の要約を作成するための方法であって、
(a)前記反応文集合に含まれる各反応文から、評価を示す評価表現、および前記評価の理由を示す理由部分を抽出する、ステップと、
(b)前記評価表現および前記理由部分に基づいて、前記反応集合に含まれる各反応文を分類し、分類毎に順位を付与する、ステップと、
(c)前記分類それぞれの要約および前記順位に基づいて、前記反応文集合の要約を作成する、ステップと、
を有することを特徴とする、要約作成方法。
(付記8)
 前記(b)のステップで、前記評価表現の共通性に基づく分類と、前記理由部分の共通性に基づく分類とを行って、前記反応集合に含まれる各反応文を分類し、
前記評価表現それぞれの出現頻度と、前記理由部分それぞれの出現頻度とに基づいて、前記分類毎に、順位を付与する、付記7に記載の要約作成方法。
(付記9)
 前記反応文集合に含まれる各反応文が特定の記事に基づいて作成されており、
 前記(b)のステップで、反応文毎に、前記理由部分が、前記特定の記事の要約に含まれているかどうかを判定し、得られた判定結果を用いて、前記反応集合に含まれる各反応文を分類する、付記7に記載の要約作成方法。
(付記10)
 前記(c)のステップで、前記分類毎に要約を作成し、作成した要約の中から前記順位に基づいて要約を選択し、選択した要約を用いて、前記反応文集合の要約を作成する、付記7~9のいずれかに記載の要約作成方法。
(付記11)
 前記(c)のステップで、前記分類それぞれについて前記順位に応じて要約の長さを設定し、設定した長さで、前記分類毎に要約を作成する、付記10に記載の要約作成方法。
(付記12)
 前記(c)のステップで、予め設定された字数の範囲内で、前記順位が上位の要約から順に選択し、選択した要約を前記順位の順に並べて、前記反応文集合の要約とする、付記10または11に記載の要約作成方法。
(付記13)
 コンピュータによって反応文集合の要約を作成するための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)前記反応文集合に含まれる各反応文から、評価を示す評価表現、および前記評価の理由を示す理由部分を抽出する、ステップと、
(b)前記評価表現および前記理由部分に基づいて、前記反応集合に含まれる各反応文を分類し、分類毎に順位を付与する、ステップと、
(c)前記分類それぞれの要約および前記順位に基づいて、前記反応文集合の要約を作成する、ステップと、
を実行させる、命令を含むプログラムを記録している、コンピュータ読み取り可能な記録媒体。
(付記14)
 前記(b)のステップで、前記評価表現の共通性に基づく分類と、前記理由部分の共通性に基づく分類とを行って、前記反応集合に含まれる各反応文を分類し、
前記評価表現それぞれの出現頻度と、前記理由部分それぞれの出現頻度とに基づいて、前記分類毎に、順位を付与する、付記7に記載のコンピュータ読み取り可能な記録媒体。
(付記15)
 前記反応文集合に含まれる各反応文が特定の記事に基づいて作成されており、
 前記(b)のステップで、反応文毎に、前記理由部分が、前記特定の記事の要約に含まれているかどうかを判定し、得られた判定結果を用いて、前記反応集合に含まれる各反応文を分類する、付記7に記載のコンピュータ読み取り可能な記録媒体。
(付記16)
 前記(c)のステップで、前記分類毎に要約を作成し、作成した要約の中から前記順位に基づいて要約を選択し、選択した要約を用いて、前記反応文集合の要約を作成する、付記7~9のいずれかに記載のコンピュータ読み取り可能な記録媒体。
(付記17)
 前記(c)のステップで、前記分類それぞれについて前記順位に応じて要約の長さを設定し、設定した長さで、前記分類毎に要約を作成する、付記10に記載のコンピュータ読み取り可能な記録媒体。
(付記18)
 前記(c)のステップで、予め設定された字数の範囲内で、前記順位が上位の要約から順に選択し、選択した要約を前記順位の順に並べて、前記反応文集合の要約とする、付記10または11に記載のコンピュータ読み取り可能な記録媒体。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2011年3月15日に出願された日本出願特願2011-56515を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 以上のように、本発明によれば、複数の異なった意見を含む要約を作成することができる。このため、本発明は、記事に対する反応文を要約するシステムに有用である。また、本発明は、特に、Web上で、反応が存在する記事の中の注目されている部分を提示する用途、記事に対する反応文を提示する用途などにも有用である。
 1 入力装置
 2 要約作成装置(実施の形態1)
 3 記憶装置
 4 出力装置
 5 要約作成装置(実施の形態2)
 21 抽出部
 22 ランキング部
 23 クラスタリング部(実施の形態1)
 24 要約作成部
 25 要約選択部
 26 クラスタリング部(実施の形態2)
 31 評価表現分類記憶装置
 32 反応文分類記憶装置
 110 コンピュータ
 111 CPU
 112 メインメモリ
 113 記憶装置
 114 入力インターフェイス
 115 表示コントローラ
 116 データリーダ/ライタ
 117 通信インターフェイス
 118 入力機器
 119 ディスプレイ装置
 120 記録媒体
 121 バス
 

Claims (8)

  1.  反応文集合の要約を作成する装置であって、
     前記反応文集合に含まれる各反応文から、評価を示す評価表現、および前記評価の理由を示す理由部分を抽出する、抽出部と、
     前記評価表現および前記理由部分に基づいて、前記反応集合に含まれる各反応文を分類し、分類毎に順位を付与する、ランキング部と、
     前記分類それぞれの要約および前記順位に基づいて、前記反応文集合の要約を作成する、要約作成部と、
    を備えていることを特徴とする、要約作成装置。
  2.  前記ランキング部が、
    前記評価表現の共通性に基づく分類と、前記理由部分の共通性に基づく分類とを行って、前記反応集合に含まれる各反応文を分類し、
    前記評価表現それぞれの出現頻度と、前記理由部分それぞれの出現頻度とに基づいて、前記分類毎に、順位を付与する、請求項1に記載の要約作成装置。
  3.  前記反応文集合に含まれる各反応文が特定の記事に基づいて作成されており、
     前記ランキング部が、反応文毎に、前記理由部分が、前記特定の記事の要約に含まれているかどうかを判定し、得られた判定結果を用いて、前記反応集合に含まれる各反応文を分類する、請求項1に記載の要約作成装置。
  4.  前記要約作成部が、前記分類毎に要約を作成し、作成した要約の中から前記順位に基づいて要約を選択し、選択した要約を用いて、前記反応文集合の要約を作成する、請求項1~3のいずれかに記載の要約作成装置。
  5.  前記要約作成部が、前記分類それぞれについて前記順位に応じて要約の長さを設定し、設定した長さで、前記分類毎に要約を作成する、請求項4に記載の要約作成装置。
  6.  前記要約作成部が、予め設定された字数の範囲内で、前記順位が上位の要約から順に選択し、選択した要約を前記順位の順に並べて、前記反応文集合の要約とする、請求項4または5に記載の要約作成装置。
  7.  反応文集合の要約を作成するための方法であって、
    (a)前記反応文集合に含まれる各反応文から、評価を示す評価表現、および前記評価の理由を示す理由部分を抽出する、ステップと、
    (b)前記評価表現および前記理由部分に基づいて、前記反応集合に含まれる各反応文を分類し、分類毎に順位を付与する、ステップと、
    (c)前記分類それぞれの要約および前記順位に基づいて、前記反応文集合の要約を作成する、ステップと、
    を有することを特徴とする、要約作成方法。
  8.  コンピュータによって反応文集合の要約を作成するための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    前記コンピュータに、
    (a)前記反応文集合に含まれる各反応文から、評価を示す評価表現、および前記評価の理由を示す理由部分を抽出する、ステップと、
    (b)前記評価表現および前記理由部分に基づいて、前記反応集合に含まれる各反応文を分類し、分類毎に順位を付与する、ステップと、
    (c)前記分類それぞれの要約および前記順位に基づいて、前記反応文集合の要約を作成する、ステップと、
    を実行させる、命令を含むプログラムを記録している、コンピュータ読み取り可能な記録媒体。
     
PCT/JP2011/077340 2011-03-15 2011-11-28 要約作成装置、要約作成方法、およびコンピュータ読み取り可能な記録媒体 WO2012124213A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013504513A JP5942981B2 (ja) 2011-03-15 2011-11-28 要約作成装置、要約作成方法、およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011056515 2011-03-15
JP2011-056515 2011-03-15

Publications (1)

Publication Number Publication Date
WO2012124213A1 true WO2012124213A1 (ja) 2012-09-20

Family

ID=46830314

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/077340 WO2012124213A1 (ja) 2011-03-15 2011-11-28 要約作成装置、要約作成方法、およびコンピュータ読み取り可能な記録媒体

Country Status (2)

Country Link
JP (1) JP5942981B2 (ja)
WO (1) WO2012124213A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016177477A (ja) * 2015-03-19 2016-10-06 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
JP2020091729A (ja) * 2018-12-06 2020-06-11 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145288A (ja) * 1997-07-29 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2007172051A (ja) * 2005-12-19 2007-07-05 Nippon Telegr & Teleph Corp <Ntt> 評判情報処理装置、評判情報処理方法、評判情報処理プログラム、及び記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145288A (ja) * 1997-07-29 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2007172051A (ja) * 2005-12-19 2007-07-05 Nippon Telegr & Teleph Corp <Ntt> 評判情報処理装置、評判情報処理方法、評判情報処理プログラム、及び記録媒体

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
INOUYE, D.: "Multiple post microblog summarization, REU Research Final Report", 2010, pages 1 - 9, Retrieved from the Internet <URL:http://www.cs.uccs.edu/-kalita/work/reu/REUFinalPapers2010/Inouye.pdf> [retrieved on 20120119] *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016177477A (ja) * 2015-03-19 2016-10-06 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
JP2020091729A (ja) * 2018-12-06 2020-06-11 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP6994452B2 (ja) 2018-12-06 2022-01-14 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JPWO2012124213A1 (ja) 2014-07-17
JP5942981B2 (ja) 2016-06-29

Similar Documents

Publication Publication Date Title
US11720572B2 (en) Method and system for content recommendation
US10565313B2 (en) Automatic semantic rating and abstraction of literature
Annett et al. A comparison of sentiment analysis techniques: Polarizing movie blogs
JP6110389B2 (ja) 電子文書の内容を自動的に要約するための方法、有形のコンピュータ可読媒体及びシステム
US20230177360A1 (en) Surfacing unique facts for entities
JP5714702B2 (ja) 商品情報の乱雑さの解析
JP6902945B2 (ja) テキスト要約システム
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
WO2010038540A1 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
TW201033823A (en) Systems and methods for analyzing electronic text
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
CN101526938A (zh) 文档处理装置
Gunawan et al. Multi-document summarization by using textrank and maximal marginal relevance for text in Bahasa Indonesia
Bahassine et al. Arabic text classification using new stemmer for feature selection and decision trees
US9298700B1 (en) Determining similar phrases
Baowaly et al. Predicting the helpfulness of game reviews: A case study on the steam store
Hai et al. Coarse-to-fine review selection via supervised joint aspect and sentiment model
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
Yeloglu et al. Multi-document summarization of scientific corpora
US20120239382A1 (en) Recommendation method and recommender computer system using dynamic language model
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Guo et al. An opinion feature extraction approach based on a multidimensional sentence analysis model
JP5942981B2 (ja) 要約作成装置、要約作成方法、およびプログラム
JP2007334388A (ja) クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP6426074B2 (ja) 関連文書検索装置、モデル作成装置、これらの方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11861229

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013504513

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11861229

Country of ref document: EP

Kind code of ref document: A1