WO2012070228A1 - 対話テキスト解析装置、方法およびプログラム - Google Patents

対話テキスト解析装置、方法およびプログラム Download PDF

Info

Publication number
WO2012070228A1
WO2012070228A1 PCT/JP2011/006490 JP2011006490W WO2012070228A1 WO 2012070228 A1 WO2012070228 A1 WO 2012070228A1 JP 2011006490 W JP2011006490 W JP 2011006490W WO 2012070228 A1 WO2012070228 A1 WO 2012070228A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
event
text
processing data
denied
Prior art date
Application number
PCT/JP2011/006490
Other languages
English (en)
French (fr)
Inventor
晃裕 田村
石川 開
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US13/884,044 priority Critical patent/US20130238321A1/en
Priority to JP2012545615A priority patent/JP5867410B2/ja
Publication of WO2012070228A1 publication Critical patent/WO2012070228A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Definitions

  • the present invention relates to a dialog text analysis apparatus, a dialog text analysis method, and a dialog text analysis that analyze dialog text representing the content of an utterance and generate data for text processing used in text processing such as mining analysis and search. Regarding the program.
  • An affirmative fact is a fact that an event is affirmative.
  • a positive fact is a fact that shows a positive content with respect to an event.
  • the negative fact is a fact that the event consists of negative.
  • a negative fact can be said to be a fact that shows a negative content with respect to an event.
  • the positive fact is the fact that you are connected to the net
  • the negative fact is the fact that you are not connected to the net. is there.
  • Non-Patent Document 1 describes text mining that can absorb negative expression variations.
  • the text mining described in Non-Patent Document 1 when searching for a case corresponding to a user's question sentence (query), the text is morphologically analyzed, and the adjective “None”, auxiliary verb “Nu”, or adjective is included in the phrase. If the verb “is impossible” is included, a negative flag is given to the phrase. Then, in the search, the matching including the negative flag is performed using the data with the negative flag, so that a case suitable for the query is searched with high accuracy.
  • Non-Patent Document 2 describes a method for determining the fact of whether an event predicate is a positive fact or a negative fact.
  • the factuality of the predicate (event) is determined by a learning algorithm factorial CRF (Conditional random fields).
  • a model to be estimated is created in advance.
  • model features predicates representing events, information on morphemes in clauses before and after the clause containing the predicate, information on morphemes in clauses at the destination and source, and function expressions created in advance Semantic classification contained in the dictionary is used.
  • a feature is extracted from the predicate (event) to be analyzed, and the feature is input to a pre-established model for estimating the fact, thereby determining the fact of the predicate (event) to be analyzed.
  • Non-Patent Document 3 describes adjacent pairs used in conversation analysis. Adjacent pairs are utterance pairs that achieve basic interactions such as questions and responses, invitations and acceptances. When two utterances are X and Y, the adjacent pair is (1) X and Y are in adjacent positions, (2) X and Y are produced by different speakers, (3) First part X Is preceded by the second part Y, and (4) X is determined according to a rule that requires a certain type of Y.
  • Non-Patent Document 4 describes a specific method for specifying an adjacent pair.
  • the dialog act of each utterance is given by the dialog act of the previous N utterance, the prosodic information of the utterance to be analyzed, the time information, and the reference information, and adjacent pairs are formed. An utterance is identified.
  • the text representing the content of the utterance is the factuality of the event indicated by the utterance (that is, whether the event indicates a positive fact or a negative fact) Is often determined by multiple utterances by multiple people.
  • FIG. 18 is an explanatory diagram illustrating an example of a dialog text.
  • the dialog text shown in FIG. 18 shows an example of call center call data.
  • the dialogue text shown in FIG. 18 includes a speaker and a speech text representing the content of the speaker. These contents are specified by numbers indicated by the speech index.
  • the utterance identified by the utterance index “N” is simply referred to as the utterance of the utterance index “N”.
  • N is assumed to be a positive integer.
  • the factuality of the event “clogged at the drain” of the speech index “9” shown in FIG. 18 is a hypothetical state when the speech of the speech index “9” is made. Thereafter, the content of the utterance of the utterance index “9” is denied in the utterance of the utterance index “10”, so that it is understood for the first time that the utterance of the utterance index “9” is a negative fact.
  • the factuality of the event once determined may be changed later by confirmation or rehearsal.
  • the event “It is a printer of company A” in the statement index “14” shown in FIG. 18 is once determined as a positive fact.
  • the event “It is a printer of company A” is changed to a negative fact by the confirmation utterance in the utterance of the utterance index “15” and the utterance of the utterance index “16” as a response.
  • the operator often confirms an important part by turning back. Therefore, there are many cases where the facts once determined are changed by a response to the confirmation. As described above, the factuality of an event is determined or changed in relation to a later utterance in the dialog text.
  • text processing data data used for text processing such as mining analysis and search
  • text processing data is a set of facts determined for each sentence. Therefore, text processing data in this case also includes facts that are different from actual facts, such as provisional facts determined in later utterances and facts that change in fact in later utterances. Will be included.
  • the present invention provides text processing data for accurately performing text processing such as analysis and search such as mining from dialogue text in which the factuality of an event is determined or changed in relation to a later utterance. It is an object to provide a dialog text analysis apparatus, a dialog text analysis method, and a dialog text analysis program.
  • the dialog text analysis device determines whether or not the event of the first utterance in the dialog text, which is a text including the contents of a plurality of utterances, is denied in the second utterance existing after the first utterance. If the first utterance event is denied in the second utterance, text processing data that is the data obtained by excluding the denied first utterance event from the dialog text is generated. And a text processing data generating means.
  • the dialog text analysis method determines whether or not the event of the first utterance in the dialog text, which is a text including the contents of a plurality of utterances, is denied in the second utterance existing after the first utterance. If the first utterance event is denied in the second utterance, text processing data that is data obtained by excluding the denied first utterance event from the dialog text is generated. And
  • an event of a first utterance in a dialog text which is a text including a plurality of utterance contents, is denied to a computer by a second utterance existing after the first utterance.
  • a negative determination process for determining whether or not the first utterance event is denied in the second utterance, and a text process that is data obtained by removing the negated first utterance event from the dialog text is executed.
  • text processing data for accurately performing text processing such as mining analysis and search can be generated from a dialog text.
  • FIG. FIG. 1 is a block diagram showing an example of a dialog text analysis apparatus according to the first embodiment of the present invention.
  • the dialog text analysis apparatus according to the present embodiment includes an input unit 10, an output unit 20, and a computer 30.
  • the computer 30 is realized by a central processing unit, a processor, a data processing unit, or the like.
  • the input means 10 inputs a text including a plurality of utterance contents (that is, dialogue text) to the computer 30 as an analysis target.
  • the output unit 20 outputs text processing data generated by the computer 30.
  • the computer 30 includes response pair specifying means 31, negative determination means 32, and text processing data generation means 33.
  • the response pair specifying means 31 is a response pair that is a pair of utterances that are present behind the utterance and are replies to the utterance from each utterance in the input dialogue text. Identify related utterances. In the following description, an utterance that asks a conversation partner is referred to as a preceding utterance, and an utterance corresponding to the utterance is referred to as a subsequent utterance.
  • the response pair specifying unit 31 may specify the utterance representing the question sentence and the utterance immediately after the utterance as the response pair. Further, the response pair specifying unit 31 may specify an adjacent pair determined from the dialogue text based on a predetermined rule as a response pair.
  • the negative determination means 32 determines whether the preceding utterance event of the response pair is denied in the subsequent utterance.
  • An event is information that can be represented by an utterance syntax tree or a structure centered on a verb (dependency relationship, case structure, syntax tree subtree). For example, when a predetermined utterance that denies the content of the forward utterance (hereinafter referred to as a negative utterance) matches the subsequent utterance, the negative determination means 32 determines that the event of the preceding utterance of the response pair is the subsequent utterance. It may be determined that it has been denied.
  • the negative determination unit 32 may determine that the event of the preceding utterance is denied in the subsequent utterance when the feature of the negative utterance and the feature of the subsequent utterance match.
  • the method of the negative determination means 32 determining is not limited to these methods.
  • the text processing data generating means 33 When the preceding utterance event is denied in the subsequent utterance, the text processing data generating means 33 generates data obtained by removing the negated preceding utterance event from the dialog text as text processing data.
  • the fact not only means the fact that has actually occurred, but also the provisional contents whose fact can change in the subsequent processing, or the contents that have not actually occurred (that is, they have actually occurred) Information including content different from the content). For example, a fact that is determined as “positive fact” at the time of focusing on the factuality of the event can also be determined as “negative fact” in later processing.
  • the response pair identification unit 31, the negative determination unit 32, and the text processing data generation unit 33 are realized by a computer 30 (specifically, a CPU of the computer 30) that operates according to a program (interactive text analysis program). Is done.
  • the program is stored in a storage unit (not shown) of the dialog text analysis device.
  • the CPU may read the program from the storage unit and operate as the response pair identification unit 31, negative determination unit 32, and text processing data generation unit 33 according to the program.
  • each of the response pair identification unit 31, the negative determination unit 32, and the text processing data generation unit 33 may be realized by dedicated hardware.
  • FIG. 2 is a flowchart illustrating an example of the operation of the dialog text analysis apparatus according to the first embodiment.
  • the input means 10 accepts the dialog text to be analyzed as input (step A1).
  • the response pair specifying unit 31 determines from the utterances of the input dialogue text, the utterances that are asked to the other party of the dialogue, and the utterance pairs (response pairs) that exist behind the utterances and are the answers to the utterances. ) Is specified (step A2).
  • the negative determination means 32 determines whether the preceding utterance event in the response pair is denied in the subsequent utterance (step A3).
  • the text processing data generation means 33 generates text processing data used when performing text processing such as analysis and search such as mining performed later. Specifically, the text processing data generation unit 33 receives from the negative determination unit 32 the determination result in step A3 (that is, whether or not the subsequent utterance of the response pair denies the event of the previous utterance). If it is determined that the preceding utterance event in the response pair is denied to the subsequent utterance, the text processing data generation means 33 creates text processing data by excluding the denied event from the dialogue text. (Step A4). That is, it can be said that the text processing data generation means 33 excludes the event of the preceding utterance that existed before being denied by the subsequent utterance from the dialog text as a denied event. Finally, the output means 20 outputs the text processing data generated in step A4 (step A5).
  • the negative determination means 32 determines whether or not the event of the preceding utterance in the dialog text is denied in the subsequent utterance existing after the preceding utterance.
  • the text processing data generating unit 33 generates text processing data by excluding the negated preceding utterance event from the dialogue text. Therefore, text processing data for accurately performing text processing such as mining analysis and search can be generated from the dialog text.
  • step A4 the text processing data generating means 33 excludes from the text processing data the event in which the preceding utterance event in the response pair is denied in the subsequent utterance. Therefore, it is possible to delete temporary events in the preceding utterance in the dialogue text and events that are denied as a result of the exchange in the response pair from the text processing data. Data can be generated. As a result, the generated text processing data becomes data that can accurately perform text processing such as analysis and search such as mining.
  • FIG. FIG. 3 is a block diagram illustrating an example of a dialog text analysis apparatus according to the second embodiment of this invention.
  • the dialog text analysis apparatus of this embodiment includes an input unit 110, an output unit 120, and a computer 130.
  • the computer 130 is realized by a central processing unit, a processor, a data processing unit, or the like. Note that the input unit 110 and the output unit 120 are the same as the input unit 10 and the output unit 20 in the first embodiment, and thus description thereof is omitted.
  • the computer 130 includes a response pair identification unit 131, a negative determination unit 132, an intra-utterance factuality determination unit 133, and a text processing data generation unit 134.
  • the response pair identification unit 131 and the negative determination unit 132 are the same as the response pair identification unit 31 and the negative determination unit 32 in the first embodiment, and thus description thereof is omitted.
  • the intra-utterance factuality determination means 133 determines whether the event of the preceding utterance in the response pair indicates a positive fact or an event or an event indicating a negative fact (that is, the fact of the event) from the information of the previous utterance. .
  • the intra-utterance factuality determination means 133 may determine the factuality of the event of the preceding utterance using, for example, the model described in Non-Patent Document 2.
  • the text processing data generation means 134 removes the negated preceding utterance event from the dialogue text and the fact opposite to the factuality of the preceding utterance event.
  • Data in which an event indicating sex is added to the dialog text is generated as text processing data. That is, when the event of the preceding utterance is denied to the subsequent utterance, the text processing data generating means 134 changes the event to a negative fact when the event determined to be negated is an affirmative fact. If the fact determined to be negative is a negative fact, the event is changed to a positive fact and added to the text processing data in place of the negative preceding utterance event. For example, the text processing data generation unit 134 may add, to the text processing data, information obtained by adding the fact of the event to the preceding utterance event.
  • the response pair identification unit 131, the negative determination unit 132, the intra-speech factuality determination unit 133, and the text processing data generation unit 134 include a computer 130 (specifically, a program (dialog text analysis program)). Is realized by the CPU of the computer 130). Further, each of the response pair identification unit 131, the negative determination unit 132, the intra-utterance fact determination unit 133, and the text processing data generation unit 134 may be realized by dedicated hardware.
  • FIG. 4 is a flowchart illustrating an example of the operation of the dialog text analysis apparatus according to the second embodiment.
  • the input unit 110 accepts the dialog text as input
  • the response pair specifying unit 131 specifies the response pair
  • the negative determination unit 132 determines whether or not the event of the preceding utterance is denied in the subsequent utterance.
  • the processing from Step B1 to Step B3-1 is the same as the processing from Step A1 to A3 in FIG.
  • the intra-utterance factuality determination means 133 uses the preceding utterance in the response pair to determine whether the event of the preceding utterance is a positive fact or a negative fact (that is, fact). Determination is made (step B3-2). Note that the process of step B3-2 may be performed simultaneously with the process of step B3-1, or may be performed before or after the process of step B3-1.
  • the text processing data generation means 134 generates text processing data used when performing text processing such as analysis and search such as mining performed later. Specifically, the text processing data generation unit 134 receives from the negative determination unit 132 the result of whether or not the subsequent utterance in the response pair denies the event of the previous utterance determined in step B3-1. Further, the text processing data generating unit 134 receives the determination result of the factuality of the event of the preceding utterance determined in step B3-2 from the intra-utterance factuality determining unit 133.
  • the text processing data generation unit 134 excludes the denied event from the dialog text. Then, the text processing data generating means 134 adds an event showing the fact opposite to the fact of the preceding utterance determined in step B3-2 to the text processing data instead of the excluded event. . That is, the text processing data generation means 134 sets the event as a negative fact when the preceding utterance event determined in step B3-2 is a positive fact, and sets the event as a positive fact when the negative utterance event is negative. Then, text processing data is generated (step B4). Finally, the output means 120 outputs the text processing data generated in step B4 (step B5).
  • the text processing data generation unit 134 when the text processing data generation unit 134 indicates that the event of the negated preceding utterance indicates a positive fact, the text processing data is regarded as an event indicating the negative fact. If the content of the event of the preceding utterance indicates a negative fact, the event is added to the text processing data as an event indicating a positive fact.
  • step B4 the text processing data generating means 134 excludes from the text processing data the event that the preceding utterance event in the response pair is denied to the subsequent utterance. Further, the text processing data generation means 134 adds an event indicating the fact opposite to the fact of the preceding utterance determined in step B3-2 to the text processing data instead of the excluded event. . Therefore, text processing data can be generated so as to coincide with the final conclusion for a temporary event in the preceding utterance in the dialog text or an event that is denied as a result of the exchange in the response pair. As a result, the generated text processing data becomes data that can accurately perform text processing such as analysis and search such as mining.
  • FIG. FIG. 5 is a block diagram illustrating an example of a dialog text analysis apparatus according to the third embodiment of this invention.
  • the dialog text analysis apparatus according to the present embodiment includes an input unit 210, an output unit 220, and a computer 230.
  • the computer 230 is realized by a central processing unit, a processor, a data processing device, or the like. Note that the input unit 210 and the output unit 220 are the same as the input unit 10 and the output unit 20 in the first embodiment, and thus description thereof is omitted.
  • the computer 230 includes a response pair identification unit 231, a negative determination unit 232, a confirmation response pair determination unit 233, a confirmation target utterance identification unit 234, and a text processing data generation unit 235.
  • the response pair identification unit 231 and the negative determination unit 232 are the same as the response pair identification unit 31 and the negative determination unit 32 in the first embodiment, and thus description thereof is omitted.
  • the confirmation / reply pair determination means 233 determines whether or not the preceding utterance in the response pair is an event indicating confirmation or replay of the event, and whether or not the subsequent utterance in the response pair is an event indicating a response to the confirmation or replay Determine whether or not.
  • a pair in which the preceding utterance is an event indicating confirmation or replay and a subsequent utterance is an event indicating a response to the confirmation or replay will be referred to as a “confirmation (return) -reply” pair.
  • the confirmation / reply pair determination unit 233 compares the commonality of words between the preceding utterance in the response pair and each utterance in the dialog text existing before the preceding utterance.
  • the confirmation / reply pair determining means 233 determines the response pair as “confirmation (return) -reply”. It is determined as a pair.
  • the confirmation target utterance specifying unit 234 determines whether the preceding utterance that exists in front of the preceding utterance in the conversation text is confirmed or replayed. Identify the utterances. In other words, if the response pair is a “confirmation (return) -reply” pair, the confirmation target utterance specifying unit 234, among the utterances existing before the preceding utterance in the utterances in the dialog text, It can also be said that the utterance of the cause confirmed or replayed in the preceding utterance is specified.
  • confirmation target utterance specifying unit 234 specifies an utterance whose word commonality with a preceding utterance is higher than a threshold as an utterance that is a target (cause) to be confirmed or replayed in the preceding utterance. Good.
  • the text processing data generating means 235 removes the negated preceding utterance event from the dialogue text, and the utterance identified by the confirmation target utterance identifying means 234 (that is, Data obtained by excluding the event of the cause that was confirmed or heard back in the preceding utterance from the dialogue text is generated as text processing data.
  • the response pair identification unit 231, the negative determination unit 232, the confirmation response pair determination unit 233, the confirmation target utterance identification unit 234, and the text processing data generation unit 235 operate according to a program (dialog text analysis program).
  • the computer 230 (specifically, the CPU of the computer 230).
  • the response pair identification unit 231, the negative determination unit 232, the confirmation response pair determination unit 233, the confirmation target utterance identification unit 234, and the text processing data generation unit 235 are each realized by dedicated hardware. It may be.
  • FIG. 6 is a flowchart illustrating an example of the operation of the dialog text analysis apparatus according to the third embodiment.
  • the input unit 210 accepts the dialog text as input
  • the response pair specifying unit 231 specifies the response pair
  • the negative determination unit 232 determines whether or not the event of the preceding utterance is denied in the subsequent utterance.
  • the processing in steps C1 to C3 is the same as the processing in steps A1 to A3 in FIG.
  • the confirmation / reply pair determination unit 233 determines whether the preceding utterance function of the response pair is confirmation or replay and whether the subsequent utterance function is a response to the preceding utterance ( Step C4-1). Note that the process of step C4-1 may be performed simultaneously with the process of step C3, or may be performed before or after the process of step C3.
  • step C4-1 If it is determined in step C4-1 that the response pair is a “confirmation (listening) -reply” pair, the confirmation target utterance specifying unit 234 exists in front of the preceding utterance in the utterance in the dialog text. The utterance targeted by the preceding utterance to be confirmed or heard back is specified (step C4-2).
  • the text processing data generating means 235 generates text processing data used when performing text processing such as analysis or search for mining performed later. Specifically, the text processing data generation means 235 receives from the negative determination means 232 the result of whether or not the subsequent utterance in the response pair denies the event of the previous utterance determined in step C3. Further, the text processing data generation means 235 receives from the confirmation target utterance identification means 234 the utterance that has been identified by the response pair and is the source of the confirmation identified in step C4-2.
  • the text processing data generation unit 235 excludes the denied event from the dialogue text. Furthermore, the text processing data generation means 235 also excludes the utterance event that is the source of confirmation and replay for the response pair (step C5). Finally, the output unit 220 outputs the text processing data generated in step C5 (step C6).
  • the confirmation response pair determination unit 233 determines whether or not the response pair is in the relationship of “confirmation (listening) -response”.
  • the confirmation target utterance specifying unit 234 determines that the utterance existing in the dialogue text before the preceding utterance Identify the utterance of the cause that was confirmed or heard back in the previous utterance.
  • the text processing data generating unit 235 generates text processing data excluding the fact of the event in the specified cause utterance.
  • step C5 the text processing data generation means 235 excludes from the text processing data an event in which the preceding utterance event of the response pair is denied to the subsequent utterance. Furthermore, the text processing data generation means 235 also excludes from the text processing data an utterance event that is the basis of confirmation or replay for the response pair. Therefore, even for an event for which factuality has been confirmed once, an event that has changed from the final conclusion due to the factuality being changed by the confirmation or hearing back by a later response pair and its response, text It can be deleted from the processing data. As a result, the generated text processing data becomes data that can accurately perform text processing such as analysis and search such as mining.
  • FIG. 7 is a block diagram illustrating an example of a dialog text analysis device according to the fourth exemplary embodiment of the present invention.
  • the dialog text analysis apparatus of this embodiment includes an input unit 310, an output unit 320, and a computer 330.
  • the computer 330 is realized by a central processing unit, a processor, a data processing device, or the like. Note that the input unit 310 and the output unit 320 are the same as the input unit 10 and the output unit 20 in the first embodiment, and thus description thereof is omitted.
  • the computer 330 includes a response pair identification unit 331, a negative determination unit 332, an intra-utterance factuality determination unit 333, a confirmation response pair determination unit 334, a confirmation target utterance identification unit 335, and a text processing data generation unit 336. It has. This is the same as the response pair identification unit 331, the negative determination unit 332 and the intra-speech factuality determination unit 333, and the response pair identification unit 131, the negative determination unit 132 and the intra-utterance factuality determination unit 133 in the second embodiment.
  • the confirmation response pair determination unit 334 and the confirmation target utterance identification unit 335 are the same as the confirmation response pair determination unit 233 and the confirmation target utterance identification unit 234 in the third embodiment. Therefore, description of these contents is omitted.
  • the text processing data generation means 336 removes the negated preceding utterance event from the dialogue text and the fact opposite to the factuality of the preceding utterance event. Data in which an event indicating sex is added to the dialog text is generated as text processing data.
  • the text processing data generation means 336 adds the fact of the event of the utterance identified by the confirmation target utterance identification means 335 (that is, the utterance of the cause that was confirmed or heard back in the preceding utterance) to the dialog text. Change to match the fact of the event. Specifically, the text processing data generation means 336 confirms the fact that the content of the event in the cause utterance that is confirmed or heard back in the preceding utterance is positive when the event of the preceding utterance is denied by the subsequent utterance. When indicating, the event indicating the positive fact is changed to the event indicating the negative fact and added to the text processing data.
  • the text processing data generating means 336 determines the event indicating the negative fact as an affirmative fact. Change to the event shown and add it to the text processing data.
  • the method of adding the event showing the fact opposite to the fact of the event to the dialog text is such that the text processing data generating means 134 dialogs the event showing the fact opposite to the fact of the preceding utterance. This is the same as adding to text.
  • the response pair identification unit 331, the negative determination unit 332, the intra-utterance factuality determination unit 333, the confirmation response pair determination unit 334, the confirmation target utterance identification unit 335, and the text processing data generation unit 336 include a program ( This is realized by a computer 330 (specifically, a CPU of the computer 330) that operates according to a dialog text analysis program. Further, the response pair identification unit 331, the negative determination unit 332, the intra-utterance factuality determination unit 333, the confirmation response pair determination unit 334, the confirmation target utterance identification unit 335, and the text processing data generation unit 336 include: Each may be realized by dedicated hardware.
  • FIG. 8 is a flowchart illustrating an example of the operation of the dialog text analysis apparatus according to the fourth embodiment.
  • the processes in steps D1 to D2 until the input unit 310 accepts the dialog text as input and the response pair specifying unit 331 specifies the response pair are the same as the processes in steps B1 and B2 in FIG.
  • the negative determination unit 332 determines whether the event of the preceding utterance is denied in the subsequent utterance.
  • the processing in steps D3 to D4 for the factuality determination means 333 in speech to determine the factuality of the preceding speech is the same as the processing in steps B3-1 to B3-2 in FIG.
  • the confirmation response pair determining unit 334 determines whether or not the response pair is a “confirmation (listening) -reply” pair
  • the confirmation target utterance specifying unit 335 specifies the utterance that the preceding utterance is a target to be confirmed or heard back.
  • the processing of D5-1 to D5-2 is the same as the processing of steps C4-1 to C4-2 in FIG.
  • step D5-2 is performed after the process of step D5-1, the order of the processes of step D3, step D4, step D5-1, and step D5-2 is arbitrary.
  • the text processing data generation means 336 generates text processing data that is used when text processing such as analysis and search such as mining performed later is performed. Specifically, the text processing data generation unit 336 receives from the negative determination unit 332 the result of whether or not the subsequent utterance in the response pair denies the event of the previous utterance determined in step D3. Further, the text processing data generation means 336 receives from the intra-utterance factuality determination means 333 the factuality determination result of the preceding utterance event determined in step D4. Further, the text processing data generation unit 336 receives from the confirmation target utterance identification unit 335 the utterance that has been identified by the response pair and is the source of the confirmation identified in step D5-2.
  • the text processing data generation unit 336 excludes the denied event from the dialogue text. Then, the text processing data generating means 336 adds an event showing the fact opposite to the fact of the preceding utterance determined in step D4 to the text processing data instead of the excluded event. Furthermore, the text processing data generation means 336 changes the factuality of the utterance event, which is the basis of confirmation or replay by the response pair, so as to match the factuality of the added event (step D6). Finally, the output unit 320 outputs the text processing data generated in step D6 (step D7).
  • step D6 the text processing data generation means 336 excludes from the text processing data the event in which the preceding utterance event in the response pair is denied to the subsequent utterance. Further, the text processing data generation means 336 adds an event showing the fact opposite to the fact of the preceding utterance determined in step D4 to the text processing data instead of the excluded event. Further, the factuality of the utterance event that the text processing data generation means 336 has confirmed or heard back from the response pair is also changed in reverse (that is, the factuality of the event added to the dialog text). Data for text processing is generated).
  • Text processing data can be generated that is modified to match the final conclusion.
  • the generated text processing data becomes data that can accurately perform text processing such as analysis and search such as mining.
  • the dialog text analysis apparatus of the first example corresponds to the dialog text analysis apparatus of the first embodiment.
  • the target call text is text in which an event in the call text is determined or changed in a later utterance, as can be seen from the example shown in FIG.
  • An event is information that can be mechanically grasped as a syntax tree of an utterance or a structure centering on a verb (a dependency relationship, a case structure, a subtree of the syntax tree).
  • the input means 10 accepts the dialog text illustrated in FIG. 18 as the input text.
  • the dialogue text is divided for each utterance.
  • one utterance index corresponds to an utterance.
  • the dialogue text is not limited to the text divided for each utterance. Even in the case of text that is not divided for each utterance, for example, a text separator that has been pre-processed in which an utterance separator is determined in advance and divided at the appearance location of the separator may be used as the dialog text. Examples of separators include “.” (Punctuation mark) and “?” (Question mark).
  • voice data may be used as the original text.
  • text that has been subjected to preprocessing that is divided into utterances using a silent section detected by the speech recognition engine may be used as the dialog text.
  • the dialogue text may or may not include information about the speaker as illustrated in FIG.
  • a tag indicating whether an operator speaks or a customer speaks is assigned to each utterance.
  • information obtained from speech such as prosodic information and utterance time information, may be added to the dialog text (step A1).
  • the response pair specifying unit 31 specifies utterances having a response pair relationship from each utterance of the input text.
  • the identification of the response pair can be realized, for example, by identifying a question sentence and an answer utterance pair.
  • the response pair specifying unit 31 first performs morphological analysis on each utterance, and determines whether or not it is a question sentence by matching the morpheme-analyzed word with a predetermined question feature.
  • Characteristic features of interrogative sentences include, for example, final words such as “interrogatives (including adverbs and conjunctions such as“ why ”“ what ”“ what ”), and auxiliary verbs“ ka ”“ ne ”“ ke ” "End” is used.
  • specification means 31 specifies the pair of the speech determined as a question sentence, and the speech immediately after that as a response pair.
  • the response pair specifying unit 31 may specify an adjacent pair as a response pair.
  • the adjacent pair is a concept used in the world of conversation analysis as described in Non-Patent Document 3.
  • the response pair specifying unit 31 may specify an adjacent pair based on the method described in Non-Patent Document 3, and specify the specified adjacent pair as a response pair.
  • the response pair identification unit 31 may identify an adjacent pair using the technique described in Non-Patent Document 4.
  • the technique described in Non-Patent Document 4 it is possible to specify the types of utterances that form adjacent pairs (for example, the preceding utterance is “request” and the subsequent utterance is “approved / rejected”).
  • the response pair specifying unit 31 does not have to specify the type of utterance, and may specify the utterances that are adjacent pairs.
  • FIG. 9 is an explanatory diagram showing an example of an adjacent pair specified based on the dialogue text illustrated in FIG.
  • the specification of the utterance type is omitted.
  • the utterances identified by “15” and “16” are adjacent pairs.
  • the response pair identification unit 31 identifies utterances having a response pair relationship by capturing such adjacent pairs as response pairs (step A2).
  • FIG. 10 is a block diagram illustrating an example of the negative determination unit 32.
  • the negative determination unit 32 illustrated in FIG. 10 includes a subsequent utterance specifying unit 41, an entry comparison unit 42, and a determination unit 43. Further, an utterance that denies the content of the utterance ahead (that is, a negative utterance) and information that predefines the characteristics (rules) of the negative utterance are registered in the negative utterance database 44.
  • a predetermined utterance such as an utterance composed only of a negative auxiliary verb and an attached word or an utterance composed only of a negative word and an attached word may be registered in the negative utterance database 44.
  • the negative utterance database 44 may be stored, for example, on a magnetic disk or the like provided in the dialog text analysis device, or may be stored in a device different from the dialog text analysis device.
  • FIG. 11 is an explanatory diagram showing an example of information stored in the negative utterance database.
  • utterances such as “No”, “No”, “No” or “No” are stored as negative utterances, and utterances start from the words of utterances registered as negative utterances.
  • An utterance consisting only of a negative auxiliary verb and an attachment is stored as a rule of negative utterance.
  • the subsequent utterance specifying unit 41 specifies the utterance behind the response pair as the subsequent utterance.
  • the subsequent utterance specifying unit 41 sets “I am different” as a subsequent utterance. As specified.
  • the entry comparison means 42 reads the data of the negative utterance database 44, compares the subsequent utterance with each entry of the negative utterance database, and determines whether or not the corresponding entry exists in the database. In the example shown in FIGS. 10 and 11, the entry comparison unit 42 determines that the subsequent utterance “No” is present in the third entry from the top of the negative utterance database (matches the entry). At this time, the entry comparison unit 42 may determine that the subsequent utterance “No.” matches the negative utterance feature (rule) existing in the fifth entry from the top of the negative utterance database.
  • the determination unit 43 determines that the event of the previous utterance in the response pair is denied in the subsequent utterance. Specifically, the determination unit 43 determines that the event of the preceding utterance is denied in the subsequent utterance when the negative utterance and the subsequent utterance match, or when the feature of the negative utterance and the feature of the subsequent utterance match. Is determined. In the example shown in FIGS. 10 and 11, since the negative utterance and the subsequent utterance match, the determination unit 43 determines that the event of the preceding utterance is denied in the subsequent utterance.
  • the negative determination unit 32 includes the subsequent utterance specifying unit 41, the entry comparison unit 42, and the determination unit 43 has been described above, but the configuration of the negative determination unit 32 is limited to the configuration illustrated in FIG. Not.
  • FIG. 12 is a block diagram showing another example of the negative determination means 32.
  • 12 includes a preceding utterance specifying means 51, a subsequent utterance specifying means 52, a preceding utterance role analyzing means 53, a subsequent utterance role analyzing means 54, a verb antonym determining means 55, and an antonym.
  • Determination means 56 and determination means 57 are provided.
  • an antonym pair of a verb created in advance is registered in an antonym database 58 (hereinafter referred to as an antonym DB 58).
  • the contradictory word pairs created in advance are registered in the antonym database 59 (hereinafter referred to as an antonym DB 59).
  • the antonym DB 58 and the antonym DB 59 may be stored in, for example, a magnetic disk included in the dialog text analysis device, or may be stored in a device different from the dialog text analysis device.
  • the preceding utterance specifying means 51 specifies the utterance ahead of the response pair as the preceding utterance. Further, the subsequent utterance specifying unit 52 specifies the utterance behind the response pair as the subsequent utterance.
  • the preceding utterance specifying means 51 reads “The lamp is lit. Is identified as the preceding utterance, and the subsequent utterance identifying means 52 identifies “disappearing” as the subsequent utterance.
  • the preceding utterance role analyzing means 53 analyzes the role in the sentence for each element of the preceding utterance.
  • the subsequent utterance role analyzing means 54 analyzes the role in the sentence for each element of the subsequent utterance.
  • the preceding utterance role analyzing unit 53 and the subsequent utterance role analyzing unit 54 may analyze a grammatical role of a sentence such as “subject”, “predicate”, and “object” as roles in the sentence. Note that the role in the sentence to be analyzed is not limited to the grammatical role of the sentence.
  • the preceding utterance role analysis unit 53 and the subsequent utterance role analysis unit 54 may analyze a surface case such as “ga case”, “ha case”, “de case”, You may analyze a deep case such as “subject”.
  • the preceding utterance role analysis unit 53 and the subsequent utterance role analysis unit 54 may analyze the grammatical role by applying HPSG (Head-Driven Phrase Structure Grammar), which is a grammar rule, to the sentence, for example. .
  • HPSG Head-Driven Phrase Structure Grammar
  • the preceding utterance role analysis unit 53 and the subsequent utterance role analysis unit 54 may analyze the verb and its surface nucleus using KNP which is a free Japanese analyzer.
  • Verb synonym determination means 55 determines whether the verbs of the preceding utterance and the subsequent utterance are synonyms.
  • the verb synonym determining means 55 uses, for example, an antonym DB 58 storing a verb synonym pair created in advance, and information corresponding to the verb of the preceding utterance and the verb of the subsequent utterance exists in the antonym pair in the database. Alternatively, it may be determined that the verbs of those utterances are synonymous. In the example shown in FIG. 12, the verb of the preceding utterance is “lights up” and the verb of the subsequent utterance is “disappears”. When this antonym pair is stored in the antonym DB 58, the verb antonym determining means 55 determines that these verbs are antonyms.
  • the verb synonym determining means 55 uses the result of the morphological analysis of the preceding utterance and the subsequent utterance, and the verb of the subsequent utterance matches the preceding utterance, and the verb is a negative auxiliary verb (such as “None”) in the subsequent utterance. Even if they are negated, the verbs of those utterances may be determined to be synonymous. For example, assume that the verb of the preceding utterance is “lights up” and the subsequent utterance is “not lit up”. In this case, the verbs of the preceding utterance and the succeeding utterance coincide with each other, and the verb is denied in the subsequent utterance. Therefore, the verb synonym determining means 55 determines that the verbs of these utterances are synonymous. judge.
  • the antonym determination means 56 determines whether or not elements having the same role are contradictory in the preceding utterance and the subsequent utterance.
  • a contradiction between two elements means that the two elements do not hold at the same time. That is, when one element cannot be the other, these two elements are called contradictions.
  • the anti-word determination unit 56 uses an anti-word DB 59 that stores pre-made anti-word pairs, elements having the same role exist in the database as anti-word pairs in the preceding utterance and the subsequent utterance. In addition, it may be determined that those elements are an antonym.
  • the antonym determination means 56 may determine a pair of nodes existing in the same hierarchy and having the same parent node as an antonym in the word thesaurus having a hierarchical structure. For example, it is assumed that the response pair input to the negative determination unit 32 is a pair of the speech indexes “9” and “10” illustrated in FIG. In this case, the preceding utterance role analyzing means 53 analyzes that the de-rated element of the preceding utterance (utterance index “9”) is “discharge port”, and the subsequent utterance role analyzing means 54 analyzes the subsequent utterance (utterance index “10”). ) Is analyzed to be the “tray part”.
  • the antonym judgment means 56 uses the preceding utterance and the subsequent utterance.
  • the “exhaust port” and the “tray part”, which are elements of the same role in the same, are compared, and it is determined that these word pairs are antonyms.
  • the antonym determination unit 56 uses the same deep layer in the preceding utterance and the subsequent utterance.
  • the printer “Company A” and “Company B (the printer)”, who are the “operator”, are compared and determined to be an antonym.
  • the determination means 57 is used in the case where the verb used in the subsequent utterance in the response pair is a synonym of the verb used in the preceding utterance and other elements match, or in the subsequent utterance. When a part of the element is contrary to the element used in the same role in the preceding utterance, it is determined that the event of the preceding utterance is denied in the subsequent utterance.
  • the verb used in the subsequent utterance in the response pair is used in the preceding utterance. It satisfies the criteria of being a synonym of a certain verb and other elements being matched.
  • some of the elements used in the subsequent speech are preceded speeches. In the same role as the element used in the same role. Therefore, the determination unit 57 determines that the preceding utterance event is denied in the subsequent utterance for each response pair (step A3).
  • the text processing data generation means 33 generates the text processing data by excluding the event in which the preceding utterance event of the response pair is denied in the subsequent utterance. For example, as described above, the negative determination unit 32 selects the pair of the speech indexes “9” and “10” and the pair of the speech indexes “15” and “16” illustrated in FIG. Assume that it is determined that the subsequent utterance is denied. In this case, the text processing data generating means 33 generates the text processing data by excluding the event of the speech index “9” and the event of the speech index “15” from the dialogue text.
  • the text processing data can take various forms depending on the type of text processing to be performed later.
  • the text processing data generating means 33 is a unit (morpheme, morpheme n-gram, dependency, clause or utterance, or a plurality of these used in subsequent text processing of each utterance of input text (dialog text).
  • the list of elements may be generated as text processing data.
  • FIG. 13 is an explanatory diagram showing an example in which text processing data is generated with a dependency unit as an element.
  • the parentheses in the entry illustrated in FIG. 13 indicate the extraction source speech index.
  • a value indicating whether the fact is affirmative or negative is assigned to each element of the data.
  • the text processing data generation means 33 may generate text processing data including a value indicating whether the fact is affirmative or negative in each element of the data.
  • the facts corresponding to the event of “clogged at the discharge port” or “the printer of company A” denied in the subsequent utterance of the response pair are excluded from the text processing data. (Step A4).
  • the output means 20 outputs the text processing data generated by the text processing data generation means 33 (step A5).
  • the fact of the preceding utterance event of the response pair is determined by the subsequent utterance in the process of step A4. Can be excluded from processing data.
  • the event “clogged at the discharge port” is in a hypothetical state when the speech index “9” is spoken.
  • the event is denied by the utterance of the speech index “10”, it can be seen that the fact “clogged at the outlet” is not finally established.
  • the negative determination means 32 can determine that the utterance event of the utterance index “9” is denied in the subsequent utterance of the response pair. Then, the text processing data generating means 33 generates text processing data by excluding an element corresponding to the event “clogged at the discharge port”. Therefore, the generated text processing data becomes data that conforms to the final conclusion. That is, the generated text processing data becomes data that can accurately perform text processing such as analysis and search such as mining.
  • the dialog text analysis apparatus of the second example corresponds to the dialog text analysis apparatus of the second embodiment.
  • the following description is also directed to text indicating a call made between a customer and an operator at the call center illustrated in FIG.
  • the process of creating text processing data will be described with reference to the flowchart illustrated in FIG.
  • the input unit 110 accepts the dialog text as input, the response pair specifying unit 131 specifies the response pair, and the negative determination unit 132 determines whether or not the event of the preceding utterance is denied in the subsequent utterance.
  • the processing in steps B1 to B3-1 in FIG. 4 is the same as the processing in steps A1 to A3 in FIG.
  • the intra-utterance factuality determination means 133 uses the preceding utterance in the response pair to determine whether the event of the preceding utterance is a positive fact or a negative fact (that is, fact). judge.
  • the process of step B3-2 may be performed simultaneously with the process of step B3-1, or may be performed before or after the process of step B3-1.
  • the intra-utterance factuality determination means 133 determines the factuality of the event of the preceding utterance using, for example, the factuality determination method described in Non-Patent Document 2. For example, the event of the speech index “9” illustrated in FIG. 9 and the event of the speech index “15” are determined as positive facts (step B3-2 above).
  • the text processing data generation unit 134 excludes the denied event from the dialog text. Then, the text processing data generating means 134 adds an event showing the fact opposite to the fact of the preceding utterance determined in step B3-2 to the text processing data instead of the excluded event. .
  • the negative determination unit 132 converts the pair of the speech indexes “9” and “10” and the pair of the speech indexes “15” and “16” illustrated in FIG. Is determined to be denied in subsequent utterances.
  • the text processing data generation means 134 excludes the event of the speech index “9” and the event of the speech index “15” that existed as positive facts from the dialogue text. Then, the text processing data generation unit 134 adds, in place of the excluded event, an event such as “clogged at the discharge port” or “a printer of company A” as a negative fact to the dialog text. Is generated.
  • FIG. 14 is an explanatory diagram showing an example of text processing data generated by the text processing data generation means 134. Note that the parentheses in the entry illustrated in FIG. 14 indicate the extraction source speech index. In the example shown in FIG. 14, negative facts such as “clogging at the discharge port” and “being a printer of Company A” are added to the text processing data (step B4).
  • the output unit 120 outputs the text processing data generated by the text processing data generation unit 134 (step B5).
  • step B4 in the process of step B4, a temporary event in the preceding utterance of the response pair or an event that is denied as a result of the exchange in the response pair is a final conclusion. Text processing data that has been changed to match can be generated.
  • the event of “clogged at the outlet” of the speech index “9” is denied by the speech of the speech index “10”, and finally denied. It is replaced by the fact of That is, the positive fact that “clogged at the outlet”, which is a temporary event when the speech index “9” was spoken, is excluded, and the event “clogged at the outlet” is excluded as the negative fact. Can be included. Therefore, text processing data that matches the final conclusion can be generated. That is, the generated text processing data becomes data that can accurately perform text processing such as analysis and search such as mining.
  • the text processing data generated from the dialogue text illustrated in FIG. 9 includes information that “clogged at the discharge port” is a negative fact. For this reason, even when searching for an example of “the outlet is clogged”, the dialog text illustrated in FIG. 9 does not appear in the search result. On the other hand, when searching for an example of “the outlet is not clogged”, the dialogue text illustrated in FIG. 9 appears in the search result, and a correct search becomes possible.
  • the dialog text analysis apparatus of the third example corresponds to the dialog text analysis apparatus of the third embodiment.
  • the following description is also directed to text indicating a call made between a customer and an operator at the call center illustrated in FIG.
  • the process of creating text processing data will be described with reference to the flowchart illustrated in FIG.
  • the input unit 210 accepts the dialog text as input, the response pair specifying unit 231 specifies the response pair, and the negative determination unit 232 determines whether or not the event of the preceding utterance is denied in the subsequent utterance.
  • the processing in steps C1 to C3 in FIG. 6 is the same as the processing in steps A1 to A3 in FIG.
  • step C4-1 determines whether the preceding utterance function of the response pair is confirmation / return and the subsequent utterance function is a reply (step C4-1). ). Note that the process of step C4-1 may be performed simultaneously with the process of step C3, or may be performed before or after the process of step C3.
  • the confirmation response pair determination unit 233 compares the preceding utterance in the response pair with each utterance in the dialogue text existing in front of the preceding utterance, and the commonality of the included words is determined in advance. If there is an utterance higher than the threshold value, it is determined that the preceding utterance is an event indicating confirmation or hearing back, and the subsequent utterance of the response pair is an event indicating a response.
  • the confirmation response pair determination unit 233 compares the utterance index “15” of the preceding utterance with each utterance (utterance index “1” to “14”) appearing ahead of the utterance index “15” in the dialogue text. .
  • the confirmation response pair determination unit 233 may compare the utterance index “15” with each utterance of the utterance indexes “12” to “14”. .
  • the confirmation response pair determination unit 233 may compare only the utterance by a speaker different from the speaker of the preceding utterance.
  • the comparison target since the speaker of the preceding utterance (utterance of the utterance index “15”) is an operator, the comparison target may be limited to utterances uttered by a speaker other than the operator.
  • the confirmation response pair determination unit 233 may compare only the utterances uttered by the same speaker as the subsequent utterances.
  • the comparison target since the speaker of the subsequent utterance (the utterance with the utterance index “16”) is the customer, the comparison target may be limited to the utterance uttered by the customer.
  • the confirmation / reply pair determination means 233 calculates the degree of commonality between each of the preceding utterances and the preceding utterance at the time of comparison.
  • the confirmation response pair determination unit 233 may calculate the degree of common using, for example, the number of common words and the cosine similarity.
  • the words common to the utterance with the utterance index “14” and the preceding utterance are “Company A” and “Printer”. Since it is a word, the commonality is 2. Similarly, since the common word between the utterances of the utterance indexes “6” and “7” and the preceding utterance is one word of “printer”, the commonality is 1, and the utterances other than that and the preceding utterance The degree of commonality is 0.
  • the confirmation / reply pair determination unit 233 determines that the preceding utterance is an event indicating confirmation / return and an event in which the subsequent utterance indicates a response. It is determined that For example, in the above example, when the threshold is set to 2, the confirmation response pair determination unit 233 indicates that the utterance of the utterance index “15” is an event indicating confirmation or replay, and the utterance of the utterance index “16” is It is determined that this is an event indicating a reply of the statement index “15”.
  • the threshold value may be determined so that the distance from the preceding utterance increases (ie, the value is proportional to the distance from the preceding utterance) (step C4-1).
  • the confirmation target utterance specifying unit 234 confirms and listens back by the response pair. Identify utterances. Specifically, the confirmation target utterance specifying unit 234 has confirmed (or caused) the utterance whose word commonality with the preceding utterance calculated in Step C4-1 is higher than a threshold value in the preceding utterance. Identify the utterance.
  • the confirmation target utterance specifying unit 234 becomes a target (cause) for confirming or replaying the utterance of the utterance index 14 whose word commonality is greater than or equal to the threshold 2 with the preceding utterance. Identify the utterance.
  • the text processing data generation means 235 excludes the event of the utterance that has been confirmed or heard back by the response pair in addition to the event that the preceding utterance event in the response pair is denied to the subsequent utterance. Generated text processing data.
  • the text processing data generation means 235 generates text processing data excluding the event “14”, “A printer of company A” in addition to the event of the statement index “15”.
  • FIG. 15 is an explanatory diagram showing an example of text processing data generated by the text processing data generation means 235.
  • the parenthesis of the entry illustrated in FIG. 15 indicates the extraction source speech index.
  • the utterance “It is a printer of company A” is deleted (step C5).
  • the output unit 220 outputs the text processing data generated by the text processing data generation unit 235 (step C6).
  • the dialog text analysis apparatus even in the event of the fact that the fact has been confirmed once in the process of step C5, the fact is changed by the confirmation or the reply by the later response pair and the reply.
  • the event that is different from the final conclusion can be excluded from the text processing data.
  • the event of the comment index “14” illustrated in FIG. 9 is confirmed once by the affirmative fact that “It is a printer of company A”. However, the fact is changed by the confirmation (returning) by the response pair of the speech indexes “15” and “16” thereafter. Therefore, it is possible to generate text processing data excluding “It is a printer of company A” that is an event of the speech index “14”.
  • the dialog text analysis device in addition to the effects of the first embodiment and the second embodiment, when the event that is the basis of confirmation or hearing is different from the final conclusion, The event can be excluded from the text processing data. Therefore, the generated text processing data becomes data that can more accurately perform text processing such as analysis and search such as mining.
  • the fact corresponding to the event “the printer of company A” is negated in the subsequent utterance of the response pair from the text processing data (event of the speech index “15”). Can be excluded. Furthermore, in the dialog text analysis device of the third exemplary embodiment, the element corresponding to the event of the speech index “14” can be further excluded from the text processing data generated from the dialog text illustrated in FIG. Therefore, even when searching for the case of “printer of company A”, the dialog text illustrated in FIG. 9 does not correspond, and the search can be performed more correctly than the dialog text analysis apparatus of the first embodiment. .
  • the dialog text analysis apparatus of the fourth example corresponds to the dialog text analysis apparatus of the fourth embodiment.
  • the following description is also directed to text indicating a call made between a customer and an operator at the call center illustrated in FIG.
  • the process of creating text processing data will be described with reference to the flowchart illustrated in FIG.
  • step D1 to step D2 the processing from step D1 to step D2 until the input unit 310 accepts the dialog text as input and the response pair identification unit 331 identifies the response pair is the same as the processing of steps B1 to B2 in FIG.
  • steps D3 to D4 the processing of the steps D3 to D4 in which the negative determination means 332 determines whether or not the event of the preceding utterance is denied in the subsequent utterance, and the factuality determination means 333 in the utterance determines the factuality of the preceding utterance, This is the same as the processing of steps B3-1 to B3-2 in FIG.
  • the confirmation response pair determination unit 334 determines whether or not the response pair is a “confirmation (listening) -reply” pair, and the confirmation target utterance specifying unit 335 specifies the utterance that the preceding utterance is a target to be confirmed or heard back.
  • the processing of D5-1 to D5-2 is the same as the processing of steps C4-1 to C4-2 in FIG. If the process of step D5-2 is performed after the process of step D5-1, the order of the processes of step D3, step D4, step D5-1, and step D5-2 is arbitrary.
  • the text processing data generation means 336 excludes from the dialog text the event in which the preceding utterance event in the response pair is denied to the subsequent utterance. Then, the text processing data generating means 336 adds an event showing the fact opposite to the fact of the preceding utterance determined in step D3 to the text processing data instead of the excluded event. Further, the text processing data generation means 336 adds the fact of the event of the utterance identified by the confirmation target utterance identification means 335 (that is, the utterance of the cause that was confirmed or heard back in the preceding utterance) to the dialog text. Change to match the factuality of the event (ie, reverse the original factuality).
  • the text processing data generation means 336 excludes the event “the printer of company A” of the statement index “15”, which is a positive fact, from the dialogue text. Then, the text processing data generation means 336 generates text processing data in which a negative fact “I am a printer of company A” is added to the dialog text instead of the excluded event. Further, the text processing data generation means 336 changes the event “It is a printer of company A” of the statement index “14” from a positive fact to a negative fact.
  • FIG. 16 is an explanatory diagram showing an example of text processing data generated by the text processing data generation means 336. Note that the parentheses in the entry illustrated in FIG. 16 indicate the extraction source speech index. In the example shown in FIG. 16, the factuality of the statement index “14” is changed to a negative fact (step D6).
  • the output unit 320 outputs the text processing data generated by the text processing data generation unit 336 (step D7).
  • the event of the comment index “14” illustrated in FIG. 9 is confirmed once by the affirmative fact that “It is a printer of company A”.
  • the event “The printer of company A” in the speech index “14” has been changed from a positive fact to a negative fact. ing. Therefore, in addition to the effects of the third embodiment, it is possible to effectively use the event that is the source of confirmation and rehearsal.
  • the dialog text analysis device in addition to the effects of the first embodiment and the second embodiment, when the event that is the source of confirmation or replay differs from the final conclusion, The event can be modified to be consistent with the final conclusion. Therefore, the generated text processing data becomes data that can more accurately perform text processing such as analysis and search such as mining.
  • the text processing data generated from the dialogue text illustrated in FIG. 9 includes a case of “not a printer of company A”. Therefore, even if the case of “It is a printer of company A” is searched, the dialog text illustrated in FIG. 9 does not appear in the search result. On the other hand, when a case of “not a printer of company A” is searched, the dialog text illustrated in FIG. 9 appears in the search result. In this way, a correct search becomes possible.
  • the dialog text analysis apparatus As described above, in the interaction between the operator and the customer at the call center, the operator often confirms or listens to an important part in the response or an ambiguous part in the customer's remarks. Therefore, the dialog text analysis apparatus according to the third embodiment and the fourth embodiment of the present invention that focuses on replay and confirmation is particularly effective when the analysis target is a dialog text in a call center.
  • FIG. 17 is a block diagram showing an example of the minimum configuration of the dialog text analysis apparatus according to the present invention.
  • the dialogue text analysis device is a second utterance in which an event of a first utterance (for example, preceding utterance) in a dialogue text that is a text including the contents of a plurality of utterances exists after the first utterance (
  • a negative determination means 81 for example, a negative determination means 32
  • Text processing data generating means 82 for example, text processing data generating means 33 for generating text processing data which is data obtained by removing the first utterance event from the dialogue text.
  • text processing data for accurately performing text processing such as mining analysis and search can be generated from the dialog text.
  • Response pair specifying means for example, response pair specifying means 31 for specifying a response pair that is a pair of utterances
  • the negative determination means 81 may determine whether or not the event of the first utterance in the response pair is denied in the second utterance.
  • the text processing data generating means indicates an event indicating the negative fact as an event indicating the positive fact If the content of the event in the first utterance indicates a negative fact, the event indicating the negative fact is changed to an event indicating a positive fact.
  • the dialog text analysis device according to supplementary note 1 or supplementary note 2 added to data.
  • a negative determination means is a case where the negative utterance which is the predetermined utterance which denies the content of the front utterance and the second utterance match, or the feature of the negative utterance and the second utterance
  • the dialog text analysis device according to any one of supplementary notes 1 to 3, which determines that the event of the first utterance is denied in the second utterance when the characteristics match.
  • the negative determination means is a case where the verb used in the second utterance is a synonym of the verb used in the first utterance and other elements match, or If some of the elements used in the utterance are in a relationship that does not hold simultaneously with some of the elements used in the first utterance, the event of the first utterance is denied by the second utterance.
  • the dialog text analysis device according to any one of Supplementary Note 1 to Supplementary Note 3 that determines that the content is present.
  • a response pair specifying means for specifying a response pair that is a pair of two utterances, and an event in which the first utterance in the response pair indicates confirmation or replay, and the second utterance in the response pair corresponds to the confirmation or replay
  • Confirmation response pair determination means for determining whether or not the confirmation response pair is in the relationship of an event indicating a response, and when the response pair is the confirmation response pair, the utterance in the dialog text is more than the first utterance.
  • the dialog text analysis device according to any one of supplementary notes 1 to 5, which generates text processing data excluding facts.
  • the text processing data generating means determines that the content of the event in the utterance of the cause that was confirmed or heard back in the first utterance
  • the event indicating the positive fact is changed to an event indicating a negative fact and added to the text processing data
  • the content of the event in the utterance of the cause indicates a negative fact
  • the dialog text analysis device according to appendix 6, wherein an event indicating a negative fact is changed to an event indicating a positive fact and added to the text processing data.
  • the confirmation response pair determination means compares the commonality of words between the first utterance in the response pair and each utterance in the dialogue text existing before the preceding utterance, and the commonality is determined in advance.
  • the dialog text analysis device according to appendix 6 or appendix 7, wherein when an utterance higher than the threshold value is present before the first utterance, the response pair is determined to be a confirmation reply pair.
  • the present invention is effective in generating text processing data when text processing is performed on interactive text in which the factuality of an event is determined or changed in relation to a later utterance. Demonstrate. Therefore, for example, conversations between operators and customers in a call center (conversations), conversations in a meeting, store staff and customers in a store, etc.
  • the present invention is suitably applied to a dialog text analysis apparatus that performs analysis and search such as text mining and summarization.
  • the present invention is also suitably applied to a dialog text analysis device that performs analysis and search such as text mining and summarization for chat, Twitter (registered trademark), and bulletin boards.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 対話テキスト解析装置は、対話テキストからテキスト処理用データを生成する。否定判定手段81は、複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、その第一の発話より後に存在する第二の発話で否定されているか否かを判定する。テキスト処理用データ生成手段82は、第一の発話の事象が第二の発話で否定されている場合、否定された第一の発話の事象を対話テキストから除いたデータであるテキスト処理用データを生成する。

Description

対話テキスト解析装置、方法およびプログラム
 本発明は、発話の内容を表す対話テキストを解析し、マイニングなどの分析や検索といったテキスト処理を行う際に用いられるテキスト処理用データを生成する対話テキスト解析装置、対話テキスト解析方法および対話テキスト解析プログラムに関する。
 テキストを対象として、分析や検索などの処理を正しく行うために、肯定の事実と否定の事実とを区別して分析することが望ましい。肯定の事実とは、事象が肯定で成り立っている事実である。言い換えると、肯定の事実は、事象に対して肯定的な内容を示す事実である。また、否定の事実は、事象が否定で成り立っている事実である。言い換えると、否定の事実とは、事象に対して否定的な内容を示す事実であるということもできる。例えば、「ネットに接続できている」という事象に対して、肯定の事実とは「ネットに接続できている」という事実であり、否定の事実とは「ネットに接続できていない」という事実である。
 例として、コールセンターに蓄積されたテキストを対象に、「ネットに接続できている」状況(肯定の事実)を表すテキストを検索する場合を考える。この際、テキストに記載されている事象が肯定か否定かを考慮せずに、単純に「ネット」や「接続」といった単語が含まれるテキストが検索されると、「ネットに接続できない」事例(否定の事実)も検索結果に含まれてしまう。その結果、検索精度が低くなる。
 従って、検索処理において、記載されている事象が肯定の事実か否定の事実かを分けて扱うことが望ましい。また、検索処理に限らず、テキストマイニングや要約などの多くのテキスト分析において、肯定の事実と否定の事実とを区別することは、精度よく分析を行う上で重要である。
 非特許文献1には、否定表現のバリエーションを吸収できるテキストマイニングが記載されている。非特許文献1に記載されたテキストマイニングでは、ユーザの質問文(クエリ)に相当する事例を検索する際に、テキストを形態素解析し、文節に、形容詞「ない」、助動詞「ぬ」、または形容動詞「不可能だ」が含まれる場合に、その文節に否定フラグが付与される。そして、検索の際に、否定フラグが付与されたデータを用いて、否定フラグまで含めたマッチングが行われことによって、クエリに適した事例が高い精度で検索される。
 非特許文献2には、事象の述語に対して肯定の事実か否定の事実かという事実性を判定する方法が記載されている。非特許文献2に記載された方法では、まず、事象を表す各述語に事実性が割り当てられた学習コーパスを用いて、学習アルゴリズムfactorial CRF(Conditional random fields )により、述語(事象)の事実性を推定するモデルが予め作成される。モデルの素性として、事象を表す述語、その述語が含まれる文節の前と後の文節内の形態素の情報、及び、係り先・係り元の文節内の形態素の情報と、予め作成された機能表現辞書に含まれる意味分類が用いられる。そして、解析対象の述語(事象)から素性が抽出され、その素性を予め作成された事実性を推定するモデルに入力することによって、解析対象の述語(事象)の事実性が判定される。
 なお、非特許文献3には、会話分析で用いられる隣接ペアが記載されている。隣接ペアは、質問と返答、誘いと受諾といった基本的な相互行為を達成する発話対である。2つの発話をX,Yとしたときに、隣接ペアは、(1)XとYは隣接した位置にある、(2)XとYは異なる話者が産出する、(3)第1部分Xは第2部分Yに先行する、(4)Xは決まった型のYを要求する、といったルールに沿って決定される。
 また、非特許文献4には、隣接ペアを特定する具体的な方法が記載されている。非特許文献4に記載された方法の場合、前N発話のダイアログアクトや分析対象の発話の韻律情報、時間情報や参照情報によって、各発話のダイアログアクトが与えられるとともに、隣接ペアになっている発話が特定される。
"Text Mining Solution"、[online]、株式会社リッテル、[2010年11月2日検索]、インターネット〈URL:http://littel.co.jp/textmine/textmine004.html〉 森田啓,佐尾ちとせ,松吉俊,松本裕治,乾健太郎,"テキスト情報の事実性解析",第7回情報科学技術フォーラム(FIT2008),Vol.2,pp.259-260,2008. 石崎雅人, 伝康晴,"言語と計算3 談話と対話",東京大学出版会,pp.140-150,2001. Yosuke Matsusaka, Mika Enomoto, and Yasuharu Den,"Simultaneous Prediction of Dialog Acts and Address Types in Three-party Conversations",Proc. 9th International Conference on Multimodal Interfaces(ICMI 07),pp.66-73,2007.
 様々な種類のテキストの中でも、発話の内容を表すテキスト(以下、対話テキストと記す。)では、発話が示す事象の事実性(すなわち、事象が肯定の事実を示すか否定の事実を示すか)が複数人による複数の発話によって決定されることが多い。図18は、対話テキストの例を示す説明図である。図18に示す対話テキストは、コールセンターの通話データの一例を示す。図18に示す対話テキストは、話者とその話者の発言した内容を表す発言テキストとを含んでいる。これらの内容は発言インデックスが示す番号により特定される。以下、発話インデックス「N」で識別される発話を、単に、発話インデックス「N」の発話と記す。ここで、Nは、正の整数であるとする。
 図18に示す発言インデックス「9」の「排水口で詰まる」という事象の事実性は、発言インデックス「9」の発話がされた時点では仮説の状態である。その後、発言インデックス「10」の発話で、発言インデックス「9」の発話の内容が否定されることによって、初めて発言インデックス「9」の発話が否定の事実であることが分かる。
 また、対話テキストにおいて、一度、決定された事象の事実性が、確認や聞き返しにより、後で変更されることがある。例えば、図18に示す発言インデックス「14」の「A社のプリンタである」という事象は、一度、肯定の事実として決定される。しかし、発言インデックス「15」の発話における確認の発言と、その返答である発言インデックス「16」の発話により、「A社のプリンタである」という事象は否定の事実に変更される。
 特に、コールセンターでなされるオペレータと顧客との対話において、オペレータは、おうむ返しによって重要な部分の確認を行うことが多い。そのため、その確認に対する返答により、一度決定した事実性が変更される場合が多々存在する。以上のように、対話テキスト中において、事象の事実性は、後の発話との関係で決定されたり変更されたりする。
 しかし、非特許文献1に記載されたテキストマイニングや、非特許文献2に記載された方法では、事象が記述された一文の情報を手がかりとして、その事象の事実性が決定される。すなわち、マイニングなどの分析や検索といったテキスト処理に用いられるデータ(以下、テキスト処理用データと記す。)は、一文ごとに決定された事実性の集合になる。したがって、この場合のテキスト処理用データには、後の発話で決定される仮の事実や、後の発話で事実性が変更される事実など、実際の事実とは異なる事実もテキスト処理用データに含まれることになる。
 例えば、図18に示す発言インデックス「9」の「排出口で詰まる」という仮の肯定の事実や、後で否定される発言インデックス「14」の「A社のプリンタである」という事実も、それぞれのテキストの解析で得られた肯定の事実として、テキスト処理用データに含まれてしまう。その結果、正しいテキスト処理を行うことができない。例えば、検索精度が悪くなったり、マイニング精度が悪くなったり、要約の精度が悪くなったりするという問題が生じてしまう。
 そこで、本発明は、事象の事実性が後の発話との関係で決定されたり変更されたりするような対話テキストから、マイニングなどの分析や検索といったテキスト処理を精度よく行なうためのテキスト処理用データを生成できる対話テキスト解析装置、対話テキスト解析方法および対話テキスト解析プログラムを提供することを目的とする。
 本発明による対話テキスト解析装置は、複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、その第一の発話より後に存在する第二の発話で否定されているか否かを判定する否定判定手段と、第一の発話の事象が第二の発話で否定されている場合、否定された第一の発話の事象を対話テキストから除いたデータであるテキスト処理用データを生成するテキスト処理用データ生成手段とを備えたことを特徴とする。
 本発明による対話テキスト解析方法は、複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、その第一の発話より後に存在する第二の発話で否定されているか否かを判定し、第一の発話の事象が第二の発話で否定されている場合、否定された第一の発話の事象を対話テキストから除いたデータであるテキスト処理用データを生成することを特徴とする。
 本発明による対話テキスト解析プログラムは、コンピュータに、複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、その第一の発話より後に存在する第二の発話で否定されているか否かを判定する否定判定処理、および、第一の発話の事象が第二の発話で否定されている場合、否定された第一の発話の事象を対話テキストから除いたデータであるテキスト処理用データを生成するテキスト処理用データ生成処理を実行させることを特徴とする。
 本発明によれば、マイニングなどの分析や検索といったテキスト処理を精度よく行なうためのテキスト処理用データを対話テキストから生成できる。
本発明の第1の実施形態における対話テキスト解析装置の例を示すブロック図である。 第1の実施形態における対話テキスト解析装置の動作の例を示すフローチャートである。 本発明の第2の実施形態における対話テキスト解析装置の例を示すブロック図である。 第2の実施形態における対話テキスト解析装置の動作の例を示すフローチャートである。 本発明の第3の実施形態における対話テキスト解析装置の例を示すブロック図である。 第3の実施形態における対話テキスト解析装置の動作の例を示すフローチャートである。 本発明の第4の実施形態における対話テキスト解析装置の例を示すブロック図である。 第4の実施形態における対話テキスト解析装置の動作の例を示すフローチャートである。 隣接ペアの例を示す説明図である。 否定判定手段の例を示すブロック図である。 否定発話データベースに記憶された情報の例を示す説明図である。 否定判定手段の他の例を示すブロック図である。 テキスト処理用データの例を示す説明図である。 テキスト処理用データの例を示す説明図である。 テキスト処理用データの例を示す説明図である。 テキスト処理用データの例を示す説明図である。 本発明による対話テキスト解析装置の最小構成の例を示すブロック図である。 対話テキストの例を示す説明図である。
 以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
 図1は、本発明の第1の実施形態における対話テキスト解析装置の例を示すブロック図である。本実施形態における対話テキスト解析装置は、入力手段10と、出力手段20と、コンピュータ30とを備えている。ここで、コンピュータ30は、中央処理装置、プロセッサ、またはデータ処理装置等により実現される。
 入力手段10は、分析対象として、複数の発話の内容を含むテキスト(すなわち、対話テキスト)をコンピュータ30に入力する。また、出力手段20は、コンピュータ30が生成したテキスト処理用データを出力する。
 コンピュータ30は、応答ペア特定手段31と、否定判定手段32と、テキスト処理用データ生成手段33とを備えている。
 応答ペア特定手段31は、入力された対話テキスト中の各発話から、対話の相手に尋ねる発話と、その発話の後方に存在し、その発話の回答になっている発話のペアである応答ペアの関係にある発話同士を特定する。以下の説明では、対話の相手に尋ねる発話のことを先行発話と記し、その発話に対応する発話のことを後続発話と記す。応答ペア特定手段31は、疑問文を表す発話と発話の直後の発話とを応答ペアとして特定してもよい。また、応答ペア特定手段31は、対話テキストから所定のルールに基づいて決定される隣接ペアを応答ペアとして特定してもよい。
 否定判定手段32は、応答ペアの先行発話の事象が後続発話で否定されているか否かを判定する。事象は、発話の構文木や、動詞を中心とした構造(係り受け関係、格構造、構文木の部分木)で表わすことが可能な情報である。否定判定手段32は、例えば、前方の発話の内容を否定する予め定められた発話(以下、否定発話と記す。)と後続発話とが一致する場合に、応答ペアの先行発話の事象が後続発話で否定されていると判定してもよい。他にも、否定判定手段32は、否定発話の特徴と後続発話の特徴とが一致する場合、先行発話の事象が後続発話で否定されていると判定してもよい。ただし、否定判定手段32が判定する方法は、これらの方法に限定されない。
 テキスト処理用データ生成手段33は、先行発話の事象が後続発話で否定されている場合、否定された先行発話の事象を対話テキストから除いたデータをテキスト処理用データとして生成する。
 なお、本発明において、事実は、実際に生じた事柄を意味するだけでなく、その後の処理において事実性が変化し得る仮の内容や、実際には生じていない内容(すなわち、実際に生じた内容とは異なる内容)をも含む情報を意味する。例えば、事象の事実性に着目した時点で「肯定の事実」と判断された事実も、後の処理で「否定の事実」と判断され得る。
 なお、応答ペア特定手段31と、否定判定手段32と、テキスト処理用データ生成手段33とは、プログラム(対話テキスト解析プログラム)に従って動作するコンピュータ30(具体的には、コンピュータ30のCPU)によって実現される。例えば、プログラムは、対話テキスト解析装置の記憶部(図示せず)に記憶される。CPUは、記憶部からプログラムを読み込み、プログラムに従って、応答ペア特定手段31、否定判定手段32およびテキスト処理用データ生成手段33として動作してもよい。また、応答ペア特定手段31と、否定判定手段32と、テキスト処理用データ生成手段33とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、対話テキスト解析装置の動作を説明する。図2は、第1の実施形態の対話テキスト解析装置の動作の例を示すフローチャートである。入力手段10は、分析対象となる対話テキストを入力として受け付ける(ステップA1)。続いて、応答ペア特定手段31は、入力された対話テキストの各発話から、対話の相手に尋ねる発話と、その発話の後方に存在し、その発話の回答になっている発話のペア(応答ペア)を特定する(ステップA2)。
 否定判定手段32は、応答ペアにおける先行発話の事象が後続発話で否定されているか否か判定する(ステップA3)。
 テキスト処理用データ生成手段33は、後に行われるマイニングなどの分析や検索といったテキスト処理を行う際に用いられるテキスト処理用データを生成する。具体的には、テキスト処理用データ生成手段33は、ステップA3での判定結果(すなわち、応答ペアの後続発話が先行発話の事象を否定しているか否か)を否定判定手段32から受け取る。そして、応答ペアにおける先行発話の事象が後続発話に否定されていると判定されていた場合、テキスト処理用データ生成手段33は、その否定された事象を対話テキストから除外したテキスト処理用データを作成する(ステップA4)。すなわち、テキスト処理用データ生成手段33は、後続発話によって否定される前に存在していた先行発話の事象を、否定された事象として対話テキストから除外しているということができる。最後に、出力手段20は、ステップA4で生成されたテキスト処理用データを出力する(ステップA5)。
 以上のように、本実施形態では、否定判定手段32が、対話テキストにおける先行発話の事象がその先行発話より後に存在する後続発話で否定されているか否かを判定する。そして、先行発話の事象が後続発話で否定されている場合、テキスト処理用データ生成手段33が、否定された先行発話の事象を対話テキストから除いたテキスト処理用データを生成する。そのため、マイニングなどの分析や検索といったテキスト処理を精度よく行なうためのテキスト処理用データを対話テキストから生成できる。
 すなわち、ステップA4において、テキスト処理用データ生成手段33が、応答ペアにおける先行発話の事象が後続発話で否定されている事象をテキスト処理用データから除外する。したがって、対話テキスト中の先行発話内での仮の事象や、応答ペアでのやり取りの結果否定される事象をテキスト処理用データから削除することができるため、最終的な結論に適したテキスト処理用データを生成することができる。結果として、生成されるテキスト処理用データが、マイニングなどの分析や検索といったテキスト処理を精度よく行うことができるデータになる。
実施形態2.
 図3は、本発明の第2の実施形態の対話テキスト解析装置の例を示すブロック図である。本実施形態の対話テキスト解析装置は、入力手段110と、出力手段120と、コンピュータ130とを備えている。コンピュータ130は、中央処理装置、プロセッサ、またはデータ処理装置等により実現される。なお、入力手段110および出力手段120は、第1の実施形態における入力手段10および出力手段20と同様であるため、説明を省略する。
 コンピュータ130は、応答ペア特定手段131と、否定判定手段132と、発話内事実性判定手段133と、テキスト処理用データ生成手段134とを備えている。応答ペア特定手段131および否定判定手段132は、第1の実施形態における応答ペア特定手段31および否定判定手段32と同様であるため、説明を省略する。
 発話内事実性判定手段133は、応答ペアにおける先行発話の事象が肯定の事実を示すか事象か、否定の事実を示す事象か(すなわち、事象の事実性)を、先行発話の情報から判定する。発話内事実性判定手段133は、例えば、非特許文献2に記載されたモデルを用いて、先行発話の事象の事実性を判定してもよい。
 テキスト処理用データ生成手段134は、先行発話の事象が後続発話に否定されている場合、否定された先行発話の事象を対話テキストから除くとともに、その先行発話の事象の事実性とは逆の事実性を示す事象を対話テキストに追加したデータをテキスト処理用データとして生成する。すなわち、テキスト処理用データ生成手段134は、先行発話の事象が後続発話に否定されている場合、否定されたと判定された事象が肯定の事実のときにはその事象を否定の事実に変更し、否定されたと判定された事実が否定の事実のときには、その事象を肯定の事実に変更し、それぞれ否定された先行発話の事象の代わりにテキスト処理用データに追加する。テキスト処理用データ生成手段134は、例えば、先行発話の事象に、その事象の事実性を付加した情報をテキスト処理用データに追加してもよい。
 なお、応答ペア特定手段131と、否定判定手段132と、発話内事実性判定手段133と、テキスト処理用データ生成手段134とは、プログラム(対話テキスト解析プログラム)に従って動作するコンピュータ130(具体的には、コンピュータ130のCPU)によって実現される。また、応答ペア特定手段131と、否定判定手段132と、発話内事実性判定手段133と、テキスト処理用データ生成手段134とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、対話テキスト解析装置の動作を説明する。図4は、第2の実施形態の対話テキスト解析装置の動作の例を示すフローチャートである。なお、入力手段110が対話テキストを入力として受け付け、応答ペア特定手段131が応答ペアを特定し、否定判定手段132が先行発話の事象が後続発話で否定されているか否かを判定するまでの、ステップB1~ステップB3-1の処理は、図2におけるステップA1~A3の処理と同様である。
 ステップB2の処理が行われた後、発話内事実性判定手段133は、応答ペア内の先行発話を用いて、その先行発話の事象が肯定の事実か否定の事実か(すなわち、事実性)を判定する(ステップB3-2)。なお、ステップB3-2の処理は、ステップB3-1の処理と同時に行われてもよく、ステップB3-1の処理の前または後に行われてもよい。
 続いて、テキスト処理用データ生成手段134は、後に行われるマイニングなどの分析や検索といったテキスト処理を行う際に用いられるテキスト処理用データを生成する。具体的には、テキスト処理用データ生成手段134は、ステップB3-1で判定された、応答ペアにおける後続発話が先行発話の事象を否定しているか否かの結果を否定判定手段132から受け取る。また、テキスト処理用データ生成手段134は、ステップB3-2で判定された、先行発話の事象の事実性の判定結果を発話内事実性判定手段133から受け取る。
 応答ペアにおける先行発話の事象が後続発話に否定されていると判定されていた場合、テキスト処理用データ生成手段134は、その否定された事象を対話テキストから除外する。そして、テキスト処理用データ生成手段134は、ステップB3-2で判定された先行発話の事象の事実性とは逆の事実性を示す事象を、除外した事象の代わりにテキスト処理用データに追加する。つまり、テキスト処理用データ生成手段134は、ステップB3-2において判定された先行発話の事象が、肯定の事実のときにはその事象を否定の事実とし、否定の事実のときにはその事象を肯定の事実として、テキスト処理用データを生成する(ステップB4)。最後に、出力手段120は、ステップB4で生成されたテキスト処理用データを出力する(ステップB5)。
 以上のように、本実施形態では、テキスト処理用データ生成手段134が、否定された先行発話の事象の内容が肯定の事実を示す場合、その事象を否定の事実を示す事象としてテキスト処理用データに追加し、先行発話の事象の内容が否定の事実を示す場合、その事象を肯定の事実を示す事象としてテキスト処理用データに追加する。
 すなわち、ステップB4において、テキスト処理用データ生成手段134が応答ペアにおける先行発話の事象が後続発話に否定されている事象をテキスト処理用データから除外する。さらに、テキスト処理用データ生成手段134が、除外した事象の代わりに、ステップB3-2で判定された先行発話の事象の事実性とは逆の事実性を示す事象をテキスト処理用データに追加する。したがって、対話テキスト中の先行発話内での仮の事象や、応答ペアでのやり取りの結果否定される事象に対し、最終的な結論と一致するようにテキスト処理用データを生成することができる。結果として、生成されるテキスト処理用データが、マイニングなどの分析や検索といったテキスト処理を精度よく行うことができるデータになる。
実施形態3.
 図5は、本発明の第3の実施形態の対話テキスト解析装置の例を示すブロック図である。本実施形態の対話テキスト解析装置は、入力手段210と、出力手段220と、コンピュータ230とを備えている。コンピュータ230は、中央処理装置、プロセッサ、またはデータ処理装置等により実現される。なお、入力手段210および出力手段220は、第1の実施形態における入力手段10および出力手段20と同様であるため、説明を省略する。
 コンピュータ230は、応答ペア特定手段231と、否定判定手段232と、確認返答ペア判定手段233と、確認対象発話特定手段234と、テキスト処理用データ生成手段235とを備えている。応答ペア特定手段231および否定判定手段232は、第1の実施形態における応答ペア特定手段31および否定判定手段32と同様であるため、説明を省略する。
 確認返答ペア判定手段233は、応答ペアにおける先行発話がある事象の確認または聞き返しを示す事象であるか否か、および、その応答ペアにおける後続発話がその確認または聞き返しに対する返答を示す事象であるか否かを判定する。以下、応答ペアにおいて、先行発話が確認または聞き返しを示す事象であり、かつ、後続発話がその確認または聞き返しに対する返答を示す事象であるペアを、「確認(聞き返し)-返答」のペアと記す。具体的には、確認返答ペア判定手段233は、例えば、応答ペアにおける先行発話とその先行発話の前に存在する対話テキスト中の各発話との単語の共通度を比較する。そして、確認返答ペア判定手段233は、先行発話との単語の共通度が予め定められた閾値より高い発話がその先行発話の前に存在する場合、その応答ペアを「確認(聞き返し)-返答」のペアと判定する。
 確認対象発話特定手段234は、応答ペアが「確認(聞き返し)-返答」のペアである場合、対話テキスト中の発話の中で、先行発話の前方に存在する、先行発話が確認や聞き返す対象とした発話を特定する。言い換えると、確認対象発話特定手段234は、応答ペアが「確認(聞き返し)-返答」のペアである場合、対話テキスト中の発話の中で、先行発話よりも前に存在する発話のうち、その先行発話で確認または聞き返しが行われた原因の発話を特定しているということもできる。具体的には、確認対象発話特定手段234は、先行発話との単語の共通度が閾値より高い発話を、先行発話で確認または聞き返しの対象(原因)になった発話であると特定してもよい。
 テキスト処理用データ生成手段235は、先行発話の事象が後続発話に否定されている場合、否定された先行発話の事象を対話テキストから除くとともに、確認対象発話特定手段234が特定した発話(すなわち、その先行発話で確認または聞き返しが行われた原因の発話)の事象を対話テキストから除いたデータをテキスト処理用データとして生成する。
 なお、応答ペア特定手段231と、否定判定手段232と、確認返答ペア判定手段233と、確認対象発話特定手段234と、テキスト処理用データ生成手段235とは、プログラム(対話テキスト解析プログラム)に従って動作するコンピュータ230(具体的には、コンピュータ230のCPU)によって実現される。また、応答ペア特定手段231と、否定判定手段232と、確認返答ペア判定手段233と、確認対象発話特定手段234と、テキスト処理用データ生成手段235とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、対話テキスト解析装置の動作を説明する。図6は、第3の実施形態の対話テキスト解析装置の動作の例を示すフローチャートである。なお、入力手段210が対話テキストを入力として受け付け、応答ペア特定手段231が応答ペアを特定し、否定判定手段232が先行発話の事象が後続発話で否定されているか否かを判定するまでの、ステップC1~ステップC3の処理は、図2におけるステップA1~A3の処理と同様である。
 ステップC2の処理が行われた後、確認返答ペア判定手段233は、応答ペアの先行発話の働きが確認や聞き返しで、後続発話の働きがその先行発話に対する返答であるか否かを判定する(ステップC4-1)。なお、ステップC4-1の処理は、ステップC3の処理と同時に行われてもよく、ステップC3の処理の前または後に行われてもよい。
 ステップC4-1で、応答ペアが「確認(聞き返し)-返答」のペアであると判定された場合、確認対象発話特定手段234は、対話テキスト中の発話の中で、先行発話の前方に存在する、先行発話が確認や聞き返す対象とした発話を特定する(ステップC4-2)。
 続いて、テキスト処理用データ生成手段235は、後に行われるマイニングなどの分析や検索といったテキスト処理を行う際に用いられるテキスト処理用データを生成する。具体的には、テキスト処理用データ生成手段235は、ステップC3で判定された、応答ペアにおける後続発話が先行発話の事象を否定しているか否かの結果を否定判定手段232から受け取る。また、テキスト処理用データ生成手段235は、ステップC4-2で特定された、応答ペアによる確認や聞き返しの元になった発話を確認対象発話特定手段234から受け取る。
 応答ペアにおける先行発話の事象が後続発話に否定されていると判定されていた場合、テキスト処理用データ生成手段235は、その否定された事象を対話テキストから除外する。さらに、テキスト処理用データ生成手段235は、その応答ペアに対して確認や聞き返しの元となった発話の事象も除外する(ステップC5)。最後に、出力手段220は、ステップC5で生成されたテキスト処理用データを出力する(ステップC6)。
 以上のように、本実施形態では、確認返答ペア判定手段233が、応答ペアが「確認(聞き返し)-返答」のペアの関係にあるか否かを判定する。その応答ペアが「確認(聞き返し)-返答」のペアの関係にある場合、確認対象発話特定手段234が、対話テキスト中の発話の中で、先行発話よりも前に存在する発話のうち、その先行発話で確認または聞き返しが行われた原因の発話を特定する。そして、先行発話の事象が後続発話により否定されている場合、テキスト処理用データ生成手段235が、特定された原因の発話における事象の事実を除いたテキスト処理用データを生成する。
 すなわち、ステップC5において、テキスト処理用データ生成手段235が応答ペアの先行発話の事象が後続発話に否定されている事象をテキスト処理用データから除外する。さらに、テキスト処理用データ生成手段235がその応答ペアに対して確認や聞き返しの元になった発話の事象もテキスト処理用データから除外する。したがって、一度は事実性が確定した事象に対しても、後の応答ペアによる確認や聞き返し及びその返答によって事実性が変更されることで、最終的な結論とは異なってしまった事象を、テキスト処理用データから削除することができる。結果として、生成されるテキスト処理用データが、マイニングなどの分析や検索といったテキスト処理を精度よく行うことができるデータになる。
実施形態4.
 図7は、本発明の第4の実施形態の対話テキスト解析装置の例を示すブロック図である。本実施形態の対話テキスト解析装置は、入力手段310と、出力手段320と、コンピュータ330とを備えている。コンピュータ330は、中央処理装置、プロセッサ、またはデータ処理装置等により実現される。なお、入力手段310および出力手段320は、第1の実施形態における入力手段10および出力手段20と同様であるため、説明を省略する。
 コンピュータ330は、応答ペア特定手段331と、否定判定手段332と、発話内事実性判定手段333と、確認返答ペア判定手段334と、確認対象発話特定手段335と、テキスト処理用データ生成手段336とを備えている。応答ペア特定手段331、否定判定手段332および発話内事実性判定手段333、第2の実施形態における応答ペア特定手段131、否定判定手段132および発話内事実性判定手段133と同様である。また、確認返答ペア判定手段334および確認対象発話特定手段335は、第3の実施形態における、確認返答ペア判定手段233および確認対象発話特定手段234と同様である。そのため、これらの内容については、説明を省略する。
 テキスト処理用データ生成手段336は、先行発話の事象が後続発話に否定されている場合、否定された先行発話の事象を対話テキストから除くとともに、その先行発話の事象の事実性とは逆の事実性を示す事象を対話テキストに追加したデータをテキスト処理用データとして生成する。
 さらに、テキスト処理用データ生成手段336は、確認対象発話特定手段335が特定した発話(すなわち、その先行発話で確認または聞き返しが行われた原因の発話)の事象の事実性を、対話テキストに追加した事象の事実性と一致するように変更する。具体的には、テキスト処理用データ生成手段336は、先行発話の事象が後続発話により否定された場合に、先行発話で確認または聞き返しが行われた原因の発話における事象の内容が肯定の事実を示すときには、その肯定の事実を示す事象を否定の事実を示す事象に変更してテキスト処理用データに追加する。同様に、テキスト処理用データ生成手段336は、先行発話で確認または聞き返しが行われた原因の発話における事象の内容が否定の事実を示す場合に、その否定の事実を示す事象を肯定の事実を示す事象に変更してテキスト処理用データに追加する。なお、事象の事実性とは逆の事実性を示す事象を対話テキストに追加する方法は、テキスト処理用データ生成手段134が先行発話の事象の事実性とは逆の事実性を示す事象を対話テキストに追加する方法と同様である。
 応答ペア特定手段331と、否定判定手段332と、発話内事実性判定手段333と、確認返答ペア判定手段334と、確認対象発話特定手段335と、テキスト処理用データ生成手段336とは、プログラム(対話テキスト解析プログラム)に従って動作するコンピュータ330(具体的には、コンピュータ330のCPU)によって実現される。また、応答ペア特定手段331と、否定判定手段332と、発話内事実性判定手段333と、確認返答ペア判定手段334と、確認対象発話特定手段335と、テキスト処理用データ生成手段336とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、対話テキスト解析装置の動作を説明する。図8は、第4の実施形態の対話テキスト解析装置の動作の例を示すフローチャートである。なお、入力手段310が対話テキストを入力として受け付け、応答ペア特定手段331が応答ペアを特定するまでのステップD1~ステップD2の処理は、図4におけるステップB1~B2の処理と同様である。
 続いて、否定判定手段332が先行発話の事象が後続発話で否定されているか否か判定する。発話内事実性判定手段333がその先行発話の事実性を判定するステップD3~D4の処理は、図4におけるステップB3-1~B3-2の処理と同様である。また、応答ペアが「確認(聞き返し)-返答」のペアか否かを確認返答ペア判定手段334が判定し、先行発話が確認や聞き返す対象とした発話を確認対象発話特定手段335が特定するステップD5-1~D5-2の処理は、図6におけるステップC4-1~C4-2の処理と同様である。
 なお、ステップD5-1の処理の後にステップD5-2の処理が行われれば、ステップD3、ステップD4、ステップD5-1およびステップD5-2の処理の順番は任意である。
 続いて、テキスト処理用データ生成手段336は、後に行われるマイニングなどの分析や検索といったテキスト処理を行う際に用いられるテキスト処理用データを生成する。具体的には、テキスト処理用データ生成手段336は、ステップD3で判定された、応答ペアにおける後続発話が先行発話の事象を否定しているか否かの結果を否定判定手段332から受け取る。また、テキスト処理用データ生成手段336は、ステップD4で判定された、先行発話の事象の事実性の判定結果を発話内事実性判定手段333から受け取る。さらに、テキスト処理用データ生成手段336は、ステップD5-2で特定された、応答ペアによる確認や聞き返しの元になった発話を確認対象発話特定手段335から受け取る。
 応答ペアにおける先行発話の事象が後続発話に否定されていると判定されていた場合、テキスト処理用データ生成手段336は、その否定された事象を対話テキストから除外する。そして、テキスト処理用データ生成手段336は、ステップD4で判定された先行発話の事象の事実性とは逆の事実性を示す事象を、除外した事象の代わりにテキスト処理用データに追加する。さらに、テキスト処理用データ生成手段336は、その応答ペアにより確認や聞き返しの元となった発話の事象の事実性も、追加した事象の事実性と一致するように変更する(ステップD6)。最後に、出力手段320は、ステップD6で生成されたテキスト処理用データを出力する(ステップD7)。
 以上のように、本実施形態では、ステップD6において、テキスト処理用データ生成手段336が応答ペアにおける先行発話の事象が後続発話に否定されている事象をテキスト処理用データから除外する。また、テキスト処理用データ生成手段336が、除外した事象の代わりに、ステップD4で判定された先行発話の事象の事実性とは逆の事実性を示す事象をテキスト処理用データに追加する。さらに、テキスト処理用データ生成手段336が、その応答ペアに対して確認や聞き返しの元になった発話の事象の事実性も、逆に変更して(すなわち、対話テキストに追加した事象の事実性と一致するように変更して)テキスト処理用データを生成する。
 したがって、一度は事実性が確定した事象に対しても、後の応答ペアによる確認や聞き返し及びその返答によって事実性が変更されることで、最終的な結論と異なってしまった事象に関しても、最終的な結論と一致するように修正されたテキスト処理用データを生成することができる。結果として、生成されるテキスト処理用データが、マイニングなどの分析や検索といったテキスト処理を精度よく行うことができるデータになる。
 以下、本発明の具体的な実施例を説明する。なお、本発明の範囲は以下に説明する内容に限定されない。まず。本発明の第1の実施例を説明する。第1の実施例の対話テキスト解析装置は、第1の実施形態の対話テキスト解析装置に対応する。
 以下の実施例の説明では、図18に例示するコールセンターでの顧客とオペレータでなされた通話を示すテキストを対象とし、テキスト処理用データを作成する過程を、図2に例示するフローチャートに沿って説明する。なお、対象とする通話テキストは、図18に示す例からも分かる通り、通話テキスト内の事象が後の発話で決定されたり、変更されたりするテキストである。また、事象とは、発話の構文木や、動詞を中心とした構造(係り受け関係、格構造、構文木の部分木)として機械的に捉えることが可能な情報である。
 まず、入力手段10は、入力テキストとして、図18に例示する対話テキストを受け付ける。ここで、対話テキストは、発話ごとに区切られているものとする。図18に示す例では、一つの発言インデックが発話に相当する。
 ただし、対話テキストは、発話ごとに区切られているテキストに限定されない。発話ごとに区切られていないテキストの場合でも、例えば、発話のセパレータを予め定めておき、そのセパレータの出現場所で分割するという前処理が行われたテキストを対話テキストとして利用すればよい。なお、セパレータの例としては、「。」(句点)や「?」(クエスチョンマーク)などが挙げられる。
 また、元のテキストとして、音声データを利用してもよい。この場合、音声認識エンジンを用いてテキスト化したデータに対し、音声認識エンジンが検出した無音区間を利用して発話ごとに分割するという前処理が行われたテキストを対話テキストとして利用すればよい。
 また、対話テキストには、図18に例示するように、各発話に発話者の情報が付与されていてもよいし、付与されていなくてもよい。図18に示す例では、オペレータが発話したか、顧客が発話したかを示すタグが各発話に付与されている。また、対話テキストには、発話内容の他に、韻律情報や発話した時間情報など、音声から得られる情報が付与されていてもよい(以上、ステップA1)。
 続いて、応答ペア特定手段31は、入力テキストの各発話から応答ペアの関係にある発話同士を特定する。応答ペアの特定は、例えば、疑問文とそれに対する回答の発話のペアを特定することで実現できる。
 例えば、応答ペア特定手段31は、まず、各発話を形態素解析し、形態素解析した語と予め定めた疑問文の特徴とをマッチングさせて疑問文か否かを判定する。疑問文の特徴として、例えば、「疑問詞(「どうして」「どんな」「どういった」などの副詞や連体詞)を含む」、や「助動詞「か」「ね」「け」などの終助詞で終わる」が利用される。そして、応答ペア特定手段31は、疑問文として判定された発話と、その直後の発話のペアを応答ペアとして特定する。
 応答ペア特定手段31は、隣接ペアを応答ペアとして特定してもよい。隣接ペアは、非特許文献3に記載されているように、会話分析の世界で用いられている概念である。会話分析の分野では、先行発話が特定の種類の発話を要求し、後続発話が先行発話への応答になっているとき、それらの発話が隣接ペアとして定義される。そこで、応答ペア特定手段31は、非特許文献3に記載された方法に基づいて、隣接ペアを特定し、その特定した隣接ペアを応答ペアとして特定してもよい。
 また、応答ペア特定手段31は、非特許文献4に記載された手法を用いて隣接ペアを特定してもよい。なお、非特許文献4に記載された手法を用いることで、隣接ペアを形成する発話の種類(例えば、先行発話が「依頼」で後続発話が「承認/拒否」など)まで特定できる。ただし、応答ペア特定手段31は、発話の種類の特定まで行わなくてもよく、隣接ペアとなっている発話同士を特定すればよい。
 図9は、図18に例示する対話テキストをもとに特定された隣接ペアの例を示す説明図である。なお、図9に例示する隣接ペアにおいて、発話の種類の特定は省略されている。図9に示す例では、発言インデックス「4」と「5」、発言インデックス「7」と「8」、発言インデックス「9」と「10」、発言インデックス「12」と「13」、発言インデックス「15」と「16」でそれぞれ特定される発話が隣接ペアである。応答ペア特定手段31は、このような隣接ペアを応答ペアとして捉えることで応答ペアの関係にある発話同士を特定する(以上、ステップA2)。
 続いて、否定判定手段32は、応答ペア内の前方の発話の事象が後方の発話で否定されているか否かを判定する。図10は、否定判定手段32の例を示すブロック図である。図10に例示する否定判定手段32は、後続発話特定手段41と、エントリ比較手段42と、判定手段43とを備えている。また、前方の発話の内容を否定する発話(すなわち、否定発話)や、その否定発話の特徴(ルール)を予め定義した情報が否定発話データベース44に登録される。否定発話の一部として、例えば、否定の助動詞と付属語からのみなる発話や、否定語と付属語からのみなる発話など、予め定めた発話が否定発話データベース44に登録されていればよい。否定発話データベース44は、例えば、対話テキスト解析装置が備える磁気ディスク等に記憶されていてもよく、対話テキスト解析装置とは別の装置に記憶されていてもよい。
 図11は、否定発話データベースに記憶された情報の例を示す説明図である。図11に示す例では、否定発話として、「いいえ。」,「いやだ。」,「違います。」,「ありません。」といった発話が記憶され、否定発話として登録された発話の文言から始まる発話、否定の助動詞と付属のみからなる発話が否定発話のルールとして記憶されている。
 後続発話特定手段41は、応答ペアが否定判定手段32に入力されると、応答ペアのうち後方にある発話を後続発話として特定する。図10に示す例では、「プリンタの型番はXXですか?」と「違います。」とのペアが応答ペアとして入力されると、後続発話特定手段41は、「違います。」を後続発話として特定する。
 エントリ比較手段42は、否定発話データベース44のデータを読み込み、後続発話と否定発話データベースの各エントリとを比較し、データベース内に該当するエントリが存在するか否かを判定する。図10および図11に示す例の場合、エントリ比較手段42は、後続発話「違います。」が否定発話データベースの上から三番目のエントリに存在する(エントリと一致する)と判定する。このとき、エントリ比較手段42は、後続発話「違います。」が否定発話データベースの上から五番目のエントリに存在する否定発話の特徴(ルール)と一致すると判定してもよい。
 判定手段43は、後続発話に該当するエントリが否定発話データベース44に存在する場合、応答ペア内の先行発話の事象が後続発話で否定されていると判定する。具体的には、判定手段43は、否定発話と後続発話とが一致する場合、または、否定発話の特徴と後続発話の特徴とが一致する場合、先行発話の事象が後続発話で否定されていると判定する。図10および図11に示す例の場合、否定発話と後続発話とが一致するため、判定手段43は、先行発話の事象が後続発話で否定されていると判定する。
 以上、否定判定手段32が、後続発話特定手段41、エントリ比較手段42および判定手段43を備えている構成の場合について説明したが、否定判定手段32の構成は、図10に例示する構成に限定されない。
 図12は、否定判定手段32の他の例を示すブロック図である。図12に例示する否定判定手段32は、先行発話特定手段51と、後続発話特定手段52と、先行発話役割解析手段53と、後続発話役割解析手段54と、動詞対義語判定手段55と、背反語判定手段56と、判定手段57とを備えている。また、予め作成した動詞の対義語対が対義語データベース58(以下、対義語DB58と記す。)に登録される。さらに、予め作成した背反の単語対が背反語データベース59(以下、背反語DB59と記す。)に登録される。対義語DB58および背反語DB59は、例えば、対話テキスト解析装置が備える磁気ディスク等に記憶されていてもよく、対話テキスト解析装置とは別の装置に記憶されていてもよい。
 先行発話特定手段51は、応答ペアの前方にある発話を先行発話として特定する。また、後続発話特定手段52は、応答ペアの後方にある発話を後続発話として特定する。図12に示す例では、「ランプは点灯していますか?」と「消えています。」とのペアが応答ペアとして入力されると、先行発話特定手段51は、「ランプは点灯してますか?」を先行発話として特定し、後続発話特定手段52は、「消えてます。」を後続発話として特定する。
 先行発話役割解析手段53は、先行発話の各要素に対して、文における役割を解析する。同様に、後続発話役割解析手段54は、後続発話の各要素に対して、文における役割を解析する。先行発話役割解析手段53および後続発話役割解析手段54は、文における役割として、例えば、「主語」「述語」「目的語」といった、文の文法的役割を解析してもよい。なお、解析する文における役割は、文の文法的役割に限定されない。先行発話役割解析手段53および後続発話役割解析手段54は、例えば、日本語の場合、「ガ格」「ハ格」「デ格」といった表層格を解析してもよく、「動作主」「道具」「対象」といった深層格を解析してもよい。
 この際、先行発話役割解析手段53および後続発話役割解析手段54は、例えば、文法規則であるHPSG(Head-Driven Phrase Structure Grammar)を文に適用することで、文法的役割を解析してもよい。他にも、先行発話役割解析手段53および後続発話役割解析手段54は、フリーの日本語解析器であるKNPを用いて、動詞およびその表層核を解析してもよい。
 動詞対義語判定手段55は、先行発話と後続発話の動詞が対義語になっているか否かを判定する。動詞対義語判定手段55は、例えば、予め作成した動詞の対義語対を格納してある対義語DB58を用いて、先行発話の動詞および後続発話の動詞に該当する情報がデータベース内の対義語対に存在する場合に、それらの発話の動詞が対義語になっていると判定してもよい。図12に示す例では、先行発話の動詞が「点灯する」、後続発話の動詞が「消える」である。対義語DB58にこの対義語対が格納されている場合、動詞対義語判定手段55は、これらの動詞が対義語になっていると判定する。
 また、動詞対義語判定手段55は、先行発話および後続発話を形態素解析した結果を用いて、後続発話の動詞が先行発話と一致し、その動詞が後続発話内で否定の助動詞(「ない」など)で打ち消されている場合にも、それらの発話の動詞が対義語になっていると判定してもよい。例えば、先行発話の動詞が「点灯する」であり、後続発話が「点灯していません。」であったとする。この場合、先行発話と後続発話の動詞が「点灯する」で一致し、後続発話でその動詞が否定されているため、動詞対義語判定手段55は、これらの発話の動詞が対義語になっていると判定する。
 背反語判定手段56は、先行発話と後続発話で同じ役割の要素が背反になっているか否かを判定する。2つの要素が背反は、2つの要素が同時には成立しないことを意味する。つまり、一方の要素が他方の要素にはなり得ない場合に、それら2つの要素を背反と呼ぶ。背反語判定手段56は、例えば、予め作成した背反の単語対を格納してある背反語DB59を用いて、先行発話と後続発話で同じ役割の要素がデータベース内の背反の単語対として存在する場合に、それらの要素が背反語になっていると判定してもよい。
 また、背反語判定手段56は、階層構造を持つ単語シソーラスのうち、同じ階層に存在し、同じ親ノードを持つノード同士の対を背反語と判定してもよい。例えば、否定判定手段32に入力される応答ペアが図9に例示する発言インデックス「9」と「10」のペアであるとする。この場合、先行発話役割解析手段53が先行発話(発言インデックス「9」)のデ格の要素が「排出口」であると解析し、後続発話役割解析手段54が後続発話(発言インデックス「10」)のデ格の要素が「トレー部分」であると解析する。単語シソーラスにおいて、プリンタの構成部分として、「プリンタ」を親ノードとし、「排出口」、「トレー部分」がそれぞれ同じ階層に存在している場合、背反語判定手段56は、先行発話と後続発話内で同じ役割のデ格の要素である「排出口」と「トレー部分」とを比較し、これらの単語対が背反語であると判定する。
 同様に、否定判定手段32に入力される応答ペアが図9に例示する発言インデックス「15」と「16」のペアである場合、背反語判定手段56は、先行発話と後続発話内で同じ深層格「動作主」である「A社のプリンタ」と「B社(のプリンタ)」を比較し、背反語であると判定する。
 判定手段57は、応答ペア内の後続発話で使用されている動詞が先行発話で使用されている動詞の対義語であってその他の要素が一致している場合、または、後続発話で使用されている要素の一部が先行発話内で同じ役割で使用されている要素と背反である場合に、先行発話の事象が後続発話で否定されていると判定する。
 上述したように、図12に例示する「ランプは点灯してますか?」と「消えてます。」のペアは、応答ペア内の後続発話で使用されている動詞が先行発話で使用されている動詞の対義語であってその他の要素が一致しているという判定基準を満たす。また、図9に例示する発言インデックス「9」と「10」のペア、発言インデックス「15」と「16」のペアのいずれのペアも、後続発話で使用されている要素の一部が先行発話内で同じ役割で使用されている要素と背反であるという判定基準を満たす。よって、判定手段57は、それぞれの応答ペアに対して先行発話の事象が後続発話で否定されていると判定する(以上、ステップA3)。
 続いて、テキスト処理用データ生成手段33は、応答ペアの先行発話の事象が後続発話で否定されている事象を除外して、テキスト処理用データを生成する。例えば、上述したように、否定判定手段32が、図9に例示する発言インデックス「9」と「10」のペア、及び、発言インデックス「15」と「16」のペアを、先行発話の事象が後続発話で否定されている、と判定したとする。この場合、テキスト処理用データ生成手段33は、発言インデックス「9」の事象および発言インデックス「15」の事象を、対話テキストから除外してテキスト処理用データを生成する。
 なお、テキスト処理用データは、後のテキスト処理の種類により様々な形態をとることができる。テキスト処理用データ生成手段33は、例えば、入力テキスト(対話テキスト)の各発話を後のテキスト処理で使用される単位(形態素、形態素nグラム、係り受け、文節もしくは発話、または、これらの複数の組み合わせ)の要素に分割し、要素のリストをテキスト処理用データとして生成してもよい。
 図13は、係り受け単位を要素としてテキスト処理用データが生成された例を示す説明図である。なお、図13に例示するエントリの括弧内は、抽出元の発言インデックスを示す。図13に示す例では、肯定の事実か否定の事実かを示す値がデータの各要素に付与されている。このように、テキスト処理用データ生成手段33は、肯定の事実か否定の事実かを示す値をデータの各要素に含むテキスト処理用データを生成してもよい。また、図13に示すように、テキスト処理用データからは、応答ペアの後続発話で否定された「排出口で詰まる」や「A社のプリンタである」という事象に対応する事実は除外されている(以上、ステップA4)。
 最後に、出力手段20は、テキスト処理用データ生成手段33が生成したテキスト処理用データを出力する(ステップA5)。
 以上のように、本実施例の対話テキスト解析装置では、ステップA4の処理において、応答ペアの先行発話の事象の事実性が後続発話により決定されるため、最終的な結論とは異なる事象をテキスト処理用データから除外できる。
 例えば、図9に例示する対話テキストが入力された場合、「排出口で詰まる」という事象は、発言インデックス「9」の発話がされた時点では仮説の状態にある。その事象が発言インデックス「10」の発話によって否定されることで、「排出口で詰まる」という事実が最終的には成立しないことがわかる。
 本実施例の対話テキスト解析装置では、否定判定手段32が、発言インデックス「9」の発話の事象がその応答ペアの後続発話で否定されていると判断できる。そして、テキスト処理用データ生成手段33が、「排出口で詰まる」という事象に対応する要素を除外してテキスト処理用データを生成する。よって、生成されたテキスト処理用データが、最終的な結論に適合したデータになる。すなわち、生成されたテキスト処理用データは、結果として、マイニングなどの分析や検索といったテキスト処理を精度よく行うことができるデータになる。
 例えば、その後の分析において「排出口が詰まる」という事例を検索するとする。このとき、図9に例示する対話テキストから生成されたテキスト処理用データには、「排出口で詰まる」という事象に対応する要素は除外されている。そのため、「排出口が詰まる」という事例を検索しても、図9に例示する対話テキストは該当せず、正しい検索が可能になる。
 次に、本発明の第2の実施例を説明する。第2の実施例の対話テキスト解析装置は、第2の実施形態の対話テキスト解析装置に対応する。以下の説明でも、図18に例示するコールセンターでの顧客とオペレータでなされた通話を示すテキストを対象とする。また、テキスト処理用データを作成する過程を、図4に例示するフローチャートに沿って説明する。
 なお、入力手段110が対話テキストを入力として受け付け、応答ペア特定手段131が応答ペアを特定し、否定判定手段132が先行発話の事象が後続発話で否定されているか否かを判定するまでの、図4におけるステップB1~ステップB3-1の処理は、図2におけるステップA1~A3の処理と同様であるため、説明を省略する。
 ステップB2の処理が行われた後、発話内事実性判定手段133は、応答ペア内の先行発話を用いて、その先行発話の事象が肯定の事実か否定の事実か(すなわち、事実性)を判定する。なお、ステップB3-2の処理は、ステップB3-1の処理と同時に行われてもよく、ステップB3-1の処理の前または後に行われてもよい。発話内事実性判定手段133は、例えば、非特許文献2に記載された事実性の判定方法を用いて、先行発話の事象の事実性を判定する。例えば、図9に例示する発言インデックス「9」の事象や、発言インデックス「15」の事象は、肯定の事実と判定される(以上、ステップB3-2)。
 テキスト処理用データ生成手段134は、応答ペアにおける先行発話の事象が後続発話に否定されていると判定されていた場合、その否定された事象を対話テキストから除外する。そして、テキスト処理用データ生成手段134は、ステップB3-2で判定された先行発話の事象の事実性とは逆の事実性を示す事象を、除外した事象の代わりにテキスト処理用データに追加する。例えば、ステップB3-1において、否定判定手段132が、図9に例示する発言インデックス「9」と「10」のペア、及び、発言インデックス「15」と「16」のペアを、先行発話の事象が後続発話で否定されている、と判定したとする。この場合、テキスト処理用データ生成手段134は、肯定の事実として存在した発言インデックス「9」の事象および発言インデックス「15」の事象を、対話テキストから除外する。そして、テキスト処理用データ生成手段134は、除外した事象の代わりに、否定の事実として「排出口で詰まる」や、「A社のプリンタである」といった事象を対話テキストに追加したテキスト処理用データを生成する。
 図14は、テキスト処理用データ生成手段134が生成したテキスト処理用データの例を示す説明図である。なお、図14に例示するエントリの括弧内は、抽出元の発言インデックスを示す。図14に示す例では、「排出口で詰まる」や、「A社のプリンタである」という否定の事実がテキスト処理用データに追加されている(以上、ステップB4)。
 最後に、出力手段120は、テキスト処理用データ生成手段134が生成したテキスト処理用データを出力する(ステップB5)。
 以上のように、本実施例における対話テキスト解析装置では、ステップB4の処理において、応答ペアの先行発話内での仮の事象や応答ペアでのやり取りの結果否定される事象が、最終的な結論と一致するように変更されたテキスト処理用データを生成することができる。
 例えば、図9に例示する対話テキストが入力された場合、発言インデックス「9」の「排出口で詰まる」という事象は、発言インデックス「10」の発話によって否定されることで、最終的には否定の事実に置き換わっている。すなわち、発言インデックス「9」の発話がされた時点で仮の事象である「排出口で詰まる」という肯定の事実は除かれ、「排出口で詰まる」という事象を否定の事実としてテキスト処理用データに含むことができる。したがって、最終的な結論と一致するテキスト処理用データを生成することができる。すなわち、生成されたテキスト処理用データは、結果として、マイニングなどの分析や検索といったテキスト処理を精度よく行うことができるデータになる。
 例えば、その後の分析において「排出口が詰まっている」という事例や、「排出口が詰まっていない」という事例を検索するとする。このとき、図9に例示する対話テキストから生成されたテキスト処理用データには、「排出口で詰まる」が否定の事実であるという情報が含まれる。そのため、「排出口が詰まっている」という事例を検索しても、図9に例示する対話テキストは検索結果に出現しない。一方、「排出口が詰まっていない」という事例を検索した場合に、図9に例示する対話テキストが検索結果に出現するようになり、正しい検索が可能になる。
 次に、本発明の第3の実施例を説明する。第3の実施例の対話テキスト解析装置は、第3の実施形態の対話テキスト解析装置に対応する。以下の説明でも、図18に例示するコールセンターでの顧客とオペレータでなされた通話を示すテキストを対象とする。また、テキスト処理用データを作成する過程を、図6に例示するフローチャートに沿って説明する。
 なお、入力手段210が対話テキストを入力として受け付け、応答ペア特定手段231が応答ペアを特定し、否定判定手段232が先行発話の事象が後続発話で否定されているか否かを判定するまでの、図6におけるステップC1~ステップC3の処理は、図2におけるステップA1~A3の処理と同様であるため、説明を省略する。
 ステップC2の処理が行われた後、確認返答ペア判定手段233は、応答ペアの先行発話の働きが確認や聞き返しで、後続発話の働きが返答であるか否かを判定する(ステップC4-1)。なお、ステップC4-1の処理は、ステップC3の処理と同時に行われてもよく、ステップC3の処理の前または後に行われてもよい。
 具体的には、確認返答ペア判定手段233は、応答ペアにおける先行発話と、その先行発話の前方に存在する対話テキスト中の各発話とを比較し、含まれる単語の共通度が予め定められた閾値より高い発話が存在する場合、先行発話が確認や聞き返しを示す事象であり、その応答ペアの後続発話が返答を示す事象であると判定する。
 図9に例示する発言インデックス「15」と「16」の応答ペアを対象とした判定処理を説明する。確認返答ペア判定手段233は、先行発話の発言インデックス「15」と、対話テキスト中の発言インデックス「15」より前方に出現する各発話(発言インデックス「1」~「14」)との比較を行う。
 なお、ここでは、先行発話の前方に存在する全ての発話と比較する場合について説明するが、先行発話から予め定めた距離(個数)だけ離れた発話までに限定して比較を行ってもよい。例えば、比較対象を距離3発話までの発話に限った場合、確認返答ペア判定手段233は、発言インデックス「15」と、発言インデックス「12」~「14」の各発話との比較を行えばよい。
 また、入力される対話テキストに各発話の話者の情報が付与されている場合、確認返答ペア判定手段233は、先行発話の話者と異なる話者による発話に限って比較してもよい。図9に示す例では、先行発話(発話インデックス「15」の発話)の話者がオペレータなので、オペレータ以外の話者により発せられた発話に比較対象を限定してもよい。また、確認返答ペア判定手段233は、後続発話と同じ話者に発せられた発話に限って比較してもよい。図9に示す例では、後続発話(発話インデックス「16」の発話)の話者は顧客なので、顧客により発せられた発話に比較対象を限定してもよい。
 確認返答ペア判定手段233は、比較の際、前方の発話それぞれと先行発話との単語の共通度を計算する。確認返答ペア判定手段233は、例えば、共通単語数やコサイン類似度を用いて共通度を計算してもよい。
 共通度として共通単語数(ただし、単語は内容語に限定する。)を用いた場合、発言インデックス「14」の発話と、先行発話との共通の単語は「A社」,「プリンタ」の2語であるので、共通度は2になる。同様に、発言インデックス「6」および「7」の発話と、先行発話との共通の単語は「プリンタ」の1語であるので、共通度は1になり、それ以外の発話と先行発話との共通度は0になる。
 そして、計算した共通度が予め定められた閾値以上の発話が存在する場合、確認返答ペア判定手段233は、先行発話が確認や聞き返しを示す事象であると判定し、後続発話が返答を示す事象であると判定する。例えば、上記の例において、閾値が2と定められている場合、確認返答ペア判定手段233は、発言インデックス「15」の発話は確認や聞き返しを示す事象であり、発言インデックス「16」の発話は、発言インデックス「15」の返答を示す事象であると判定する。
 なお、確認や聞き返しは、確認や聞き返す対象から離れてなされることは稀である。そこで、先行発話から離れれば離れるほど大きくなるように(すなわち、先行発話からの距離に比例するように)閾値の値を定めてもよい(以上、ステップC4-1)。
 ステップC4-1での処理の結果、応答ペアが「確認(聞き返し)-返答」のペアであると判定された場合、確認対象発話特定手段234は、応答ペアにより確認や聞き返す対象になった元の発話を特定する。具体的には、確認対象発話特定手段234は、ステップC4-1で計算された先行発話との単語の共通度が閾値より高い発話を、先行発話で確認または聞き返しの対象(原因)になった発話であると特定する。例えば、上記ステップC4-1の例の場合、確認対象発話特定手段234は、単語の共通度が閾値2以上である発言インデックス14の発話を、先行発話で確認または聞き返しの対象(原因)になった発話であると特定する。
 続いて、テキスト処理用データ生成手段235は、応答ペアにおける先行発話の事象が後続発話に否定されている事象に加え、更に、その応答ペアにより確認や聞き返しの元となった発話の事象も除外したテキスト処理用データを生成する。
 例えば、図9に示す例では、発言インデックス「14」の発話は、発言インデックス「15」の発話により確認(聞き返し)がされており、発言インデックス「15」の発話は、応答ペアにおける後続発話(発言インデックス「16」の発話)により否定されていることが分かる。したがって、テキスト処理用データ生成手段235は、発言インデックス「15」の事象に加え、「14」の事象「A社のプリンタです。」を除外したテキスト処理用データを生成する。図15は、テキスト処理用データ生成手段235が生成したテキスト処理用データの例を示す説明図である。なお、図15に例示するエントリの括弧内は、抽出元の発言インデックスを示す。図15に示す例では、「A社のプリンタです。」という発話が削除されている(以上、ステップC5)。
 最後に、出力手段220は、テキスト処理用データ生成手段235が生成したテキスト処理用データを出力する(ステップC6)。
 以上のように、本実施例の対話テキスト解析装置では、ステップC5の処理において、一度は事実性が確定した事象に対しても、後の応答ペアによる確認や聞き返しとその返答により事実性が変更され、最終的な結論とは異なってしまった事象を、テキスト処理用データから除外することができる。
 例えば、図9に例示する発言インデックス「14」の事象は、「A社のプリンタです。」という肯定の事実で一度確定している。しかし、その後の発言インデックス「15」と「16」の応答ペアによる確認(聞き返し)により、その事実が変更されている。したがって、発言インデックス「14」の事象である「A社のプリンタである」を除外したテキスト処理用データを生成することができる。
 すなわち、第3の実施形態の対話テキスト解析装置では、第1の実施形態や第2の実施形態の効果に加え、確認や聞き返しの元となった事象が最終的な結論と異なっている場合、その事象をテキスト処理用データから除外することができる。したがって、生成されたテキスト処理用データは、結果として、マイニングなどの分析や検索といったテキスト処理をより精度よく行うことができるデータになる。
 第1の実施形態の対話テキスト解析装置では、テキスト処理用データから、応答ペアの後続発話で否定された「A社のプリンタである」という事象(発言インデックス「15」の事象)に対応する事実を除外することができる。さらに、第3の実施形態の対話テキスト解析装置では、図9に例示する対話テキストから生成されたテキスト処理用データから、発言インデックス「14」の事象に対応する要素をさらに除外することができる。よって、そのため、「A社のプリンタ」という事例を検索しても、図9に例示する対話テキストは該当せず、第1の実施形態の対話テキスト解析装置よりも、より正しい検索が可能になる。
 次に、本発明の第4の実施例を説明する。第4の実施例の対話テキスト解析装置は、第4の実施形態の対話テキスト解析装置に対応する。以下の説明でも、図18に例示するコールセンターでの顧客とオペレータでなされた通話を示すテキストを対象とする。また、テキスト処理用データを作成する過程を、図8に例示するフローチャートに沿って説明する。
 なお、入力手段310が対話テキストを入力として受け付け、応答ペア特定手段331が応答ペアを特定するまでのステップD1~ステップD2の処理は、図4におけるステップB1~B2の処理と同様である。また、否定判定手段332が先行発話の事象が後続発話で否定されているか否かを判定し、発話内事実性判定手段333がその先行発話の事実性を判定するステップD3~D4の処理は、図4におけるステップB3-1~B3-2の処理と同様である。さらに、応答ペアが「確認(聞き返し)-返答」のペアか否かを確認返答ペア判定手段334が判定し、先行発話が確認や聞き返す対象とした発話を確認対象発話特定手段335が特定するステップD5-1~D5-2の処理は、図6におけるステップC4-1~C4-2の処理と同様である。なお、ステップD5-1の処理の後にステップD5-2の処理が行われれば、ステップD3、ステップD4、ステップD5-1およびステップD5-2の処理の順番は任意である。
 テキスト処理用データ生成手段336は、応答ペアにおける先行発話の事象が後続発話に否定された事象を対話テキストから除外する。そして、テキスト処理用データ生成手段336は、ステップD3で判定された先行発話の事象の事実性とは逆の事実性を示す事象を、除外した事象の代わりにテキスト処理用データに追加する。さらに、テキスト処理用データ生成手段336は、確認対象発話特定手段335が特定した発話(すなわち、その先行発話で確認または聞き返しが行われた原因の発話)の事象の事実性を、対話テキストに追加した事象の事実性と一致するように(すなわち、もとの事実性と逆になるように)変更する。
 例えば、図9に示す例では、発言インデックス「14」の発話は、発言インデックス「15」の発話により確認(聞き返し)がされており、発言インデックス「15」の発話は、応答ペアにおける後続発話(発言インデックス「16」の発話)により否定されていることが分かる。したがって、テキスト処理用データ生成手段336は、肯定の事実である発言インデックス「15」の事象「A社のプリンタです。」を対話テキストから除外する。そして、テキスト処理用データ生成手段336は、除外した事象の代わりに、否定の事実「A社のプリンタである」を対話テキストに追加したテキスト処理用データを生成する。さらに、テキスト処理用データ生成手段336は、発言インデックス「14」の事象「A社のプリンタです。」を肯定の事実から否定の事実に変更する。
 図16は、テキスト処理用データ生成手段336が生成したテキスト処理用データの例を示す説明図である。なお、図16に例示するエントリの括弧内は、抽出元の発言インデックスを示す。図16に示す例では、発言インデックス「14」の事実性が、否定の事実に変更されている(以上、ステップD6)。
 最後に、出力手段320は、テキスト処理用データ生成手段336が生成したテキスト処理用データを出力する(ステップD7)。
 以上のように、本実施例の対話テキスト解析装置では、ステップD6の処理において、一度は事実性が確定した事象に対しても、後の応答ペアによる確認や聞き返しとその返答により事実性が変更することができる。そのため、最終的な結論とは異なってしまった事象に関しても、最終的な結論と一致するように事実性を変更した事象をテキスト処理用データとすることができる。
 例えば、図9に例示する発言インデックス「14」の事象は、「A社のプリンタです。」という肯定の事実で一度確定している。しかし、その後の発言インデックス「15」と「16」の応答ペアによる確認(聞き返し)により、発言インデックス「14」の事象「A社のプリンタです。」が、肯定の事実から否定の事実に変更されている。したがって、第3の実施形態の効果に加え、確認や聞き返しの元となった事象も有効に活用することが可能になる。
 すなわち、第4の実施形態の対話テキスト解析装置では、第1の実施形態や第2の実施形態の効果に加え、確認や聞き返しの元となった事象が最終的な結論と異なっている場合、その事象を最終的な結論と一致するように変更することができる。したがって、生成されたテキスト処理用データは、結果として、マイニングなどの分析や検索といったテキスト処理をより精度よく行うことができるデータになる。
 例えば、その後の分析において「A社のプリンタである」という事例や、「A社のプリンタでない」という事例を検索するとする。このとき、図9に例示する対話テキストから生成されたテキスト処理用データには、「A社のプリンタでない」という事例が含まれる。そのため、「A社のプリンタである」という事例を検索しても、図9に例示する対話テキストは検索結果に出現しない。一方、「A社のプリンタでない」という事例を検索した場合に、図9に例示する対話テキストが検索結果に出現する。このように、正しい検索が可能になる。
 以上説明したように、コールセンターにおけるオペレータと顧客のやりとりでは、オペレータは、応対において重要な部分や、顧客の発言で曖昧な部分に対して確認や聞き返しをすることが多い。そのため、聞き返しや確認に着目した本発明の第3の実施形態や第4の実施形態の対話テキスト解析装置は、分析対象がコールセンターでの対話テキストの場合、特に効果を発揮する。
 次に、本発明の最小構成の例を説明する。図17は、本発明による対話テキスト解析装置の最小構成の例を示すブロック図である。本発明による対話テキスト解析装置は、複数の発話の内容を含むテキストである対話テキストにおける第一の発話(例えば、先行発話)の事象が、その第一の発話より後に存在する第二の発話(例えば、後続発話)で否定されているか否かを判定する否定判定手段81(例えば、否定判定手段32)と、第一の発話の事象が第二の発話で否定されている場合、否定された第一の発話の事象を対話テキストから除いたデータであるテキスト処理用データを生成するテキスト処理用データ生成手段82(例えば、テキスト処理用データ生成手段33)とを備えている。
 そのような構成により、マイニングなどの分析や検索といったテキスト処理を精度よく行なうためのテキスト処理用データを対話テキストから生成できる。
 また、入力された対話テキスト中の各発話から、対話の相手に尋ねる内容を示す第一の発話とその第一の発話より後に存在し、その第一の発話の回答になっている第二の発話のペアである応答ペアを特定する応答ペア特定手段(例えば、応答ペア特定手段31)を備えていてもよい。このとき、否定判定手段81は、応答ペア中の第一の発話の事象が第二の発話で否定されているか否かを判定してもよい。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、当該第一の発話より後に存在する第二の発話で否定されているか否かを判定する否定判定手段と、前記第一の発話の事象が前記第二の発話で否定されている場合、否定された第一の発話の事象を前記対話テキストから除いたデータであるテキスト処理用データを生成するテキスト処理用データ生成手段とを備えたことを特徴とする対話テキスト解析装置。
(付記2)入力された対話テキスト中の各発話から、対話の相手に尋ねる内容を示す第一の発話と当該第一の発話より後に存在し、当該第一の発話の回答になっている第二の発話のペアである応答ペアを特定する応答ペア特定手段を備え、否定判定手段は、前記応答ペア中の第一の発話の事象が第二の発話で否定されているか否かを判定する付記1記載の対話テキスト解析装置。
(付記3)テキスト処理用データ生成手段は、第二の発話で否定された第一の発話における事象の内容が肯定の事実を示す場合、当該肯定の事実を示す事象を否定の事実を示す事象に変更してテキスト処理用データに追加し、前記第一の発話における事象の内容が否定の事実を示す場合、当該否定の事実を示す事象を肯定の事実を示す事象に変更してテキスト処理用データに追加する付記1または付記2記載の対話テキスト解析装置。
(付記4)否定判定手段は、前方の発話の内容を否定する予め定められた発話である否定発話と第二の発話とが一致する場合、または、前記否定発話の特徴と第二の発話の特徴とが一致する場合、第一の発話の事象が第二の発話で否定されていると判定する付記1から付記3のうちのいずれか1つに記載の対話テキスト解析装置。
(付記5)否定判定手段は、第二の発話で使用されている動詞が第一の発話で使用されている動詞の対義語であってその他の要素が一致している場合、または、第二の発話で使用されている要素の一部が第一の発話で使用されている要素の一部と同時には成り立たない関係にある要素の場合、第一の発話の事象が第二の発話により否定されていると判定する付記1から付記3のうちのいずれか1つに記載の対話テキスト解析装置。
(付記6)入力された対話テキスト中の各発話から、対話の相手に尋ねる内容を示す第一の発話と当該第一の発話より後に存在し、当該第一の発話の回答になっている第二の発話のペアである応答ペアを特定する応答ペア特定手段と、前記応答ペアにおける第一の発話が確認または聞き返しを示す事象であり、当該応答ペアにおける第二の発話がその確認または聞き返しに対する返答を示す事象の関係にある確認返答ペアか否かを判定する確認返答ペア判定手段と、応答ペアが前記確認返答ペアである場合、対話テキスト中の発話の中で、第一の発話よりも前に存在する発話のうち、当該第一の発話で確認または聞き返しが行われた原因の発話を特定する確認対象発話特定手段とを備え、否定判定手段は、前記応答ペア中の第一の発話の事象が第二の発話で否定されているか否かを判定し、テキスト処理用データ生成手段は、第一の発話の事象が第二の発話により否定されている場合、特定された原因の発話における事象の事実を除いたテキスト処理用データを生成する付記1から付記5のうちのいずれか1つに記載の対話テキスト解析装置。
(付記7)テキスト処理用データ生成手段は、第一の発話の事象が第二の発話により否定された場合、当該第一の発話で確認または聞き返しが行われた原因の発話における事象の内容が肯定の事実を示す場合、当該肯定の事実を示す事象を否定の事実を示す事象に変更してテキスト処理用データに追加し、前記原因の発話における事象の内容が否定の事実を示す場合、当該否定の事実を示す事象を肯定の事実を示す事象に変更してテキスト処理用データに追加する付記6記載の対話テキスト解析装置。
(付記8)確認返答ペア判定手段は、応答ペアにおける第一の発話と当該先行発話の前に存在する対話テキスト中の各発話との単語の共通度を比較し、当該共通度が予め定められた閾値より高い発話が前記第一の発話の前に存在する場合、当該応答ペアを確認返答ペアと判定する付記6または付記7記載の対話テキスト解析装置。
(付記9)複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、当該第一の発話より後に存在する第二の発話で否定されているか否かを判定し、前記第一の発話の事象が前記第二の発話で否定されている場合、否定された第一の発話の事象を前記対話テキストから除いたデータであるテキスト処理用データを生成することを特徴とする対話テキスト解析方法。
(付記10)入力された対話テキスト中の各発話から、対話の相手に尋ねる内容を示す第一の発話と当該第一の発話より後に存在し、当該第一の発話の回答になっている第二の発話のペアである応答ペアを特定し、前記応答ペア中の第一の発話の事象が第二の発話で否定されているか否かを判定する付記9記載の対話テキスト解析方法。
(付記11)コンピュータに、複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、当該第一の発話より後に存在する第二の発話で否定されているか否かを判定する否定判定処理、および、前記第一の発話の事象が前記第二の発話で否定されている場合、否定された第一の発話の事象を前記対話テキストから除いたデータであるテキスト処理用データを生成するテキスト処理用データ生成処理を実行させるための対話テキスト解析プログラム。
(付記12)コンピュータに、入力された対話テキスト中の各発話から、対話の相手に尋ねる内容を示す第一の発話と当該第一の発話より後に存在し、当該第一の発話の回答になっている第二の発話のペアである応答ペアを特定する応答ペア特定処理を実行させ、否定判定処理で、前記応答ペア中の第一の発話の事象が第二の発話で否定されているか否かを判定させる付記11記載の対話テキスト解析プログラム。
 以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2010年11月22日に出願された日本特許出願2010-259673を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、事象の事実性が、後の発話との関係で決定されたり、変更されたりするような対話テキストを対象にテキスト処理をする際に、そのテキスト処理用データを生成するのに効果を発揮する。したがって、例えば、コールセンターにおけるオペレータと顧客のやりとり(対話)や、会議でのやりとり、店頭での店員とお客様のやりとり等、これらのやりとりを音声認識した結果のテキストや書き起しテキストを対象にしてテキストマイニングや要約などの分析や検索を行う対話テキスト解析装置に好適に適用される。また、チャットやツイッター(登録商標)や掲示板を対象にして、テキストマイニングや要約などの分析や検索を行う対話テキスト解析装置にも好適に適用される。
 10,110,210,310 入力手段
 20,120,220,320 出力手段
 30,130,230,330 コンピュータ
 31,131,231,331 応答ペア特定手段
 32,132,232,332 否定判定手段
 33,134,235,336 テキスト処理用データ生成手段
 133,333 発話内事実性判定手段
 233,334 確認返答ペア判定手段
 234,335 確認対象発話特定手段
 41,52 後続発話特定手段
 42 エントリ比較手段
 43,57 判定手段
 44 否定発話データベース
 51 先行発話特定手段
 53 先行発話役割解析手段
 54 後続発話役割解析手段
 55 動詞対義語判定手段
 56 背反語判定手段
 58 対義語データベース
 59 背反語データベース

Claims (10)

  1.  複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、当該第一の発話より後に存在する第二の発話で否定されているか否かを判定する否定判定手段と、
     前記第一の発話の事象が前記第二の発話で否定されている場合、否定された第一の発話の事象を前記対話テキストから除いたデータであるテキスト処理用データを生成するテキスト処理用データ生成手段とを備えた
     ことを特徴とする対話テキスト解析装置。
  2.  入力された対話テキスト中の各発話から、対話の相手に尋ねる内容を示す第一の発話と当該第一の発話より後に存在し、当該第一の発話の回答になっている第二の発話のペアである応答ペアを特定する応答ペア特定手段を備え、
     否定判定手段は、前記応答ペア中の第一の発話の事象が第二の発話で否定されているか否かを判定する
     請求項1記載の対話テキスト解析装置。
  3.  テキスト処理用データ生成手段は、第二の発話で否定された第一の発話における事象の内容が肯定の事実を示す場合、当該肯定の事実を示す事象を否定の事実を示す事象に変更してテキスト処理用データに追加し、前記第一の発話における事象の内容が否定の事実を示す場合、当該否定の事実を示す事象を肯定の事実を示す事象に変更してテキスト処理用データに追加する
     請求項1または請求項2記載の対話テキスト解析装置。
  4.  否定判定手段は、前方の発話の内容を否定する予め定められた発話である否定発話と第二の発話とが一致する場合、または、前記否定発話の特徴と第二の発話の特徴とが一致する場合、第一の発話の事象が第二の発話で否定されていると判定する
     請求項1から請求項3のうちのいずれか1項に記載の対話テキスト解析装置。
  5.  否定判定手段は、第二の発話で使用されている動詞が第一の発話で使用されている動詞の対義語であってその他の要素が一致している場合、または、第二の発話で使用されている要素の一部が第一の発話で使用されている要素の一部と同時には成り立たない関係にある要素の場合、第一の発話の事象が第二の発話により否定されていると判定する
     請求項1から請求項3のうちのいずれか1項に記載の対話テキスト解析装置。
  6.  入力された対話テキスト中の各発話から、対話の相手に尋ねる内容を示す第一の発話と当該第一の発話より後に存在し、当該第一の発話の回答になっている第二の発話のペアである応答ペアを特定する応答ペア特定手段と、
     前記応答ペアにおける第一の発話が確認または聞き返しを示す事象であり、当該応答ペアにおける第二の発話がその確認または聞き返しに対する返答を示す事象の関係にある確認返答ペアか否かを判定する確認返答ペア判定手段と、
     応答ペアが前記確認返答ペアである場合、対話テキスト中の発話の中で、第一の発話よりも前に存在する発話のうち、当該第一の発話で確認または聞き返しが行われた原因の発話を特定する確認対象発話特定手段とを備え、
     否定判定手段は、前記応答ペア中の第一の発話の事象が第二の発話で否定されているか否かを判定し、
     テキスト処理用データ生成手段は、第一の発話の事象が第二の発話により否定されている場合、特定された原因の発話における事象の事実を除いたテキスト処理用データを生成する
     請求項1から請求項5のうちのいずれか1項に記載の対話テキスト解析装置。
  7.  テキスト処理用データ生成手段は、第一の発話の事象が第二の発話により否定された場合、当該第一の発話で確認または聞き返しが行われた原因の発話における事象の内容が肯定の事実を示す場合、当該肯定の事実を示す事象を否定の事実を示す事象に変更してテキスト処理用データに追加し、前記原因の発話における事象の内容が否定の事実を示す場合、当該否定の事実を示す事象を肯定の事実を示す事象に変更してテキスト処理用データに追加する
     請求項6記載の対話テキスト解析装置。
  8.  確認返答ペア判定手段は、応答ペアにおける第一の発話と当該先行発話の前に存在する対話テキスト中の各発話との単語の共通度を比較し、当該共通度が予め定められた閾値より高い発話が前記第一の発話の前に存在する場合、当該応答ペアを確認返答ペアと判定する
     請求項6または請求項7記載の対話テキスト解析装置。
  9.  複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、当該第一の発話より後に存在する第二の発話で否定されているか否かを判定し、
     前記第一の発話の事象が前記第二の発話で否定されている場合、否定された第一の発話の事象を前記対話テキストから除いたデータであるテキスト処理用データを生成する
     ことを特徴とする対話テキスト解析方法。
  10.  コンピュータに、
     複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、当該第一の発話より後に存在する第二の発話で否定されているか否かを判定する否定判定処理、および、
     前記第一の発話の事象が前記第二の発話で否定されている場合、否定された第一の発話の事象を前記対話テキストから除いたデータであるテキスト処理用データを生成するテキスト処理用データ生成処理
     を実行させるための対話テキスト解析プログラム。
PCT/JP2011/006490 2010-11-22 2011-11-22 対話テキスト解析装置、方法およびプログラム WO2012070228A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/884,044 US20130238321A1 (en) 2010-11-22 2011-11-22 Dialog text analysis device, method and program
JP2012545615A JP5867410B2 (ja) 2010-11-22 2011-11-22 対話テキスト解析装置、方法およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010259673 2010-11-22
JP2010-259673 2010-11-22

Publications (1)

Publication Number Publication Date
WO2012070228A1 true WO2012070228A1 (ja) 2012-05-31

Family

ID=46145595

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/006490 WO2012070228A1 (ja) 2010-11-22 2011-11-22 対話テキスト解析装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US20130238321A1 (ja)
JP (1) JP5867410B2 (ja)
WO (1) WO2012070228A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2014208298A1 (ja) * 2013-06-28 2017-02-23 日本電気株式会社 文章分類装置、文章分類方法、及び文章分類プログラム
CN107222383A (zh) * 2016-03-21 2017-09-29 科大讯飞股份有限公司 一种对话管理方法和系统
JP2019046101A (ja) * 2017-08-31 2019-03-22 富士通株式会社 対話制御装置、対話制御方法及び対話制御プログラム
CN110853613A (zh) * 2019-11-15 2020-02-28 百度在线网络技术(北京)有限公司 韵律停顿等级预测的校正方法、装置、设备和介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9412362B2 (en) 2013-08-28 2016-08-09 Verint Systems Ltd. System and method for determining the compliance of agent scripts
JP6743108B2 (ja) * 2018-10-31 2020-08-19 西日本電信電話株式会社 パターン認識モデル及びパターン学習装置、その生成方法、それを用いたfaqの抽出方法及びパターン認識装置、並びにプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060194A (ja) * 1999-08-20 2001-03-06 Toshiba Corp 企画支援装置、企画支援方法および企画支援プログラムを格納したコンピュータ読取り可能な記録媒体
JP2003316810A (ja) * 2002-04-23 2003-11-07 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
JP2006004399A (ja) * 2004-05-20 2006-01-05 Fujitsu Ltd 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
WO2007060780A1 (ja) * 2005-11-22 2007-05-31 Nec Corporation 発想支援装置、発想支援方法および発想支援用プログラム
JP2009128967A (ja) * 2007-11-20 2009-06-11 Fuji Xerox Co Ltd 文書検索装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996010795A1 (en) * 1994-10-03 1996-04-11 Helfgott & Karas, P.C. A database accessing system
JP2001249945A (ja) * 2000-03-07 2001-09-14 Nec Corp 感情生成方法および感情生成装置
CN100583086C (zh) * 2002-04-11 2010-01-20 株式会社PtoPA 对话控制系统和对话控制方法
JP2005157494A (ja) * 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
GB0411377D0 (en) * 2004-05-21 2004-06-23 Univ Belfast Dialogue manager
JP4846336B2 (ja) * 2005-10-21 2011-12-28 株式会社ユニバーサルエンターテインメント 会話制御装置
JP2007232829A (ja) * 2006-02-28 2007-09-13 Murata Mach Ltd 音声対話装置とその方法及びプログラム
US8515754B2 (en) * 2009-04-06 2013-08-20 Siemens Aktiengesellschaft Method for performing speech recognition and processing system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060194A (ja) * 1999-08-20 2001-03-06 Toshiba Corp 企画支援装置、企画支援方法および企画支援プログラムを格納したコンピュータ読取り可能な記録媒体
JP2003316810A (ja) * 2002-04-23 2003-11-07 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
JP2006004399A (ja) * 2004-05-20 2006-01-05 Fujitsu Ltd 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
WO2007060780A1 (ja) * 2005-11-22 2007-05-31 Nec Corporation 発想支援装置、発想支援方法および発想支援用プログラム
JP2009128967A (ja) * 2007-11-20 2009-06-11 Fuji Xerox Co Ltd 文書検索装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2014208298A1 (ja) * 2013-06-28 2017-02-23 日本電気株式会社 文章分類装置、文章分類方法、及び文章分類プログラム
CN107222383A (zh) * 2016-03-21 2017-09-29 科大讯飞股份有限公司 一种对话管理方法和系统
CN107222383B (zh) * 2016-03-21 2021-05-04 清华大学 一种对话管理方法和系统
JP2019046101A (ja) * 2017-08-31 2019-03-22 富士通株式会社 対話制御装置、対話制御方法及び対話制御プログラム
CN110853613A (zh) * 2019-11-15 2020-02-28 百度在线网络技术(北京)有限公司 韵律停顿等级预测的校正方法、装置、设备和介质
CN110853613B (zh) * 2019-11-15 2022-04-26 百度在线网络技术(北京)有限公司 韵律停顿等级预测的校正方法、装置、设备和介质

Also Published As

Publication number Publication date
US20130238321A1 (en) 2013-09-12
JPWO2012070228A1 (ja) 2014-05-19
JP5867410B2 (ja) 2016-02-24

Similar Documents

Publication Publication Date Title
US8219397B2 (en) Data processing system for autonomously building speech identification and tagging data
JP6570169B2 (ja) ユーザ対話システムと共にユーザ操作を支援する対話支援プログラム、サーバ及び方法
KR101279707B1 (ko) 문서에서 정의를 식별하는 방법 및 정의 추출 시스템
US20080071533A1 (en) Automatic generation of statistical language models for interactive voice response applications
JP5867410B2 (ja) 対話テキスト解析装置、方法およびプログラム
KR101677859B1 (ko) 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치
JP5073024B2 (ja) 音声対話装置
Skantze Galatea: A discourse modeller supporting concept-level error handling in spoken dialogue systems
Chakraborty et al. Knowledge-based framework for intelligent emotion recognition in spontaneous speech
Dyriv et al. The user's psychological state identification based on Big Data analysis for person's electronic diary
JP2013190985A (ja) 知識応答システム、方法およびコンピュータプログラム
Franco et al. Baby-steps towards building a Spanglish language model
KR100639931B1 (ko) 대화형 음성인식 시스템의 인식오류 수정장치 및 그 방법
Catania et al. Automatic Speech Recognition: Do Emotions Matter?
JP2010262147A (ja) 応答生成装置及びプログラム
JP6109664B2 (ja) 言語体系の間で同義語句に対する特定の感情を推定するプログラム、装置及び方法
Braunger et al. A comparative analysis of crowdsourced natural language corpora for spoken dialog systems
Misu et al. Dialogue strategy to clarify user’s queries for document retrieval system with speech interface
El-Taher et al. Automation of understanding textual contents in social networks
Xiao et al. TV-AfD: An Imperative-Annotated Corpus from The Big Bang Theory and Wikipedia’s Articles for Deletion Discussions
Kang et al. A reliable multidomain model for speech act classification
JP2007265131A (ja) 対話情報抽出装置,対話情報抽出方法およびプログラム
Itoh et al. A metric for evaluating speech recognizer output based on human-perception model
JPH08137874A (ja) 対話処理装置
Kim A dialogue-based NLIDB system in a schedule management domain

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11843129

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2012545615

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13884044

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11843129

Country of ref document: EP

Kind code of ref document: A1