WO2020036195A1 - 話し終わり判定装置、話し終わり判定方法およびプログラム - Google Patents

話し終わり判定装置、話し終わり判定方法およびプログラム Download PDF

Info

Publication number
WO2020036195A1
WO2020036195A1 PCT/JP2019/031938 JP2019031938W WO2020036195A1 WO 2020036195 A1 WO2020036195 A1 WO 2020036195A1 JP 2019031938 W JP2019031938 W JP 2019031938W WO 2020036195 A1 WO2020036195 A1 WO 2020036195A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
speech
character string
divided character
divided
Prior art date
Application number
PCT/JP2019/031938
Other languages
English (en)
French (fr)
Inventor
節夫 山田
喜昭 野田
隆明 長谷川
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2020537096A priority Critical patent/JP7007617B2/ja
Priority to US17/268,559 priority patent/US11996119B2/en
Publication of WO2020036195A1 publication Critical patent/WO2020036195A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Definitions

  • the present invention relates to an end-of-speech determination device, an end-of-speech determination method, and a program that determine whether or not an utterance in a dialogue between a plurality of speakers is an end-of-speaker utterance.
  • a system that analyzes the result of speech recognition of utterances in a conversation between a customer and a person in charge at a contact center or the like and presents a response according to the analysis result is being studied.
  • processing such as response and utterance classification according to the contents of the utterance until the end of the speaker's speech.
  • an utterance in a multi-speaker conversation such as a conversation between a customer and a receptionist
  • the utterance in the conversation is compared to the utterance in the conversation.
  • a method of creating learning data to which information on whether or not is provided is conceivable.
  • the utterance in the dialogue is changed to the utterance in the dialogue end by machine learning using learning data to which information on whether or not the utterance in the dialogue is the end utterance (see Non-Patent Document 1).
  • An end-of-speech determination model for determining whether or not the end of speech is generated.
  • voice recognition when a silent section continues for a predetermined time or longer, the speech recognition is performed using the utterance up to the silent section as one processing unit. That is, an utterance until a silent section for a predetermined time or longer occurs is output as a unit of one voice recognition result.
  • it is determined whether or not the end of the speech is determined in the unit of the result of the speech recognition if the end of the speech exists in the unit of the result of the speech recognition, the end of the speech cannot be correctly determined. .
  • An object of the present invention made in view of the above-described problems is to provide a speech end determination device and a speech end determination method capable of achieving high accuracy in determining whether or not an utterance in a dialogue is an end-of-speech utterance. And to provide programs.
  • a speech end determination device is a speech end determination device that determines whether an utterance in a dialogue by a plurality of speakers is an end speech of the speaker.
  • a dividing unit that divides a character string in which the utterance in the dialogue is converted into text by voice recognition into delimiters indicating a break in a sentence included in the result of the voice recognition, and a character string in which the utterance in the dialogue is converted to text Information indicating whether or not the utterance has ended is given to the utterance corresponding to the divided character string divided by the delimiter and the utterance corresponding to the character string obtained by connecting the continuous divided character strings in the utterance order.
  • a speech end determination method provides a speech end determination device that determines whether an utterance in a dialogue between a plurality of speakers is an end utterance of a speaker.
  • An end determination method comprising the steps of: dividing a character string in which an utterance in the dialogue is converted into text by speech recognition by a delimiter included in the result of the speech recognition and indicating a delimiter in a sentence; For the utterance corresponding to the divided character string obtained by dividing the converted character string by the delimiter and the utterance corresponding to the character string obtained by connecting the continuous divided character strings in the utterance order, it is determined whether or not the utterance is the end utterance.
  • the divided sentence in which the character string is divided by the delimiter Speech corresponding to the column comprises a step for determining whether or not an utterance end talk.
  • the program according to the present invention causes a computer to function as the above-mentioned speech end determination device.
  • the end-of-speech determination device the end-of-speech determination method, and the program according to the present invention, it is possible to improve the accuracy of the determination as to whether or not the utterance in the dialogue is the end utterance.
  • FIG. 2 is a diagram for describing learning data used for generating the end-of-speech determination model shown in FIG. 1. It is a figure for explaining the case where it cannot judge correctly the utterance of the end of a talk from a speech recognition result.
  • FIG. 2 is a diagram for explaining a speech end determination method in the speech end determination device shown in FIG. 1.
  • FIG. 1 is a diagram illustrating a configuration example of a speech end determination device 10 according to an embodiment of the present invention.
  • the end-of-speech determination device 10 according to the present embodiment is configured such that an utterance in a conversation by a plurality of speakers, such as a conversation between a customer and a receptionist in a contact center, is an ending utterance in which the content that the speaker wants to convey has been finished. Is determined.
  • an example will be described in which it is determined whether or not the utterance in the dialogue between the customer and the receptionist is the end utterance.
  • the end-of-speech determining device 10 shown in FIG. 1 includes a dividing unit 11, an end-of-speech determining unit 12, a first rule storage unit 13, and a second rule storage unit 15.
  • the division unit 11 receives a speech recognition result in which an utterance in a conversation between the customer and the person in charge is converted into a text by speech recognition.
  • the speech of the customer and the speech of the receptionist are input on different channels (two channels) to a speech recognition device (not shown) that performs speech recognition, and the speech of the customer and the speech of the receptionist are input. Speech recognition is performed separately.
  • Reference 1 describes a method of inserting punctuation marks based on features such as words (appearances), parts of speech, segment boundaries, dependency information on the next segment, and poses. Also, if one speaker starts speaking before the end of a silent section in which the addition of a delimiter is determined after the end of a speaker's speech, the end of the speech recognition result of the utterance of the previous speaker is Delimiters may not be added. Note that a delimiter may always be added to the end of the speech recognition result.
  • Reference 1 Yuya Akita, Tatsuya Kawahara, "Automatic Insertion of Lecture Points for Lecture Based on Multiple Annotations", Transactions of Information Processing Society of Japan, 1882-7765, No. 54, Vol. 2, 2013
  • utterances # 11 to # 33 are performed and speech recognition is performed in the dialog between the customer and the receptionist as shown in FIG.
  • utterances # 11, 14, 17, 19, 21, 23, 25, 26, 29, 32, and 33 are utterances of the person in charge
  • utterances # 12, 13, 15, 15, 16, 18, 20, and 22, 24, 27, 28, 30, and 31 indicate customer utterances.
  • one balloon indicates a processing unit of voice recognition.
  • speech recognition result unit The result of speech recognition for each processing unit (hereinafter, referred to as “speech recognition result unit”) is input to the division unit 11.
  • speech recognition result unit the results of speech recognition for each of the utterances # 11 to # 33 are input to the dividing unit 11 as a unit of the speech recognition result.
  • the dividing unit 11 stores, in the first rule storage unit 13 in advance, a character string indicated in a unit of the input speech recognition result, that is, a character string in which an utterance of a speech recognition processing unit is converted into text by speech recognition. (Hereinafter referred to as "first rule").
  • first rule for example, there is a rule that a sentence is divided as a unit until a delimiter indicating a delimiter appears.
  • the delimiters are punctuation (,), punctuation (.), Comma (,), period (.), Line feed / blank, exclamation point (!), Question mark (?), Colon (:), semicolon (;), Leaders (such as two-point leaders (..), three-point leaders passed), parentheses (such as parentheses (()), square brackets ([])), quotation marks (“”), and symbols that indicate bullet points (“*”, “•”, etc.), a symbol indicating a silent section ( ⁇ sp> (short @ pause)), and a pictograph (( ⁇ )).
  • These delimiters are symbols indicating a delimiter in a sentence, which separates a character string converted into text by voice recognition in units of a sentence or words included in the sentence.
  • the dividing unit 11 divides a character string in which an utterance in a dialog is converted into text by voice recognition based on the rule, and outputs the character string to the speech end determining unit 12.
  • each character string obtained by dividing the character string obtained by converting the utterance in the dialogue into text by voice recognition by the dividing unit 11 is referred to as a divided character string.
  • the dividing unit 11 converts a character string “I want to hear about that car insurance, It splits into a divided character string "I'm in that car insurance,” and a divided character string "I want to hear about that car insurance.”
  • the end-of-speech determination unit 12 determines whether the utterance corresponding to the divided character string output from the division unit 11 is the end-of-speak utterance of the speaker using the end-of-speech determination model 14.
  • the end-of-speech determination model 14 includes an utterance corresponding to a divided character string obtained by dividing a character string in which an utterance in a dialog is converted into a text by a delimiter, and an utterance corresponding to a character string obtained by connecting continuous divided character strings in the order of utterance. Is a model generated by machine learning of learning data to which information (teacher signal) indicating whether or not the utterance has ended is given.
  • FIG. 2 is a diagram showing an example of learning data used for machine learning of the speaking end determination model 14.
  • the learning data generated based on the utterances # 34 to # 37 shown in FIG. 2 will be described as an example.
  • punctuation is used as a delimiter
  • a teacher signal is given to the entire utterance # 34 saying "You are inquiring about a change in your car insurance.” Is done. Whether or not the utterance is the end utterance can be determined, for example, based on whether or not the speaker change has occurred after the utterance.
  • a dialogue between a customer and a receptionist for example, after the customer finishes talking about the contents to be inquired, the receptionist answers the inquiry, and after the receptionist finishes talking the answer, the customer There are many dialogue structures where the user makes further inquiries.
  • the speaker change occurs, the utterance immediately before the change tends to be the end utterance utterance of the speaker before the speaker change occurs in many cases. Therefore, when the speaker change occurs after the utterance, it is possible to determine that the utterance is likely to be the utterance at the end of the utterance.
  • the utterance # 35 following the utterance # 34 by the receptionist is the utterance by the customer. That is, the speaker change occurs after the utterance # 34. Therefore, as shown in FIG. 2, a teacher signal indicating that the speech is over is given to the utterance “It is an inquiry about the change of the car insurance subscribed”.
  • the reading point is divided into three divided character strings of "Yes,” “The other day,” and "Son got a car license.” You. Since the speaker change has not occurred after the first utterance of "Yes,” it can be determined that the utterance of "Yes,” is not the end utterance. Therefore, as shown in FIG. 2, a teacher signal indicating that the utterance is not the end of the utterance is given to the utterance of “Yes,”.
  • a teacher signal is given to the utterance "Yes, the other day,” in which the character string “Yes,” and the character string “the other day,” following the character string “Yes,” are connected in the order of utterance.
  • a teacher signal indicating that the utterance is not the utterance of the end of the speech is given to the utterance of “Yes, the other day”.
  • a teacher signal (a teacher signal indicating that the utterance is not the end utterance) is given to the utterance corresponding to the character string obtained by connecting the divided character strings in the utterance order until the end utterance appears.
  • the speaker change occurs after the utterance # 36. Therefore, as shown in FIG. 2, the utterances from the previous speaker change (the change of the speaker from the receptionist to the customer) to the current change of the speaker (the change of the speaker from the customer to the person in charge) are repeated. This is the end of the utterance saying, "Yes, the other day my son got a car license and I want to change it so that even if my son drives, it will be covered by car insurance.” Is given.
  • the end-of-speech determination model 14 can be generated by performing machine learning on learning data as shown in FIG.
  • the end-of-speech determination model 14 sets the divided character strings after the last utterance utterance to the utterance order in the utterance order, and the divided character strings after the previous utterance ending utterance to the determination target divided character string. Based on a predetermined number of words from the end of the words forming the character string connected in the utterance order, it is determined whether or not the utterance corresponding to the divided character string to be determined is the utterance at the end of the speech. That is, the end-of-speech determination model 14 is based on a predetermined number of words from the end of the character string obtained by connecting the divided character strings after the last utterance of the previous speech to the divided character string to be determined in the utterance order. It is determined whether the utterance corresponding to the divided character string is the utterance at the end of the speech.
  • the end-of-speech determination model 14 is based on a character string in which the divided character strings after the last utterance at the end of the previous speech are connected in the utterance order to the divided character string to be determined, and the utterance corresponding to the divided character string to be determined ends. May be determined.
  • the end-of-speech determination model 14 is based on the entire character string in which the divided character strings after the previous end-of-speech utterance are connected in the utterance order to the divided character string to be determined, and the utterance corresponding to the divided character string to be determined is It may be determined whether or not the utterance has ended.
  • the end-of-speech determination model 14 determines whether the utterance corresponding to the divided character string is an end-of-speech utterance based on at least one of the notation of the word included in the divided character string and the part of speech of the word included in the divided character string. May be determined.
  • the part of speech of a word included in the divided character string can be specified by morphological analysis.
  • the result of the morphological analysis of the character string “Is it a question?” Is “O (prefix) / query (noun) / is (auxiliary verb) / ne (particle)”.
  • the result of the morphological analysis of the character string “Yes, the other day” is “Yes (intransitive verb) /, (symbol) / other day (noun)”.
  • the teacher data for the result of the morphological analysis is “O (prefix) / inquiry (noun) / is (auxiliary verb) / ne (particle)” is “end of speech” and “yes (inflection) /, (symbol ) / The other day (noun) ”, the teacher data for the result of the morphological analysis is“ not finished talking ”.
  • the utterance corresponding to the divided character string is an utterance at the end of the speech It can be determined that there is not.
  • the speech end determination model 14 can be generated by machine learning of learning data according to the determination method.
  • a support vector machine (SVM) can be used for machine learning using a natural language as an input.
  • the end-of-speech determining unit 12 is based on the determination result by the end-of-speech determination model 14 and a rule (hereinafter, referred to as a “second rule”) stored in the second rule storage unit 15 in advance. It may be determined whether or not the utterance corresponding to the divided character string is the utterance of the end of speech based on the determination result of whether or not the utterance corresponding to the divided character string is the utterance of the end of speech.
  • a rule hereinafter, referred to as a “second rule”
  • a second rule for example, when a speaker changes after an utterance corresponding to a divided character string, there is a rule that it is determined that an utterance corresponding to the divided character string is an utterance at the end of speaking.
  • the end-of-speech determining unit 12 determines that the utterance corresponding to the divided character string is the end-of-speech utterance.
  • the utterance corresponding to the divided character string if there is no next utterance for a predetermined time or more, it is determined that the utterance corresponding to the divided character string is an utterance that has ended speech. There is. Generally, when there is no next utterance for a predetermined time or more after a speaker's utterance, the speaker tends to end talking and wait for a response from another speaker in many cases.
  • the end-of-speech determining unit 12 determines that the utterance corresponding to the divided character string is the end-of-speech if there is no next utterance for a predetermined time or more after the utterance corresponding to the divided character string. Is determined.
  • the end-of-speech determining unit 12 determines that the number of words included in a character string obtained by connecting the divided character strings after the previous end-of-speech utterance to the divided character string to be determined in the utterance order is equal to or less than a predetermined number. In this case, it is determined that the utterance corresponding to the divided character string to be determined is not the end utterance.
  • the end-of-speech determining unit 12 indicates that both the determination result based on the end-of-speech determination model 14 and the determination result based on the second rule indicate that the utterance corresponding to the divided character string is the end-of-speak utterance. In this case, it is determined that the utterance corresponding to the divided character string is the end utterance.
  • the end-of-speech determining unit 12 indicates that at least one of the determination result based on the end-of-speech determination model 14 and the determination result based on the second rule indicates that the utterance corresponding to the divided character string is the end-of-speech utterance.
  • the utterance corresponding to the divided character string may be determined to be the end utterance.
  • the end-of-speech determining unit 12 indicates that at least one of the determination result based on the end-of-speech determination model 14 and the determination result based on the second rule indicates that the utterance corresponding to the divided character string is not the end-of-speak utterance. In this case, it may be determined that the utterance corresponding to the divided character string is not the end utterance.
  • the utterance "Transfer postcard for transfer” is equivalent to the utterance at the end of the talk after the speaker (the person in charge of the response) has finished speaking the content (confirmation of the business).
  • these utterances are recognized as one voice recognition result by voice recognition. May be output as a unit. In this case, since it is determined only by the unit of the voice recognition result that "the transfer guide postcard ... can you tell us your name?" Has arrived, "cannot be determined as the utterance at the end of speaking.
  • FIG. 4 is a diagram for describing a method for determining the end of speech in the end-of-speech determination device 10 according to the present embodiment.
  • the utterance “Transfer guide postcard ... can you tell me your name?” Is subjected to voice recognition as one processing unit, and the unit of the voice recognition result Output as
  • the dividing unit 11 divides a character string in which an utterance in a dialog is converted into text by voice recognition, at a punctuation mark that is a delimiter included in the result of voice recognition. Therefore, as shown in FIG. 4, the dividing unit 11 changes the character string “Transfer guide postcard ... can you hear your name?” To “Charge transfer postcard arrived, right?” , "OK,” "I will confirm the contents of your contract,” and "Can you tell me your name?”
  • the end-of-speech determining unit 12 determines whether the utterance corresponding to the first divided character string “the transfer postcard has arrived,” which is divided by the division unit 11, is the utterance at the end of speech. The determination is made using the determination model 14 or the like. When the end-of-speech determining unit 12 determines that the utterance corresponding to the divided character string "Transfer guide postcard has arrived” is the end of the talk, "The transfer postcard arrived?" The utterance is output as an end utterance utterance. By determining whether the utterance corresponding to the divided character string is the end utterance in units of the divided character strings, even when the end of the speaker's speech is included in the unit of the speech recognition result, The end utterance can be specified.
  • the end-of-speech determining unit 12 determines whether the utterance corresponding to the next divided character string “,” is the end-of-speech utterance.
  • the speech end determination unit 12 determines that the utterance "" is not an utterance at the end of the speech, the split character string "", and the next split character string "” It is determined whether or not the utterance of "Then, the content of the contract will be confirmed,” is the utterance of the end of the speech. If the utterance “Then, we will confirm the contract details” is not the end utterance, the end-of-speech determining unit 12 determines that character string and the next divided character string “ could you please tell me?
  • the description has been made using an example in which the delimiter is a punctuation mark.
  • Various symbols indicating a break in a sentence such as a quotation mark, a symbol indicating a bulleted item, a symbol indicating a silent section, and a pictogram, may be used.
  • the dividing unit 11 when the character string converted into text by voice recognition is “Yes ⁇ sp> the other day ⁇ sp> My son has obtained a driver's license ⁇ sp>”, the dividing unit 11 generates a symbol indicating a silent section ( ⁇ Sp>) divides the character string. That is, the dividing unit 11 generates a divided character string “Yes ⁇ sp>”, a divided character string “The other day ⁇ sp>”, and a divided character string “Son has obtained a car license ⁇ sp>”. To divide.
  • the dividing unit 11 divides the character string using commas and periods. That is, the dividing unit 11 divides the character string into "yes,” and a character string "my ⁇ son ⁇ took ⁇ a ⁇ driver's ⁇ license ⁇ a ⁇ few ⁇ days ⁇ ago.”
  • a character string converted into text by voice recognition is a character string including bullet points as shown below. "You need the following documents: * Resident's card * Seal certificate
  • the dividing unit 11 divides the character string using a colon (:) and a symbol (*) indicating a bulleted item.
  • the delimiter is divided into a beginning delimiter and an end delimiter, and registered. If the delimiter is a beginning delimiter, it is divided before the delimiter.
  • the rule of dividing can be stored.
  • the dividing unit 11 When this rule is applied, in the case of the above example, if (*) is registered as a sentence delimiter and (:) is registered as a delimiter at the end of a sentence, the dividing unit 11 generates a divided character string "The following document is required:" Is divided into a divided character string “* resident card” and a divided character string “* seal certificate”.
  • the dividing unit 11 performs the character string by using a semicolon, a period, and a punctuation mark. Split. That is, the dividing unit 11 divides the character string into a divided character string such as "I want to teach you the following;", a divided character string "New address,” and a divided character string "Phone number.” .
  • the dividing unit 11 divides the character string by a leader and a reading point. In other words, the dividing unit 11 divides the character string into "Divided address " and a divided character string "I have recently moved.”
  • the dividing unit 11 uses the character string in parentheses, punctuation marks, and reading marks. Split.
  • a left parenthesis (()) is registered as a beginning delimiter, and a right parenthesis ()), a punctuation mark (,), and a period (.) are registered as ending delimiters.
  • the rule of dividing before a delimiter and, in the case of a sentence end delimiter, dividing after a delimiter can be stored.
  • the dividing unit 11 determines that the divided character string “Needs to identify the person is necessary”, the divided character string “(for example, ) ".
  • a character string converted into text by voice recognition is "a friend said,” It seems that you can't change it until expiration. " ,
  • the dividing unit 11 divides the character string by using a quotation mark ( ⁇ ), an opening parenthesis (“), a closing parenthesis (“), and a period (.).
  • the opening parenthesis (“)” is registered as the beginning delimiter, and the closing parenthesis (“), the punctuation mark (,), and the period (.) Are registered as the ending delimiter.
  • the start delimiter is the first start delimiter
  • a rule can be stored that split before and end sentence break after the last sentence break. Further, the number of occurrences of the delimiter ( ⁇ ) is recorded in the first rule storage unit 13. If the number of occurrences is odd, the delimiter is treated as a sentence start delimiter. The rule of treating as a sentence end delimiter is stored.
  • the dividing unit 11 When the rule is applied, in the case of the above-described example, the dividing unit 11 generates a divided character string “a friend said this”, a divided character string “ ⁇ cannot be changed until expiration ⁇ ”, . ". Further, when the same symbol, for example, a dash (-) is consecutive, a rule may be set as a group of symbols depending on whether the symbol is a beginning delimiter or an end delimiter.
  • the dividing unit 11 divides the character string with a period and a pictograph. I do. In other words, the dividing unit 11 divides the character string into “the character string“ even if it moved half a year ago ”and the character string“ I was glad to change ( ⁇ ) ”.
  • the end-of-speech determination device 10 divides a character string in which an utterance in a dialog is converted into text by speech recognition using a delimiter symbol indicating a delimiter in a sentence included in the speech recognition result.
  • An end-of-speech determining unit 12 that determines whether the utterance corresponding to the divided character string divided by the dividing unit 11 is the end-of-speaker utterance by using the unit 11 and the end-of-speech determination model 14 , Is provided.
  • the end-of-speech determination model 14 is used to determine whether the utterance corresponding to the divided character string obtained by dividing the character string in which the utterance in the dialog is converted into text by the delimiter is the end-of-speech utterance. Even if the speech at the end of speech is included in the unit of the recognition result, the speech at the end of speech can be specified, so that the accuracy of determination of the speech at the end of speech can be improved.
  • a computer may be used to function as the end-of-speech determination device 10.
  • Such a computer stores a program describing processing contents for realizing each function of the speech ending determination device 10 in a storage unit of the computer, and reads and executes the program by a CPU of the computer. Can be realized.
  • the program may be recorded on a computer-readable recording medium.
  • a recording medium on which the program is recorded may be a non-transitory recording medium.
  • the non-transitory recording medium is not particularly limited, but may be a recording medium such as a CD-ROM and a DVD-ROM.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Machine Translation (AREA)

Abstract

本発明に係る話し終わり判定装置(10)は、対話における発話が音声認識によりテキスト化された文字列を、音声認識の結果に含まれる、文における区切りを示す区切り記号で分割する分割部(11)と、話し終わり判定モデル(14)を用いて、分割部(11)により分割された分割文字列に対応する発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定部(12)と、を備える。

Description

話し終わり判定装置、話し終わり判定方法およびプログラム
 本発明は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置、話し終わり判定方法およびプログラムに関する。
 コンタクトセンタなどでの顧客と応対担当者との対話における発話を音声認識した結果を解析し、解析結果に応じた応答を提示するシステムが検討されている。このようなシステムでは、話者の話し終わりの発話を検出することで、話者の話し終わりまでの発話内容に応じた応答、発話分類などの処理を適切に実施することができる。
 顧客と応対担当者との対話のような複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する方法として、対話における発話に対して、話し終わりの発話であるか否かの情報が付与された学習データを作成する方法が考えられる。この方法では、対話における発話に対して、話し終わりの発話であるか否かの情報が付与された学習データを用いた機械学習(非特許文献1参照)により、対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルが生成される。
R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. LIBLINEAR: A library for large linear classification Journal of Machine Learning Research 9(2008), 1871-1874.
 音声認識では、無音区間が所定時間以上継続すると、その無音区間の前までの発話を1つの処理単位として音声認識が行われる。すなわち、所定時間以上の無音区間が生じるまでの発話が、1つの音声認識の結果の単位として出力される。このような音声認識の結果の単位で話し終わりであるか否かが判定されると、音声認識の結果の単位の中に話し終わりが存在する場合に、その話し終わりを正しく判定することができない。
 上記のような問題点に鑑みてなされた本発明の目的は、対話における発話が話し終わりの発話であるか否かの判定の高精度化を図ることができる話し終わり判定装置、話し終わり判定方法およびプログラムを提供することにある。
 上記課題を解決するため、本発明に係る話し終わり判定装置は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置であって、前記対話における発話が音声認識によりテキスト化された文字列を、前記音声認識の結果に含まれる、文における区切りを示す区切り記号で分割する分割部と、対話における発話がテキスト化された文字列を前記区切り記号で分割した分割文字列に対応する発話および連続する分割文字列を発話順に繋げた文字列に対応する発話に対して、話し終わりの発話であるか否かを示す情報が付与された学習データの機械学習により生成された話し終わり判定モデルを用いて、前記分割部により分割された分割文字列に対応する発話が、話し終わりの発話であるか否かの判定を行う話し終わり判定部と、を備える。
 また、上記課題を解決するため、本発明に係る話し終わり判定方法は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置における話し終わり判定方法であって、前記対話における発話が音声認識によりテキスト化された文字列を、前記音声認識の結果に含まれる、文における区切りを示す区切り記号で分割するステップと、対話における発話がテキスト化された文字列を前記区切り記号で分割した分割文字列に対応する発話および連続する分割文字列を発話順に繋げた文字列に対応する発話に対して、話し終わりの発話であるか否かを示す情報が付与された学習データの機械学習により生成された話し終わり判定モデルを用いて、前記文字列が前記区切り記号で分割された分割文字列に対応する発話が、話し終わりの発話であるか否かの判定を行うステップと、を含む。
 また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の話し終わり判定装置として機能させる。
 本発明に係る話し終わり判定装置、話し終わり判定方法およびプログラムによれば、対話における発話が話し終わりの発話であるか否かの判定の高精度化を図ることができる。
本発明の一実施形態に係る話し終わり判定装置の構成例を示す図である。 図1に示す話し終わり判定モデルの生成に用いる学習データについて説明するための図である。 音声認識結果から話し終わりの発話を正しく判定することができない場合について説明するための図である。 図1に示す話し終わり判定装置における話し終わり判定方法について説明するための図である。
 以下、本発明を実施するための形態について、図面を参照しながら説明する。各図中、同一符号は、同一または同等の構成要素を示している。
 図1は、本発明の一実施形態に係る話し終わり判定装置10の構成例を示す図である。本実施形態に係る話し終わり判定装置10は、コンタクトセンタにおける顧客と応対担当者との対話のような複数の話者による対話における発話が、話者が伝えたい内容を話し終えた話し終わりの発話であるか否かを判定するものである。以下では、顧客と応対担当者との対話における発話が、話し終わりの発話であるか否かを判定する例を用いて説明する。
 図1に示す話し終わり判定装置10は、分割部11と、話し終わり判定部12と、第1ルール記憶部13と、第2ルール記憶部15とを備える。
 分割部11は、顧客と応対担当者との対話における発話を音声認識によりテキスト化した音声認識結果が入力される。ここで、音声認識を行う音声認識装置(図示せず)には、顧客の発話と応対担当者の発話とが異なるチャネル(2チャネル)で入力され、顧客の発話と応対担当者の発話とを区別して、音声認識が行われる。
 音声認識では、上述したように、無音区間が所定時間以上継続すると、前回の音声認識の処理単位の最後の発話後、その無音区間よりも前までの発話が1つの処理単位として音声認識が行われ、その処理単位で音声認識結果が出力される。また、音声認識では、上述した処理単位を確定するために設定される無音区間よりも短い所定時間だけ無音区間が継続すると、音声認識結果において、その無音区間に対応する位置に句読点などの文における区切りを示す区切り記号が付与される。なお、どの区切り記号が付与されるかは、例えば、前後の文脈などから適宜、選択される。例えば、参考文献1には、音声認識結果への句読点の自動挿入方法が記載されている。具体的には、参考文献1には、単語(出現形)、品詞、分節境界、直後の分節への係り受け情報、およびポーズなどの特徴に基づき、句読点を挿入する方法が記載されている。また、ある話者の話し終わり後、別の話者が、区切り記号の付与が決定される無音区間の経過前に話し始めた場合、先の話者の発話の音声認識結果の末尾には、区切り記号が付与されない場合がある。なお、音声認識結果の末尾には必ず、区切り記号が付与されるようにすることも可能である。
参考文献1:秋田 祐哉、河原 達也、「講演に対する読点の複数アノテーションに基づく自動挿入」、情報処理学会論文誌、1882-7765,No.54、Vol.2、2013年
 以下では、図1に示すように、顧客と応対担当者との対話において、発話♯11~♯33が行われ、音声認識が行われたとする。図1では、発話♯11,14,17,19,21,23,25,26,29,32,33が応対担当者の発話であり、発話♯12,13,15,16,18,20,22,24,27,28,30,31が顧客の発話であることを示している。また、図1では、1つの吹き出しが、音声認識の処理単位を示している。
 分割部11には、処理単位ごとの音声認識の結果(以下、「音声認識結果の単位」と称する)が入力される。図1の例では、発話♯11~33それぞれの音声認識の結果が、音声認識結果の単位として分割部11に入力される。
 分割部11は、入力された音声認識結果の単位に示される文字列、すなわち、音声認識の処理単位の発話が音声認識によりテキスト化された文字列を、第1ルール記憶部13に予め記憶されたルール(以下「第1ルール」と称する)に基づき分割する。第1ルールとしては、例えば、文における区切りを示す区切り記号が出現するまでを1つの単位として分割するというルールがある。区切り記号としては、句点(、)、読点(。)、カンマ(,)、ピリオド(.)、改行・空白、感嘆符(!)、疑問符(?)、コロン(:)、セミコロン(;)、リーダー(二点リーダー(‥)、三点リーダー(…)など)、括弧(丸括弧(())、角括弧([])など)、引用符(「」)、箇条書きの項目を示す記号(“*”、“・”など)、無音区間を示す記号(<sp>(short pause))および絵文字((^^))などがある。これらの区切り記号は、文単位あるいは文に含まれる語句単位で、音声認識によりテキスト化された文字列を区切る、文における区切りを示す記号である。分割部11は、このルールに基づき、対話における発話が音声認識によりテキスト化された文字列を分割して、話し終わり判定部12に出力する。以下では、対話における発話が音声認識によりテキスト化された文字列が分割部11により分割された各文字列を、分割文字列と称する。
 図1の例では、分割部11は、例えば、発話♯13の音声認識により得られた「そちらの自動車保険に入ってまして、その自動車保険について聞きたいのですが、」という文字列を、「そちらの自動車保険に入ってまして、」という分割文字列と、「その自動車保険について聞きたいのですが、」という分割文字列とに分割して、話し終わり判定部12に出力する。
 話し終わり判定部12は、話し終わり判定モデル14を用いて、分割部11から出力された分割文字列に対応する発話が、話者の話し終わりの発話であるか否かの判定を行う。
 話し終わり判定モデル14は、対話における発話がテキスト化された文字列が区切り記号で分割された分割文字列に対応する発話、および、連続する分割文字列を発話順に繋げた文字列に対応する発話に対して、話し終わりの発話であるか否かを示す情報(教師信号)が付与された学習データの機械学習により生成されるモデルである。
 図2は、話し終わり判定モデル14の機械学習に用いられる学習データの一例を示す図である。以下では、図2に示す発話♯34~♯37に基づき生成される学習データを例として説明する。なお、以下では、区切り記号として、句読点を用いる場合を例として説明する。
 図2に示す例では、発話♯34には句読点が含まれていないため、発話♯34全体の「ご加入の自動車保険の変更についてのお問い合わせですね」という発話に対して、教師信号が付与される。発話が、話し終わりの発話であるか否かは、例えば、その発話の後に話者交代が起こったか否かにより判定することができる。一般に、顧客と応対担当者との対話などにおいては、例えば、顧客が問い合わせたい内容を話し終えた後、応対担当者がその問い合わせに対する回答を行い、応対担当者が回答を話し終えた後、顧客が更に問い合わせを行うといった対話構造が多い。すなわち、話者交代が起こると、その直前の発話は話者交代が起こる前の話者の話し終わりの発話であることが多いという傾向がある。したがって、発話の後に話者交代が起こった場合、その発話は、話し終わりの発話である可能性が高いと判定することができる。応対担当者による発話♯34に続く発話♯35は顧客による発話である。すなわち、発話♯34の後に話者交代が起こっている。したがって、図2に示すように、「ご加入の自動車保険の変更についてのお問い合わせですね」という発話に対して、話し終わりであることを示す教師信号が付与される。
 また、発話♯35は、読点が含まれているため、読点を区切りとして、「はい、」、「先日、」、「息子が車の免許を取りまして、」という3つの分割文字列に分割される。最初の「はい、」という発話の後には話者交代は起こっていないため、「はい、」という発話は話し終わりの発話ではないと判定することができる。したがって、図2に示すように、「はい、」という発話に対して、話し終わりの発話ではないことを示す教師信号が付与される。
 次に、文字列「はい、」と、文字列「はい、」に続く文字列「先日、」とを発話順に繋げた「はい、先日、」という発話に対して、教師信号が付与される。「はい、先日、」という発話の後には、話者交代は起こっていないため、「はい、先日、」という発話は話し終わりの発話ではないと判定することができる。したがって、図2に示すように、「はい、先日、」という発話に対して、話し終わりの発話ではないことを示す教師信号が付与される。以下同様にして、話し終わりの発話が登場するまで、分割文字列を発話順に繋げた文字列に対応する発話に対して、教師信号(話し終わりの発話ではないことを示す教師信号)が付与される。
 図2に示す例では、発話♯36の後に、話者交代が起こっている。したがって、図2に示すように、前回の話者交代(応対担当者から顧客への話者交代)の後、今回の話者交代(顧客から応対担当者への話者交代)までの発話を繋げた「はい、先日、息子が車の免許を取りまして、息子が運転しても、自動車保険の対象になるように変更したいのですが。」という発話に対して、話し終わりの発話であることを示す教師信号が付与される。
 話し終わり判定モデル14は、図2に示すような学習データを機械学習することで、生成することができる。
 話し終わり判定モデル14は、例えば、前回の話し終わりの発話以降の分割文字列を発話順に判定対象の分割文字列とし、前回の話し終わりの発話以降の分割文字列を判定対象の分割文字列まで発話順に繋げた文字列を構成する単語のうち、末尾から所定数の単語に基づき、判定対象の分割文字列に対応する発話が話し終わりの発話であるか否かを判定する。すなわち、話し終わり判定モデル14は、前回の話し終わりの発話以降の分割文字列を、判定対象の分割文字列まで発話順に繋げた文字列のうち、末尾から所定数の単語に基づき、判定対象の分割文字列に対応する発話が話し終わりの発話であるか否かを判定する。
 また、話し終わり判定モデル14は、前回の話し終わりの発話以降の分割文字列を判定対象の分割文字列まで発話順に繋げた文字列に基づき、判定対象の分割文字列に対応する発話が話し終わりの発話であるか否かを判定してもよい。すなわち、話し終わり判定モデル14は、前回の話し終わりの発話以降の分割文字列を、判定対象の分割文字列まで発話順に繋げた文字列全体に基づき、判定対象の分割文字列に対応する発話が話し終わりの発話であるか否かを判定してもよい。
 また、話し終わり判定モデル14は、分割文字列に含まれる単語の表記および分割文字列に含まれる単語の品詞の少なくとも一方に基づき、分割文字列に対応する発話が話し終わりの発話であるか否かを判定してもよい。この場合、例えば、形態素解析により、分割文字列に含まれる単語の品詞を特定することができる。
 以下では、分割文字列に含まれる単語の品詞に基づく、分割文字列に対応する発話が話し終わりの発話であるか否かの判定について説明する。なお、以下では、形態素解析の結果を、単語表記およびその品詞と、単語表記の区切り「/」とを用いて示すものとする。
 例えば、「お問い合わせですね」という文字列の形態素解析の結果は、「お(接頭辞)/問い合わせ(名詞)/です(助動詞)/ね(助詞)」となる。また、「はい、先日」という文字列の形態素解析の結果は、「はい(感動詞)/、(記号)/先日(名詞)」となる。
 例えば、文末の4つの単語の表記および品詞を用いて機械学習を行う場合、上記の表記および品詞と教師データとが機械学習装置に入力され、話し終わり判定用のモデルが作成される。「お(接頭辞)/問い合わせ(名詞)/です(助動詞)/ね(助詞)」という形態素解析の結果に対する教師データは、「話し終わりである」となり、「はい(感動詞)/、(記号)/先日(名詞)」という形態素解析の結果に対する教師データは、「話し終わりではない」となる。このような学習データを用いて作成されたモデルを用いることで、例えば、分割文字列の最後の単語の品詞が名詞である場合に、その分割文字列に対応する発話は、話し終わりの発話ではないと判定することができる。
 上述したように、話し終わり判定モデル14による判定方法としては、種々の方法が考えられる。話し終わり判定モデル14は、その判定方法に応じた学習データの機械学習により生成することができる。なお、自然言語を入力とする機械学習には、例えば、サポートベクターマシン(SVM)を用いることができる。
 図1を再び参照すると、話し終わり判定部12は、話し終わり判定モデル14による判定結果と、第2ルール記憶部15に予め記憶されたルール(以下、「第2ルール」と称する)に基づく、分割文字列に対応する発話が話し終わりの発話であるか否かの判定結果とに基づき、分割文字列に対応する発話が話し終わりの発話であるか否かの判定を行ってもよい。
 第2ルールとしては、例えば、分割文字列に対応する発話の後に話者が交代している場合、その分割文字列に対応する発話は話し終わりの発話であると判定するというルールがある。このルールに基づく場合、話し終わり判定部12は、分割文字列に対応する発話の後に話者が交代している場合、その分割文字列に対応する発話は話し終わりの発話であると判定する。
 また、第2ルールとしては、例えば、分割文字列に対応する発話の後、所定時間以上、次の発話が無い場合、分割文字列に対応する発話は話し終わりの発話であると判定するというルールがある。一般に、話者の発話後、所定時間以上、次の発話が無い場合、話者は話し終わり、他の話者からの反応を待っていることが多いという傾向がある。したがって、このルールに基づく場合、話し終わり判定部12は、分割文字列に対応する発話の後、所定時間以上、次の発話が無い場合、分割文字列に対応する発話は話し終わりの発話であると判定する。
 また、第2ルールとしては、例えば、前回の話し終わりの発話以降の分割文字列を、判定対象の分割文字列まで発話順に繋げた文字列に含まれる単語数が所定数以下である場合、判定対象の分割文字列に対応する発話は話し終わりの発話ではないと判定するというルールがある。このルールに基づく場合、話し終わり判定部12は、前回の話し終わりの発話以降の分割文字列を、判定対象の分割文字列まで発話順に繋げた文字列に含まれる単語数が所定数以下である場合、判定対象の分割文字列に対応する発話は話し終わりの発話ではないと判定する。
 そして、話し終わり判定部12は、例えば、話し終わり判定モデル14による判定結果および第2ルールに基づく判定結果の両方が、分割文字列に対応する発話が話し終わりの発話であることを示している場合、その分割文字列に対応する発話が話し終わりの発話であると判定する。あるいは、話し終わり判定部12は、話し終わり判定モデル14による判定結果および第2ルールに基づく判定結果のうち少なくとも一方が、分割文字列に対応する発話が話し終わりの発話であることを示している場合、その分割文字列に対応する発話が話し終わりの発話であると判定してもよい。あるいは、話し終わり判定部12は、話し終わり判定モデル14による判定結果および第2ルールに基づく判定結果のうち少なくとも一方が、分割文字列に対応する発話が話し終わりの発話ではないことを示している場合、その分割文字列に対応する発話が話し終わりの発話ではないと判定してもよい。
 上述したように、音声認識結果の単位で話し終わりの発話の判定を行うと、話し終わりの発話を正しく特定できない場合がある。このような場合について、図3を参照して説明する。
 図3においては、応対担当者による「振込みの案内ハガキが届いたのですね、では、ご契約内容を確認させて頂きますので、お名前をお聞かせ頂けますか。」という発話が、1つの処理単位として音声認識が行われ、音声認識結果の単位として出力されたとする。ここで、「振込みの案内ハガキが届いたのですね、」という発話は、振込みの案内ハガキへの対応という顧客の用件を確認する用件確認の発話に相当し、「では、ご契約内容を確認させて頂きますので、お名前をお聞かせ頂けますか。」という発話は、顧客の契約内容を確認する契約内容確認の発話に相当する。このように、「振込みの案内ハガキが~」という発話と、「では、ご契約内容を~」という発話とでは伝えたい内容が異なっている。したがって、「振込みの案内ハガキが~」という発話は、話者(応対担当者)が伝えたい内容(用件確認)を話し終えた話し終わりの発話に相当する。しかしながら、「振込みの案内ハガキが~」という発話と、「では、ご契約内容を~」という発話とが殆ど間を空けずに行われると、音声認識により、これらの発話が1つの音声認識結果の単位として出力されることがある。この場合、「振込みの案内ハガキが・・・お名前をお聞かせ頂けますか。」という音声認識結果の単位でしか、話し終わりの発話であるか否かが判定されないため、「振込みの案内ハガキが届いたのですね、」という発話を話し終わりの発話として判定することができない。
 図4は、本実施形態に係る話し終わり判定装置10における話し終わり判定方法について説明するための図である。図4においては、図3と同様に、「振込みの案内ハガキが・・・お名前をお聞かせ頂けますか。」という発話が、1つの処理単位として音声認識が行われ、音声認識結果の単位として出力されたとする。
 上述したように、本実施形態においては、分割部11は、対話における発話が音声認識によりテキスト化された文字列を、音声認識の結果に含まれる区切り記号である句読点で分割する。したがって、図4に示すように、分割部11は、「振込みの案内ハガキが・・・お名前をお聞かせ頂けますか。」という文字列を、「振込みの案内ハガキが届いたのですね、」、「では、」、「ご契約内容を確認させて頂きますので、」、「お名前をお聞かせ頂けますか。」という4つの分割文字列に分割する。
 話し終わり判定部12は、分割部11により分割された最初の分割文字列「振込みの案内ハガキが届いたのですね、」に対応する発話が、話し終わりの発話であるか否かを、話し終わり判定モデル14などを用いて判定する。話し終わり判定部12は、分割文字列「振込みの案内ハガキが届いたのですね、」に対応する発話が話し終わりの発話であると判定すると、「振込みの案内ハガキが届いたのですね、」という発話を、話し終わりの単位の発話として出力する。分割文字列単位で、その分割文字列に対応する発話が話し終わりの発話であるか否かを判定することで、話者の話し終わりが音声認識結果の単位に含まれている場合にも、話し終わりの発話を特定することができる。
 次に、話し終わり判定部12は、次の分割文字列「では、」に対応する発話が、話し終わりの発話であるか否かを判定する。話し終わり判定部12は、「では、」という発話が、話し終わりの発話ではないと判定すると、分割文字列「では、」と、次の分割文字列「ご契約内容を確認させて頂きますので、」とを繋げた「では、ご契約内容を確認させて頂きますので、」という発話が、話し終わりの発話であるか否かを判定する。話し終わり判定部12は、「では、ご契約内容を確認させて頂きますので、」という発話が、話し終わりの発話ではないと判定すると、その文字列と、次の分割文字列「お名前をお聞かせ頂けますか。」とを繋げた「では、ご契約内容を確認させて頂きますので、お名前をお聞かせ頂けますか。」という発話が、話し終わりの発話であるか否かを判定する。話し終わり判定部12は、「では、ご契約内容を確認させて頂きますので、お名前をお聞かせ頂けますか。」という発話が、話し終わりの発話であると判定すると、「では、ご契約内容を確認させて頂きますので、お名前をお聞かせ頂けますか。」という発話を、話し終わりの単位の発話として出力する。
 本実施形態においては、区切り記号が句読点である例を用いて説明したが、上述したように、区切り記号は、カンマ、ピリオド、改行・空白、感嘆符、疑問符、コロン、セミコロン、リーダー、括弧、引用符、箇条書きの項目を示す記号、無音区間を示す記号および絵文字などの、文における区切りを示す種々の記号であってよい。
 したがって、例えば、音声認識によりテキスト化された文字列が「はい<sp>先日<sp>息子が車の免許を取りまして<sp>」である場合、分割部11は、無音区間を示す記号(<sp>)で文字列を分割する。すなわち、分割部11は、「はい<sp>」という分割文字列と、「先日<sp>」という分割文字列と、「息子が車の免許を取りまして<sp>」という分割文字列とに分割する。
 また、例えば、音声認識によりテキスト化された文字列が「yes, my son took a driver’s license a few days ago.」である場合、分割部11は、カンマおよびピリオドで文字列を分割する。すなわち、分割部11は、「yes,」という分割文字列と、「my son took a driver’s license a few days ago.」という分割文字列とに分割する。
 また、例えば、音声認識によりテキスト化された文字列が以下に示すような、箇条書きを含む文字列であったとする。
 「次の書類が必要です:
  *住民票
  *印鑑証明書
 この場合、分割部11は、コロン(:)および箇条書きの項目を示す記号(*)で文字列を分割する。第1ルール記憶部13に、区切り記号を文頭区切り記号と文末区切り記号とに分けて登録し、文頭区切り記号の場合は区切り記号の前で分割し、文末区切り記号の場合は区切り記号の後で分割するというルールを記憶することができる。このルールを適用すると、上述した例の場合、例えば(*)を文頭区切り記号、(:)を文末区切り記号として登録すると、分割部11は、「次の書類が必要です:」という分割文字列と、「*住民票」という分割文字列と、「*印鑑証明書」という分割文字列とに分割する。
 また、例えば、音声認識によりテキスト化された文字列が「教えて頂きたいことは次のことです;新しい住所、電話番号。」である場合、分割部11は、セミコロン、句点および読点で文字列を分割する。すなわち、分割部11は、「教えて頂きたいことは次のことです;」という分割文字列と、「新しい住所、」という分割文字列と、「電話番号。」という分割文字列とに分割する。
 また、例えば、音声認識によりテキスト化された文字列が「住所ですが…最近引っ越したんですよ。」である場合、分割部11は、リーダーおよび読点で文字列を分割する。すなわち、分割部11は、「住所ですが…」という分割文字列と、「最近引っ越したんですよ。」という分割文字列とに分割する。
 また、例えば、音声認識によりテキスト化された文字列が「ご本人を特定できるものが必要です。(例えば、免許証とか)」である場合、分割部11は、括弧、句点および読点で文字列を分割する。第1ルール記憶部13に、文頭区切り記号として左丸括弧(()、文末区切り記号として、右丸括弧())、読点(、)、句点(。)を登録し、文頭区切り記号の場合は区切り記号の前で分割し、文末区切り記号の場合は、区切り記号の後で分割するというルールを記憶することができる。このルールを適用すると、上述した例の場合、分割部11は、「ご本人を特定できるものが必要です。」という分割文字列と、「(例えば、」という分割文字列と、「免許証とか)」という分割文字列とに分割する。
 また、例えば、音声認識によりテキスト化された文字列が、「友人がこう言っていました「゛満期まで変更できない゛らしいよ」。」である場合、分割部11は、クォーテーションマーク(゛)、始括弧(「)、終括弧(」)、句点(。)で文字列を分割する。第1ルール記憶部13に、文頭区切り記号として始括弧(「)、文末区切り記号として、終括弧(」)、読点(、)、句点(。)を登録し、文頭区切り記号の場合は区切り記号の前で分割し、文末区切り記号の場合は区切り記号の後で分割し、加えて文頭区切り記号または文末区切り記号の同じ属性の区切り記号が連続した場合、文頭区切り記号は最初の文頭区切り記号の前で分割し、文末区切り記号は最後の文末区切り記号の後で分割するというルールを記憶することができる。さらに、第1ルール記憶部13に、区切り記号(゛)の出現数を記録し、出現数が奇数の場合はその区切り記号を文頭区切り記号として扱い、出現数が偶数の場合はその区切り記号を文末区切り記号として扱うというルールを記憶する。すなわち、1回目に出現した区切り記号(゛)は文頭区切り記号となるため、(「゛)は文頭区切りの連続となり、2回目に出現した区切記号(゛)は、文末区切り記号となる。このルールを適用すると、上述した例の場合、分割部11は、「友人がこう言っていました」という分割文字列と、「「゛満期まで変更できない゛」という分割文字列と、「らしいよ」。」という分割文字列とに分割する。また、同じ記号、例えば、ダッシュ(―)が連続する場合、例外的に文頭区切り記号か文末区切り記号かに応じて、ひとまとまりの記号として扱うルールを設定してもよい。 
 また、例えば、音声認識によりテキスト化された文字列が、「半年前に引っ越しても、変更が間に合ってよかった(^^)」である場合、分割部11は、句点および絵文字で文字列を分割する。すなわち、分割部11は、「半年前に引っ越しても、」という分割文字列と、「変更が間に合ってよかった(^^)」という分割文字列とに分割する。
 このように本実施形態においては、話し終わり判定装置10は、対話における発話が音声認識によりテキスト化された文字列を、音声認識の結果に含まれる、文における区切りを示す区切り記号で分割する分割部11と、話し終わり判定モデル14を用いて、分割部11により分割された分割文字列に対応する発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定部12と、を備える。
 話し終わり判定モデル14を用いて、対話における発話がテキスト化された文字列を区切り記号で分割した分割文字列に対応する発話が、話し終わりの発話であるか否かを判定することで、音声認識結果の単位の中に話し終わりの発話が含まれていても、その話し終わりの発話を特定することができるので、話し終わりの発話の判定の高精度化を図ることができる。
 以上、話し終わり判定装置10について説明したが、話し終わり判定装置10として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、話し終わり判定装置10の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのCPUによってこのプログラムを読み出して実行させることで実現することができる。
 また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMおよびDVD-ROMなどの記録媒体であってもよい。
 上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。
 10  話し終わり判定装置
 11  分割部
 12  話し終わり判定部
 13  第1ルール記憶部
 14  話し終わり判定モデル
 15  第2ルール記憶部

Claims (11)

  1.  複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置であって、
     前記対話における発話が音声認識によりテキスト化された文字列を、前記音声認識の結果に含まれる、文における区切りを示す区切り記号で分割する句読点分割部と、
     対話における発話がテキスト化された文字列を前記区切り記号で分割した分割文字列に対応する発話および連続する分割文字列を発話順に繋げた文字列に対応する発話に対して、話し終わりの発話であるか否かを示す情報が付与された学習データの機械学習により生成された話し終わり判定モデルを用いて、前記分割部により分割された分割文字列に対応する発話が、話し終わりの発話であるか否かの判定を行う話し終わり判定部と、を備えることを特徴とする話し終わり判定装置。
  2.  請求項1に記載の話し終わり判定装置において、
     前記区切り記号は、句読点であることを特徴とする話し終わり判定装置。
  3.  請求項1または2に記載の話し終わり判定装置において、
     前記話し終わり判定モデルは、前回の話し終わりの発話以降の分割文字列を、判定対象の分割文字列まで発話順に繋げた文字列を構成する単語のうち、末尾から所定数の単語に基づき、前記判定対象の分割文字列に対応する発話が話し終わりの発話であるか否かを判定することを特徴とする話し終わり判定装置。
  4.  請求項1に記載の話し終わり判定装置において、
     前記話し終わり判定モデルは、前回の話し終わりの発話以降の分割文字列を、判定対象の分割文字列まで発話順に繋げた文字列に基づき、前記判定対象の分割文字列に対応する発話が話し終わりの発話であるか否かを判定することを特徴とする話し終わり判定装置。
  5.  請求項1に記載の話し終わり判定装置において、
     前記話し終わり判定モデルは、前記分割文字列の表記および前記分割文字列に含まれる単語の品詞の少なくとも一方に基づき、前記分割文字列に対応する発話が話し終わりの発話であるか否かを判定することを特徴とする話し終わり判定装置。
  6.  請求項1から5のいずれか一項に記載の話し終わり判定装置において、
     前記話し終わり判定部は、前記話し終わり判定モデルによる判定結果と、予め定められたルールに基づく、前記分割文字列に対応する発話が話し終わりの発話であるか否かの判定結果とに基づき、前記判定を行うことを特徴とする話し終わり判定装置。
  7.  請求項6に記載の話し終わり判定装置において、
     前記話し終わり判定部は、前回の話し終わりの発話以降の分割文字列を、判定対象の分割文字列まで発話順に繋げた文字列を構成する単語数が所定数以下である場合、前記判定対象の分割文字列に対応する発話は話し終わりの発話ではないと判定するというルールに基づき、前記分割文字列に対応する発話が話し終わりの発話であるか否かを判定することを特徴とする話し終わり判定装置。
  8.  請求項6に記載の話し終わり判定装置において、
     前記話し終わり判定部は、前記分割文字列に対応する発話の後に話者が交代している場合、前記分割文字列に対応する発話は話し終わりの発話であると判定するというルールに基づき、前記分割文字列に対応する発話が話し終わりの発話であるか否かを判定することを特徴とする話し終わり判定装置。
  9.  請求項6に記載の話し終わり判定装置において、
     前記話し終わり判定部は、前記分割文字列に対応する発話の後、所定時間以上、次の発話が無い場合、前記分割文字列に対応する発話は話し終わりの発話であると判定するというルールに基づき、前記分割文字列に対応する発話が話し終わりの発話であるか否かを判定することを特徴とする話し終わり判定装置。
  10.  複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置における話し終わり判定方法であって、
     前記対話における発話が音声認識によりテキスト化された文字列を、前記音声認識の結果に含まれる、文における区切りを示す区切り記号で分割するステップと、
     対話における発話がテキスト化された文字列を前記区切り記号で分割した分割文字列に対応する発話および連続する分割文字列を発話順に繋げた文字列に対応する発話に対して、話し終わりの発話であるか否かを示す情報が付与された学習データの機械学習により生成された話し終わり判定モデルを用いて、前記文字列が前記区切り記号で分割された分割文字列に対応する発話が、話し終わりの発話であるか否かの判定を行うステップと、を含むことを特徴とする話し終わり判定方法。
  11.  コンピュータを請求項1から9のいずれか一項に記載の話し終わり判定装置として機能させるためのプログラム。
PCT/JP2019/031938 2018-08-15 2019-08-14 話し終わり判定装置、話し終わり判定方法およびプログラム WO2020036195A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020537096A JP7007617B2 (ja) 2018-08-15 2019-08-14 話し終わり判定装置、話し終わり判定方法およびプログラム
US17/268,559 US11996119B2 (en) 2018-08-15 2019-08-14 End-of-talk prediction device, end-of-talk prediction method, and non-transitory computer readable recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-152892 2018-08-15
JP2018152892 2018-08-15

Publications (1)

Publication Number Publication Date
WO2020036195A1 true WO2020036195A1 (ja) 2020-02-20

Family

ID=69525438

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/031938 WO2020036195A1 (ja) 2018-08-15 2019-08-14 話し終わり判定装置、話し終わり判定方法およびプログラム

Country Status (3)

Country Link
US (1) US11996119B2 (ja)
JP (1) JP7007617B2 (ja)
WO (1) WO2020036195A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111916072A (zh) * 2020-06-16 2020-11-10 深圳追一科技有限公司 基于语音识别的问答方法、装置、计算机设备和存储介质
GB2597126A (en) * 2020-05-18 2022-01-19 Nvidia Corp End of speech detection using one or more neural networks
US11817117B2 (en) 2021-01-29 2023-11-14 Nvidia Corporation Speaker adaptive end of speech detection for conversational AI applications

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208388A (ja) * 1993-01-08 1994-07-26 A T R Jido Honyaku Denwa Kenkyusho:Kk 対話音声認識装置
JP2005196134A (ja) * 2003-12-12 2005-07-21 Toyota Central Res & Dev Lab Inc 音声対話システム及び方法並びに音声対話プログラム
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
JP2010054574A (ja) * 2008-08-26 2010-03-11 Nippon Hoso Kyokai <Nhk> 話者交替推定装置、話者識別装置、及びコンピュータプログラム
JP2015219480A (ja) * 2014-05-21 2015-12-07 日本電信電話株式会社 対話状況特徴計算装置、文末記号推定装置、これらの方法及びプログラム
JP2018031851A (ja) * 2016-08-23 2018-03-01 株式会社国際電気通信基礎技術研究所 談話機能推定装置及びそのためのコンピュータプログラム
JP2018128575A (ja) * 2017-02-08 2018-08-16 日本電信電話株式会社 話し終わり判定装置、話し終わり判定方法およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6873953B1 (en) * 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
US6718325B1 (en) * 2000-06-14 2004-04-06 Sun Microsystems, Inc. Approximate string matcher for delimited strings
US20040163034A1 (en) * 2002-10-17 2004-08-19 Sean Colbath Systems and methods for labeling clusters of documents
US9117460B2 (en) * 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
JP4478939B2 (ja) * 2004-09-30 2010-06-09 株式会社国際電気通信基礎技術研究所 音声処理装置およびそのためのコンピュータプログラム
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8781833B2 (en) * 2008-07-17 2014-07-15 Nuance Communications, Inc. Speech recognition semantic classification training
WO2014119612A1 (ja) 2013-01-31 2014-08-07 住友重機械工業株式会社 流動床燃焼炉及び流動床燃焼炉の運転方法
US10614799B2 (en) * 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208388A (ja) * 1993-01-08 1994-07-26 A T R Jido Honyaku Denwa Kenkyusho:Kk 対話音声認識装置
JP2005196134A (ja) * 2003-12-12 2005-07-21 Toyota Central Res & Dev Lab Inc 音声対話システム及び方法並びに音声対話プログラム
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
JP2010054574A (ja) * 2008-08-26 2010-03-11 Nippon Hoso Kyokai <Nhk> 話者交替推定装置、話者識別装置、及びコンピュータプログラム
JP2015219480A (ja) * 2014-05-21 2015-12-07 日本電信電話株式会社 対話状況特徴計算装置、文末記号推定装置、これらの方法及びプログラム
JP2018031851A (ja) * 2016-08-23 2018-03-01 株式会社国際電気通信基礎技術研究所 談話機能推定装置及びそのためのコンピュータプログラム
JP2018128575A (ja) * 2017-02-08 2018-08-16 日本電信電話株式会社 話し終わり判定装置、話し終わり判定方法およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2597126A (en) * 2020-05-18 2022-01-19 Nvidia Corp End of speech detection using one or more neural networks
GB2597126B (en) * 2020-05-18 2023-08-23 Nvidia Corp End of speech detection using one or more neural networks
CN111916072A (zh) * 2020-06-16 2020-11-10 深圳追一科技有限公司 基于语音识别的问答方法、装置、计算机设备和存储介质
US11817117B2 (en) 2021-01-29 2023-11-14 Nvidia Corporation Speaker adaptive end of speech detection for conversational AI applications

Also Published As

Publication number Publication date
US11996119B2 (en) 2024-05-28
JPWO2020036195A1 (ja) 2021-08-10
JP7007617B2 (ja) 2022-01-24
US20210312944A1 (en) 2021-10-07

Similar Documents

Publication Publication Date Title
US11900932B2 (en) Determining a system utterance with connective and content portions from a user utterance
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US8219397B2 (en) Data processing system for autonomously building speech identification and tagging data
US7949536B2 (en) Intelligent speech recognition of incomplete phrases
WO2020036195A1 (ja) 話し終わり判定装置、話し終わり判定方法およびプログラム
US20080103774A1 (en) Heuristic for Voice Result Determination
US11113335B2 (en) Dialogue system and computer program therefor
JP2006039120A (ja) 対話装置および対話方法、並びにプログラムおよび記録媒体
JP6993604B2 (ja) 学習データ生成装置、学習データ生成方法およびプログラム
JP2018197924A (ja) 情報処理装置、対話処理方法、及び対話処理プログラム
JP2010256498A (ja) 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム
JP2020154076A (ja) 推論器、学習方法および学習プログラム
CN112805734A (zh) 用于唤起对发言禁止用语的注意的演讲辅助装置
US20030120490A1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recorgnition system
JP6755633B2 (ja) 用件判定装置、用件判定方法およびプログラム
JP5818753B2 (ja) 音声対話システム及び音声対話方法
CN115019786A (zh) 模型训练方法和装置及语音含义的理解方法和装置
JP7125630B2 (ja) 要点抽出装置、要点抽出方法、及びプログラム
JP2006018028A (ja) 対話方法、対話装置、音声対話装置、対話プログラム、音声対話プログラム及び記録媒体
JP6615803B2 (ja) 用件判定装置、用件判定方法およびプログラム
JP2015179198A (ja) 読み上げ装置、読み上げ方法及びプログラム
JP4095577B2 (ja) 対話装置、音声対話装置、対話プログラム、音声対話プログラムおよび記録媒体
JP2004272134A (ja) 音声認識装置及びコンピュータプログラム
JP5921259B2 (ja) 音声入力装置
WO2024086265A1 (en) Context-aware end-to-end asr fusion of context, acoustic and text representations

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19850599

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020537096

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19850599

Country of ref document: EP

Kind code of ref document: A1