WO2013175523A1 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- WO2013175523A1 WO2013175523A1 PCT/JP2012/003340 JP2012003340W WO2013175523A1 WO 2013175523 A1 WO2013175523 A1 WO 2013175523A1 JP 2012003340 W JP2012003340 W JP 2012003340W WO 2013175523 A1 WO2013175523 A1 WO 2013175523A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- user operation
- unit
- user
- voice
- correction
- Prior art date
Links
- 238000012937 correction Methods 0.000 claims abstract description 152
- 238000000605 extraction Methods 0.000 claims abstract description 52
- 230000014509 gene expression Effects 0.000 claims description 157
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 12
- 230000001629 suppression Effects 0.000 claims description 11
- 230000007717 exclusion Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 26
- 238000000034 method Methods 0.000 description 21
- 238000012545 processing Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 238000007429 general method Methods 0.000 description 3
- 108090000237 interleukin-24 Proteins 0.000 description 3
- 101000760620 Homo sapiens Cell adhesion molecule 1 Proteins 0.000 description 2
- 101000710013 Homo sapiens Reversion-inducing cysteine-rich protein with Kazal motifs Proteins 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000007257 malfunction Effects 0.000 description 2
- 101000661807 Homo sapiens Suppressor of tumorigenicity 14 protein Proteins 0.000 description 1
- 101100018027 Pisum sativum HSP70 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
Definitions
- the present invention relates to a speech recognition apparatus that always recognizes speech and corrects a user's operation using the recognition result.
- Patent Document 1 includes a result holding unit that holds a recognition result by a previous voice operation, and outputs a held recognition result when a user's intention for correction is detected by voice recognition.
- a voice recognition device is disclosed.
- the present invention has been made to solve the above-described problems, and it is an object of the present invention to provide a voice recognition device that can easily correct any user operation including voice operation with voice.
- a speech acquisition unit that detects and acquires speech input by the user, and the speech recognition device is activated.
- a voice recognition unit that always recognizes voice data acquired by the voice acquisition unit
- a user operation correction expression storage unit that stores expressions used when correcting user operations
- the user operation correction expression storage unit The user operation correction expression extracting unit that extracts the corrected expression of the user operation from the recognition result output by the voice recognition unit, the user operation history storage unit that stores the user operation history, and the user operation history
- a user operation extracting unit that extracts a user operation based on the corrected expression extracted by the user operation corrected expression extracting unit with reference to a storage unit; Characterized in that it comprises a user operation execution control unit for executing a user operation that has been extracted by chromatography.
- the operation extraction unit characterized in that it comprises a user operation execution control unit for executing a user operation that has been extracted by chromatography.
- the user's utterance content can always be recognized, and the user's operation can be corrected using the corrected expression uttered by the user.
- FIG. 1 is a block diagram illustrating an example of a voice recognition device according to Embodiment 1.
- FIG. 3 is a diagram illustrating an example of a user operation correction expression storage unit 3.
- FIG. 4 is a flowchart illustrating an operation of the speech recognition apparatus according to the first embodiment. It is a block diagram which shows an example of the speech recognition apparatus by Embodiment 2. 4 is a diagram illustrating an example of a conversion information storage unit 8.
- FIG. 6 is a flowchart illustrating an operation of the speech recognition apparatus according to the second embodiment.
- FIG. 10 is a block diagram illustrating an example of a voice recognition device according to a third embodiment. 3 is a diagram illustrating an example of an operation information storage unit 10.
- FIG. 10 is a block diagram illustrating an example of a voice recognition device according to a third embodiment. 3 is a diagram illustrating an example of an operation information storage unit 10.
- FIG. 10 is a flowchart illustrating the operation of the speech recognition apparatus according to the third embodiment. It is a block diagram which shows an example of the speech recognition apparatus by Embodiment 4. 10 is a flowchart showing the operation of the speech recognition apparatus according to the fourth embodiment. It is a block diagram which shows an example of the speech recognition apparatus by Embodiment 5. 10 is a flowchart showing the operation of the speech recognition apparatus according to the fifth embodiment. It is a block diagram which shows an example of the speech recognition apparatus by Embodiment 6.
- FIG. 5 is a diagram illustrating an example of an exception correction expression storage unit 13.
- FIG. 10 is a flowchart showing the operation of the speech recognition apparatus according to the sixth embodiment.
- FIG. 10 is a block diagram illustrating an example of a voice recognition device according to a seventh embodiment. 18 is a flowchart showing the operation of the speech recognition apparatus according to the seventh embodiment.
- FIG. 10 is a block diagram illustrating an example of a voice recognition device according to an eighth embodiment.
- 20 is a flowchart showing the operation of the speech recognition apparatus according to the eighth embodiment.
- FIG. 20 is a block diagram illustrating an example of a voice recognition device according to a ninth embodiment.
- 24 is a flowchart showing the operation of the speech recognition apparatus according to the ninth embodiment.
- the present invention recognizes a user's utterance content whenever the speech recognition device is activated in a speech recognition device that recognizes speech uttered by a user, and uses a corrected expression included in the utterance content. It corrects user operations.
- a case where the voice recognition device of the present invention is mounted on an information device for a moving body such as a vehicle or an in-vehicle information device will be described as an example.
- FIG. 1 is a block diagram showing an example of a speech recognition apparatus according to Embodiment 1 of the present invention.
- This voice recognition device includes a voice acquisition unit 1, a voice recognition unit 2, a user operation correction expression storage unit 3, a user operation correction expression extraction unit 4, a user operation history storage unit 5, and a user operation extraction unit 6.
- the user operation execution control unit 7 is provided.
- the speech recognition apparatus also includes a key input unit that acquires an input signal from a key, a touch panel, or the like, and an output unit that presents information or instructions to the user by display or voice.
- the sound acquisition unit 1 performs A / D conversion on sound collected by a microphone or the like (sound input by a user such as a passenger) and acquires the sound in, for example, a PCM (Pulse Code Modulation) format.
- PCM Pulse Code Modulation
- the voice recognition unit 2 has a recognition dictionary (not shown), detects a voice section corresponding to the utterance content of the passenger (user) from the voice data acquired by the voice acquisition unit 1, and A feature amount of voice data is extracted, a recognition process is performed using a recognition dictionary based on the feature amount, and a character string of a voice recognition result is output.
- the recognition process may be performed using a general method such as an HMM (Hidden Markov Model) method.
- the voice recognition unit 2 may use a voice recognition server on the network.
- voice recognition start instruction unit a button or the like for instructing the start of voice recognition (hereinafter referred to as “voice recognition start instruction unit”) is displayed on the touch panel or installed on the handle. Then, after the voice recognition start instruction unit is pressed by the passenger, the spoken voice is recognized. That is, when the voice recognition start instruction unit outputs a voice recognition start signal and the voice recognition unit receives the signal, it corresponds to the utterance content of the passenger from the voice data acquired by the voice acquisition unit after receiving the signal. The speech section to be detected is detected, and the above-described recognition process is performed.
- the voice recognition unit 2 in the first embodiment always recognizes the utterance content of the passenger even without the voice recognition start instruction by the passenger as described above. That is, the voice recognition unit 2 detects the voice section corresponding to the utterance content of the passenger from the voice data acquired by the voice acquisition unit 1 without receiving the voice recognition start signal, and the voice data of the voice section The feature amount is extracted, the recognition process is performed using the recognition dictionary based on the feature amount, and the process of outputting the character string of the speech recognition result is repeated.
- the voice recognition unit 2 in the first embodiment always recognizes the utterance content of the passenger even without the voice recognition start instruction by the passenger as described above. That is, the voice recognition unit 2 detects the voice section corresponding to the utterance content of the passenger from the voice data acquired by the voice acquisition unit 1 without receiving the voice recognition start signal, and the voice data of the voice section The feature amount is extracted, the recognition process is performed using the recognition dictionary based on the feature amount, and the process of outputting the character string of the speech recognition result is repeated.
- the user operation correction expression storage unit 3 normally stores expressions assumed to be used when the user corrects the operation.
- FIG. 2 is a diagram illustrating an example of the user operation correction expression storage unit 3.
- the user operation correction expression storage unit 3 includes, for example, “different”, “different”, “wrong”, “not”, “stop”, “cancel”, “one previous”, “two”.
- the correction expression such as “before” is stored.
- the user operation refers to all operations performed by the user, that is, all operations not limited to voice operations including, for example, key operations via a key input unit and touch panel operations. The same applies to the following embodiments.
- the user operation correction expression extraction unit 4 refers to the user operation correction expression storage unit 3 and extracts a correction expression of the user operation from the character string of the voice recognition result output by the voice recognition unit 2. That is, as a result of morphological analysis of the character string of the speech recognition result, an expression that matches the expression stored in the user operation corrected expression storage unit 3 is extracted as a corrected expression.
- the user operation history storage unit 5 stores a user's past operation history.
- the user's past operation history is any user operation that has been performed by the user in the past, that is, any user that is not limited to voice operations including, for example, key operations via a key input unit, touch panel operations, etc. Refers to an operation. The same applies to the following embodiments.
- the user operation extraction unit 6 refers to the user operation history storage unit 5 and extracts a user operation based on the corrected expression extracted by the user operation correction expression extraction unit 4. That is, the user operation corresponding to the corrected expression is extracted from the user operation history storage unit 5.
- the user operation execution control unit 7 executes the user operation extracted by the user operation extraction unit 6.
- the voice acquisition unit 1 performs A / D conversion on in-vehicle voice (input voice) collected by a microphone or the like, and acquires the voice, for example, in PCM (Pulse Code Modulation) format (step ST11).
- the voice recognition unit 2 recognizes the voice data acquired by the voice acquisition unit 1, and outputs the recognition result as a character string (step ST12).
- the voice recognition unit 2 performs the recognition process without receiving the voice recognition start signal. The same applies to the following embodiments.
- the user operation correction expression extraction unit 4 compares the character string of the recognition result by the voice recognition unit 2 with the user operation correction expression storage unit 3 as shown in FIG. That is, it is determined whether or not a corrected expression is included in the character string of the recognition result (step ST13). As a result, when the corrected expression is included in the character string of the recognition result by the speech recognition unit 2 (YES in step ST13), the corrected expression is extracted (step ST14). On the other hand, if the corrected expression is not included (NO in step ST13), the process ends.
- the user operation extraction unit 6 determines whether or not a user operation corresponding to the corrected expression extracted by the user operation correction expression extraction unit 4 exists in the user operation history storage unit 5 (step ST15). If there is a corresponding user operation (YES in step ST15), the user operation is extracted from the user operation history storage unit 5 (step ST16). Then, the user operation execution control unit 7 executes the user operation (step ST17). On the other hand, if the corresponding user operation does not exist (NO in step ST15), the process ends.
- step ST2 when the speech recognition result in step ST2 is a character string “It was the previous one”, referring to the user operation correction expression storage unit 3 shown in FIG. “Previous” is extracted as a corrected expression (YES in step ST13, step ST14). Thereafter, the previous user operation stored in the user operation history storage unit 5 is extracted (YES in step ST15, step ST16), and the user operation is executed (step ST17).
- the user's utterance content is always recognized, the user operation is corrected using the corrected expression uttered by the user, and the operation performed by the user in the past is executed. be able to.
- voice recognition device is activated without being conscious of the user, voice acquisition and voice recognition are always performed. Therefore, the user's intention to perform manual operation and input for voice acquisition and voice recognition start. And so on.
- FIG. FIG. 4 is a block diagram showing an example of a speech recognition apparatus according to Embodiment 2 of the present invention.
- symbol is attached
- a conversion information storage unit 8 is provided in place of the user operation history storage unit 5, and a correction operation is performed by converting a user's corrected expression into a direct operation. Is to execute.
- the conversion information storage unit 8 stores user operations corresponding to the corrected expressions in association with the corrected expressions.
- FIG. 5 is a diagram illustrating an example of the conversion information storage unit 8.
- the conversion information storage unit 8 shown in FIG. 5 is not, for example, “different”, “different”, “wrong”, “ ⁇ ” among the correction expressions stored in the user operation correction expression storage unit 3 shown in FIG.
- the correction expressions “t”, “stop”, and “cancel” indicate that they are associated with user operation conversion information that means “cancel” operation when converted to a user operation command.
- steps ST21 to ST25 are the same as steps ST11 to ST15 in the flowchart of FIG.
- the user operation corresponding to the corrected expression is read from the conversion information storage unit 8. Extract (step ST26).
- the user operation execution control unit 7 executes the user operation (step ST27).
- step ST22 when the speech recognition result in step ST22 is a character string “Oh, it was different”, referring to the user operation correction expression storage unit 3 shown in FIG. "" Is extracted as a corrected expression (YES in step ST23, step ST24). After that, referring to the conversion information storage unit 8, a “cancel” operation is extracted as user operation conversion information corresponding to the corrected expression “different” (YES in step ST25, step ST26), and the user operation is executed ( Step ST27).
- the user's utterance content is always recognized, and the currently executed user operation or the already executed user operation is corrected using the corrected expression uttered by the user. be able to.
- voice recognition device when the voice recognition device is activated without being conscious of the user, voice acquisition and voice recognition are always performed. Therefore, the user's intention to perform manual operation and input for voice acquisition and voice recognition start. And so on.
- FIG. FIG. 7 is a block diagram showing an example of a speech recognition apparatus according to Embodiment 3 of the present invention.
- symbol is attached
- an input operation unit 9 and an operation information storage unit 10 are provided instead of the user operation history storage unit 5, and the user's corrected expression and the current user are The correction operation is executed based on the operable operation information.
- the input operation unit 9 outputs information actually operated by the user to a user operation extraction unit 6 via a key input unit (keyboard, touch panel, etc.) not shown.
- the operation information storage unit 10 stores operation information that can be operated by the user, such as display information currently presented to the user.
- FIG. 8 is a diagram illustrating an example of the operation information storage unit 10. As shown in FIG. 8, the operation information storage unit 10 includes operations that can be input and are currently presented to the user, such as two buttons on the left and right, two buttons on the top and bottom, and three buttons on the upper, middle, and lower sides I remember information.
- steps ST31 to ST35 if there is a corresponding user operation in the determination in step ST35 (YES in step ST35), the corrected expression and the actual input operation by the input operation unit 9 are Based on the current operable operation information stored in the operation information storage unit 10, the user operation corresponding to the corrected expression is extracted (step ST36). Then, the user operation execution control unit 7 executes the user operation (step ST37).
- step ST32 the left button is pressed as the user's input operation in a state where the left and right buttons are presented to the user.
- the speech recognition result in step ST32 is a character string “Ah, it was different”
- the user operation correction expression storage unit 3 shown in FIG. Extracted as an expression (YES in step ST33, step ST34).
- the correct user operation “right” corresponding to the corrected expression “different” is extracted (step ST36), and the user operation is executed (step ST37).
- the user's utterance content is always recognized, the corrected expression uttered by the user, the actual user input operation, and the operation information currently presented to the user Based on the above, the user operation can be corrected.
- voice recognition device is activated without being conscious of the user, voice acquisition and voice recognition are always performed. Therefore, the user's intention to perform manual operation and input for voice acquisition and voice recognition start. And so on.
- FIG. FIG. 10 is a block diagram showing an example of a speech recognition apparatus according to Embodiment 4 of the present invention. Note that the same components as those described in the first to third embodiments are denoted by the same reference numerals, and redundant description is omitted.
- a user operation execution necessity inquiry unit 11 is further provided, which is executed after inquiring the user whether or not the extracted user operation is necessary. is there.
- the user operation execution necessity inquiry unit 11 makes an inquiry to the user by voice or display to determine whether or not the user operation execution unit extracted by the user operation extraction unit 6 is necessary. Then, the user operation execution control unit 7 executes the user operation extracted by the user operation extraction unit 6 based on the result determined by the user operation execution necessity inquiry unit 11.
- step ST47 After extracting the user operation corresponding to the corrected expression in step ST46, the user is inquired about whether or not the operation is necessary (step ST47). As a result, when there is a response to an instruction to execute a user operation (YES in step ST48), the user operation execution control unit 7 executes the user operation (step ST49). On the other hand, when there is a response that the user operation is not executed (NO in step ST48), the process is terminated.
- step ST22 if the speech recognition result in step ST22 is a character string “It was the previous one”, the matching character string is referred to by referring to the user operation correction expression storage unit 3 shown in FIG. “Previous” is extracted as a corrected expression (YES in step ST43, step ST44). Thereafter, the previous user operation XX stored in the user operation history storage unit 5 is extracted (YES in step ST45, step ST46), and the user operation execution necessity inquiry unit 11 reads “ An inquiry is made by voice, such as "Do you want to execute operation OO", or by presenting a dialog on the display screen (step ST47).
- the user operation execution control unit 7 executes the user operation OO (step ST49).
- FIG. FIG. 12 is a block diagram showing an example of a speech recognition apparatus according to Embodiment 5 of the present invention. Note that the same components as those described in the first to fourth embodiments are denoted by the same reference numerals, and redundant description is omitted.
- the user operation candidate inquiry unit 12 is further provided, and when there are a plurality of extracted user operations, the user operation candidates are selected. This is executed after the user is inquired about which one to execute.
- the user operation candidate inquiry unit 12 presents the plurality of user operation candidates to the user by voice or display, and the plurality of user operation candidates. The user is inquired to determine which of the two is executed. Then, the user operation execution control unit selects from the plurality of user operation candidates extracted by the user operation extraction unit 6 based on the result determined by the user operation candidate inquiry unit 12, and the selected user operation Execute.
- steps ST51 to ST56 is the same as steps ST11 to ST16 in the flowchart of FIG.
- the candidates for the plurality of operations are presented to the user.
- An inquiry is made as to which to execute (step ST57).
- the user operation execution control unit 7 executes the user operation selected by the user as a result of the inquiry (step ST58).
- step ST22 when the speech recognition result in step ST22 is a character string “Previous”, the user operation correction expression storage unit 3 shown in FIG. ”And“ two before ”are extracted (YES in step ST53, step ST54). Thereafter, the previous user operation XX and the previous user operation XX stored in the user operation history storage unit 5 are extracted (YES in step ST55, step ST56), and a candidate operation inquiry part for user operation 12 inquires by voice, “Do you want to execute the previous operation XX? Or will you execute the previous operation XX?”, And the previous operation XX and 2 An inquiry is made by displaying a list of previous operations XX on the display screen (step ST57).
- the user operation execution control unit 7 is selected by the user selecting one of the candidates displayed in a list by a voice “execute the previous operation XX” or a key input operation using a key operation or a touch panel. Executes the user operation selected by the user (step ST58).
- the correction operation intended by the user can be executed even when a plurality of user operations are extracted. it can.
- FIG. FIG. 14 is a block diagram showing an example of a speech recognition apparatus according to Embodiment 6 of the present invention. Note that the same components as those described in the first to fifth embodiments are denoted by the same reference numerals, and redundant description is omitted.
- an exception correction expression storage unit 13 and an exception correction expression exclusion unit 14 are further provided, and the exception expression that is not regarded as a correction expression among the extracted correction expressions. The user operation is extracted after removing.
- the exception correction expression storage unit 13 stores an exceptional expression that is not regarded as a correction expression among the correction expressions stored in the user operation correction expression storage unit 3 as shown in FIG.
- FIG. 15 is a diagram illustrating an example of the exception correction expression storage unit 13.
- the exception correction expression storage unit 13 stores correction expressions stored in the user operation correction expression storage unit 3 shown in FIG. 3 (for example, “different”, “different”, “wrong”, “ ⁇ ”). "Not”, “stop”, “cancel”, “one previous”, “two previous”, etc.), for example, "stop” and “cancel” are stored as exception correction expressions that are not intended to correct user operations. . This is for the case where “stop” and “cancel” are intended to end the entire process, for example, and not intended to correct the user operation.
- the exception correction expression exclusion unit 14 refers to the exception correction expression storage unit 3 illustrated in FIG. 15 and excludes the correction expression extracted by the user operation correction expression extraction unit 4. Then, the user operation extraction unit 6 does not extract the corrected expression excluded by the exception correction expression exclusion unit 14.
- step ST64 After the correction expression is extracted in step ST64, the exception correction expression storage unit 13 is referred to, and it is determined whether or not the exception correction expression exists in the extracted correction expression ( Step ST65). If there is an exception correction expression (YES in step ST65), the exception correction expression is excluded (step ST66).
- step ST67 After excluding the exception correction expression from the correction expression extracted in step ST64, it is determined whether one or more correction expressions exist (step ST67). Even if the exception corrected expression is excluded, when one or more corrected expressions exist (in the case of YES in step ST67), the user operation extraction unit 6 determines that the user operation corresponding to the corrected expression is the user operation history storage unit 5. (Step ST68). If there is a corresponding user operation (YES in step ST68), the user operation is extracted from the user operation history storage unit 5 (step ST69). Then, the user operation execution control unit 7 executes the user operation (step ST70). If there is no corresponding user operation in step ST68 (NO in step ST68), the process is terminated.
- step ST67 if it is determined in step ST67 that no corrected expression exists as a result of excluding the exception correction expression (NO in step ST67), the process ends. If the exception corrected expression does not exist in the determination of step ST65 (NO in step ST65), the processes of steps ST68 to ST70 are performed on the corrected expression extracted in step ST64.
- step ST22 when the speech recognition result in step ST22 is a character string “cancel”, the user operation correction expression storage unit 3 shown in FIG. Extracted as an expression (YES in step ST63, step ST64). Thereafter, referring to the exception correction expression storage unit 13 shown in FIG. 15, since “cancel” is an exception correction expression (in the case of YES in step ST ⁇ b> 65), the exception correction expression exclusion unit 14 performs this exception correction expression “cancel”. Are excluded from the corrected expression (step ST66). As a result, the corrected expression no longer exists (in the case of NO in step ST67), and the process is terminated.
- the user's intention is that the process is continued only when the user operation is canceled by the correction expression “cancel” uttered when the user wants to interrupt (end) the process itself. It is possible to prevent correction operations and processing operations that are not performed from being executed. Further, for example, by storing the UI (key label name, voice command, etc.) of the information device equipped with the voice recognition device in the exception correction expression storage unit, the user correction operation and the information device UI operation are performed. Can compete with the UI operation of the information device over the correction operation.
- the corrected expressions stored in the exception corrected expression storage unit 13 may be registered in advance, or may be dynamically added or deleted. In addition, the user may be able to add or delete.
- FIG. FIG. 17 is a block diagram showing an example of a speech recognition apparatus according to Embodiment 7 of the present invention. Note that the same components as those described in the first to sixth embodiments are denoted by the same reference numerals, and redundant description is omitted.
- the correction trigger acquisition unit 15 and the user operation execution availability determination unit 16 are further provided, and the user operation extracted by the user operation extraction unit 6 is executed. The determination is made based on the correction trigger acquisition unit 15 and then executed.
- the correction trigger acquisition unit 15 acquires information serving as a trigger for executing the user operation extracted by the user operation extraction unit 6.
- the information that serves as a trigger for executing the user operation includes, for example, the elapsed time from the previous user operation execution, the state of the voice recognition device, the moving image information that captured the state of the user, the number of redo corrections, It is a driving state.
- the user operation execution availability determination unit 16 determines whether or not the user operation extracted by the user operation extraction unit 6 can be executed based on the information acquired by the correction trigger acquisition unit 15. Then, the user operation execution control unit 7 executes the user operation extracted by the user operation extraction unit 6 only when it is determined by the user operation execution availability determination unit 16 that the user operation can be executed.
- step ST76 After the user operation corresponding to the corrected expression is extracted in step ST76, the correction trigger acquisition unit 15 determines whether or not the user operation execution determination unit 16 can execute the user operation. A determination is made based on the acquired information (step ST77). As a result, when it is determined that the user operation can be executed (YES in step ST77), the user operation execution control unit 7 executes the user operation (step ST78). On the other hand, when it is determined that the user operation cannot be executed (NO in step ST77), the process ends.
- step ST72 when the speech recognition result in step ST72 is a character string “It was the previous one”, referring to the user operation correction expression storage unit 3 shown in FIG. “Previous” is extracted as a corrected expression (YES in step ST73, step ST74). Thereafter, the previous user operation stored in the user operation history storage unit 5 is extracted (YES in step ST75, step ST76).
- the case where the elapsed time from the previous user operation execution is used as information serving as a trigger for executing the extracted user operation will be described as an example.
- the information acquired by the correction trigger acquisition unit 15 is assumed to be 2 minutes after the previous user operation execution time.
- the voice is spoken as “the previous one” within one minute from the previous user operation. Conceivable. Therefore, the user operation execution possibility determination unit 16 determines that the user operation can be executed when the elapsed time from the previous user operation execution acquired by the correction trigger acquisition unit 15 is within one minute (predetermined time). And when it exceeds 1 minute (predetermined time), it sets beforehand so that it may judge that it is not executable.
- the predetermined time setting may be determined as appropriate.
- the correction trigger acquisition unit 15 acquires the moving image information that the user is speaking in a certain direction of the sound acquisition unit 1 such as a microphone.
- the user operation execution possibility determination unit 16 determines that execution is possible when a predetermined condition is satisfied, and here, when the user is speaking in the direction of the voice acquisition unit 1 such as a microphone, When predetermined conditions are not satisfied, for example, when speaking backwards, it is set in advance so as to be determined not to be executable.
- the information acquired by the correction trigger acquisition unit 15 is video information that the user is speaking in the direction of the voice acquisition unit 1 such as a microphone (the direction of the device equipped with the voice recognition device), and is set in advance. Since the predetermined condition is satisfied, the user operation execution possibility determination unit 16 determines that the user operation can be executed (in the case of YES in step ST77), and executes the user operation extracted by the user operation extraction unit 6 (step ST78).
- the correction trigger acquisition unit 15 acquires information that the number of times the correction result has been corrected in the past is seven.
- the user operation execution possibility determination unit 16 determines that the user operation can be performed when the number of times the user corrects the correction result based on the same corrected expression is less than a predetermined number (5 times). In the case of 5 times or more, it is set in advance so as to be determined not to be executable.
- the user operation execution availability determination unit 16 determines that execution is not possible (NO in step ST77). ), The process ends. Needless to say, the predetermined number of times may be determined as appropriate.
- the correction to the operation can be suppressed so that the user operation is not hindered.
- the correction with the corrected expression can be prohibited thereafter so as not to disturb the user operation.
- this voice recognition device is mounted on an information device for a moving body such as a vehicle or an in-vehicle information device, the voice recognition device is mounted as information that triggers an extracted user operation.
- the state of the information device or the traveling state of a moving body such as a vehicle can also be used.
- the correction trigger acquisition unit 15 acquires information that the blinker is in use.
- the user operation execution possibility determination unit 16 is in the middle of the driver's concentration on the driving operation, such as using the blinker or accelerating. If it is considered that the user operation extracted by the corrected expression obtained by voice is likely to be low, it is determined that the user operation cannot be executed, and the predetermined operation is performed.
- the driver since the information acquired by the correction trigger acquisition unit 15 is using the blinker, the driver is in the middle of driving operation, and the likelihood of the user operation extracted by the corrected expression acquired by voice. Therefore, it is determined that the user operation cannot be executed (NO in step ST77), and the process is terminated. Needless to say, the travel conditions of the vehicle that can be acquired and the conditions for determining that the vehicle is in the middle of the driver's operation may be determined as appropriate.
- the traveling state of the moving object is in use of the blinker has been described as an example, but this is the case where the information device (navigation device) equipped with the voice recognition device acquires information that the route guidance is being performed. However, it is determined that the driver is in the middle of driving operation, and the same processing as described above is performed.
- the seventh embodiment in addition to the same effects as those of the first embodiment, for example, the elapsed time from the previous user operation execution, the state of the voice recognition device, and the state of the user are photographed. Determine whether or not to execute the user operation (correction operation) based on information that triggers execution of the extracted user operation, such as moving image information, the number of corrections to be performed, and the running state of the vehicle. Therefore, malfunction (error correction) can be prevented.
- FIG. FIG. 19 is a block diagram showing an example of a speech recognition apparatus according to Embodiment 8 of the present invention. Note that the same components as those described in the first to seventh embodiments are denoted by the same reference numerals, and redundant description is omitted.
- the outside operator utterance suppression unit 18 is further provided, and utterances other than the operator who utters the voice acquired by the voice acquisition unit 1 are suppressed. Is.
- the non-operator utterance suppression unit 18 suppresses utterances other than the operator included in the audio data acquired by the audio acquisition unit 1. Then, the voice recognition unit 2 acquires and recognizes the voice data of only the operator's utterance after being suppressed by the outside operator utterance suppression unit 18.
- the voice acquisition unit 1 performs A / D conversion on the in-vehicle voice (input voice) collected by a microphone or the like, and acquires the voice, for example, in PCM (Pulse Code Modulation) format (step ST81).
- the non-operator utterance suppression unit 18 suppresses utterances other than the operator of the voice data acquired by the voice acquisition unit 1 (step ST82).
- a suppression means of the outside operator utterance suppression unit 18 for example, a general method such as Beam Forming may be used.
- step ST83 the processing from step ST84 to ST88 is the same as step ST13 to ST17 in the flowchart of FIG.
- FIG. FIG. 21 is a block diagram showing an example of a speech recognition apparatus according to Embodiment 9 of the present invention. Note that the same components as those described in the first to eighth embodiments are denoted by the same reference numerals, and redundant description is omitted.
- an echo canceling unit 19 is further provided to suppress sounds other than the speech included in the voice acquired by the voice acquiring unit 1.
- the echo canceling unit 19 suppresses, for example, sounds generated by an information device equipped with a voice recognition device other than the operator's utterance included in the voice data acquired by the voice acquisition unit 1. Then, the voice recognition unit 2 acquires and recognizes voice data only of the operator's utterance after being suppressed by the echo cancellation unit 19.
- the voice acquisition unit 1 performs A / D conversion on the voice in the vehicle (input voice) collected by a microphone or the like, and acquires the voice, for example, in PCM (Pulse Code Modulation) format (step ST91).
- the echo canceling unit 19 suppresses sounds other than the operator's utterances included in the voice data acquired by the voice acquiring unit 1, for example, sounds generated by the voice recognition device (step ST92).
- the suppression means of the echo canceling unit 19 may be performed by using a general method such as predicting a sound to be canceled by an adaptive filter and canceling the sound with the opposite phase.
- step ST93 the processing from step ST94 to ST98 is the same as step ST13 to ST17 in the flowchart of FIG.
- the accuracy of voice recognition is reduced due to, for example, sound generated by the voice recognition device other than the operator's utterance. Therefore, it is possible to prevent a correction operation not intended by the operator from being erroneously executed.
- the speech recognition device of the present invention is mounted on a vehicle or the like. It is an apparatus capable of performing voice recognition by voice dialogue between a user and a device, such as an information device for a mobile body including a person, a vehicle, a railroad, a ship, an aircraft, or a portable information device. Any form can be applied as long as it exists.
- the voice recognition device of the present invention can be applied to an information device for a moving body such as a vehicle or an in-vehicle information device.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
Abstract
ユーザが発話した音声を常時取得して認識する音声認識装置において、ユーザ操作を訂正する際に用いられる表現を記憶するユーザ操作訂正表現記憶部を参照して、音声認識結果からユーザ操作の訂正表現を抽出するユーザ操作訂正表現抽出部と、ユーザの操作履歴を記憶するユーザ操作履歴記憶部を参照して、ユーザ操作訂正表現抽出部により抽出された訂正表現に基づいてユーザの操作を抽出するユーザ操作抽出部と、ユーザ操作抽出部により抽出されたユーザ操作を実行するユーザ操作実行制御部とを備えるようにしたので、ユーザが咄嗟に発した訂正表現を用いてユーザ操作を訂正することができる。
Description
この発明は、常時音声を認識し、その認識結果を用いてユーザの操作を訂正する音声認識装置に関するものである。
複雑な操作手段を有する装置や、車載機器などの手動操作が困難な環境に設置された装置に対しては、音声による簡便な操作が求められるが、音声操作には誤認識が不可避のため、誤認識した際の訂正手段を設けることが必須である。
そのため、例えば特許文献1には、前の音声操作による認識結果を保持し、音声認識によってユーザの訂正の意図が検出された場合には、保持していた認識結果を出力する結果保持手段を備えた音声認識装置が開示されている。
しかしながら、例えば特許文献1のような従来の音声認識装置では、訂正可能な操作は音声操作に限られており、音声操作以外の操作を訂正することはできない、という課題があった。また、訂正前の認識結果と訂正後の出力とをユーザが指定しなければ訂正することができない、という課題もあった。
この発明は、上記のような課題を解決するためになされたものであり、音声操作を含むあらゆるユーザ操作を音声で簡便に訂正することが可能な音声認識装置を提供することを目的とする。
上記目的を達成するため、この発明は、ユーザが発話した音声を認識する音声認識装置において、ユーザにより入力された音声を検知して取得する音声取得部と、前記音声認識装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する音声認識部と、ユーザ操作を訂正する際に用いられる表現を記憶するユーザ操作訂正表現記憶部と、前記ユーザ操作訂正表現記憶部を参照して、前記音声認識部により出力された認識結果からユーザ操作の訂正表現を抽出するユーザ操作訂正表現抽出部と、ユーザの操作履歴を記憶するユーザ操作履歴記憶部と、前記ユーザ操作履歴記憶部を参照して、前記ユーザ操作訂正表現抽出部により抽出された訂正表現に基づいてユーザの操作を抽出するユーザ操作抽出部と、前記ユーザ操作抽出部により抽出されたユーザ操作を実行するユーザ操作実行制御部とを備えることを特徴とする。
この発明の音声認識装置によれば、ユーザの発話内容を常に認識し、ユーザが咄嗟に発した訂正表現を用いてユーザ操作を訂正することができる。
以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
この発明は、ユーザが発話した音声を認識する音声認識装置において、その音声認識装置が起動されている場合は常時、ユーザの発話内容を認識し、当該発話内容に含まれる訂正表現を用いて、ユーザ操作の訂正を行うものである。なお、以下の実施の形態では、この発明の音声認識装置が、車両などの移動体用の情報装置または車載情報装置に搭載されている場合を例に挙げて説明する。
この発明は、ユーザが発話した音声を認識する音声認識装置において、その音声認識装置が起動されている場合は常時、ユーザの発話内容を認識し、当該発話内容に含まれる訂正表現を用いて、ユーザ操作の訂正を行うものである。なお、以下の実施の形態では、この発明の音声認識装置が、車両などの移動体用の情報装置または車載情報装置に搭載されている場合を例に挙げて説明する。
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置の一例を示すブロック図である。この音声認識装置は、音声取得部1と、音声認識部2と、ユーザ操作訂正表現記憶部3と、ユーザ操作訂正表現抽出部4と、ユーザ操作履歴記憶部5と、ユーザ操作抽出部6と、ユーザ操作実行制御部7とを備えている。また、図示は省略したが、この音声認識装置は、キーやタッチパネル等による入力信号を取得するキー入力部と、表示または音声によりユーザに情報や指示を提示する出力部も備えている。
図1は、この発明の実施の形態1による音声認識装置の一例を示すブロック図である。この音声認識装置は、音声取得部1と、音声認識部2と、ユーザ操作訂正表現記憶部3と、ユーザ操作訂正表現抽出部4と、ユーザ操作履歴記憶部5と、ユーザ操作抽出部6と、ユーザ操作実行制御部7とを備えている。また、図示は省略したが、この音声認識装置は、キーやタッチパネル等による入力信号を取得するキー入力部と、表示または音声によりユーザに情報や指示を提示する出力部も備えている。
音声取得部1は、マイク等により集音された音声(搭乗者等のユーザにより入力された音声)をA/D変換して、例えばPCM(Pulse Code Modulation)形式で取得する。
音声認識部2は、認識辞書(図示せず)を有し、音声取得部1により取得された音声データから、搭乗者(ユーザ)の発話内容に該当する音声区間を検出し、当該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を用いて認識処理を行い、音声認識結果の文字列を出力する。なお、認識処理としては、例えばHMM(Hidden Markov Model)法のような一般的な方法を用いて行えばよい。また、音声認識部2は、ネットワーク上の音声認識サーバを使用してもよい。
ところで、カーナビゲーションシステム等に搭載されている音声認識機能においては、搭乗者が発話等の開始をシステムに対して明示(指示)するのが一般的である。そのために、音声認識開始を指示するボタン等(以下、「音声認識開始指示部」と呼ぶ)が、タッチパネルに表示されたりハンドルに設置されたりしている。そして、搭乗者により音声認識開始指示部が押下された後に、発話された音声を認識する。すなわち、音声認識開始指示部が音声認識開始信号を出力し、音声認識部が当該信号を受けると、当該信号を受けた後に音声取得部により取得された音声データから、搭乗者の発話内容に該当する音声区間を検出し、上述した認識処理を行う。
しかし、この実施の形態1における音声認識部2は、上述したような搭乗者による音声認識開始指示がなくても、常に、搭乗者の発話内容を認識する。すなわち、音声認識部2は、音声認識開始信号を受けなくても、音声取得部1により取得された音声データから、搭乗者の発話内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて認識辞書を用いて認識処理を行い、音声認識結果の文字列を出力する処理を繰り返し行う。なお、以下の実施の形態においても同様である。
ユーザ操作訂正表現記憶部3は、通常、ユーザが操作を訂正する際に使用すると想定される表現を記憶している。
図2は、ユーザ操作訂正表現記憶部3の一例を示す図である。この図3に示すように、ユーザ操作訂正表現記憶部3は、例えば、「違う」「違った」「間違えた」「~ではなくて」「やめて」「キャンセル」「1つ前」「2つ前」などの訂正表現を記憶している。
なお、ユーザ操作とは、ユーザが行ったすべての操作、すなわち、例えばキー入力部を介したキー操作、タッチパネル操作等も含めた、音声による操作に限定されないあらゆる操作を指す。以下の実施の形態においても、同様である。
図2は、ユーザ操作訂正表現記憶部3の一例を示す図である。この図3に示すように、ユーザ操作訂正表現記憶部3は、例えば、「違う」「違った」「間違えた」「~ではなくて」「やめて」「キャンセル」「1つ前」「2つ前」などの訂正表現を記憶している。
なお、ユーザ操作とは、ユーザが行ったすべての操作、すなわち、例えばキー入力部を介したキー操作、タッチパネル操作等も含めた、音声による操作に限定されないあらゆる操作を指す。以下の実施の形態においても、同様である。
ユーザ操作訂正表現抽出部4は、ユーザ操作訂正表現記憶部3を参照して、音声認識部2により出力された音声認識結果の文字列からユーザ操作の訂正表現を抽出する。すなわち、音声認識結果の文字列を形態素解析した結果、ユーザ操作訂正表現記憶部3に記憶されている表現と合致する表現を、訂正表現として抽出する。
ユーザ操作履歴記憶部5は、ユーザの過去の操作履歴を記憶している。ここで、ユーザの過去の操作履歴とは、過去にユーザが行ったすべてのユーザ操作、すなわち、例えばキー入力部を介したキー操作、タッチパネル操作等も含めた、音声による操作に限定されないあらゆるユーザ操作を指す。以下の実施の形態においても、同様である。
ユーザ操作抽出部6は、ユーザ操作履歴記憶部5を参照して、ユーザ操作訂正表現抽出部4により抽出された訂正表現に基づいて、ユーザ操作を抽出する。すなわち、ユーザ操作履歴記憶部5から、訂正表現に該当するユーザ操作を抽出する。
ユーザ操作実行制御部7は、ユーザ操作抽出部6により抽出されたユーザ操作を実行する。
ユーザ操作実行制御部7は、ユーザ操作抽出部6により抽出されたユーザ操作を実行する。
次に、図3に示すフローチャートを用いて、実施の形態1の音声認識装置の動作を説明する。
まず、音声取得部1は、マイク等により集音された車内の音声(入力された音声)をA/D変換して、例えばPCM(Pulse Code Modulation)形式で取得する(ステップST11)。次に、音声認識部2は、音声取得部1で取得された音声データを認識し、認識結果を文字列で出力する(ステップST12)。ここで、音声認識部2は前述したとおり、音声認識開始信号を受けなくても認識処理を行う。以下の実施の形態においても、同様である。
まず、音声取得部1は、マイク等により集音された車内の音声(入力された音声)をA/D変換して、例えばPCM(Pulse Code Modulation)形式で取得する(ステップST11)。次に、音声認識部2は、音声取得部1で取得された音声データを認識し、認識結果を文字列で出力する(ステップST12)。ここで、音声認識部2は前述したとおり、音声認識開始信号を受けなくても認識処理を行う。以下の実施の形態においても、同様である。
そして、ユーザ操作訂正表現抽出部4は、音声認識部2による認識結果の文字列と、図2に示すようなユーザ操作訂正表現記憶部3とを比較して、合致する文字列があるかないか、すなわち、認識結果の文字列に訂正表現が含まれているか否かを判断する(ステップST13)。その結果、音声認識部2による認識結果の文字列に訂正表現が含まれていた場合(ステップST13のYESの場合)、当該訂正表現を抽出する(ステップST14)。一方、訂正表現が含まれていなかった場合(ステップST13のNOの場合)には、処理を終了する。
ユーザ操作抽出部6は、ユーザ操作履歴記憶部5の中に、ユーザ操作訂正表現抽出部4により抽出された訂正表現に該当するユーザ操作が存在するか否かを判断する(ステップST15)。該当するユーザ操作が存在する場合(ステップST15のYESの場合)には、ユーザ操作履歴記憶部5からそのユーザ操作を抽出する(ステップST16)。そして、ユーザ操作実行制御部7が、当該ユーザ操作を実行する(ステップST17)。
一方、該当するユーザ操作が存在しなかった場合(ステップST15のNOの場合)には、処理を終了する。
一方、該当するユーザ操作が存在しなかった場合(ステップST15のNOの場合)には、処理を終了する。
具体的には、例えば、ステップST2における音声認識結果が「1つ前のだった。」という文字列である場合、図2に示すユーザ操作訂正表現記憶部3を参照して、合致する文字列「1つ前」を訂正表現として抽出する(ステップST13のYES、ステップST14)。その後、ユーザ操作履歴記憶部5に記憶されている1つ前のユーザ操作を抽出し(ステップST15のYES、ステップST16)、そのユーザ操作を実行する(ステップST17)。
以上のように、この実施の形態1によれば、ユーザの発話内容を常に認識し、ユーザが咄嗟に発した訂正表現を用いてユーザ操作を訂正し、過去にユーザが行った操作を実行することができる。また、ユーザが意識しなくても音声認識装置が起動している場合には常時、音声取得および音声認識を行ってくれるため、音声取得や音声認識開始のためのユーザの手動操作や入力の意思などを必要としない。
実施の形態2.
図4は、この発明の実施の形態2による音声認識装置の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態2では、実施の形態1と比べると、ユーザ操作履歴記憶部5に代えて、変換情報記憶部8を備えており、ユーザの訂正表現を直接操作に変換して訂正操作を実行するものである。
図4は、この発明の実施の形態2による音声認識装置の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態2では、実施の形態1と比べると、ユーザ操作履歴記憶部5に代えて、変換情報記憶部8を備えており、ユーザの訂正表現を直接操作に変換して訂正操作を実行するものである。
変換情報記憶部8には、訂正表現に対応するユーザ操作が、訂正表現に対応付けられて記憶されている。
図5は、変換情報記憶部8の一例を示す図である。この図5に示す変換情報記憶部8は、例えば、図3に示すユーザ操作訂正表現記憶部3に記憶されている訂正表現のうち、「違う」「違った」「間違えた」「~ではなくて」「やめて」「キャンセル」という訂正表現は、ユーザ操作コマンドに変換すると「キャンセル」操作である、ということを意味するユーザ操作変換情報に対応付けられている、ということを示している。
図5は、変換情報記憶部8の一例を示す図である。この図5に示す変換情報記憶部8は、例えば、図3に示すユーザ操作訂正表現記憶部3に記憶されている訂正表現のうち、「違う」「違った」「間違えた」「~ではなくて」「やめて」「キャンセル」という訂正表現は、ユーザ操作コマンドに変換すると「キャンセル」操作である、ということを意味するユーザ操作変換情報に対応付けられている、ということを示している。
次に、図6に示すフローチャートを用いて、実施の形態2の音声認識装置の動作を説明する。
ステップST21~ST25までの処理については、実施の形態1における図3のフローチャートのステップST11~ST15と同じであるため、説明を省略する。そして、この実施の形態2では、ステップST25での判断において、該当するユーザ操作が存在する場合(ステップST25のYESの場合)には、変換情報記憶部8からその訂正表現に該当するユーザ操作を抽出する(ステップST26)。そして、ユーザ操作実行制御部7が、当該ユーザ操作を実行する(ステップST27)。
ステップST21~ST25までの処理については、実施の形態1における図3のフローチャートのステップST11~ST15と同じであるため、説明を省略する。そして、この実施の形態2では、ステップST25での判断において、該当するユーザ操作が存在する場合(ステップST25のYESの場合)には、変換情報記憶部8からその訂正表現に該当するユーザ操作を抽出する(ステップST26)。そして、ユーザ操作実行制御部7が、当該ユーザ操作を実行する(ステップST27)。
具体的には、例えば、ステップST22における音声認識結果が「あ、違った。」という文字列である場合、図2に示すユーザ操作訂正表現記憶部3を参照して、合致する文字列「違った」を訂正表現として抽出する(ステップST23のYES、ステップST24)。その後、変換情報記憶部8を参照し、訂正表現「違った」に対応するユーザ操作変換情報として、「キャンセル」操作を抽出し(ステップST25のYES、ステップST26)、そのユーザ操作を実行する(ステップST27)。
以上のように、この実施の形態2によれば、ユーザの発話内容を常に認識し、ユーザが咄嗟に発した訂正表現を用いて現在実行中のユーザ操作または既に実行済みのユーザ操作を訂正することができる。また、ユーザが意識しなくても音声認識装置が起動している場合には常時、音声取得および音声認識を行ってくれるため、音声取得や音声認識開始のためのユーザの手動操作や入力の意思などを必要としない。
実施の形態3.
図7は、この発明の実施の形態3による音声認識装置の一例を示すブロック図である。なお、実施の形態1,2で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態3では、実施の形態1と比べると、ユーザ操作履歴記憶部5に代えて、入力操作部9および操作情報記憶部10を備えており、ユーザの訂正表現と現在ユーザが操作可能な操作情報とに基づいて訂正操作を実行するものである。
図7は、この発明の実施の形態3による音声認識装置の一例を示すブロック図である。なお、実施の形態1,2で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態3では、実施の形態1と比べると、ユーザ操作履歴記憶部5に代えて、入力操作部9および操作情報記憶部10を備えており、ユーザの訂正表現と現在ユーザが操作可能な操作情報とに基づいて訂正操作を実行するものである。
入力操作部9は、図示していないキー入力部(キーボードやタッチパネル等)を介して実際にユーザが操作した情報をユーザ操作抽出部6へ出力する。
操作情報記憶部10は、現在ユーザに提示している表示情報などの、ユーザが操作可能な操作情報を記憶している。
図8は、操作情報記憶部10の一例を示す図である。この図8に示すように、操作情報記憶部10は、例えば、左右2つのボタン、上下2つのボタン、上中下3つのボタンなどのように、現在ユーザに提示されている入力操作可能な操作情報を記憶している。
操作情報記憶部10は、現在ユーザに提示している表示情報などの、ユーザが操作可能な操作情報を記憶している。
図8は、操作情報記憶部10の一例を示す図である。この図8に示すように、操作情報記憶部10は、例えば、左右2つのボタン、上下2つのボタン、上中下3つのボタンなどのように、現在ユーザに提示されている入力操作可能な操作情報を記憶している。
次に、図9に示すフローチャートを用いて、実施の形態3の音声認識装置の動作を説明する。
ステップST31~ST35までの処理については、実施の形態1における図3のフローチャートのステップST11~ST15と同じであるため、説明を省略する。そして、この実施の形態3では、ステップST35での判断において、該当するユーザ操作が存在する場合(ステップST35のYESの場合)には、当該訂正表現と、入力操作部9による実際の入力操作と、操作情報記憶部10に記憶されている現在の操作可能な操作情報とに基づいて、訂正表現に該当するユーザ操作を抽出する(ステップST36)。そして、ユーザ操作実行制御部7が、当該ユーザ操作を実行する(ステップST37)。
ステップST31~ST35までの処理については、実施の形態1における図3のフローチャートのステップST11~ST15と同じであるため、説明を省略する。そして、この実施の形態3では、ステップST35での判断において、該当するユーザ操作が存在する場合(ステップST35のYESの場合)には、当該訂正表現と、入力操作部9による実際の入力操作と、操作情報記憶部10に記憶されている現在の操作可能な操作情報とに基づいて、訂正表現に該当するユーザ操作を抽出する(ステップST36)。そして、ユーザ操作実行制御部7が、当該ユーザ操作を実行する(ステップST37)。
具体的には、例えば、左右2つのボタンがユーザに提示されている状態で、ユーザの入力操作としては左のボタンを押下したとする。この時、ステップST32における音声認識結果が「あ、違った。」という文字列である場合、図2に示すユーザ操作訂正表現記憶部3を参照して、合致する文字列「違った」を訂正表現として抽出する(ステップST33のYES、ステップST34)。その後、訂正表現「違った」と、入力操作部9による実際の入力操作「左」と、操作情報記憶部10に記憶されている現在の操作可能な操作情報「左右2つのボタン」とに基づいて、訂正表現「違った」に該当する正しいユーザ操作「右」を抽出し(ステップST36)、そのユーザ操作を実行する(ステップST37)。
このように、音声以外のキー入力やタッチパネル等によるユーザ操作についても、ユーザの発話内容を常に認識することにより、ユーザが咄嗟に発した訂正表現を用いて訂正することができる。
以上のように、この実施の形態3によれば、ユーザの発話内容を常に認識し、ユーザが咄嗟に発した訂正表現と、実際のユーザの入力操作と、ユーザに現在提示している操作情報とに基づいて、ユーザ操作を訂正することができる。また、ユーザが意識しなくても音声認識装置が起動している場合には常時、音声取得および音声認識を行ってくれるため、音声取得や音声認識開始のためのユーザの手動操作や入力の意思などを必要としない。
実施の形態4.
図10は、この発明の実施の形態4による音声認識装置の一例を示すブロック図である。なお、実施の形態1~3で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態4では、実施の形態1と比べると、ユーザ操作の実行要否問い合わせ部11をさらに備えており、抽出したユーザ操作の実行要否をユーザに問い合わせてから実行するものである。
図10は、この発明の実施の形態4による音声認識装置の一例を示すブロック図である。なお、実施の形態1~3で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態4では、実施の形態1と比べると、ユーザ操作の実行要否問い合わせ部11をさらに備えており、抽出したユーザ操作の実行要否をユーザに問い合わせてから実行するものである。
ユーザ操作の実行要否問い合わせ部11は、ユーザ操作抽出部6が抽出したユーザ操作の実行要否を、音声または表示によりユーザに対して問い合わせて判断する。
そして、ユーザ操作実行制御部7は、ユーザ操作抽出部6が抽出したユーザ操作を、ユーザ操作の実行要否問い合わせ部11により判断された結果に基づいて実行する。
そして、ユーザ操作実行制御部7は、ユーザ操作抽出部6が抽出したユーザ操作を、ユーザ操作の実行要否問い合わせ部11により判断された結果に基づいて実行する。
次に、図11に示すフローチャートを用いて、実施の形態4の音声認識装置の動作を説明する。
ステップST41~ST46までの処理については、実施の形態1における図3のフローチャートのステップST11~ST16と同じであるため、説明を省略する。そして、この実施の形態4では、ステップST46で訂正表現に該当するユーザ操作を抽出した後で、ユーザに当該操作の実行要否を問い合わせる(ステップST47)。その結果、ユーザ操作を実行する指示の応答があった場合(ステップST48のYESの場合)には、ユーザ操作実行制御部7が、当該ユーザ操作を実行する(ステップST49)。一方、ユーザ操作を実行しないという応答があった場合(ステップST48のNOの場合)には、処理を終了する。
ステップST41~ST46までの処理については、実施の形態1における図3のフローチャートのステップST11~ST16と同じであるため、説明を省略する。そして、この実施の形態4では、ステップST46で訂正表現に該当するユーザ操作を抽出した後で、ユーザに当該操作の実行要否を問い合わせる(ステップST47)。その結果、ユーザ操作を実行する指示の応答があった場合(ステップST48のYESの場合)には、ユーザ操作実行制御部7が、当該ユーザ操作を実行する(ステップST49)。一方、ユーザ操作を実行しないという応答があった場合(ステップST48のNOの場合)には、処理を終了する。
具体的には、例えば、ステップST22における音声認識結果が「1つ前のだった。」という文字列である場合、図2に示すユーザ操作訂正表現記憶部3を参照して、合致する文字列「1つ前」を訂正表現として抽出する(ステップST43のYES、ステップST44)。その後、ユーザ操作履歴記憶部5に記憶されている1つ前のユーザ操作○○を抽出し(ステップST45のYES、ステップST46)、ユーザ操作の実行要否問い合わせ部11が、「1つ前の操作○○を実行しますか?」と音声により、または、表示画面にダイアログを提示するなどにより問い合わせを行う(ステップST47)。そして、ユーザが「はい」または「実行する」という音声や、キー操作やタッチパネル等によるキー入力操作により、1つ前の操作○○を実行する指示の応答を行うと(ステップST48のYESの場合)、ユーザ操作実行制御部7がそのユーザ操作○○を実行する(ステップST49)。
以上のように、この実施の形態4によれば、実施の形態1と同様の効果に加え、ユーザの意図しない訂正操作が実行されることを防ぐことができる。
実施の形態5.
図12は、この発明の実施の形態5による音声認識装置の一例を示すブロック図である。なお、実施の形態1~4で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態5では、実施の形態1と比べると、ユーザ操作の候補問い合わせ部12をさらに備えており、抽出したユーザ操作が複数あった場合に、それら複数のユーザ操作の候補の中のいずれを実行するかをユーザに問い合わせてから実行するものである。
図12は、この発明の実施の形態5による音声認識装置の一例を示すブロック図である。なお、実施の形態1~4で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態5では、実施の形態1と比べると、ユーザ操作の候補問い合わせ部12をさらに備えており、抽出したユーザ操作が複数あった場合に、それら複数のユーザ操作の候補の中のいずれを実行するかをユーザに問い合わせてから実行するものである。
ユーザ操作の候補問い合わせ部12は、ユーザ操作抽出部6が抽出したユーザ操作が複数あった場合に、それら複数のユーザ操作の候補を音声または表示によりユーザに提示し、それら複数のユーザ操作の候補の中のいずれを実行するかをユーザに対して問い合わせて判断する。
そして、ユーザ操作実行制御部は、ユーザ操作抽出部6が抽出した複数のユーザ操作の候補の中から、ユーザ操作の候補問い合わせ部12により判断された結果に基づいて選択し、その選択したユーザ操作を実行する。
そして、ユーザ操作実行制御部は、ユーザ操作抽出部6が抽出した複数のユーザ操作の候補の中から、ユーザ操作の候補問い合わせ部12により判断された結果に基づいて選択し、その選択したユーザ操作を実行する。
次に、図13に示すフローチャートを用いて、実施の形態5の音声認識装置の動作を説明する。
ステップST51~ST56までの処理については、実施の形態1における図3のフローチャートのステップST11~ST16と同じであるため、説明を省略する。そして、この実施の形態5では、ステップST56で訂正表現に該当するユーザ操作を抽出した後で、当該抽出されたユーザ操作が複数あった場合に、ユーザにそれら複数の操作の候補を提示していずれを実行するかを問い合わせる(ステップST57)。そして、ユーザ操作実行制御部7が、問い合わせの結果ユーザにより選択されたユーザ操作を実行する(ステップST58)。
ステップST51~ST56までの処理については、実施の形態1における図3のフローチャートのステップST11~ST16と同じであるため、説明を省略する。そして、この実施の形態5では、ステップST56で訂正表現に該当するユーザ操作を抽出した後で、当該抽出されたユーザ操作が複数あった場合に、ユーザにそれら複数の操作の候補を提示していずれを実行するかを問い合わせる(ステップST57)。そして、ユーザ操作実行制御部7が、問い合わせの結果ユーザにより選択されたユーザ操作を実行する(ステップST58)。
具体的には、例えば、ステップST22における音声認識結果が「前のだった。」という文字列である場合、図2に示すユーザ操作訂正表現記憶部3を参照して、文字列「1つ前」および「2つ前」の2つの訂正表現を抽出する(ステップST53のYES、ステップST54)。その後、ユーザ操作履歴記憶部5に記憶されている1つ前のユーザ操作○○と、2つ前のユーザ操作××を抽出し(ステップST55のYES、ステップST56)、ユーザ操作の候補問い合わせ部12が、「1つ前の操作○○を実行しますか?それとも、2つ前の操作××を実行しますか?」と音声により問い合わせを行なったり、1つ前の操作○○と2つ前の操作××を表示画面上にリスト表示する等により問い合わせを行う(ステップST57)。そして、ユーザが「1つ前の操作○○を実行」という音声や、キー操作やタッチパネル等によるキー入力操作によりリスト表示された候補のうち1つを選択する等により、ユーザ操作実行制御部7がそのユーザにより選択されたユーザ操作を実行する(ステップST58)。
以上のように、この実施の形態5によれば、実施の形態1と同様の効果に加え、複数のユーザ操作が抽出された場合であっても、ユーザの意図した訂正操作を実行することができる。
実施の形態6.
図14は、この発明の実施の形態6による音声認識装置の一例を示すブロック図である。なお、実施の形態1~5で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態6では、実施の形態1と比べると、例外訂正表現記憶部13と例外訂正表現除外部14とをさらに備えており、抽出した訂正表現のうち訂正表現とみなさない例外表現を除外してから、ユーザ操作を抽出するものである。
図14は、この発明の実施の形態6による音声認識装置の一例を示すブロック図である。なお、実施の形態1~5で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態6では、実施の形態1と比べると、例外訂正表現記憶部13と例外訂正表現除外部14とをさらに備えており、抽出した訂正表現のうち訂正表現とみなさない例外表現を除外してから、ユーザ操作を抽出するものである。
例外訂正表現記憶部13は、図2に示すようなユーザ操作訂正表現記憶部3に記憶されている訂正表現のうち、訂正表現とはみなさない例外的な表現を記憶している。
図15は、例外訂正表現記憶部13の一例を示す図である。この図15に示すように、例外訂正表現記憶部13は、図3に示すユーザ操作訂正表現記憶部3に記憶されている訂正表現(例えば、「違う」「違った」「間違えた」「~ではなくて」「やめて」「キャンセル」「1つ前」「2つ前」など)のうち、例えば「やめて」と「キャンセル」を、ユーザ操作の訂正を意図しない例外訂正表現として記憶している。これは、「やめて」と「キャンセル」は、例えば処理全体を終わらせることを意図しており、ユーザ操作を訂正することを意図しているわけではない場合のためのものである。
図15は、例外訂正表現記憶部13の一例を示す図である。この図15に示すように、例外訂正表現記憶部13は、図3に示すユーザ操作訂正表現記憶部3に記憶されている訂正表現(例えば、「違う」「違った」「間違えた」「~ではなくて」「やめて」「キャンセル」「1つ前」「2つ前」など)のうち、例えば「やめて」と「キャンセル」を、ユーザ操作の訂正を意図しない例外訂正表現として記憶している。これは、「やめて」と「キャンセル」は、例えば処理全体を終わらせることを意図しており、ユーザ操作を訂正することを意図しているわけではない場合のためのものである。
例外訂正表現除外部14は、図15に示す例外訂正表現記憶部3を参照して、ユーザ操作訂正表現抽出部4により抽出された訂正表現を除外する。
そして、ユーザ操作抽出部6は、例外訂正表現除外部14により除外された訂正表現については抽出しない。
そして、ユーザ操作抽出部6は、例外訂正表現除外部14により除外された訂正表現については抽出しない。
次に、図16に示すフローチャートを用いて、実施の形態6の音声認識装置の動作を説明する。
ステップST61~ST64までの処理については、実施の形態1における図3のフローチャートのステップST11~ST14と同じであるため、説明を省略する。そして、この実施の形態6では、ステップST64で訂正表現を抽出した後で、例外訂正表現記憶部13を参照し、抽出した訂正表現の中に例外訂正表現が存在するか否かを判断する(ステップST65)。例外訂正表現が存在する場合(ステップST65のYESの場合)には、その例外訂正表現を除外する(ステップST66)。
ステップST61~ST64までの処理については、実施の形態1における図3のフローチャートのステップST11~ST14と同じであるため、説明を省略する。そして、この実施の形態6では、ステップST64で訂正表現を抽出した後で、例外訂正表現記憶部13を参照し、抽出した訂正表現の中に例外訂正表現が存在するか否かを判断する(ステップST65)。例外訂正表現が存在する場合(ステップST65のYESの場合)には、その例外訂正表現を除外する(ステップST66)。
さらに、ステップST64で抽出した訂正表現から例外訂正表現を除外後に、訂正表現が1以上存在するか否かを判断する(ステップST67)。例外訂正表現を除外しても、訂正表現が1以上存在する場合(ステップST67のYESの場合)には、ユーザ操作抽出部6が、その訂正表現に該当するユーザ操作がユーザ操作履歴記憶部5の中に存在するか否かを判断する(ステップST68)。該当するユーザ操作が存在する場合(ステップST68のYESの場合)には、ユーザ操作履歴記憶部5からそのユーザ操作を抽出する(ステップST69)。そして、ユーザ操作実行制御部7が、当該ユーザ操作を実行する(ステップST70)。ステップST68において、該当するユーザ操作が存在しなかった場合(ステップST68のNOの場合)には、処理を終了する。
一方、ステップST67の判断において、例外訂正表現を除外した結果、訂正表現が存在しなくなった場合(ステップST67のNOの場合)には、処理を終了する。
また、ステップST65の判断において、例外訂正表現が存在しなかった場合(ステップST65のNOの場合)には、ステップST64で抽出された訂正表現について、ステップST68~ST70の処理を行う。
また、ステップST65の判断において、例外訂正表現が存在しなかった場合(ステップST65のNOの場合)には、ステップST64で抽出された訂正表現について、ステップST68~ST70の処理を行う。
具体的には、例えば、ステップST22における音声認識結果が「キャンセルする」という文字列である場合、図2に示すユーザ操作訂正表現記憶部3を参照して、合致する文字列「キャンセル」を訂正表現として抽出する(ステップST63のYES、ステップST64)。その後、図15に示す例外訂正表現記憶部13を参照すると、「キャンセル」は例外訂正表現であるため(ステップST65のYESの場合)、例外訂正表現除外部14が、この例外訂正表現「キャンセル」を訂正表現から除外する(ステップST66)。その結果、訂正表現が存在しなくなったため(ステップST67のNOの場合)、処理を終了する。
このように、ユーザが処理そのものを中断したい(終わらせたい)場合に発話した「キャンセル」という訂正表現により、ユーザ操作がキャンセルされただけで、処理は続行される、というような、ユーザの意図しない訂正操作や処理操作が実行されることを防ぐことができる。また、例えば、この音声認識装置を搭載した情報装置が有するUI(キーのラベル名、音声コマンド等)を例外訂正表現記憶部に記憶しておくことにより、ユーザの訂正操作と情報装置のUI操作が競合した場合には、情報装置のUI操作を訂正操作よりも優先することができる。
なお、例外訂正表現記憶部13に記憶する訂正表現は、予め登録されていてもよいし、動的に追加や削除を行ってもよい。また、ユーザが追加や削除を行うことができるようにしてもよい。
なお、例外訂正表現記憶部13に記憶する訂正表現は、予め登録されていてもよいし、動的に追加や削除を行ってもよい。また、ユーザが追加や削除を行うことができるようにしてもよい。
以上のように、この実施の形態6によれば、実施の形態1と同様の効果に加え、ユーザの意図しない訂正操作が実行されることを防ぐことができる。
実施の形態7.
図17は、この発明の実施の形態7による音声認識装置の一例を示すブロック図である。なお、実施の形態1~6で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態7では、実施の形態1と比べると、訂正トリガー取得部15とユーザ操作実行可否判断部16とをさらに備えており、ユーザ操作抽出部6により抽出されたユーザ操作の実行要否を訂正トリガー取得部15に基づいて判断してから実行するものである。
図17は、この発明の実施の形態7による音声認識装置の一例を示すブロック図である。なお、実施の形態1~6で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態7では、実施の形態1と比べると、訂正トリガー取得部15とユーザ操作実行可否判断部16とをさらに備えており、ユーザ操作抽出部6により抽出されたユーザ操作の実行要否を訂正トリガー取得部15に基づいて判断してから実行するものである。
訂正トリガー取得部15は、ユーザ操作抽出部6により抽出されたユーザ操作を実行するトリガーとなる情報を取得するものである。ここで、ユーザ操作を実行するトリガーとなる情報とは、例えば、前回のユーザ操作実行時からの経過時間、音声認識装置の状態、ユーザの様子を撮影した動画情報、訂正のやり直し回数、車両の走行状態などである。
ユーザ操作実行可否判断部16は、ユーザ操作抽出部6により抽出されたユーザ操作の実行可否を、訂正トリガー取得部15により取得された情報に基づいて判断する。
そして、ユーザ操作実行制御部7は、ユーザ操作抽出部6により抽出されたユーザ操作を、ユーザ操作実行可否判断部16により実行可能であると判断された場合にのみ実行する。
ユーザ操作実行可否判断部16は、ユーザ操作抽出部6により抽出されたユーザ操作の実行可否を、訂正トリガー取得部15により取得された情報に基づいて判断する。
そして、ユーザ操作実行制御部7は、ユーザ操作抽出部6により抽出されたユーザ操作を、ユーザ操作実行可否判断部16により実行可能であると判断された場合にのみ実行する。
次に、図18に示すフローチャートを用いて、実施の形態4の音声認識装置の動作を説明する。
ステップST71~ST76までの処理については、実施の形態1における図3のフローチャートのステップST11~ST16と同じであるため、説明を省略する。そして、この実施の形態7では、ステップST76で訂正表現に該当するユーザ操作を抽出した後に、ユーザ操作実行可否判断部16が、そのユーザ操作を実行可能か否かを、訂正トリガー取得部15により取得された情報に基づいて判断する(ステップST77)。その結果、ユーザ操作を実行可能であると判断された場合(ステップST77のYESの場合)には、ユーザ操作実行制御部7が、当該ユーザ操作を実行する(ステップST78)。一方、ユーザ操作を実行可能ではないと判断された場合(ステップST77のNOの場合)には、処理を終了する。
ステップST71~ST76までの処理については、実施の形態1における図3のフローチャートのステップST11~ST16と同じであるため、説明を省略する。そして、この実施の形態7では、ステップST76で訂正表現に該当するユーザ操作を抽出した後に、ユーザ操作実行可否判断部16が、そのユーザ操作を実行可能か否かを、訂正トリガー取得部15により取得された情報に基づいて判断する(ステップST77)。その結果、ユーザ操作を実行可能であると判断された場合(ステップST77のYESの場合)には、ユーザ操作実行制御部7が、当該ユーザ操作を実行する(ステップST78)。一方、ユーザ操作を実行可能ではないと判断された場合(ステップST77のNOの場合)には、処理を終了する。
具体的には、例えば、ステップST72における音声認識結果が「1つ前のだった。」という文字列である場合、図2に示すユーザ操作訂正表現記憶部3を参照して、合致する文字列「1つ前」を訂正表現として抽出する(ステップST73のYES、ステップST74)。その後、ユーザ操作履歴記憶部5に記憶されている1つ前のユーザ操作を抽出する(ステップST75のYES、ステップST76)。
ここで、当該抽出されたユーザ操作を実行するトリガーとなる情報として、前回のユーザ操作実行時からの経過時間を用いた場合を例に説明する。この際、訂正トリガー取得部15が取得した情報は、前回のユーザ操作実行時からの経過時間が2分であるものとする。通常、ユーザが1つ前の操作に戻したい場合に、音声により「1つ前のだった。」と発話するのは、前回のユーザ操作から1分以内に行われるのが一般的であると考えられる。そこで、ユーザ操作実行可否判断部16は、訂正トリガー取得部15が取得した前回のユーザ操作実行時からの経過時間が1分(所定の時間)以内である場合には、実行可能であると判断し、1分(所定の時間)を超えている場合には、実行可能ではないと判断するように予め設定しておく。
そして、訂正トリガー取得部15が取得した情報、すなわち、前回のユーザ操作実行時からの経過時間(2分)が所定の時間(1分)を超えているので、ユーザ操作実行可否判断部16は、訂正可能ではないと判断し(ステップST77のNOの場合)、処理を終了する。
なお、所定の時間の設定については、適宜決定すればよいことは、言うまでもない。
なお、所定の時間の設定については、適宜決定すればよいことは、言うまでもない。
これにより、最後のユーザ操作が実行されてからしばらく経った後に、急に訂正操作が実行されてしまうといった誤動作(誤訂正)を防ぐことができる。
また、別の例として、抽出されたユーザ操作を実行するトリガーとなる情報として、ユーザの様子を撮影した動画情報を用いた場合について説明する。この際、訂正トリガー取得部15が、ユーザがマイク等の音声取得部1のある方向に向かって発話していた動画情報を取得したとする。そして、ユーザ操作実行可否判断部16は、所定の条件を満たす場合、ここでは、ユーザがマイク等の音声取得部1の方向を向いて発話している場合には実行可能であると判断し、所定の条件を満たしていない場合、例えば、後ろを向いて発話していた場合などには実行可能ではないと判断するように予め設定しておく。
この場合、訂正トリガー取得部15が取得した情報が、ユーザがマイク等の音声取得部1の方向(音声認識装置を搭載した装置の方向)を向いて発話している動画情報であり、予め設定した所定の条件を満たしているので、ユーザ操作実行可否判断部16は実行可能であると判断し(ステップST77のYESの場合)、ユーザ操作抽出部6により抽出されたユーザ操作を実行する(ステップST78)。
これにより、ユーザが音声認識装置を搭載した装置の方向を向いていない場合には、ユーザ操作以外の内容を発話している可能性が高いため、そのような場合に誤って訂正してしまうことを防ぐことができる。
また、さらに別の例として、抽出されたユーザ操作を実行するトリガーとなる情報として、訂正のやり直し回数を用いた場合について説明する。この際、訂正トリガー取得部15が、過去に訂正結果を訂正した回数が7回であるという情報を取得したとする。そして、ユーザ操作実行可否判断部16は、同じ訂正表現による訂正結果をユーザが訂正している回数が所定の回数(5回)未満の場合には実行可能であると判断し、所定の回数(5回)以上の場合には実行可能ではないと判断するように予め設定しておく。
この場合、訂正トリガー取得部15が取得した情報=7回が、所定の回数(5回)以上であるので、ユーザ操作実行可否判断部16は実行可能ではないと判断し(ステップST77のNOの場合)、処理を終了する。
なお、所定の回数の設定については、適宜決定すればよいことは、言うまでもない。
なお、所定の回数の設定については、適宜決定すればよいことは、言うまでもない。
これにより、例えば、訂正した操作を再度ユーザが行った場合は、該操作に対する訂正を抑止してユーザ操作を妨げないようにすることができる。また、訂正した操作をユーザが何度もキャンセルした場合は、以降その訂正表現での訂正を禁止してユーザ操作を妨げないようにすることができる。
また、この音声認識装置は車両などの移動体用の情報装置または車載情報装置に搭載されているものであるので、抽出されたユーザ操作を実行するトリガーとなる情報として、この音声認識装置を搭載した情報装置の状態や、車両などの移動体の走行状態を用いることもできる。この際、訂正トリガー取得部15が、ウィンカー使用中という情報を取得したとする。そして、ユーザ操作実行可否判断部16は、走行状態が所定の状態でない場合、ここでは、例えばウィンカー使用中や加速中など、運転手が運転操作に集中している最中であり、ユーザ操作以外の内容を発話している可能性が高く、音声取得された訂正表現により抽出されたユーザ操作の尤度が低いと思われる場合には、そのユーザ操作を実行可能ではないと判断し、所定の状態である場合、すなわち、特に運転操作に集中している最中であると認められる状態ではない通常の走行状態である場合には、ユーザ操作に関する内容を発話している可能性が高く、音声取得された訂正表現により抽出されたユーザ操作の尤度が高いと思われるので、実行可能であると判断するように予め設定しておく。
この場合、訂正トリガー取得部15が取得した情報がウィンカー使用中であるので、運転手が運転操作に集中している最中であり、音声取得された訂正表現により抽出されたユーザ操作の尤度が低いと思われるので、そのユーザ操作を実行可能ではないと判断し(ステップST77のNOの場合)、処理を終了する。
なお、取得可能な車両の走行状態と、それにより運手操作に集中している最中であると判断する条件については、適宜決定すればよいことは、言うまでもない。
なお、取得可能な車両の走行状態と、それにより運手操作に集中している最中であると判断する条件については、適宜決定すればよいことは、言うまでもない。
また、ここでは、移動体の走行状態がウィンカー使用中である場合を例に説明したが、音声認識装置を搭載した情報装置(ナビゲーション装置)が経路案内中であるという情報を取得した場合であっても、運転手が運転操作に集中している最中であると判断され、上記と同様の処理が行われる。
なお、この例では、運転手が運転操作に集中している最中は、ユーザ操作以外の内容を発話している可能性が高いと判断し、実行可能ではないと判断するものとして説明したが、これとは逆に、運転手が運転操作に集中している最中は、操作間違いが発生しやすい状態であると判断し、ユーザ操作の訂正を行う、すなわち、ユーザ操作を実行可能であると判断し、通常時には、ユーザの操作間違いが発生しにくい状態であると判断し、ユーザ操作を実行可能ではないと判断するようにしてもよい。
これにより、運転手が運転操作に集中している場合には、ユーザ操作以外の内容を発話している可能性が高いため、そのような場合に誤って訂正してしまうことを防ぐことができる。
また、ユーザの操作間違いが発生しやすい状態では、訂正操作の実行可の頻度を高くして、訂正操作を行いやすくすることができる。また、ユーザ操作間違いが発生しにくい状態では、訂正操作の実行可の頻度を低くして、誤って訂正してしまうことを防ぐことができる。
また、ユーザの操作間違いが発生しやすい状態では、訂正操作の実行可の頻度を高くして、訂正操作を行いやすくすることができる。また、ユーザ操作間違いが発生しにくい状態では、訂正操作の実行可の頻度を低くして、誤って訂正してしまうことを防ぐことができる。
以上のように、この実施の形態7によれば、実施の形態1と同様の効果に加え、例えば、前回のユーザ操作実行時からの経過時間、音声認識装置の状態、ユーザの様子を撮影した動画情報、訂正のやり直し回数、車両の走行状態などの、抽出されたユーザ操作を実行するトリガーとなる情報に基づいて、当該ユーザ操作(訂正操作)を実行する/しないを判断して処理することができるので、誤動作(誤訂正)を防ぐことができる。
実施の形態8.
図19は、この発明の実施の形態8による音声認識装置の一例を示すブロック図である。なお、実施の形態1~7で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態8では、実施の形態1と比べると、操作者外発話抑止部18をさらに備えており、音声取得部1によって取得された音声を発話した操作者以外の発話を抑止するものである。
図19は、この発明の実施の形態8による音声認識装置の一例を示すブロック図である。なお、実施の形態1~7で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態8では、実施の形態1と比べると、操作者外発話抑止部18をさらに備えており、音声取得部1によって取得された音声を発話した操作者以外の発話を抑止するものである。
操作者外発話抑止部18は、音声取得部1によって取得された音声データに含まれる操作者以外の発話を抑止する。
そして、音声認識部2は、操作者外発話抑止部18により抑止された後の操作者の発話のみの音声データを取得して認識を行う。
そして、音声認識部2は、操作者外発話抑止部18により抑止された後の操作者の発話のみの音声データを取得して認識を行う。
次に、図20に示すフローチャートを用いて、実施の形態8の音声認識装置の動作を説明する。
まず、音声取得部1は、マイク等により集音された車内の音声(入力された音声)をA/D変換して、例えばPCM(Pulse Code Modulation)形式で取得する(ステップST81)。次に、操作者外発話抑止部18は、音声取得部1によって取得された音声データの操作者以外の発話を抑止する(ステップST82)。ここで、操作者外発話抑止部18の抑止手段としては、例えばBeam Formingなどの一般的な方法を用いて行えばよい。
まず、音声取得部1は、マイク等により集音された車内の音声(入力された音声)をA/D変換して、例えばPCM(Pulse Code Modulation)形式で取得する(ステップST81)。次に、操作者外発話抑止部18は、音声取得部1によって取得された音声データの操作者以外の発話を抑止する(ステップST82)。ここで、操作者外発話抑止部18の抑止手段としては、例えばBeam Formingなどの一般的な方法を用いて行えばよい。
この結果、音声取得部1によって取得された音声データの操作者の発話のみが音声認識部2に出力される。そして、音声認識部2は、操作者外発話抑止部18から出力された音声データを認識し、認識結果を文字列で出力する(ステップST83)。
なお、ステップST84~ST88までの処理については、実施の形態1における図3のフローチャートのステップST13~ST17と同じであるため、説明を省略する。
なお、ステップST84~ST88までの処理については、実施の形態1における図3のフローチャートのステップST13~ST17と同じであるため、説明を省略する。
以上のように、この実施の形態8によれば、実施の形態1と同様の効果に加え、操作者以外の発話によって、操作者の意図しない訂正操作が誤って実行されることを防ぐことができる。
実施の形態9.
図21は、この発明の実施の形態9による音声認識装置の一例を示すブロック図である。なお、実施の形態1~8で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態9では、実施の形態1と比べると、エコーキャンセル部19をさらに備えており、音声取得部1によって取得された音声に含まれる発話以外の音を抑止するものである。
図21は、この発明の実施の形態9による音声認識装置の一例を示すブロック図である。なお、実施の形態1~8で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態9では、実施の形態1と比べると、エコーキャンセル部19をさらに備えており、音声取得部1によって取得された音声に含まれる発話以外の音を抑止するものである。
エコーキャンセル部19は、音声取得部1によって取得された音声データに含まれる操作者の発話以外の、例えば音声認識装置を搭載した情報装置が発生する音などを抑止する。
そして、音声認識部2は、エコーキャンセル部19により抑止された後の操作者の発話のみの音声データを取得して認識を行う。
そして、音声認識部2は、エコーキャンセル部19により抑止された後の操作者の発話のみの音声データを取得して認識を行う。
次に、図22に示すフローチャートを用いて、実施の形態9の音声認識装置の動作を説明する。
まず、音声取得部1は、マイク等により集音された車内の音声(入力された音声)をA/D変換して、例えばPCM(Pulse Code Modulation)形式で取得する(ステップST91)。次に、エコーキャンセル部19は、音声取得部1によって取得された音声データに含まれる操作者の発話以外の音、例えば音声認識装置が発生する音などを抑止する(ステップST92)。ここで、エコーキャンセル部19の抑止手段としては、例えばキャンセルしたい音を適応フィルタで予測し、その逆位相の音で相殺するなどの一般的な方法を用いて行えばよい。
まず、音声取得部1は、マイク等により集音された車内の音声(入力された音声)をA/D変換して、例えばPCM(Pulse Code Modulation)形式で取得する(ステップST91)。次に、エコーキャンセル部19は、音声取得部1によって取得された音声データに含まれる操作者の発話以外の音、例えば音声認識装置が発生する音などを抑止する(ステップST92)。ここで、エコーキャンセル部19の抑止手段としては、例えばキャンセルしたい音を適応フィルタで予測し、その逆位相の音で相殺するなどの一般的な方法を用いて行えばよい。
この結果、音声取得部1によって取得された音声データに含まれる操作者の発話以外の音が抑止されて音声認識部2に出力される。そして、音声認識部2は、エコーキャンセル部19から出力された音声データを認識し、認識結果を文字列で出力する(ステップST93)。
なお、ステップST94~ST98までの処理については、実施の形態1における図3のフローチャートのステップST13~ST17と同じであるため、説明を省略する。
なお、ステップST94~ST98までの処理については、実施の形態1における図3のフローチャートのステップST13~ST17と同じであるため、説明を省略する。
以上のように、この実施の形態9によれば、実施の形態1と同様の効果に加え、操作者の発話以外の、例えば音声認識装置が発生する音などによって、音声認識の精度が下がってしまい、操作者の意図しない訂正操作が誤って実行されることを防ぐことができる。
なお、以上の実施の形態4~9については、実施の形態1による音声認識装置に対して構成要素を追加したものとして説明したが、実施の形態2または3に対して同様の構成要素を追加したものであってもよいことは、言うまでもない。
また、上記の実施の形態1~9は、車両などの移動体用の情報装置または車載情報装置に搭載される音声認識装置として説明したが、この発明の音声認識装置は、車両などに搭載される場合に限らず、人、車両、鉄道、船舶または航空機等を含む移動体用の情報装置や携帯型の情報装置等、ユーザと装置との音声対話により音声認識を行うことが可能な装置であれば、どのような形態のものにも適用することができる。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明の音声認識装置は、車両などの移動体用の情報装置または車載情報装置などに適用することができる。
1 音声取得部、2 音声認識部、3 ユーザ操作訂正表現記憶部、4 ユーザ操作訂正表現抽出部、5 ユーザ操作履歴記憶部、6 ユーザ操作抽出部、7 ユーザ操作実行制御部、8 変換情報記憶部、9 入力操作部、10 操作情報記憶部、11 ユーザ操作の実行要否問い合わせ部、12 ユーザ操作の候補問い合わせ部、13 例外訂正表現記憶部、14 例外訂正表現除外部、15 訂正トリガー取得部、16 ユーザ操作実行可否判断部、18 操作者外発話抑止部、19 エコーキャンセル部。
Claims (14)
- ユーザが発話した音声を認識する音声認識装置において、
ユーザにより入力された音声を検知して取得する音声取得部と、
前記音声認識装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する音声認識部と、
ユーザ操作を訂正する際に用いられる表現を記憶するユーザ操作訂正表現記憶部と、
前記ユーザ操作訂正表現記憶部を参照して、前記音声認識部により出力された認識結果からユーザ操作の訂正表現を抽出するユーザ操作訂正表現抽出部と、
ユーザの操作履歴を記憶するユーザ操作履歴記憶部と、
前記ユーザ操作履歴記憶部を参照して、前記ユーザ操作訂正表現抽出部により抽出された訂正表現に基づいてユーザの操作を抽出するユーザ操作抽出部と、
前記ユーザ操作抽出部により抽出されたユーザ操作を実行するユーザ操作実行制御部とを備える
ことを特徴とする音声認識装置。 - ユーザが発話した音声を認識する音声認識装置において、
ユーザにより入力された音声を検知して取得する音声取得部と、
前記音声認識装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する音声認識部と、
ユーザ操作を訂正する際に用いられる表現を記憶するユーザ操作訂正表現記憶部と、
前記ユーザ操作訂正表現記憶部を参照して、前記音声認識部により出力された認識結果からユーザ操作の訂正表現を抽出するユーザ操作訂正表現抽出部と、
前記ユーザ操作訂正表現抽出部により抽出された訂正表現に対応付けられたユーザ操作情報を記憶する変換情報記憶部と、
前記変換情報記憶部を参照して、前記ユーザ操作訂正表現抽出部により抽出された訂正表現に基づいてユーザの操作を抽出するユーザ操作抽出部と、
前記ユーザ操作抽出部により抽出されたユーザ操作を実行するユーザ操作実行制御部とを備える
ことを特徴とする音声認識装置。 - ユーザが発話した音声を認識する音声認識装置において、
ユーザにより入力された音声を検知して取得する音声取得部と、
前記音声認識装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する音声認識部と、
ユーザ操作を訂正する際に用いられる表現を記憶するユーザ操作訂正表現記憶部と、
前記ユーザ操作訂正表現記憶部を参照して、前記音声認識部により出力された認識結果からユーザ操作の訂正表現を抽出するユーザ操作訂正表現抽出部と、
ユーザが実際に入力操作した情報を取得する入力操作部と、
前記ユーザが入力操作した時の操作可能な操作情報を記憶する操作情報記憶部と、
前記入力操作部により取得されたユーザの入力操作の情報と、前記操作情報記憶部に記憶されている操作情報とを参照して、前記ユーザ操作訂正表現抽出部により抽出された訂正表現に基づいてユーザの操作を抽出するユーザ操作抽出部と、
前記ユーザ操作抽出部により抽出されたユーザ操作を実行するユーザ操作実行制御部とを備える
ことを特徴とする音声認識装置。 - 前記ユーザ操作抽出部により抽出されたユーザ操作の実行要否をユーザに対して問い合わせて判断するユーザ操作実行要否問い合わせ部をさらに備え、
前記ユーザ操作実行制御部は、前記ユーザ操作抽出部により抽出されたユーザ操作を、前記ユーザ操作実行要否問い合わせ部により判断された結果に基づいて実行する
ことを特徴とする請求項1記載の音声認識装置。 - 前記ユーザ操作抽出部により抽出されたユーザ操作が複数あった場合に、当該複数のユーザ操作の候補の中のいずれを実行するかをユーザに対して問い合わせて判断するユーザ操作候補問い合わせ部をさらに備え、
前記ユーザ操作実行制御部は、前記ユーザ操作抽出部により抽出された複数のユーザ操作の候補の中から、前記ユーザ操作候補問い合わせ部により判断された結果に基づいて選択して当該選択したユーザ操作を実行する
ことを特徴とする請求項1記載の音声認識装置。 - 訂正表現とはみなさない例外的な表現を記憶する例外訂正表現記憶部と、
前記例外訂正表現記憶部を参照して、前記ユーザ操作訂正表現抽出部により抽出された訂正表現を除外する例外訂正表現除外部とをさらに備え、
前記ユーザ操作抽出部は、前記例外訂正表現除外部により除外された訂正表現については抽出しない
ことを特徴とする請求項1記載の音声認識装置。 - 前記ユーザ操作抽出部により抽出されたユーザ操作を実行するトリガーとなる情報を取得する訂正トリガー取得部と、
前記ユーザ操作抽出部により抽出されたユーザ操作の実行可否を、前記訂正トリガー取得部により取得された情報に基づいて判断するユーザ操作実行可否判断部とをさらに備え、
前記ユーザ操作実行制御部は、前記ユーザ操作抽出部により抽出されたユーザ操作を、前記ユーザ操作実行可否判断部により実行可能であると判断された場合にのみ実行する
ことを特徴とする請求項1記載の音声認識装置。 - 前記訂正トリガー取得部は、前回のユーザ操作実行時からの経過時間を取得するものであり、
前記ユーザ操作実行可否判断部は、前記経過時間が所定の時間以内である場合に、前記ユーザ操作抽出部により抽出されたユーザ操作を実行可能であると判断する
ことを特徴とする請求項7記載の音声認識装置。 - 前記訂正トリガー取得部は、ユーザを撮影した動画情報を取得するものであり、
前記ユーザ操作実行可否判断部は、前記動画情報が所定の条件を満たす場合に、前記ユーザ操作抽出部により抽出されたユーザ操作を実行可能であると判断する
ことを特徴とする請求項7記載の音声認識装置。 - 前記訂正トリガー取得部は、訂正のやり直し回数を取得するものであり、
前記ユーザ操作実行可否判断部は、前記やり直し回数が所定の回数未満である場合に、前記ユーザ操作抽出部により抽出されたユーザ操作を実行可能であると判断する
ことを特徴とする請求項7記載の音声認識装置。 - 前記音声認識装置は、移動体用の情報装置または車載情報装置に搭載され、
前記訂正トリガー取得部は、前記移動体の走行状態または前記情報装置の状態を取得するものであり、
前記ユーザ操作実行可否判断部は、前記走行状態または情報装置の状態が所定の状態である場合に、前記ユーザ操作抽出部により抽出されたユーザ操作を実行可能であると判断する
ことを特徴とする請求項7記載の音声認識装置。 - 前記音声取得部により取得された音声データに含まれる操作者以外の発話を抑止する操作者外発話抑止部をさらに備え、
前記音声認識部は、前記操作者外発話抑止部により抑止された後の前記操作者の発話のみの音声データを取得して認識を行う
ことを特徴とする請求項1記載の音声認識装置。 - 前記音声取得部により取得された音声データに含まれる操作者の発話以外の音を抑止するエコーキャンセル部をさらに備え、
前記音声認識部は、前記エコーキャンセル部により抑止された後の前記操作者の発話のみの音声データを取得して認識を行う
ことを特徴とする請求項1記載の音声認識装置。 - 前記音声認識装置は、移動体用の情報装置または車載情報装置に搭載されていることを特徴とする請求項1記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2012/003340 WO2013175523A1 (ja) | 2012-05-22 | 2012-05-22 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2012/003340 WO2013175523A1 (ja) | 2012-05-22 | 2012-05-22 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2013175523A1 true WO2013175523A1 (ja) | 2013-11-28 |
Family
ID=49623262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2012/003340 WO2013175523A1 (ja) | 2012-05-22 | 2012-05-22 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2013175523A1 (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000315096A (ja) * | 1999-05-03 | 2000-11-14 | Pioneer Electronic Corp | 音声認識装置を備えたマンマシンシステム |
JP2004219471A (ja) * | 2003-01-09 | 2004-08-05 | Mitsubishi Electric Corp | 音声認識装置 |
JP2005332319A (ja) * | 2004-05-21 | 2005-12-02 | Nissan Motor Co Ltd | 入力装置 |
JP2006113439A (ja) * | 2004-10-18 | 2006-04-27 | Ntt Data Corp | 音声自動応答装置及びプログラム |
JP2007033901A (ja) * | 2005-07-27 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識用プログラム |
JP2008287193A (ja) * | 2007-05-21 | 2008-11-27 | Toyota Motor Corp | 音声対話装置 |
JP2009025538A (ja) * | 2007-07-19 | 2009-02-05 | Nissan Motor Co Ltd | 音声対話装置 |
-
2012
- 2012-05-22 WO PCT/JP2012/003340 patent/WO2013175523A1/ja active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000315096A (ja) * | 1999-05-03 | 2000-11-14 | Pioneer Electronic Corp | 音声認識装置を備えたマンマシンシステム |
JP2004219471A (ja) * | 2003-01-09 | 2004-08-05 | Mitsubishi Electric Corp | 音声認識装置 |
JP2005332319A (ja) * | 2004-05-21 | 2005-12-02 | Nissan Motor Co Ltd | 入力装置 |
JP2006113439A (ja) * | 2004-10-18 | 2006-04-27 | Ntt Data Corp | 音声自動応答装置及びプログラム |
JP2007033901A (ja) * | 2005-07-27 | 2007-02-08 | Nec Corp | 音声認識システム、音声認識方法、および音声認識用プログラム |
JP2008287193A (ja) * | 2007-05-21 | 2008-11-27 | Toyota Motor Corp | 音声対話装置 |
JP2009025538A (ja) * | 2007-07-19 | 2009-02-05 | Nissan Motor Co Ltd | 音声対話装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106796786B (zh) | 语音识别系统 | |
JP4859982B2 (ja) | 音声認識装置 | |
JP5677650B2 (ja) | 音声認識装置 | |
JP6227209B2 (ja) | 車載用音声認識装置および車載機器 | |
WO2015128960A1 (ja) | 車載制御装置および車載制御方法 | |
JP2004061576A (ja) | 音声制御装置 | |
WO2013038440A1 (ja) | ナビゲーション装置 | |
JP3702867B2 (ja) | 音声制御装置 | |
WO2013069060A1 (ja) | ナビゲーション装置および方法 | |
JP4104313B2 (ja) | 音声認識装置、プログラム及びナビゲーションシステム | |
JP5414951B2 (ja) | ナビゲーション装置、方法およびプログラム | |
JP2006208486A (ja) | 音声入力装置 | |
JP5668838B2 (ja) | エレベータの呼び登録装置 | |
JP4639094B2 (ja) | 音声認識システム、音声認識装置及び音声認識プログラム | |
JP2010039099A (ja) | 音声認識および車載装置 | |
JP5570675B2 (ja) | 音声合成装置 | |
JP4604377B2 (ja) | 音声認識装置 | |
WO2013175523A1 (ja) | 音声認識装置 | |
JP5772214B2 (ja) | 音声認識装置 | |
JP2000122685A (ja) | ナビゲーションシステム | |
WO2019124142A1 (ja) | ナビゲーション装置およびナビゲーション方法、ならびにコンピュータプログラム | |
JP2007286198A (ja) | 音声合成出力装置 | |
JP2004333703A (ja) | 音声認識システムおよび音声認識の訂正・学習方法 | |
JP2007256643A (ja) | 音声認識装置及びナビゲーションシステム | |
JP4645708B2 (ja) | コード認識装置および経路探索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 12877297 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 12877297 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: JP |