WO2017145373A1 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
WO2017145373A1
WO2017145373A1 PCT/JP2016/055870 JP2016055870W WO2017145373A1 WO 2017145373 A1 WO2017145373 A1 WO 2017145373A1 JP 2016055870 W JP2016055870 W JP 2016055870W WO 2017145373 A1 WO2017145373 A1 WO 2017145373A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
function
control unit
user
execution
Prior art date
Application number
PCT/JP2016/055870
Other languages
English (en)
French (fr)
Inventor
亮介 虎間
匠 武井
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2016/055870 priority Critical patent/WO2017145373A1/ja
Priority to CN201680082226.8A priority patent/CN108701456A/zh
Priority to JP2018501542A priority patent/JPWO2017145373A1/ja
Priority to US16/076,439 priority patent/US10446155B2/en
Priority to DE112016006496.9T priority patent/DE112016006496T5/de
Publication of WO2017145373A1 publication Critical patent/WO2017145373A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to a speech recognition apparatus that recognizes the content of a user's utterance.
  • Patent Document 1 describes an operation control device that always recognizes a voice and generates and displays a shortcut button for executing a function corresponding to a recognition result.
  • the operation control device is configured to execute a function corresponding to a recognition result when a user operation on a shortcut button is received. Therefore, it is possible to prevent the function from being executed arbitrarily against the user's intention. However, even when the user utters with the intention of executing the function, there is a problem that the function cannot be executed immediately by the utterance and the operation of the shortcut button is necessary. Therefore, it makes the user feel annoying.
  • the speech recognition apparatus includes a speech recognition unit that recognizes a user's speech, a function execution unit that executes a function corresponding to a recognition result of the speech recognition unit, and a function that the function execution unit corresponds to the recognition result.
  • An execution degree calculation unit that calculates a degree that can be executed, and a control unit that causes the function execution unit to execute a function corresponding to the recognition result when the degree calculated by the execution degree calculation unit is equal to or greater than a predetermined first reference.
  • the degree of execution of the function corresponding to the recognition result is equal to or higher than the first reference, it is determined that the user's operation intention is clear and the function is executed.
  • the function can be executed by one utterance.
  • the degree to which the function corresponding to the recognition result can be executed is smaller than the first reference, it is determined that the user's operation intention is not clear and can be used for preventing malfunction.
  • FIG. 10 is a diagram illustrating a correspondence relationship between an execution degree and an operation in the second embodiment. 10 is a flowchart for explaining the operation of the speech recognition apparatus according to the second embodiment. 10 is a flowchart for explaining another example of the operation of the speech recognition apparatus according to the second embodiment. It is a block diagram which shows the modification of the speech recognition apparatus which concerns on Embodiment 2. FIG. It is a hardware block diagram of the speech recognition apparatus which concerns on each embodiment of this invention.
  • a microphone 1, a speaker 2, a display 3, and a touch panel 4 are connected to the voice recognition device 10.
  • a voice input using the microphone 1 and the touch panel 4 installed on the display 3 are illustrated, but the present invention is not limited to this, and hardware keys, etc. It may be.
  • the function execution part 12 shall perform the function of vehicle equipment, such as a car navigation, a car audio, or a car air conditioner.
  • the microphone 1 captures the voice uttered by the user and outputs the voice data to the voice recognition unit 11.
  • the voice recognition unit 11 receives voice data from the microphone 1 and detects a voice section corresponding to the content spoken by the user. In the following, the voice section corresponding to the content spoken by the user is referred to as “speech section”. Then, the speech recognition unit 11 extracts the feature amount of the speech data of the utterance section, performs a recognition process using a speech recognition dictionary (not shown) based on the feature amount, and outputs the recognition result to the control unit 15. To do.
  • a speech recognition method any of grammatical word recognition, keyword spotting, large vocabulary continuous speech recognition, and other known methods may be used.
  • the speech recognition unit 11 may perform intention estimation processing using the recognition result.
  • the speech recognition unit 11 estimates the user's intention using the recognition result by large vocabulary continuous speech recognition and the model for intention estimation, and outputs the estimated intention as the recognition result.
  • the intention estimation result is “set the city hall as the destination”.
  • the intention estimation method may be a well-known method and will not be described.
  • the voice recognition unit 11 may perform the recognition process by detecting the speech section from the voice data from the microphone 1 without a voice recognition start instruction in a predetermined voice acquisition period.
  • the predetermined voice acquisition period includes, for example, a period from when the voice recognition device 10 is activated or restarted until it is terminated or stopped, or while the voice recognition unit 11 is activated. To do.
  • the function execution unit 12 executes a function instructed by the control unit 15.
  • the functions that can be executed by the function execution unit 12 are, for example, functions related to the above-described car navigation, car audio, and car air conditioner.
  • the execution degree calculation unit 13 receives the recognition result of the voice recognition unit 11 from the control unit 15. Then, the execution degree calculation unit 13 refers to the execution degree definition storage unit 14, calculates the degree of execution of the function corresponding to the recognition result, and outputs the execution degree calculation result to the control unit 15.
  • execution degree indicates whether the recognition result of the voice recognition unit 11 and the function executable by the function execution unit 12 can be associated with each other, and whether the information for executing the function of the function execution unit 12 is sufficient. It is expressed in stages.
  • the information to be executed is an object to be described later. For example, in the car audio music search function, it is information for specifying music such as “music name”, “artist name”, and “album name”.
  • the execution degree definition storage unit 14 stores an execution degree definition used by the execution degree calculation unit 13 to calculate the execution degree.
  • FIG. 2 shows an example of the correspondence relationship between the function execution degree and the operation performed by the speech recognition apparatus 10.
  • the execution degree calculation unit 13 may simply extract only the verb and the object, or may consider the meaning of the dependency between the verb and the object. For example, if the meaning of the verb “I want to eat” and the object “City Hall” are not understood, as in the recognition result “I want to eat the city hall”, the execution degree calculation unit 13 extracts only the verb and the execution degree “1”. Is calculated.
  • the execution degree may be calculated using the likelihood of the meaning estimation technique of the document.
  • the execution degree definition storage unit 14 may store a definition of a correspondence relationship between a keyword and an execution degree value instead of the execution degree definition shown in FIG. Specifically, an execution degree “1” is associated with each verb keyword such as “I want to go”, and an execution degree “1” is associated with each keyword of an object such as “city hall”. The execution degree “2” is associated with each keyword including a verb such as “I want to go to the city hall” and an object.
  • the execution degree is equal to or higher than the first reference, it is determined that the user's intention to operate the in-vehicle device is clear. Judge that the intention to operate the in-vehicle equipment is not clear.
  • the second criterion is to determine whether or not the recognition result of the speech recognition unit 11 and the function that can be executed by the function execution unit 12 cannot be associated and there is no information for executing the function. For example, the execution degree is “0” in the example of FIG.
  • the control unit 15 outputs an instruction to execute the function corresponding to the recognition result to the function execution unit 12 when the execution degree is the first reference “2” or more. Assume that the control unit 15 predefines the correspondence between verbs and functions. For example, the control unit 15 outputs an instruction to set the city hall as the destination to the function execution unit 12 as a function corresponding to the recognition result “I want to go to the city hall”.
  • the control unit 15 When the execution degree is smaller than the first criterion “2”, the control unit 15 does not immediately execute the function corresponding to the recognition result. For example, when the execution degree is greater than the second criterion “0” and smaller than the first criterion “2”, the control unit 15 presents a function candidate corresponding to the recognition result to the user to determine which function.
  • the inquiry control unit 16 is instructed to inquire whether to execute.
  • the function candidate corresponding to the recognition result is, for example, a function associated with a verb present in the recognition result or a function using an object as a parameter.
  • the control unit 15 when the recognition result is only the verb “up”, the control unit 15 performs the map expansion function of the car navigation corresponding to the verb, the volume change function of the car audio, and the temperature change function of the car air conditioner. Etc. as candidates. Then, the control unit 15 receives the query result from the query control unit 16 and the like, and outputs an instruction to execute the function selected by the user to the function execution unit 12. For example, when the execution degree is equal to or less than the second reference “0”, the control unit 15 does not execute the function corresponding to the recognition result and does not present a function candidate.
  • the inquiry control unit 16 receives from the control unit 15 an instruction to present a function candidate and make an inquiry.
  • the inquiry control unit 16 may output the function candidates from the speaker 2 as audio, may be displayed on the display 3, or may be output from the speaker 2 as audio and displayed on the display 3.
  • the inquiry control unit 16 receives information input by the user operating the input device such as the touch panel 4 and outputs the function selected by the user from the candidates to the control unit 15 as an inquiry result.
  • a user's operation may be received using input devices, such as the touch panel 4, and a user's operation may be received using the audio
  • the voice recognition device 10 executes the processing shown in the flowchart of FIG. 3 during the above-described predetermined voice acquisition period.
  • the voice recognition unit 11 receives voice data from the microphone 1, detects a speech section, performs recognition processing, and outputs a recognition result to the control unit 15.
  • the control unit 15 receives the recognition result from the voice recognition unit 11 and outputs the recognition result to the execution degree calculation unit 13.
  • step ST2 the execution degree calculation unit 13 receives the recognition result from the control unit 15, and refers to the execution degree definition storage unit 14 to calculate the execution degree of the function corresponding to the recognition result.
  • the execution degree calculation unit 13 outputs the calculation result of the execution degree to the control unit 15.
  • step ST ⁇ b> 3 the control unit 15 receives the execution degree calculation result from the execution degree calculation unit 13.
  • step ST3 “YES” the control unit 15 proceeds to step ST7 and outputs an instruction to execute the function corresponding to the recognition result to the function execution unit 12.
  • the function execution unit 12 executes a function corresponding to the recognition result in accordance with an instruction from the control unit 15.
  • step ST3 “NO” the control unit 15 proceeds to step ST4.
  • step ST4 the control part 15 complete
  • step ST4 “NO” the control unit 15 proceeds to step ST5 and presents a candidate for the function corresponding to the recognition result so as to make an inquiry.
  • An instruction is given to the inquiry control unit 16.
  • the inquiry control unit 16 presents function candidates using the speaker 2 or the display 3 in accordance with an instruction from the control unit 15.
  • step ST6 “YES” When receiving a query result from the query control unit 16 or the voice recognition unit 11 (step ST6 “YES”), the control unit 15 proceeds to step ST7 and outputs an instruction to execute the function selected by the user to the function execution unit 12. To do.
  • the function execution unit 12 executes a function selected by the user in accordance with an instruction from the control unit 15.
  • the control unit 15 (step) ST6 “NO”), the process is terminated. At that time, the inquiry control unit 16 ends the display of the function candidates on the display 3.
  • the speech recognition apparatus 10 includes the speech recognition unit 11 that recognizes a user's speech, the function execution unit 12 that executes a function corresponding to the recognition result of the speech recognition unit 11, and the function
  • the execution unit 12 calculates the degree to which the function corresponding to the recognition result can be executed, and when the degree calculated by the execution degree calculation unit 13 is equal to or higher than a predetermined first reference, It is the structure provided with the control part 15 which makes the function execution part 12 perform a corresponding function.
  • the execution degree of the function corresponding to the recognition result is equal to or higher than the first reference, the user can execute the function only by speaking by determining that the user's operation intention is clear and executing the function. it can.
  • the execution degree of the function corresponding to the recognition result is smaller than the first reference, it is determined that the user's operation intention is not clear, and can be used for preventing malfunctions different from the user's intention.
  • the speech recognition apparatus 10 is configured to include an inquiry control unit 16 that presents function candidates that can be executed by the function execution unit 12 based on the recognition result.
  • the control unit 15 is configured to cause the function execution unit 12 to execute a function selected by the user from the function candidates presented by the inquiry control unit 16. As a result, the user can execute the function by a minimum additional operation.
  • the voice recognition unit 11 is configured to recognize the uttered voice acquired in a predetermined voice acquisition period. As described above, according to the first embodiment, malfunction can be prevented, so that voice recognition can always be performed during the voice acquisition period, and thus the user can execute the function without instructing the start of voice recognition. Can do.
  • Embodiment 2 when the execution level of the function corresponding to the recognition result is smaller than the first reference and larger than the second reference, the function candidate is presented and the user is inquired about which function to execute. However, in the second embodiment, the contents of the inquiry are changed according to whether or not the user intends to operate.
  • FIG. 4 is a block diagram showing a configuration example of the speech recognition apparatus 10 according to Embodiment 2 of the present invention.
  • the speech recognition apparatus 10 according to Embodiment 2 has a configuration in which a determination unit 17 is added to the speech recognition apparatus 10 according to Embodiment 1 shown in FIG. 4, parts that are the same as or correspond to those in FIG. 1 are given the same reference numerals, and descriptions thereof are omitted.
  • the execution degree calculation unit 13a refers to the execution degree definition storage unit 14a and calculates the execution degree of the function corresponding to the recognition result of the speech recognition unit 11.
  • FIG. 5 shows an example of a correspondence relationship between the function execution degree and the operation performed by the speech recognition apparatus 10.
  • execution degree definition shown in FIG. 5
  • the execution degree value of the object which is a word representing the purpose of the function
  • the execution degree value of the verb which is the word representing the operation of the function.
  • the execution degree “3” is set as a first reference
  • the execution degree “0” is set as a second reference.
  • the determination unit 17 receives the recognition result from the control unit 15a, and refers to the execution degree definition storage unit 14a to determine the presence or absence of a verb and an object in the recognition result, so that the user intends to operate the in-vehicle device. Judge whether or not. Then, the determination unit 17 outputs the determination result to the control unit 15a.
  • speech recognition device 10 when the execution degree is equal to or higher than the first reference, it is determined that the user's intention to operate the in-vehicle device is clear. It was judged that the intention to operate the in-vehicle equipment was not clear.
  • the determination unit 17 when the determination unit 17 has a verb in the recognition result and can associate the recognition result with a function that can be executed by the function execution unit 12, the user can It is determined that there is an intention to operate the in-vehicle device.
  • the determination unit 17 determines that the user does not intend to operate the in-vehicle device when there is no verb in the recognition result or the association with the function is impossible and only the object exists.
  • the voice recognition device 10 executes the process shown in the flowchart of FIG. 6 in the above-described predetermined voice acquisition period. Steps ST1 to ST7 in FIG. 6 are the same processes as steps ST1 to ST7 in FIG.
  • step ST3 “NO”) When the execution degree of the function corresponding to the recognition result is smaller than the first reference “3” (step ST3 “NO”) and larger than the second reference “0” (step ST4 “NO”) ), The process proceeds to step ST11, and the recognition result is output to the determination unit 17.
  • the determination unit 17 receives the recognition result from the control unit 15a, determines whether or not the user intends to operate, and outputs the determination result to the control unit 15a.
  • the control unit 15 a receives the determination result from the determination unit 17.
  • the control unit 15a proceeds to step ST5 when the user does not intend to operate (step ST11 “NO”). On the other hand, when there is an operation intention of the user (step ST11 “YES”), the control unit 15a proceeds to step ST12 and instructs the inquiry control unit 16a to make an inquiry for adding information necessary for executing this function. .
  • the inquiry control unit 16a makes an inquiry about additional information to the user using the speaker 2 or the display 3 in accordance with an instruction from the control unit 15a.
  • step ST13 when the control unit 15a receives additional information as a query result from the query control unit 16a or the voice recognition unit 11 (step ST13 “YES”), the control unit 15a proceeds to step ST2 and uses this additional information as an execution degree calculation unit. Output to 13a.
  • the execution degree calculation unit 13a calculates the execution degree again by combining the first recognition result and the additional information.
  • the control unit 15a is notified of the additional information as the query result from the query control unit 16a or the voice recognition unit 11 until the predetermined time elapses after instructing the query control unit 16a to query the additional information. If not (step ST13 “NO”), the process is terminated. At that time, the inquiry control unit 16 a ends the display of the inquiry for additional information on the display 3.
  • the control unit 15a instructs the inquiry control unit 16a to make an inquiry such as “Please tell me the name of the song you want to listen to”.
  • the control unit 15a acquires additional information of the song name using an input device such as the touch panel 4 or the voice input of the microphone 1 and the voice recognition unit 11.
  • step ST21 the control part 15a progresses to step ST5, when there is no operation intention of a user (step ST21 "NO").
  • step ST21 “YES” the control unit 15a proceeds to step ST22 so as to execute the function having the highest execution priority among the function candidates corresponding to the recognition result.
  • the function execution unit 12 is instructed.
  • the function execution unit 12 executes a function having the highest execution priority in accordance with an instruction from the control unit 15a.
  • the control unit 15a when the recognition result is only the verb “up”, the control unit 15a, the car navigation map expansion function, the car audio volume change function, and the car air conditioner temperature change corresponding to this verb.
  • a function or the like is set as a candidate, and a function having the highest execution priority is executed.
  • the execution priority may be defined in advance such that when the function is executed, the priority of the function that has little influence on the user is high, or the control unit 15a determines based on the usage frequency of the user. May be.
  • step ST23 the control unit 15a instructs the inquiry control unit 16a to present the executed function and make an inquiry about whether or not the function is corrected.
  • the inquiry control unit 16a presents a function executed using the speaker 2 or the display 3 and makes an inquiry about whether or not this function is corrected according to an instruction from the control unit 15a.
  • the inquiry control unit 16a may present a candidate for a function that has not been executed with a low execution priority so that the user can select it.
  • step ST24 the control unit 15a receives, as an inquiry result from the inquiry control unit 16a or the voice recognition unit 11, a recognition result instructing execution of a function different from the executed function (step ST24 “YES”). Then, the process proceeds to step ST2 to instruct the execution degree calculation unit 13a to calculate the execution degree of the function corresponding to the new recognition result. At that time, the control unit 15 a outputs an instruction to cancel the execution of the previously executed function to the function execution unit 12. Alternatively, when receiving a recognition result or the like that instructs execution of a function different from the executed function (step ST24 “YES”), the control unit 15a performs a function corresponding to the recognition result or the like. 12 may be instructed.
  • control unit 15a is notified of the inquiry result from the inquiry control unit 16a or the voice recognition unit 11 until a predetermined time elapses after instructing the inquiry control unit 16a to inquire about the correction of the executed function. If not (step ST24 “NO”), the process is terminated. At that time, the inquiry control unit 16a ends the display of the inquiry on the display 3.
  • the speech recognition apparatus 10 includes the determination unit 17 that determines whether the user intends to operate using the recognition result of the speech recognition unit 11, and the inquiry control unit that makes an inquiry to the user. 16a.
  • the inquiry control unit 16a changes the inquiry content according to the determination result of the determination unit 17. To do.
  • the determination unit 17 determines that there is an operation intention, the inquiry control unit 16a inquires for additional information necessary for the function execution unit 12 to execute the function.
  • the inquiry control unit 16a presents function candidates that can be executed by the function execution unit 12 based on the recognition result, and the control unit 15a The function selected by the user from the candidates is executed by the function execution unit 12. As a result, the user can execute the function by a minimum additional operation.
  • the execution degree calculation unit 13a may inquire about information necessary for executing a function selected by the user from the presented function candidates. For example, in step ST7 shown in the flowcharts of FIG. 6 and FIG. 7, the execution degree calculation unit 13a is necessary for executing this function when executing the function selected by the user from the presented function candidates. When it is determined that the information is insufficient, the user is inquired about additional information.
  • the execution degree calculated by the execution degree calculation unit 13a is larger than the second reference and smaller than the first reference.
  • the control unit 15a causes the function execution unit 12 to execute the function
  • the inquiry control unit 16a makes an inquiry as to whether or not to correct the function executed by the function execution unit 12. May be. Thereby, when the function can be executed without additional information, the user can execute the function without additional operation.
  • control unit 15a is configured not to execute the function corresponding to the recognition result when the execution degree calculated by the execution degree calculation unit 13a is equal to or less than the second reference. By not executing a function with a remarkably low execution degree, it is possible to prevent a malfunction that is different from the user's intention.
  • FIG. 8 shows a modification of the speech recognition apparatus 10 according to the second embodiment.
  • the voice recognition device 10 shown in FIG. 8 has a configuration in which a user specifying unit 18 is added to the voice recognition device 10 of the second embodiment shown in FIG. 8, parts that are the same as or correspond to those in FIGS. 1 and 4 are given the same reference numerals, and descriptions thereof are omitted.
  • the user identification unit 18 identifies the uttering user and notifies the voice recognition unit 11a.
  • the voice recognition unit 11a transmits the user's utterance specified by the user specifying unit 18 when the inquiry control unit 16a makes an inquiry in step ST12 shown in the flowchart of FIG. 6 or step ST23 shown in the flowchart of FIG. Recognize and output as query results. Thereby, the inquiry control part 16a can perform the dialog with the user which the user specific part 18 specified. Below, the example of the dialogue with a specific user is explained.
  • the user specifying unit 18 acquires voice data from the microphone 1, performs voiceprint authentication to specify the uttering user, and the voice recognition unit 11 a selectively acquires the voice data of the specified uttering user. Perform recognition processing.
  • the user specifying unit 18 acquires each voice data from two or more microphones 1 and specifies the direction of the speaking user by sound source localization, or acquires a face image captured by a camera (not shown) and The direction is specified, and the voice recognition unit 11a selectively acquires voice data from the direction of the speaking user by beam forming and performs recognition processing. Thereby, malfunction of the speech recognition apparatus 10 by speech other than the specified user among the passengers in the vehicle can be prevented.
  • the voice recognition unit 11a may perform adaptation according to the utterance user specified by the user specifying unit 18.
  • the voice recognition unit 11a includes a voice recognition dictionary, an acoustic model, a language model, or the like for each user, and switches the voice recognition dictionary or the like according to the utterance user specified by the user specifying unit 18.
  • the voice recognition unit 11a may perform learning for each utterance user specified by the user specifying unit 18 in order to create a voice recognition dictionary or the like for each user. Thereby, the recognition accuracy in the case of an inquiry can be raised and the malfunctioning of the speech recognition apparatus 10 by misrecognition can be prevented.
  • control unit 15a may switch the execution priority in step ST22 shown in the flowchart of FIG. 7 according to the utterance user specified by the user specifying unit 18.
  • the speech recognition unit 11 recognizes the user's utterance specified by the user specifying unit 18. And output as a query result.
  • the microphone 1 and the touch panel 4 shown in FIGS. 1, 4 and 8 are the input device 103 shown in FIG.
  • the speaker 2 and the display 3 are output devices 104.
  • the speech recognition unit 11, 11 a, function execution unit 12, execution degree calculation unit 13, 13 a, control unit 15, 15 a, inquiry control unit 16, 16 a, determination unit 17, and user identification unit 18 in the speech recognition device 10 are stored in the memory 102.
  • the execution degree definition storage units 14 and 14 a are the memory 102.
  • the functions of the voice recognition units 11 and 11a, the function execution unit 12, the execution degree calculation units 13 and 13a, the control units 15 and 15a, the inquiry control units 16 and 16a, the determination unit 17 and the user identification unit 18 are software, firmware, Alternatively, it is realized by a combination of software and firmware.
  • Software or firmware is described as a program and stored in the memory 102.
  • the processor 101 reads out and executes the program stored in the memory 102, thereby realizing the function of each unit. That is, the speech recognition apparatus 10 includes a memory 102 for storing a program that, when executed by the processor 101, results in each step shown in FIG. 3, FIG. 6, or FIG. This program can also be said to cause a computer to execute the procedure or method of each part of the speech recognition apparatus 10.
  • the processor 101 is also referred to as a CPU (Central Processing Unit), a processing device, an arithmetic device, a microprocessor, a microcomputer, or a DSP (Digital Signal Processor).
  • the memory 102 may be, for example, a nonvolatile or volatile semiconductor memory such as a RAM (Random Access Memory), a ROM (Read Only Memory), a flash memory, an EPROM (Erasable Programmable ROM), or an EEPROM (Electrically EPROM). Further, it may be a magnetic disk such as a hard disk or a flexible disk, or may be an optical disk such as a mini disk, CD (Compact Disc), or DVD (Digital Versatile Disc).
  • the execution degree calculation units 13 and 13a calculate the execution degree from the recognition results of the voice recognition units 11 and 11a, and the control units 15 and 15a perform subsequent operations according to the execution degree.
  • an operation corresponding to the command may be executed. For example, in the case where an operation “execute a function of playing the first music” is previously determined in the control units 15 and 15a in response to the command “audio”, if the user speaks “audio”, the control unit 15, The first music reproduction may be started by 15a.
  • not only “execution of function” but also “inquiry of additional information” or “presentation of function candidate” may be defined as the operation for the command. In other words, ⁇ audio '' is not ⁇ playing the first song uniformly '', but ⁇ who will play the song '', ⁇ which song will be played '', etc. There may be an action to do.
  • any combination of each embodiment, any component of each embodiment can be modified, or any component of each embodiment can be omitted.
  • the voice recognition apparatus 10 may be used for applications other than the vehicle.
  • the speech recognition apparatus executes the function when the degree of execution of the function corresponding to the recognition result is equal to or higher than the first reference, and does not execute the function immediately in other cases. Since malfunction is prevented, it is suitable for use in a speech recognition device that always recognizes speech.

Abstract

音声認識装置(10)は、ユーザの発話音声を認識する音声認識部(11)と、音声認識部(11)の認識結果に対応する機能を実行する機能実行部(12)と、機能実行部(12)が認識結果に対応する機能を実行できる度合いを算出する実行度合い算出部(13)と、実行度合い算出部(13)が算出した度合いが予め定められた第1の基準以上である場合、認識結果に対応する機能を、機能実行部(12)に実行させる制御部(15)とを備える。

Description

音声認識装置
 この発明は、ユーザの発話内容を認識する音声認識装置に関するものである。
 特許文献1には、常時音声を認識し、認識結果に対応する機能を実行するためのショートカットボタンを生成して表示する作動制御装置が記載されている。
特開2008-14818号公報
 上記特許文献1に係る作動制御装置は、ショートカットボタンに対するユーザの操作を受け付けた場合に、認識結果に対応する機能を実行する構成である。そのため、ユーザの意図に反して勝手に機能が実行されることを防止することができる。
 しかしながら、ユーザが機能実行の意図をもって発話した場合でも、その発話によってすぐに機能を実行させることはできず、ショートカットボタンの操作が必要になるという課題があった。そのため、ユーザに煩わしさを感じさせる。
 この発明は、上記のような課題を解決するためになされたもので、ユーザの操作意図が明確である場合はユーザの操作を簡易にし、ユーザの操作意図が明確でない場合は誤動作を防止する音声認識装置を提供することを目的とする。
 この発明に係る音声認識装置は、ユーザの発話音声を認識する音声認識部と、音声認識部の認識結果に対応する機能を実行する機能実行部と、機能実行部が認識結果に対応する機能を実行できる度合いを算出する実行度合い算出部と、実行度合い算出部が算出した度合いが予め定められた第1の基準以上である場合、認識結果に対応する機能を、機能実行部に実行させる制御部とを備えるものである。
 この発明によれば、認識結果に対応する機能を実行できる度合いが第1の基準以上である場合、ユーザの操作意図が明確であると判断して当該機能を実行するようにしたので、ユーザは1度の発話によって機能を実行させることができる。一方、認識結果に対応する機能を実行できる度合いが第1の基準より小さい場合、ユーザの操作意図が明確でないと判断して、誤動作の防止への利用が可能となる。
この発明の実施の形態1に係る音声認識装置の構成例を示すブロック図である。 実施の形態1における実行度合いと動作との対応関係を示す図である。 実施の形態1に係る音声認識装置の動作を説明するフローチャートである。 この発明の実施の形態2に係る音声認識装置の構成例を示すブロック図である。 実施の形態2における実行度合いと動作との対応関係を示す図である。 実施の形態2に係る音声認識装置の動作を説明するフローチャートである。 実施の形態2に係る音声認識装置の動作の他の例を説明するフローチャートである。 実施の形態2に係る音声認識装置の変形例を示すブロック図である。 この発明の各実施の形態に係る音声認識装置のハードウェア構成図である。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、この発明の実施の形態1に係る音声認識装置10の構成例を示すブロック図である。図1に示す音声認識装置10は、ユーザの発話音声を認識する音声認識部11と、音声認識部11の認識結果に対応する機能を実行する機能実行部12と、機能実行部12が認識結果に対応する機能を実行できる度合いを算出する実行度合い算出部13と、当該度合いの算出に用いる実行度合い定義を記憶している実行度合い定義記憶部14と、実行度合い算出部13が算出した度合いが予め定められた第1の基準以上である場合、認識結果に対応する機能を機能実行部12に実行させる制御部15と、ユーザに対して問合せを行う問合せ制御部16とを備えている。
 また、音声認識装置10には、マイク1、スピーカ2、ディスプレイ3、およびタッチパネル4が接続されている。なお、ここでは、ユーザの操作を受け付ける入力装置として、マイク1を用いた音声入力とディスプレイ3上に設置されたタッチパネル4とを例示するが、これに限定されるものではなく、ハードウェアキー等であってもよい。
 以下では、音声認識装置10が車両に搭載されている例を用いて、この発明の各実施の形態を説明する。機能実行部12は、カーナビゲーション、カーオーディオまたはカーエアコンディショナ等、車載機器の機能を実行するものとする。
 マイク1は、ユーザにより発話された音声を取り込み、音声データを音声認識部11へ出力する。
 音声認識部11は、マイク1から音声データを受け取り、ユーザが発話した内容に該当する音声区間を検出する。以下では、ユーザが発話した内容に該当する音声区間を「発話区間」と呼ぶ。そして、音声認識部11は、発話区間の音声データの特徴量を抽出し、その特徴量に基づいて、不図示の音声認識辞書等を用いた認識処理を行い、認識結果を制御部15へ出力する。ここで、音声認識の手法としては、文法に基づく単語認識、キーワードスポッティング、大語彙連続音声認識、またはその他の周知の手法のいずれを用いてもよい。
 また、音声認識部11は、認識結果を用いて意図推定処理を行ってもよい。その場合、例えば、音声認識部11は、大語彙連続音声認識による認識結果と意図推定用のモデルとを用いてユーザの意図を推定し、推定した意図を認識結果として出力する。ユーザが「市役所へ行きたい」と発話した場合、意図推定結果は「市役所を目的地に設定する」となる。意図推定の手法は、周知の手法を用いればよいため説明は省略する。
 カーナビゲーション装置などに搭載されている音声認識装置においては、ユーザが発話の開始をカーナビゲーション装置に対して明示するのが一般的である。そのために、音声認識開始を指示するボタンが、タッチパネルを備えたディスプレイ上に表示されたり、ハンドルに設置されたりしている。以下では、音声認識開始を指示するボタン等のことを「音声認識開始指示部」と呼ぶ。そして、音声認識装置は、ユーザにより音声認識開始指示部が操作された後に発話された音声を認識する。
 この発明の各実施の形態における音声認識部11は、上述したようなユーザによる音声認識開始指示があった後、マイク1からの音声データから発話区間を検出して認識処理を行ってもよい。あるいは、音声認識部11は、予め定められた音声取得期間において、音声認識開始指示がなくても、マイク1からの音声データから発話区間を検出して認識処理を行ってもよい。予め定められた音声取得期間には、例えば、音声認識装置10が起動もしくは再開してから終了もしくは停止するまでの間、または音声認識部11が起動している間等の期間が含まれるものとする。
 機能実行部12は、制御部15から指示された機能を実行する。機能実行部12が実行可能な機能は、例えば、上述したカーナビゲーション、カーオーディオ、およびカーエアコンディショナに関する機能とする。
 実行度合い算出部13は、音声認識部11の認識結果を、制御部15から受け取る。そして、実行度合い算出部13は、実行度合い定義記憶部14を参照して、認識結果に対応する機能を実行できる度合いを算出し、実行度合いの算出結果を制御部15へ出力する。以下では、認識結果に対応する機能を実行できる度合いを「実行度合い」と呼ぶ。
 実行度合いは、音声認識部11の認識結果と機能実行部12が実行可能な機能との対応付けが可能かどうか、および機能実行部12の機能を実行するための情報が十分であるかどうかを段階で表したものである。実行するための情報とは、後述する目的語であり、例えば、カーオーディオの楽曲検索機能においては、「曲名」「アーティスト名」「アルバム名」のような楽曲を特定するための情報である。
 実行度合い定義記憶部14は、実行度合い算出部13が実行度合いの算出に用いる実行度合い定義を記憶している。ここで、図2に、機能の実行度合いと音声認識装置10が行う動作との対応関係の例を示す。
 図2に示す「実行度合い定義」の例では、機能の動作を表す言葉である動詞および機能の目的を表す言葉である目的語の有無に応じた実行度合いの値が、実行度合い定義記憶部14に予め定義されている。実行度合いの値が大きいほど、機能実行部12が実行できる度合いが高いものとする。図2に示す「動作」は後述する。
 実行度合い算出部13は、図2に示す実行度合い定義を参照し、認識結果における動詞と目的語の有無により、実行度合いを算出する。例えば、認識結果「市役所へ行きたい」のように、動詞「行きたい」と目的語「市役所」が存在する場合、実行度合い算出部13は実行度合い「2」を算出する。
 なお、実行度合い算出部13は、単純に動詞と目的語のみを抽出してもよいし、動詞と目的語の係り受けの意味を考慮してもよい。例えば、「市役所を食べたい」という認識結果のように、動詞「食べたい」と目的語「市役所」の意味が通じない場合、実行度合い算出部13は動詞のみを抽出し、実行度合い「1」を算出する。
 上記は一例であり、その他の算出方法として、例えば、文書の意味推定技術の尤度を用いて実行度合いを算出してもよい。
 また、実行度合い定義記憶部14は、図2に示した実行度合い定義の代わりに、キーワードと実行度合いの値との対応関係の定義を記憶していてもよい。具体的には、「行きたい」等の動詞のキーワードごとに実行度合い「1」が対応付けられており、「市役所」等の目的語のキーワードごとに実行度合い「1」が対応付けられており、「市役所へ行きたい」等の動詞と目的語とを含むキーワードごとに実行度合い「2」が対応付けられている。
 制御部15は、音声認識部11から認識結果を受け取り、実行度合い算出部13へ出力して実行度合いを算出させる。
 制御部15は、実行度合い算出部13から実行度合いの算出結果を受け取り、当該算出結果に応じて次の動作を決定し、機能実行部12または問合せ制御部16に動作を指示する。実行度合いに応じた動作を決定するために、第1の基準と、第1の基準より小さい値の第2の基準とが、制御部15に対して予め定められているものとする。
 第1の基準とは、機能実行部12が機能を実行するのに十分な情報がある状態か否かを判定するためのものであり、例えば図2の例における実行度合い「2」である。実施の形態1に係る音声認識装置10においては、実行度合いが第1の基準以上である場合、ユーザの車載機器を操作する意図が明確であると判断し、第1の基準より小さい場合、ユーザの車載機器を操作する意図が明確でないと判断する。
 第2の基準とは、音声認識部11の認識結果と機能実行部12が実行可能な機能との対応付けができず、機能を実行するための情報が存在しない状態か否かを判定するためのものであり、例えば図2の例における実行度合い「0」である。
 制御部15は、実行度合いが第1の基準「2」以上である場合、認識結果に対応する機能を実行させる指示を機能実行部12へ出力する。制御部15には、動詞と機能との対応関係が予め定義されているものとする。例えば、制御部15は、認識結果「市役所へ行きたい」に対応する機能として、市役所を目的地に設定する指示を機能実行部12へ出力する。
 制御部15は、実行度合いが第1の基準「2」より小さい場合、認識結果に対応する機能をすぐには実行させない。
 例えば、制御部15は、実行度合いが第2の基準「0」より大きく、かつ、第1の基準「2」より小さい場合、認識結果に対応する機能の候補をユーザに提示してどの機能を実行するか問合せを行うよう、問合せ制御部16に指示する。認識結果に対応する機能の候補とは、例えば、認識結果中に存在する動詞に対応付けられた機能、または目的語をパラメータとして使用する機能である。例えば認識結果が「アップして」という動詞のみであった場合、制御部15は、この動詞に対応するカーナビゲーションの地図拡大機能、カーオーディオの音量変更機能、およびカーエアコンディショナの温度変更機能等を候補とする。そして、制御部15は、問合せ制御部16等から問合せ結果を受け取り、ユーザが選択した機能を実行させる指示を機能実行部12へ出力する。
 また、例えば、制御部15は、実行度合いが第2の基準「0」以下である場合、認識結果に対応する機能を実行せず、機能の候補も提示しない。
 問合せ制御部16は、機能の候補を提示して問合せを行う指示を、制御部15から受け付ける。問合せ制御部16は、機能の候補を、音声としてスピーカ2から出力してもよいし、ディスプレイ3に表示してもよいし、音声としてスピーカ2から出力すると共にディスプレイ3に表示してもよい。そして、問合せ制御部16は、タッチパネル4等の入力装置をユーザが操作することで入力された情報を受け付け、候補の中からユーザが選択した機能を、問合せ結果として制御部15へ出力する。なお、タッチパネル4等の入力装置を利用してユーザの操作を受け付けてもよいし、マイク1と音声認識部11の音声入力を利用してユーザの操作を受け付けてもよい。
 次に、図3のフローチャートを用いて、実施の形態1に係る音声認識装置10の動作を説明する。音声認識装置10は、上述した予め定められた音声取得期間において、図3のフローチャートに示された処理を実行する。
 ステップST1において、音声認識部11は、マイク1から音声データを受け取り、発話区間を検出して認識処理を行い、認識結果を制御部15へ出力する。制御部15は、音声認識部11から認識結果を受け取り、実行度合い算出部13へ出力する。
 ステップST2において、実行度合い算出部13は、制御部15から認識結果を受け取り、実行度合い定義記憶部14を参照して当該認識結果に対応した機能の実行度合いを算出する。実行度合い算出部13は、実行度合いの算出結果を制御部15へ出力する。
 ステップST3において、制御部15は、実行度合い算出部13から実行度合いの算出結果を受け取る。制御部15は、実行度合いが第1の基準「2」以上である場合(ステップST3“YES”)、ステップST7へ進み、認識結果に対応する機能を実行させる指示を機能実行部12へ出力する。機能実行部12は、制御部15からの指示に従い、認識結果に対応する機能を実行する。
 一方、制御部15は、実行度合いが第1の基準「2」より小さい場合(ステップST3“NO”)、ステップST4へ進む。
 ステップST4において、制御部15は、実行度合いが第2の基準「0」以下である場合(ステップST4“YES”)、処理を終了する。
 一方、制御部15は、実行度合いが第2の基準「0」より大きい場合(ステップST4“NO”)、ステップST5へ進み、認識結果に対応する機能の候補を提示して問合せを行うよう、問合せ制御部16へ指示する。問合せ制御部16は、制御部15からの指示に従い、スピーカ2またはディスプレイ3を用いて機能の候補を提示する。
 ステップST6において、ユーザがタッチパネル4を操作することによって、提示された候補の中から所望の機能を選択した場合、タッチパネル4は、選択された機能を問合せ結果として問合せ制御部16へ出力する。問合せ制御部16は、問合せ結果をタッチパネル4から受け取り、制御部15へ出力する。
 あるいは、ユーザが発話によって、提示された候補の中から所望の機能を選択した場合、音声認識部11は、マイク1を介してこの発話の音声データを受け取り、発話区間を検出して認識処理を行い、認識結果を問合せ結果として制御部15へ出力する。
 制御部15は、問合せ制御部16または音声認識部11から問合せ結果を受け取った場合(ステップST6“YES”)、ステップST7へ進み、ユーザが選択した機能を実行させる指示を機能実行部12へ出力する。機能実行部12は、制御部15からの指示に従い、ユーザが選択した機能を実行する。
 一方、制御部15は、問合せ制御部16に候補の提示を指示してから所定時間が経過するまでの間に、問合せ制御部16または音声認識部11から問合せ結果が通知されなかった場合(ステップST6“NO”)、処理を終了する。その際、問合せ制御部16は、ディスプレイ3における機能の候補の表示を終了する。
 以上のとおり、実施の形態1に係る音声認識装置10は、ユーザの発話音声を認識する音声認識部11と、音声認識部11の認識結果に対応する機能を実行する機能実行部12と、機能実行部12が認識結果に対応する機能を実行できる度合いを算出する実行度合い算出部13と、実行度合い算出部13が算出した度合いが予め定められた第1の基準以上である場合、認識結果に対応する機能を機能実行部12に実行させる制御部15とを備える構成である。認識結果に対応する機能の実行度合いが第1の基準以上である場合、ユーザの操作意図が明確であると判断して当該機能を実行することにより、ユーザは発話のみによって機能を実行させることができる。一方、認識結果に対応する機能の実行度合いが第1の基準より小さい場合、ユーザの操作意図が明確でないと判断して、ユーザの意図とは異なる誤動作の防止への利用が可能となる。
 また、実施の形態1に係る音声認識装置10は、認識結果に基づく機能実行部12が実行可能な機能の候補を提示する問合せ制御部16を備える構成である。また、制御部15は、問合せ制御部16が提示した機能の候補の中からユーザにより選択された機能を、機能実行部12に実行させる構成である。これにより、ユーザは必要最低限の追加操作により機能を実行させることができる。
 また、実施の形態1において、音声認識部11は、予め定められた音声取得期間において取得した発話音声を認識する構成である。上述したように、実施の形態1によれば誤動作を防止することができるため、音声取得期間における常時音声認識を行うことができ、従ってユーザは音声認識開始を指示することなく機能を実行させることができる。
実施の形態2.
 上記実施の形態1では、認識結果に対応した機能の実行度合いが第1の基準より小さく、かつ、第2の基準より大きい場合、機能の候補を提示してどの機能を実行するかユーザに問合せたが、本実施の形態2では、ユーザの操作意図の有無に応じて問合せ内容を変更する。
 図4は、この発明の実施の形態2に係る音声認識装置10の構成例を示すブロック図である。実施の形態2に係る音声認識装置10は、図1に示した実施の形態1の音声認識装置10に対して判断部17が追加された構成である。図4において、図1と同一または相当する部分は、同一の符号を付し説明を省略する。
 実施の形態2において、実行度合い算出部13aは、実行度合い定義記憶部14aを参照して、音声認識部11の認識結果に対応する機能の実行度合いを算出する。ここで、図5に、機能の実行度合いと音声認識装置10が行う動作との対応関係の例を示す。
 図5に示す「実行度合い定義」の例では、機能の動作を表す言葉である動詞の実行度合いの値に比べ、機能の目的を表す言葉である目的語の実行度合いの値のほうが低い。また、実行度合い「3」を第1の基準とし、実行度合い「0」を第2の基準とする。
 判断部17は、制御部15aから認識結果を受け取り、実行度合い定義記憶部14aを参照して認識結果における動詞と目的語の有無を判断することにより、ユーザが車載機器を操作する意図があるか否かを判断する。そして、判断部17は、判断結果を制御部15aへ出力する。
 実施の形態1に係る音声認識装置10においては、実行度合いが第1の基準以上である場合、ユーザの車載機器を操作する意図が明確であると判断し、第1の基準より小さい場合、ユーザの車載機器を操作する意図が明確でないと判断した。
 これに対し、本実施の形態2では、判断部17は、認識結果に動詞が存在し、かつ、この認識結果と機能実行部12が実行可能な機能との対応付けが可能な場合、ユーザが車載機器を操作する意図があると判断する。一方、判断部17は、認識結果に動詞が存在しない、または機能との対応付けが不可能であり、目的語だけが存在する場合、ユーザが車載機器を操作する意図がないと判断する。
 ここで、図6のフローチャートを用いて、実施の形態2に係る音声認識装置10の動作を説明する。音声認識装置10は、上述した予め定められた音声取得期間において、図6のフローチャートに示された処理を実行する。
 図6のステップST1~ST7は、実施の形態1における図3のステップST1~ST7と同じ処理であるため、説明を省略する。
 制御部15aは、認識結果に対応する機能の実行度合いが第1の基準「3」より小さく(ステップST3“NO”)、かつ、第2の基準「0」より大きい場合(ステップST4“NO”)、ステップST11へ進み、この認識結果を判断部17へ出力する。判断部17は、制御部15aから認識結果を受け取り、ユーザの操作意図の有無を判断し、判断結果を制御部15aへ出力する。制御部15aは、判断部17から判断結果を受け取る。
 制御部15aは、ユーザの操作意図がない場合(ステップST11“NO”)、ステップST5へ進む。一方、制御部15aは、ユーザの操作意図がある場合(ステップST11“YES”)、ステップST12へ進み、この機能の実行に必要な情報を追加する問合せを行うよう、問合せ制御部16aに指示する。問合せ制御部16aは、制御部15aからの指示に従い、スピーカ2またはディスプレイ3を用いて、ユーザに対して追加情報の問合せを行う。
 ステップST13において、制御部15aは、問合せ制御部16aまたは音声認識部11から問合せ結果である追加情報を受け取った場合(ステップST13“YES”)、ステップST2へ進み、この追加情報を実行度合い算出部13aへ出力する。実行度合い算出部13aは、最初の認識結果と追加情報とを合わせて、実行度合いを再度算出する。
 一方、制御部15aは、問合せ制御部16aに追加情報の問合せを指示してから所定時間が経過するまでの間に、問合せ制御部16aまたは音声認識部11から問合せ結果である追加情報が通知されなかった場合(ステップST13“NO”)、処理を終了する。その際、問合せ制御部16aは、ディスプレイ3における追加情報の問合せの表示を終了する。
 例えば、認識結果が「曲が聴きたい」であった場合、動詞「聴きたい」に対してオーディオ再生機能が対応付け可能であるが、「曲」では具体的なパラメータが分からないため、実行度合いは「2」となる。その場合、制御部15aは、「聴きたい曲名をお話しください」等の問合せを行うよう、問合せ制御部16aに指示する。この問合せに従ってユーザが曲名を発話すると、制御部15aは、タッチパネル4等の入力装置を利用して、またはマイク1と音声認識部11の音声入力を利用して、曲名の追加情報を取得する。そして、実行度合い算出部13aは、「曲が聴きたい」という認識結果と曲名の追加情報とを用いて、オーディオ再生機能の実行度合いを再度算出する。この例の場合、再度算出した実行度合いが「3」になるので、制御部15aは、曲を再生する指示を機能実行部12へ出力する。
 なお、制御部15aは、認識結果における目的語が明確でなくても機能が実行できる場合、問合せを行う前に機能を実行させてもよい。
 ここで、図7のフローチャートを用いて、実施の形態2に係る音声認識装置10の動作の他の例を説明する。
 ステップST21において、制御部15aは、ユーザの操作意図がない場合(ステップST21“NO”)、ステップST5へ進む。一方、制御部15aは、ユーザの操作意図がある場合(ステップST21“YES”)、ステップST22へ進み、認識結果に対応する機能の候補の中から実行優先度が一番高い機能を実行するよう、機能実行部12へ指示する。機能実行部12は、制御部15aからの指示に従い、実行優先度が一番高い機能を実行する。
 例えば、認識結果が「アップして」という動詞のみであった場合、制御部15aは、この動詞に対応するカーナビゲーションの地図拡大機能、カーオーディオの音量変更機能、およびカーエアコンディショナの温度変更機能等を候補とし、この中で実行優先度が一番高い機能を実行させる。
 実行優先度は、その機能を実行した場合にユーザへの影響が少ない機能の優先度が高くなるように予め定義しておいてもよいし、制御部15aがユーザの利用頻度に基づいて決定してもよい。
 ステップST23において、制御部15aは、実行した機能の提示およびこの機能の訂正有無の問合せを行うよう、問合せ制御部16aへ指示する。問合せ制御部16aは、制御部15aからの指示に従い、スピーカ2またはディスプレイ3を用いて実行した機能の提示およびこの機能の訂正有無の問合せを行う。その際、問合せ制御部16aは、実行優先度が低く実行されなかった機能の候補を提示して、ユーザが選択できるようにしてもよい。
 ステップST24において、制御部15aは、問合せ制御部16aまたは音声認識部11から問合せ結果として、実行した機能とは別の機能の実行を指示する認識結果等を受け取った場合(ステップST24“YES”)、ステップST2へ進み、新たな認識結果に対応する機能の実行度合いを算出するよう、実行度合い算出部13aへ指示する。その際、制御部15aは、先に実行した機能について、その実行を取り消す指示を機能実行部12に対して出力する。
 あるいは、制御部15aは、実行した機能とは別の機能の実行を指示する認識結果等を受け取った場合(ステップST24“YES”)、その認識結果等に対応する機能を実行するよう機能実行部12へ指示してもよい。
 一方、制御部15aは、問合せ制御部16aに実行した機能の訂正有無の問合せを指示してから所定時間が経過するまでの間に、問合せ制御部16aまたは音声認識部11から問合せ結果が通知されなかった場合(ステップST24“NO”)、処理を終了する。その際、問合せ制御部16aは、ディスプレイ3における問合せの表示を終了する。
 以上のとおり、実施の形態2に係る音声認識装置10は、音声認識部11の認識結果を用いてユーザの操作意図の有無を判断する判断部17と、ユーザに対して問合せを行う問合せ制御部16aとを備える構成である。そして、問合せ制御部16aは、実行度合い算出部13aが算出した実行度合いが、第2の基準より大きく、かつ、第1の基準より小さい場合、判断部17の判断結果に応じて問合せ内容を変更する。
 具体的には、問合せ制御部16aは、判断部17により操作意図があると判断された場合、機能実行部12が機能を実行するために必要な追加情報の問合せを行う。一方、問合せ制御部16aは、判断部17により操作意図がないと判断された場合、認識結果に基づく機能実行部12が実行可能な機能の候補を提示し、制御部15aは、提示した機能の候補の中からユーザにより選択された機能を機能実行部12に実行させる。これにより、ユーザは必要最低限の追加操作により機能を実行させることができる。
 なお、実行度合い算出部13aは、提示した機能の候補の中からユーザにより選択された機能を実行するために必要な情報の問合せを行ってもよい。
 例えば、図6および図7のフローチャートに示されたステップST7において、実行度合い算出部13aは、提示した機能の候補の中からユーザにより選択された機能を実行する際、この機能の実行に必要な情報が不足していると判断した場合にユーザに対して追加情報の問合せを行う。
 また、実施の形態2の図7に示したように、実行度合い算出部13aが算出した実行度合いが第2の基準より大きく、かつ、第1の基準より小さい場合であって、判断部17により操作意図があると判断された場合、制御部15aは、機能実行部12に機能を実行させ、問合せ制御部16aは、機能実行部12が実行した機能を訂正するか否か問合せを行う構成にしてもよい。これにより、追加情報が無くとも機能を実行可能な場合、ユーザは追加操作なしに機能を実行させることができる。
 また、実施の形態2によれば、制御部15aは、実行度合い算出部13aが算出した実行度合いが第2の基準以下である場合、認識結果に対応する機能を実行させない構成である。実行度合いが著しく低い機能を実行しないことにより、ユーザの意図とは異なる誤動作を防止することができる。
 次に、図8に、実施の形態2に係る音声認識装置10の変形例を示す。
 図8に示す音声認識装置10は、図4に示した実施の形態2の音声認識装置10に対してユーザ特定部18が追加された構成である。図8において、図1および図4と同一または相当する部分は、同一の符号を付し説明を省略する。
 ユーザ特定部18は、発話ユーザを特定し、音声認識部11aに通知する。音声認識部11aは、図6のフローチャートに示されたステップST12または図7のフローチャートに示されたステップST23において問合せ制御部16aが問合せを行う際に、ユーザ特定部18が特定したユーザの発話を認識処理して問合せ結果として出力する。これにより、問合せ制御部16aは、ユーザ特定部18が特定したユーザとの対話を実行することができる。以下に、特定ユーザとの対話の例を説明する。
 例えば、ユーザ特定部18は、マイク1から音声データを取得し、声紋認証を実施して発話ユーザを特定し、音声認識部11aは、特定された発話ユーザの音声データを選択的に取得して認識処理を行う。あるいは、ユーザ特定部18は、2本以上のマイク1から各音声データを取得して音源定位により発話ユーザの方向を特定し、または不図示のカメラが撮像した顔画像を取得して発話ユーザの方向を特定し、音声認識部11aは、ビームフォーミングにより発話ユーザの方向からの音声データを選択的に取得して認識処理を行う。これにより、車内の乗員のうちの特定されたユーザ以外の発話による音声認識装置10の誤動作を防止することができる。
 また、例えば、音声認識部11aは、ユーザ特定部18が特定した発話ユーザに応じた適応を行ってもよい。音声認識部11aは、ユーザごとの音声認識辞書、音響モデルまたは言語モデル等を備えており、ユーザ特定部18が特定した発話ユーザに応じて音声認識辞書等を切り替える。また、音声認識部11aは、ユーザごとの音声認識辞書等を作成するために、ユーザ特定部18が特定した発話ユーザごとに学習を行ってもよい。これにより、問合せの際の認識精度を高めることができ、誤認識による音声認識装置10の誤動作を防止することができる。
 また、例えば、制御部15aは、ユーザ特定部18が特定した発話ユーザに応じて、図7のフローチャートに示されたステップST22における実行優先度を切り替えてもよい。
 なお、図1に示した実施の形態1の音声認識装置10に対して、ユーザ特定部18を追加してもよい。この場合、図3のフローチャートに示されたステップST5において問合せ制御部16が機能の候補を提示して問合せを行う際、音声認識部11は、ユーザ特定部18が特定したユーザの発話を認識処理して問合せ結果として出力すればよい。
 最後に、図9を参照して、この発明の各実施の形態に係る音声認識装置10のハードウェア構成例を説明する。
 図1、図4および図8に示したマイク1およびタッチパネル4は、図9に示した入力装置103である。スピーカ2およびディスプレイ3は、出力装置104である。音声認識装置10における音声認識部11,11a、機能実行部12、実行度合い算出部13,13a、制御部15,15a、問合せ制御部16,16a、判断部17およびユーザ特定部18は、メモリ102に格納されているプログラムを実行するプロセッサ101である。実行度合い定義記憶部14,14aは、メモリ102である。
 音声認識部11,11a、機能実行部12、実行度合い算出部13,13a、制御部15,15a、問合せ制御部16,16a、判断部17およびユーザ特定部18の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアはプログラムとして記述され、メモリ102に格納される。プロセッサ101は、メモリ102に格納されたプログラムを読み出して実行することにより、各部の機能を実現する。即ち、音声認識装置10は、プロセッサ101により実行されるときに図3、図6または図7に示した各ステップが結果的に実行されることになるプログラムを格納するためのメモリ102を備える。また、このプログラムは、音声認識装置10の各部の手順または方法をコンピュータに実行させるものであるともいえる。
 プロセッサ101は、CPU(Central Processing Unit)、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、またはDSP(Digital Signal Processor)等ともいう。メモリ102は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)等の不揮発性または揮発性の半導体メモリであってもよいし、ハードディスク、フレキシブルディスク等の磁気ディスクであってもよいし、ミニディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)等の光ディスクであってもよい。
 なお、上記実施の形態1,2では、実行度合い算出部13,13aが音声認識部11,11aの認識結果から実行度合いを算出し、制御部15,15aが実行度合いに応じてその後の動作を決定する構成であったが、この構成に加え、特定のコマンドが発話された場合にはそのコマンドに対応した動作を実行するようにしてもよい。
 例えば、「オーディオ」というコマンドに対して「最初の楽曲を再生する機能を実行」という動作が予め制御部15,15aに定められている場合、ユーザが「オーディオ」と発話すれば制御部15,15aにより最初の楽曲再生が開始するものであってもよい。
 さらには、コマンドに対する動作としては、「機能実行」だけでなく、「追加情報問合せ」または「機能候補提示」などが定められていてもよい。つまり「オーディオ」といえば「一律に最初の楽曲を再生する」のではなく「誰の楽曲を再生しますか」「どの楽曲を再生しますか」などを問い合わせたうえで目的とする楽曲を再生するような動作があっても良い。
 なお、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。
 また、実施の形態1,2では、音声認識装置10を車両に搭載した用途を説明したが、車両以外の用途に用いてもよい。
 この発明に係る音声認識装置は、認識結果に対応する機能を実行できる度合いが第1の基準以上である場合は当該機能を実行し、それ以外の場合は当該機能をすぐには実行しないことにより誤動作を防止するようにしたので、常時音声を認識する音声認識装置などに用いるのに適している。
 1 マイク、2 スピーカ、3 ディスプレイ、4 タッチパネル、10 音声認識装置、11,11a 音声認識部、12 機能実行部、13,13a 実行度合い算出部、14,14a 実行度合い定義記憶部、15,15a 制御部、16,16a 問合せ制御部、17 判断部、18 ユーザ特定部、101 プロセッサ、102 メモリ、103 入力装置、104 出力装置。

Claims (13)

  1.  ユーザの発話音声を認識する音声認識部と、
     前記音声認識部の認識結果に対応する機能を実行する機能実行部と、
     前記機能実行部が前記認識結果に対応する機能を実行できる度合いを算出する実行度合い算出部と、
     前記実行度合い算出部が算出した度合いが予め定められた第1の基準以上である場合、前記認識結果に対応する機能を、前記機能実行部に実行させる制御部とを備える音声認識装置。
  2.  前記音声認識部の認識結果を用いてユーザの操作意図の有無を判断する判断部と、
     ユーザに対して問合せを行う問合せ制御部とを備え、
     前記問合せ制御部は、前記実行度合い算出部が算出した度合いが、前記第1の基準より小さい予め定められた第2の基準より大きく、かつ、前記第1の基準より小さい場合、前記判断部の判断結果に応じて問合せ内容を変更することを特徴とする請求項1記載の音声認識装置。
  3.  前記問合せ制御部は、前記判断部により操作意図があると判断された場合、前記機能実行部が前記機能を実行するために必要な情報の問合せを行うことを特徴とする請求項2記載の音声認識装置。
  4.  前記制御部は、前記問合せ制御部の問合せにより取得した情報を用いて、前記機能実行部に前記機能を実行させることを特徴とする請求項3記載の音声認識装置。
  5.  前記制御部は、前記実行度合い算出部が算出した度合いが前記第2の基準より大きく、かつ、前記第1の基準より小さい場合であって、前記判断部により操作意図があると判断された場合、前記機能実行部に前記機能を実行させ、
     前記問合せ制御部は、前記機能実行部が実行した前記機能を訂正するか否か問合せを行うことを特徴とする請求項2記載の音声認識装置。
  6.  発話したユーザを特定するユーザ特定部を備え、
     前記問合せ制御部は、前記ユーザ特定部が特定したユーザとの対話を実行することを特徴とする請求項3記載の音声認識装置。
  7.  前記問合せ制御部は、前記ユーザ特定部が特定したユーザとの音声対話を実行することを特徴とする請求項6記載の音声認識装置。
  8.  前記音声認識部は、前記ユーザ特定部が特定したユーザに適応した認識を行うことを特徴とする請求項6記載の音声認識装置。
  9.  前記問合せ制御部は、前記判断部により操作意図がないと判断された場合、前記認識結果に基づく前記機能実行部が実行可能な機能の候補を提示することを特徴とする請求項2記載の音声認識装置。
  10.  前記問合せ制御部は、提示した機能の候補の中からユーザにより選択された機能を実行するために必要な情報の問合せを行うことを特徴とする請求項9記載の音声認識装置。
  11.  前記制御部は、前記問合せ制御部が提示した機能の候補の中からユーザにより選択された機能を、前記機能実行部に実行させることを特徴とする請求項9記載の音声認識装置。
  12.  前記音声認識部は、予め定められた音声取得期間において取得した発話音声を認識することを特徴とする請求項1記載の音声認識装置。
  13.  前記制御部は、前記実行度合い算出部が算出した度合いが前記第2の基準以下である場合、前記認識結果に対応する機能を実行させないことを特徴とする請求項2記載の音声認識装置。
PCT/JP2016/055870 2016-02-26 2016-02-26 音声認識装置 WO2017145373A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PCT/JP2016/055870 WO2017145373A1 (ja) 2016-02-26 2016-02-26 音声認識装置
CN201680082226.8A CN108701456A (zh) 2016-02-26 2016-02-26 语音识别装置
JP2018501542A JPWO2017145373A1 (ja) 2016-02-26 2016-02-26 音声認識装置
US16/076,439 US10446155B2 (en) 2016-02-26 2016-02-26 Voice recognition device
DE112016006496.9T DE112016006496T5 (de) 2016-02-26 2016-02-26 Stimmerkennungsvorrichtung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/055870 WO2017145373A1 (ja) 2016-02-26 2016-02-26 音声認識装置

Publications (1)

Publication Number Publication Date
WO2017145373A1 true WO2017145373A1 (ja) 2017-08-31

Family

ID=59684989

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/055870 WO2017145373A1 (ja) 2016-02-26 2016-02-26 音声認識装置

Country Status (5)

Country Link
US (1) US10446155B2 (ja)
JP (1) JPWO2017145373A1 (ja)
CN (1) CN108701456A (ja)
DE (1) DE112016006496T5 (ja)
WO (1) WO2017145373A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019057123A (ja) * 2017-09-21 2019-04-11 株式会社東芝 対話システム、方法、及びプログラム
JP2020064267A (ja) * 2018-10-19 2020-04-23 エヌ・ティ・ティ・コミュニケーションズ株式会社 音声認識装置、端末、音声認識方法および音声認識プログラム
JP2020190587A (ja) * 2019-05-20 2020-11-26 カシオ計算機株式会社 ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム
JP2021096293A (ja) * 2019-12-13 2021-06-24 Necプラットフォームズ株式会社 案内システム、案内システムの制御方法、およびプログラム
JP2021174005A (ja) * 2020-04-22 2021-11-01 荘連豪 バリアフリースマート音声システムとその制御方法
WO2022176085A1 (ja) * 2021-02-18 2022-08-25 三菱電機株式会社 車載向け音声分離装置及び音声分離方法

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
CN107135443B (zh) * 2017-03-29 2020-06-23 联想(北京)有限公司 一种信号处理方法及电子设备
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
WO2019049201A1 (ja) * 2017-09-05 2019-03-14 みこらった株式会社 自動車及び自動車用プログラム
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
KR102225984B1 (ko) * 2018-09-03 2021-03-10 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK180129B1 (en) * 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112530442B (zh) * 2020-11-05 2023-11-17 广东美的厨房电器制造有限公司 语音交互方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034289A (ja) * 1999-07-16 2001-02-09 Nec Corp 自然言語を用いた対話システム
JP2004061576A (ja) * 2002-07-25 2004-02-26 Denso Corp 音声制御装置
JP2010055375A (ja) * 2008-08-28 2010-03-11 Toshiba Corp 電子機器操作指示装置およびその操作方法
JP2011237741A (ja) * 2010-05-13 2011-11-24 Nec Casio Mobile Communications Ltd 音声認識装置及びプログラム
WO2015146179A1 (ja) * 2014-03-28 2015-10-01 パナソニックIpマネジメント株式会社 音声コマンド入力装置および音声コマンド入力方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8265939B2 (en) * 2005-08-31 2012-09-11 Nuance Communications, Inc. Hierarchical methods and apparatus for extracting user intent from spoken utterances
JP4736982B2 (ja) 2006-07-06 2011-07-27 株式会社デンソー 作動制御装置、プログラム
JP6133564B2 (ja) * 2012-10-05 2017-05-24 京セラ株式会社 電子機器、制御方法、及び制御プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001034289A (ja) * 1999-07-16 2001-02-09 Nec Corp 自然言語を用いた対話システム
JP2004061576A (ja) * 2002-07-25 2004-02-26 Denso Corp 音声制御装置
JP2010055375A (ja) * 2008-08-28 2010-03-11 Toshiba Corp 電子機器操作指示装置およびその操作方法
JP2011237741A (ja) * 2010-05-13 2011-11-24 Nec Casio Mobile Communications Ltd 音声認識装置及びプログラム
WO2015146179A1 (ja) * 2014-03-28 2015-10-01 パナソニックIpマネジメント株式会社 音声コマンド入力装置および音声コマンド入力方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019057123A (ja) * 2017-09-21 2019-04-11 株式会社東芝 対話システム、方法、及びプログラム
JP2021101348A (ja) * 2017-09-21 2021-07-08 株式会社東芝 対話システム、方法、及びプログラム
JP7035239B2 (ja) 2017-09-21 2022-03-14 株式会社東芝 対話システム、方法、及びプログラム
JP2020064267A (ja) * 2018-10-19 2020-04-23 エヌ・ティ・ティ・コミュニケーションズ株式会社 音声認識装置、端末、音声認識方法および音声認識プログラム
JP7117972B2 (ja) 2018-10-19 2022-08-15 エヌ・ティ・ティ・コミュニケーションズ株式会社 音声認識装置、音声認識方法および音声認識プログラム
JP2020190587A (ja) * 2019-05-20 2020-11-26 カシオ計算機株式会社 ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム
JP7342419B2 (ja) 2019-05-20 2023-09-12 カシオ計算機株式会社 ロボットの制御装置、ロボット、ロボットの制御方法及びプログラム
JP2021096293A (ja) * 2019-12-13 2021-06-24 Necプラットフォームズ株式会社 案内システム、案内システムの制御方法、およびプログラム
JP7132206B2 (ja) 2019-12-13 2022-09-06 Necプラットフォームズ株式会社 案内システム、案内システムの制御方法、およびプログラム
JP2021174005A (ja) * 2020-04-22 2021-11-01 荘連豪 バリアフリースマート音声システムとその制御方法
WO2022176085A1 (ja) * 2021-02-18 2022-08-25 三菱電機株式会社 車載向け音声分離装置及び音声分離方法

Also Published As

Publication number Publication date
JPWO2017145373A1 (ja) 2018-08-09
US20190051306A1 (en) 2019-02-14
CN108701456A (zh) 2018-10-23
US10446155B2 (en) 2019-10-15
DE112016006496T5 (de) 2018-11-15

Similar Documents

Publication Publication Date Title
WO2017145373A1 (ja) 音声認識装置
US10706853B2 (en) Speech dialogue device and speech dialogue method
JP4260788B2 (ja) 音声認識機器制御装置
JP4131978B2 (ja) 音声認識機器制御装置
EP1450349B1 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
US9159319B1 (en) Keyword spotting with competitor models
JP2005331882A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP2006201749A (ja) 音声による選択装置、及び選択方法
JP4867622B2 (ja) 音声認識装置、および音声認識方法
WO2017042906A1 (ja) 車載用音声認識装置および車載機器
JP7023823B2 (ja) 車載装置及び音声認識方法
JP2006208486A (ja) 音声入力装置
JP4770374B2 (ja) 音声認識装置
JP2008268571A (ja) 音声認識装置、その音声認識方法
JP2011203434A (ja) 音声認識装置及び音声認識方法
JP5074759B2 (ja) 対話制御装置、対話制御方法及び対話制御プログラム
JP4440502B2 (ja) 話者認証システム及び方法
WO2019202351A1 (ja) 機器制御装置及び機器を制御する制御方法
JP2004029354A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP6811865B2 (ja) 音声認識装置および音声認識方法
KR20220037187A (ko) 차량용 음성 인식 장치, 이를 이용한 차량 문제상황 처리 방법 및 컴퓨터 프로그램
JP2016102823A (ja) 情報処理システム、音声入力装置及びコンピュータプログラム
JP2006023444A (ja) 音声対話装置
US20090254335A1 (en) Multilingual weighted codebooks
JP7069730B2 (ja) 情報処理装置、方法、及びプログラム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018501542

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16891530

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16891530

Country of ref document: EP

Kind code of ref document: A1