WO2021044569A1 - 音声認識補助装置および音声認識補助方法 - Google Patents

音声認識補助装置および音声認識補助方法 Download PDF

Info

Publication number
WO2021044569A1
WO2021044569A1 PCT/JP2019/034922 JP2019034922W WO2021044569A1 WO 2021044569 A1 WO2021044569 A1 WO 2021044569A1 JP 2019034922 W JP2019034922 W JP 2019034922W WO 2021044569 A1 WO2021044569 A1 WO 2021044569A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice recognition
vehicle
information
key phrase
unit
Prior art date
Application number
PCT/JP2019/034922
Other languages
English (en)
French (fr)
Inventor
慶太 山室
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2021543881A priority Critical patent/JP7242873B2/ja
Priority to PCT/JP2019/034922 priority patent/WO2021044569A1/ja
Publication of WO2021044569A1 publication Critical patent/WO2021044569A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Definitions

  • the present invention relates to a voice recognition assisting device and a voice recognition assisting method.
  • the voice recognition device generally starts the voice recognition process after the switch (H / W key or S / W key) is pressed by the user.
  • a voice recognition device that activates a voice recognition process based on a specific key phrase uttered by a user has become the mainstream.
  • the specific key phrase for activating the voice recognition process is called a wakeup word, for example, "OK, google (registered trademark)” for Android (registered trademark) and "Hey, Siri (registered trademark)” for iPhone (registered trademark). Registered trademark) ”is known.
  • a wakeup word for example, "OK, google (registered trademark)" for Android (registered trademark) and "Hey, Siri (registered trademark)” for iPhone (registered trademark). Registered trademark) ”is known.
  • the user can start the voice recognition process just by speaking a specific key phrase, so even in situations where you cannot take your hand off, such as while driving, or even from a place slightly away from the terminal. Users can now use speech recognition without
  • the voice recognition device may erroneously detect a specific key phrase that is a wakeup word, and voice recognition may start at an unexpected timing.
  • voice recognition in a car there is a high possibility that a conversation with a passenger or ambient sounds will enter the utterance of the user. In that case, a specific key phrase is erroneously detected, and voice recognition starts at a timing not intended by the user.
  • the present invention has been made to solve the above problems, and an object of the present invention is to provide a voice recognition assisting device capable of suppressing false detection of a specific key phrase by a voice recognition device.
  • the voice recognition assisting device determines a criterion for detecting a specific key phrase for a voice recognition device that detects a specific key phrase included in a voice spoken by a user and starts voice recognition. Control to change.
  • the voice recognition assisting device includes a vehicle status information acquisition unit and a determination standard changing unit.
  • the vehicle status information acquisition unit acquires vehicle status information including information on the movement of the mouth of a passenger of the vehicle as a user or information on the vehicle status.
  • the judgment standard changing unit controls the voice recognition device to change the judgment standard based on the vehicle condition information.
  • a voice recognition assisting device that suppresses erroneous detection of a specific key phrase by a voice recognition device.
  • FIG. It is a block diagram which shows the structure of the voice recognition assist device in Embodiment 1.
  • FIG. It is a figure which shows an example of the structure of the processing circuit included in the voice recognition assist device. It is a figure which shows another example of the structure of the processing circuit included in the voice recognition assist device.
  • Embodiment 4 It is a block diagram which shows the structure of the voice recognition system and the voice recognition auxiliary device in Embodiment 4. It is a block diagram which shows the structure of the voice recognition system and the voice recognition auxiliary device in Embodiment 5. It is a figure which shows an example of the voice recognition number of times stored in the history information storage part in Embodiment 5. It is a flowchart which shows the voice recognition assistance method in Embodiment 5. It is a block diagram which shows the structure of the voice recognition system and the voice recognition auxiliary device in Embodiment 6. It is a flowchart which shows the voice recognition assistance method in Embodiment 6. It is a block diagram which shows the structure of the voice recognition assist device and the device which operates in connection with it in Embodiment 7.
  • FIG. 1 is a block diagram showing a configuration of the voice recognition assisting device 100 according to the first embodiment.
  • the voice recognition device 200 connected to the voice recognition assisting device 100 has a function of analyzing the voice spoken by the user, detecting a specific key phrase included in the voice, and starting voice recognition.
  • the specific key phrase is a so-called wake-up word, which is registered in advance in the voice recognition device 200.
  • the voice recognition device 200 recognizes the specific key phrase based on the determination criteria. For example, the voice recognition device 200 determines the degree of matching or approximation between the user's voice and a specific key phrase based on a determination criterion. When the degree of coincidence or the degree of approximation satisfies the determination criterion, the voice recognition device 200 determines that a specific key phrase has been detected.
  • the criterion may be, for example, a score or a discrete level such as “high”, “medium”, or “low”. Alternatively, the criterion may be a binary value of "recognizing” or “not recognizing” a specific key phrase.
  • the voice recognition device 200 detects a specific key phrase, the voice recognition device 200 starts voice recognition for the voice uttered thereafter.
  • the voice recognition assisting device 100 controls the voice recognition device 200 to change the determination criteria for detecting a specific key phrase.
  • the voice recognition assisting device 100 includes a vehicle status information acquisition unit 10 and a determination standard changing unit 20.
  • the vehicle status information acquisition unit 10 acquires vehicle status information.
  • the vehicle status information includes information on the movement of the mouth of a passenger of the vehicle as a user, or information on the vehicle status.
  • the vehicle status information is detected by a sensor 110 mounted on the vehicle or an in-vehicle device 120.
  • a passenger in a vehicle is, for example, a driver or a person sitting in the passenger seat.
  • the information regarding the movement of the passenger's mouth is, for example, the degree of opening / closing of the passenger's mouth or the information of the opening / closing pattern of the mouth.
  • the vehicle state information is information on the open / closed state of the window of the vehicle, information on the position and time of the vehicle, or information on the number of passengers in the vehicle.
  • These vehicle status information are information related to sound generation factors that can be input to the voice recognition device 200 during the voice recognition processing by the voice recognition device 200. For example, the sound input to the voice recognition device 200 even though the mouth is closed is likely to be noise. Alternatively, the sound input to the voice recognition device 200 with the window open is likely to be noise outside the vehicle.
  • the voice input to the voice recognition device 200 may not be spoken by the user.
  • the voice recognition device 200 may not be spoken by the user.
  • the judgment standard changing unit 20 controls the voice recognition device 200 to change the judgment standard based on the vehicle condition information.
  • FIG. 2 is a diagram showing an example of the configuration of the processing circuit 90 included in the voice recognition assisting device 100.
  • Each function of the vehicle status information acquisition unit 10 and the determination standard changing unit 20 is realized by the processing circuit 90. That is, the processing circuit 90 has a vehicle status information acquisition unit 10 and a determination standard changing unit 20.
  • the processing circuit 90 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (Application Specific Integrated Circuit), or an FPGA (Field). -ProgrammableGateArray), or a circuit that combines these.
  • Each function of the vehicle condition information acquisition unit 10 and the determination standard changing unit 20 may be individually realized by a plurality of processing circuits, or may be collectively realized by one processing circuit.
  • FIG. 3 is a diagram showing another example of the configuration of the processing circuit included in the voice recognition assisting device 100.
  • the processing circuit includes a processor 91 and a memory 92.
  • each function of the vehicle status information acquisition unit 10 and the determination standard changing unit 20 is realized.
  • each function is realized by executing software or firmware described as a program by the processor 91.
  • the voice recognition assisting device 100 has a memory 92 for storing the program and a processor 91 for executing the program.
  • the voice recognition assisting device 100 acquires vehicle status information including information on the movement of the mouth of a passenger of the vehicle as a user or vehicle status information, and determines a determination criterion based on the vehicle status information. A function of performing control to change the voice recognition device 200 is described.
  • the program causes the computer to execute the procedure or method of the vehicle status information acquisition unit 10 and the determination standard changing unit 20.
  • the processor 91 is, for example, a CPU (Central Processing Unit), an arithmetic unit, a microprocessor, a microcomputer, a DSP (Digital Signal Processor), or the like.
  • the memory 92 is, for example, non-volatile or volatile such as RAM (RandomAccessMemory), ROM (ReadOnlyMemory), flash memory, EPROM (ErasableProgrammableReadOnlyMemory), and EEPROM (ElectricallyErasableProgrammableReadOnlyMemory). It is a semiconductor memory.
  • the memory 92 may be any storage medium used in the future, such as a magnetic disk, a flexible disk, an optical disk, a compact disk, a mini disk, or a DVD.
  • vehicle status information acquisition unit 10 and the determination standard change unit 20 described above may be realized by dedicated hardware, and some of them may be realized by software or firmware.
  • the processing circuit realizes each of the above-mentioned functions by hardware, software, firmware, or a combination thereof.
  • FIG. 4 is a flowchart showing the voice recognition assist method according to the first embodiment.
  • step S1 the vehicle status information acquisition unit 10 acquires vehicle status information.
  • step S2 the determination standard changing unit 20 controls the voice recognition device 200 to change the determination standard based on the vehicle condition information.
  • the voice recognition device 200 detects a specific key phrase included in the voice spoken by the passenger based on the determination criteria changed by the voice recognition assist device 100. When a specific key phrase is detected, the voice recognition device 200 starts voice recognition.
  • the voice recognition assisting device 100 has a specific key phrase with respect to the voice recognition device 200 that detects a specific key phrase included in the voice spoken by the user and starts voice recognition. Control is performed to change the judgment criteria for detecting.
  • the voice recognition assisting device 100 includes a vehicle status information acquisition unit 10 and a determination standard changing unit 20.
  • the vehicle status information acquisition unit 10 acquires vehicle status information including information on the movement of the mouth of a passenger of the vehicle as a user or information on the vehicle status.
  • the determination standard changing unit 20 controls the voice recognition device 200 to change the determination standard based on the vehicle condition information.
  • Such a voice recognition assisting device 100 assists the voice recognition device 200 in determining a specific key phrase, and suppresses erroneous detection of the specific key phrase.
  • the voice recognition assisting method is for detecting a specific key phrase with respect to the voice recognition device 200 that detects a specific key phrase included in the voice spoken by the user and starts voice recognition. Controls to change the judgment criteria of.
  • the voice recognition assist method obtains vehicle status information including information on the mouth movement of the passenger of the vehicle, which is the user, or information on the vehicle status, and controls to change the judgment criteria based on the vehicle status information by voice. This is performed for the recognition device 200.
  • Such a voice recognition assisting method assists the voice recognition device 200 in determining a specific key phrase, and suppresses erroneous detection of the specific key phrase.
  • the voice recognition assisting device and the voice recognition assisting method according to the second embodiment will be described.
  • the second embodiment is a subordinate concept of the first embodiment, and the voice recognition assisting device according to the second embodiment includes each configuration of the voice recognition assisting device 100 according to the first embodiment. The same configuration and operation as in the first embodiment will not be described.
  • FIG. 5 is a block diagram showing the configurations of the voice recognition system 301 and the voice recognition assisting device 101 according to the second embodiment.
  • the voice recognition system 301 includes a voice recognition assisting device 101 and a voice recognition device 200.
  • the voice recognition assist device 101 includes a vehicle status information acquisition unit 10A, a vehicle status determination unit 30, and a determination standard changing unit 20.
  • the vehicle status information acquisition unit 10A includes the passenger information acquisition unit 11.
  • the passenger information acquisition unit 11 sequentially acquires information on the state of the occupant among the vehicle status information detected by the sensor 110 such as a camera provided in the vehicle.
  • the passenger information acquisition unit 11 in the second embodiment includes the opening degree information acquisition unit 11A, the line-of-sight information acquisition unit 11B, and the face orientation information acquisition unit 11C.
  • the opening degree information acquisition unit 11A acquires opening degree information indicating the opening / closing degree of the passenger's mouth or the opening / closing pattern of the mouth as information regarding the state of the passenger.
  • the opening / closing pattern is a time-series change in the degree of opening / closing of the mouth and the shape of the opening.
  • the line-of-sight information acquisition unit 11B acquires the line-of-sight information of the passenger as information regarding the state of the passenger.
  • the face orientation information acquisition unit 11C acquires the face orientation information of the passenger as information regarding the condition of the passenger.
  • the vehicle status determination unit 30 determines the passenger status based on the vehicle status information. For example, the vehicle condition determination unit 30 is operated by (A) a state in which the passenger has a closed mouth, (B) a state in which the passenger has an open mouth, and (C) a state in which the passenger has an open mouth. It is determined that the state in which the line of sight is directed to the screen and (D) the state in which the passenger has his mouth open and both his face and line of sight are directed to the operation screen.
  • the determination standard changing unit 20 sequentially controls the voice recognition device 200 to change the determination standard based on the passenger's condition. For example, the determination standard changing unit 20 changes the existing determination standard based on the passenger's condition, and outputs the changed determination standard to the key phrase determination unit 220 of the voice recognition device 200, which will be described later. Alternatively, the determination standard changing unit 20 may output a command to the voice recognition device 200 to change the determination standard based on the state of the passenger. In that case, the key phrase determination unit 220 of the voice recognition device 200, which will be described later, changes the determination criteria according to the command.
  • the determination standard changing unit 20 changes the determination criteria in the order of (A) ⁇ (B) ⁇ (C) ⁇ (D) so that the voice recognition device 200 is less likely to recognize a specific key phrase. ..
  • the determination standard changing unit 20 raises the determination standard. As a result, it becomes difficult for the voice recognition device 200 to recognize a specific key phrase.
  • the determination standard changing unit 20 lowers the determination standard. As a result, the voice recognition device 200 can easily recognize a specific key phrase.
  • the functions of the vehicle status information acquisition unit 10A, the vehicle condition determination unit 30, and the determination standard changing unit 20 are realized by the processing circuit shown in FIG. 2 or FIG.
  • the voice recognition device 200 includes a voice acquisition unit 210, a key phrase determination unit 220, a voice recognition activation unit 230, and a voice recognition unit 240.
  • the voice acquisition unit 210 acquires the voice of the passenger detected by the microphone 130 in the vehicle.
  • the key phrase determination unit 220 analyzes the voice spoken by the user and determines the degree of matching between the voice and the specific key phrase based on the determination criteria.
  • the specific key phrase is registered in the voice recognition device 200 in advance.
  • the voice recognition activation unit 230 activates the voice recognition processing function of the voice recognition unit 240 based on the determination result of the key phrase determination unit 220.
  • the voice recognition unit 240 performs voice recognition processing on the voice uttered by the passenger after that.
  • the functions of the voice acquisition unit 210, the key phrase determination unit 220, the voice recognition activation unit 230, and the voice recognition unit 240 are realized by the processing circuit shown in FIG. 2 or FIG.
  • the processing circuit of the voice recognition device 200 may be separate from or integrated with the processing circuit of the voice recognition assisting device 101.
  • FIG. 6 is a flowchart showing the voice recognition assist method according to the second embodiment.
  • the user of the voice recognition assisting device 101 and the voice recognition device 200 is a driver.
  • the information about the passenger's condition as the vehicle status information is the information about the driver's condition or the information about the passenger's condition is determined, for example, by analyzing an image taken by a camera that detects the passenger's condition. It can be distinguished by doing.
  • step S10 the opening degree information acquisition unit 11A acquires the opening degree information of the driver detected by the sensor 110.
  • the opening degree information acquisition unit 11A acquires opening degree information indicating the degree of opening / closing of the driver's mouth.
  • step S20 the vehicle condition determination unit 30 determines the degree of opening / closing of the mouth based on the opening degree information.
  • step S30 the vehicle condition determination unit 30 determines whether or not the driver's mouth is open. If the mouth is not open, step S40 is performed. If the mouth is open, step S50 is performed.
  • step S40 the judgment standard changing unit 20 changes the judgment standard to "high".
  • the voice input to the voice recognition device 200 when the driver's mouth is not open is not the voice based on the driver's utterance.
  • the key phrase determination unit 220 of the voice recognition device 200 becomes difficult to recognize a specific key phrase.
  • step S140 is executed.
  • step S50 the line-of-sight information acquisition unit 11B acquires the line-of-sight information of the driver detected by the sensor 110.
  • step S60 the vehicle condition determination unit 30 determines the line-of-sight direction based on the line-of-sight information.
  • step S70 the vehicle condition determination unit 30 determines whether or not the driver's line of sight is directed toward the car navigation system. If the line of sight is not directed to the car navigation system, step S80 is executed. When the line of sight is directed to the car navigation system, step S90 is executed.
  • step S80 the judgment standard changing unit 20 changes the judgment standard to "medium".
  • the driver's mouth is open, but the line of sight is not facing the car navigation system.
  • the voice input to the voice recognition device 200 in this state may or may not be a voice based on the driver's utterance. Therefore, the criterion is changed to "medium”.
  • step S140 is executed.
  • step S90 the face orientation information acquisition unit 11C acquires the driver's face orientation information detected by the sensor 110.
  • step S100 the vehicle condition determination unit 30 determines the direction of the face based on the face orientation information.
  • step S110 the vehicle condition determination unit 30 determines whether or not the driver's face is facing the car navigation system. If the face is not facing the car navigation system, step S120 is executed. If the face is facing the car navigation system, step S130 is executed.
  • step S120 the judgment standard changing unit 20 changes the judgment standard to "low".
  • the driver's mouth is open and the line of sight is directed toward the car navigation system, but the face is not directed toward the car navigation system.
  • the voice input to the voice recognition device 200 in this state is likely to be a voice based on the utterance of the driver. Therefore, the criterion is changed to "low”.
  • the key phrase determination unit 220 of the voice recognition device 200 can easily recognize a specific key phrase.
  • step S140 is executed.
  • step S130 the judgment standard changing unit 20 changes the judgment standard to "minimum".
  • the driver's mouth is open and the line of sight and face are facing the car navigation system.
  • the voice input to the voice recognition device 200 in this state is very likely to be a voice based on the utterance of the driver. Therefore, the criterion is changed to "minimum”.
  • the key phrase determination unit 220 of the voice recognition device 200 can more easily recognize a specific key phrase.
  • step S140 is executed.
  • step S140 the key phrase determination unit 220 determines the degree of matching between the driver's voice and the specific key phrase based on the changed determination criteria.
  • the voice recognition activation unit 230 activates the voice recognition processing function of the voice recognition unit 240.
  • the voice recognition unit 240 performs voice recognition processing on the voice uttered by the driver thereafter.
  • the vehicle status information acquisition unit 10A in the second embodiment includes the passenger information acquisition unit 11.
  • the passenger information acquisition unit 11 acquires information on the movement of the mouth of the occupant of the vehicle among the vehicle status information detected by the sensor 110 provided in the vehicle.
  • Information on the movement of the occupant's mouth includes information on the degree of opening and closing of the occupant's mouth or the opening and closing pattern of the mouth.
  • Such a voice recognition assisting device 101 determines a situation in which a passenger who is a user is speaking to the voice recognition device 200.
  • the voice recognition assisting device 101 determines that the passenger is speaking to the voice recognition device 200
  • the voice recognition assisting device 101 changes the determination criteria so that the voice recognition device 200 can easily recognize a specific key phrase.
  • the voice recognition assisting device 101 changes the determination criteria so that the voice recognition device 200 does not easily recognize a specific key phrase. As a result, the false detection of a specific key phrase by the voice recognition device 200 is reduced, and the user is not given an unpleasant impression.
  • a voice recognition system 301 it is not necessary for the user to select a specific key phrase that is unlikely to be erroneously detected in advance. Even if the user freely sets a specific key phrase, the voice recognition system 301 accurately detects the specific key phrase. In this way, the voice recognition system 301 provides high usability.
  • a voice recognition technology that omits the detection under specific conditions and directly starts voice recognition.
  • a voice recognition process is executed without requiring a specific key phrase if the utterance is made within a certain period of time after the end of the voice dialogue.
  • usability is low because it is limited to specific conditions.
  • the voice recognition assisting device 101 according to the second embodiment enables accurate voice recognition processing under a wide range of conditions in order to reduce the frequency of false positives themselves.
  • the voice recognition assisting device 101 sequentially acquires vehicle status information and sequentially controls to change the determination criteria based on the vehicle status information. Therefore, the voice recognition assisting device 101 can accurately change the determination standard even when the vehicle condition is suddenly changed, and can reduce erroneous detection.
  • the voice recognition assisting device 101 can be attached to the existing voice recognition device 200 as an external device.
  • the opening degree information acquisition unit 11A may acquire the opening degree information indicating the opening / closing pattern of the driver's mouth instead of the opening degree information indicating the opening / closing degree of the driver's mouth.
  • the vehicle condition determination unit 30 determines the opening / closing pattern of the driver's mouth acquired by the opening degree information acquisition unit 11A and the opening / closing pattern of the mouth when a specific key phrase is spoken. Based on this, the degree of opening and closing of the driver's mouth and the time-series change in the opening shape are determined.
  • the opening / closing pattern of the mouth when a specific key phrase is spoken is registered in advance in the voice recognition assisting device 101.
  • step S30 the vehicle condition determination unit 30 determines whether or not the two opening / closing patterns match. If the open / close patterns do not match, step S40 is executed, and if they match, step S50 is executed.
  • step S40 is executed, and if they match, step S50 is executed.
  • Such a voice recognition assisting device 101 also has the same effect as described above.
  • the determination criteria may be predetermined for each detected passenger condition, that is, for each vehicle condition information.
  • the determination criteria predetermined for each vehicle status information are stored in the voice recognition assisting device 101 or the voice recognition device 200.
  • the judgment criteria may be arbitrarily set by the user's operation. For example, in the case of (A) or (B) above, it is possible to set a determination criterion so that the voice recognition device 200 does not recognize a specific key phrase. Further, in the case of (C), it is possible to set a determination criterion that makes it difficult for the voice recognition device 200 to recognize a specific key phrase. Further, in the case of (D), it is possible to set a determination criterion so that the voice recognition device 200 can easily recognize a specific key phrase.
  • the determination standard changing unit 20 in the above-described second embodiment controls to change the determination standard based on all of the opening degree information, the line-of-sight information, and the face orientation information.
  • the above control may be performed based on the above.
  • the determination standard changing unit 20 may control the determination criteria based on a combination of information that can be detected by the sensor 110 provided in the vehicle.
  • the voice recognition assisting device and the voice recognition assisting method according to the third embodiment will be described.
  • the third embodiment is a subordinate concept of the first embodiment, and the voice recognition assisting device according to the third embodiment includes each configuration of the voice recognition assisting device 100 according to the first embodiment.
  • the description of the configuration and operation similar to those of the first or second embodiment will be omitted.
  • FIG. 7 is a block diagram showing the configurations of the voice recognition system 302 and the voice recognition assisting device 102 according to the third embodiment.
  • the voice recognition assisting device 102 includes a vehicle status information acquisition unit 10B, a vehicle status determination unit 30, and a determination standard changing unit 20.
  • the vehicle status information acquisition unit 10B includes the vehicle information acquisition unit 12.
  • the vehicle information acquisition unit 12 sequentially acquires information on the vehicle condition among the vehicle condition information detected by the sensor 110 provided in the vehicle or the in-vehicle device 120.
  • the vehicle information acquisition unit 12 in the third embodiment includes an in-vehicle device information acquisition unit 12A and a passenger number information acquisition unit 12B.
  • the in-vehicle device information acquisition unit 12A acquires information on the open / closed state of the window of the vehicle and information on the position and time of the vehicle as information on the vehicle state.
  • the information is detected by the in-vehicle device 120.
  • the passenger number information acquisition unit 12B acquires information on the number of passengers in the vehicle as information regarding the vehicle state. Information on the number of passengers in the vehicle is detected, for example, by analyzing an image inside the vehicle acquired by a sensor 110 such as a camera.
  • the vehicle condition determination unit 30 determines the vehicle condition based on the vehicle condition information. For example, the vehicle status determination unit 30 determines (E) the open / closed state of the window, (F) the vehicle usage scene (for example, commuting use, private use, etc.), and (G) the presence / absence status of the passenger. ..
  • the vehicle usage scene is determined based on the position and time of the vehicle. For example, if the position of the vehicle is between the home and the place of work and the time is a weekday morning, it is determined that the vehicle is used for commuting. Or, for example, if the vehicle is located between the home and the leisure facility and the time is daytime on a holiday, it is determined to be for private use.
  • the determination standard changing unit 20 sequentially controls the voice recognition device 200 to change the determination standard based on the vehicle state.
  • the determination criterion in the third embodiment is a binary value of "recognize” or "not recognize”. That is, when the determination criterion is "recognize", the key phrase determination unit 220 of the voice recognition device 200 analyzes the voice acquired by the voice acquisition unit 210 and executes a process for recognizing a specific key phrase. To do. When the determination criterion is "not recognized”, the key phrase determination unit 220 does not execute a process for analyzing the voice and recognizing a specific key phrase.
  • the judgment standard changing unit 20 changes the judgment standard to "not recognized” when, for example, the window of the vehicle is open. Alternatively, the determination criterion changing unit 20 changes the determination criterion to "recognize” when the window of the vehicle is closed. Similarly, the determination criterion changing unit 20 changes the determination criterion to "not recognize” when there is a passenger in the vehicle. Alternatively, the determination criterion changing unit 20 changes the determination criterion to "recognize” when there is no passenger in the vehicle. Similarly, the determination standard changing unit 20 changes the determination standard according to the usage scene of the vehicle.
  • the functions of the vehicle status information acquisition unit 10B, the vehicle condition determination unit 30, and the determination standard changing unit 20 are realized by the processing circuit shown in FIG. 2 or FIG.
  • FIG. 8 is a flowchart showing the voice recognition assist method according to the third embodiment.
  • the user of the voice recognition assisting device 102 and the voice recognition device 200 is a driver.
  • step S210 the in-vehicle device information acquisition unit 12A acquires information on the open / closed state of the vehicle window detected by the in-vehicle device 120.
  • step S220 the vehicle condition determination unit 30 determines the open / closed state of the window.
  • step S230 the vehicle condition determination unit 30 determines whether or not the window is closed. If the window is open, step S240 is executed. If the window is closed, step S250 is performed.
  • step S240 the judgment standard changing unit 20 changes the judgment standard to "not recognized".
  • the window of the vehicle is open.
  • voices other than those spoken by the driver such as wind noise and external noise, will enter the voice input to the voice recognition device 200 in this state.
  • the key phrase determination unit 220 of the voice recognition device 200 does not recognize a specific key phrase.
  • step S340 is executed.
  • step S250 the in-vehicle device information acquisition unit 12A acquires information on the position and time of the vehicle detected by the in-vehicle device 120.
  • step S260 the vehicle status determination unit 30 determines the usage scene based on the vehicle position and time information.
  • step S270 the vehicle condition determination unit 30 determines whether or not it is for private use. For private use, step S280 is executed. If it is not for private use, step S290 is executed.
  • step S280 the judgment standard changing unit 20 changes the judgment standard to "not recognized".
  • the window of the vehicle is closed and the vehicle is for private use.
  • the criterion is changed to "not recognized”.
  • step S340 is executed.
  • step S290 the passenger number information acquisition unit 12B acquires information on the number of passengers detected by the sensor 110.
  • step S300 the vehicle status determination unit 30 determines the number of passengers on board.
  • step S310 the vehicle condition determination unit 30 determines whether or not the number of passengers is two or more. If the number of passengers is two or more, step S320 is executed. If the number of passengers is one, step S330 is executed.
  • step S320 the judgment standard changing unit 20 changes the judgment standard to "not recognized".
  • the window of the vehicle is closed, the vehicle is not for private use, and the number of passengers is two or more.
  • the criterion is changed to "not recognized”.
  • step S340 is executed.
  • step S330 the judgment standard changing unit 20 changes the judgment standard to "recognize".
  • the window of the vehicle is closed, the vehicle is not for private use, and the number of passengers is one. It is unlikely that the voice input to the voice recognition device 200 in this state will include voice other than the voice spoken by the driver. Therefore, the criterion is changed to "recognize”. As a result, the key phrase determination unit 220 of the voice recognition device 200 can recognize a specific key phrase.
  • step S340 is executed.
  • step S340 the key phrase determination unit 220 determines the degree of matching between the passenger's voice and the specific key phrase based on the changed determination criteria.
  • the voice recognition activation unit 230 activates the voice recognition processing function of the voice recognition unit 240.
  • the voice recognition unit 240 performs voice recognition processing on the voice uttered by the passenger thereafter.
  • the vehicle status information acquisition unit 10B in the third embodiment includes the vehicle information acquisition unit 12.
  • the vehicle information acquisition unit 12 acquires information on the vehicle condition among the vehicle condition information detected by the sensor 110 provided on the vehicle or the in-vehicle device 120.
  • the vehicle state information includes information on the open / closed state of the vehicle window, information on the position and time of the vehicle, or information on the number of passengers in the vehicle.
  • Such a voice recognition assisting device 102 determines a situation in which a voice other than the utterance of the passenger who is the user is likely to enter the voice recognition device 200. When the possibility is high, the voice recognition assisting device 102 changes the determination criteria so that the voice recognition device 200 does not recognize a specific key phrase. The voice recognition assisting device 102 suppresses erroneous detection of a key phrase in an environmental sound other than the voice of a passenger (driver) who is a user.
  • the judgment standard changing unit 20 does not need to control the vehicle to change the judgment standard based on all of the information on the open / closed state of the window of the vehicle, the information on the position and time of the vehicle, and the information on the number of passengers in the vehicle.
  • the control may be performed based on a combination of information that can be detected by the provided sensor 110 or the in-vehicle device 120.
  • the judgment criteria may be arbitrarily set by the user's operation. For example, when the window of the vehicle is open, it is possible to set a determination criterion so that the voice recognition device 200 does not recognize a specific key phrase. Alternatively, when the user is commuting to work, the voice recognition device 200 can be set to a determination criterion for recognizing a specific key phrase. Alternatively, when a passenger is present, the voice recognition device 200 can be set to a determination criterion for recognizing a specific key phrase.
  • the voice recognition assisting device and the voice recognition assisting method according to the fourth embodiment will be described.
  • the fourth embodiment is a subordinate concept of the first embodiment, and the voice recognition assisting device according to the fourth embodiment includes each configuration of the voice recognition assisting device according to the first embodiment.
  • the same configuration and operation as any of the first to third embodiments will be omitted.
  • FIG. 9 is a block diagram showing the configurations of the voice recognition system 303 and the voice recognition assisting device 103 according to the fourth embodiment.
  • the vehicle status information acquisition unit 10C includes both the passenger information acquisition unit 11 shown in the first embodiment and the vehicle information acquisition unit 12 shown in the third embodiment.
  • the vehicle condition determination unit 30 determines the occupant's condition and the vehicle condition by combining the information on the occupant's condition and the information on the vehicle condition.
  • the determination standard changing unit 20 controls the voice recognition device 200 to change the determination standard based on the determination result of the vehicle condition determination unit 30.
  • Such a voice recognition assisting device 103 more accurately suppresses erroneous detection of a specific key phrase.
  • the voice recognition assisting device and the voice recognition assisting method according to the fifth embodiment will be described.
  • the fifth embodiment is a subordinate concept of the first embodiment, and the voice recognition assisting device according to the fifth embodiment includes each configuration of the voice recognition assisting device 100 according to the first embodiment.
  • the same configuration and operation as any of the first to fourth embodiments will be omitted.
  • FIG. 10 is a block diagram showing the configurations of the voice recognition system 304 and the voice recognition assisting device 104 according to the fifth embodiment.
  • the voice recognition assisting device 104 includes a vehicle status information acquisition unit 10C, a vehicle status determination unit 30, a determination standard change unit 20, and a history information storage unit 40.
  • the vehicle status information acquisition unit 10C includes both the passenger information acquisition unit 11 shown in the first embodiment and the vehicle information acquisition unit 12 shown in the third embodiment.
  • the vehicle condition determination unit 30 determines the occupant's condition and the vehicle condition by combining the information on the occupant's condition and the information on the vehicle condition.
  • the determination standard changing unit 20 controls the voice recognition device 200 to change the determination standard based on the determination result of the vehicle condition determination unit 30, that is, based on the passenger's condition and the vehicle condition.
  • the history information storage unit 40 stores the number of voice recognitions by the voice recognition device 200 for each occupant status and vehicle status information acquired by the vehicle status information acquisition unit 10C, that is, for each vehicle status information. ..
  • the number of voice recognition means that the voice recognition device 200 detects a specific key phrase based on the judgment standard changed by the judgment standard changing unit 20, and then starts voice recognition for the voice of the passenger.
  • the number of times FIG. 11 is a diagram showing an example of the number of voice recognition times stored in the history information storage unit 40 according to the fifth embodiment.
  • the history information storage unit 40 adds the number of voice recognition times when the passenger continuously speaks after the key phrase determination unit 220 of the voice recognition device 200 detects a specific key phrase. On the other hand, when the history information storage unit 40 does not continuously speak after the key phrase determination unit 220 detects a specific key phrase, or when the passenger speaks a content that terminates the voice recognition process, the history information storage unit 40 speaks. Minus the number of voice recognitions.
  • the number of voice recognitions corresponding to the vehicle status information acquired by the vehicle status information acquisition unit 10C is predetermined. If the number of times is more than the specified number, the judgment criteria are relaxed.
  • the functions of the vehicle status information acquisition unit 10C, the vehicle condition determination unit 30, the determination standard change unit 20, and the history information storage unit 40 are realized by the processing circuit shown in FIG. 2 or FIG.
  • FIG. 12 is a flowchart showing the voice recognition assist method according to the fifth embodiment. This flowchart shows the operation of the voice recognition system 304 after the key phrase determination unit 220 of the voice recognition device 200 detects a specific key phrase.
  • the user of the voice recognition assisting device 102 and the voice recognition device 200 is a driver.
  • step S410 the voice recognition activation unit 230 activates the voice recognition processing function of the voice recognition unit 240.
  • step S420 the voice recognition unit 240 determines whether or not the driver's voice has been recognized. If the driver's voice is not recognized, step S430 is executed. If the driver's voice is recognized, step S460 is executed.
  • step S430 the voice recognition unit 240 notifies the history information storage unit 40 to subtract the number of voice recognitions.
  • step S440 the history information storage unit 40 acquires the vehicle status information at the time of voice recognition by the voice recognition unit 240 from the vehicle status determination unit 30.
  • step S450 the history information storage unit 40 deducts the number of voice recognitions corresponding to the vehicle status information.
  • step S500 is executed.
  • step S460 the voice recognition unit 240 determines whether or not the utterance that terminates the voice recognition process has been recognized. When the utterance that ends the voice recognition process is recognized, step S430 is executed. If the utterance that ends the voice recognition process is not recognized, step S470 is executed.
  • step S470 the voice recognition unit 240 notifies the history information storage unit 40 to add the number of voice recognitions.
  • step S480 the history information storage unit 40 acquires the vehicle status information at the time of voice recognition by the voice recognition unit 240 from the vehicle status determination unit 30.
  • step S490 the history information storage unit 40 adds the number of voice recognitions corresponding to the vehicle status information.
  • step S500 is executed.
  • step S500 the determination standard changing unit 20 determines whether or not the number of voice recognitions corresponding to the current vehicle status information exceeds a predetermined first reference value. If the number of voice recognitions does not exceed a predetermined first reference value, step S510 is executed. If the value exceeds a predetermined first reference value, step S520 is executed.
  • step S510 the determination standard changing unit 20 determines whether or not the number of voice recognitions corresponding to the current vehicle status information is less than the predetermined second reference value. When the number of voice recognitions is less than the predetermined second reference value, step S520 is executed. If the predetermined second reference value is not broken, the voice recognition assist method ends.
  • step S520 the judgment standard changing unit 20 strengthens the judgment standard. This makes it difficult for the key phrase determination unit 220 of the voice recognition device 200 to recognize a specific key phrase.
  • step S530 the determination standard changing unit 20 relaxes the determination standard.
  • the key phrase determination unit 220 of the voice recognition device 200 can easily recognize a specific key phrase.
  • the voice recognition assisting device 104 in the fifth embodiment includes the history information storage unit 40.
  • the history information storage unit 40 stores the number of voice recognitions for each vehicle status information acquired by the vehicle status information acquisition unit 10C.
  • the number of times of voice recognition is the number of times that the voice recognition device 200 starts voice recognition for the voice continuously spoken by the passenger after detecting a specific key phrase based on the determination criterion.
  • the determination standard changing unit 20 has a predetermined number of times of voice recognition corresponding to the vehicle status information acquired by the vehicle status information acquisition unit 10C. In some cases, relax the criteria.
  • Such a voice recognition assisting device 104 accurately changes the determination criteria so that the voice recognition device 200 does not erroneously detect a specific key phrase.
  • the voice recognition assisting device and the voice recognition assisting method according to the sixth embodiment will be described.
  • the sixth embodiment is a subordinate concept of the first embodiment, and the voice recognition assisting device according to the sixth embodiment includes each configuration of the voice recognition assisting device 100 according to the first embodiment.
  • the same configuration and operation as any of the first to fifth embodiments will be omitted.
  • FIG. 13 is a block diagram showing the configurations of the voice recognition system 305 and the voice recognition assisting device 105 according to the sixth embodiment.
  • the voice recognition assisting device 105 includes a vehicle status information acquisition unit 10C, a vehicle status determination unit 30, a determination standard change unit 20, and a key phrase omission determination unit 50.
  • the key phrase omission determination unit 50 controls the voice recognition device 200 to start voice recognition by omitting the detection of a specific key phrase based on the vehicle situation information.
  • the voice recognition system 305 omits the detection of the specific key phrase and starts the voice recognition when the vehicle condition is a specific state.
  • the specific state is, for example, a state in which the passenger's mouth is open, a state in which the vehicle window is closed, or a state in which there is no passenger.
  • the key phrase omission determination unit 50 controls the key phrase determination unit 220 to omit detection of a specific key phrase when the vehicle condition is in a specific state. Further, the key phrase omission determination unit 50 controls the voice recognition activation unit 230 to activate the voice recognition processing function of the voice recognition unit 240 without waiting for the detection of a specific key phrase.
  • the functions of the vehicle status information acquisition unit 10C, the vehicle status determination unit 30, and the determination standard changing unit 20 are the same as those of other embodiments.
  • the functions of the vehicle status information acquisition unit 10C, the vehicle condition determination unit 30, the determination standard change unit 20, and the key phrase omission determination unit 50 are realized by the processing circuit shown in FIG. 2 or FIG.
  • FIG. 14 is a flowchart showing the voice recognition assist method according to the sixth embodiment.
  • step S610 the vehicle status information acquisition unit 10C acquires the vehicle status information.
  • This step S610 corresponds to, for example, steps S10, S50 or S90 shown in FIG. Alternatively, it corresponds to S210, S250, and S290 shown in FIG.
  • step S620 the vehicle condition determination unit 30 determines the vehicle condition.
  • This step S620 corresponds to, for example, steps S20, S60 or S100 shown in FIG. Alternatively, it corresponds to S220, S260, S300 shown in FIG.
  • both the function of the determination standard changing unit 20 and the function of the key phrase omission determination unit 50 are executed. Since the function of the determination standard changing unit 20 is the same as that of the other embodiments, the description thereof will be omitted.
  • step S630 the key phrase omission determination unit 50 determines whether or not the vehicle condition is in a specific state. If it is determined that the state is not specific, the voice recognition assist method ends. If it is determined that the state is specific, step S640 is executed.
  • step S640 the key phrase omission determination unit 50 controls the voice recognition device 200 to start voice recognition by omitting the detection of a specific key phrase.
  • the key phrase omission determination unit 50 controls the key phrase determination unit 220 to omit the detection of a specific key phrase.
  • the key phrase omission determination unit 50 controls the voice recognition activation unit 230 to activate the voice recognition processing function of the voice recognition unit 240 without waiting for the detection of a specific key phrase.
  • the voice recognition unit 240 performs voice recognition processing on the voice spoken by the passenger.
  • the voice recognition assisting device 105 in the sixth embodiment includes the key phrase omission determination unit 50.
  • the key phrase omission determination unit 50 controls the voice recognition device 200 to start the voice recognition by omitting the detection of the specific key phrase based on the vehicle situation information.
  • Such a voice recognition assisting device 105 can omit the detection of a specific key phrase.
  • the voice recognition assisting device shown in each of the above embodiments is also applied to a system constructed by appropriately combining a navigation device, a communication terminal, a server, and the functions of applications installed in the navigation device. Can be done.
  • the navigation device includes, for example, a PND (Portable Navigation Device) and the like.
  • Communication terminals include, for example, mobile terminals such as mobile phones, smartphones and tablets.
  • FIG. 15 is a block diagram showing a configuration of the voice recognition assisting device 100 and the device operating in connection therewith according to the seventh embodiment.
  • a voice recognition assisting device 100, a voice recognition device 200, and a communication device 160 are provided in the server 400.
  • the voice recognition assisting device 100 acquires vehicle status information from the sensor 110 or the in-vehicle device 120 provided in the vehicle 1 via the communication device 140 and the communication device 160.
  • the voice recognition assisting device 100 controls the voice recognition device 200 to change the determination criteria based on the vehicle condition information.
  • the voice recognition device 200 performs voice recognition processing on the voice acquired by the microphone 130 provided in the vehicle 1, and outputs a response to the speaker 150 provided in the vehicle 1 via each communication device.
  • the voice recognition assisting device 100 By arranging the voice recognition assisting device 100 on the server 400 in this way, the configuration of the in-vehicle device can be simplified.
  • voice recognition assisting device 100 may be provided in the server 400, and some of the other components may be provided in the vehicle 1 in a distributed manner.
  • each embodiment can be freely combined, and each embodiment can be appropriately modified or omitted within the scope of the invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Traffic Control Systems (AREA)

Abstract

音声認識装置による特定のキーフレーズの誤検出を抑制することが可能な音声認識補助装置の提供を目的とする。音声認識補助装置は、ユーザが発話した音声に含まれる特定のキーフレーズを検出して音声認識を開始する音声認識装置に対して、特定のキーフレーズを検出するための判定基準を変更する制御を行う。音声認識補助装置は、車両状況情報取得部および判定基準変更部を含む。車両状況情報取得部は、ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態に関する情報を含む車両状況情報を取得する。判定基準変更部は、車両状況情報に基づいて判定基準を変更する制御を、音声認識装置に対して行う。

Description

音声認識補助装置および音声認識補助方法
 本発明は、音声認識補助装置および音声認識補助方法に関する。
 従来、音声認識装置は、ユーザによってスイッチ(H/WキーやS/Wキー)が押下された後に、音声認処理を開始するのが一般的であった。近年では、ユーザによって発話される特定のキーフレーズに基づいて音声認識処理を起動させる音声認識装置が主流である。音声認識処理を起動させるための特定のキーフレーズは、ウェイクアップワードと言われ、例えば、Android(登録商標)の「OK, google(登録商標)」やiPhone(登録商標)の「Hey, Siri(登録商標)」などが知られている。このウェイクアップワードにより、ユーザは特定のキーフレーズを発話するだけで音声認識処理を開始させることができるため、運転中など、手を離すことができない状況や、端末から少し離れた場所からでも、ユーザは手操作なしで音声認識を使用することが可能となった。
特開2015-219440号公報
 他者の会話や周辺の環境音などの騒音が大きい場合、音声認識装置がウェイクアップワードである特定のキーフレーズを誤検出し、想定外のタイミングで音声認識が起動する可能性がある。特に、自動車内での音声認識においては、同乗者との会話または周囲の環境音などが、ユーザによる発話に入り込む可能性が高い。その場合、特定のキーフレーズが誤検出され、ユーザが意図しないタイミングで音声認識が開始する。
 本発明は、以上のような課題を解決するためになされたものであり、音声認識装置による特定のキーフレーズの誤検出を抑制することが可能な音声認識補助装置の提供を目的とする。
 本発明に係る音声認識補助装置は、ユーザが発話した音声に含まれる特定のキーフレーズを検出して音声認識を開始する音声認識装置に対して、特定のキーフレーズを検出するための判定基準を変更する制御を行う。音声認識補助装置は、車両状況情報取得部および判定基準変更部を含む。車両状況情報取得部は、ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態に関する情報を含む車両状況情報を取得する。判定基準変更部は、車両状況情報に基づいて判定基準を変更する制御を、音声認識装置に対して行う。
 本発明によれば、音声認識装置による特定のキーフレーズの誤検出を抑制する音声認識補助装置の提供が可能である。
 本発明の目的、特徴、局面、および利点は、以下の詳細な説明と添付図面とによって、より明白になる。
実施の形態1における音声認識補助装置の構成を示すブロック図である。 音声認識補助装置が含む処理回路の構成の一例を示す図である。 音声認識補助装置が含む処理回路の構成の別の一例を示す図である。 実施の形態1における音声認識補助方法を示すフローチャートである。 実施の形態2における音声認識システムおよび音声認識補助装置の構成を示すブロック図である。 実施の形態2における音声認識補助方法を示すフローチャートである。 実施の形態3における音声認識システムおよび音声認識補助装置の構成を示すブロック図である。 実施の形態3における音声認識補助方法を示すフローチャートである。 実施の形態4における音声認識システムおよび音声認識補助装置の構成を示すブロック図である。 実施の形態5における音声認識システムおよび音声認識補助装置の構成を示すブロック図である。 実施の形態5における履歴情報記憶部に記憶される音声認識回数の一例を示す図である。 実施の形態5における音声認識補助方法を示すフローチャートである。 実施の形態6における音声認識システムおよび音声認識補助装置の構成を示すブロック図である。 実施の形態6における音声認識補助方法を示すフローチャートである。 実施の形態7における音声認識補助装置およびそれに関連して動作する装置の構成を示すブロック図である。
 <実施の形態1>
 図1は、実施の形態1における音声認識補助装置100の構成を示すブロック図である。
 音声認識補助装置100に接続される音声認識装置200は、ユーザが発話した音声を解析し、その音声に含まれる特定のキーフレーズを検出して音声認識を開始する機能を有する。特定のキーフレーズとは、いわゆる、ウェイクアップワードであり、音声認識装置200に予め登録されている。音声認識装置200は、その特定のキーフレーズを判定基準に基づいて認識する。例えば、音声認識装置200は、ユーザの音声と特定のキーフレーズとの一致度または近似度を、判定基準に基づいて判定する。一致度または近似度が判定基準を満たしている場合、音声認識装置200は、特定のキーフレーズを検出したと判断する。判定基準は、例えば、スコアであってもよいし、「高」、「中」、「低」などの離散的なレベルであってもよい。または、判定基準は、特定のキーフレーズを「認識する」あるいは「認識しない」の二値であってもよい。音声認識装置200は、特定のキーフレーズを検出した場合、その後に発話される音声に対して音声認識を開始する。
 音声認識補助装置100は、その音声認識装置200に対して、特定のキーフレーズを検出するための判定基準を変更する制御を行う。音声認識補助装置100は、車両状況情報取得部10および判定基準変更部20を含む。
 車両状況情報取得部10は、車両状況情報を取得する。車両状況情報とは、ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態の情報を含む。車両状況情報は、車両に搭載されたセンサー110または車載機器120によって検出される。車両の搭乗者とは、例えば、ドライバーまたは助手席に座っている者である。
 搭乗者の口の動きに関する情報は、例えば、搭乗者の口の開閉度、または、口の開閉パターンの情報である。車両状態の情報は、車両の窓の開閉状態の情報、車両の位置および時刻の情報、または、車両の乗車人数の情報である。これらの車両状況情報は、音声認識装置200による音声認識処理の際、音声認識装置200に入力され得る音の発生要因に関連する情報である。例えば、口が閉じているにも関わらず音声認識装置200に入力される音は、雑音である可能性が高い。または、窓が開いている状態で音声認識装置200に入力される音は、車両の外部の騒音である可能性が高い。または、車両の位置と時刻とに基づいて判別される車両の利用シーンによっては、音声認識装置200に入力される音声がユーザによる発話でない場合がある。または、多数の同乗者がいる場合には、ユーザではない同乗者の音声が音声認識装置200に入力される可能性が高い。
 判定基準変更部20は、車両状況情報に基づいて、判定基準を変更する制御を、音声認識装置200に対して行う。
 図2は、音声認識補助装置100が含む処理回路90の構成の一例を示す図である。車両状況情報取得部10および判定基準変更部20の各機能は、処理回路90により実現される。すなわち、処理回路90は、車両状況情報取得部10および判定基準変更部20を有する。
 処理回路90が専用のハードウェアである場合、処理回路90は、例えば、単一回路、複合回路、プログラム化されたプロセッサ、並列プログラム化されたプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせた回路等である。車両状況情報取得部10および判定基準変更部20の各機能は、複数の処理回路により個別に実現されてもよいし、1つの処理回路によりまとめて実現されてもよい。
 図3は、音声認識補助装置100が含む処理回路の構成の別の一例を示す図である。処理回路は、プロセッサ91とメモリ92とを有する。プロセッサ91がメモリ92に格納されるプログラムを実行することにより、車両状況情報取得部10および判定基準変更部20の各機能が実現される。例えば、プログラムとして記述されたソフトウェアまたはファームウェアがプロセッサ91により実行されることにより各機能が実現される。このように、音声認識補助装置100は、プログラムを格納するメモリ92と、そのプログラムを実行するプロセッサ91とを有する。
 プログラムには、音声認識補助装置100が、ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態の情報を含む車両状況情報を取得し、車両状況情報に基づいて、判定基準を変更する制御を、音声認識装置200に対して行う機能が記述されている。また、プログラムは、車両状況情報取得部10および判定基準変更部20の手順または方法をコンピュータに実行させるものである。
 プロセッサ91は、例えば、CPU(Central Processing Unit)、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)等である。メモリ92は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)等の、不揮発性または揮発性の半導体メモリである。または、メモリ92は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等、今後使用されるあらゆる記憶媒体であってもよい。
 上述した車両状況情報取得部10および判定基準変更部20の各機能は、一部が専用のハードウェアによって実現され、他の一部がソフトウェアまたはファームウェアにより実現されてもよい。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現する。
 図4は、実施の形態1における音声認識補助方法を示すフローチャートである。
 ステップS1にて、車両状況情報取得部10は、車両状況情報を取得する。
 ステップS2にて、判定基準変更部20は、車両状況情報に基づいて、判定基準を変更する制御を、音声認識装置200に対して行う。
 その後、音声認識装置200は、音声認識補助装置100にて変更された判定基準に基づいて、搭乗者が発話した音声に含まれる特定のキーフレーズを検出する。特定のキーフレーズを検出した場合には、音声認識装置200は音声認識を開始する。
 以上をまとめると、実施の形態1における音声認識補助装置100は、ユーザが発話した音声に含まれる特定のキーフレーズを検出して音声認識を開始する音声認識装置200に対して、特定のキーフレーズを検出するための判定基準を変更する制御を行う。音声認識補助装置100は、車両状況情報取得部10および判定基準変更部20を含む。車両状況情報取得部10は、ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態に関する情報を含む車両状況情報を取得する。判定基準変更部20は、車両状況情報に基づいて判定基準を変更する制御を、音声認識装置200に対して行う。
 このような音声認識補助装置100は、音声認識装置200による特定のキーフレーズの判定動作を補助し、その特定のキーフレーズの誤検出を抑制する。
 また、実施の形態1における音声認識補助方法は、ユーザが発話した音声に含まれる特定のキーフレーズを検出して音声認識を開始する音声認識装置200に対して、特定のキーフレーズを検出するための判定基準を変更する制御を行う。音声認識補助方法は、ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態に関する情報を含む車両状況情報を取得し、車両状況情報に基づいて判定基準を変更する制御を、音声認識装置200に対して行う。
 このような音声認識補助方法は、音声認識装置200による特定のキーフレーズの判定動作を補助し、その特定のキーフレーズの誤検出を抑制する。
 <実施の形態2>
 実施の形態2における音声認識補助装置および音声認識補助方法を説明する。実施の形態2は実施の形態1の下位概念であり、実施の形態2における音声認識補助装置は、実施の形態1における音声認識補助装置100の各構成を含む。なお、実施の形態1と同様の構成および動作については説明を省略する。
 図5は、実施の形態2における音声認識システム301および音声認識補助装置101の構成を示すブロック図である。音声認識システム301は音声認識補助装置101および音声認識装置200を含む。
 音声認識補助装置101は、車両状況情報取得部10A、車両状況判定部30および判定基準変更部20を含む。
 車両状況情報取得部10Aは、搭乗者情報取得部11を含む。搭乗者情報取得部11は、車両に設けられたカメラ等のセンサー110によって検出される車両状況情報のうち、搭乗者の状態に関する情報を、逐次取得する。実施の形態2における搭乗者情報取得部11は、開口度情報取得部11A、視線情報取得部11Bおよび顔向き情報取得部11Cを含む。
 開口度情報取得部11Aは、搭乗者の状態に関する情報として、搭乗者の口の開閉度合い、または口の開閉パターンを示す開口度情報を取得する。開閉パターンとは、口の開閉度合いおよび開口形状の時系列変化である。視線情報取得部11Bは、搭乗者の状態に関する情報として、搭乗者の視線情報を取得する。顔向き情報取得部11Cは、搭乗者の状態に関する情報として、搭乗者の顔向き情報を取得する。これら開口度情報、視線情報および顔向き情報は、例えば、カメラによって取得される搭乗者の顔画像を解析することによって検出される。
 車両状況判定部30は、車両状況情報に基づき、搭乗者の状態を判定する。例えば、車両状況判定部30は、(A)搭乗者が口を閉じている状態、(B)搭乗者が口を開けている状態、(C)搭乗者が口を開けており、かつ、操作画面に視線を向けている状態、(D)搭乗者が口を開けており、かつ、操作画面に顔および視線の両方を向けている状態、を判定する。
 判定基準変更部20は、搭乗者の状態に基づいて、判定基準を変更する制御を、逐次、音声認識装置200に対して行う。例えば、判定基準変更部20は、搭乗者の状態に基づいて既存の判定基準を変更し、変更された判定基準を後述する音声認識装置200のキーフレーズ判定部220に出力する。または、判定基準変更部20は、搭乗者の状態に基づいて、音声認識装置200に対し判定基準を変更するよう指令を出力してもよい。その場合、後述する音声認識装置200のキーフレーズ判定部220がその指令に従い、判定基準を変更する。
 判定基準変更部20は、例えば、上記の(A)→(B)→(C)→(D)の順に、音声認識装置200が特定のキーフレーズを認識しにくくなるよう、判定基準を変更する。搭乗者の状態が(A)の状態である場合、判定基準変更部20は、判定基準を上げる。その結果、音声認識装置200は特定のキーフレーズを認識しにくくなる。または、搭乗者の状態が(D)の状態である場合、判定基準変更部20は、判定基準を下げる。その結果、音声認識装置200は特定のキーフレーズを認識しやすくなる。
 車両状況情報取得部10A、車両状況判定部30および判定基準変更部20の機能は、図2または図3に示される処理回路によって実現される。
 音声認識装置200は、音声取得部210、キーフレーズ判定部220、音声認識起動部230および音声認識部240を含む。
 音声取得部210は、車両内のマイク130が検出する搭乗者の音声を取得する。
 キーフレーズ判定部220は、ユーザが発話した音声を解析し、その音声と特定のキーフレーズとの一致度を、判定基準に基づいて判定する。特定のキーフレーズは、音声認識装置200に予め登録されている。
 音声認識起動部230は、キーフレーズ判定部220の判定結果に基づいて、音声認識部240の音声認識処理機能を起動させる。
 音声認識部240は、その後に搭乗者が発話する音声に対して音声認識処理を行う。
 音声取得部210、キーフレーズ判定部220、音声認識起動部230および音声認識部240の機能は、図2または図3に示される処理回路によって実現される。音声認識装置200の処理回路は、音声認識補助装置101の処理回路とは別であってもよいし、一体であってもよい。
 図6は、実施の形態2における音声認識補助方法を示すフローチャートである。ここでは、音声認識補助装置101および音声認識装置200のユーザがドライバーである例を示す。車両状況情報としての搭乗者の状態に関する情報が、ドライバーの状態に関する情報であるか、または同乗者の状態に関する情報であるかは、例えば、搭乗者の状態を検出するカメラが撮影する画像を解析することによって区別可能である。
 ステップS10にて、開口度情報取得部11Aは、センサー110によって検出されるドライバーの開口度情報を取得する。ここでは、開口度情報取得部11Aは、ドライバーの口の開閉度合いを示す開口度情報を取得する。
 ステップS20にて、車両状況判定部30は、開口度情報に基づいて、口の開閉度合いを判定する。
 ステップS30にて、車両状況判定部30は、ドライバーの口が開いているか否かを判定する。口が開いていない場合、ステップS40が実行される。口が開いている場合、ステップS50が実行される。
 ステップS40にて、判定基準変更部20は、判定基準を「高」に変更する。ドライバーの口が開いていない状態で、音声認識装置200に入力される音声は、ドライバーの発話に基づく音声ではない。判定基準を「高」に変更することで、音声認識装置200のキーフレーズ判定部220は、特定のキーフレーズを認識しにくくなる。次に、ステップS140が実行される。
 ステップS50にて、視線情報取得部11Bは、センサー110によって検出されるドライバーの視線情報を取得する。
 ステップS60にて、車両状況判定部30は、視線情報に基づいて、視線方向を判定する。
 ステップS70にて、車両状況判定部30は、ドライバーの視線がカーナビへ向いているか否かを判定する。視線がカーナビへ向いていない場合、ステップS80が実行される。視線がカーナビへ向いている場合、ステップS90が実行される。
 ステップS80にて、判定基準変更部20は、判定基準を「中」に変更する。この状態は、ドライバーの口が開いているものの、視線がカーナビに向いていない状態である。この状態で音声認識装置200に入力される音声は、ドライバーの発話に基づく音声である可能性、および、そうではない可能性のいずれもある。そのため、判定基準は「中」に変更される。次に、ステップS140が実行される。
 ステップS90にて、顔向き情報取得部11Cは、センサー110によって検出されるドライバーの顔向き情報を取得する。
 ステップS100にて、車両状況判定部30は、顔向き情報に基づいて、顔の方向を判定する。
 ステップS110にて、車両状況判定部30は、ドライバーの顔がカーナビへ向いているか否かを判定する。顔がカーナビへ向いていない場合、ステップS120が実行される。顔がカーナビへ向いている場合、ステップS130が実行される。
 ステップS120にて、判定基準変更部20は、判定基準を「低」に変更する。この状態は、ドライバーの口が開いており、かつ、視線がカーナビに向いているものの、顔がカーナビに向いていない状態である。この状態で音声認識装置200に入力される音声は、ドライバーの発話に基づく音声である可能性が高い。そのため、判定基準は「低」に変更される。これにより、音声認識装置200のキーフレーズ判定部220は、特定のキーフレーズを認識しやすくなる。次に、ステップS140が実行される。
 ステップS130にて、判定基準変更部20は、判定基準を「最低」に変更する。この状態は、ドライバーの口が開いており、かつ、視線および顔がカーナビに向いている状態である。この状態で音声認識装置200に入力される音声は、ドライバーの発話に基づく音声である可能性が非常に高い。そのため、判定基準は「最低」に変更される。これにより、音声認識装置200のキーフレーズ判定部220は、特定のキーフレーズをより認識しやすくなる。次に、ステップS140が実行される。
 ステップS140にて、キーフレーズ判定部220は、変更された判定基準に基づいて、ドライバーの音声と特定のキーフレーズとの一致度を判定する。
 その後、ドライバーの音声と特定のキーフレーズとが一致していると判定された場合、音声認識起動部230は、音声認識部240の音声認識処理機能を起動させる。音声認識部240は、その後にドライバーが発話する音声に対して音声認識処理を行う。
 以上をまとめると、実施の形態2における車両状況情報取得部10Aは、搭乗者情報取得部11を含む。搭乗者情報取得部11は、車両に設けられたセンサー110によって検出される車両状況情報のうち、車両の搭乗者の口の動きに関する情報を取得する。搭乗者の口の動きに関する情報は、搭乗者の口の開閉度、または、口の開閉パターンの情報を含む。
 このような音声認識補助装置101は、ユーザである搭乗者が音声認識装置200に対して発話している状況を判断する。音声認識補助装置101は、搭乗者が音声認識装置200に対して発話していると判断した場合、音声認識装置200が特定のキーフレーズを認識しやすくなるよう、判定基準を変更する。搭乗者が音声認識装置200に対して発話していないと判断した場合には、音声認識補助装置101は、音声認識装置200が特定のキーフレーズを認識しにくくなるよう、判定基準を変更する。その結果、音声認識装置200による特定のキーフレーズの誤検出が低減し、ユーザに不快な印象を与えることがなくなる。
 また、このような音声認識システム301においては、ユーザが予め誤検出されにくい特定のキーフレーズを選定する必要がない。ユーザが自由に特定のキーフレーズを設定した場合であっても、音声認識システム301は正確にその特定のキーフレーズを検出する。このように、音声認識システム301は高いユーザビリティを提供する。
 また、特定のキーフレーズの誤検出を避けるため、特定条件下において、その検出を省略して、直接、音声認識を開始する音声認識技術が知られている。例えば、そのような音声認識技術においては、音声対話の終了後の一定時間内の発話であれば特定のキーフレーズを必要とすることなく、音声認識処理が実行される。しかし、特定条件下に限定されるため、ユーザビリティが低い。それに対して、実施の形態2における音声認識補助装置101は、誤検出そのものの頻度を低減させるため、幅広い条件下で正確な音声認識処理を可能とする。
 また、音声認識補助装置101は、逐次、車両状況情報を取得し、その車両状況情報に基づいて判定基準を変更する制御も、逐次行っている。そのため、音声認識補助装置101は、車両状況の急な変化に対しても、正確に判定基準を変更する制御を行うことができ、誤検出を低減させることができる。
 また、音声認識補助装置101は、既存の音声認識装置200に外部装置として取り付けることも可能である。言い換えると、既存の音声認識装置200に音声認識補助装置101を取り付けるだけで、上記の効果を奏する音声認識システム301を構築可能である。
 (実施の形態2の変形例1)
 図6のステップS10において、開口度情報取得部11Aは、ドライバーの口の開閉度合いを示す開口度情報に代えて、ドライバーの口の開閉パターンを示す開口度情報を取得してもよい。その場合、ステップS20において、車両状況判定部30は、開口度情報取得部11Aにて取得されたドライバーの口の開閉パターンと、特定のキーフレーズが発話される際の口の開閉パターンと、に基づいて、ドライバーの口の開閉度合いおよび開口形状の時系列変化を判定する。特定のキーフレーズが発話される際の口の開閉パターンは、予め音声認識補助装置101に登録されている。ステップS30において、車両状況判定部30は、それら2つの開閉パターンが一致するか否かを判定する。開閉パターンが一致しない場合、ステップS40が実行され、一致している場合、ステップS50が実行される。このような音声認識補助装置101も、上記と同様の効果を奏する。
 (実施の形態2の変形例2)
 判定基準は、検出される搭乗者の状態ごとに、すなわち車両状況情報ごとに、予め定められたものであってもよい。その場合、車両状況情報ごとに予め定められた判定基準は、音声認識補助装置101または音声認識装置200に記憶されている。
 または、判定基準は、ユーザの操作により任意に設定可能であってもよい。例えば、上記(A)または(B)の場合、音声認識装置200が特定のキーフレーズを認識しないような判定基準に設定可能である。また(C)の場合、音声認識装置200が特定のキーフレーズを認識しにくいような判定基準に設定可能である。また(D)の場合、音声認識装置200が特定のキーフレーズを認識しやすいような判定基準に設定可能である。
 また、上記の実施の形態2にける判定基準変更部20は、開口度情報、視線情報および顔向き情報の全てに基づいて、判定基準を変更する制御を行ったが、いずれか1つの情報に基づいて上記制御を行ってもよい。例えば、判定基準変更部20は、車両に設けられたセンサー110が検出できる情報の組み合わせに基づいて、その制御を行ってもよい。
 <実施の形態3>
 実施の形態3における音声認識補助装置および音声認識補助方法を説明する。実施の形態3は実施の形態1の下位概念であり、実施の形態3における音声認識補助装置は、実施の形態1における音声認識補助装置100の各構成を含む。なお、実施の形態1または2と同様の構成および動作については説明を省略する。
 図7は、実施の形態3における音声認識システム302および音声認識補助装置102の構成を示すブロック図である。音声認識補助装置102は、車両状況情報取得部10B、車両状況判定部30および判定基準変更部20を含む。
 車両状況情報取得部10Bは、車両情報取得部12を含む。車両情報取得部12は、車両に設けられたセンサー110または車載機器120によって検出される車両状況情報のうち、車両状態に関する情報を、逐次取得する。実施の形態3における車両情報取得部12は、車載機器情報取得部12Aおよび乗車人数情報取得部12Bを含む。
 車載機器情報取得部12Aは、車両状態に関する情報として、車両の窓の開閉状態の情報、車両の位置および時刻の情報を取得する。それらの情報は、車載機器120によって検出される。乗車人数情報取得部12Bは、車両状態に関する情報として、車両の乗車人数の情報を取得する。車両の乗車人数の情報は、例えば、カメラ等のセンサー110によって取得される車内の画像を解析することによって検出される。
 車両状況判定部30は、車両状況情報に基づき、車両状態を判定する。例えば、車両状況判定部30は、(E)窓の開閉状態、(F)車両の利用シーン(例えば、通勤時の利用、プライベートの利用など)、(G)同乗者の存否状態、を判定する。なお、車両の利用シーンは、車両の位置および時刻に基づいて判定される。例えば、車両の位置が自宅と勤務地との間であり、時刻が平日の朝である場合、通勤時の利用と判定される。または例えば、車両の位置が自宅とレジャー施設との間であり、時刻が休日の昼間である場合、プライベートの利用と判定される。
 判定基準変更部20は、車両状態に基づいて、判定基準を変更する制御を、逐次、音声認識装置200に対して行う。実施の形態3における判定基準は、「認識する」もしくは「認識しない」の二値である。すなわち、音声認識装置200のキーフレーズ判定部220は、判定基準が「認識する」の場合、音声取得部210にて取得された音声を解析して特定のキーフレーズを認識するための処理を実行する。判定基準が「認識しない」の場合、キーフレーズ判定部220は、その音声を解析して特定のキーフレーズを認識するための処理を実行しない。
 判定基準変更部20は、例えば、車両の窓が開いている場合、判定基準を「認識しない」に変更する。または、判定基準変更部20は、車両の窓が閉じている場合、判定基準を「認識する」に変更する。同様に、判定基準変更部20は、車内に同乗者が存在する場合、判定基準を「認識しない」に変更する。または、判定基準変更部20は、車内に同乗者が存在しない場合、判定基準を「認識する」に変更する。同様に、判定基準変更部20は、車両の利用シーンに応じて判定基準を変更する。
 車両状況情報取得部10B、車両状況判定部30および判定基準変更部20の機能は、図2または図3に示される処理回路によって実現される。
 図8は、実施の形態3における音声認識補助方法を示すフローチャートである。ここでは、音声認識補助装置102および音声認識装置200のユーザがドライバーである例を示す。
 ステップS210にて、車載機器情報取得部12Aは、車載機器120によって検出される車両の窓の開閉状態の情報を取得する。
 ステップS220にて、車両状況判定部30は、窓の開閉状態を判定する。
 ステップS230にて、車両状況判定部30は、窓が閉じているか否かを判定する。窓が開いている場合、ステップS240が実行される。窓が閉じている場合、ステップS250が実行される。
 ステップS240にて、判定基準変更部20は、判定基準を「認識しない」に変更する。この状態は、車両の窓が開いている状態である。この状態で音声認識装置200に入力される音声には、ドライバーによる発話以外の音声、例えば、風の音や外部の騒音等が入り込む可能性が高い。判定基準を「認識しない」に変更することで、音声認識装置200のキーフレーズ判定部220は、特定のキーフレーズを認識しなくなる。次に、ステップS340が実行される。
 ステップS250にて、車載機器情報取得部12Aは、車載機器120によって検出される車両の位置および時刻の情報を取得する。
 ステップS260にて、車両状況判定部30は、車両の位置および時刻の情報に基づいて、利用シーンを判定する。
 ステップS270にて、車両状況判定部30は、プライベートな利用であるか否かを判定する。プライベートな利用である場合、ステップS280が実行される。プライベートな利用でない場合、ステップS290が実行される。
 ステップS280にて、判定基準変更部20は、判定基準を「認識しない」に変更する。この状態は、車両の窓が閉じており、かつ、プライベートな利用である状態である。この状態で音声認識装置200に入力される音声には、ドライバーによる発話以外の音声が入り込む可能性が高い。そのため、判定基準は「認識しない」に変更される。次に、ステップS340が実行される。
 ステップS290にて、乗車人数情報取得部12Bは、センサー110によって検出される乗車人数の情報を取得する。
 ステップS300にて、車両状況判定部30は、搭乗者の乗車人数を判定する。
 ステップS310にて、車両状況判定部30は、乗車人数は2人以上か否かを判定する。乗車人数が2人以上である場合、ステップS320が実行される。乗車人数が1人である場合、ステップS330が実行される。
 ステップS320にて、判定基準変更部20は、判定基準を「認識しない」に変更する。この状態は、車両の窓が閉じており、プライベートな利用ではなく、かつ、乗車人数が2人以上の状態である。この状態で音声認識装置200に入力される音声には、ドライバーによる発話以外の音声が入り込む可能性が高い。そのため、判定基準は「認識しない」に変更される。次に、ステップS340が実行される。
 ステップS330にて、判定基準変更部20は、判定基準を「認識する」に変更する。この状態は、車両の窓が閉じており、プライベートな利用ではなく、かつ、乗車人数が1人の状態である。この状態で音声認識装置200に入力される音声には、ドライバーによる発話以外の音声が入り込む可能性は低い。そのため、判定基準は「認識する」に変更される。これにより、音声認識装置200のキーフレーズ判定部220は、特定のキーフレーズを認識することができる。次に、ステップS340が実行される。
 ステップS340にて、キーフレーズ判定部220は、変更された判定基準に基づいて、搭乗者の音声と特定のキーフレーズとの一致度を判定する。
 その後、搭乗者の音声と特定のキーフレーズとが一致していると判定された場合、音声認識起動部230は、音声認識部240の音声認識処理機能を起動させる。音声認識部240は、その後に搭乗者が発話する音声に対して音声認識処理を行う。
 以上をまとめると、実施の形態3における車両状況情報取得部10Bは、車両情報取得部12を含む。車両情報取得部12は、車両に設けられたセンサー110または車載機器120によって検出される車両状況情報のうち、車両状態に関する情報を取得する。車両状態の情報は、車両の窓の開閉状態の情報、車両の位置と時刻との情報、または、車両の乗車人数の情報を含む。
 このような音声認識補助装置102は、ユーザである搭乗者の発話以外の音声が音声認識装置200に入り込む可能性の高い状況を判断する。その可能性が高い場合には、音声認識補助装置102は、音声認識装置200が特定のキーフレーズを認識しないように、判定基準を変更する。音声認識補助装置102は、ユーザである搭乗者(ドライバー)の音声以外の環境音でキーフレーズが誤検出されることを抑制する。
 (実施の形態3の変形例)
 判定基準変更部20は、車両の窓の開閉状態の情報、車両の位置および時刻の情報、車両の乗車人数の情報の全てに基づいて、判定基準を変更する制御を行う必要はなく、車両に設けられたセンサー110または車載機器120が検出できる情報の組み合わせに基づいて、その制御を行ってもよい。
 また、判定基準は、ユーザの操作により任意に設定可能であってもよい。例えば、車両の窓が開いている場合、音声認識装置200が特定のキーフレーズを認識しないような判定基準に設定可能である。または、通勤中の利用である場合、音声認識装置200が特定のキーフレーズを認識するような判定基準に設定可能である。または、同乗者が存在する場合、音声認識装置200が特定のキーフレーズを認識するような判定基準に設定可能である。
 <実施の形態4>
 実施の形態4における音声認識補助装置および音声認識補助方法を説明する。実施の形態4は実施の形態1の下位概念であり、実施の形態4における音声認識補助装置は、実施の形態1における音声認識補助装置の各構成を含む。なお、実施の形態1から3のいずれかと同様の構成および動作については説明を省略する。
 図9は、実施の形態4における音声認識システム303および音声認識補助装置103の構成を示すブロック図である。車両状況情報取得部10Cは、実施の形態1に示される搭乗者情報取得部11および実施の形態3に示される車両情報取得部12の両方を含む。
 車両状況判定部30は、搭乗者の状態に関する情報および車両状態に関する情報を組み合わせて、搭乗者の状態および車両状態を判定する。
 判定基準変更部20は、車両状況判定部30の判定結果に基づいて、判定基準を変更する制御を、音声認識装置200に対して行う。
 このような音声認識補助装置103は、より的確に特定のキーフレーズの誤検出を抑制する。
 <実施の形態5>
 実施の形態5における音声認識補助装置および音声認識補助方法を説明する。実施の形態5は実施の形態1の下位概念であり、実施の形態5における音声認識補助装置は、実施の形態1における音声認識補助装置100の各構成を含む。なお、実施の形態1から4のいずれかと同様の構成および動作については説明を省略する。
 図10は、実施の形態5における音声認識システム304および音声認識補助装置104の構成を示すブロック図である。音声認識補助装置104は、車両状況情報取得部10C、車両状況判定部30、判定基準変更部20および履歴情報記憶部40を含む。
 車両状況情報取得部10Cは、実施の形態1に示される搭乗者情報取得部11および実施の形態3に示される車両情報取得部12の両方を含む。
 車両状況判定部30は、搭乗者の状態に関する情報および車両状態に関する情報を組み合わせて、搭乗者の状態および車両状態を判定する。
 判定基準変更部20は、車両状況判定部30の判定結果に基づいて、すなわち搭乗者の状態および車両状態に基づいて判定基準を変更する制御を、音声認識装置200に対して行う。
 履歴情報記憶部40は、車両状況情報取得部10Cにて取得された搭乗者の状態および車両状態の情報ごとに、つまり車両状況情報ごとに、音声認識装置200による音声認識回数を記憶している。ここで音声認識回数とは、音声認識装置200が判定基準変更部20にて変更された判定基準に基づいて、特定のキーフレーズを検出した後、搭乗者の音声に対して音声認識を開始した回数である。図11は、実施の形態5における履歴情報記憶部40に記憶される音声認識回数の一例を示す図である。
 履歴情報記憶部40は、音声認識装置200のキーフレーズ判定部220が特定のキーフレーズを検出した後、搭乗者が続けて発話した場合、音声認識回数をプラスする。一方で、履歴情報記憶部40は、キーフレーズ判定部220が特定のキーフレーズを検出した後、搭乗者が続けて発話しなかった場合、または、音声認識処理を終了させる内容を発話した場合、音声認識回数をマイナスする。
 実施の形態4における判定基準変更部20は、履歴情報記憶部40に記憶されている音声認識回数のうち、車両状況情報取得部10Cで取得された車両状況情報に対応する音声認識回数が予め定められた回数以上である場合に、判定基準を緩和する。
 これら車両状況情報取得部10C、車両状況判定部30、判定基準変更部20および履歴情報記憶部40の機能は、図2または図3に示される処理回路によって実現される。
 図12は、実施の形態5における音声認識補助方法を示すフローチャートである。このフローチャートは、音声認識装置200のキーフレーズ判定部220が特定のキーフレーズを検出した後の音声認識システム304の動作を示している。ここでは、音声認識補助装置102および音声認識装置200のユーザがドライバーである例を示す。
 ステップS410にて、音声認識起動部230は、音声認識部240の音声認識処理機能を起動させる。
 ステップS420にて、音声認識部240は、ドライバーの音声を認識したか否かを判定する。ドライバーの音声が認識されなかった場合、ステップS430が実行される。ドライバーの音声が認識された場合、ステップS460が実行される。
 ステップS430にて、音声認識部240は、履歴情報記憶部40に音声認識回数をマイナスするよう通知する。
 ステップS440にて、履歴情報記憶部40は、音声認識部240による音声認識時の車両状況情報を車両状況判定部30から取得する。
 ステップS450にて、履歴情報記憶部40は、車両状況情報に対応する音声認識回数をマイナスする。次に、ステップS500が実行される。
 ステップS460にて、音声認識部240は、音声認識処理を終了させる発話を認識したか否かを判定する。音声認識処理を終了させる発話が認識された場合、ステップS430が実行される。音声認識処理を終了させる発話が認識されなかった場合、ステップS470が実行される。
 ステップS470にて、音声認識部240は、履歴情報記憶部40に音声認識回数をプラスするよう通知する。
 ステップS480にて、履歴情報記憶部40は、音声認識部240による音声認識時の車両状況情報を車両状況判定部30から取得する。
 ステップS490にて、履歴情報記憶部40は、車両状況情報に対応する音声認識回数をプラスする。次に、ステップS500が実行される。
 ステップS500にて、判定基準変更部20は、現在の車両状況情報に対応する音声認識回数が予め定められた第1基準値を超えたか否かを判定する。音声認識回数が予め定められた第1基準値を超えていない場合、ステップS510が実行される。予め定められた第1基準値を超えている場合、ステップS520が実行される。
 ステップS510にて、判定基準変更部20は、現在の車両状況情報に対応する音声認識回数が予め定められた第2基準値を割ったか否かを判定する。音声認識回数が予め定められた第2基準値を割った場合、ステップS520が実行される。予め定められた第2基準値を割っていない場合、音声認識補助方法は終了する。
 ステップS520にて、判定基準変更部20は、判定基準を強化する。これにより、音声認識装置200のキーフレーズ判定部220は、特定のキーフレーズを認識しにくくなる。
 ステップS530にて、判定基準変更部20は、判定基準を緩和する。これにより、音声認識装置200のキーフレーズ判定部220は、特定のキーフレーズを認識しやすくなる。
 以上で音声認識方法は終了する。
 以上をまとめると、実施の形態5における音声認識補助装置104は、履歴情報記憶部40を含む。履歴情報記憶部40は、音声認識回数を、車両状況情報取得部10Cにて取得された車両状況情報ごとに記憶している。音声認識回数とは、音声認識装置200が判定基準に基づいて特定のキーフレーズを検出した後に搭乗者が続けて発話した音声に対して音声認識を開始した回数である。判定基準変更部20は、履歴情報記憶部40に記憶されている音声認識回数のうち、車両状況情報取得部10Cで取得された車両状況情報に対応する音声認識回数が予め定められた回数以上である場合に、判定基準を緩和する。
 このような音声認識補助装置104は、音声認識装置200が特定のキーフレーズを誤検出しないよう判定基準を正確に変更する。
 <実施の形態6>
 実施の形態6における音声認識補助装置および音声認識補助方法を説明する。実施の形態6は実施の形態1の下位概念であり、実施の形態6における音声認識補助装置は、実施の形態1における音声認識補助装置100の各構成を含む。なお、実施の形態1から5のいずれかと同様の構成および動作については説明を省略する。
 図13は、実施の形態6における音声認識システム305および音声認識補助装置105の構成を示すブロック図である。音声認識補助装置105は、車両状況情報取得部10C、車両状況判定部30、判定基準変更部20およびキーフレーズ省略判定部50を含む。
 キーフレーズ省略判定部50は、車両状況情報に基づいて、特定のキーフレーズの検出を省略して音声認識を開始する制御を、音声認識装置200に対して行う。言い換えると、音声認識システム305は、車両状況が特定の状態である場合、特定のキーフレーズの検出を省略して音声認識を開始する。特定の状態とは、例えば、搭乗者の口が開いている状態、車両の窓が閉じている状態、または、同乗者がいない状態である。
 キーフレーズ省略判定部50は、車両状況が特定の状態である場合、キーフレーズ判定部220に対し、特定のキーフレーズの検出を省略する制御を行う。さらに、キーフレーズ省略判定部50は、音声認識起動部230に対し、特定のキーフレーズの検出を待つことなく、音声認識部240の音声認識処理機能を起動させる制御を行う。
 車両状況情報取得部10C、車両状況判定部30および判定基準変更部20の機能は、他の実施の形態と同様である。これら車両状況情報取得部10C、車両状況判定部30、判定基準変更部20およびキーフレーズ省略判定部50の機能は、図2または図3に示される処理回路によって実現される。
 図14は、実施の形態6における音声認識補助方法を示すフローチャートである。
 ステップS610にて、車両状況情報取得部10Cは、車両状況情報を取得する。このステップS610は、例えば、図6に示されるステップS10,S50またはS90に対応する。または、図8に示されるS210,S250,S290に対応する。
 ステップS620にて、車両状況判定部30は、車両状況を判定する。このステップS620は、例えば、図6に示されるステップS20,S60またはS100に対応する。または、図8に示されるS220,S260,S300に対応する。実施の形態6においては、車両状況判定部30が車両状況を判定したあと、判定基準変更部20の機能およびキーフレーズ省略判定部50の機能の両方が実行される。判定基準変更部20の機能は、他の実施の形態と同様であるため説明を省略する。
 ステップS630にて、キーフレーズ省略判定部50は、車両状況が特定の状態であるか否かを判定する。特定の状態でないと判定された場合、音声認識補助方法は終了する。特定の状態であると判定された場合、ステップS640が実行される。
 ステップS640にて、キーフレーズ省略判定部50は、特定のキーフレーズの検出を省略して音声認識を開始する制御を、音声認識装置200に対して行う。ここでは、キーフレーズ省略判定部50は、キーフレーズ判定部220に対し、特定のキーフレーズの検出を省略する制御を行う。さらに、キーフレーズ省略判定部50は、音声認識起動部230に対し、特定のキーフレーズの検出を待つことなく、音声認識部240の音声認識処理機能を起動させる制御を行う。
 その後、音声認識部240は、搭乗者が発話する音声に対して音声認識処理を行う。
 以上をまとめると、実施の形態6における音声認識補助装置105は、キーフレーズ省略判定部50を含む。キーフレーズ省略判定部50は、車両状況情報に基づいて、前記特定のキーフレーズの検出を省略して前記音声認識を開始する制御を、前記音声認識装置200に対して行う。
 このような音声認識補助装置105は、特定のキーフレーズの検出を省略することができる。
 <実施の形態7>
 以上の各実施の形態に示された音声認識補助装置は、ナビゲーション装置と、通信端末と、サーバと、これらにインストールされるアプリケーションの機能とを適宜に組み合わせて構築されるシステムにも適用することができる。ここで、ナビゲーション装置とは、例えば、PND(Portable Navigation Device)などを含む。通信端末とは、例えば、携帯電話、スマートフォンおよびタブレットなどの携帯端末を含む。
 図15は、実施の形態7における音声認識補助装置100およびそれに関連して動作する装置の構成を示すブロック図である。
 音声認識補助装置100、音声認識装置200および通信装置160がサーバ400に設けられている。音声認識補助装置100は、車両1に設けられたセンサー110または車載機器120から通信装置140および通信装置160を介して車両状況情報を取得する。音声認識補助装置100は、車両状況情報に基づいて判定基準を変更する制御を音声認識装置200に対して行う。音声認識装置200は、車両1に設けられたマイク130にて取得される音声に対して音声認識処理を行い、車両1に設けられたスピーカ150に、各通信装置を介して応答を出力する。
 このように、音声認識補助装置100がサーバ400に配置されることにより、車載装置の構成を簡素化することができる。
 また、音声認識補助装置100の機能あるいは構成要素の一部がサーバ400に設けられ、他の一部が車両1に設けられるなど、分散して配置されてもよい。
 なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。
 本発明は詳細に説明されたが、上記した説明は、全ての局面において、例示であって、本発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。
 1 車両、10 車両状況情報取得部、11 搭乗者情報取得部、11A 開口度情報取得部、11B 視線情報取得部、11C 顔向き情報取得部、12 車両情報取得部、12A 車載機器情報取得部、12B 乗車人数情報取得部、20 判定基準変更部、30 車両状況判定部、40 履歴情報記憶部、50 キーフレーズ省略判定部、100 音声認識補助装置、110 センサー、120 車載機器、200 音声認識装置、300 音声認識システム。

Claims (6)

  1.  ユーザが発話した音声に含まれる特定のキーフレーズを検出して音声認識を開始する音声認識装置に対して、前記特定のキーフレーズを検出するための判定基準を変更する制御を行う音声認識補助装置であって、
     前記ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態に関する情報を含む車両状況情報を取得する車両状況情報取得部と、
     前記車両状況情報に基づいて前記判定基準を変更する制御を、前記音声認識装置に対して行う判定基準変更部と、を備える音声認識補助装置。
  2.  前記車両状況情報取得部は、
     前記車両に設けられたセンサーによって検出される前記車両状況情報のうち、前記車両の前記搭乗者の前記口の動きに関する前記情報を取得する搭乗者情報取得部を含み、
     前記搭乗者の前記口の動きに関する前記情報は、前記搭乗者の前記口の開閉度、または、前記口の開閉パターンの情報を含む、請求項1に記載の音声認識補助装置。
  3.  前記車両状況情報取得部は、
     前記車両に設けられたセンサーまたは車載機器によって検出される前記車両状況情報のうち、前記車両状態に関する前記情報を取得する車両情報取得部を含み、
     前記車両状態の前記情報は、前記車両の窓の開閉状態の情報、前記車両の位置と時刻との情報、または、前記車両の乗車人数の情報を含む、請求項1に記載の音声認識補助装置。
  4.  前記音声認識装置が前記判定基準に基づいて前記特定のキーフレーズを検出した後に前記搭乗者が続けて発話した前記音声に対して前記音声認識を開始した回数である音声認識回数を、前記車両状況情報取得部にて取得された前記車両状況情報ごとに記憶する履歴情報記憶部をさらに備え、
     前記判定基準変更部は、
     前記履歴情報記憶部に記憶されている前記音声認識回数のうち、前記車両状況情報取得部で取得された前記車両状況情報に対応する前記音声認識回数が予め定められた回数以上である場合に、前記判定基準を緩和する、請求項1に記載の音声認識補助装置。
  5.  前記車両状況情報に基づいて、前記特定のキーフレーズの検出を省略して前記音声認識を開始する制御を、前記音声認識装置に対して行うキーフレーズ省略判定部をさらに備える、請求項1に記載の音声認識補助装置。
  6.  ユーザが発話した音声に含まれる特定のキーフレーズを検出して音声認識を開始する音声認識装置に対して、前記特定のキーフレーズを検出するための判定基準を変更する制御を行う音声認識補助方法であって、
     前記ユーザである車両の搭乗者の口の動きに関する情報、または、車両状態に関する情報を含む車両状況情報を取得し、
     前記車両状況情報に基づいて前記判定基準を変更する制御を、前記音声認識装置に対して行う、音声認識補助方法。
PCT/JP2019/034922 2019-09-05 2019-09-05 音声認識補助装置および音声認識補助方法 WO2021044569A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021543881A JP7242873B2 (ja) 2019-09-05 2019-09-05 音声認識補助装置および音声認識補助方法
PCT/JP2019/034922 WO2021044569A1 (ja) 2019-09-05 2019-09-05 音声認識補助装置および音声認識補助方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/034922 WO2021044569A1 (ja) 2019-09-05 2019-09-05 音声認識補助装置および音声認識補助方法

Publications (1)

Publication Number Publication Date
WO2021044569A1 true WO2021044569A1 (ja) 2021-03-11

Family

ID=74853305

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/034922 WO2021044569A1 (ja) 2019-09-05 2019-09-05 音声認識補助装置および音声認識補助方法

Country Status (2)

Country Link
JP (1) JP7242873B2 (ja)
WO (1) WO2021044569A1 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075595A (ja) * 1999-09-02 2001-03-23 Honda Motor Co Ltd 車載用音声認識装置
JP2004245938A (ja) * 2003-02-12 2004-09-02 Fujitsu Ten Ltd 音声認識装置及びプログラム
JP2011081541A (ja) * 2009-10-06 2011-04-21 Canon Inc 入力装置及びその制御方法
WO2014025012A1 (ja) * 2012-08-10 2014-02-13 株式会社ホンダアクセス 音声認識方法及び音声認識装置
JP2015219440A (ja) * 2014-05-20 2015-12-07 パナソニックIpマネジメント株式会社 操作補助装置および操作補助方法
JP2017037176A (ja) * 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
WO2017042906A1 (ja) * 2015-09-09 2017-03-16 三菱電機株式会社 車載用音声認識装置および車載機器
JP2018072599A (ja) * 2016-10-31 2018-05-10 アルパイン株式会社 音声認識装置および音声認識方法
WO2019176252A1 (ja) * 2018-03-13 2019-09-19 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001075595A (ja) * 1999-09-02 2001-03-23 Honda Motor Co Ltd 車載用音声認識装置
JP2004245938A (ja) * 2003-02-12 2004-09-02 Fujitsu Ten Ltd 音声認識装置及びプログラム
JP2011081541A (ja) * 2009-10-06 2011-04-21 Canon Inc 入力装置及びその制御方法
WO2014025012A1 (ja) * 2012-08-10 2014-02-13 株式会社ホンダアクセス 音声認識方法及び音声認識装置
JP2015219440A (ja) * 2014-05-20 2015-12-07 パナソニックIpマネジメント株式会社 操作補助装置および操作補助方法
JP2017037176A (ja) * 2015-08-10 2017-02-16 クラリオン株式会社 音声操作システム、サーバー装置、車載機器および音声操作方法
WO2017042906A1 (ja) * 2015-09-09 2017-03-16 三菱電機株式会社 車載用音声認識装置および車載機器
JP2018072599A (ja) * 2016-10-31 2018-05-10 アルパイン株式会社 音声認識装置および音声認識方法
WO2019176252A1 (ja) * 2018-03-13 2019-09-19 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Also Published As

Publication number Publication date
JP7242873B2 (ja) 2023-03-20
JPWO2021044569A1 (ja) 2021-12-09

Similar Documents

Publication Publication Date Title
US10706853B2 (en) Speech dialogue device and speech dialogue method
JP2003044081A (ja) 音声認識装置の訓練又は適応を行う方法
US20150039316A1 (en) Systems and methods for managing dialog context in speech systems
WO2017138934A1 (en) Techniques for spatially selective wake-up word recognition and related systems and methods
WO2017042906A1 (ja) 車載用音声認識装置および車載機器
JPWO2012131839A1 (ja) エレベーターの呼び登録装置
JP2012128440A (ja) 音声対話装置
CN110770693A (zh) 手势操作装置及手势操作方法
JP2008026463A (ja) 音声対話装置
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP7330066B2 (ja) 音声認識装置、音声認識方法及びそのプログラム
CN114144831A (zh) 激活语音识别
JP2016133378A (ja) カーナビゲーション装置
KR20210044509A (ko) 음성 인식의 향상을 지원하는 전자 장치
WO2021044569A1 (ja) 音声認識補助装置および音声認識補助方法
JP2018124484A (ja) 音声認識装置
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP2006337942A (ja) 音声対話装置及び割り込み発話制御方法
JP2004184803A (ja) 車両用音声認識装置
WO2019175960A1 (ja) 音声処理装置および音声処理方法
WO2024070080A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP7449070B2 (ja) 音声入力装置、音声入力方法及びそのプログラム
US11308966B2 (en) Speech input device, speech input method, and recording medium
JP7429107B2 (ja) 音声翻訳装置、音声翻訳方法及びそのプログラム
JP2014202800A (ja) 音声認識制御装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19944233

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021543881

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19944233

Country of ref document: EP

Kind code of ref document: A1