WO2022172393A1 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
WO2022172393A1
WO2022172393A1 PCT/JP2021/005218 JP2021005218W WO2022172393A1 WO 2022172393 A1 WO2022172393 A1 WO 2022172393A1 JP 2021005218 W JP2021005218 W JP 2021005218W WO 2022172393 A1 WO2022172393 A1 WO 2022172393A1
Authority
WO
WIPO (PCT)
Prior art keywords
dialogue
unit
utterance
speech
behavior
Prior art date
Application number
PCT/JP2021/005218
Other languages
English (en)
French (fr)
Inventor
紫織 島谷
悠希 住吉
政信 大澤
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2021/005218 priority Critical patent/WO2022172393A1/ja
Publication of WO2022172393A1 publication Critical patent/WO2022172393A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • the present disclosure relates to a conversation sign detection type speech recognition device that can accept utterances from passengers in the vehicle.
  • Patent Literature 1 discloses a method for determining whether user speech input is directed to a virtual assistant based on contextual information.
  • Contextual information may include, for example, distance data representing the spatial distance between the user and the user device, or image data for determining whether the user was looking at the user device when the user speech input was received. is included.
  • the method processes the user speech input if it determines that the user intended the user speech input to be directed to the virtual assistant and directs the user speech input if it determines that the user speech input was not intended to be directed to the virtual assistant. Ignore or do not generate a response.
  • the difference in distance between the passenger and the device is small between when the passenger makes a response request utterance and when he/she speaks to the fellow passenger.
  • the difference in the line-of-sight direction of the occupant is small between when the occupant makes a response-requesting utterance and when uttering an utterance to the fellow passenger.
  • the conventional technology disclosed in Patent Document 1 does not take into consideration the reception of speech by the passenger of the vehicle, when the conventional technology is applied to the vehicle, the passenger's speech to the fellow passenger cannot be regarded as a response request speech. (hereinafter referred to as "erroneous recognition"), or the response request utterance by the passenger is not accepted as an utterance to the fellow passenger (hereinafter referred to as "erroneous rejection").
  • the present disclosure has been made to solve the above problems, and aims to provide a speech recognition device that prevents erroneous recognition and erroneous rejection of utterances by vehicle occupants.
  • a speech recognition device includes an image acquisition unit that acquires captured images of a plurality of occupants present in a vehicle, and behavior detection that detects the behavior of the plurality of occupants based on the captured images acquired by the image acquisition unit. and a dialogue predictor detection unit that detects whether or not there is a predictor of dialogue by an utterance reception object occupant who is a target of receiving utterances among the plurality of occupants, based on information about the behavior of the plurality of occupants detected by the behavior detection unit.
  • the voice acquisition unit acquires the voice inside the vehicle, and based on the voice acquired by the voice acquisition unit, the speech by the passenger for which the speech is to be accepted is detected.
  • a voice processing unit that performs voice recognition of detected utterances, the results of voice recognition by the voice processing unit, and related history information in which a history of behavior of multiple passengers or a history of utterances of multiple passengers are set in chronological order. and a dialogue request determination unit that determines whether or not to accept the speech by the speech acceptance target passenger based on the above.
  • the speech recognition device can prevent erroneous recognition and erroneous rejection of the utterances of the vehicle occupants.
  • FIG. 1 is a diagram illustrating a configuration example of a speech recognition device according to Embodiment 1;
  • FIG. FIG. 4 is a diagram for explaining an image of an example of content of related history information generated by a history record control unit in Embodiment 1;
  • FIG. 10 is a diagram for explaining an image of another example of the content of related history information generated by the history record control unit in Embodiment 1;
  • 4 is a flowchart for explaining the operation of the speech recognition device according to Embodiment 1 in "history recording processing”;
  • 4 is a flowchart for explaining the operation of the speech recognition apparatus according to Embodiment 1 in "interaction request determination processing”;
  • FIG. 6 is a flowchart for explaining in more detail the operation of a dialogue request determination unit in step ST16 of FIG.
  • FIG. 10 is a diagram showing a configuration example of a speech recognition device according to Embodiment 2;
  • FIG. 10 is a diagram for explaining an image of an example of a situation inside the vehicle when an updating unit updates setting conditions in Embodiment 2;
  • FIG. 10 is a diagram for explaining an image of an example of the content of related history information generated by a history record control unit in the second embodiment;
  • FIG. 10 is a diagram for explaining another example image of the situation inside the vehicle when the updating unit updates the setting conditions in the second embodiment;
  • FIG. 10 is a diagram showing a configuration example of a speech recognition device according to Embodiment 2;
  • FIG. 10 is a diagram for explaining an image of an example of a situation inside the vehicle when an updating unit updates setting conditions in Embodiment 2;
  • FIG. 10 is a diagram for explaining an image of an example of the content of related history information generated by a history record control unit in the second embodiment;
  • FIG. 10 is a diagram for explaining another example image of the situation inside the vehicle when
  • FIG. 12 is a diagram for explaining another example image of the content of the related history information generated by the history recording control unit in the third embodiment; 13 is a flow chart for explaining the operation in the "history recording process" of the speech recognition device according to Embodiment 3; 12 is a flow chart for explaining the operation of the speech recognition apparatus according to Embodiment 3 in "interaction request determination processing"; FIG. 19 is a flowchart for explaining in more detail the operation of the interaction request determination unit in step ST1117 of FIG. 18; FIG.
  • Embodiment 1 the speech recognition device is a so-called “dialogue sign detection type” speech recognition device.
  • "Dialogue sign detection type” does not require pressing a button or inputting a predetermined word to start speech recognition, such as a so-called wake-up word. can reduce the burden on
  • the speech recognition device according to Embodiment 1 is assumed to be installed in a vehicle. When the speech recognition device 1 detects an indication of interaction by the user in the vehicle, it receives the voice, performs voice recognition of the user's utterance based on the received voice, and determines whether or not to accept the utterance.
  • the speech recognition device accepts an utterance when it determines that the user's utterance is a response-requesting utterance.
  • a user of the speech recognition device is a vehicle occupant.
  • the user is assumed to be a driver of a vehicle. Note that this is merely an example, and the user may be an occupant in a passenger seat or a rear seat other than the driver, in other words, a fellow passenger. Also, a plurality of passengers in the vehicle may be the users.
  • the vehicle occupant who is the user, ie, the driver here is also referred to as the ⁇ speech reception target occupant''.
  • a plurality of passengers will be simply referred to as "passengers".
  • FIG. 1 is a diagram showing a configuration example of a speech recognition device 1 according to Embodiment 1. As shown in FIG. A voice recognition device 1 is mounted on a vehicle 4 and connected to a camera 2 , a microphone 3 , an onboard device 5 and an output device 6 .
  • the camera 2 is a visible light camera mounted on the vehicle 4, an infrared camera, or the like.
  • the camera 2 may, for example, be shared with a so-called "Driver Monitoring System (DMS)".
  • DMS Driver Monitoring System
  • a camera 2 captures an image of an occupant in the vehicle.
  • the camera 2 is installed in a place where at least the passenger's face can be imaged.
  • the camera 2 may be a single camera having an angle of view capable of imaging a range including at least the faces of all passengers in the vehicle so as to be able to image all the passengers in the vehicle, or may include at least the faces of each passenger.
  • a plurality of cameras capable of imaging the range may be used.
  • the camera 2 outputs an image of an occupant (hereinafter referred to as “captured image”) to the speech recognition device 1 .
  • the camera 2 always images the passengers in the vehicle.
  • a microphone 3 is mounted on the vehicle 4 and acquires the voice inside the vehicle.
  • the voices acquired by the microphone 3 include utterances by passengers, noise generated by the running of the vehicle 4, music played in the vehicle, noise, and the like.
  • One microphone 3 may be mounted on the vehicle 4 , or a plurality of microphones 3 may be mounted on the vehicle 4 .
  • each of the plurality of microphones 3 outputs the obtained voice to the speech recognition device 1 in association with information that can identify the microphone 3.
  • the microphone 3 outputs the acquired voice to the voice recognition device 1 . Note that the microphone 3 always acquires voice.
  • the speech recognition device 1 Based on the captured image acquired from the camera 2 and the voice acquired from the microphone 3, the speech recognition device 1 stores time, the history of the behavior of the passenger, and the history of the speech of the passenger set in chronological order.
  • a "dialogue request determination process” is performed to determine whether or not to accept the driver's speech. Details of the “history recording process” and the “interaction request determination process” will be described later.
  • the voice recognition apparatus 1 determines in the "interaction request determination process" that it accepts the driver's utterance, the voice recognition apparatus 1 transmits information (hereinafter referred to as "operation command information") for operating based on the voice recognition result of the utterance. , the vehicle 4, the in-vehicle device 5, or the output device 6.
  • the vehicle 4 , the in-vehicle device 5 , or the output device 6 operates according to the operation command information output from the speech recognition device 1 .
  • the vehicle 4 executes a function of the vehicle 4 such as braking, turning on the lights, turning off the lights, or opening and closing the windows according to the operation command information.
  • the in-vehicle device 5 is, for example, a car navigation device or audio device mounted on the vehicle 4, or a device that controls these devices.
  • the car navigation device sets a destination, changes the destination, or provides route guidance, etc., according to the operation command information.
  • the audio equipment reproduces music or changes the volume according to the operation instruction information.
  • the output device 6 is, for example, a display device or an audio output device mounted on the vehicle 4 .
  • the display device displays characters, icons, or the like according to the operation command information.
  • the display device may perform lighting according to the operation command information.
  • the audio output device outputs audio according to the action command information.
  • the speech recognition apparatus 1 may combine display by a display device and speech output by a speech output device.
  • the speech recognition apparatus 1 includes an image acquisition unit 101, a behavior detection unit 102, a speech acquisition unit 103, a speech processing unit 104, a history recording control unit 105, a recording unit 106, a dialogue sign detection unit 107, a dialogue A request determination unit 108 and an operation instruction unit 109 are provided.
  • the voice processing unit 104 includes an utterance detection unit 1041 and a voice recognition unit 1042 .
  • the speech recognition apparatus 1 performs "history recording processing" and "interaction request determination processing". In the speech recognition apparatus 1, the "history recording process” and the "dialogue request determination process" are performed in parallel.
  • the configuration of the speech recognition apparatus 1 will be described separately for a component functioning in the "history recording process” and a component functioning in the "interaction request determination process”. It should be noted that there is also a component that functions in both the “history recording process” and the “interaction request determination process”.
  • the speech recognition apparatus 1 the components that function in the "history recording process" will be described.
  • the image acquisition unit 101, the behavior detection unit 102, the voice acquisition unit 103, the voice processing unit 104, the history recording control unit 105, and the recording unit 106 function in the "history recording process".
  • the image acquisition unit 101 constantly acquires captured images of a plurality of occupants present in the vehicle, which are output from the camera 2 .
  • the image acquisition unit 101 outputs the acquired captured image to the behavior detection unit 102 .
  • the behavior detection unit 102 performs behavior detection processing for detecting the behavior of the occupant based on the captured image acquired by the image acquisition unit 101 .
  • the behavior of the occupant detected by behavior detection unit 102 is determined in advance.
  • the behavior of the occupant detected by the behavior detection unit 102 includes the orientation of the occupant's face, the direction of the occupant's line of sight, the movement of the occupant's mouth, or the gesture made by the occupant.
  • the behavior detection unit 102 may detect the behavior of the occupant by performing known image recognition processing on the captured image. Specifically, for example, the behavior detection unit 102 extracts parts of the occupant's face such as eyes, nose, or mouth from the captured image, and detects the direction of the occupant's face or line of sight based on the extracted facial parts. to detect. Further, for example, when the camera 2 is an infrared camera, the behavior detection unit 102 detects the occupant from the positional relationship between the pupil and the Purkinje image obtained by reflection from the cornea when the infrared camera irradiates a near-infrared point light source.
  • the behavior detection unit 102 holds face orientation determination information in which the face orientation of the occupant and the standard pattern of the face image are associated in advance, and extracts from the face orientation determination information and the captured image. By pattern matching with the image of the occupant's face, the face orientation with the highest degree of similarity in the face orientation determination information may be detected as the occupant's face orientation. Further, for example, the behavior detection unit 102 prestores gesture information in which a standard pattern of a gesture image representing the gesture is associated with each gesture, and the occupant extracted from the gesture information and the captured image makes a gesture.
  • a gesture having the highest degree of similarity in the gesture information may be detected as the gesture performed by the occupant by pattern matching with the image performed by the occupant.
  • the behavior detection unit 102 may detect both the orientation of the face of the occupant and the line-of-sight direction of the occupant, and detect the one with higher reliability as the behavior of the occupant.
  • the behavior detection unit 102 detects the face direction of the occupant as the behavior of the occupant.
  • the behavior detection unit 102 When the behavior detection unit 102 detects the behavior of the occupant, the behavior detection unit 102 outputs information about the detected behavior (hereinafter referred to as “behavior information”) to the history record control unit 105 .
  • the behavior information is, for example, information in which the time when the behavior was detected, information about the position of the occupant who performed the detected behavior, and information indicating the content of the detected behavior are associated with each other.
  • the information indicating the behavior content is, for example, a text indicating the content of the behavior or a numerical value indicating the content of the behavior. The text indicating the content of the behavior is determined in advance according to the behavior.
  • the behavior detection unit 102 acquires the position of the occupant who behaved based on the captured image. In Embodiment 1, the position of the occupant is indicated by the seat on which the occupant is seated.
  • the behavior detection unit 102 can identify the seat on which the occupant is seated by performing known image recognition processing on the captured image. Note that the behavior detection unit 102 may represent the position of the passenger by, for example, the distance from the speech recognition device 1 or the distance from the fellow passenger.
  • the voice acquisition unit 103 always acquires the voice inside the vehicle output from the microphone 3 .
  • the voice acquisition unit 103 outputs the acquired voice to the voice processing unit 104 .
  • the voice processing unit 104 detects an utterance by the passenger based on the voice acquired by the voice acquisition unit 103, and performs voice recognition processing for recognizing the detected utterance.
  • the utterance detection unit 1041 of the voice processing unit 104 detects the utterance by the passenger based on the voice acquired by the voice acquisition unit 103 .
  • the utterance detection unit 1041 can detect utterances of the passengers in each seat separately. For example, if a microphone 3 is installed in each seat, the speech detection unit 1041 can identify the occupant of which seat the detected speech is based on which microphone 3 the voice is acquired from.
  • the speech detection unit 1041 performs signal processing such as directivity in a certain direction using beamforming technology, or , machine learning can also be used to perform denoising or source separation.
  • the speech detection unit 1041 can also detect how the passenger speaks based on the voice.
  • the occupant's speaking style includes, for example, speech rate, speech pitch, or speech tone.
  • the speech detection unit 1041 outputs the detected speech of the passenger to the voice recognition unit 1042 .
  • the speech detection unit 1041 outputs the detected speech of the passenger to the speech recognition unit 1042 in association with information regarding the position of the passenger. It should be noted that the position of the occupant is indicated by the seat on which the occupant sits.
  • the utterance detection unit 1041 may output to the voice recognition unit 1042 in association with the utterance and the information regarding the position of the occupant, as well as the information regarding the manner of speaking of the occupant.
  • the speech recognition unit 1042 performs speech recognition on the passenger's speech output from the speech detection unit 1041 .
  • the speech recognition unit 1042 may perform speech recognition using known speech recognition technology.
  • the speech recognition unit 1042 performs speech recognition and converts the content of the utterance of the passenger into text.
  • the speech processing section 104 outputs the speech recognition result to the history recording control section 105 .
  • the speech recognition result is, for example, information in which the time when the utterance is detected, the content of the utterance, and information about the position of the occupant who made the utterance are associated with each other.
  • the voice recognition result may be further associated with information about the speaking style of the passenger who made the utterance.
  • the history record control unit 105 Based on the behavior information output from the behavior detection unit 102 and the voice recognition result output from the voice processing unit 104, the history record control unit 105 records the history of the behavior of the passenger and the history of the content of the speech of the passenger. Generate related historical information set in chronological order.
  • FIG. 2 is a diagram for explaining an image of an example of the content of the related history information generated by the history record control unit 105 in the first embodiment.
  • the related history information includes, for example, information (behavior history information) in which an operator who has performed a behavior is associated with the behavior content at each time when the behavior is detected, and utterance history information at each time when the utterance is detected.
  • the information (utterance history information) in which the person and the utterance content are associated with each other is information set in chronological order. As shown in FIG.
  • the behavior history information and the speech history information are combined into one, and the behavior that occurred at a certain time is A person or speaker, behavior content, and utterance content may be associated with each other.
  • the speech recognition apparatus 1 does not recognize the identity of the passenger.
  • the speech recognition device 1 distinguishes the passengers in the vehicle according to the positions of the passengers. Specifically, the speech recognition device 1 expresses the occupants in the vehicle by the positions of the occupants.
  • the expression of the position of the occupant includes, for example, the expression of the seat, such as "driver's seat", or the expression of the person sitting in the seat, such as "driver”. Therefore, the history record control unit 105 generates the related history information so that, for example, the operator or speaker who performed the behavior is indicated by the seat. Note that the history recording control unit 105 can determine the seat of the operator from the behavior information, and can determine the seat of the speaker from the speech recognition result.
  • the history record control unit 105 may generate related history information in which either behavior history information or speech history information is set.
  • Related historical information includes when and by whom (more specifically, which seat the occupant is seated in) what utterance was detected, or when and by whom (more specifically, which seat the occupant is seated in). It is sufficient if the information shows what kind of behavior was detected in chronological order.
  • the utterance history information information related to the speaking style of the utterer may be set in association with the utterer and the contents of the utterance.
  • the history record control unit 105 can identify the speaking style of the speaker from the speech recognition result.
  • the history recording control unit 105 causes the recording unit 106 to record the generated related history information.
  • the recording unit 106 records related history information. Although the recording unit 106 is provided in the speech recognition device 1 in FIG. 1, this is merely an example. The recording unit 106 may be provided outside the speech recognition device 1 at a place where the speech recognition device 1 can refer to it.
  • the related history information recorded in the recording unit 106 is for a short period such as one day. .
  • the speech recognition apparatus 1 in the “interaction request determination process”, the image acquisition unit 101, the behavior detection unit 102, the voice acquisition unit 103, the voice processing unit 104, the recording unit 106, the interaction request determination unit 108, and the operation instruction unit 109 works.
  • the image acquisition unit 101 constantly acquires captured images from the camera 2 .
  • the details of the image acquisition unit 101 are the same as the details of the image acquisition unit 101 in the “history recording process” already described.
  • the image acquisition unit 101 outputs the acquired captured image to the behavior detection unit 102 .
  • the behavior detection unit 102 detects the behavior of the occupant based on the captured image acquired by the image acquisition unit 101 .
  • the details of the behavior detection unit 102 are the same as the details of the behavior detection unit 102 in the "history recording process" already described, and thus overlapping descriptions will be omitted.
  • the behavior detection unit 102 outputs behavior information to the dialogue sign detection unit 107 when detecting the behavior of the occupant.
  • the dialogue predictor detection unit 107 determines whether there is a dialogue predictor by the occupant to receive speech, in other words, the driver, based on the behavior of the occupant detected by the behavior detection unit 102. Dialogue sign detection processing is performed to detect whether or not.
  • the dialogue predictor detection unit 107 may detect whether or not there is a dialogue predictor by the driver by various known dialogue predictor detection methods.
  • the dialogue predictor detection unit 107 detects that there is a driver's dialogue predictor when the driver's face direction or line of sight direction is directed toward the device.
  • the “device” in which the dialogue predictor detection unit 107 determines that the driver's face orientation or line-of-sight direction is directed may be, for example, the speech recognition device 1 or a navigation device. , or other devices mounted on the vehicle 4 . It is determined in advance which device the driver's face direction or line-of-sight direction is directed toward to detect that there is a sign of interaction with the driver.
  • the dialogue sign detection unit 107 assigns a score to each of the angle of the driver's face direction, the angle of the driver's gaze direction, and the degree of opening of the mouth, and the sum of the assigned scores is It may be detected whether or not there is a driver's interaction predictor depending on whether or not it is equal to or greater than a predetermined threshold value (hereinafter referred to as "interaction predictor determination threshold value"). It is determined in advance what score is given to the angle of the driver's face, the angle of the driver's line of sight, or the degree of opening of the mouth. In addition, the threshold value for dialogue predictor determination is also determined in advance.
  • the dialogue predictor detection unit 107 When the dialogue predictor detection unit 107 detects the driver's dialogue predictor, the dialogue predictor detection unit 107 transmits information for notifying that the driver's dialogue predictor has been detected (hereinafter referred to as "dialogue predictor information") to the voice acquisition unit 103 and the dialogue. Output to the request determination unit 108 .
  • the dialogue predictor detection unit 107 causes the dialogue predictor information to include information indicating that a driver's dialogue predictor has been detected and the behavior information acquired from the behavior detector 102 .
  • the voice acquisition unit 103 acquires the in-vehicle voice output from the microphone 3. get.
  • the voice acquisition trigger is different, the details of the voice acquisition unit 103 are the same as the details of the voice acquisition unit 103 in the "history recording process" already described.
  • the voice acquisition unit 103 outputs the acquired voice to the voice processing unit 104 .
  • the voice processing unit 104 detects an utterance by the passenger based on the voice acquired by the voice acquisition unit 103, and performs voice recognition processing for recognizing the detected utterance.
  • the details of the audio processing unit 104 are the same as the details of the audio processing unit 104 in the "history recording process" already described, so redundant description will be omitted.
  • the speech processing unit 104 outputs the speech recognition result to the interaction request determination unit 108 .
  • dialogue predictor detection unit 107 detects that there is a predictor of dialogue by the driver, in other words, when dialogue predictor information is output from dialogue predictor detection unit 107, dialogue request determination unit 108 determines whether or not the dialogue predictor detection unit 107 has output the dialogue predictor information. Based on the recognition result and the related history information recorded in the recording unit 106, it is determined whether or not to accept the speech by the driver. Note that the related history information is generated and recorded in the recording unit 106 in the "history recording process" that is performed in parallel with the "interaction request determination process", as described above.
  • dialogue request determining unit 108 detects that there is a sign of dialogue by the driver, in other words, when dialogue predictive information is output from dialogue predictor detection unit 107, dialogue request determination unit 108 determines the result of speech recognition by speech processing unit 104. and the degree to which the driver's utterance is estimated to be a dialogue requesting utterance, based on the related history information recorded in the recording unit 106 and preset conditions (hereinafter referred to as "setting conditions").
  • the dialogue request determination unit 108 refers to the related history information, and the behavior of the fellow passenger before the driver's utterance by a preset time (hereinafter referred to as "determination retrospective time”).
  • the dialogue request level is set based on the speech by the fellow passenger before the judgment retrospective time before the driver's speech and the set condition.
  • a very short time is set in the "determination retroactive time”.
  • "before the driver's utterance before the judgment retrospective time” is assumed to be immediately before the driver's utterance.
  • the degree of interaction demand is represented by, for example, "high” or “low.”
  • a setting condition for setting the degree of interaction demand is appropriately set by an administrator or the like.
  • the setting conditions include a condition for setting the dialogue demand level to be “high” (hereinafter referred to as “high dialogue demand condition”) and a condition for setting the dialogue demand level to be “low” (hereinafter referred to as “low dialogue demand condition”). ".”
  • “dialogue request level high condition” a condition is set under which it is highly likely that the utterance of the utterance-receiving passenger is a response-requesting utterance.
  • a condition is set under which it is highly likely that the utterance of the utterance-receiving passenger is not an utterance requesting a response, but an utterance to a fellow passenger.
  • a condition such as (Condition 1) below is set as the high dialogue demand condition.
  • the following condition (Condition 2) is set as the low dialogue demand condition.
  • the interaction request determination unit 108 sets the interaction request level to "high”. Further, when the interaction request level low condition is satisfied, the interaction request determination unit 108 sets the interaction request level to "low". Note that, when neither the high-dialogue-request-degree condition nor the low-dialage-request-degree condition is satisfied, the dialogue-request determination unit 108 determines in advance the dialogue set to be set when neither the high-dialogue-request-degree condition nor the low-dialage-request-degree condition is satisfied. You can set the level of demand.
  • the setting condition includes a condition as to whether or not the degree of dialogue demand is “high”, and the dialogue demand determining unit 108 sets the degree of dialogue demand to be “high” when the set condition is satisfied. , if the setting conditions are not satisfied, the level of dialogue demand may be set to "low”. Further, for example, a setting condition is set as to whether or not the degree of dialogue demand is "low”. If it is set and the setting condition is not satisfied, the dialogue request level may be set as "high”.
  • the interaction request level is set to "high” or “low”, but this is merely an example.
  • the interaction demand level may be set with a score.
  • a score calculation formula such as the following (Condition 3) is set as the setting condition, and the interaction request determination unit 108 calculates the score according to the calculation formula, and uses the calculated score as the interaction request level set to (Condition 3) "If the attribute of the passenger's utterance before the retrospective time for judgment is an interrogative sentence, the score is ⁇ 30 points'', and if the line-of-sight direction of the passenger before the retroactive time for judgment is the direction of the passenger subject to speech acceptance, the score is ⁇ 50 points.'' ”, and the total value of the scores is taken as the degree of dialogue demand”
  • the dialogue request determination unit 108 takes into consideration not only the history of the utterances of the fellow passenger or the history of the behavior of the fellow passengers, but also, for example, the utterance content when the driver speaks or the behavior content when the driver speaks. You may set the interaction request level by In addition, the dialogue request determination unit 108 considers not only the history of the passenger's speech or the history of the behavior of the fellow passenger, but also the history of the driver's speech or the history of the driver's behavior. You may set the degree of interaction demand.
  • the dialogue request level need not be set based on both the occupant's utterance history and the occupant's behavior history.
  • the dialogue request level may be set using either the history of utterances of the passenger or the history of the behavior of the passenger. Therefore, if the setting condition is such that the dialogue request level is set based on the occupant's utterance history or the occupant's behavior history, as in (Condition 1) described above, good.
  • the dialogue request level may be set, for example, in consideration of the speaking style of the passenger or fellow passenger to whom speech is to be accepted.
  • information about the speaking style of the passenger is set in the related history information.
  • the degree of dialogue demand is set as "high” or “low.”
  • the above-mentioned (Condition 1) and (Condition 2) are set as the setting conditions, for example. In the following specific example, it is assumed that the vehicle 4 is occupied by two people, a driver and a fellow passenger in the front passenger seat.
  • the recording unit 106 records related history information having contents as shown in FIG. 2, for example.
  • the dialogue predictor detection unit 107 detects that there is a driver's dialogue predictor
  • the voice acquisition unit 103 acquires voice
  • the voice processing unit 104 detects and recognizes an utterance.
  • the dialogue request determination unit 108 receives the speech recognition result from the speech processing unit 104 indicating that the driver's speech "I want to go to the park" was recognized at "2020/7/2/11:55:30".
  • the dialogue request determination unit 108 refers to related history information. Then, in the related history information, at "2020/7/2/11:55:25" immediately before the driver's utterance "I want to go to the park" at "2020/7/2/11:55:30", There is a history of an utterance by a fellow passenger in the front passenger seat, "Where are you going on vacation next week?" The passenger's utterance, "Where are you going on vacation next week?" is an interrogative sentence. In addition, the passenger's utterance "Where are you going on holiday next week?" is also a future sentence containing the word "next week” representing the future. In addition, the fellow passenger was facing the direction of the driver. From these, the interaction request determination unit 108 determines that (condition 2) is satisfied. Then, dialogue request determination section 108 sets the degree of dialogue demand to "low".
  • the recording unit 106 records related history information having contents as shown in FIG. 3, for example.
  • the dialogue predictor detection unit 107 detects that there is a driver's dialogue predictor
  • the voice acquisition unit 103 acquires voice
  • the voice processing unit 104 detects and recognizes an utterance.
  • the dialogue request determination unit 108 receives the speech recognition result from the speech processing unit 104 indicating that the driver's speech "I want to go to the park" was recognized at "2020/7/2/11:55:30".
  • the dialogue request determination unit 108 refers to related history information. Then, in the related history information, at "2020/7/2/11:55:25" immediately before the driver's utterance "I want to go to the park” at "2020/7/2/11:55:30", There is a history of utterances such as “Let's go to the park, set it up” by a fellow passenger in the front passenger seat. The passenger's utterance “Let's go to the park, set it up” is a request sentence. From this, the interaction request determination unit 108 determines that (Condition 1) is satisfied. Then, dialogue request determination section 108 sets the degree of dialogue demand to be "high".
  • the dialogue demand determining unit 108 accepts an utterance by the driver by comparing the set degree of demand for dialogue with a preset condition (hereinafter referred to as "condition for determining degree of dialogue demand"). Determine whether or not For example, as the dialogue request level determination condition, there is set a condition for determining that "the utterance of the utterance reception target passenger is a dialogue request utterance". It should be noted that the dialogue request level determination condition can be set as appropriate. Further, when the dialogue demand determination unit 108 sets the dialogue demand degree, the dialogue demand determining unit 108 records the set dialogue demand degree in the related history information in association with the information about the driver's utterance for which the dialogue demand degree is set. good too.
  • the dialogue demand degree determination condition is set to "the dialogue demand degree must be "high””. If the degree of dialogue request satisfies the degree of dialogue request determination condition, the dialogue request determination unit 108 determines that the utterance of the driver is the dialogue request utterance. That is, it is determined to accept the driver's speech. On the other hand, when the degree of dialogue demand does not satisfy the degree of dialogue demand determination condition, the dialogue demand determination unit 108 judges that the utterance of the driver is not the dialogue demand utterance but the utterance to the fellow passenger. That is, it is determined not to accept the driver's speech.
  • the dialog request determination unit 108 determines that the set dialog request level “low” does not satisfy the dialog request level determination condition, so that the driver “goes to the park”. It is determined that the utterance "I want to hear from you” is an utterance to the fellow passenger and not a response request dialogue. That is, it is determined not to accept the driver's speech.
  • the dialog request determination unit 108 satisfies the dialog request level determination condition because the set dialog request level "high” satisfies the driver's request "I want to go to the park”. is determined to be a dialogue requesting utterance. That is, it is determined to accept the driver's speech.
  • the speech recognition device 1 determines whether the driver's utterance is a dialogue request utterance or an utterance to a fellow passenger, for example, based only on the direction of the driver's face, erroneous recognition or erroneous rejection occurs.
  • the dialogue request determination unit 108 determines, more specifically, the history of the utterance of the passenger or the behavior of the passenger based on the related history information. Based on the history, it is determined whether the driver's utterance is a dialogue request utterance or an utterance to a fellow passenger. Therefore, the speech recognition device 1 can prevent erroneous recognition and erroneous rejection of the utterances of the passengers of the vehicle 4 .
  • the dialogue demand degree determination condition is that "the degree of dialogue demand is equal to or greater than a preset threshold value (hereinafter referred to as "threshold value for dialogue demand degree determination”)". conditions are set.
  • the degree of dialogue demand is equal to or greater than the dialogue demand degree judgment threshold
  • the dialogue demand determination unit 108 judges that the driver's utterance is the dialogue demand utterance. That is, it is determined to accept the driver's speech.
  • the dialogue request level is less than the dialogue demand level determination threshold
  • the dialogue request determination unit 108 determines that the driver's utterance is not the dialogue request utterance but the utterance to the fellow passenger. That is, it is determined not to accept the driver's speech.
  • the dialogue request determination unit 108 determines that the driver's speech is accepted, it outputs to the operation instruction unit 109 action instruction request information requesting an action instruction based on the voice recognition result of the driver's speech.
  • the action instruction request information includes information indicating that the driver's speech has been received, the degree of dialogue request, and the speech recognition result obtained from the speech processing unit 104 .
  • the action command unit 109 issues an action command for operating the vehicle 4, the in-vehicle device 5, or the output device 6 based on the action command request information.
  • Information is generated and output to the vehicle 4 , the vehicle-mounted device 5 , or the output device 6 .
  • the operation instruction unit 109 outputs the operation instruction information for causing the vehicle 4 to close the window.
  • the operation instruction unit 109 causes the vehicle-mounted device 5 (for example, a car navigation device) to set the destination. Outputs operation command information.
  • the action instruction unit 109 when the action instruction request information includes a speech recognition result of an utterance that requires a response, the action instruction unit 109 causes the output device 6 to display a message "accepted", or , to output a beep sound.
  • the operation command unit 109 may cause the output device 6 to display or output the state of the speech recognition device 1, for example.
  • the operation command unit 109 causes the output device 6 to display "accepting voice" while the voice processing unit 104 is performing speech detection and voice recognition processing.
  • the operation instruction unit 109 may acquire information indicating that processing is in progress from the sound processing unit 104 . In FIG. 1, illustration of an arrow from the voice processing unit 104 to the action instruction unit 109 is omitted.
  • the action command unit 109 may cause the output device 6 to display "response being generated" while the action command information is being generated.
  • the operation command unit 109 may record the contents of the operation of the vehicle 4, the in-vehicle device 5, or the output device 6 (hereinafter referred to as "response contents") in association with the related history information. .
  • the action command unit 109 associates the content of the response with the information regarding the driver's response request utterance in the related history information.
  • the action command unit 109 can identify the driver's response request utterance from the speech recognition result output from the interaction request determination unit 108 .
  • FIG. 4 is a flowchart for explaining the operation in the "history recording process" of the speech recognition apparatus 1 according to the first embodiment.
  • the operation shown in FIG. 4 is started, for example, when the engine of the vehicle 4 is turned on, and is repeatedly performed until the engine of the vehicle 4 is turned off.
  • the related history information recorded in the recording unit 106 is for a short period.
  • the recording unit 106 may be initialized and the related history information recorded by the recording unit 106 may be deleted.
  • the image acquisition unit 101 acquires a captured image of a plurality of passengers present in the vehicle, which is output from the camera 2 (step ST1).
  • the image acquisition unit 101 outputs the acquired captured image to the behavior detection unit 102 .
  • the behavior detection unit 102 performs behavior detection processing for detecting the behavior of the occupant based on the captured image acquired by the image acquisition unit 101 in step ST1 (step ST2).
  • the behavior detection unit 102 outputs the behavior information to the history recording control unit 105 when detecting the behavior of the passenger.
  • the voice acquisition unit 103 acquires the voice inside the vehicle output from the microphone 3 (step ST3).
  • the voice acquisition unit 103 outputs the acquired voice to the voice processing unit 104 .
  • the voice processing unit 104 detects an utterance by the passenger based on the voice acquired by the voice acquiring unit 103 in step ST2, and performs voice recognition processing for recognizing the detected utterance (step ST4).
  • the history record control unit 105 generates related history information based on the behavior information output from the behavior detection unit 102 in step ST2 and the voice recognition result output from the voice processing unit 104 in step ST4 (step ST5).
  • the history recording control unit 105 causes the recording unit 106 to record the generated related history information.
  • FIG. 5 is a flowchart for explaining the operation of the speech recognition apparatus 1 according to Embodiment 1 in the "interaction request determination process".
  • the image acquisition unit 101 acquires a captured image from the camera 2 (step ST11).
  • the image acquisition unit 101 outputs the acquired captured image to the behavior detection unit 102 .
  • the behavior detection unit 102 performs behavior detection processing for detecting the behavior of the occupant based on the captured image acquired by the image acquisition unit 101 in step ST11 (step ST12).
  • the behavior detection unit 102 detects the behavior of the occupant, the behavior detection unit 102 outputs behavior information to the dialogue sign detection unit 107 .
  • the dialogue predictor detection unit 107 detects whether or not there is a driver's dialogue predictor based on the behavior of the occupant detected by the behavior detector 102.
  • a dialogue sign detection process is executed (step ST13).
  • the dialogue predictor detection unit 107 detects the dialogue predictor of the driver, the dialogue predictor detection unit 107 outputs dialogue predictor information to the voice acquisition unit 103 and the dialogue request determination unit 108 .
  • dialogue predictor detection section 107 detects a driver's dialogue predictor in step ST13, in other words, when dialogue predictor information is output from dialogue predictor detection section 107, voice acquisition section 103 detects the voice output from microphone 3. The voice inside the vehicle is acquired (step ST14). The voice acquisition unit 103 outputs the acquired voice to the voice processing unit 104 .
  • the voice processing unit 104 detects an utterance by the passenger based on the voice acquired by the voice acquisition unit 103 in step ST14, and performs voice recognition processing for recognizing the detected utterance (step ST15). Speech processing unit 104 outputs the result of speech recognition to dialogue request determination unit 108 .
  • step ST13 if dialogue predictor detection section 107 detects that there is a predictor of dialogue by the driver, in other words, if dialog predictor information is output from dialogue predictor detection section 107, dialogue request determination section 108 determines that step ST13 is performed. Based on the result of speech recognition by speech processing unit 104 in ST15 and the related history information recorded in recording unit 106, dialogue request determination processing for determining whether or not to accept the utterance by the driver is performed (step ST16). ). When the interaction request determination unit 108 determines to accept the driver's speech, the interaction request determination unit 108 outputs action instruction request information to the action instruction unit 109 .
  • the action instruction section 109 When the action instruction request information is output from the interaction request determination section 108 in step ST16, the action instruction section 109 operates the vehicle 4, the in-vehicle device 5, or the output device 6 based on the action instruction request information. It generates operation command information for the purpose, and outputs it to the vehicle 4, the in-vehicle device 5, or the output device 6 (step ST17).
  • steps ST11 to ST12 and steps ST14 to ST15 in FIG. 5 may be common to the operations in steps ST1 to ST4 in FIG. 4, respectively.
  • FIG. 6 is a flowchart for explaining in more detail the operation of interaction request determination section 108 in step ST16 of FIG.
  • the dialog request determination unit 108 detects that there is a sign of interaction by the driver, in other words, when dialog sign information is output from the interaction sign detection unit 107, the dialog request determination unit 108 detects the result of speech recognition by the speech processing unit 104 and the recording unit 106. Based on the related history information recorded in , and the set conditions, the dialogue request level is set (step ST161).
  • dialogue demand determining section 108 judges whether or not the set degree of demand for dialogue satisfies conditions for determining the degree of dialogue demand (step ST162).
  • dialogue demand judgment section 108 judges that the driver's utterance is a dialogue demand utterance. (Step ST163). That is, it is determined to accept the driver's speech. Then, the operation of the speech recognition apparatus 1 proceeds to step ST17 in FIG.
  • step ST162 determines that the dialogue demand level does not satisfy the dialogue demand degree determination condition (“NO” in step ST162)
  • dialogue demand judgment section 108 determines that the driver's utterance is not the dialogue demand utterance. It is determined that the speech is directed to the passenger. That is, it is determined not to accept the driver's speech. Then, the operation of the speech recognition device 1 ends the processing of FIG.
  • the speech recognition apparatus 1 recognizes not only the utterances or behaviors of the utterance-receiving target passenger, here, the driver, but also the utterance history of the fellow passenger or the behavior history of the fellow passenger. is a dialogue request utterance or not.
  • the speech recognition device 1 can prevent erroneous recognition and erroneous rejection of the driver's speech.
  • the speech recognition apparatus 1 performs "history recording processing" in the first embodiment described above, this is merely an example.
  • the “history recording process” does not necessarily have to be performed by the speech recognition device 1 , and the “history recording process” may be performed by a device other than the speech recognition device 1 .
  • the speech recognition apparatus 1 does not necessarily have the history record control unit 105 .
  • the speech acquisition unit 103 does not always have to acquire the speech, and the speech may be acquired when the dialogue sign detection unit 107 detects the driver's dialogue sign. .
  • the speech recognition device 1 is provided with the operation instruction unit 109, but the speech recognition device 1 does not necessarily include the operation instruction unit 109.
  • the operation instruction unit 109 may be provided in another device connected to the speech recognition device 1 outside the speech recognition device 1 .
  • the dialogue sign detection unit 107 when the dialogue request determination unit 108 detects that there is a sign of interaction by the driver, in other words, the dialogue sign detection unit 107 outputs the interaction sign information. indicates the degree to which the driver's utterance is estimated to be a dialogue request utterance based on the speech recognition result by the speech processing unit 104, the related history information recorded in the recording unit 106, and the set conditions.
  • the interaction request determination unit 108 may set the interaction request level by other methods. Specifically, for example, the interaction request determination unit 108 may set the interaction request level using a learned model in machine learning (hereinafter referred to as "machine learning model").
  • the machine-learning model is a machine-learning model that receives speech recognition results and related history information as an input and outputs a dialogue request level.
  • a machine learning model is constructed in advance to estimate a result for an input by so-called supervised learning according to learning data generated based on a combination of input and teacher label data.
  • the input is the speech recognition result
  • the related history information is the degree of dialogue demand
  • the machine learning model learns the combination of the speech recognition result, the relevant history information, and the degree of dialogue demand as learning data.
  • the learning data is generated, for example, by an administrator or the like during a test run.
  • the administrator or the like confirms the voice and video collected by the vehicle 4 during the test run, sets the dialogue request level, and recognizes the voice recognition result of the voice collected during the test run and records it during the test run.
  • Learning data is generated by combining the associated history information and the degree of interaction request.
  • the machine learning model is stored in advance in a location that can be referenced by the interaction request determination unit 108 .
  • the dialogue request determination unit 108 inputs the speech recognition result by the speech processing unit 104 and the related history information recorded in the recording unit 106 into the machine learning model to obtain the degree of dialogue demand.
  • the dialogue demand determination unit 108 can improve the accuracy of the dialogue demand degree to be set as compared with the case where the dialogue demand degree is set according to the set conditions. can.
  • FIG. 7A and 7B are diagrams showing an example of the hardware configuration of the speech recognition device 1 according to Embodiment 1.
  • the image acquisition unit 101, the behavior detection unit 102, the voice acquisition unit 103, the voice processing unit 104, the history recording control unit 105, the dialogue sign detection unit 107, and the dialogue request determination unit 108 , and the functions of the operation instruction unit 109 are implemented by the processing circuit 701 .
  • the speech recognition apparatus 1 includes a processing circuit 701 for performing control to determine whether or not an utterance detected inside the vehicle is a dialogue requesting utterance.
  • the processing circuitry 701 may be dedicated hardware, as shown in FIG. 7A, or a processor 704 executing a program stored in memory, as shown in FIG. 7B.
  • the processing circuit 701 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable). Gate Array), or a combination thereof.
  • the processing circuit is the processor 704, the image acquisition unit 101, the behavior detection unit 102, the voice acquisition unit 103, the voice processing unit 104, the history record control unit 105, the dialogue sign detection unit 107, and the dialogue request determination unit 108 and the functions of the operation instruction unit 109 are implemented by software, firmware, or a combination of software and firmware.
  • Software or firmware is written as a program and stored in memory 705 .
  • the processor 704 reads out and executes the programs stored in the memory 705 to obtain the image acquisition unit 101, the behavior detection unit 102, the voice acquisition unit 103, the voice processing unit 104, the history record control unit 105, The functions of the dialogue sign detection unit 107, the dialogue request determination unit 108, and the operation instruction unit 109 are executed.
  • the speech recognition apparatus 1 when executed by the processor 704, executes a program that results in the execution of steps ST1 to ST5 in FIG. 4 and steps ST11 to ST17 in FIG.
  • a memory 705 is provided for storing.
  • the programs stored in the memory 705 include the image acquisition unit 101, the behavior detection unit 102, the voice acquisition unit 103, the voice processing unit 104, the history record control unit 105, the dialogue sign detection unit 107, and the dialogue detection unit 107. It can also be said that the request determination unit 108 and the operation instruction unit 109 are caused to execute the procedure or method of processing by the computer.
  • the memory 705 is a non-volatile or volatile memory such as RAM, ROM (Read Only Memory), flash memory, EPROM (Erasable Programmable Read Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory).
  • RAM random access memory
  • ROM Read Only Memory
  • flash memory EPROM (Erasable Programmable Read Only Memory)
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • a semiconductor memory, a magnetic disk, a flexible disk, an optical disk, a compact disk, a mini disk, a DVD (Digital Versatile Disc), or the like is applicable.
  • the functions of 109 may be partially realized by dedicated hardware and partially realized by software or firmware.
  • the functions of the image acquisition unit 101, the voice acquisition unit 103, and the operation instruction unit 109 are realized by a processing circuit 701 as dedicated hardware, and the behavior detection unit 102, the voice processing unit 104, and the history recording unit 104 are implemented.
  • the functions of the control unit 105 , the interaction sign detection unit 107 , and the interaction request determination unit 108 can be realized by the processor 704 reading and executing programs stored in the memory 705 .
  • the recording unit 106 uses the memory 705 . Note that this is just an example, and the recording unit 106 may be configured with a HDD (Hard Disk Drive), an SSD (Solid State Drive), a DVD, or the like.
  • HDD Hard Disk Drive
  • SSD Solid State Drive
  • the speech recognition apparatus 1 also includes devices such as the camera 2, the microphone 3, the in-vehicle device 5, or the output device 6, and an input interface device 702 and an output interface device 703 that perform wired or wireless communication.
  • the speech recognition device 1 is an in-vehicle device mounted in the vehicle 4, and includes the image acquisition unit 101, the behavior detection unit 102, the voice acquisition unit 103, the voice processing unit 104, History record control unit 105 , recording unit 106 , dialogue sign detection unit 107 , dialogue request determination unit 108 , and operation instruction unit 109 are provided in speech recognition apparatus 1 .
  • Some of the determination unit 108 and the operation instruction unit 109 are installed in the in-vehicle device of the vehicle 4, and the others are installed in a server connected to the in-vehicle device via a network.
  • a recognition system may be configured.
  • the operation instruction unit 109 may all be provided in the server.
  • the speech recognition apparatus 1 includes the image acquisition unit 101 that acquires images of a plurality of passengers present in the vehicle, and based on the images acquired by the image acquisition unit 101, A behavior detecting unit 102 for detecting behaviors of a plurality of occupants, and an indication of dialogue by an utterance reception target occupant who is a target of receiving utterances among the plurality of occupants based on information about the behavior of the plurality of occupants detected by the behavior detecting unit 102.
  • a dialogue predictor detection unit 107 for detecting whether or not there is a dialogue predictor detection unit 107, a voice acquisition unit 103 for acquiring voice in the vehicle when the dialogue predictor detection unit 107 detects that there is a sign of dialogue by the passenger for whom speech is to be received;
  • a voice processing unit 104 that detects utterances by the utterance reception target occupant based on the voice acquired by the unit 103 and performs voice recognition of the detected utterance, a voice recognition result by the voice processing unit 104, and a history of the behavior of a plurality of occupants or
  • a dialogue request determination unit 108 is provided for determining whether or not to accept an utterance by an utterance reception target crew member based on related history information in which histories of utterances of a plurality of occupants are set in chronological order. Therefore, the speech recognition device 1 can prevent erroneous recognition and erroneous rejection of the utterances of the passengers of the vehicle 4 .
  • Embodiment 2 The speech recognition device may have a function of updating setting conditions for setting the degree of interaction request.
  • Embodiment 2 describes an embodiment in which a speech recognition apparatus has a function of updating setting conditions. It should be noted that, in the second embodiment below, as in the first embodiment, as an example, the user is assumed to be a driver of a vehicle.
  • FIG. 8 is a diagram showing a configuration example of a speech recognition device 1a according to the second embodiment.
  • a speech recognition apparatus 1a according to the second embodiment differs from the speech recognition apparatus 1 according to the first embodiment described with reference to FIG.
  • the updating unit 1081 After the dialog request determination unit 108a sets the dialog request level, the updating unit 1081 resets the dialog request level based on the related history information, and performs update processing for updating the setting conditions based on the reset dialog request level. implement. Specifically, when the interaction request level set by the interaction request determination unit 108a and the interaction request level reset by the update unit 1081 after setting the interaction request level by the interaction request determination unit 108a do not match, the update unit 1081 , to update the setting conditions. When the interaction request determination unit 108a sets the interaction request level that does not match, the update unit 1081 sets the re-set interaction request level to the setting condition used by the interaction request determination unit 108a. ok, update.
  • the update unit 1081 updates the dialog request level only when the dialog request level set by the dialog request determination unit 108a and the dialog request level reset by the update unit 1081 after the dialog request determination unit 108a sets the dialog request level do not completely match. Instead, the setting condition may be updated when the difference in the degree of interaction request is greater than or equal to a preset threshold.
  • the method for setting the dialogue request level by the dialogue request determination unit 108a is the same as the method for setting the dialogue request level by the dialogue request determination unit 108 of the speech recognition apparatus 1 according to the first embodiment, which has already been described in the first embodiment. Since it is the same as , redundant description is omitted.
  • the interaction request determination unit 108a sets the interaction request level based on the updated setting condition.
  • the update unit 1081 refers to the related history information, and within a preset time (hereinafter referred to as "update determination time") from the time of the driver's utterance for which the dialogue request determination unit 108a sets the degree of dialogue request, The degree of interaction request is reset based on the behavior or speech of the driver and fellow passengers and a preset condition (hereinafter referred to as "updating setting condition"). An extremely short time is set in the "update determination time".
  • “within the update determination time from the time when the driver who set the dialogue request level” is assumed to be immediately after the time when the driver who set the dialogue request level is uttered. For example, conditions such as (Condition 4) and (Condition 5) below are set as the update setting conditions.
  • the update unit 1081 For example, if the behavior or speech by the driver and fellow passenger within the update determination time satisfies (Condition 4), the update unit 1081 resets the dialogue request level to "low.” Further, for example, if the behavior or speech by the driver and the passenger within the update determination time satisfies (Condition 5), the update unit 1081 resets the dialogue request level to "high.” It should be noted that the above-described (Condition 4) and (Condition 5) are examples of update-time setting conditions on the assumption that the interaction request level is set to "high” or "low.” When the dialogue demand level is set by a score, a condition for resetting the score is set in the update setting condition.
  • FIG. 9 is a diagram for explaining an image of an example of an in-vehicle situation when the update unit 1081 updates the setting conditions in the second embodiment.
  • 1001 indicates the driver and 1002 indicates the passenger. It is assumed that related history information as shown in FIG. 10 is recorded in the recording unit 106 .
  • the above (Condition 4) and (Condition 5) are set as the update setting conditions.
  • the dialogue request determination unit 108a receives a speech recognition result indicating that the driver's speech "Stop the car" was recognized from the speech processing unit 104 at "2020/7/1/20:50:40". is output. Dialogue request determination unit 108a refers to related history information such as that shown in FIG. high”. The operation of the interaction request determination unit 108a up to this point is the same as the operation of the interaction request determination unit 108 already described in the first embodiment.
  • the updating unit 1081 then refers to the related history information and resets the interaction request level based on the related history information.
  • the related history information there is a behavior history that the fellow passenger was looking in the driver's direction when the driver uttered "Stop the car” at "2020/7/1/20:50:40".
  • the robot responds with "That's dangerous, isn't it?" Based on these, the update unit 1081 determines that (condition 4) is satisfied, and resets the interaction request level to "low.”
  • the dialog request determination unit 108a updates the dialog request level set to "high” in response to the driver's utterance "stop the car” on "2020/7/1/20:50:40".
  • the dialogue request level "low” reset by the unit 1081 does not match.
  • the update unit 1081 determines that the interaction request determination unit 108a determines that the interaction request level is “high” in response to the driver's utterance “Stop the car” on “2020/7/1/20:50:40”. Change the setting condition used when setting it so that the degree of interaction request is set to "low”.
  • the dialogue request determination unit 108a determines that the degree of dialogue demand is "high” in response to the driver's utterance "Stop the car” at "2020/7/1/20:50:40". If the setting condition used when setting is "when the line-of-sight direction of the fellow passenger before the determination retrospective time is in the front direction, the dialogue request level is 'high'", the update unit 1081 sets the determination use The setting condition is updated so that if the line-of-sight direction of the fellow passenger before the retroactive time is the front direction, the dialogue request level is set to "low".
  • the updating unit 1081 updates the setting condition such that when the driver has made an utterance similar to "stop the car” in the past, the level of interaction demand set for the utterance is "low".
  • the update unit 1081 associates the dialogue request level “high” with the utterance “Stop the car” by the driver on “2020/7/1/20:50:40”. If so, the dialogue request level "high” is rewritten to "low”.
  • FIG. 11 is a diagram for explaining an image of another example of the situation inside the vehicle when updating unit 1081 updates the setting conditions in the second embodiment.
  • 1001 indicates the driver and 1002 indicates the fellow passenger. It is assumed that related history information as shown in FIG. 12 is recorded in the recording unit 106 .
  • the above (Condition 4) and (Condition 5) are set as the update setting conditions.
  • the dialogue request determination unit 108a refers to the related history information as shown in FIG. Suppose that the interaction request level is set to "low” based on the behavior history of the fellow passenger.
  • the update unit 1081 determines that (Condition 5) is satisfied, and resets the interaction request level to "high.”
  • the dialog request determination unit 108a updates the dialog request level set to "low” in response to the driver's utterance "stop the car” on "2020/7/1/20:50:40".
  • the dialogue request level "high” reset by the unit 1081 does not match.
  • the update unit 1081 determines that the dialogue request determination unit 108a determines that the degree of dialogue request is "low” in response to the driver's utterance "Stop the car” on "2020/7/1/20:50:40".
  • the setting condition used when setting is changed so that the interaction request level is set to "high”.
  • the setting condition may be updated so that the level of dialogue demand set for the utterance is "high”. .
  • the update unit 1081 associates the dialogue request level “low” with the driver’s utterance “stop the car” at “2020/7/1/20:50:40”. If so, the dialogue request level "low” is rewritten to "high”.
  • FIG. 13 is a flow chart for explaining the operation of the speech recognition apparatus 1a according to the second embodiment in the "interaction request determination process".
  • the operations of steps ST111 to ST117 are respectively the same as the operations of steps ST11 to ST17 in FIG. 5 described using FIG. do.
  • updating unit 1081 resets the interaction request level based on the related history information, and updates the setting condition based on the reset interaction request level. update processing is performed (step ST118). After updating section 1081 updates the setting condition in step ST118, interaction request determination section 108a sets the interaction request level based on the updated setting condition.
  • the interaction request determination unit 108a is provided with the update unit 1081, so that the interaction request level set for the driver's utterances can be changed from the history of the past occupant's utterances or behavior history. If the setting is made based on the above, an erroneous setting is made, but the accuracy of the degree of interaction request can be improved so as not to make an erroneous setting.
  • the "history recording process” does not necessarily have to be performed by the speech recognition device 1a, and the “history recording process” is performed by a device other than the speech recognition device 1a.
  • the voice recognition device 1a does not necessarily have the history record control unit 105.
  • the speech acquisition unit 103 does not always have to acquire the speech, and the speech may be acquired when the dialogue sign detection unit 107 detects the driver's dialogue sign. .
  • the speech recognition device 1a does not necessarily include the operation instruction unit 109.
  • the operation instruction unit 109 may be provided in another device connected to the speech recognition device 1a outside the speech recognition device 1a.
  • the interaction request determination unit 108a may set the interaction request level using a machine learning model.
  • the hardware configuration of the speech recognition device 1a according to the second embodiment is the same as the hardware configuration of the speech recognition device 1 described with reference to FIGS. 7A and 7B in the first embodiment, so the illustration is omitted.
  • the image acquisition unit 101, the behavior detection unit 102, the voice acquisition unit 103, the voice processing unit 104, the history recording control unit 105, the dialogue sign detection unit 107, and the dialogue request determination unit 108a , and the functions of the operation instruction unit 109 are implemented by the processing circuit 701 . That is, the speech recognition apparatus 1a includes a processing circuit 701 for determining whether or not an utterance detected inside the vehicle is an interaction requesting utterance, and for performing control to update the setting conditions used in the determination.
  • the processing circuit 701 reads out and executes the programs stored in the memory 705 to obtain the image acquisition unit 101, the behavior detection unit 102, the voice acquisition unit 103, the voice processing unit 104, and the history recording control unit 105. , the functions of the dialogue sign detection unit 107, the dialogue request determination unit 108a, and the operation instruction unit 109 are executed. 4 and steps ST111 to ST118 in FIG. 13 when executed by the processing circuit 701. a memory 705 for storing the The programs stored in the memory 705 include the image acquisition unit 101, the behavior detection unit 102, the voice acquisition unit 103, the voice processing unit 104, the history recording control unit 105, the dialogue sign detection unit 107, and the dialogue detection unit 107.
  • the speech recognition apparatus 1a includes devices such as a camera 2, a microphone 3, an on-vehicle device 5, or an output device 6, and an input interface device 702 and an output interface device 703 that perform wired or wireless communication.
  • the speech recognition device 1a is an in-vehicle device mounted in the vehicle 4, and the image acquisition unit 101, the behavior detection unit 102, the voice acquisition unit 103, the voice processing unit 104, The history record control unit 105 , the recording unit 106 , the dialogue sign detection unit 107 , the dialogue request determination unit 108 a , and the operation command unit 109 are provided in the speech recognition apparatus 1 .
  • Some of the determination unit 108a and the operation command unit 109 are installed in the in-vehicle device of the vehicle 4, and the others are installed in a server connected to the in-vehicle device via a network.
  • a recognition system may be configured.
  • the operation instruction unit 109 may all be provided in the server.
  • the speech recognition apparatus 1a after setting the dialogue request level, the dialogue request determination unit 108a resets the dialogue demand level based on the related history information, An updating unit 1081 is provided for updating the setting condition based on the degree of request. Therefore, the speech recognition apparatus 1a can prevent erroneous recognition and erroneous rejection of the utterances of both passengers, and the dialogue request level set for the driver's utterance can Alternatively, if setting is made based on the history of behavior, an erroneous setting is made, but the accuracy of the degree of interaction request can be improved so as not to make an erroneous setting.
  • Embodiment 3 The speech recognition device described in the second embodiment may have a personal authentication function.
  • a voice recognition device is provided with a personal authentication function, and the voice recognition device determines whether or not to accept a driver's utterance using the result of personal authentication.
  • the user is assumed to be a driver of a vehicle.
  • FIG. 14 is a diagram showing a configuration example of a speech recognition device 1b according to the third embodiment.
  • a voice recognition device 1b according to the third embodiment differs from the voice recognition device 1a according to the second embodiment described with reference to FIG.
  • the specific operation of the dialogue request determination unit 108b is different from the specific operation of the dialogue request determination unit 108a in the speech recognition apparatus 1a according to the second embodiment.
  • Personal authentication unit 110 performs personal authentication based on the captured image acquired by image acquisition unit 101 .
  • the image acquisition unit 101 outputs the captured image to the personal authentication unit 110 .
  • authentication information in which information identifying an individual and face information are associated with each other is generated in advance for the occupant, and the individual authentication unit 110 holds the authentication information.
  • the personal authentication unit 110 performs known image recognition processing from the captured image, extracts the face image of the passenger, and performs personal authentication by matching the extracted face image with information for personal authentication.
  • the personal authentication unit 110 extracts facial parts such as eyes, nose, and mouth from the captured image, and uses various known personal authentication methods such as matching with a pre-registered feature point database. , personal authentication may be performed.
  • Personal authentication unit 110 outputs the result of personal authentication to behavior detection unit 102 and history record control unit 105 .
  • the personal authentication result includes, for example, information on the position of the passenger and information by which the passenger can be identified. Information that can identify the occupant is, for example, a name or a facial image.
  • Personal authentication unit 110 functions in "history recording processing" and "dialogue request determination processing".
  • the behavior information output by the behavior detection unit 102 to the history recording control unit 105 includes, for example, the time when the behavior was detected and the identifiable occupant. is associated with information indicating the content of the detected behavior.
  • the behavior information of the occupant is represented by information on the position of the occupant.
  • the behavior information of the passenger can include information that can identify the passenger.
  • the history record control unit 105 generates related history information based on the behavior information output from the behavior detection unit 102 and the voice recognition result output from the voice processing unit 104 . At this time, the history recording control unit 105 sets information that enables identification of the performer to the performer who performed the behavior.
  • the history record control unit 105 can identify information that can identify the operator based on the behavior information output from the behavior detection unit 102 .
  • the history recording control unit 105 sets information that can identify the speaker to the speaker.
  • the history record control unit 105 may identify information that can identify the speaker based on, for example, the speech recognition result output from the speech processing unit 104 and the personal authentication result output from the personal authentication unit 110. .
  • the history recording control unit 105 causes the recording unit 106 to record the generated related history information.
  • the related history information is recorded in the recording unit 106 without being deleted, for example, for three days. Note that the three days is just an example, and in the third embodiment, the related history information may be recorded in the recording unit 106 for a certain period of time without being deleted. The related history information may be automatically deleted after a certain period of time, or may be deleted according to an instruction from the driver or fellow passenger.
  • FIG. 15 is a diagram for explaining an image of an example of the content of the related history information generated by the history record control unit 105 in the third embodiment.
  • a speaker or an operator is indicated by information that can identify an individual such as "Mr. A” or "Mr. B".
  • the dialogue request level and the utterance of the passenger are associated (see the utterance by Mr. A on "2020/6/29/20:50:40").
  • the dialogue request determination unit 108b sets the dialogue request level to the utterance by the passenger who set the dialogue request level in the related history information.
  • the updating unit 1081 rewrites the dialogue demand level in the related history information.
  • information about the tone of voice is set as the speech history.
  • the voice recognition device 1b has a personal authentication function, so that the voice recognition device 1b has a personal authentication function, so that the history of the driver's utterance immediately before or It is possible to set the dialogue request level using not only the behavior history but also the past utterance history or behavior history.
  • the dialogue predictor detection unit 107 detects that there is a predictor of dialogue by the driver, in other words, when the dialogue predictor information is output from the dialogue predictor detection unit 107, the dialogue request determination unit 108b detects the voice Based on the speech recognition result by the processing unit 104 and the related history information recorded in the recording unit 106, if there is a dialogue request level set in the same utterance situation in the past, the past dialogue request set in the same utterance situation Set the degree to the interaction request degree.
  • the same utterance situation is, for example, a situation in which the content of the utterance is the same.
  • the same utterance situation may be, for example, a situation in which the content of the utterance and the tone of voice are the same.
  • the dialogue request determination unit 108b In addition to the speech recognition result by the speech processing unit 104 and the history information related to recording in the recording unit 106, the dialogue request determination unit 108b also detects the same speech situation in the past based on the behavior information detected by the behavior detection unit 102. And if there is a dialogue demand level set in the same behavior situation, the past dialogue demand level set in the same utterance situation and the same behavior situation may be set as the dialogue demand level.
  • the behavior information is included in the dialogue predictor information output from the dialogue predictor detection unit 107 .
  • the same utterance situation does not have to be exactly the same utterance situation, and includes similar utterance situations.
  • the same behavioral situation does not have to be exactly the same behavioral situation, and includes similar behavioral situations.
  • the dialogue request determination section 108b in addition to the above-described function of setting the dialogue request level based on the past dialogue request level, the dialogue request determination section 108b also has the function of
  • the degree of dialogue demand is set as "high” or "low.”
  • three days have passed since the related history information shown in FIG. 15 was generated and recorded in the recording unit 106, and related history information such as that shown in FIG. 16 is further recorded in the related history information. It has become. That is, FIG. 16 shows related history information generated on “2020/7/2”. Although not shown in FIG. 16, the related history information shown in FIG. 15 is recorded in the recording unit 106 without being deleted.
  • Mr. A says “Stop the car” with a sign of dialogue.
  • the speaker speaks (see FIG. 16).
  • Mr. A speaks with a low tone of voice.
  • Mr. A faces the front.
  • Mr. A's utterance with a low tone of voice "Stop the car” with his face facing the front is is the same as the behavior situation and utterance situation when utters "stop the car”. Therefore, the dialogue request determination unit 108b sets the degree of dialogue demand for Mr. A's "stop the car” at "2020/6/29/20:50:40” to Set it to "Low", which is the same as the dialogue request level set in .
  • the dialogue request determination unit 108b regards similar past utterance situations or past similar behavior information as the same utterance situation or the same behavior information, respectively. You may make it set to a request degree. For example, in the related history information, behavior details or tone of voice are held as numerical values instead of text as shown in FIGS. Whether or not the difference in values is within a preset threshold may be used to determine whether the speech situations or behavior information are similar.
  • the processing performed after the dialog request determination unit 108b sets the dialog request level is the same as the processing performed after the dialog request determination unit 108a sets the dialog request level in the speech recognition apparatus 1a according to the second embodiment. Duplicate description is omitted.
  • FIG. 17 is a flowchart for explaining the operation in the "history recording process" of the speech recognition apparatus 1b according to the third embodiment.
  • the operations of steps ST1 to ST4 are the same as the operations of steps ST1 to ST4 in FIG. 4 described with reference to FIG. 4 in Embodiment 1, respectively. .
  • the personal authentication unit 110 performs personal authentication based on the captured image acquired by the image acquiring unit 101 in step ST1 (step ST6).
  • Image acquisition section 101 outputs the captured image to personal authentication section 110 in step ST1.
  • the history record control unit 105 generates related history information based on the behavior information output from the behavior detection unit 102 in step ST2 and the speech recognition result output from the speech processing unit 104 in step ST5 (step ST5). At this time, the history recording control unit 105 sets information that enables identification of the performer to the performer who performed the behavior.
  • FIG. 18 is a flowchart for explaining the operation of the speech recognition apparatus 1b according to the third embodiment in the "interaction request determination process".
  • the operations in steps ST1111, ST1113 to ST1116, and ST1119 are the same as the operations in steps ST111 to ST115, and ST118 described with reference to FIG. 13 in the second embodiment. Duplicate description is omitted.
  • Personal authentication section 110 performs personal authentication based on the captured image acquired by image acquiring section 101 in step ST1111 (step ST1112).
  • Image acquisition section 101 outputs the captured image to personal authentication section 110 in step ST1111.
  • step ST1114 if dialogue predictor detection section 107 detects that there is a predictor of dialogue by the driver, in other words, if dialogue predictor information is output from dialogue predictor detection section 107, dialogue request determination section 108 determines step ST1114. Based on the speech recognition result by speech processing section 104 in ST1116 and the related history information recorded in recording section 106, dialogue request determination processing for determining whether or not to accept the utterance by the driver is performed (step ST1117). ).
  • step ST1117 when dialogue predictor detection section 107 detects that there is a predictor of dialogue by the driver, in other words, when dialog predictor information is output from dialogue predictor detection section 107, dialogue request determination section 108b determines step ST1116.
  • An interaction request determination process may be implemented to determine whether or not.
  • FIG. 19 is a flowchart for explaining in more detail the operation of interaction request determination section 108b in step ST1117 of FIG.
  • the operations of steps ST11173 to ST11175 are the same as the operations of steps ST161 to ST163 of FIG. 6 described in Embodiment 1, respectively, and redundant description will be omitted.
  • dialogue request determination unit 108b detects that there is a predictor of dialogue by the driver, in other words, when dialogue predictor information is output from dialogue predictor detection unit 107, dialogue request determination unit 108b Based on the related history information recorded in , it is determined whether or not there is a dialogue request level set in the same utterance situation in the past (step ST11171).
  • step ST11171 if it is determined that there is a dialogue request level set in the same utterance situation in the past ("YES" in step ST11171), dialogue request determination section 108b determines that the past dialogue set in the same utterance situation The degree of demand is set to the degree of dialogue demand (step ST11172). Then, the operation of the speech recognition device 1b proceeds to step ST11174.
  • step ST11171 if it is determined in step ST11171 that there is no dialogue request level set in the same utterance situation in the past ("NO" in step ST11171), the operation of the speech recognition device 1b proceeds to step ST11173.
  • dialogue request determination section 108b in step ST11171, based on the speech recognition result by speech processing section 104, the history information recorded in recording section 106, and the behavior information detected by behavior detection section 102, , it may be determined whether or not there is a dialogue request degree set in the same utterance situation and the same behavior situation in the past.
  • dialogue request determination section 108b determines that there is a degree of dialogue demand set in the same utterance situation and the same behavior situation in the past ("YES" in step ST11171)
  • dialogue request determination section 108b sets the same utterance situation and the same behavior situation.
  • the past interaction request level obtained is set as the interaction request level (step ST11172).
  • step ST11174 the operation of speech recognition device 1b is as follows: proceed to
  • steps ST1111 to ST1113 and steps ST1115 to ST1116 of FIG. 18 may be common to the operations of steps ST1, ST7 and ST2 to ST4 of FIG. 17, respectively.
  • the speech recognition device 1b is provided with the individual authentication unit 110, so that it is possible to grasp the characteristics of the speech and behavior of each passenger.
  • the speech recognition device 1b can set the degree of dialogue request in consideration of the characteristics of the individual utterance or behavior of the passenger, so that the accuracy of the degree of dialogue demand to be set can be improved.
  • the speech recognition device 1b can improve the accuracy of determining whether the utterance by the driver is the response request utterance or the utterance to the fellow passenger, compared to the case without the personal authentication function.
  • the voice recognition device 1b can improve the accuracy of determining whether or not to accept the driver's utterance, compared to the case without the personal authentication function.
  • the "history recording process" does not necessarily have to be performed by the speech recognition device 1b.
  • the speech recognition device 1b does not necessarily have the history record control unit 105.
  • the speech acquisition unit 103 does not always have to acquire the speech, and the speech may be acquired when the dialogue sign detection unit 107 detects the driver's dialogue sign. .
  • the speech recognition device 1b does not necessarily include the operation instruction unit 109.
  • the operation instruction unit 109 may be provided in another device connected to the speech recognition device 1b outside the speech recognition device 1b.
  • the interaction request determination unit 108b may set the interaction request level using a machine learning model.
  • the hardware configuration of the speech recognition device 1b according to the third embodiment is the same as the hardware configuration of the speech recognition device 1b described in the first embodiment with reference to FIGS. 7A and 7B, so illustration thereof is omitted.
  • the image acquisition unit 101, the behavior detection unit 102, the voice acquisition unit 103, the voice processing unit 104, the history record control unit 105, the dialogue sign detection unit 107, and the dialogue request determination unit 108b , the operation instruction unit 109 and the personal authentication unit 110 are realized by the processing circuit 701 .
  • the speech recognition device 1b performs personal authentication of the occupant, and performs control to determine whether or not the utterance detected inside the vehicle is the dialogue request utterance in accordance with the characteristics of the utterance or behavior of the individual occupant.
  • a circuit 701 is provided. The processing circuit 701 reads out and executes the programs stored in the memory 705 to obtain the image acquisition unit 101, the behavior detection unit 102, the voice acquisition unit 103, the voice processing unit 104, and the history recording control unit 105. , the interaction sign detection unit 107, the interaction request determination unit 108b, the operation instruction unit 109, and the individual authentication unit 110. 17 and steps ST1111 to ST1119 in FIG. 18 when executed by the processing circuit 701.
  • the programs stored in the memory 705 include the image acquisition unit 101, the behavior detection unit 102, the voice acquisition unit 103, the voice processing unit 104, the history record control unit 105, the dialogue sign detection unit 107, and the dialogue detection unit 107. It can also be said that a computer is caused to execute the procedure or method of the processing of the request determination unit 108b, the operation instruction unit 109, and the personal authentication unit 110.
  • FIG. The speech recognition apparatus 1b includes devices such as the camera 2, the microphone 3, the vehicle-mounted device 5, or the output device 6, and an input interface device 702 and an output interface device 703 that perform wired or wireless communication.
  • the speech recognition device 1b is an in-vehicle device mounted in the vehicle 4, and includes an image acquisition unit 101, a behavior detection unit 102, a voice acquisition unit 103, a voice processing unit 104, The history record control unit 105, the dialogue sign detection unit 107, the dialogue request determination unit 108b, the operation instruction unit 109, and the personal authentication unit 110 are provided in the speech recognition device 1b.
  • a speech recognition system may be configured.
  • an image acquisition unit 101, a behavior detection unit 102, a voice acquisition unit 103, a voice processing unit 104, a history record control unit 105, a dialogue sign detection unit 107, a dialogue request determination unit 108b, and an operation command unit. 109 and personal authentication unit 110 may all be provided in the server.
  • the speech recognition device 1b is provided with the personal authentication unit 110 in addition to the speech recognition device 1a according to Embodiment 2, but this is merely an example.
  • the configuration of the third embodiment may be applied to the first embodiment, and the speech recognition device 1 according to the first embodiment may include the personal authentication unit 110 .
  • the speech recognition apparatus 1b includes the personal authentication unit 110 that performs personal authentication based on the captured image acquired by the image acquisition unit 101. Possible personal authentication information, behavior histories of a plurality of crew members, or speech histories of a plurality of crew members are set in chronological order.
  • the speech recognition device 1b can set the degree of dialogue request in consideration of the characteristics of the individual utterance or behavior of the passenger, it is possible to improve the accuracy of the degree of dialogue demand to be set.
  • the speech recognition device 1b can improve the accuracy of determining whether the utterance by the utterance reception target crew member is the response request utterance or the utterance to the fellow passenger, compared to the case without the personal authentication function. can be done. That is, the speech recognition device 1b can improve the accuracy of determining whether or not to accept an utterance by the utterance-receiving target crew member, compared to a case without the personal authentication function.
  • the speech recognition device can prevent erroneous recognition and erroneous rejection of utterances by vehicle occupants.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

車内に存在する複数の乗員を撮像した撮像画像を取得する画像取得部(101)と、撮像画像に基づき、複数の乗員の挙動を検知する挙動検知部(102)と、複数の乗員の挙動に関する情報に基づき、複数の乗員のうち発話受付対象乗員による対話予兆があるか否かを検知する対話予兆検知部(107)と、発話受付対象乗員による対話予兆があると検知した場合、車内の音声を取得する音声取得部(103)と、取得した音声に基づき発話受付対象乗員による発話を検知し、検知した発話の音声認識を行う音声処理部(104)と、音声処理部(104)による音声認識結果と関連履歴情報とに基づいて、発話受付対象乗員による発話を受け付けるか否かを判定する対話要求判定部(108,108a,108b)とを備えた。

Description

音声認識装置および音声認識方法
 本開示は、車内の乗員の発話を受付可能な、対話予兆検知型の音声認識装置に関する。
 従来、人による対話予兆を検知し、当該対話予兆を検知すると、音声の受付を開始する、いわゆる「対話予兆検知型」の音声認識技術が知られている。このような音声認識技術では、受け付けた音声に基づく発話が、装置への応答を要求する発話(以下「応答要求発話」という。)であるか否かを判定し、応答要求発話であると判定した場合に、発話を受け付ける。
 例えば、特許文献1には、文脈情報に基づいて、ユーザ発話入力が仮想アシスタントに向けられたか否かを判定する方法が開示されている。文脈情報には、例えば、ユーザとユーザデバイスとの間の空間距離を表す距離データ、または、ユーザ発話入力が受信されたときにユーザがユーザデバイスを見ていたか否かを判定するための画像データが含まれる。上記方法は、ユーザがユーザ発話入力を仮想アシスタントに向けることを意図したと判定した場合ユーザ発話入力を処理し、ユーザ発話入力を仮想アシスタントに向けることを意図しなかったと判定した場合ユーザ発話入力を無視する、または、応答を生成しない。
特開2018-136568号公報
 車内では、例えば、乗員の乗車位置が固定されているため、乗員が応答要求発話を行った場合と、同乗者への発話を行った場合の、乗員と装置との距離の差は小さい。また、例えば、運転者は前方を注視している必要があるため、乗員が応答要求発話を行った場合と、同乗者への発話を行った場合の、乗員の視線方向の差は小さい。
 特許文献1に開示されているような従来技術は、車両の乗員による発話を受け付けることについて考慮されていないため、当該従来技術を車両に適用した場合、乗員による同乗者への発話を応答要求発話として受け付ける(以下「誤認識」という。)、または、乗員による応答要求発話を同乗者への発話として受け付けない(以下「誤棄却」という。)場合があるという課題があった。
 本開示は上記のような課題を解決するためになされたもので、車両の乗員の発話に対して、誤認識および誤棄却を防ぐ音声認識装置を提供することを目的とする。
 本開示に係る音声認識装置は、車内に存在する複数の乗員を撮像した撮像画像を取得する画像取得部と、画像取得部が取得した撮像画像に基づき、複数の乗員の挙動を検知する挙動検知部と、挙動検知部が検知した複数の乗員の挙動に関する情報に基づき、複数の乗員のうち、発話を受け付ける対象となる発話受付対象乗員による対話予兆があるか否かを検知する対話予兆検知部と、対話予兆検知部が、発話受付対象乗員による対話予兆があると検知した場合、車内の音声を取得する音声取得部と、音声取得部が取得した音声に基づき発話受付対象乗員による発話を検知し、検知した発話の音声認識を行う音声処理部と、音声処理部による音声認識結果と、複数の乗員の挙動の履歴または複数の乗員の発話の履歴が時系列で設定されている関連履歴情報とに基づいて、発話受付対象乗員による発話を受け付けるか否かを判定する対話要求判定部とを備えたものである。
 本開示によれば、音声認識装置は、車両の乗員の発話に対して、誤認識および誤棄却を防ぐことができる。
実施の形態1に係る音声認識装置の構成例を示す図である。 実施の形態1において、履歴記録制御部が生成する関連履歴情報の内容の一例のイメージを説明するための図である。 実施の形態1において、履歴記録制御部が生成する関連履歴情報の内容のその他の一例のイメージを説明するための図である。 実施の形態1に係る音声認識装置の、「履歴記録処理」における動作を説明するためのフローチャートである。 実施の形態1に係る音声認識装置の、「対話要求判定処理」における動作を説明するためのフローチャートである。 図5のステップST16における対話要求判定部の動作について、より詳細に説明するためのフローチャートである。 図7A,図7Bは、実施の形態1に係る音声認識装置のハードウェア構成の一例を示す図である。 実施の形態2に係る音声認識装置の構成例を示す図である。 実施の形態2において、更新部が設定条件を更新する場合の車内の状況の一例のイメージを説明するための図である。 実施の形態2において、履歴記録制御部が生成する関連履歴情報の内容の一例のイメージを説明するための図である。 実施の形態2において、更新部が設定条件を更新する場合の車内の状況のその他の一例のイメージを説明するための図である。 実施の形態2において、履歴記録制御部が生成する関連履歴情報の内容のその他の一例のイメージを説明するための図である。 実施の形態2に係る音声認識装置の、「対話要求判定処理」における動作を説明するためのフローチャートである。 実施の形態3に係る音声認識装置の構成例を示す図である。 実施の形態3において、履歴記録制御部が生成する関連履歴情報の内容の一例のイメージを説明するための図である。 実施の形態3において、履歴記録制御部が生成する関連履歴情報の内容のその他の一例のイメージを説明するための図である。 実施の形態3に係る音声認識装置の、「履歴記録処理」における動作を説明するためのフローチャートである。 実施の形態3に係る音声認識装置の、「対話要求判定処理」における動作を説明するためのフローチャートである。 図18のステップST1117における対話要求判定部の動作について、より詳細に説明するためのフローチャートである。
 以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 実施の形態1において、音声認識装置は、いわゆる「対話予兆検知型」の音声認識装置である。「対話予兆検知型」は、ボタンの押下、または、いわゆるウェイクアップワード等、音声認識を開始させるために予め定められた言葉の入力を必要とせず、ユーザに対して、応答要求発話を行う際の負担を軽減することができる。
 実施の形態1に係る音声認識装置は、車両に搭載されることを想定している。音声認識装置1は、車内にいるユーザによる対話予兆を検知すると、音声を受け付け、受け付けた音声に基づくユーザの発話の音声認識を行って、当該発話を受け付けるか否かを判定する。音声認識装置は、ユーザの発話が応答要求発話であると判定した場合に、発話を受け付ける。
 音声認識装置のユーザは、車両の乗員である。
 以下の実施の形態1では、一例として、ユーザは、車両の運転者を想定している。なお、これは一例に過ぎず、ユーザは、運転者以外の、助手席または後部座席の乗員、言い換えれば、同乗者としてもよい。また、車両内にいる複数の乗員をユーザとしてもよい。
 実施の形態1において、ユーザとなる車両の乗員、すなわち、ここでは運転者を、「発話受付対象乗員」ともいう。また、以下の実施の形態1では、複数の乗員を、単に「乗員」ともいう。
 図1は、実施の形態1に係る音声認識装置1の構成例を示す図である。
 音声認識装置1は、車両4に搭載され、カメラ2、マイク3、車載機器5、および、出力装置6と接続される。
 カメラ2は、車両4に搭載されている可視光カメラ、または、赤外線カメラ等である。カメラ2は、例えば、いわゆる「ドライバーモニタリングシステム(Driver Monitoring System,DMS)」と共用のものであってもよい。
 カメラ2は、車内の乗員を撮像する。なお、カメラ2は、少なくとも、乗員の顔を撮像可能な場所に設置されている。
 カメラ2は、車内の全乗員を撮像可能とするよう、少なくとも車内の全乗員の顔を含む範囲を撮像可能な画角を有した1台のカメラとしてもよいし、各乗員の少なくとも顔を含む範囲を撮像可能な複数台のカメラとしてもよい。
 カメラ2は、乗員を撮像した画像(以下「撮像画像」という。)を、音声認識装置1に出力する。なお、カメラ2は、常時、車内の乗員を撮像している。
 マイク3は、車両4に搭載されており、車内の音声を取得する。マイク3が取得する音声には、乗員による発話、車両4の走行により発生する騒音、車内で再生されている音楽、または、雑音等が含まれる。
 車両4に1つのマイク3が搭載されていてもよいし、車両4に複数のマイク3が搭載されていてもよい。車両4に複数のマイク3が搭載されている場合、当該複数のマイク3は、それぞれ、音声認識装置1に、取得した音声を、マイク3を特定可能な情報と対応付けて、出力する。
 マイク3は、取得した音声を、音声認識装置1に出力する。なお、マイク3は、常時、音声を取得している。
 音声認識装置1は、カメラ2から取得した撮像画像、および、マイク3から取得した音声に基づいて、時刻と、乗員の挙動内容の履歴および乗員の発話内容の履歴が時系列で設定された関連履歴情報を生成し記録する「履歴記録処理」と、カメラ2から取得した撮像画像に基づいて検知した発話受付対象乗員、ここでは、運転者、の挙動から、当該運転者の対話予兆を検知した場合に、運転者の発話を受け付けるか否かを判定する「対話要求判定処理」を行う。「履歴記録処理」および「対話要求判定処理」の詳細については、後述する。
 音声認識装置1は、「対話要求判定処理」において、運転者の発話を受け付けると判定した場合、当該発話の音声認識結果に基づいて動作させるための情報(以下「動作命令情報」という。)を、車両4、車載機器5、または、出力装置6に出力する。
 車両4、車載機器5、または、出力装置6は、音声認識装置1から出力された動作命令情報に従った動作を行う。
 例えば、車両4は、動作命令情報に従い、ブレーキ、ライトの点灯、ライトの消灯、または、窓の開閉等の車両4の機能を実行する。
 車載機器5は、例えば、車両4に搭載されているカーナビゲーション装置、オーディオ機器、または、これらを制御する機器である。例えば、カーナビゲーション装置は、動作命令情報に従い、目的地の設定、目的地の変更、または、経路案内等を行う。また、例えば、オーディオ機器は、動作命令情報に従い、音楽の再生、または、音量変更等を行う。
 出力装置6は、例えば、車両4に搭載されている表示装置または音声出力装置である。例えば、表示装置は、動作命令情報に従って、文字またはアイコン等の表示を行う。表示装置は、動作命令情報に従ったライティングを行ってもよい。例えば、音声出力装置は、動作命令情報に従って、音声を出力する。例えば、音声認識装置1は、表示装置による表示と音声出力装置による音声出力を組み合わせて行わせてもよい。
 音声認識装置1の構成例について説明する。
 図1に示すように、音声認識装置1は、画像取得部101、挙動検知部102、音声取得部103、音声処理部104、履歴記録制御部105、記録部106、対話予兆検知部107、対話要求判定部108、および、動作命令部109を備える。
 音声処理部104は、発話検知部1041および音声認識部1042を備える。
 上述のとおり、音声認識装置1は、「履歴記録処理」および「対話要求判定処理」を行う。音声認識装置1において、「履歴記録処理」と「対話要求判定処理」とは、並行して行われる。
 音声認識装置1の構成について、「履歴記録処理」にて機能する構成部と、「対話要求判定処理」にて機能する構成部とに分けて説明する。なお、「履歴記録処理」および「対話要求判定処理」の両方にて機能する構成部もある。
 まず、実施の形態1に係る音声認識装置1において、「履歴記録処理」にて機能する構成部について説明する。
 音声認識装置1において、「履歴記録処理」では、画像取得部101、挙動検知部102、音声取得部103、音声処理部104、履歴記録制御部105、および、記録部106が機能する。
 画像取得部101は、常時、カメラ2から出力された、車内に存在する複数の乗員を撮像した撮像画像を取得する。
 画像取得部101は、取得した撮像画像を挙動検知部102に出力する。
 挙動検知部102は、画像取得部101が取得した撮像画像に基づき、乗員の挙動を検知する挙動検知処理を実施する。
 実施の形態1において、挙動検知部102が検知する乗員の挙動は、予め決められている。例えば、挙動検知部102が検知する乗員の挙動には、乗員の顔向き、乗員の視線方向、乗員の口の動き、または、乗員が行ったジェスチャが含まれる。
 挙動検知部102は、撮像画像に対して既知の画像認識処理を行って、乗員の挙動を検知すればよい。具体的には、例えば、挙動検知部102は、撮像画像から、目、鼻、または、口等の乗員の顔のパーツを抽出し、抽出した顔のパーツに基づいて乗員の顔向きまたは視線方向を検知する。また、例えば、カメラ2が赤外線カメラである場合、挙動検知部102は、赤外線カメラが近赤外の点光源を照射すると角膜で反射して得られたプルキニエ像と瞳孔との位置関係から、乗員の視線方向を検知することもできる。また、例えば、挙動検知部102は、乗員の顔向きと顔画像の標準パターンとが対応付けられた顔向き判定用情報を予め保持しておき、当該顔向き判定用情報と撮像画像から抽出した乗員の顔の画像とのパターンマッチングにより、顔向き判定用情報において、最も類似度が高い顔向きを、乗員の顔向きとして検知してもよい。また、例えば、挙動検知部102は、ジェスチャ毎に、当該ジェスチャを示すジェスチャ画像の標準パターンが対応付けられたジェスチャ情報を予め保持しておき、当該ジェスチャ情報と撮像画像から抽出した乗員がジェスチャを行っている画像とのパターンマッチングにより、ジェスチャ情報において、最も類似度が高いジェスチャを、乗員が行っているジェスチャとして検知してもよい。
 また、例えば、挙動検知部102は、乗員の顔向きと乗員の視線方向の両方を検知し、より信頼度の高い方を乗員の挙動として検知してもよい。具体例を挙げると、例えば、挙動検知部102は、乗員がサングラスまたは眼鏡を着用している場合は、乗員の顔向きを、乗員の挙動として検知する。
 挙動検知部102は、乗員の挙動を検知すると、検知した挙動に関する情報(以下
「挙動情報」という。)を、履歴記録制御部105に出力する。挙動情報は、例えば、挙動が検知された時刻と、検知された挙動を行った乗員の位置に関する情報と、検知された挙動内容を示す情報が対応付けられた情報とする。挙動内容を示す情報は、例えば、挙動の内容を示すテキスト、または、挙動の内容を示す数値である。挙動の内容を示すテキストは、予め、挙動に応じて決められている。具体的には、例えば、乗員が手で「OK」とするジェスチャを行った場合、挙動の内容を示すテキストとして、「ジェスチャ:OK」が決められている。また、例えば、乗員の顔向きが正面である場合、挙動の内容を示すテキストとして、「顔向き:正面」が決められている。挙動の内容を示す数値は、具体的には、例えば、乗員の顔向きを示す角度、乗員の視線方向の角度、または、乗員の口の開き具合である。
 挙動検知部102は、挙動を行った乗員の位置を、撮像画像に基づいて取得する。実施の形態1において、乗員の位置は、乗員が着座している座席であらわされる。カメラ2の設置位置および画角は予めわかっているので、挙動検知部102は、撮像画像に対して既知の画像認識処理を行うことで、乗員が着座している座席を特定できる。なお、挙動検知部102は、乗員の位置を、例えば、音声認識装置1との距離、または、同乗者との距離であらわされてもよい。
 音声取得部103は、常時、マイク3から出力された車内の音声を取得する。音声取得部103は、取得した音声を、音声処理部104に出力する。
 音声処理部104は、音声取得部103が取得した音声に基づき乗員による発話を検知し、検知した発話の音声認識を行う音声認識処理を実施する。
 具体的には、まず、音声処理部104の発話検知部1041が、音声取得部103が取得した音声に基づき、乗員による発話を検知する。
 発話検知部1041は、各座席の乗員の発話を、それぞれ区別して検知することができる。例えば、マイク3が各座席に設置されていれば、発話検知部1041は、音声がどのマイク3から取得されたものかによって、検知した発話がどの座席の乗員の発話であるか特定できる。また、マイク3が車内の任意の場所に1つ、または、車内に複数設置されている場合、発話検知部1041は、ビームフォーミング技術を用いてある方向に指向性を向ける等の信号処理、または、機械学習を用いて、ノイズ除去または音源分離を行うこともできる。
 また、発話検知部1041は、音声に基づき、乗員の話し方をあわせて検知することもできる。乗員の話し方は、例えば、発話速度、発話のピッチ、または、発話のトーンを含む。
 発話検知部1041は、検知した乗員の発話を、音声認識部1042に出力する。このとき、発話検知部1041は、検知した乗員の発話を、当該乗員の位置に関する情報と対応付けて、音声認識部1042に出力する。なお、乗員の位置は、乗員が着座している座席であらわされる。
 発話検知部1041は、発話と乗員の位置に関する情報に加え、乗員の話し方に関する情報を対応付けて音声認識部1042に出力してもよい。
 音声認識部1042は、発話検知部1041から出力された乗員の発話に対して、音声認識を行う。音声認識部1042は、既知の音声認識技術を用いて音声認識を行えばよい。音声認識部1042は、音声認識を行って、乗員の発話内容をテキスト化する。
 音声認識部1042が音声認識を行うと、音声処理部104は、音声認識結果を、履歴記録制御部105に出力する。
 音声認識結果は、例えば、発話が検知された時刻と、発話の内容と、発話した乗員の位置に関する情報とが対応付けられた情報とする。音声認識結果には、さらに、発話した乗員の話し方に関する情報が対応付けられていてもよい。
 履歴記録制御部105は、挙動検知部102から出力された挙動情報と、音声処理部104から出力された音声認識結果とに基づき、乗員の挙動内容の履歴、および、乗員の発話内容の履歴が時系列で設定された関連履歴情報を生成する。
 ここで、図2は、実施の形態1において、履歴記録制御部105が生成する関連履歴情報の内容の一例のイメージを説明するための図である。
 関連履歴情報は、例えば、挙動が検知された時刻毎に、挙動を行った動作者と挙動内容とが対応付けられた情報(挙動履歴情報)、および、発話が検知された時刻毎に、発話者と発話内容とが対応付けられた情報(発話履歴情報)が、それぞれ、時系列に設定された情報である。図2に示すように、挙動が検知された時刻と発話が検知された時刻が同じ時刻である場合、挙動履歴情報と発話履歴情報は、1つにまとめられ、ある時刻に挙動を行った動作者または発話者と、挙動内容と、発話内容とが対応付けられてもよい。
 図2に示すように、実施の形態1では、関連履歴情報において、挙動を行った動作者および発話者は、座席で示されるものとしている。
 実施の形態1では、音声認識装置1において、乗員が誰であるかということまでは認識しない。音声認識装置1は、車内の乗員を、乗員の位置によって区別する。具体的には、音声認識装置1は、車内の乗員を、乗員の位置で表現する。乗員の位置の表現としては、例えば、「運転席」というように座席による表現、または、「運転者」のように、その座席に座っている人をあらわす表現が挙げられる。
 よって、履歴記録制御部105は、例えば、挙動を行った動作者または発話者は、座席で示されるようにして、関連履歴情報を生成する。なお、履歴記録制御部105は、挙動情報から動作者の座席を判定でき、音声認識結果から発話者の座席を判定できる。
 なお、図2に示す関連履歴情報の一例では、挙動履歴情報および発話履歴情報の両方が設定されているものとしたが、関連履歴情報において、挙動履歴情報および発話履歴情報の両方が設定されている必要はない。履歴記録制御部105は、挙動履歴情報または発話履歴情報のいずれかが設定された関連履歴情報を生成するようにしてもよい。
 関連履歴情報は、いつ、誰(より詳細にはどの座席に座っている乗員)による、どのような発話が検知されたか、または、いつ、誰(より詳細にはどの座席に座っている乗員)による、どのような挙動が検知されたかが時系列でわかる情報になっていればよい。
 また、関連履歴情報において、発話履歴情報として、発話者の話し方に関する情報が、発話者および発話内容と対応付けられて設定されるようにしてもよい。履歴記録制御部105は、音声認識結果から、発話者の話し方を特定できる。
 履歴記録制御部105は、生成した関連履歴情報を、記録部106に記録させる。
 記録部106は、関連履歴情報を記録する。
 なお、図1では、記録部106は、音声認識装置1に備えられているが、これは一例に過ぎない。記録部106は、音声認識装置1の外部の、音声認識装置1が参照可能な場所に備えられていてもよい。
 なお、実施の形態1に係る音声認識装置1が行う「履歴記録処理」では、記録部106に記録される関連履歴情報は、1日分等、短い期間のものであることを想定している。
 次に、実施の形態1に係る音声認識装置1において、「対話要求判定処理」にて機能する構成部について説明する。
 音声認識装置1において、「対話要求判定処理」では、画像取得部101、挙動検知部102、音声取得部103、音声処理部104、記録部106、対話要求判定部108、および、動作命令部109が機能する。
 画像取得部101は、常時、カメラ2から撮像画像を取得する。
 画像取得部101の詳細は、説明済みの「履歴記録処理」における画像取得部101の詳細と同様である。
 画像取得部101は、取得した撮像画像を挙動検知部102に出力する。
 挙動検知部102は、画像取得部101が取得した撮像画像に基づき、乗員の挙動を検知する。
 挙動検知部102の詳細は、説明済みの「履歴記録処理」における挙動検知部102の詳細と同様であるため、重複した説明を省略する。
 ただし、「対話要求判定処理」では、挙動検知部102は、乗員の挙動を検知すると、挙動情報を、対話予兆検知部107に出力する。
 対話予兆検知部107は、挙動検知部102から挙動情報が出力されると、挙動検知部102が検知した乗員の挙動に基づき、発話受付対象乗員、言い換えれば、運転者による対話予兆があるか否かを検知する対話予兆検知処理を実施する。
 対話予兆検知部107は、既知の種々の対話予兆検知方法によって、運転者による対話予兆があるか否かを検知すればよい。
 具体例を挙げると、例えば、対話予兆検知部107は、挙動情報に基づき、運転者の顔向きまたは視線方向が装置のほうを向いている場合、運転者の対話予兆があると検知する。ここで、対話予兆検知部107が運転者の顔向きまたは視線方向が向いていると判定する「装置」は、例えば、音声認識装置1であってもよいし、ナビゲーション装置であってもよいし、その他の車両4に搭載されている装置としてもよい。顔向きまたは視線方向がどの装置のほうを向いた場合に、運転者の対話予兆があると検知するかは、予め決められている。
 また、例えば、対話予兆検知部107は、運転者の顔向きの角度、運転者の視線方向の角度、および、口の開き具合に対して、それぞれ、スコアを付与し、付与したスコアの合計が予め決められた閾値(以下「対話予兆判定用閾値」という。)以上であるか否かによって、運転者の対話予兆があるか否かを検知してもよい。運転者の顔向きの角度、運転者の視線方向の角度、または、口の開き具合がどれぐらいの場合に、どれぐらいのスコアが付与されるかは予め決められている。また、対話予兆判定用閾値も予め決められている。
 対話予兆検知部107は、運転者の対話予兆を検知した場合、運転者の対話予兆を検知したことを通知するための情報(以下「対話予兆情報」という。)を、音声取得部103および対話要求判定部108に出力する。対話予兆検知部107は、対話予兆情報に、運転者の対話予兆を検知した旨の情報と、挙動検知部102から取得した挙動情報を含めるようにする。
 音声取得部103は、対話予兆検知部107が運転者の対話予兆を検知した場合、言い換えれば、対話予兆検知部107から対話予兆情報が出力された場合、マイク3から出力された車内の音声を取得する。
 音声取得のトリガは異なるが、音声取得部103の詳細は、説明済みの「履歴記録処理」における音声取得部103の詳細と同様である。
 音声取得部103は、取得した音声を、音声処理部104に出力する。
 音声処理部104は、音声取得部103が取得した音声に基づき乗員による発話を検知し、検知した発話の音声認識を行う音声認識処理を実施する。
 音声処理部104の詳細は、説明済みの「履歴記録処理」における音声処理部104の詳細と同様であるため、重複した説明を省略する。
 「対話要求判定処理」では、音声処理部104は、音声認識結果を、対話要求判定部108に出力する。
 対話要求判定部108は、対話予兆検知部107が、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部107から対話予兆情報が出力された場合、音声処理部104による音声認識結果と、記録部106に記録されている関連履歴情報とに基づいて、運転者による発話を受け付けるか否かを判定する。
 なお、関連履歴情報は、上述のとおり、「対話要求判定処理」と並行して行われている「履歴記録処理」において生成され、記録部106に記録されている。
 より詳細には、対話要求判定部108は、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部107から対話予兆情報が出力された場合、音声処理部104による音声認識結果と、記録部106に記録されている関連履歴情報と、予め設定されている条件(以下「設定条件」という。)とに基づいて、運転者による発話が対話要求発話であると推定される度合いを示す対話要求度を設定する。
 具体的には、例えば、対話要求判定部108は、関連履歴情報を参照し、同乗者による、運転者の発話よりも予め設定された時間(以下「判定用遡及時間」という。)前の挙動、または、同乗者による、運転者の発話よりも判定用遡及時間前の発話と、設定条件とに基づいて、対話要求度を設定する。「判定用遡及時間」には、極めて短い時間が設定される。実施の形態1では、「運転者の発話よりも判定用遡及時間前」とは、運転者の発話の直前を想定している。
 対話要求度は、例えば、「高い」または「低い」であらわされる。
 対話要求度を設定するための設定条件は、管理者等によって、適宜設定される。
 例えば、設定条件には、対話要求度が「高い」と設定する条件(以下「対話要求度高条件」という。)と対話要求度が「低い」と設定する条件(以下「対話要求度低条件」という。)とが含まれる。「対話要求度高条件」には、発話受付対象乗員の発話が応答要求発話である可能性が高いと推定できる条件が設定されている。逆に、「対話要求度低条件」には、発話受付対象乗員の発話が応答要求発話ではなく同乗者への発話である可能性が高いと推定できる条件が設定されている。
 例えば、対話要求度高条件には、以下の(条件1)のような条件が設定されている。また、例えば、対話要求度低条件には、以下の(条件2)のような条件が設定されている。
(条件1)
「判定用遡及時間前の同乗者の発話の属性が命令文または依頼文」
(条件2)
「判定用遡及時間前の同乗者の発話の属性が疑問文または未来文であり、かつ、同乗者は発話受付対象乗員の方向に顔を向けている」
 対話要求判定部108は、対話要求度高条件を満たす場合、対話要求度を「高い」と設定する。また、対話要求判定部108は、対話要求度低条件を満たす場合、対話要求度を「低い」と設定する。
 なお、対話要求判定部108は、対話要求度高条件も対話要求度低条件も満たさない場合は、対話要求度高条件も対話要求度低条件も満たさない場合に設定すると予め決められている対話要求度を設定するようにすればよい。
 なお、上述した設定条件は、一例に過ぎない。
 例えば、設定条件には、対話要求度が「高い」とするか否かの条件が設定されており、対話要求判定部108は、設定条件を満たす場合、対話要求度は「高い」と設定し、設定条件を満たさない場合、対話要求度は「低い」と設定してもよい。
 また、例えば、設定条件には、対話要求度が「低い」とするか否かの条件が設定されており、対話要求判定部108は、設定条件を満たす場合、対話要求度は「低い」と設定し、設定条件を満たさない場合、対話要求度は「高い」と設定してもよい。
 また、以上の説明では、対話要求度は「高い」または「低い」で設定されるものとしたが、これは一例に過ぎない。例えば、対話要求度は、スコアで設定されてもよい。
 この場合、例えば、設定条件には、以下の(条件3)のような、スコアの算出式が設定され、対話要求判定部108は、算出式に従ってスコアを算出し、算出したスコアを対話要求度に設定する。
(条件3)
「判定用遡及時間前の同乗者の発話の属性が疑問文である場合スコア「30点」、判定用遡及時間前の同乗者の視線方向が発話受付対象乗員の方向である場合スコア「50点」とし、スコアの合計値を対話要求度とする」
 対話要求判定部108は、同乗者の発話の履歴または同乗者の挙動の履歴だけでなく、例えば、さらに、運転者の発話時の発話内容、または、運転者の発話時の挙動内容を加味して、対話要求度を設定してもよい。また、対話要求判定部108は、同乗者の発話の履歴または同乗者の挙動の履歴だけでなく、例えば、さらに、運転者の発話の履歴、または、運転者の挙動の履歴を加味して、対話要求度を設定してもよい。
 なお、対話要求度は、乗員の発話の履歴、および、乗員の挙動の履歴の両方に基づいて設定される必要はない。対話要求度は、乗員の発話の履歴、または、乗員の挙動の履歴のいずれか一方を用いて設定されるようになっていればよい。
 したがって、設定条件には、上述の(条件1)のように、乗員の発話の履歴、または、乗員の挙動の履歴に基づいて、対話要求度が設定されるような条件が設定されていればよい。
 また、対話要求度は、例えば、発話受付対象乗員または同乗者の話し方も考慮して設定されてもよい。この場合、乗員の話し方に関する情報が、関連履歴情報に設定されている。
 ここで、実施の形態1における、対話要求判定部108による対話要求度の設定について、いくつか具体例を挙げて説明する。
 以下の具体例において、対話要求度は「高い」または「低い」で設定される。また、設定条件には、例えば、上述の(条件1)および(条件2)が設定されている。
 なお、以下の具体例では、車両4には、運転者と助手席の同乗者の2名が乗車していることを想定している。
<具体例1-1>
 <具体例1-1>において、記録部106には、例えば、図2に示すような内容の関連履歴情報が記録されている。
 例えば、運転者が対話予兆ありの状態で「2020/7/2/11:55:30」に「公園行きたい」と発話したとする。
 この場合、対話予兆検知部107が運転者の対話予兆があることを検知し、音声取得部103は音声を取得して、音声処理部104は、発話の検知および音声認識を行うことになる。その結果、対話要求判定部108に、音声処理部104から、「2020/7/2/11:55:30」に「公園行きたい」との運転者による発話が認識された旨の音声認識結果が出力される。
 対話要求判定部108は、関連履歴情報を参照する。そうすると、関連履歴情報において、「2020/7/2/11:55:30」の「公園行きたい」との運転者による発話の直前の「2020/7/2/11:55:25」に、助手席の同乗者による「来週の休みどこ行く」との発話の履歴、および、運転者方向に顔を向けたという挙動の履歴がある。
 同乗者による「来週の休みどこ行く」との発話は、疑問文である。かつ、同乗者による「来週の休みどこ行く」との発話は、「来週」という未来をあらわす単語が含まれている未来文でもある。また、同乗者は運転者方向に顔を向けていた。これらのことから、対話要求判定部108は、(条件2)を満たすと判定する。そして、対話要求判定部108は、対話要求度は「低い」と設定する。
<具体例1-2>
 <具体例1-2>において、記録部106には、例えば、図3に示すような内容の関連履歴情報が記録されている。
 例えば、運転者が対話予兆ありの状態で「2020/7/2/11:55:30」に「公園行きたい」と発話したとする。
 この場合、対話予兆検知部107が運転者の対話予兆があることを検知し、音声取得部103は音声を取得して、音声処理部104は、発話の検知および音声認識を行うことになる。その結果、対話要求判定部108に、音声処理部104から、「2020/7/2/11:55:30」に「公園行きたい」との運転者による発話が認識された旨の音声認識結果が出力される。
 対話要求判定部108は、関連履歴情報を参照する。そうすると、関連履歴情報において、「2020/7/2/11:55:30」の「公園行きたい」との運転者による発話の直前の「2020/7/2/11:55:25」に、助手席の同乗者による「公園寄ろう、設定して」との発話の履歴がある。
 同乗者による「公園寄ろう、設定して」との発話は、依頼文である。このことから、対話要求判定部108は、(条件1)を満たすと判定する。そして、対話要求判定部108は、対話要求度は「高い」と設定する。
 対話要求判定部108は、対話要求度を設定すると、設定した対話要求度と、予め設定されている条件(以下「対話要求度判定条件」という。)との比較によって、運転者による発話を受け付けるか否かを判定する。例えば、対話要求度判定条件には、「発話受付対象乗員の発話は対話要求発話である」と判定する条件が設定されている。なお、対話要求度判定条件は適宜設定可能である。
 また、対話要求判定部108は、対話要求度を設定すると、設定した対話要求度を、関連履歴情報において、当該対話要求度を設定した運転者の発話に関する情報と対応付けて記録させておいてもよい。
 例えば、対話要求度には「高い」または「低い」が設定される場合、対話要求度判定条件には、「対話要求度が「高い」であること」との条件が設定されている。
 対話要求判定部108は、対話要求度が対話要求度判定条件を満たす場合、運転者の発話は対話要求発話であると判定する。つまり、運転者の発話を受け付けると判定する。
 一方、対話要求判定部108は、対話要求度が対話要求度判定条件を満たさない場合、運転者の発話は対話要求発話ではなく同乗者への発話であると判定する。つまり、運転者の発話を受け付けないと判定する。
 すなわち、例えば、上述の<具体例1-1>の場合、対話要求判定部108は、設定した対話要求度「低い」は、対話要求度判定条件を満たさないことから、運転者の「公園行きたい」との発話は、同乗者への発話であり、応答要求対話ではないと判定する。つまり、運転者の発話を受け付けないと判定する。一方、上述の<具体例1-2>の場合、対話要求判定部108は、設定した対話要求度「高い」は、対話要求度判定条件を満たすことから、運転者の「公園行きたい」との発話は、対話要求発話であると判定する。つまり、運転者の発話を受け付けると判定する。
 例えば、上述の<具体例1-1>および<具体例1-2>のように、運転者による発話が同じ「公園行きたい」との発話であっても、当該発話は、対話要求発話である場合と、同乗者への発話である場合がある。しかし、車内においては、例えば、図2および図3に示すように、「公園行きたい」と発話したときの運転者の顔向きには差がないことがある。そうすると、仮に、音声認識装置1が、例えば、運転者の顔向きだけで、運転者の発話が対話要求発話であるか、同乗者への発話であるかを判定すると、誤認識または誤棄却につながるおそれがある。
 これに対し、実施の形態1に係る音声認識装置1では、上述のとおり、対話要求判定部108が、関連履歴情報に基づいて、より具体的には、乗員の発話の履歴または乗員の挙動の履歴に基づいて、運転者の発話が対話要求発話であるか、同乗者への発話であるかを判定する。そのため、音声認識装置1は、車両4の乗員の発話に対して、誤認識および誤棄却を防ぐことができる。
 例えば、対話要求度がスコアで設定される場合、対話要求度判定条件には、「対話要求度が予め設定された閾値(以下「対話要求度判定用閾値」という。)以上であること」との条件が設定されている。
 対話要求判定部108は、対話要求度が対話要求度判定用閾値以上である場合、運転者の発話は対話要求発話であると判定する。つまり、運転者の発話を受け付けると判定する。一方、対話要求判定部108は、対話要求度が対話要求度判定用閾値未満である場合、運転者の発話は対話要求発話ではなく同乗者への発話であると判定する。つまり、運転者の発話を受け付けないと判定する。
 対話要求判定部108は、運転者の発話を受け付けると判定した場合、運転者の発話の音声認識結果に基づく動作指示を依頼する動作指示依頼情報を、動作命令部109に出力する。このとき、動作指示依頼情報には、運転者の発話を受け付けた旨の情報と、対話要求度と、音声処理部104から取得した音声認識結果が含まれる。
 動作命令部109は、対話要求判定部108から動作指示依頼情報が出力された場合、当該動作指示依頼情報に基づいて、車両4、車載機器5、または、出力装置6を動作させるための動作命令情報を生成し、車両4、車載機器5、または、出力装置6に出力する。
 例えば、動作指示依頼情報に、窓を閉める旨の音声認識結果が含まれる場合、動作命令部109は、車両4に対して、窓を閉める動作を行わせる動作命令情報を出力する。
 また、例えば、動作指示依頼情報に、目的地を設定する旨の音声認識結果が含まれる場合、動作命令部109は、車載機器5(例えば、カーナビゲーション装置)に対して、目的地を設定させる動作命令情報を出力する。
 また、例えば、動作指示依頼情報に、応答が必要な発話の音声認識結果が含まれる場合、動作命令部109は、出力装置6に対して、「受け付けました」とのメッセージを表示させる、または、「ピッ」との音を出力させる。
 また、動作命令部109は、例えば、出力装置6に対して、音声認識装置1の状態を示す表示または音声出力を行わせてもよい。具体例を挙げると、例えば、動作命令部109は、音声処理部104が発話検知および音声認識処理を行っている間、出力装置6に対して、「音声受付中」と表示させる。なお、動作命令部109は、音声処理部104から、処理中である旨の情報を取得すればよい。図1では、音声処理部104から動作命令部109への矢印の図示は省略している。また、例えば、動作命令部109は、動作命令情報を生成している間、出力装置6に対して、「応答生成中」と表示させてもよい。
 なお、動作命令部109は、車両4、車載機器5、または、出力装置6を動作させた内容(以下「応答内容」という。)を、関連履歴情報に対応付けて記録させておいてもよい。
 動作命令部109は、応答内容を、関連履歴情報において、運転者の応答要求発話に関する情報と対応付けるようにする。動作命令部109は、運転者の応答要求発話を、対話要求判定部108から出力された音声認識結果から特定できる。
 実施の形態1に係る音声認識装置1の動作について説明する。
 図4は、実施の形態1に係る音声認識装置1の、「履歴記録処理」における動作を説明するためのフローチャートである。
 なお、図4に示す動作は、例えば、車両4のエンジンがオンにされると開始され、車両4のエンジンがオフされるまでの間、繰り返し行われる。
 上述のとおり、実施の形態1において、「履歴記録処理」では、記録部106に記録される関連履歴情報は、短い期間のものを想定している。例えば、車両4のエンジンがオフされると、記録部106は初期化され、記録部106が記録していた関連履歴情報は削除されるものとしてもよい。
 画像取得部101は、カメラ2から出力された、車内に存在する複数の乗員を撮像した撮像画像を取得する(ステップST1)。
 画像取得部101は、取得した撮像画像を挙動検知部102に出力する。
 挙動検知部102は、ステップST1にて画像取得部101が取得した撮像画像に基づき、乗員の挙動を検知する挙動検知処理を実施する(ステップST2)。
 挙動検知部102は、乗員の挙動を検知すると、挙動情報を、履歴記録制御部105に出力する。
 音声取得部103は、マイク3から出力された車内の音声を取得する(ステップST3)。
 音声取得部103は、取得した音声を、音声処理部104に出力する。
 音声処理部104は、ステップST2にて音声取得部103が取得した音声に基づき乗員による発話を検知し、検知した発話の音声認識を行う音声認識処理を実施する(ステップST4)。
 履歴記録制御部105は、ステップST2にて挙動検知部102から出力された挙動情報と、ステップST4にて音声処理部104から出力された音声認識結果とに基づき、関連履歴情報を生成する(ステップST5)。
 履歴記録制御部105は、生成した関連履歴情報を、記録部106に記録させる。
 図5は、実施の形態1に係る音声認識装置1の、「対話要求判定処理」における動作を説明するためのフローチャートである。
 画像取得部101は、カメラ2から撮像画像を取得する(ステップST11)。
 画像取得部101は、取得した撮像画像を挙動検知部102に出力する。
 挙動検知部102は、ステップST11にて画像取得部101が取得した撮像画像に基づき、乗員の挙動を検知する挙動検知処理を実施する(ステップST12)。
 挙動検知部102は、乗員の挙動を検知すると、挙動情報を、対話予兆検知部107に出力する。
 対話予兆検知部107は、ステップST12にて挙動検知部102から挙動情報が出力されると、挙動検知部102が検知した乗員の挙動に基づき、運転者による対話予兆があるか否かを検知する対話予兆検知処理を実施する(ステップST13)。
 対話予兆検知部107は、運転者の対話予兆を検知した場合、対話予兆情報を、音声取得部103および対話要求判定部108に出力する。
 音声取得部103は、ステップST13にて対話予兆検知部107が運転者の対話予兆を検知した場合、言い換えれば、対話予兆検知部107から対話予兆情報が出力された場合、マイク3から出力された車内の音声を取得する(ステップST14)。
 音声取得部103は、取得した音声を、音声処理部104に出力する。
 音声処理部104は、ステップST14にて音声取得部103が取得した音声に基づき乗員による発話を検知し、検知した発話の音声認識を行う音声認識処理を実施する(ステップST15)。
 音声処理部104は、音声認識結果を、対話要求判定部108に出力する。
 対話要求判定部108は、ステップST13にて、対話予兆検知部107が、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部107から対話予兆情報が出力された場合、ステップST15における音声処理部104による音声認識結果と、記録部106に記録されている関連履歴情報とに基づいて、運転者による発話を受け付けるか否かを判定する対話要求判定処理を実施する(ステップST16)。
 対話要求判定部108は、運転者の発話を受け付けると判定した場合、動作指示依頼情報を、動作命令部109に出力する。
 動作命令部109は、ステップST16にて対話要求判定部108から動作指示依頼情報が出力された場合、当該動作指示依頼情報に基づいて、車両4、車載機器5、または、出力装置6を動作させるための動作命令情報を生成し、車両4、車載機器5、または、出力装置6に出力する(ステップST17)。
 なお、図5のステップST11~ステップST12、ステップST14~ステップST15の動作は、それぞれ、図4のステップST1~ステップST4の動作と共通していてもよい。
 図6は、図5のステップST16における対話要求判定部108の動作について、より詳細に説明するためのフローチャートである。
 対話要求判定部108は、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部107から対話予兆情報が出力された場合、音声処理部104による音声認識結果と、記録部106に記録されている関連履歴情報と、設定条件とに基づいて、対話要求度を設定する(ステップST161)。
 対話要求判定部108は、対話要求度を設定すると、設定した対話要求度が、対話要求度判定条件を満たすか否かを判定する(ステップST162)。
 ステップST162において、対話要求度が対話要求度判定条件を満たすと判定した場合(ステップST162の“YES”の場合)、対話要求判定部108は、運転者の発話は対話要求発話であると判定する(ステップST163)。つまり、運転者の発話を受け付けると判定する。そして、音声認識装置1の動作は、図5のステップST17に進む。
 一方、ステップST162において、対話要求度が対話要求度判定条件を満たさないと判定した場合(ステップST162の“NO”の場合)、対話要求判定部108は、運転者の発話は対話要求発話ではなく同乗者への発話であると判定する。つまり、運転者の発話を受け付けないと判定する。そして、音声認識装置1の動作は、図5の処理を終了する。
 このように、音声認識装置1は、発話受付対象乗員、ここでは運転者の発話または挙動だけではなく、同乗者の発話の履歴、または、同乗者の挙動の履歴に基づいて、運転者の発話が対話要求発話であるか否かを判定するようにした。これにより、音声認識装置1は、運転者の発話に対して、誤認識および誤棄却を防ぐことができる。
 なお、以上の実施の形態1では、音声認識装置1は、「履歴記録処理」を行うものとしたが、これは一例に過ぎない。「履歴記録処理」は、音声認識装置1にて行われることを必須とせず、「履歴記録処理」は、音声認識装置1以外の装置にて行われるようにしてもよい。この場合、音声認識装置1は、履歴記録制御部105を備えることを必須としない。また、音声認識装置1において、音声取得部103は、常時、音声を取得しなくてもよく、対話予兆検知部107が運転者の対話予兆を検知した場合に音声を取得するようにすればよい。
 また、以上の実施の形態1では、音声認識装置1は、動作命令部109を備えるようにしたが、音声認識装置1は、動作命令部109を備えることを必須としない。動作命令部109は、音声認識装置1の外部において音声認識装置1と接続されている他の装置に備えられてもよい。
 また、以上の実施の形態1では、音声認識装置1において、対話要求判定部108は、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部107から対話予兆情報が出力された場合、音声処理部104による音声認識結果と、記録部106に記録されている関連履歴情報と、設定条件とに基づいて、運転者による発話が対話要求発話であると推定される度合いを示す対話要求度を設定するようにしたが、これは一例に過ぎない。対話要求判定部108は、その他の方法で、対話要求度を設定してもよい。
 具体的には、例えば、対話要求判定部108は、機械学習における学習済みのモデル(以下「機械学習モデル」という。)を用いて、対話要求度を設定してもよい。
 機械学習モデルは、音声認識結果および関連履歴情報を入力とし、対話要求度を出力する機械学習モデルである。機械学習モデルは、予め、入力と教師ラベルのデータの組み合わせに基づいて生成される学習用データに従って、いわゆる教師あり学習により、入力に対する結果を推定するよう構築される。ここでは、入力を音声認識結果と関連履歴情報、教師ラベルを対話要求度とし、機械学習モデルは、音声認識結果と関連履歴情報と対話要求度の組み合わせを学習用データとして学習する。
 なお、学習用データは、例えば、テスト走行時に、管理者等によって生成される。例えば、管理者等は、テスト走行中の車両4で収集された音声および映像を確認して対話要求度を設定し、テスト走行中に収集された音声の音声認識結果と、テスト走行中に記録された関連履歴情報と、対話要求度を組み合わせた学習用データを生成する。
 機械学習モデルは、予め、対話要求判定部108が参照可能な場所に記憶されている。 対話要求判定部108は、音声処理部104による音声認識結果と、記録部106に記録されている関連履歴情報とを機械学習モデルに入力し、対話要求度を得る。
 対話要求判定部108は、機械学習モデルを用いて対話要求度を設定することで、設定条件に従って対話要求度を設定していた場合と比べ、設定される対話要求度の精度を向上させることができる。
 図7A,図7Bは、実施の形態1に係る音声認識装置1のハードウェア構成の一例を示す図である。
 実施の形態1において、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108と、動作命令部109の機能は、処理回路701により実現される。すなわち、音声認識装置1は、車内で検知した発話が対話要求発話であるか否かを判定する制御を行うための処理回路701を備える。
 処理回路701は、図7Aに示すように専用のハードウェアであっても、図7Bに示すようにメモリに格納されるプログラムを実行するプロセッサ704であってもよい。
 処理回路701が専用のハードウェアである場合、処理回路701は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせたものが該当する。
 処理回路がプロセッサ704の場合、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108と、動作命令部109の機能は、ソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアは、プログラムとして記述され、メモリ705に記憶される。プロセッサ704は、メモリ705に記憶されたプログラムを読み出して実行することにより、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108と、動作命令部109の機能を実行する。すなわち、音声認識装置1は、プロセッサ704により実行されるときに、上述の図4のステップST1~ステップST5、および、図5のステップST11~ステップST17が結果的に実行されることになるプログラムを格納するためのメモリ705を備える。また、メモリ705に記憶されたプログラムは、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108と、動作命令部109の処理の手順または方法をコンピュータに実行させるものであるとも言える。ここで、メモリ705とは、例えば、RAM、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)等の、不揮発性もしくは揮発性の半導体メモリ、または、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)等が該当する。
 なお、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108と、動作命令部109の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、画像取得部101と、音声取得部103と、動作命令部109については専用のハードウェアとしての処理回路701でその機能を実現し、挙動検知部102と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108についてはプロセッサ704がメモリ705に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
 また、記録部106は、メモリ705を使用する。なお、これは一例であって、記録部106は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、または、DVD等によって構成されてもよい。
 また、音声認識装置1は、カメラ2、マイク3、車載機器5、または、出力装置6等の装置と、有線通信または無線通信を行う入力インタフェース装置702および出力インタフェース装置703を備える。
 なお、以上の実施の形態1では、音声認識装置1は、車両4に搭載される車載装置とし、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、記録部106と、対話予兆検知部107と、対話要求判定部108と、動作命令部109とは、音声認識装置1に備えられていた。これに限らず、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、記録部106と、対話予兆検知部107と、対話要求判定部108と、動作命令部109のうち、一部が車両4の車載装置に搭載され、その他は当該車載装置とネットワークを介して接続されるサーバに備えられて、車載装置とサーバとで音声認識システムを構成してもよい。
 また、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、記録部106と、対話予兆検知部107と、対話要求判定部108と、動作命令部109が、全て、サーバに備えられてもよい。
 以上のように、実施の形態1に係る音声認識装置1は、車内に存在する複数の乗員を撮像した撮像画像を取得する画像取得部101と、画像取得部101が取得した撮像画像に基づき、複数の乗員の挙動を検知する挙動検知部102と、挙動検知部102が検知した複数の乗員の挙動に関する情報に基づき、複数の乗員のうち、発話を受け付ける対象となる発話受付対象乗員による対話予兆があるか否かを検知する対話予兆検知部107と、対話予兆検知部107が、発話受付対象乗員による対話予兆があると検知した場合、車内の音声を取得する音声取得部103と、音声取得部103が取得した音声に基づき発話受付対象乗員による発話を検知し、検知した発話の音声認識を行う音声処理部104と、音声処理部104による音声認識結果と、複数の乗員の挙動の履歴または複数の乗員の発話の履歴が時系列で設定されている関連履歴情報とに基づいて、発話受付対象乗員による発話を受け付けるか否かを判定する対話要求判定部108とを備えた。そのため、音声認識装置1は、車両4の乗員の発話に対して、誤認識および誤棄却を防ぐことができる。
実施の形態2.
 音声認識装置において、対話要求度を設定するための設定条件を更新する機能を有するようにしてもよい。
 実施の形態2では、音声認識装置において、設定条件を更新する機能を有するようにした実施の形態について説明する。
 なお、以下の実施の形態2でも、実施の形態1同様、一例として、ユーザは、車両の運転者を想定している。
 図8は、実施の形態2に係る音声認識装置1aの構成例を示す図である。
 図8において、実施の形態1にて図1を用いて説明した音声認識装置1の構成と同様の構成については、同じ符号を付して重複した説明を省略する。
 実施の形態2に係る音声認識装置1aは、図1を用いて説明した実施の形態1に係る音声認識装置1とは、対話要求判定部108aが更新部1081を備える点が異なる。
 更新部1081は、対話要求判定部108aが対話要求度を設定後に、関連履歴情報に基づいて対話要求度を再設定し、再設定した対話要求度に基づいて、設定条件を更新する更新処理を実施する。
 具体的には、更新部1081は、対話要求判定部108aが設定した対話要求度と、対話要求判定部108aが対話要求度を設定後に更新部1081が再設定した対話要求度とが一致しない場合、設定条件を更新する。更新部1081は、一致しなかった対話要求度を対話要求判定部108aが設定した際に、当該対話要求判定部108aが用いた設定条件について、再設定した対話要求度が設定される条件となるよう、更新する。
 更新部1081は、対話要求判定部108aが設定した対話要求度と、対話要求判定部108aが対話要求度を設定後に更新部1081が再設定した対話要求度とが完全に一致していない場合だけではなく、対話要求度の差が予め設定された閾値以上である場合に、設定条件を更新するようにしてもよい。
 なお、対話要求判定部108aが対話要求度を設定する方法は、実施の形態1において説明済みの、実施の形態1に係る音声認識装置1の対話要求判定部108が対話要求度を設定する方法と同様であるため、重複した説明を省略する。
 対話要求判定部108aは、更新部1081が設定条件を更新した場合、更新後の設定条件に基づいて、対話要求度の設定を行う。
 更新部1081が設定条件を更新する方法について、具体的に説明する。
 更新部1081は、関連履歴情報を参照し、対話要求判定部108aが対話要求度を設定した運転者の発話の時刻から予め設定された時間(以下「更新判定用時間」という。)以内における、運転者および同乗者による挙動または発話と、予め設定された条件(以下「更新時設定条件」という。)とに基づいて、対話要求度を再設定する。「更新判定用時間」には、極めて短い時間が設定される。実施の形態2では、「対話要求度を設定した運転者の発話の時刻から更新判定用時間以内」とは、対話要求度を設定した運転者の発話の時刻の直後を想定している。
 更新時設定条件には、例えば、以下の(条件4)および(条件5)のような条件が設定されている。
(条件4)
「発話受付対象乗員の発話時に同乗者が発話受付対象乗員の方向を見ており、かつ、更新判定用時間以内に同乗者が対話受付対象乗員の発話に対して応答している場合、対話要求度は「低い」」
(条件5)
「発話受付対象乗員の発話から更新判定用時間以内に同乗者が装置方向に視線を向けている、または、同乗者による疑問文の発話履歴がある場合、対話要求度は「高い」」
 更新部1081は、例えば、更新判定用時間以内における、運転者および同乗者による挙動または発話が(条件4)を満たす場合、対話要求度は「低い」と再設定する。また、更新部1081は、例えば、更新判定用時間以内における、運転者および同乗者による挙動または発話が(条件5)を満たす場合、対話要求度は「高い」と再設定する。
 なお、上述の(条件4)および(条件5)は、対話要求度が「高い」または「低い」で設定されることを想定した更新時設定条件の一例である。対話要求度がスコアで設定される場合、更新時設定条件には、スコアを再設定するための条件が設定される。
 実施の形態2において、更新部1081が設定条件を更新する方法について、いくつか具体例を挙げて説明する。
<具体例2-1>
 図9は、実施の形態2において、更新部1081が設定条件を更新する場合の車内の状況の一例のイメージを説明するための図である。
 なお、図9において、運転者は1001、同乗者は1002で示している。
 記録部106には、図10に示すような関連履歴情報が記録されているとする。
 更新時設定条件には、上記(条件4)および(条件5)が設定されている。
 例えば、図9に示すように、運転者が対話予兆ありの状態で「車止まれよ」と発話したとする。なお、当該<具体例2-1>では、運転者は、前の車両に対して、「車止まれよ」と発話したとする。図9では、便宜上、運転者による「車止まれよ」を、「(前の)車止まれよ」と図示している。「車止まれよ」との発話は、「2020/7/1/20:50:40」に行われたとする。
 この場合、対話予兆検知部107が運転者の対話予兆があることを検知し、音声取得部103は音声を取得して、音声処理部104は、発話の検知および音声認識を行うことになる。その結果、対話要求判定部108aに、音声処理部104から、「2020/7/1/20:50:40」に「車止まれよ」との運転者による発話が認識された旨の音声認識結果が出力される。
 対話要求判定部108aは、図10に示すような関連履歴情報を参照し、「車止まれよ」との運転者による発話の直前の助手席の同乗者による挙動の履歴から、対話要求度は「高い」と設定したとする。ここまでの対話要求判定部108aの動作は、実施の形態1にて説明済みの、対話要求判定部108の動作と同様である。
 実施の形態2では、その後、更新部1081が、関連履歴情報を参照し、関連履歴情報に基づいて、対話要求度を再設定する。
 今、関連履歴情報において、「2020/7/1/20:50:40」の運転者による「車止まれよ」の発話時に、同乗者が運転者の方向を見ていたという挙動履歴がある。また、運転者による「車止まれよ」の発話の直後に、「あれは危ないね」と応答している。これらのことから、更新部1081は、(条件4)を満たすとし、対話要求度は「低い」と再設定する。
 そうすると、対話要求判定部108aが、「2020/7/1/20:50:40」の「車止まれよ」との運転者による発話に対して設定していた対話要求度「高い」と、更新部1081が再設定した対話要求度「低い」が一致しない。
 この場合、更新部1081は、対話要求判定部108aが、「2020/7/1/20:50:40」の「車止まれよ」との運転者による発話に対して対話要求度「高い」と設定した際に用いた設定条件について、対話要求度「低い」と設定されるよう、変更する。
 具体例を挙げると、例えば、対話要求判定部108aが、「2020/7/1/20:50:40」の「車止まれよ」との運転者による発話に対して、対話要求度「高い」と設定した際に用いた設定条件が、「判定用遡及時間前の同乗者の視線方向が正面方向である場合、対話要求度は「高い」」であったとすると、更新部1081は、判定用遡及時間前の同乗者の視線方向が正面方向である場合には対話要求度は「低い」と設定されるよう、当該設定条件を更新する。
 更新部1081は、過去に、運転者による、「車止まれよ」と類似する発話があった場合、当該発話に対して設定される対話要求度が「低い」となるよう、設定条件を更新してもよい。
 また、更新部1081は、関連履歴情報において、「2020/7/1/20:50:40」の「車止まれよ」との運転者による発話に対して対話要求度「高い」が対応付けられている場合、当該対話要求度「高い」を、「低い」に書き換えておく。
<具体例2-2>
 図11は、実施の形態2において、更新部1081が設定条件を更新する場合の車内の状況のその他の一例のイメージを説明するための図である。
 図11において、運転者は1001、同乗者は1002で示している。
 記録部106には、図12に示すような関連履歴情報が記録されているとする。
 更新時設定条件には、上記(条件4)および(条件5)が設定されている。
 例えば、図11に示すように、運転者が対話予兆ありの状態で「車止まれよ」と発話したとする。なお、当該<具体例2-2>では、運転者は、車両4を停車させることを意図して、車両4に対して、「車止まれよ」と発話したとする。図11では、便宜上、運転者による「車止まれよ」を、「(自分の)車止まれよ」と図示している。
 「車止まれよ」との発話は、「2020/7/1/20:50:40」に行われたとする。
 この場合、上記<具体例2-1>同様、対話要求判定部108aに、音声処理部104から、「2020/7/1/20:50:40」に「車止まれよ」との運転者による発話が認識された旨の音声認識結果が出力される。
 これに対し、<具体例2-2>では、対話要求判定部108aは、図12に示すような関連履歴情報を参照し、「車止まれよ」との運転者による発話の直前の助手席の同乗者による挙動の履歴から、対話要求度は「低い」と設定したとする。
 今、関連履歴情報において、「2020/7/1/20:50:40」の運転者による「車止まれよ」の発話の直後に、同乗者が装置(例えば、音声認識装置1a)の方向に視線を向けたという挙動履歴がある。かつ、同乗者による「あれ?」との疑問文の発話履歴がある。これらのことから、更新部1081は、(条件5)を満たすとし、対話要求度は「高い」と再設定する。
 そうすると、対話要求判定部108aが、「2020/7/1/20:50:40」の「車止まれよ」との運転者による発話に対して設定していた対話要求度「低い」と、更新部1081が再設定した対話要求度「高い」が一致しない。
 この場合、更新部1081は、対話要求判定部108aが、「2020/7/1/20:50:40」の「車止まれよ」との運転者による発話に対して、対話要求度「低い」と設定した際に用いた設定条件について、対話要求度「高い」と設定されるよう、変更する。
 また、過去に、運転者による、「車止まれよ」と類似する発話があった場合、当該発話に対して設定される対話要求度が「高い」となるよう、設定条件を更新してもよい。
 また、更新部1081は、関連履歴情報において、「2020/7/1/20:50:40」の「車止まれよ」との運転者による発話に対して対話要求度「低い」が対応付けられている場合、当該対話要求度「低い」を、「高い」に書き換えておく。
 実施の形態2に係る音声認識装置1aの動作について説明する。
 なお、音声認識装置1aにおける「履歴記録処理」の動作は、実施の形態1にて図4を用いて説明した、音声認識装置1における「履歴記録処理」の動作と同様であるため、重複した説明を省略する。
 図13は、実施の形態2に係る音声認識装置1aの、「対話要求判定処理」における動作を説明するためのフローチャートである。
 図13において、ステップST111~ステップST117の動作は、それぞれ、実施の形態1にて図5を用いて説明した、図5のステップST11~ステップST17の動作と同様であるため、重複した説明を省略する。
 更新部1081は、ステップST117にて対話要求判定部108aが対話要求度を設定後に、関連履歴情報に基づいて対話要求度を再設定し、再設定した対話要求度に基づいて、設定条件を更新する更新処理を実施する(ステップST118)。
 ステップST118にて更新部1081が設定条件を更新すると、以降、対話要求判定部108aは、更新後の設定条件に基づいて、対話要求度の設定を行う。
 このように、音声認識装置1aにおいて、対話要求判定部108aが更新部1081を備えたことにより、運転者の発話に対して設定する対話要求度について、過去の乗員の発話の履歴または挙動の履歴に基づいて設定するのでは誤った設定をしていたところ、誤った設定をしないよう、対話要求度の精度を向上させていくことができる。
 なお、以上の実施の形態2において、「履歴記録処理」は、音声認識装置1aにて行われることを必須とせず、「履歴記録処理」は、音声認識装置1a以外の装置にて行われるようにしてもよい。この場合、音声認識装置1aは、履歴記録制御部105を備えることを必須としない。また、音声認識装置1aにおいて、音声取得部103は、常時、音声を取得しなくてもよく、対話予兆検知部107が運転者の対話予兆を検知した場合に音声を取得するようにすればよい。
 また、以上の実施の形態2において、音声認識装置1aは、動作命令部109を備えることを必須としない。動作命令部109は、音声認識装置1aの外部において音声認識装置1aと接続されている他の装置に備えられてもよい。
 また、以上の実施の形態2において、対話要求判定部108aは、機械学習モデルを用いて、対話要求度を設定してもよい。
 実施の形態2に係る音声認識装置1aのハードウェア構成は、実施の形態1において図7Aおよび図7Bを用いて説明した音声認識装置1のハードウェア構成と同様であるため、図示を省略する。
 実施の形態2において、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108aと、動作命令部109の機能は、処理回路701により実現される。すなわち、音声認識装置1aは、車内で検知した発話が対話要求発話であるか否かを判定するとともに、当該判定において用いられる設定条件の更新を行う制御を行うための処理回路701を備える。
 処理回路701は、メモリ705に記憶されたプログラムを読み出して実行することにより、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108aと、動作命令部109の機能を実行する。すなわち、音声認識装置1aは、処理回路701により実行されるときに、上述の図4のステップST1~ステップST2、および、図13のステップST111~ステップST118が結果的に実行されることになるプログラムを格納するためのメモリ705を備える。また、メモリ705に記憶されたプログラムは、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108aと、動作命令部109の処理の手順または方法をコンピュータに実行させるものであるとも言える。
 音声認識装置1aは、カメラ2、マイク3、車載機器5、または、出力装置6等の装置と、有線通信または無線通信を行う入力インタフェース装置702および出力インタフェース装置703を備える。
 なお、以上の実施の形態2では、音声認識装置1aは、車両4に搭載される車載装置とし、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、記録部106と、対話予兆検知部107と、対話要求判定部108aと、動作命令部109とは、音声認識装置1に備えられていた。これに限らず、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、記録部106と、対話予兆検知部107と、対話要求判定部108aと、動作命令部109のうち、一部が車両4の車載装置に搭載され、その他は当該車載装置とネットワークを介して接続されるサーバに備えられて、車載装置とサーバとで音声認識システムを構成してもよい。
 また、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、記録部106と、対話予兆検知部107と、対話要求判定部108aと、動作命令部109が、全て、サーバに備えられてもよい。
 以上のように、実施の形態2に係る音声認識装置1aにおいて、対話要求判定部108aは、対話要求度を設定後に、関連履歴情報に基づいて、対話要求度を再設定し、再設定した対話要求度に基づいて、設定条件を更新する更新部1081を備えた。そのため、音声認識装置1aは、両の乗員の発話に対して、誤認識および誤棄却を防ぐことができるとともに、運転者の発話に対して設定する対話要求度について、過去の乗員の発話の履歴または挙動の履歴に基づいて設定するのでは誤った設定をしていたところ、誤った設定をしないよう、対話要求度の精度を向上させていくことができる。
実施の形態3.
 実施の形態2にて説明した音声認識装置において、個人認証機能を有するようにしてもよい。
 以下、音声認識装置において、個人認証機能を有するようにし、音声認識装置が、個人認証結果を用いて、運転者の発話を受け付けるか否かを判定する実施の形態について説明する。なお、以下の実施の形態3でも、実施の形態2同様、一例として、ユーザは、車両の運転者を想定している。
 図14は、実施の形態3に係る音声認識装置1bの構成例を示す図である。
 図14において、実施の形態2にて図8を用いて説明した音声認識装置1aの構成と同様の構成については、同じ符号を付して重複した説明を省略する。
 実施の形態3に係る音声認識装置1bは、図8を用いて説明した実施の形態2に係る音声認識装置1aとは、個人認証部110を備える点が異なる。また、対話要求判定部108bの具体的な動作が、実施の形態2に係る音声認識装置1aにおける対話要求判定部108aの具体的な動作とは異なる。
 個人認証部110は、画像取得部101が取得した撮像画像に基づいて個人認証を行う。なお、実施の形態3では、画像取得部101は、撮像画像を個人認証部110に出力する。
 具体的には、例えば、予め、乗員について、個人を特定する情報と顔情報とが対応付けられた認証用情報が生成され、個人認証部110は、当該認証用情報を保持している。個人認証部110は、撮像画像から既知の画像認識処理を行って乗員の顔画像を抽出し、抽出した顔画像と個人認証用情報とのマッチングを行うことで、個人認証を行う。また、個人認証部110は、撮像画像から、目、鼻、口等の顔のパーツを抽出し、予め登録されている特徴点データベースとの照合を行う等の公知の種々の個人認証方法にて、個人認証を行えばよい。
 個人認証部110は、個人認証結果を、挙動検知部102および履歴記録制御部105に出力する。個人認証結果には、例えば、乗員の位置に関する情報と、乗員を識別可能な情報が含まれる。乗員を識別可能な情報とは、例えば、名前または顔画像である。
 なお、個人認証部110は、「履歴記録処理」および「対話要求判定処理」において機能する。
 実施の形態3に係る音声認識装置1bにおける「履歴記録処理」において、挙動検知部102が履歴記録制御部105に出力する挙動情報には、例えば、挙動が検知された時刻と、乗員を識別可能な情報と、検知された挙動内容を示す情報が対応付けられる。
 実施の形態1および実施の形態2では、音声認識装置1,1aは個人認証機能を有していなかったため、挙動情報において、乗員は、乗員の位置に関する情報によってあらわされていた。実施の形態3では、音声認識装置1bは、個人認証部110を備えるようにしたため、挙動情報において、乗員は、当該乗員を識別可能な情報を含めることができる。
 履歴記録制御部105は、挙動検知部102から出力された挙動情報と、音声処理部104から出力された音声認識結果とに基づき、関連履歴情報を生成する。
 このとき、履歴記録制御部105は、挙動を行った動作者には、当該動作者を識別可能な情報を設定するようにする。履歴記録制御部105は、動作者を識別可能な情報を、挙動検知部102から出力された挙動情報に基づいて特定できる。また、履歴記録制御部105は、発話者には、当該発話者を識別可能な情報を設定するようにする。履歴記録制御部105は、発話者を識別可能な情報を、例えば、音声処理部104から出力される音声認識結果と、個人認証部110から出力される個人認証結果とに基づいて特定すればよい。
 履歴記録制御部105は、生成した関連履歴情報を、記録部106に記録させる。
 実施の形態3では、関連履歴情報は、例えば3日間、削除されずに記録部106に記録されていることを想定する。なお、3日間は一例に過ぎず、実施の形態3において、関連履歴情報は、ある程度の期間、削除されずに記録部106に記録されるようになっていればよい。関連履歴情報は、一定期間を過ぎた場合に自動削除されてもよいし、運転者または同乗者の指示により削除できるようにしてもよい。
 ここで、図15は、実施の形態3において、履歴記録制御部105が生成する関連履歴情報の内容の一例のイメージを説明するための図である。
 図15に示すように、関連履歴情報において、発話者または動作者は、「Aさん」または「Bさん」等、個人を識別可能な情報で示される。
 また、図15に示す関連履歴情報では、対話要求度と乗員の発話とが対応付けられている(「2020/6/29/20:50:40」のAさんによる発話参照)。実施の形態3では、「対話要求判定処理」にて、対話要求判定部108bは、対話要求度を設定すると、当該対話要求度を、関連履歴情報において、当該対話要求度を設定した乗員による発話と対応付けるようにしている。
 また、更新部1081は、対話要求度を再設定した結果、設定情報を更新した場合、関連履歴情報における対話要求度の書き換えを行うようにしている。
 また、図15に示す関連履歴情報には、発話の履歴として、声のトーンに関する情報が設定されている。
 実施の形態3に係る音声認識装置1bにおける「対話要求判定処理」において、対話要求判定部108bは、音声認識装置1bが個人認証機能を有することで、運転者の発話の直前の発話の履歴または挙動の履歴だけではなく、さらに過去の発話の履歴または挙動の履歴を用いて対話要求度を設定することができる。
 具体的には、対話要求判定部108bは、対話予兆検知部107が、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部107から対話予兆情報が出力された場合、音声処理部104による音声認識結果と、記録部106に記録されている関連履歴情報に基づき、過去に、同じ発話状況で設定した対話要求度がある場合、当該同じ発話状況で設定した過去の対話要求度を、対話要求度に設定する。同じ発話状況とは、例えば、発話の内容が同じである状況である。同じ発話状況とは、例えば、発話の内容、および、声のトーンとが同じである状況してもよい。
 また、対話要求判定部108bは、音声処理部104による音声認識結果と、記録部106に記録関連履歴情報に加え、さらに、挙動検知部102が検出した挙動情報に基づき、過去に、同じ発話状況および同じ挙動状況で設定した対話要求度がある場合、当該同じ発話状況および同じ挙動状況で設定した過去の対話要求度を、対話要求度に設定してもよい。挙動情報は、対話予兆検知部107から出力された対話予兆情報に含まれている。
 なお、実施の形態3において、「同じ発話状況」は、厳密に同じ発話状況である必要はなく、類似する発話状況も含む。また、実施の形態3において、「同じ挙動状況」は、厳密に同じ挙動状況である必要はなく、類似する挙動状況も含む。
 また、実施の形態3において、対話要求判定部108bは、上述した、過去の対話要求度に基づいて対話要求度を設定する機能に加え、実施の形態2において説明済みの、対話要求判定部108aの機能も有する。
 ここで、対話要求判定部108bによる対話要求度の設定について、具体例を挙げて説明する。
 以下の具体例において、対話要求度は「高い」または「低い」で設定される。
 また、図15に示す関連履歴情報が生成され、記録部106に記録された状態から、3日が経過し、関連履歴情報には、図16に示すような関連履歴情報がさらに記録されるようになっている。すなわち、図16は、「2020/7/2」に生成された関連履歴情報である。なお、図16では図示していないが、図15に示す関連履歴情報は削除されず、記録部106に記録されている。
 図15に示す通り、3日前の「2020/6/29/20:50:40」に、Aさんが「車止まれよ」と発話した際、例えば、対話要求判定部108bの更新部1081は、直後にBさんが応答した発話履歴があることから、対話要求度「低い」と更新したとする。
 今、「2020/6/29/20:50:40」から3日後の「2020/7/2/11:55:25」に、Aさんが、対話予兆がある状態で「車止まれよ」と発話したとする(図16参照)。このとき、Aさんは、声のトーンが低い話し方であったとする。また、Aさんの顔向きは正面を向いている。
 この場合、Aさんによる、顔向きを正面にした状態での「車止まれよ」との、声のトーンを低くした発話は、「2020/6/29/20:50:40」に、Aさんが「車止まれよ」と発話した際の、挙動状況および発話状況と同じである。
 よって、対話要求判定部108bは、Aさんの「車止まれよ」に対する対話要求度を、「2020/6/29/20:50:40」に、Aさんが「車止まれよ」と発話した際に設定した対話要求度と同じ「低い」と設定する。
 上述のとおり、対話要求判定部108bは、過去の類似する発話状況、または、過去の類似する挙動情報を、それぞれ、同じ発話状況、または、同じ挙動情報とみなして、過去の対話要求度を対話要求度に設定するようにしてもよい。
 例えば、関連履歴情報において、挙動内容または声のトーンは、図15および図16に示したようにテキストではなく、数値として保持されているものとし、対話要求判定部108bは、数値の比較によって、値の差が予め設定された閾値以内であるか否かによって、発話状況または挙動情報が類似しているかを判定すればよい。
 対話要求判定部108bが対話要求度を設定した後に行う処理については、実施の形態2に係る音声認識装置1aにおいて対話要求判定部108aが対話要求度を設定した後に行う処理と同様であるため、重複した説明を省略する。
 実施の形態3に係る音声認識装置1bの動作について説明する。
 図17は、実施の形態3に係る音声認識装置1bの、「履歴記録処理」における動作を説明するためのフローチャートである。
 図17において、ステップST1~ステップST4の動作は、それぞれ、実施の形態1にて図4を用いて説明した図4のステップST1~ステップST4の動作と同様であるため、重複した説明を省略する。
 個人認証部110は、ステップST1にて画像取得部101が取得した撮像画像に基づいて個人認証を行う(ステップST6)。
 なお、画像取得部101は、ステップST1にて撮像画像を個人認証部110に出力する。
 履歴記録制御部105は、ステップST2にて挙動検知部102から出力された挙動情報と、ステップST5にて音声処理部104から出力された音声認識結果とに基づき、関連履歴情報を生成する(ステップST5)。
 このとき、履歴記録制御部105は、挙動を行った動作者には、当該動作者を識別可能な情報を設定するようにする。
 図18は、実施の形態3に係る音声認識装置1bの、「対話要求判定処理」における動作を説明するためのフローチャートである。
 図18において、ステップST1111、ステップST1113~ステップST1116、ステップST1119の動作は、それぞれ、実施の形態2にて図13を用いて説明したステップST111~ステップST115、ステップST118の動作と同様であるため、重複した説明を省略する。
 個人認証部110は、ステップST1111にて画像取得部101が取得した撮像画像に基づいて個人認証を行う(ステップST1112)。
 なお、画像取得部101は、ステップST1111にて撮像画像を個人認証部110に出力する。
 対話要求判定部108は、ステップST1114にて、対話予兆検知部107が、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部107から対話予兆情報が出力された場合、ステップST1116における音声処理部104による音声認識結果と、記録部106に記録されている関連履歴情報とに基づいて、運転者による発話を受け付けるか否かを判定する対話要求判定処理を実施する(ステップST1117)。
 ステップST1117において、対話要求判定部108bは、対話予兆検知部107が、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部107から対話予兆情報が出力された場合、ステップST1116における音声処理部104による音声認識結果と、ステップST1113において挙動検知部102が検知した運転者の挙動と、記録部106に記録されている関連履歴情報とに基づいて、運転者による発話を受け付けるか否かを判定する対話要求判定処理を実施してもよい。
 図19は、図18のステップST1117における対話要求判定部108bの動作について、より詳細に説明するためのフローチャートである。
 図19において、ステップST11173~ステップST11175の動作は、それぞれ、実施の形態1にて説明した、図6のステップST161~ステップST163の動作と同様であるため、重複した説明を省略する。
 対話要求判定部108bは、運転者による対話予兆があると検知した場合、言い換えれば、対話予兆検知部107から対話予兆情報が出力された場合、音声処理部104による音声認識結果と、記録部106に記録されている関連履歴情報に基づき、過去に、同じ発話状況で設定した対話要求度があるか否かを判定する(ステップST11171)。
 ステップST11171において、過去に、同じ発話状況で設定した対話要求度があると判定した場合(ステップST11171の“YES”の場合)、対話要求判定部108bは、当該同じ発話状況で設定した過去の対話要求度を、対話要求度に設定する(ステップST11172)。
 そして、音声認識装置1bの動作は、ステップST11174に進む。
 一方、ステップST11171において、過去に、同じ発話状況で設定した対話要求度がないと判定した場合(ステップST11171の“NO”の場合)、音声認識装置1bの動作は、ステップST11173に進む。
 以上の図19の動作において、対話要求判定部108bは、ステップST11171において、音声処理部104による音声認識結果と、記録部106に記録関連履歴情報と、挙動検知部102が検出した挙動情報に基づき、過去に、同じ発話状況および同じ挙動状況で設定した対話要求度があるか否かを判定してもよい。
 対話要求判定部108bは、過去に、同じ発話状況および同じ挙動状況で設定した対話要求度があると判定した場合(ステップST11171の“YES”の場合)、当該同じ発話状況および同じ挙動状況で設定した過去の対話要求度を、対話要求度に設定する(ステップST11172)。そして、音声認識装置1bの動作は、ステップST11174に進む。
 対話要求判定部108bが、過去に、同じ発話状況および同じ挙動状況で設定した対話要求度がないと判定した場合(ステップST11171の“NO”の場合)、音声認識装置1bの動作は、ステップST11173に進む。
 なお、図18のステップST1111~ステップST1113、ステップST1115~ステップST1116の動作は、それぞれ、図17のステップST1、ステップST7、ステップST2~ステップST4の動作と共通していてもよい。
 このように、音声認識装置1bは、個人認証部110を備えたことにより、乗員個人毎の発話および挙動の特徴を把握することが可能となる。これにより、音声認識装置1bは、乗員個人の発話または挙動の特徴を考慮して、対話要求度を設定することができるため、設定する対話要求度の精度を向上させることができる。その結果、音声認識装置1bは、個人認証機能を有しない場合と比べ、運転者による発話が、応答要求発話であるか、同乗者への発話であるかの判定の精度を向上させることができる。すなわち、音声認識装置1bは、個人認証機能を有しない場合と比べ、運転者による発話を受け付けるか否かの判定の精度を向上させることができる。
 なお、以上の実施の形態3において、「履歴記録処理」は、音声認識装置1bにて行われることを必須とせず、「履歴記録処理」は、音声認識装置1b以外の装置にて行われるようにしてもよい。この場合、音声認識装置1bは、履歴記録制御部105を備えることを必須としない。また、音声認識装置1bにおいて、音声取得部103は、常時、音声を取得しなくてもよく、対話予兆検知部107が運転者の対話予兆を検知した場合に音声を取得するようにすればよい。
 また、以上の実施の形態3において、音声認識装置1bは、動作命令部109を備えることを必須としない。動作命令部109は、音声認識装置1bの外部において音声認識装置1bと接続されている他の装置に備えられてもよい。
 また、以上の実施の形態3において、対話要求判定部108bは、機械学習モデルを用いて、対話要求度を設定してもよい。
 実施の形態3に係る音声認識装置1bのハードウェア構成は、実施の形態1において図7Aおよび図7Bを用いて説明した音声認識装置1bのハードウェア構成と同様であるため、図示を省略する。
 実施の形態3において、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108bと、動作命令部109と、個人認証部110の機能は、処理回路701により実現される。すなわち、音声認識装置1bは、乗員の個人認証を行い、乗員個人の発話または挙動の特徴にあわせて、車内で検知した発話が対話要求発話であるか否かを判定する制御を行うための処理回路701を備える。
 処理回路701は、メモリ705に記憶されたプログラムを読み出して実行することにより、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108bと、動作命令部109と、個人認証部110の機能を実行する。すなわち、音声認識装置1bは、処理回路701により実行されるときに、上述の図17のステップST1~ステップST6、および、図18のステップST1111~ステップST1119が結果的に実行されることになるプログラムを格納するためのメモリ705を備える。また、メモリ705に記憶されたプログラムは、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108bと、動作命令部109と、個人認証部110の処理の手順または方法をコンピュータに実行させるものであるとも言える。
 音声認識装置1bは、カメラ2、マイク3、車載機器5、または、出力装置6等の装置と、有線通信または無線通信を行う入力インタフェース装置702および出力インタフェース装置703を備える。
 なお、以上の実施の形態3では、音声認識装置1bは、車両4に搭載される車載装置とし、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108bと、動作命令部109と、個人認証部110とは、音声認識装置1bに備えられていた。これに限らず、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108bと、動作命令部109と、個人認証部110のうち、一部が車両4の車載装置に搭載され、その他は当該車載装置とネットワークを介して接続されるサーバに備えられて、車載装置とサーバとで音声認識システムを構成してもよい。
 また、画像取得部101と、挙動検知部102と、音声取得部103と、音声処理部104と、履歴記録制御部105と、対話予兆検知部107と、対話要求判定部108bと、動作命令部109と、個人認証部110が、全て、サーバに備えられてもよい。
 また、以上の実施の形態3では、音声認識装置1bは、実施の形態2に係る音声認識装置1aに個人認証部110を備えたものとしたが、これは一例に過ぎない。実施の形態3の構成を実施の形態1に適用し、実施の形態1に係る音声認識装置1が個人認証部110を備えるようにしてもよい。
 以上のように、実施の形態3に係る音声認識装置1bは、画像取得部101が取得した撮像画像に基づいて個人認証を行う個人認証部110を備え、関連履歴情報には、乗員個人を認証可能な個人認証情報と、複数の乗員の挙動の履歴、または、複数の乗員の発話の履歴が時系列で設定されており、対話要求判定部108bは、対話要求度を設定すると当該対話要求度を関連履歴情報において発話受付対象乗員による発話に関する情報と対応付けるようにし、対話予兆検知部107が発話受付対象乗員による対話予兆があると検知した場合、音声処理部104による音声認識結果と、関連履歴情報に基づき、過去に、発話受付対象乗員の発話について同じ発話状況で設定した対話要求度がある場合、当該同じ発話状況で設定した過去の対話要求度を、対話要求度に設定するようにした。音声認識装置1bは、乗員個人の発話または挙動の特徴を考慮して、対話要求度を設定することができるため、設定する対話要求度の精度を向上させることができる。その結果、音声認識装置1bは、個人認証機能を有しない場合と比べ、発話受付対象乗員による発話が、応答要求発話であるか、同乗者への発話であるかの判定の精度を向上させることができる。すなわち、音声認識装置1bは、個人認証機能を有しない場合と比べ、発話受付対象乗員による発話を受け付けるか否かの判定の精度を向上させることができる。
 なお、本開示は、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 本開示に係る音声認識装置は、車両の乗員の発話に対して、誤認識および誤棄却を防ぐことができる。
 1,1a,1b 音声認識装置、2 カメラ、3 マイク、4 車両、5 車載機器、6 出力装置、101 画像取得部、102 挙動検知部、103 音声取得部、104 音声処理部、1041 発話検知部、1042 音声認識部、105 履歴記録制御部、106 記録部、107 対話予兆検知部、108,108a,108b 対話要求判定部、1081 更新部、109 動作命令部、110 個人認証部、701 処理回路、702 入力インタフェース装置、703 出力インタフェース装置、704 プロセッサ、705 メモリ。

Claims (12)

  1.  車内に存在する複数の乗員を撮像した撮像画像を取得する画像取得部と、
     前記画像取得部が取得した撮像画像に基づき、前記複数の乗員の挙動を検知する挙動検知部と、
     前記挙動検知部が検知した前記複数の乗員の挙動に関する情報に基づき、前記複数の乗員のうち、発話を受け付ける対象となる発話受付対象乗員による対話予兆があるか否かを検知する対話予兆検知部と、
     前記対話予兆検知部が、前記発話受付対象乗員による対話予兆があると検知した場合、前記車内の音声を取得する音声取得部と、
     前記音声取得部が取得した音声に基づき前記発話受付対象乗員による発話を検知し、検知した発話の音声認識を行う音声処理部と、
     前記音声処理部による音声認識結果と、前記複数の乗員の挙動の履歴または前記複数の乗員の発話の履歴が時系列で設定されている関連履歴情報とに基づいて、前記発話受付対象乗員による発話を受け付けるか否かを判定する対話要求判定部
     を備えた音声認識装置。
  2.  前記対話要求判定部は、
     前記音声処理部による前記音声認識結果と前記関連履歴情報と設定条件に基づいて前記乗員による発話が装置への応答を求める対話であると推定される度合いを示す対話要求度を設定し、設定した対話要求度と対話要求度判定条件との比較によって、前記発話受付対象乗員による発話を受け付けるか否かを判定する
     ことを特徴とする請求項1記載の音声認識装置。
  3.  前記対話要求判定部は、
     前記関連履歴情報における、前記発話受付対象乗員の同乗者による、当該発話受付対象乗員の発話よりも判定用遡及時間前の挙動、または、前記発話受付対象乗員の前記同乗者による、当該発話受付対象乗員の発話よりも前記判定用遡及時間前の発話と、前記設定条件に基づいて、前記対話要求度を設定する
     ことを特徴とする請求項2記載の音声認識装置。
  4.  前記対話要求判定部は、前記対話要求度を設定後に、前記関連履歴情報に基づいて、前記対話要求度を再設定し、再設定した前記対話要求度に基づいて、前記設定条件を更新する更新部を備えた
     ことを特徴とする請求項2記載の音声認識装置。
  5.  前記画像取得部が取得した撮像画像に基づいて個人認証を行う個人認証部を備え、
     前記関連履歴情報には、前記乗員個人を認証可能な個人認証情報と、前記複数の乗員の挙動の履歴、または、前記複数の乗員の発話の履歴が時系列で設定されており、
     前記対話要求判定部は、前記対話要求度を設定すると当該対話要求度を前記関連履歴情報において前記発話受付対象乗員による発話に関する情報と対応付けるようにし、前記対話予兆検知部が前記発話受付対象乗員による対話予兆があると検知した場合、前記音声処理部による前記音声認識結果と、前記関連履歴情報に基づき、過去に、前記発話受付対象乗員の発話について同じ発話状況で設定した前記対話要求度がある場合、当該同じ発話状況で設定した過去の前記対話要求度を、前記対話要求度に設定する
     ことを特徴とする請求項2から請求項4のうちのいずれか1項記載の音声認識装置。
  6.  前記画像取得部が取得した撮像画像に基づいて個人認証を行う個人認証部を備え、
     前記関連履歴情報には、前記乗員個人を認証可能な個人認証情報と、前記複数の乗員の挙動の履歴、または、前記複数の乗員の発話の履歴が時系列で設定されており、
     前記対話要求判定部は、
     前記対話要求度を設定すると、当該対話要求度を前記関連履歴情報において前記発話受付対象乗員による発話に関する情報と対応付けるようにし、
     前記対話予兆検知部が、前記発話受付対象乗員による対話予兆があると検知した場合、前記音声処理部による前記音声認識結果と、前記関連履歴情報と、前記挙動検知部が検知した前記発話受付対象乗員の挙動に関する情報に基づき、過去に、前記発話受付対象乗員の発話について同じ発話状況および同じ挙動状況で設定した前記対話要求度がある場合、当該同じ発話状況および同じ挙動状況で設定した過去の前記対話要求度を、前記対話要求度に設定する
     ことを特徴とする請求項2から請求項4のうちのいずれか1項記載の音声認識装置。
  7.  前記対話要求判定部は、
     前記音声処理部による前記音声認識結果と、前記関連履歴情報と、前記音声認識結果と前記関連履歴情報を入力とし前記対話要求度を出力する機械学習モデルとに基づいて、前記対話要求度を設定する
     ことを特徴とする請求項2記載の音声認識装置。
  8.  前記音声取得部は、前記発話受付対象乗員による対話予兆があると検知したか否かにかかわらず前記車内の音声を取得し、前記挙動検知部が検知した前記複数の乗員の挙動に関する情報と前記音声処理部が行った音声認識結果に基づいて、前記関連履歴情報を生成する履歴記録制御部を備えた
     ことを特徴とする請求項1記載の音声認識装置。
  9.  前記乗員の挙動には、前記乗員の顔向き、前記乗員の視線方向、または、前記乗員が行ったジェスチャが含まれる
     ことを特徴とする請求項1記載の音声認識装置。
  10.  前記音声認識結果には、前記乗員の話し方に関する情報、または、前記乗員の発話の属性に関する情報が含まれる
     ことを特徴とする請求項1記載の音声認識装置。
  11.  前記乗員の発話の属性は、疑問文、未来文、依頼文、または、命令文に分類される
     ことを特徴とする請求項10記載の音声認識装置。
  12.  画像取得部が、車内に存在する複数の乗員を撮像した撮像画像を取得するステップと、
     挙動検知部が、前記画像取得部が取得した撮像画像に基づき、前記複数の乗員の挙動を検知するステップと、
     対話予兆検知部が、前記挙動検知部が検知した前記複数の乗員の挙動に関する情報に基づき、前記複数の乗員のうち、発話を受け付ける対象となる発話受付対象乗員による対話予兆があるか否かを検知するステップと、
     音声取得部が、前記対話予兆検知部が、前記発話受付対象乗員による対話予兆があると検知した場合、前記車内の音声を取得するステップと、
     音声処理部が、前記音声取得部が取得した音声に基づき前記発話受付対象乗員による発話を検知し、検知した発話の音声認識を行うステップと、
     対話要求判定部が、前記音声処理部による音声認識結果と、前記複数の乗員の挙動の履歴または前記複数の乗員の発話の履歴が時系列で設定されている関連履歴情報とに基づいて、前記発話受付対象乗員による発話を受け付けるか否かを判定するステップ
     とを備えた音声認識方法。
PCT/JP2021/005218 2021-02-12 2021-02-12 音声認識装置および音声認識方法 WO2022172393A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/005218 WO2022172393A1 (ja) 2021-02-12 2021-02-12 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/005218 WO2022172393A1 (ja) 2021-02-12 2021-02-12 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
WO2022172393A1 true WO2022172393A1 (ja) 2022-08-18

Family

ID=82838546

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/005218 WO2022172393A1 (ja) 2021-02-12 2021-02-12 音声認識装置および音声認識方法

Country Status (1)

Country Link
WO (1) WO2022172393A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250236A (ja) * 2007-03-30 2008-10-16 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2018185362A (ja) * 2017-04-24 2018-11-22 富士ソフト株式会社 ロボットおよびその制御方法
JP2019191477A (ja) * 2018-04-27 2019-10-31 日産自動車株式会社 音声認識装置及び音声認識方法
WO2020044543A1 (ja) * 2018-08-31 2020-03-05 三菱電機株式会社 情報処理装置、情報処理方法及びプログラム
JP2020080503A (ja) * 2018-11-14 2020-05-28 本田技研工業株式会社 エージェント装置、エージェント提示方法、およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250236A (ja) * 2007-03-30 2008-10-16 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2018185362A (ja) * 2017-04-24 2018-11-22 富士ソフト株式会社 ロボットおよびその制御方法
JP2019191477A (ja) * 2018-04-27 2019-10-31 日産自動車株式会社 音声認識装置及び音声認識方法
WO2020044543A1 (ja) * 2018-08-31 2020-03-05 三菱電機株式会社 情報処理装置、情報処理方法及びプログラム
JP2020080503A (ja) * 2018-11-14 2020-05-28 本田技研工業株式会社 エージェント装置、エージェント提示方法、およびプログラム

Similar Documents

Publication Publication Date Title
US7437297B2 (en) Systems and methods for predicting consequences of misinterpretation of user commands in automated systems
CN106796786B (zh) 语音识别系统
JP6977004B2 (ja) 車載装置、発声を処理する方法およびプログラム
JP6466385B2 (ja) サービス提供装置、サービス提供方法およびサービス提供プログラム
JP2017007652A (ja) 言語制御のための文脈を認識する方法、言語制御のための言語制御信号を決定する方法、および方法を実施するための装置
US9311930B2 (en) Audio based system and method for in-vehicle context classification
US20200152203A1 (en) Agent device, agent presentation method, and storage medium
US20210183362A1 (en) Information processing device, information processing method, and computer-readable storage medium
JP4730812B2 (ja) 個人認証装置、個人認証処理方法、そのためのプログラム及び記録媒体
CN112307816B (zh) 车内图像获取方法、装置以及电子设备、存储介质
JP2017090614A (ja) 音声認識制御システム
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP4660592B2 (ja) カメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体
US20230073265A1 (en) Information processing device and action mode setting method
WO2020079733A1 (ja) 音声認識装置、音声認識システム、及び音声認識方法
WO2022172393A1 (ja) 音声認識装置および音声認識方法
JP2013257418A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP2018144534A (ja) 運転支援システムおよび運転支援方法並びに運転支援プログラム
CN109243457B (zh) 基于语音的控制方法、装置、设备及存储介质
WO2022176038A1 (ja) 音声認識装置および音声認識方法
WO2022168187A1 (ja) 調整装置、調整システム、および、調整方法
JP7407665B2 (ja) 音声出力制御装置および音声出力制御プログラム
WO2022038724A1 (ja) 音声対話装置、および、音声対話装置における対話対象判定方法
JP2010262424A (ja) 車載カメラシステム
WO2022215104A1 (ja) 音声対話装置および音声対話方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21925646

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21925646

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP