WO2022208783A1 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
WO2022208783A1
WO2022208783A1 PCT/JP2021/013963 JP2021013963W WO2022208783A1 WO 2022208783 A1 WO2022208783 A1 WO 2022208783A1 JP 2021013963 W JP2021013963 W JP 2021013963W WO 2022208783 A1 WO2022208783 A1 WO 2022208783A1
Authority
WO
WIPO (PCT)
Prior art keywords
response
information
unit
driver
degree
Prior art date
Application number
PCT/JP2021/013963
Other languages
English (en)
French (fr)
Inventor
歩未 西川
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2021/013963 priority Critical patent/WO2022208783A1/ja
Publication of WO2022208783A1 publication Critical patent/WO2022208783A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present disclosure relates to a speech recognition device and a speech recognition method used in automobiles and the like.
  • a speech recognition device performs speech recognition on a speaker before the speaker speaks in order to prevent erroneous responses to speech by the speaker directed to other than the speech recognition device. Request an action to start. However, the speaker feels annoyed by having to perform an operation to start speech recognition each time he/she speaks.
  • a method of operating a virtual assistant in an electronic device calculates a likelihood score that a response to a user speech input should be provided based on contextual information associated with the user speech input. , a method for responding to a user speech input if its likelihood score is greater than or equal to a predetermined threshold. (Patent Document 1 below).
  • Patent Document 1 does not calculate the likelihood score in consideration of the driving conditions of the vehicle, so there is a problem that the response accuracy decreases when the user performs voice operations inside the vehicle.
  • the present disclosure has been made in order to solve the above-described problems. To improve the accuracy of a response to a driver's utterance by outputting a response when the driver does not want to do so and not outputting the response when the driver does not wish to do so.
  • a speech dialogue device includes a speech recognition unit that recognizes speech information acquired by a speech acquisition unit regardless of whether or not an operation to start speech recognition is performed and outputs a recognition result;
  • a first information acquisition unit that acquires information, a first feature extraction unit that extracts a feature amount related to utterance or a feature amount related to dialogue behavior based on voice information or behavior information of a driver, and a feature amount related to utterance or dialogue behavior
  • a response degree calculation unit that calculates a response degree that indicates whether or not to respond to the recognition result based on the feature amount related to a recognition result determination unit that outputs a second information acquisition unit that acquires travel information when the determination result indicates that the travel route is confirmed;
  • a feature amount extraction unit a difficulty level calculation unit that calculates a degree of difficulty, which is a degree of difficulty for a driver to determine a route based on the feature amount related to the driving environment;
  • a response degree adjustment unit that adjusts the degree of response so that the degree of response increases when the degree of response is high, and
  • the speech recognition device is configured so that the driver can obtain information from the speech recognition device when it is difficult for the driver to determine the course of travel. Since it becomes easier to respond to the utterance, when the driver desires a response, a response can be obtained without performing an operation to start voice recognition, and when the driver does not desire a response, the response is not output, thereby minimizing annoyance. is suppressed, and the response accuracy to the driver's speech can be improved.
  • FIG. 1 is a diagram illustrating a configuration example of a speech recognition device according to Embodiment 1;
  • FIG. 4 is a diagram showing an example of the degree of response corresponding to the volume of speech defined by the degree-of-response calculator of the first embodiment;
  • FIG. 4 is a diagram showing an example of difficulty levels corresponding to the number of runs defined by a difficulty level calculation unit according to Embodiment 1.
  • FIG. FIG. 9 is a diagram showing an example of a response level adjustment value corresponding to a difficulty level defined by a response level adjustment unit according to Embodiment 1; 4 is a flowchart for explaining the operation of the speech recognition device according to Embodiment 1;
  • FIG. 9 is a diagram showing an example of a response level adjustment value corresponding to a difficulty level defined by a response level adjustment unit according to Embodiment 1;
  • 4 is a flowchart for explaining the operation of the speech recognition device according to Embodiment 1;
  • FIG. 10 is a diagram showing a configuration example of a speech recognition device according to Embodiment 2;
  • FIG. 12 is a diagram showing an example of difficulty levels corresponding to cumulative time of confirmation actions defined by a difficulty level calculation unit according to Embodiment 2; 9 is a flowchart for explaining the operation of the speech recognition device according to Embodiment 2;
  • FIG. 13 is a diagram showing a configuration example of a speech recognition device according to Embodiment 3;
  • FIG. 12 is a diagram showing an example of difficulty levels corresponding to link costs defined by a difficulty level calculation unit according to Embodiment 3;
  • 10 is a flowchart for explaining the operation of the speech recognition device according to Embodiment 3;
  • 2 is a diagram showing an example hardware configuration of a speech recognition device according to each embodiment;
  • FIG. 1 is a diagram showing a configuration example of a speech recognition device 1 according to Embodiment 1. As shown in FIG. The speech recognition device 1 recognizes speech regardless of the presence or absence of an operation for starting speech recognition by the driver.
  • the operation for starting voice recognition is, for example, pressing a physical button installed on the steering wheel, pressing a button displayed on the display, or uttering a predetermined keyword.
  • the speech recognition device 1 can be used for driving intended to confirm the route when it is difficult for the driver to determine the route, compared to when it is not difficult for the driver to determine the route to proceed, for example, at an intersection where the driver should turn right. This makes it easier to respond to the person's utterance. This is because when it is difficult for the driver to determine the travel route, there is a high possibility that the driver will make an utterance to confirm the travel route in order to obtain information from the speech recognition device 1 .
  • the voice recognition device 1 determines that the driver has traveled the uttered point many times in the past. Therefore, it becomes easier to respond to the driver's utterances when the vehicle is traveling at that point for the first time. Specifically, the speech recognition device 1 recognizes the speech of the driver as speech to the speech recognition device 1, and outputs an instruction signal to the display device or the speaker indicating whether or not the vehicle should turn right. becomes easier.
  • a microphone 2 , a state detection device 4 , an identification device 5 , a position detection device 6 , a display device 7 and a speaker 8 are connected to the voice recognition device 1 . Also, the imaging device 3 is connected to the state detection device 4 and the identification device 5 .
  • the microphone 2 acquires the voice uttered by the speaker, A/D (Analog/Digital) converts it, and outputs voice information after the conversion.
  • a microphone 2 is an array microphone composed of a plurality of omnidirectional microphones, and is installed, for example, above the center display.
  • the imaging device 3 outputs a captured image of the passenger inside the vehicle.
  • the imaging device 3 may be installed at a place where the passenger seated in the vehicle can be imaged.
  • the imaging device 3 is installed on the dashboard or ceiling of the vehicle.
  • the state detection device 4 identifies the line-of-sight direction, facing direction, or posture of the occupant by analyzing the captured image output by the imaging device 3 .
  • a well-known technique may be used for the method by which the state detection device 4 identifies the line-of-sight direction, the facing direction, or the posture by analyzing the captured image, so the description thereof is omitted.
  • the line-of-sight direction or face direction is referred to as the line-of-sight direction or the like.
  • the identification device 5 identifies the occupant based on the captured image output by the imaging device 3 and outputs identification information as the identification result.
  • the method for registering the occupant based on the captured image and the method for identifying the occupant based on the captured image by the identification device 5 may use a well-known technique, so the description thereof will be omitted. Note that the identification device 5 may register and identify the passenger based on the voice information output by the microphone 2 .
  • the position detection device 6 detects the position of the vehicle based on radio waves received from GPS (Global Positioning System) satellites and outputs the latitude and longitude (hereinafter referred to as "position information").
  • GPS Global Positioning System
  • the display device 7 is, for example, an LCD (Liquid Crystal Display) or an organic EL (Electro Luminescence) display.
  • the display device 7 may be a display-integrated touch panel composed of an LCD or organic EL display and a touch sensor, or may be a head-up display.
  • the speech recognition device 1 includes a speech acquisition unit 11, a speech recognition unit 12, a first information acquisition unit 13, a first feature amount extraction unit 14, a response degree calculation unit 15, a recognition result determination unit 16, a second information acquisition unit 17, A second feature quantity extraction unit 18 , a difficulty level calculation unit 19 , a response degree adjustment unit 20 and a response generation unit 21 are provided.
  • the voice acquisition unit 11 extracts voice information emitted from a predetermined direction from the voice information acquired by the microphone 2 .
  • voice information emitted from the driver's seat that is, voice information of the driver is extracted.
  • a method for extracting one specific voice information from the voice information of a plurality of people or the voice information containing noise may be performed using an existing technique, and thus the description thereof is omitted.
  • the speech recognition unit 12 recognizes the speech information acquired by the speech acquisition unit 11 and outputs the recognition result regardless of whether or not there is an operation to start speech recognition.
  • the recognition result includes at least an identifier corresponding to the contents of the speech and information indicating success or failure of the recognition. For example, when the driver utters, "Do you want to turn right here?" Outputs an identifier indicating "right turn confirmation". It should be noted that the method of recognizing the voice information by the voice recognition unit 12 may use an existing technology, and thus the description thereof is omitted.
  • the first information acquisition unit 13 acquires voice information or action information of the driver.
  • the audio information is audio information output by the audio acquisition unit 11 .
  • the action information is information relating to the line-of-sight direction or the like output by the state detection device 4 or the posture.
  • the first information acquisition unit 13 acquires the recognition result output by the speech recognition unit 12 . Then, when the recognition result includes information indicating the success of the recognition, that is, when the voice recognition by the voice recognition unit 12 succeeds, the first information acquisition unit 13 obtains voice information or action information corresponding to the driver's utterance. get.
  • the first feature quantity extraction unit 14 extracts a feature quantity related to utterance or a feature quantity related to dialogue behavior based on the speech information or action information output by the first information acquisition unit 13 .
  • the feature amount related to speech is, for example, a feature amount of voice, such as speech volume, pitch, clarity, speech rate, or the like.
  • the method of analyzing the voice information and extracting the feature amount of the voice may use the existing technology, so the description is omitted.
  • a feature amount related to dialogue behavior is, for example, a feature amount related to conscious or unconscious behavior when the driver starts a dialogue with another passenger or a speech recognition device.
  • the first feature amount extraction unit 14 determines that the line-of-sight direction of the driver is the direction of another passenger or the direction of the voice recognition device 1 based on the line-of-sight direction information output by the first information acquisition unit 13 . A result of judging which of the directions is the direction is output as a feature amount.
  • the degree-of-response calculation unit 15 determines whether or not to respond to the recognition result output by the speech recognition unit 12, based on the feature amount related to speech or the feature amount related to dialogue behavior output by the first feature amount extraction unit 14.
  • the degree of response which is the degree of indicating
  • the degree-of-response calculation unit 15 acquires the speech volume output by the first feature amount extraction unit 14 as a feature amount related to speech. Then, the response degree calculation unit 15 calculates the response degree so that the response degree is higher when the speech volume is high than when the speech volume is low. This is because the driver tends to make his voice louder when speaking to a device such as the speech recognition device 1 than when speaking to a person.
  • the response degree calculation unit 15 defines the response degree corresponding to the speech volume. For example, as shown in FIG. 2, the degree of response is defined in association with a predetermined speech volume range. In this case, for example, it is stored in a memory (not shown) in the form of a table. Note that the definition shown in FIG. 2 is merely an example. Further, the response degree calculation unit 15 assumes that the response degree and the speech volume take values from "0" to "100", and defines the speech volume value and the response degree value in a one-to-one correspondence. may In addition, although the lower limit of the degree of response and the speech volume is set to "0" and the upper limit is set to "100", the present invention is not limited to this.
  • the degree-of-response calculation unit 15 determines whether the line-of-sight direction of the driver is the direction of the fellow passenger or the direction of the voice recognition device 1 as the feature value related to the dialogue behavior from the first feature value extraction unit 14. get the result of Then, the response degree calculation unit 15 sets the degree of response when the line-of-sight direction of the driver is in the direction of the voice recognition device 1 to be higher than when the line-of-sight direction of the driver is in the direction of the passenger. Calculate the degree of response.
  • the responsiveness calculation unit 15 calculates the responsiveness so that the responsiveness is higher when the driver looks at the voice recognition device 1 than when the driver looks at the fellow passenger. This is because there is a high possibility that the driver will speak while facing the direction of the target from which he expects a response.
  • the above method of calculating the degree of response is an example.
  • the degree-of-response calculator 15 may calculate the degree of response based on one feature amount, or may calculate the degree of response based on a plurality of feature amounts.
  • the degree-of-response calculator 15 may output, for example, a value obtained by summing the degrees of response calculated based on the respective feature amounts as the degree of response.
  • the response degree calculation unit 15 may calculate the response degree using a learning model generated by machine learning using the feature amount related to speech or the feature amount related to dialogue behavior as learning data.
  • the recognition result determination unit 16 determines whether or not the recognition result output by the speech recognition unit 12 is confirmation of the travel route, and outputs the determination result. Specifically, the recognition result determination unit 16 determines whether the identifier included in the recognition result output by the voice recognition unit 12 is an identifier indicating confirmation of the travel route, and outputs the determination result.
  • the identifier indicating confirmation of the traveling route is, for example, an identifier indicating "confirm right turn” which is the result of recognizing the utterance "Is this a right turn?" Another example is an identifier that indicates "confirmation of change point in traveling direction", which is the result of recognizing an utterance of "Where do you turn?".
  • the recognition result determination unit 16 stores in advance an identifier indicating confirmation of the traveling route in a memory (not shown). Then, the recognition result determination unit 16 determines whether or not there is an identifier that matches the identifier output by the speech recognition unit 12 among the identifiers stored in the memory. Note that the identifier is not limited to the identifier described above.
  • the second information acquisition unit 17 acquires travel information from a device connected to the speech recognition device 1 when the determination result output by the recognition result determination unit 16 indicates confirmation of the traveling route.
  • the second information acquisition unit 17 acquires the identification information of the driver from the identification device 5 and acquires the position information of the vehicle output by the position detection device 6 .
  • the second feature amount extraction unit 18 extracts feature amounts related to the driving environment based on the driving information output by the second information acquisition unit 17 .
  • the second feature quantity extraction unit 18 acquires the travel history corresponding to the identification information of the driver output by the second information acquisition unit 17 from the travel history storage unit 9 storing the travel history. do. Then, the second feature amount extraction unit 18 calculates the number of times the driver has traveled to the location specified by the position information output by the second information acquisition unit 17 based on the driver's travel history. , to extract feature values related to the driving environment.
  • the travel history storage unit 9 stores travel dates and travel routes in association with identification information that identifies occupants as travel histories.
  • the second feature quantity extraction unit 18 acquires the travel history corresponding to the identification information of the driver from the travel history storage unit 9 that stores the travel history of the vehicle.
  • the second feature amount extraction unit 18 determines whether or not the point specified by the position information is included in each travel route information of the travel history, and if it is included, adds one to the number of travels.
  • the second feature amount extraction unit 18 determines that the point specified by the position information is included in each travel route information of the travel history, and the travel date included in the travel history is a date and time measurement unit (not shown). If it is within a predetermined period before the current date acquired from, the number of times of travel may be added once.
  • the travel history storage unit 9 is included in a navigation device (not shown), and the second feature amount extraction unit 18 acquires travel history via the navigation device. Further, the travel history storage unit 9 may be included in a server device on the network, and the second feature amount extraction unit 18 may acquire the travel history via a communication device (not shown).
  • the difficulty level calculation unit 19 calculates the difficulty level, which is the degree of difficulty for the driver to determine the traveling route, based on the feature amount related to the driving environment output by the second feature amount extraction unit 18 . Determination of the travel route is, for example, determination regarding a change in the travel direction, such as determination of the direction in which the vehicle should proceed at an intersection, determination of an intersection at which the travel direction should be changed, and the like.
  • the difficulty level calculation unit 19 sets the difficulty level so that the difficulty level increases when the number of runs output by the second feature quantity extraction unit 18 is small compared to when the number of runs is large. calculate.
  • the difficulty level calculation unit 19 defines the difficulty level so that the difficulty level increases when the number of runs is small compared to when the number of runs is large. This is because it is more difficult for the driver to determine the traveling route at a point where the number of times of travel is less and where the driver is not accustomed to traveling than at a point where the number of times of travel is large and the driver is accustomed to traveling. This is stored, for example, in a table format in a memory (not shown). Then, the difficulty level calculation unit 19 calculates the difficulty level corresponding to the number of runs output by the second feature amount extraction unit 18 according to the definition.
  • FIG. 3 is a diagram showing an example of difficulty levels associated with the number of times traveled to a point where an utterance was made. For example, when the number of runs is from “0" to "4", "1" is defined to indicate a “high” difficulty level. On the other hand, when the number of runs is "5" or more, "0" is defined to indicate a "low” difficulty level. Note that the definition shown in FIG. 3 is merely an example. FIG. 3 shows an example of two stages of difficulty “0 (low)” and “1 (high)", but may be three or more stages.
  • the response level adjustment unit 20 adjusts the response level so that the response level is higher when the difficulty level calculated by the difficulty level calculation unit 19 is higher than when the difficulty level is low.
  • the response level adjustment unit 20 defines adjustment values corresponding to the difficulty levels. More specifically, the response degree adjustment unit 20 defines the adjustment value so that the adjustment value is larger when the difficulty level is high than when the difficulty level is low. This is stored, for example, in a table format in a memory (not shown).
  • the response level adjustment unit 20 calculates an adjustment value corresponding to the difficulty level calculated by the difficulty level calculation unit 19 according to the definition. Then, response degree adjustment section 20 outputs a signal instructing the adjustment of the response degree based on the calculated adjustment value to response degree calculation section 15 . Specifically, the responsiveness adjusting section 20 outputs a signal to the responsiveness calculating section 15 to instruct the responsiveness to be adjusted by adding or multiplying the responsiveness by the adjustment value. The degree-of-response calculation unit 15 then adjusts the degree of response in accordance with the instruction signal output by the degree-of-difficulty calculation unit 19 .
  • FIG. 4 is a diagram showing an example of adjustment values associated with difficulty levels. Note that the definition in FIG. 4 is an example of a case where the response degree adjustment unit 20 adds an adjustment value to the response degree. For example, an adjustment value of "20" is defined for the difficulty level of "1 (high)”. On the other hand, an adjustment value of "0" is defined for a “difficulty level of 0 (low)”.
  • FIG. 4 the definition shown in FIG. 4 is only an example. In FIG. 4, since there are two levels of difficulty, an example in which there are two levels of adjustment values is shown. Further, when the responsiveness adjusting unit 20 adjusts the responsiveness by multiplying the responsiveness by the calculated adjustment value, the magnification by which the responsiveness is multiplied is defined as the adjustment value associated with the difficulty.
  • the response generation unit 21 generates a response to the recognition result when the degree of response calculated by the degree-of-response calculation unit 15 or the degree of response adjusted by the degree-of-response adjustment unit 20 is greater than or equal to a predetermined threshold. While outputting to the output device, if the response degree calculated by the response degree calculation unit 15 or the response degree adjusted by the response degree adjustment unit 20 is less than a predetermined threshold value, the response to the recognition result is sent to the output device No output.
  • the output device is the display device 7, the speaker 8, or an in-vehicle device such as a navigation device (not shown).
  • the response to the recognition result is, for example, the content displayed on the display device 7, the content of the voice output from the speaker 8, or an operation command to an in-vehicle device such as a navigation device (not shown).
  • FIG. 5 is a flow chart for explaining the operation of the speech recognition device according to the first embodiment. Note that the processing in FIG. 5 is always repeated from when the key is turned on until when the key is turned off.
  • the driver utters "I should turn right here" in order to confirm the direction of travel at the point where the driver is traveling for the first time. It is also assumed that speech recognition by the speech recognition unit 12 has succeeded. Further, it is assumed that the response degree calculation unit 15 calculates the response degree based on the speech volume according to the definition in FIG. It is also assumed that the difficulty level calculation unit 19 defines the difficulty level for the number of runs as shown in FIG. Further, it is assumed that the response level adjustment unit 20 defines adjustment values for the difficulty level as shown in FIG. It is also assumed that the predetermined threshold used by the response generator 21 to determine whether or not to output the response to the recognition result to the output device is "50".
  • the voice acquisition unit 11 extracts the voice information of the driver from the voice information acquired by the microphone 2 and outputs it.
  • the speech recognition unit 12 recognizes the speech information output by the speech acquisition unit 11 and outputs the recognition result regardless of whether or not there is an operation to start speech recognition (step ST102).
  • the driver is saying, "Do you want to turn right here?", so the speech recognition unit 12 outputs a recognition result including information indicating that the speech recognition was successful and an identifier indicating "Confirm right turn.” .
  • step ST103 If the speech recognition is successful ("YES” in step ST103), the operation of the speech recognition device 1 proceeds to step ST104. On the other hand, if the speech recognition fails ("NO” in step ST103), the operation of the speech recognition apparatus 1 terminates the processing. If the speech recognition is successful ("YES” in step ST103), the first information acquisition unit 13 receives the driver's voice information output by the voice acquisition unit 11 or the driver's voice information output by the state detection device 4. Action information is acquired (step ST104). Here, since the recognition result obtained from the speech recognition unit 12 includes information indicating that the speech recognition was successful, the first information acquisition unit 13 obtains the speech information corresponding to the driver's utterance from the speech acquisition unit 11. get.
  • the first feature quantity extraction unit 14 extracts a feature quantity related to speech or a feature quantity related to dialogue behavior based on the voice information or action information output by the first information acquisition unit 13 (step ST105).
  • the first feature amount extraction unit 14 extracts the speech volume by analyzing the voice information output by the first information acquisition unit 13 . Assume that the speech volume extracted by the first feature amount extraction unit 14 is "50".
  • the degree-of-response calculation unit 15 calculates a degree of response indicating whether or not to respond to the recognition result output by the speech recognition unit 12 based on the feature amount output by the first feature amount extraction unit 14. Calculate (step ST106).
  • the response degree calculator 15 calculates the response degree "40" corresponding to the speech volume "50" according to the definition in FIG.
  • the recognition result determination unit 16 determines whether the identifier included in the recognition result output by the speech recognition unit 12 is an identifier indicating confirmation of the travel route (step ST107). If the identifier included in the recognition result is an identifier indicating confirmation of the travel route ("YES" in step ST107), the operation of speech recognition apparatus 1 proceeds to step ST108. This is to make it easier for the speech recognition device 1 to respond to the driver's utterances confirming the travel route when it is difficult for the driver to determine the travel route. On the other hand, if the identifier included in the recognition result is not an identifier indicating confirmation of the travel route ("NO" in step ST107), the operation of speech recognition apparatus 1 proceeds to step ST112. Here, since the identifier included in the recognition result is the identifier "right turn confirmation" indicating the confirmation of the traveling route, the process proceeds to step ST108.
  • the second information acquisition unit 17 obtains travel information from a device connected to the speech recognition device 1. get.
  • the second information acquisition unit 17 acquires the identification information of the driver from the identification device 5 and acquires the position information of the vehicle from the position detection device 6 (step ST108).
  • the second feature amount extraction unit 18 extracts feature amounts related to the driving environment based on the driving information output by the second information acquisition unit 17 (step ST109). Specifically, based on the identification information output by the second information acquisition section 17, the travel history of the driver is acquired from the travel history storage section 9 in which the travel history is stored. After that, based on the driving history of the driver, the second feature amount extracting unit 18 determines that the point specified by the position information output by the second information acquiring unit 17 is included in the driving route information of the driving history of the driver. It calculates the number of times that it is detected, and extracts it as a feature value related to the driving environment. Since this is the first road for the driver to travel on, the second feature quantity extraction unit 18 outputs the number of times of travel "0".
  • the difficulty level calculation unit 19 calculates the difficulty level corresponding to the number of runs output by the second feature amount extraction unit 18 according to the definition (step ST110).
  • the difficulty level calculation unit 19 calculates and outputs the difficulty level "1" corresponding to the number of times of running "0" according to the definition shown in FIG.
  • the response level adjustment unit 20 calculates an adjustment value corresponding to the difficulty level calculated by the difficulty level calculation unit 19 according to the definition. Then, response degree adjustment section 20 outputs a signal instructing the adjustment of the response degree based on the calculated adjustment value to response degree calculation section 15 .
  • the degree-of-response calculator 15 then adjusts the degree of response in accordance with the instruction signal output by the degree-of-response adjuster 20 (step ST111).
  • the response level adjustment unit 20 calculates the adjustment value "20" corresponding to the difficulty level "1" according to the definition shown in FIG.
  • the responsiveness adjusting section 20 outputs to the responsiveness calculating section 15 a signal instructing to add the adjustment value “20” to the responsiveness calculated by the responsiveness calculating section 15 .
  • the response degree calculator 15 adds the adjustment value “20” to the calculated response degree “40”, and calculates “60” as the response degree after adjustment.
  • the response degree adjustment unit 20 makes it easier for the voice recognition device 1 to respond to an utterance for confirming the travel route at a point where it is difficult for the driver to determine the travel route.
  • the response generating section 21 determines whether the degree of response calculated by the degree-of-response calculating section 15 or the degree of response adjusted by the degree-of-response adjusting section 20 is greater than or equal to a predetermined threshold (step ST112). . If the degree of response calculated by the degree-of-response calculator 15 or the degree of response adjusted by the degree-of-response adjuster 20 is greater than or equal to a predetermined threshold value (“YES” in step ST112), the response generator 21 assumes that the driver's utterance is addressed to the speech recognition device 1, generates a response to the recognition result, and outputs it to the output device (step ST113).
  • step ST112 when the degree of response calculated by the degree-of-response calculator 15 or the degree of response adjusted by the degree-of-response adjuster 20 is less than the predetermined threshold value ("NO" in step ST112), the driver is not directed to the speech recognition apparatus 1, and the processing ends without outputting a response to the recognition result to the output device.
  • the response generation unit 21 assumes that the driver has spoken to the speech recognition device 1, and the recognition result is A response to the contained identifier indicating "confirm right turn” is generated and output to an output device. For example, the response generation unit 21 generates, as a response, an instruction signal to the effect that the display device 7 or the speaker 8 or the like outputs the point at which the vehicle should turn right. Then, according to the signal, the response generator 21 cooperates with the display device 7 or the speaker 8 to output the point at which the vehicle should turn right.
  • the speech recognition device 1 recognizes that there is a high possibility that the driver will speak to the speech recognition device 1 to obtain information about the traveling route. It becomes easy to respond to the utterance of
  • step ST101 to step ST108 The processing from step ST101 to step ST108 is the same as described above, so the description is omitted.
  • the second feature amount extracting unit 18 determines whether the point specified by the position information output by the second information acquiring unit 17 is included in the driving route information of the driving history of the driver. The number of times "10" is calculated and extracted as a feature amount (step ST109).
  • the difficulty level calculation unit 19 calculates and outputs the difficulty level "0" corresponding to the number of runs "10" output by the second feature amount extraction unit 18 (step ST110).
  • the response degree adjustment unit 20 calculates the adjustment value "0" corresponding to the difficulty level "0" according to the definition shown in FIG. Then, the responsiveness adjusting section 20 outputs to the responsiveness calculating section 15 a signal instructing to add the adjustment value “0” to the responsiveness calculated by the responsiveness calculating section 15 . After that, the response degree calculation unit 15 adds the adjustment value “0” to the response degree “40”, and calculates “40” as the response degree after adjustment. (Step ST111). This is because, at a point where it is not difficult for the driver to determine the travel route, there is a high possibility that an utterance to confirm the travel route uttered by the driver, such as a soliloquy, is not an utterance to the speech recognition device 1. be.
  • the response generation unit 21 assumes that the driver is not speaking to the speech recognition device 1. , the processing ends without outputting to the output device a response to the identifier indicating "confirmation of right turn” included in the recognition result (in the case of "NO" in step ST112).
  • the speech recognition apparatus 1 includes the speech acquisition unit 11, the speech recognition unit 12, the first information acquisition unit 13, the first feature amount extraction unit 14, the response degree calculation unit 15, the recognition result A determination unit 16 , a second information acquisition unit 17 , a second feature amount extraction unit 18 , a difficulty level calculation unit 19 , a response degree adjustment unit 20 and a response generation unit 21 are provided.
  • the speech recognition unit 12 recognizes the speech information acquired by the speech acquisition unit 11 and outputs a recognition result regardless of the presence or absence of an operation to start speech recognition.
  • the first information acquisition unit 13 acquires voice information or action information of the driver.
  • the first feature amount extraction unit 14 extracts a feature amount related to speech or a feature amount related to dialogue behavior based on the voice information or action information of the driver.
  • the degree-of-response calculation unit 15 calculates a degree of response, which is a degree indicating whether or not to respond to the recognition result based on the feature amount related to speech or the feature amount related to dialogue behavior.
  • the recognition result determination unit 16 determines whether or not the recognition result is confirmation of the traveling route, and outputs the determination result.
  • the second information acquisition unit 17 acquires travel information when the determination result indicates confirmation of the traveling route.
  • a second feature amount extraction unit 18 extracts a feature amount related to the driving environment based on the driving information.
  • the difficulty level calculation unit 19 calculates a difficulty level, which is a degree of difficulty for the driver to determine the traveling route, based on the feature amount related to the driving environment.
  • the responsiveness adjustment unit 20 adjusts the responsiveness so that the responsiveness is higher when the difficulty is high than when the difficulty is low.
  • the response generation unit 21 generates a response to the recognition result and outputs it to the output device when the adjusted degree of response is equal to or greater than a predetermined threshold, and the adjusted degree of response is less than the predetermined threshold. response to the recognition result is not output to the output device.
  • the speech recognition device 1 allows the driver to obtain information from the speech recognition device 1 when it is difficult for the driver to determine the travel route. Since it becomes easier to respond to utterances confirming the travel route, if the driver wishes to respond, the response can be obtained without performing an operation to start voice recognition, and if the driver does not wish to respond, the response will be output. By not doing so, annoyance can be suppressed, and the response accuracy to the driver's speech can be improved.
  • the second information acquisition unit 17 of Embodiment 1 acquires the identification information of the driver from the identification device that identifies the occupant, and acquires the position information of the vehicle from the position detection device 6 .
  • the second feature amount extraction unit 18 acquires the travel history corresponding to the identification information of the driver from the travel history storage unit 9 in which the travel history is stored, and the vehicle location information is specified based on the driver's travel history. Extract the number of times the driver has traveled the point.
  • the difficulty level calculation unit 19 calculates the difficulty level so that the difficulty level increases when the number of runs is small compared to when the number of runs is large.
  • the speech recognition device 1 can recognize the driver's voice when the driver utters an utterance to confirm the traveling route in a situation where it is difficult to determine the traveling route because the driver is not accustomed to traveling. Since it becomes easier to respond to utterances, when the driver wishes to respond, a response can be obtained without performing an operation to start voice recognition, and when the driver does not wish to respond, the response is not output. Annoyance can be suppressed, and the accuracy of response to the driver's speech can be improved.
  • FIG. 6 is a diagram showing a configuration example of the speech recognition device 1a according to the second embodiment.
  • a speech recognition device 1a according to the second embodiment has a configuration in which a confirmation behavior extraction unit 22 is added to the speech recognition device 1 of the first embodiment shown in FIG.
  • FIG. 6 parts identical or corresponding to those in FIG.
  • the speech recognition apparatus 1a recognizes an action for confirming the traveling route (hereinafter referred to as (referred to as "confirmation behavior") is extracted based on the line-of-sight direction or the posture of the driver.
  • the voice recognition device 1a makes it easier to respond to the driver's speech when the cumulative time of the confirmation action is longer than when the cumulative time of the confirmation action is short.
  • the speech recognition device 1a calculates the accumulated time during which the driver leans forward in a predetermined period before the driver speaks.
  • the state in which the driver is leaning forward is an example of an action for confirming the travel route, that is, an example of a confirmation action.
  • the voice recognition device 1a is more likely to respond to the driver's utterances when the accumulated time of the driver leaning forward is longer than when the accumulated time is short.
  • the speech recognition device 1a recognizes the speech of the driver as speech to the speech recognition device 1a, and outputs an instruction signal to the display device or the speaker indicating whether or not the vehicle should turn right. becomes easier. This is because when the driver takes a long time to perform the confirmation action, there is a high possibility that the driver is at a loss as to which route to take.
  • the second embodiment uses the cumulative time of checking behavior as the feature quantity relating to the driving environment.
  • the confirmation action extracting unit 22 extracts the confirmation action of the driver confirming the traveling route based on the information about the driver's line of sight direction or the posture obtained from the state detection device 4 .
  • the confirmation action is, for example, the action of the driver leaning forward or the action of directing the line of sight in the direction in which the driver wants to proceed.
  • the confirmation action extraction unit 22 stores the start time and end time of the confirmation action as information on the confirmation action. It should be noted that the extraction of the confirmation action and the storage of the information on the confirmation action by the confirmation action extraction unit 22 are always repeated from the time the key is turned on until the key is turned off.
  • the confirmation behavior extraction unit 22 acquires information about the line-of-sight direction of the driver from the state detection device 4 .
  • the information about the line-of-sight direction and the like is the angle formed between the line-of-sight direction and the like when the driver looks at the front of the vehicle and the line-of-sight direction and the like viewed by the driver.
  • the state detection device 4 uses a well-known technique to calculate the angle between the line-of-sight direction when the driver looks at the front of the vehicle and the line-of-sight direction the driver is looking at. The description is omitted because it is sufficient.
  • the confirmation behavior extracting unit 22 determines in advance the angle formed between the line-of-sight direction or the like when the driver looks at the front of the vehicle and the line-of-sight direction the driver looks at, which is obtained from the state detection device 4. When the angle is equal to or greater than the predetermined angle, it is determined that the confirmation action has started, and the start time is stored. On the other hand, the confirming behavior extracting unit 22 determines that the angle between the line of sight when the driver looks at the front of the vehicle after the confirmation behavior is started and the line of sight when the driver is looking at the angle is When the angle is less than the predetermined angle, it is determined that the confirmation action has ended, and the end time is stored.
  • the confirmation behavior extraction unit 22 acquires information about the posture of the driver from the state detection device 4 .
  • the information about posture is an angle indicating the tilt in the front-back direction from the reference posture.
  • the reference posture is, for example, a posture when the position of the driver's face is within a preset area. Note that the definition of the reference posture is not limited to this.
  • the method for calculating the angle indicating the tilt in the front-rear direction from the reference posture by the state detection device 4 may be a well-known technique, and therefore the description thereof is omitted.
  • the confirmation action extraction unit 22 determines that the confirmation action has started and stores the start time. On the other hand, if the angle indicating the forward inclination from the reference posture becomes smaller than the predetermined angle after the confirmation action is started, the confirmation action extraction unit 22 determines that the confirmation action has ended, and determines that the confirmation action has ended. Memorize the time.
  • the second information acquisition unit 17a obtains from the confirmation behavior extraction unit 22 information about the confirmation behavior for a predetermined period. to get The predetermined period is 10 seconds before the second information acquisition unit 17a acquires the determination result output by the recognition result determination unit 16.
  • the predetermined period is 10 seconds before the second information acquisition unit 17a acquires the determination result output by the recognition result determination unit 16.
  • 10 seconds is an example and is not limited to this.
  • the second feature quantity extraction unit 18a calculates the accumulated time of confirmation behavior based on the information about confirmation behavior acquired by the second information acquisition unit 17a, and extracts it as a feature quantity related to the driving environment. Specifically, the second feature amount extraction unit 18a calculates the difference between the start time and the end time of the confirmation behavior acquired by the second information acquisition unit 17a. In addition, when the confirmation action is performed multiple times, the second feature amount extraction unit 18a calculates the difference between the start time and the end time of each confirmation action, and adds each calculation result to calculate the accumulated time. Just calculate.
  • the difficulty level calculation unit 19a sets the difficulty level so that the difficulty level increases when the cumulative time of the confirmation action output by the second feature amount extraction unit 18a is longer than when the cumulative time of the confirmation action output by the second feature amount extraction unit 18a is short. calculate. This is because when the driver takes a long time to perform the confirmation action, there is a high possibility that the driver is at a loss as to which route to take.
  • the difficulty level calculation unit 19a defines the difficulty level so that the difficulty level increases when the cumulative time of the confirmation action is long compared to when the cumulative time of the confirmation action is short. This is stored, for example, in a table format in a memory (not shown). The difficulty level calculation unit 19a calculates the difficulty level corresponding to the cumulative time of the confirmation action output by the second feature amount extraction unit 18a according to the definition.
  • FIG. 7 is a diagram showing an example of difficulty levels associated with the cumulative time of confirmation actions. For example, when the cumulative time of confirmation actions is 3 seconds or longer, "1" is defined to indicate a "high” difficulty level. On the other hand, when the cumulative time of confirmation actions is from 0 seconds to less than 3 seconds, "0" indicating a "low” difficulty level is defined. Note that the definition shown in FIG. 7 is merely an example. FIG. 7 shows an example of two levels of difficulty, "0 (low)" and “1 (high)", but may be three or more levels. Also, the difficulty level for the cumulative time of the confirmation action may be defined according to the type of confirmation action.
  • FIG. 8 is a flow chart for explaining the operation of the speech recognition device 1a according to the second embodiment.
  • the processing in FIG. 8 is always repeated from when the key is turned on until when the key is turned off.
  • step ST201 to step ST207 and the processing from step ST211 to step ST213 in the flowchart of FIG. 8 are the same as the processing from step ST101 to step ST107 and the processing from step ST111 to step ST113 in the flowchart of FIG. omitted.
  • the second information acquisition unit 17a extracts the confirmation action extraction unit 22 (step ST208).
  • the second feature quantity extraction unit 18a calculates the accumulated time of recognition behavior based on the information about confirmation behavior acquired by the second information acquisition unit 17a, and extracts it as a feature quantity related to the driving environment (step ST209).
  • the difficulty level calculation unit 19a calculates the difficulty level corresponding to the accumulated time of the confirmation action output by the second feature amount extraction unit 18a according to the definition (step ST210).
  • the driver utters "I should turn right here.” It is also assumed that speech recognition by the speech recognition unit 12 has succeeded. In addition, it is assumed that the cumulative time of confirmation actions for 10 seconds before the driver speaks is 4 seconds. Further, it is assumed that the response degree calculation unit 15 calculates the response degree based on the speech volume according to the definition in FIG. It is also assumed that the difficulty level calculation unit 19a defines a difficulty level corresponding to the cumulative time of confirmation actions as shown in FIG. Further, it is assumed that the response level adjustment unit 20 defines adjustment values for the difficulty level as shown in FIG. It is also assumed that the predetermined threshold used by the response generator 21 to determine whether or not to output the response to the recognition result to the output device is "50".
  • the voice recognition unit 12 recognizes the voice information acquired by the voice acquisition unit 11, and outputs a recognition result including information indicating recognition success and an identifier indicating "right turn confirmation". Also, the first feature quantity extraction unit 14 extracts the speech volume "50". Further, the response degree calculation section 15 calculates and outputs the response degree "40" corresponding to the speech volume "50" (steps ST201 to ST206). Since the identifier included in the recognition result is an identifier indicating confirmation of the travel route, the operation of the speech recognition apparatus 1a proceeds to step ST208 (in the case of "YES" in step ST207).
  • the second feature amount extraction unit 18a calculates and outputs the cumulative time "4" of the confirmation behavior based on the information regarding the confirmation behavior acquired by the second information acquisition unit. Then, according to the definition shown in FIG. 7, the difficulty level calculation section 19a calculates and outputs the difficulty level "1" corresponding to the cumulative time "4" of the confirmation action (steps ST208 to ST210).
  • the response degree adjustment unit 20 calculates the adjustment value “20” corresponding to the difficulty level "1" according to the definition in FIG. Then, the responsiveness adjusting section 20 outputs to the responsiveness calculating section 15 a signal instructing to add the adjustment value “20” to the responsiveness calculated by the responsiveness calculating section 15 . After that, the response degree calculator 15 adds the adjustment value “20” to the calculated response degree “40” to calculate “60” as the adjusted response degree (step ST211).
  • the response generating unit 21 determines that the driver cannot perform voice recognition. Assuming that the device 1a is uttered, a response to the identifier indicating "confirm right turn" included in the recognition result is generated and output to the output device (step ST213). For example, the response generation unit 21 generates, as a response, an instruction signal to the effect that the display device 7 or the speaker 8 or the like outputs the point at which the vehicle should turn right. Then, according to the signal, the response generator 21 cooperates with the display device 7 or the speaker 8 to output to the driver the point at which the vehicle should turn right.
  • the speech recognition device 1a responds to the driver's utterance, assuming that the driver is unsure of the route to travel, and that there is a high possibility that the driver will speak to the speech recognition device 1a to obtain information about the route. becomes easier.
  • step ST201 The processing from step ST201 to step ST208 is the same as described above, so the description is omitted.
  • the second feature amount extraction unit 18a extracts the cumulative time of confirmation behavior based on the information on the confirmation behavior acquired by the second information acquisition unit 17a, and outputs the cumulative time "2" (step ST209). Then, according to the definition shown in FIG. 7, the difficulty level calculation unit 19a calculates and outputs the difficulty level "0" corresponding to the cumulative time "2" of the confirmation action (step ST210).
  • the response level adjusting section 20 calculates the adjustment value "0" corresponding to the difficulty level "0" according to the definition of FIG. Then, the responsiveness adjusting section 20 outputs to the responsiveness calculating section 15 a signal instructing to add the adjustment value “0” to the responsiveness calculated by the responsiveness calculating section 15 . After that, the response degree calculation unit 15 adds the adjustment value “0” to the response degree “40”, and calculates “40” as the response degree after adjustment (step ST211).
  • the response generation unit 21 assumes that the driver is not speaking to the speech recognition device 1a. , the processing ends without outputting a response to the identifier indicating "confirmation of right turn” included in the recognition result to the output device ("NO" in step ST212). This is because there is a low possibility that the driver will hesitate to determine the course of travel, and the utterances made by the driver to confirm the course of travel are not utterances to the speech recognition device 1a, such as monologues. This is because the possibility is high.
  • the speech recognition device 1a includes the confirmation action extraction unit 22.
  • the confirmation behavior extracting unit 22 performs a confirmation behavior for confirming the traveling route based on the information regarding the driver's line-of-sight direction or face direction or posture acquired from the state detection device 4 that detects the line-of-sight direction or posture of the passenger. It extracts and stores information about confirmation behavior.
  • the second information acquisition unit 17a acquires from the confirmation behavior extraction unit 22 information about confirmation behavior corresponding to a predetermined period.
  • the second feature amount extraction unit 18a extracts the accumulated time of confirmation behavior based on the information regarding the confirmation behavior acquired by the second information acquisition unit 17a.
  • the difficulty level calculation unit 19a calculates the difficulty level so that the difficulty level increases when the cumulative time of the confirmation action is long compared to when the cumulative time of the confirmation action is short.
  • the speech recognition device 1a can detect that the driver confirms the traveling route if it takes a long time to confirm the traveling route, such as by leaning forward before making an utterance to confirm the traveling route. Since it is likely that the driver is hesitant about the judgment of the driver, it becomes easier to respond to the driver's utterance. By not outputting a response when the driver does not desire a response, annoyance can be suppressed, and the accuracy of response to the driver's utterance can be improved.
  • FIG. 9 is a diagram showing a configuration example of a speech recognition device 1b according to the third embodiment.
  • parts identical or corresponding to those in FIG. 9 are identical or corresponding to those in FIG.
  • the speech recognition device 1b recognizes the driver's utterance intended to confirm the travel route when the link cost of the road including the point where the driver uttered is large compared to when the link cost of the road is small. to make it easier to respond to
  • the voice recognition device 1b responds to the driver's utterance intended to confirm the traveling route. It makes it easier to respond to This is because narrow streets and the like have poor visibility and it is considered difficult to determine the course of travel. In addition, on roads with heavy traffic, there are many other vehicles in the vicinity of the own vehicle, so it is considered that the visibility is poor and it is difficult to determine the traveling route.
  • the third embodiment uses the link cost as a feature quantity relating to the running environment.
  • the second information acquisition unit 17b acquires the vehicle position information output by the position detection device 6 when the determination result output by the recognition result determination unit 16 indicates confirmation of the travel route.
  • the map information storage unit 10 stores map information used by the car navigation device.
  • the map information storage unit 10 may be included in a car navigation device (not shown) or may be included in a server device on a network. This embodiment will be described as being included in a navigation device.
  • the map information includes the link cost that the car navigation device uses when searching for a route to the destination.
  • the link cost is calculated from the road length, road type, number of lanes, road width, curve curvature, slope, etc., using a predetermined formula.
  • the link cost is the link cost used by the car navigation device to search for a route that is easy to drive.
  • the link cost is set so that the link cost of a narrow road is higher than the link cost of a wide road.
  • the link cost for roads with heavy traffic may be set higher than the link cost for roads with low traffic.
  • Multiple types of link costs may be set for one link. Since the types of link costs and the formulas for calculating link costs are well-known techniques, description thereof will be omitted.
  • the second feature quantity extraction unit 18b acquires the vehicle position information output by the second information acquisition unit 17b. Then, the second feature amount extraction unit 18b acquires the link cost of the road including the point specified by the vehicle position information from the map information storage unit 10, and extracts it as a feature amount related to the driving environment. In addition, the 2nd feature-value extraction part 18b shall acquire a link cost via a navigation apparatus.
  • the difficulty level calculation unit 19b calculates the difficulty level so that the difficulty level increases when the link cost output by the second feature amount extraction unit 18b is high compared to when the link cost is low. This is because narrow streets and the like have poor visibility and it is considered difficult to determine the course of travel. In addition, on roads with heavy traffic, there are many other vehicles in the vicinity of the own vehicle, so it is considered that the visibility is poor and it is difficult to determine the traveling route.
  • the difficulty level calculation unit 19b defines the difficulty level so that the difficulty level increases when the link cost is high compared to when the link cost is low. This is stored, for example, in a table format in a memory (not shown). The difficulty level calculation unit 19b calculates the difficulty level corresponding to the link cost output by the second feature quantity extraction unit 18b according to the definition.
  • FIG. 10 is a diagram showing an example of difficulty levels associated with link costs. For example, when the link cost ranges from “0" to “50”, "0" is defined to indicate a “low” difficulty level. On the other hand, when the link cost is from “51” to "100”, “1” is defined to indicate a "high” degree of difficulty. Note that the definition shown in FIG. 10 is merely an example. FIG. 10 shows an example of two levels of difficulty, “0 (low)” and “1 (high)", but may be three or more levels.
  • FIG. 11 is a flow chart for explaining the operation of the speech recognition device 1b according to the third embodiment.
  • the processing in FIG. 11 is always repeated from key-on to key-off.
  • step ST301 to step ST307 and the processing from step ST311 to step ST313 in the flowchart of FIG. 10 are the same as the processing from step ST101 to step ST107 and the processing from step ST111 to step ST113 in the flowchart of FIG. omitted.
  • the second information acquisition unit 17b causes the position detection device 6 to The output vehicle position information is acquired (step ST308).
  • the second feature quantity extraction unit 18b acquires from the map information storage unit 10 the link cost of the road including the point specified by the vehicle position information, and extracts it as a feature quantity related to the driving environment (step ST309).
  • the difficulty level calculation unit 19b calculates the difficulty level corresponding to the link cost output by the second feature quantity extraction unit 18b according to the definition (step ST310).
  • the driver utters "I should turn right here.” It is also assumed that speech recognition by the speech recognition unit 12 has succeeded. It is also assumed that the link cost is set based on the width of the road, and that the link cost of the road including the point where the driver spoke is "60". Further, it is assumed that the response degree calculation unit 15 calculates the response degree based on the speech volume according to the definition in FIG. It is also assumed that the difficulty level calculation unit 19b defines the difficulty level for the link cost as shown in FIG. Further, it is assumed that the response level adjustment unit 20 defines adjustment values for the difficulty level as shown in FIG. It is also assumed that the predetermined threshold used by the response generator 21 to determine whether or not to output the response to the recognition result to the output device is "50".
  • the voice recognition unit 12 recognizes the voice information acquired by the voice acquisition unit 11, and outputs a recognition result including information indicating recognition success and an identifier indicating "right turn confirmation". Also, the first feature quantity extraction unit 14 extracts the speech volume "50". Further, the response degree calculation section 15 calculates and outputs the response degree "40" corresponding to the speech volume "50" (steps ST301 to ST306). Then, since the identifier included in the recognition result is an identifier indicating confirmation of the traveling route, the operation of the speech recognition apparatus 1b proceeds to step ST308 (in the case of "YES" in step ST307).
  • the second information acquisition unit 17b acquires the vehicle position information output by the position detection device 6 (step ST308). Then, the second feature amount extraction unit 18b acquires the link cost of the road including the point specified by the vehicle position information from the map information storage unit 10, and extracts it as a feature amount related to the driving environment (step ST309). Here, the second feature amount extraction unit 18b extracts and outputs the link cost "60". Then, the difficulty level calculation unit 19b calculates and outputs the difficulty level "1" corresponding to the link cost "60" according to the definition shown in FIG. 10 (step ST310).
  • the response degree adjustment unit 20 calculates the adjustment value “20” corresponding to the difficulty level "1" according to the definition in FIG. Then, the responsiveness adjusting section 20 outputs to the responsiveness calculating section 15 a signal instructing to add the adjustment value “20” to the responsiveness calculated by the responsiveness calculating section 15 . After that, the response degree calculation unit 15 adds the adjustment value “20” to the response degree “40” to calculate “60” as the response degree after adjustment (step ST311).
  • the response generation unit 21 determines that the driver is not performing voice recognition. Assuming that the device 1b is uttered, a response to the identifier indicating "confirm right turn" included in the recognition result is generated and output to the output device (step ST313). For example, the response generation unit 21 generates, as a response, an instruction signal to the effect that the display device 7 or the speaker 8 or the like outputs the point at which the vehicle should turn right. Then, according to the signal, the response generator 21 cooperates with the display device 7 or the speaker 8 to output to the driver the point at which the vehicle should turn right.
  • the voice The recognition device 1b assumes that it is difficult for the driver to determine the travel route, and that there is a high possibility that the driver will speak to the voice recognition device 1b to obtain information about the travel route, so that it is easy to respond to the driver's speech. Become.
  • step ST301 The processing from step ST301 to step ST308 is the same as described above, so the description is omitted.
  • the second feature quantity extraction unit 18b acquires the link cost "30" from the map information storage unit 10 (step ST309). Then, the difficulty level calculation unit 19b calculates and outputs the difficulty level "0" corresponding to the link cost "30" according to the definition shown in FIG. 10 (step ST310).
  • the response level adjusting section 20 calculates the adjustment value "0" corresponding to the difficulty level "0" according to the definition in FIG. Then, the responsiveness adjusting section 20 outputs to the responsiveness calculating section 15 a signal instructing to add the adjustment value “0” to the responsiveness calculated by the responsiveness calculating section 15 . After that, the response degree calculation unit 15 adds the adjustment value “0” to the response degree “40”, and calculates “40” as the response degree after adjustment (step ST311).
  • the response generation unit 21 determines that the driver is not speaking to the speech recognition device 1b, and includes it in the recognition result. The process ends without outputting a response to the identifier indicating "right turn confirmation" to the output device (in the case of "NO" in step ST312). This is a point where it is not difficult for the driver to determine the travel route, and it is highly likely that the driver's utterance to confirm the travel route, such as talking to himself, is not an utterance to the speech recognition device 1b. Because.
  • the second information acquisition unit 17b acquires the position information of the vehicle from the position detection device 6.
  • the second feature quantity extraction unit 18b extracts the link cost of the road including the point specified by the position information of the vehicle from the map information storage unit 10 in which the map information is stored.
  • the difficulty level calculation unit 19b calculates the difficulty level so that the difficulty level increases when the link cost is high compared to when the link cost is low.
  • the speech recognition device 1b can be used in situations where it is difficult for the driver to determine the route to travel, such as a road with poor visibility due to a narrow road width or a road with poor visibility due to heavy traffic.
  • the driver makes an utterance to confirm the route, it becomes easier to respond to the utterance of the driver.
  • annoyance can be suppressed, and the accuracy of response to the driver's utterance can be improved.
  • FIG. 12A and 12B are diagrams showing examples of hardware configurations of speech recognition apparatuses 1, 1a, and 1b according to Embodiments 1 to 3.
  • FIG. The speech recognition device 1 according to the first embodiment, the speech recognition device 1a according to the second embodiment, and the speech recognition device 1b according to the third embodiment have the same hardware configuration.
  • the voice acquisition unit 11, the voice recognition unit 12, the first information acquisition unit 13, the first feature amount extraction unit 14, the response degree calculation unit 15, and the recognition result determination unit A unit 16, second information acquisition units 17, 17a, 17b, second feature amount extraction units 18, 18a, 18b, difficulty level calculation units 19, 19a, 19b, a response degree adjustment unit 20, and a response generation unit.
  • the speech recognition devices 1, 1a, and 1b determine whether or not to respond to the driver's utterance intended to confirm the travel route, and perform control to generate a response when it is determined to respond.
  • a processing circuit 31 is provided for.
  • the processing circuit 31 may be dedicated hardware as shown in FIG. 12A, or may be a CPU (Central Processing Unit) 34 that executes a program stored in a memory 35 as shown in FIG. 12B.
  • CPU Central Processing Unit
  • the processing circuit 31 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (Application Specific Integrated Circuit), an FPGA (Field-Programmable Gate Array), or a combination thereof.
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • the speech acquisition unit 11 When the processing circuit 31 is the CPU 34, the speech acquisition unit 11, the speech recognition unit 12, the first information acquisition unit 13, the first feature amount extraction unit 14, the response degree calculation unit 15, and the recognition result determination unit 16. , second information acquisition units 17, 17a, 17b; second feature quantity extraction units 18, 18a, 18b; difficulty level calculation units 19, 19a, 19b; response degree adjustment unit 20;
  • the function of the confirmation behavior extraction unit 22 is implemented by software, firmware, or a combination of software and firmware.
  • LSI Large-Scale Integration
  • the programs stored in the memory 35 or the like include the speech acquisition unit 11, the speech recognition unit 12, the first information acquisition unit 13, the first feature amount extraction unit 14, the response degree calculation unit 15, the recognition result Determination unit 16, second information acquisition units 17, 17a, 17b, second feature quantity extraction units 18, 18a, 18b, difficulty level calculation units 19, 19a, 19b, response degree adjustment unit 20, and response generation
  • the procedure and method of the unit 21 and the confirmation behavior extraction unit 22 are executed by a computer.
  • the memory 35 is a non-volatile or volatile memory such as RAM, ROM (Read Only Memory), flash memory, EPROM (Erasable Programmable Read Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory).
  • a semiconductor memory, a magnetic disk, a flexible disk, an optical disk, a compact disk, a mini disk, a DVD (Digital Versatile Disc), etc. correspond to this.
  • the microphone 2 is an array microphone and one array microphone is installed in the vehicle, but this is only an example.
  • the microphone 2 may be, for example, a directional microphone that is installed in front of the driver's seat and is installed at a position where the voice uttered by the driver can be collected.
  • the speech recognition unit 12 is provided in the speech recognition devices 1, 1a, and 1b. may be provided in a server device (not shown).
  • the speech recognition devices 1, 1a, and 1b transmit the speech information output by the speech acquisition unit 11 to the server device via the network, and the speech recognition device 12 outputs the speech information from the server device via the network.
  • the recognition result may be received.
  • the speech recognition device can be applied to devices that perform speech recognition processing on speech regardless of whether or not there is an operation to start speech recognition.
  • 1 speech recognition device 2 microphone, 3 imaging device, 4 state detection device, 5 identification device, 6 position detection device, 7 display device, 8 speaker, 9 driving history storage unit, 10 map information storage unit, 11 voice acquisition unit, 12 speech recognition unit 13 first information acquisition unit 14 first feature amount extraction unit 15 response degree calculation unit 16 recognition result determination unit 17 second information acquisition unit 18 second feature amount extraction unit 19 difficulty degree calculation unit, 20 response degree adjustment unit, 21 response generation unit, 22 confirmation behavior extraction unit, 31 processing circuit, 32 input interface device, 33 output interface device, 34 CPU, 35 memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

音声認識装置(1)は、音声認識を開始する操作の有無に拘わらず音声情報を認識して認識結果を出力する音声認識部(12)と、運転者の発話に関する特徴量又は対話行動に関する特徴量に基づいて認識結果に対して応答すべきか否かを示す度合いである応答度合いを算出する応答度合い算出部(15)と、認識結果が進行経路の確認である場合に走行環境に関する特徴量に基づいて運転者が進行経路を判断する困難さを示す度合いである難易度を算出する難易度算出部(19)と、難易度が低い場合に比して難易度が高い場合の応答度合いが高くなるように応答度合いを調整する応答度合い調整部(20)と、調整された応答度合いが予め定められた閾値以上である場合に認識結果に対する応答を生成して出力装置へ出力するとともに調整された応答度合いが予め定められた閾値未満である場合に認識結果に対する応答を出力装置へ出力しない応答生成部(21)とを備える。

Description

音声認識装置及び音声認識方法
 本開示は、自動車等で用いられる音声認識装置及び音声認識方法に関するものである。
 従来、音声認識装置は、音声認識装置以外に向けられた発話者による発話に対して、誤って応答することを防止するために、発話者が発話する前に、発話者に対して音声認識を開始するための操作を要求する。しかし、発話者は、発話の度に音声認識を開始するための操作を行う必要があるので煩わしさを感じる。そこで、例えば特許文献1では、電子デバイスにおいて仮想アシスタントを動作させる方法であって、ユーザ発話入力に関連する文脈情報に基づいて、ユーザ発話入力に対する応答を提供すべきである尤度スコアを計算し、その尤度スコアが予め定められた閾値以上である場合に、ユーザ発話入力に応答する方法が公開されている。
 (下記特許文献1)。
特開2018-136568
 特許文献1に記載された方法は、車両の走行状況を考慮して尤度スコアを計算していないため、ユーザが車内で音声操作を行う場合に応答精度が低下するという問題がある。
 本開示は、上記のような課題を解決するためになされたもので、車内で音声操作を行う場合に、運転者が音声認識を開始する操作を行うことを不要とするとともに、運転者が希望するときに応答を出力し、希望しないときは応答を出力しないことにより運転者の発話に対する応答精度を向上させることを目的とする。
 本開示に係る音声対話装置は、音声認識を開始する操作の有無に拘わらず音声取得部により取得された音声情報を認識して認識結果を出力する音声認識部と、運転者の音声情報又は行動情報を取得する第1情報取得部と、運転者の音声情報又は行動情報に基づいて発話に関する特徴量又は対話行動に関する特徴量を抽出する第1特徴量抽出部と、発話に関する特徴量又は対話行動に関する特徴量に基づいて認識結果に対して応答すべきか否かを示す度合いである応答度合いを算出する応答度合い算出部と、認識結果が進行経路の確認であるか否かを判定して判定結果を出力する認識結果判定部と、判定結果が進行経路の確認であることを示す場合に走行情報を取得する第2情報取得部と、走行情報に基づいて走行環境に関する特徴量を抽出する第2特徴量抽出部と、走行環境に関する特徴量に基づいて運転者が進行経路を判断する困難さを示す度合いである難易度を算出する難易度算出部と、難易度が低い場合に比して難易度が高い場合の応答度合いが高くなるように応答度合いを調整する応答度合い調整部と、調整された応答度合いが予め定められた閾値以上である場合に認識結果に対する応答を生成して出力装置へ出力するとともに調整された応答度合いが予め定められた閾値未満である場合に認識結果に対する応答を出力装置へ出力しない応答生成部とを備えるものである。
 本開示によれば、音声認識装置は、運転者にとって進行経路を判断することが困難な状況である場合に、運転者が音声認識装置から情報を得るために、音声認識装置に対して行った発話に応答し易くなるため、運転者が応答を希望するときは音声認識を開始する操作を行うことなく応答が得られるとともに、運転者が応答を希望しないときは応答を出力しないことにより煩わしさを抑制することとなり、運転者の発話に対する応答精度を向上させることができる。
実施の形態1に係る音声認識装置の構成例を示す図である。 実施の形態1の応答度合い算出部が定義している発話音量に対応する応答度合いの一例を示す図である。 実施の形態1の難易度算出部が定義している走行回数に対応する難易度の一例を示す図である。 実施の形態1の応答度合い調整部が定義している難易度に対応する応答度合いの調整値の一例を示す図である。 実施の形態1に係る音声認識装置の動作を説明するためのフローチャートである。 実施の形態2に係る音声認識装置の構成例を示す図である。 実施の形態2の難易度算出部が定義している確認行動の累積時間に対応する難易度の一例を示す図である 実施の形態2に係る音声認識装置の動作を説明するためのフローチャートである。 実施の形態3に係る音声認識装置の構成例を示す図である。 実施の形態3の難易度算出部が定義しているリンクコストに対応する難易度の一例を示す図である 実施の形態3に係る音声認識装置の動作を説明するためのフローチャートである。 各実施の形態に係る音声認識装置のハードウェア構成例を示す図である
 以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。
実施の形態1.
 図1は、実施の形態1に係る音声認識装置1の構成例を示す図である。音声認識装置1は、運転者による音声認識を開始する操作の有無に拘わらず音声を認識する。音声認識を開始する操作は、例えば、ハンドルに設置された物理的なボタンの押下、ディスプレイに表示されたボタンの押下、予め定められたキーワードの発話等である。
 音声認識装置1は、運転者にとって、例えば右折すべき交差点等の進行経路の判断が困難ではない場合に比して、進行経路の判断が困難である場合に、進行経路の確認を意図した運転者の発話に対して応答し易くするものである。これは、運転者が進行経路を判断することが困難である場合、運転者は音声認識装置1から情報を得るために進行経路を確認する発話を行う可能性が高いためである。
 具体的には、運転者が発話したときに車両が走行している地点を、運転者が過去に走行した回数が多い場合に比して、運転者が過去に走行した回数が少ない場合に、進行経路の確認を意図した運転者の発話に対して応答し易くするものである。これは、運転者にとって走行回数が少ない地点は走行に慣れていないため、進行経路の判断が困難だからである。
 例えば、運転者が進行経路の確認のために「ここを右折かな」と発話した場合、音声認識装置1は、発話した地点を運転者が過去に何度も走行したことがある場合に比して、その地点を初めて走行する場合の方が、運転者の発話に対して応答し易くなる。具体的には、音声認識装置1は、運転者の発話を音声認識装置1に対する発話として認識し、表示装置あるいはスピーカに車両が右折すべきか否かの回答を出力する旨の指示信号を出力し易くなる。
 音声認識装置1には、マイク2、状態検出装置4、識別装置5、位置検出装置6、表示装置7及びスピーカ8が接続されている。また、撮像装置3が状態検出装置4及び識別装置5に接続されている。
 マイク2は、発話者が発した音声を取得してA/D(Analog/Digital)変換するとともに、変換後の音声情報を出力する。マイク2は、複数個の全指向性マイクで構成されるアレイマイクであり、例えばセンターディスプレイの上部に設置される。
 撮像装置3は、車内の乗員の撮像画像を出力する。撮像装置3は、車内で着座している乗員を撮像することができる場所に設置されていればよい。例えば、撮像装置3は、車両のダッシュボード又は天井部に設置される。
 状態検出装置4は、撮像装置3によって出力された撮像画像を分析することによって、乗員の視線方向、顔向き方向又は姿勢を特定する。状態検出装置4が、撮像画像を分析することによって視線方向、顔向き方向又は姿勢を特定する方法は、周知の技術を用いればよいため説明を省略する。なお、以降の説明では視線方向又は顔向き方向を視線方向等と記載する。
 識別装置5は、撮像装置3によって出力された撮像画像に基づいて、乗員を識別するとともに識別結果として識別情報を出力する。識別装置5が撮像画像に基づいて乗員を登録する方法及び撮像画像に基づいて乗員を識別する方法は、周知の技術を用いればよいため説明を省略する。なお、識別装置5は、マイク2によって出力された音声情報に基づいて乗員の登録及び識別を行ってもよい。
 位置検出装置6は、GPS(Global Positioning System)衛星から受信した電波に基づいて車両の位置を検出し緯度及び経度(以下「位置情報」と記載する)を出力する。
 表示装置7は、例えばLCD(Liquid Crystal Display)又は有機EL(Electro Luminescense)ディスプレイ等である。表示装置7は、LCD又は有機ELディスプレイとタッチセンサから構成されている表示一体型のタッチパネルであってもよいし、ヘッドアップディスプレイであってもよい。
 音声認識装置1は、音声取得部11、音声認識部12、第1情報取得部13、第1特徴量抽出部14、応答度合い算出部15、認識結果判定部16、第2情報取得部17、第2特徴量抽出部18、難易度算出部19、応答度合い調整部20、及び、応答生成部21を備える。
 音声取得部11は、マイク2によって取得された音声情報から、予め定められた方向から発せられた音声情報を抽出する。本実施の形態1では、運転席から発せられた音声情報、即ち運転者の音声情報を抽出するものとする。なお、複数人の音声情報又は騒音が含まれた音声情報から一つの特定の音声情報を抽出する方法は、既存の技術を用いればよいため説明を省略する。
 音声認識部12は、音声認識を開始する操作の有無に拘わらず、音声取得部11により取得された音声情報を認識して認識結果を出力する。認識結果には、少なくとも音声の内容に対応する識別子と認識の成功又は失敗を示す情報が含まれる。例えば、運転者が「ここを右折かな」や「ここを右に曲がるの」と発話した場合、音声認識部12は、運転者が右折地点を確認するために発話したと認識し、認識結果として「右折確認」を示す識別子を出力する。なお、音声認識部12が音声情報を認識する方法は既存の技術を用いればよいため説明を省略する。
 第1情報取得部13は、運転者の音声情報又は行動情報を取得する。音声情報は音声取得部11によって出力された音声情報である。また、行動情報は、状態検出装置4によって出力された視線方向等又は姿勢に関する情報である。第1情報取得部13は、音声認識部12によって出力された認識結果を取得する。そして、第1情報取得部13は、認識結果に認識の成功を示す情報が含まれている場合、即ち音声認識部12によって音声認識が成功した場合、運転者の発話に対する音声情報又は行動情報を取得する。
 第1特徴量抽出部14は、第1情報取得部13によって出力された音声情報又は行動情報に基づいて、発話に関する特徴量又は対話行動に関する特徴量を抽出する。発話に関する特徴量は、例えば、音声の特徴量であり発話音量、ピッチ、明瞭度又は発話速度等である。音声情報を分析して音声の特徴量を抽出する方法は、既存の技術を用いればよいため説明を省略する。
 対話行動に関する特徴量は、例えば、運転者が他の乗員又は音声認識装置と対話を開始するときの意識的な行動又は無意識の行動に関する特徴量である。具体的には、第1特徴量抽出部14は、第1情報取得部13によって出力された視線方向の情報に基づいて、運転者の視線方向が、他の乗員の方向又は音声認識装置1の方向のいずれの方向であるか、を判断した結果を特徴量として出力する。
 応答度合い算出部15は、第1特徴量抽出部14によって出力された発話に関する特徴量又は対話行動に関する特徴量に基づいて、音声認識部12によって出力された認識結果に対して応答すべきか否かを示す度合いである応答度合いを算出する。
 ここで、応答度合い算出部15が応答度合いを算出する方法の一例を説明する。応答度合い算出部15は、発話に関する特徴量として第1特徴量抽出部14によって出力された発話音量を取得する。そして、応答度合い算出部15は、発話音量が小さい場合に比して、発話音量が大きい場合の応答度合いが高くなるように応答度合いを算出する。これは、運転者が、音声認識装置1等の機器に対して発話する場合、人に対して発話する場合に比して声を大きくする傾向があるからである。
 応答度合い算出部15は、発話音量に対応した応答度合いを定義している。例えば、図2に示すように、予め定められた発話音量の範囲に応答度合いを対応付けて定義している。この場合、例えば、図示しないメモリにテーブル形式で記憶される。なお、図2に示した定義は一例に過ぎない。また、応答度合い算出部15は、応答度合いと発話音量が「0」から「100」の値をとるものとし、発話音量の値と応答度合いの値とが1対1に対応付くように定義してもよい。また、応答度合い及び発話音量の下限を「0」とし、上限を「100」としたがこれに限られない。
 応答度合い算出部15が、応答度合いを算出する方法の他の一例を説明する。応答度合い算出部15は、第1特徴量抽出部14から対話行動に関する特徴量として、運転者の視線方向が、同乗者の方向又は音声認識装置1の方向のいずれの方向であるか、を判断した結果を取得する。そして、応答度合い算出部15は、運転者の視線方向が同乗者の方向である場合に比して、運転者の視線方向が音声認識装置1の方向である場合の応答度合いが高くなるように応答度合いを算出する。すなわち、応答度合い算出部15は、運転者が同乗者を見ている場合に比して、運転者が音声認識装置1を見ている場合の応答度合いが高くなるように応答度合いを算出する。これは、運転者は応答を期待する対象の方向を向いて発話する可能性が高いからである。
 なお、応答度合いを算出する上述の方法は一例である。応答度合い算出部15は、一つの特徴量に基づいて応答度合いを算出してもよいし、複数の特徴量に基づいて応答度合いを算出してもよい。応答度合い算出部15は、複数の特徴量に基づいて応答度合いを算出する場合、例えば、それぞれの特徴量に基づいて算出した応答度合いを合計した値を応答度合いとして出力してもよい。また、応答度合い算出部15は、発話に関する特徴量又は対話行動に関する特徴量を学習データとして、機械学習によって生成された学習モデルを用いて応答度合いを算出してもよい。
 認識結果判定部16は、音声認識部12によって出力された認識結果が進行経路の確認であるか否かを判定して判定結果を出力する。具体的には、認識結果判定部16は、音声認識部12によって出力された認識結果に含まれる識別子が、進行経路の確認を示す識別子であるか否かを判定して判定結果を出力する。進行経路の確認を示す識別子は、例えば、「ここを右折かな」という発話を認識した結果である「右折確認」を示す識別子である。また、他の例としては、「どこで曲がるの」という発話を認識した結果である「進行方向の変更地点確認」を示す識別子である。認識結果判定部16は、予め進行経路の確認を示す識別子を図示しないメモリに記憶している。そして、認識結果判定部16は、メモリに記憶された識別子に、音声認識部12によって出力された識別子と一致する識別子が存在するか否かを判定する。なお、識別子は上述した識別子に限られない。
 第2情報取得部17は、認識結果判定部16によって出力された判定結果が、進行経路の確認であることを示す場合に、音声認識装置1に接続された装置から走行情報を取得する。実施の形態1では、第2情報取得部17は、識別装置5から運転者の識別情報を取得するとともに、位置検出装置6によって出力された車両の位置情報を取得する。
 第2特徴量抽出部18は、第2情報取得部17によって出力された走行情報に基づいて走行環境に関する特徴量を抽出する。実施の形態1では、第2特徴量抽出部18は、走行履歴が格納された走行履歴記憶部9から、第2情報取得部17によって出力された運転者の識別情報に対応する走行履歴を取得する。そして、第2特徴量抽出部18は、運転者の走行履歴に基づいて、第2情報取得部17によって出力された位置情報により特定される地点を、運転者が走行した回数を算出することによって、走行環境に関する特徴量を抽出する。
 具体的には、走行履歴記憶部9は、走行履歴として、走行日と走行経路とを、乗員を特定する識別情報に対応付けて記憶している。第2特徴量抽出部18は、車両の走行履歴を記憶した走行履歴記憶部9から、運転者の識別情報に対応する走行履歴を取得する。第2特徴量抽出部18は、位置情報により特定される地点が走行履歴の各走行経路情報に含まれているか否か判定するとともに、含まれている場合は走行回数を1回加算する。なお、第2特徴量抽出部18は、位置情報により特定される地点が、走行履歴の各走行経路情報に含まれている、かつ走行履歴に含まれている走行日が、図示しない日時計測部から取得した現在の日付より遡って予め定められた期間内である場合に、走行回数を1回加算してもよい。
 なお、走行履歴記憶部9は、図示しないナビゲーション装置に含まれており、第2特徴量抽出部18は、ナビゲーション装置を介して走行履歴を取得する。また、走行履歴記憶部9は、ネットワーク上のサーバ装置に含まれており、第2特徴量抽出部18は図示しない通信装置を介して走行履歴を取得するとしてもよい。
 難易度算出部19は、第2特徴量抽出部18によって出力された走行環境に関する特徴量に基づいて、運転者が進行経路を判断する困難さを示す度合いである難易度を算出する。進行経路の判断とは、例えば進行方向の変更に関する判断であり、交差点で進行すべき方向の判断や進行方向を変更すべき交差点の判断等である。
 より具体的には、難易度算出部19は、第2特徴量抽出部18によって出力された走行回数が多い場合に比して、走行回数が少ない場合に難易度が大きくなるように難易度を算出する。難易度算出部19は、走行回数が多い場合に比して、走行回数が少ない場合に難易度が大きくなるように難易度を定義している。走行回数が多く走行に慣れている地点に比して、走行回数が少なく走行に慣れていない地点では、運転者は進行経路の判断が困難なためである。これは例えば、図示しないメモリにテーブル形式で記憶される。そして、難易度算出部19は、第2特徴量抽出部18によって出力された走行回数に対応する難易度を定義に従って算出する。
 図3は、発話が行われた地点の走行回数に対応付けられた難易度の一例を示す図である。例えば、走行回数が「0」回から「4」回の場合には、難易度「高」を示す「1」が定義されている。一方、走行回数が「5」回以上の場合には、難易度「低」を示す「0」が定義されている。なお、図3に示した定義は一例に過ぎない。図3では難易度が「0(低)」「1(高)」の2段階の例を示したが、3段階以上であってもよい。
 応答度合い調整部20は、難易度算出部19によって算出された難易度が低い場合に比して、難易度が高い場合の応答度合いが高くなるように応答度合いを調整する。応答度合い調整部20は、難易度に対応した調整値を定義している。より具体的には、応答度合い調整部20は、難易度が低い場合に比して、難易度が高い場合に調整値が大きくなるように調整値を定義している。これは例えば、図示しないメモリにテーブル形式で記憶される。
 応答度合い調整部20は、難易度算出部19によって算出された難易度に対応する調整値を定義に従って算出する。そして、応答度合い調整部20は、算出した調整値に基づいて応答度合いを調整することを指示する信号を、応答度合い算出部15へ出力する。具体的には、応答度合い調整部20は、応答度合いに調整値を加算又は乗算することによって応答度合いを調整することを指示する信号を、応答度合い算出部15へ出力する。そして、応答度合い算出部15は、難易度算出部19によって出力された指示信号に従って、応答度合いを調整する。
 図4は、難易度に対応付けられた調整値の一例を示す図である。なお、図4の定義は、応答度合い調整部20が、応答度合いに調整値を加算する場合の一例である。例えば、難易度「1(高)」に対して調整値「20」が定義されている。一方、「難易度「0(低)」に対して調整値「0」が定義されている。
 なお、図4に示した定義は一例に過ぎない。図4では難易度が2段階であるため、調整値が2段階の場合の例を示したが、難易度の定義に応じて3段階以上としてもよい。また、応答度合い調整部20が、算出した調整値を応答度合いに乗算することによって応答度合いを調整する場合、応答度合いに乗算される倍率が難易度に対応付けられる調整値として定義される。
 応答生成部21は、応答度合い算出部15によって算出された応答度合い、又は応答度合い調整部20によって調整された応答度合いが、予め定められた閾値以上である場合に認識結果に対する応答を生成して出力装置へ出力するとともに、応答度合い算出部15によって算出された応答度合い、又は応答度合い調整部20によって調整された応答度合いが予め定められた閾値未満である場合に認識結果に対する応答を出力装置へ出力しない。ここで、出力装置は、表示装置7、スピーカ8又は図示しないナビゲーション装置等の車載機器である。また、認識結果に対する応答とは、例えば、表示装置7に表示する内容、スピーカ8から出力する音声の内容、又は図示しないナビゲーション装置等の車載機器に対する動作命令である。
 次に、実施の形態1に係る音声認識装置1の動作について説明する。図5は、実施の形態1に係る音声認識装置の動作を説明するためのフローチャートである。なお、図5の処理は、キーオンになってからキーオフになるまでの間、常に繰り返される。
 なお、ここでは、運転者が初めて走行する地点で進行方向を確認するために、「ここを右折かな」と発話したものとする。また、音声認識部12による音声認識が成功したものとする。また、応答度合い算出部15は、図2の定義に従って発話音量に基づいて応答度合いを算出するものとする。また、難易度算出部19は、図3に示すように走行回数に対する難易度を定義しているものとする。また、応答度合い調整部20は、図4に示すように難易度に対する調整値を定義しているものとする。また、応答生成部21が、認識結果に対する応答を出力装置へ出力するか否かを判断する際に用いる予め定められた閾値は、「50」であるとする。
 初めに、音声取得部11は、マイク2によって取得された音声情報から運転者の音声情報を抽出して出力する。(ステップST101)。音声認識部12は、音声認識を開始する操作の有無に拘わらず、音声取得部11により出力された音声情報を認識して認識結果を出力する(ステップST102)。ここでは、運転者が「ここを右折かな」と発話しているので、音声認識部12は、音声認識が成功したことを示す情報と「右折確認」を示す識別子とを含む認識結果を出力する。
 音声認識が成功した場合(ステップST103の”YES”の場合)、音声認識装置1の動作はステップST104へ進む。一方、音声認識が失敗した場合(ステップST103の”NO”の場合)、音声認識装置1の動作は処理を終了する。音声認識が成功した場合(ステップST103の”YES”の場合)、第1情報取得部13は、音声取得部11によって出力された運転者の音声情報又は状態検出装置4によって出力された運転者の行動情報を取得する(ステップST104)。ここでは、第1情報取得部13は、音声認識部12から取得した認識結果に、音声認識が成功したこと示す情報が含まれているため、運転者の発話に対する音声情報を音声取得部11から取得する。
 第1特徴量抽出部14は、第1情報取得部13によって出力された音声情報又は行動情報に基づいて、発話に関する特徴量又は対話行動に関する特徴量を抽出する(ステップST105)。ここでは、第1特徴量抽出部14は、第1情報取得部13によって出力された音声情報を分析することによって発話音量を抽出する。第1特徴量抽出部14によって抽出された発話音量は「50」であるとする。
 応答度合い算出部15は、第1特徴量抽出部14によって出力された特徴量に基づいて、音声認識部12によって出力された認識結果に対して応答すべきか否かを示す度合いである応答度合いを算出する(ステップST106)。ここでは、応答度合い算出部15は、図2の定義に従って発話音量「50」に対応する応答度合い「40」を算出する。
 次に、認識結果判定部16は、音声認識部12によって出力された認識結果に含まれる識別子が進行経路の確認を示す識別子であるか否かを判定する(ステップST107)。認識結果に含まれる識別子が、進行経路の確認を示す識別子である場合(ステップST107の”YES”の場合)、音声認識装置1の動作は、ステップST108へ進む。これは、運転者にとって進行経路の判断が困難な状況である場合に、進行経路を確認する運転者の発話に対して、音声認識装置1が応答し易くするためである。一方、認識結果に含まれる識別子が、進行経路の確認を示す識別子ではない場合(ステップST107の”NO”の場合)、音声認識装置1の動作は、ステップST112へ進む。ここでは、認識結果に含まれる識別子が、進行経路の確認を示す識別子「右折確認」であるためステップST108へ進む。
 認識結果に含まれる識別子が、進行経路の確認を示す識別子である場合(ステップST107の”YES”の場合)、第2情報取得部17は、音声認識装置1に接続された装置から走行情報を取得する。ここでは、第2情報取得部17は、識別装置5から運転者の識別情報を取得するとともに、位置検出装置6から車両の位置情報を取得する(ステップST108)。
 そして、第2特徴量抽出部18は、第2情報取得部17によって出力された走行情報に基づいて走行環境に関する特徴量を抽出する(ステップST109)。具体的には、第2情報取得部17によって出力された識別情報に基づいて、走行履歴が格納された走行履歴記憶部9から運転者の走行履歴を取得する。その後、第2特徴量抽出部18は、運転者の走行履歴に基づいて、第2情報取得部17によって出力された位置情報により特定される地点が、運転者の走行履歴の走行経路情報に含まれている回数を算出し、走行環境に関する特徴量として抽出する。ここでは、運転者にとって初めて走行する道路であるため、第2特徴量抽出部18は、走行回数「0」を出力する。
 難易度算出部19は、第2特徴量抽出部18によって出力された走行回数に対応した難易度を定義に従って算出する(ステップST110)。ここでは、難易度算出部19は、図3に示す定義に従って、走行回数「0」に対応する難易度「1」を算出して出力する。
 応答度合い調整部20は、難易度算出部19によって算出された難易度に対応する調整値を定義に従って算出する。そして、応答度合い調整部20は、算出した調整値に基づいて応答度合いを調整することを指示する信号を、応答度合い算出部15へ出力する。そして、応答度合い算出部15は、応答度合い調整部20によって出力された指示信号に従って、応答度合いを調整する(ステップST111)。ここでは、応答度合い調整部20は、図4に示す定義に従って、難易度「1」に対応する調整値「20」を算出する。そして、応答度合い調整部20は、応答度合い算出部15が算出した応答度合いに、調整値「20」を加算することを指示する信号を、応答度合い算出部15へ出力する。その後、応答度合い算出部15は、算出した応答度合い「40」に調整値「20」を加算し、調整後の応答度合いとして「60」を算出する。
 応答度合い調整部20が、応答度合いを調整することによって、運転者にとって進行経路の判断が困難な地点で、進行経路を確認する発話に対して音声認識装置1が応答し易くなる。
 応答生成部21は、応答度合い算出部15によって算出された応答度合い、又は応答度合い調整部20によって調整された応答度合いが、予め定められた閾値以上であるか否かを判断する(ステップST112)。応答度合い算出部15によって算出された応答度合い、又は応答度合い調整部20によって調整された応答度合いが、予め定められた閾値以上である場合(ステップST112の”YES”の場合)、応答生成部21は、運転者の発話が音声認識装置1に対するものとして、認識結果に対する応答を生成して出力装置へ出力する(ステップST113)。一方、応答度合い算出部15によって算出された応答度合い、又は応答度合い調整部20によって調整された応答度合いが、予め定められた閾値未満である場合(ステップST112の”NO”の場合)、運転者の発話が音声認識装置1に対するものではないとして、認識結果に対する応答を出力装置へ出力することなく処理を終了する。
 ここでは、応答生成部21は、応答度合い調整部20によって調整された応答度合い「60」が閾値「50」以上であるため、運転者が音声認識装置1に対して発話したとして、認識結果に含まれる「右折確認」を示す識別子に対する応答を生成して出力装置へ出力する。例えば、応答生成部21は、車両が右折すべき地点を表示装置7あるいはスピーカ8等により出力する旨の指示信号を応答として生成する。そして、当該信号に従って応答生成部21は、表示装置7あるいはスピーカ8と共働して車両が右折すべき地点を出力する。
 このように、音声認識装置1から進行経路に関する情報を得るために、運転者が行った発話の音量が小さい場合であっても、運転者が、過去の走行回数が少ない地点を走行している場合、音声認識装置1は、運転者にとって進行経路の判断が困難であるから、運転者が、進行経路に関する情報を得るために音声認識装置1に対して発話する可能性が高いとして、運転者の発話に対して応答し易くなる。
 次に、運転者が過去に10回走行している地点で「ここを右折かな」と発話した場合について説明する。なお、応答度合い算出部15が定義している応答度合い、難易度算出部19が定義している難易度、応答度合い調整部20が定義している調整値、及び応答生成部21が用いる予め定められた閾値は、上述の場合と同様であるとする。また、音声認識部12による音声認識が成功したものとする。
 ステップST101からステップST108の処理は上述と同様であるため説明を省略する。第2特徴量抽出部18は、運転者の走行履歴に基づいて、第2情報取得部17によって出力された位置情報により特定される地点が、運転者の走行履歴の走行経路情報に含まれている回数「10」を算出し、特徴量として抽出する(ステップST109)。
 難易度算出部19は、第2特徴量抽出部18により出力された走行回数「10」に対応する難易度「0」を算出して出力する(ステップST110)。
 応答度合い調整部20は、図4に示す定義に従って、難易度「0」に対応する調整値「0」を算出する。そして、応答度合い調整部20は、応答度合い算出部15が算出した応答度合いに、調整値「0」を加算することを指示する信号を、応答度合い算出部15へ出力する。その後、応答度合い算出部15は、応答度合い「40」に調整値「0」を加算し、調整後の応答度合いとして「40」を算出する。(ステップST111)。運転者にとって進行経路の判断が困難ではない地点で、運転者が発話した進行経路を確認する発話は、例えば、独り言等のように、音声認識装置1に対する発話ではない可能性が高くなるためである。
 応答生成部21は、応答度合い調整部20によって調整された応答度合い「40」が、予め定められた閾値「50」未満であるので、運転者が音声認識装置1に対して発話していないとして、認識結果に含まれる「右折確認」を示す識別子に対する応答を出力装置へ出力することなく処理を終了する(ステップST112の”NO”の場合)。
 以上のように、実施の形態1に係る音声認識装置1は、音声取得部11、音声認識部12、第1情報取得部13、第1特徴量抽出部14、応答度合い算出部15、認識結果判定部16、第2情報取得部17、第2特徴量抽出部18、難易度算出部19、応答度合い調整部20、応答生成部21を備える。音声認識部12は、音声認識を開始する操作の有無に拘わらず音声取得部11により取得された音声情報を認識して認識結果を出力する。第1情報取得部13は、運転者の音声情報又は行動情報を取得する。第1特徴量抽出部14は、運転者の音声情報又は行動情報に基づいて発話に関する特徴量又は対話行動に関する特徴量を抽出する。応答度合い算出部15は、発話に関する特徴量又は対話行動に関する特徴量に基づいて認識結果に対して応答すべきか否かを示す度合いである応答度合いを算出する。認識結果判定部16は、認識結果が進行経路の確認であるか否かを判定して判定結果を出力する。第2情報取得部17は、判定結果が進行経路の確認であることを示す場合に走行情報を取得する。第2特徴量抽出部18は、走行情報に基づいて走行環境に関する特徴量を抽出する。難易度算出部19は、走行環境に関する特徴量に基づいて運転者が進行経路を判断する困難さを示す度合いである難易度を算出する。応答度合い調整部20は、難易度が低い場合に比して難易度が高い場合の応答度合いが高くなるように応答度合いを調整する。応答生成部21は、調整された応答度合いが予め定められた閾値以上である場合に認識結果に対する応答を生成して出力装置へ出力するとともに調整された応答度合いが予め定められた閾値未満である場合に認識結果に対する応答を出力装置へ出力しない。
 これにより、音声認識装置1は、運転者にとって進行経路を判断することが困難な状況である場合に、運転者が音声認識装置1から情報を得るために、音声認識装置1に対して行った進行経路を確認する発話に応答し易くなるため、運転者が応答を希望するときは音声認識を開始する操作を行うことなく応答が得られるとともに、運転者が応答を希望しないときは応答を出力しないことにより煩わしさを抑制することとなり、運転者の発話に対する応答精度を向上させることができる。
 また、実施の形態1の第2情報取得部17は、乗員を識別する識別装置から運転者の識別情報を取得するとともに位置検出装置6から車両の位置情報を取得する。第2特徴量抽出部18は、走行履歴が格納された走行履歴記憶部9から運転者の識別情報に対応する走行履歴を取得するとともに運転者の走行履歴に基づいて車両の位置情報により特定される地点を運転者が走行した走行回数を抽出する。難易度算出部19は、走行回数が多い場合に比して走行回数が少ない場合に難易度が大きくなるように難易度を算出する。
 これにより、音声認識装置1は、運転者が、走行に慣れていない地点であるために進行経路を判断することが困難な状況で、進行経路を確認する発話を行った場合に、運転者の発話に対して応答し易くなるため、運転者が応答を希望するときは音声認識を開始する操作を行うことなく応答が得られるとともに、運転者が応答を希望しないときは応答を出力しないことにより煩わしさを抑制することとなり、運転者の発話に対する応答精度を向上させることができる。
実施の形態2.
 図6は、実施の形態2に係る音声認識装置1aの構成例を示す図である。実施の形態2に係る音声認識装置1aは、図1に示された実施の形態1の音声認識装置1に確認行動抽出部22が追加された構成である。図6において図1と同一又は相当する部分は、同一の符号を付し説明を省略する。
 実施の形態2に係る音声認識装置1aは、運転者が進行経路の確認を意図した発話をする前の予め定められた期間に運転者によって行われた、進行経路を確認するための行動(以下「確認行動」と記載する)を運転者の視線方向等又は姿勢に基づいて抽出する。そして、音声認識装置1aは、確認行動の累積時間が少ない場合に比して、確認行動の累積時間が多い場合に、運転者の発話に対して応答し易くするものである。
 例えば、運転者が進行経路を確認するために「ここを右折かな」と発話したとする。音声認識装置1aは、運転者の発話前の予め定められた期間に、運転者が前傾していた累積時間を算出する。ここで運転者が前傾している状態は、進行経路を確認するための行動、すなわち確認行動の一例である。そして、音声認識装置1aは、運転者が前傾していた累積時間が短い場合に比して、累積時間が長い場合の方が運転者の発話に対して応答し易くなる。具体的には、音声認識装置1aは、運転者の発話を音声認識装置1aに対する発話として認識し、表示装置あるいはスピーカに車両が右折すべきか否かの回答を出力する旨の指示信号を出力し易くなる。これは、運転者が確認行動を行う時間が長い場合、運転者が進行経路の判断を迷っている可能性が高いからである。
 即ち実施の形態2は走行環境に関する特徴量として、確認行動の累積時間を用いるものである。
 確認行動抽出部22は、状態検出装置4から取得した運転者の視線方向等又は姿勢に関する情報に基づいて、運転者が進行経路を確認する確認行動を抽出する。ここで、確認行動とは、例えば、運転者が体を前に乗り出す行動や進行したい方向へ視線を向ける行動である。そして、確認行動抽出部22は、確認行動の開始時刻と終了時刻を確認行動に関する情報として記憶する。なお、確認行動抽出部22による確認行動の抽出及び確認行動に関する情報の記憶は、キーオンになってからキーオフになるまでの間、常に繰り返される。
 確認行動抽出部22は、状態検出装置4から運転者の視線方向等に関する情報を取得する。視線方向等に関する情報とは、運転者が車両の正面方向を見た場合の視線方向等と運転者が見ている視線方向等との間のなす角度である。なお、状態検出装置4が、運転者が車両の正面方向を見た場合の視線方向等と運転者が見ている視線方向等との間のなす角度を算出する方法は、周知の技術を用いればよいため説明を省略する。
 確認行動抽出部22は、状態検出装置4から取得した、運転者が車両の正面方向を見た場合の視線方向等と運転者が見ている視線方向等との間のなす角度が、予め定められた角度以上となった場合、確認行動が開始されたと判断するとともに、開始時刻を記憶する。一方、確認行動抽出部22は、確認行動が開始された後、運転者が車両の正面方向を見た場合の視線方向等と運転者が見ている視線方向等との間のなす角度が、予め定められた角度未満となった場合、確認行動が終了されたと判断するとともに、終了時刻を記憶する。
 確認行動抽出部22は、状態検出装置4から運転者の姿勢に関する情報を取得する。姿勢に関する情報とは、基準姿勢からの前後方向の傾きを示す角度である。ここで、基準姿勢とは例えば、運転者の顔の位置が、あらかじめ設定された領域内にある場合の姿勢である。なお、基準姿勢の定義はこれに限られない。また、状態検出装置4が、基準姿勢からの前後方向の傾きを示す角度を算出する方法は、周知の技術を用いればよいため説明を省略する。
 確認行動抽出部22は、基準姿勢から前方への傾きを示す角度が予め定められた角度以上となった場合、確認行動が開始されたと判断するとともに、開始時刻を記憶する。一方、確認行動抽出部22は、確認行動が開始された後、基準姿勢から前方への傾きを示す角度が予め定められた角度未満となった場合、確認行動が終了されたと判断するとともに、終了時刻を記憶する。
 第2情報取得部17aは、認識結果判定部16によって出力された判定結果が、進行経路の確認であることを示す場合に、確認行動抽出部22から、予め定められた期間の確認行動に関する情報を取得する。予め定められた期間は、第2情報取得部17aが、認識結果判定部16によって出力された判定結果を取得した時点から遡って10秒間である。なお、10秒間は一例でありこれに限られない。
 第2特徴量抽出部18aは、第2情報取得部17aによって取得された確認行動に関する情報に基づいて、確認行動の累積時間を算出し、走行環境に関する特徴量として抽出する。具体的には、第2特徴量抽出部18aは、第2情報取得部17aによって取得された確認行動の開始時刻から終了時刻の差を算出する。なお、確認行動が複数回行われている場合は、第2特徴量抽出部18aは、各確認行動の開始時刻と終了時刻の差を算出し、各々の算出結果を加算することによって累積時間を算出すればよい。
 難易度算出部19aは、第2特徴量抽出部18aによって出力された確認行動の累積時間が少ない場合に比して、確認行動の累積時間が多い場合に難易度が大きくなるように難易度を算出する。これは、運転者が確認行動を行う時間が長い場合、運転者が進行経路の判断を迷っている可能性が高いからである。
 難易度算出部19aは、確認行動の累積時間が少ない場合に比して、確認行動の累積時間が多い場合に難易度が大きくなるように難易度を定義している。これは例えば、図示しないメモリにテーブル形式で記憶される。難易度算出部19aは、第2特徴量抽出部18aによって出力された確認行動の累積時間に対応する難易度を定義に従って算出する。
 図7は、確認行動の累積時間に対応付けられた難易度の一例を示す図である。例えば、確認行動の累積時間が3秒以上の場合には、難易度「高」を示す「1」が定義されている。一方、確認行動の累積時間が0秒から3秒未満の場合には、難易度「低」を示す「0」が定義されている。なお、図7に示した定義は一例に過ぎない。図7では難易度が「0(低)」「1(高)」の2段階の例を示したが、3段階以上であってもよい。また、確認行動の種類に応じて確認行動の累積時間に対する難易度を定義してもよい。
 次に、実施の形態2に係る音声認識装置1aの動作について説明する。図8は、実施の形態2に係る音声認識装置1aの動作を説明するためのフローチャートである。なお、図8の処理は、キーオンになってからキーオフになるまでの間、常に繰り返される。
 図8のフローチャートにおけるステップST201からステップST207の処理及び、ステップST211からステップST213の処理は、図1のフローチャートにおけるステップST101からステップST107の処理及び、ステップST111からステップST113の処理と同じであるため説明を省略する。
 音声認識部12によって出力された認識結果に含まれる識別子が、進行経路の確認を示す識別子である場合(ステップST207の”YES”の場合)、第2情報取得部17aは、確認行動抽出部22から、予め定められた期間に確認行動抽出部22によって抽出された確認行動に関する情報を取得する(ステップST208)。
 第2特徴量抽出部18aは、第2情報取得部17aによって取得された確認行動に関する情報に基づいて、認行動の累積時間を算出し、走行環境に関する特徴量として抽出する(ステップST209)。
 難易度算出部19aは、第2特徴量抽出部18aによって出力された確認行動の累積時間に対応した難易度を定義に従って算出する(ステップST210)。
 ここでは、運転者が「ここを右折かな」と発話したものとする。また、音声認識部12による音声認識が成功したものとする。また、運転者が発話する前の10秒間の確認行動の累積時間は4秒であるとする。また、応答度合い算出部15は、図2の定義に従って発話音量に基づいて応答度合いを算出するものとする。また、難易度算出部19aは、図7に示すように確認行動の累積時間に対応する難易度を定義しているものとする。また、応答度合い調整部20は、図4に示すように難易度に対する調整値を定義しているものとする。また、応答生成部21が、認識結果に対する応答を出力装置へ出力するか否かを判断する際に用いる予め定められた閾値は、「50」であるとする。
 音声認識部12は、音声取得部11により取得された音声情報を認識して、認識成功を示す情報と「右折確認」を示す識別子とを含む認識結果を出力する。また、第1特徴量抽出部14は、発話音量「50」を抽出する。また、応答度合い算出部15は、発話音量「50」に対応する応答度合い「40」を算出し出力する(ステップST201~ステップST206)。そして、認識結果に含まれる識別子が、進行経路の確認を示す識別子であるので、音声認識装置1aの動作はステップST208へ進む(ステップST207の”YES”の場合)。
 第2特徴量抽出部18aは、第2情報取得部によって取得された確認行動に関する情報に基づいて確認行動の累積時間「4」を算出し、出力する。そして、難易度算出部19aは、図7に示す定義に従って、確認行動の累積時間「4」に対応する難易度「1」を算出し、出力する(ステップST208~ステップST210)。
 応答度合い調整部20は、図4の定義に従って難易度「1」に対応する調整値「20」を算出する。そして、応答度合い調整部20は、応答度合い算出部15が算出した応答度合いに、調整値「20」を加算することを指示する信号を、応答度合い算出部15へ出力する。その後、応答度合い算出部15は、算出した応答度合い「40」に調整値「20」を加算し、調整後の応答度合いとして「60」を算出する(ステップST211)。
 応答生成部21は、応答度合い調整部20によって調整された応答度合い「60」が、予め定められた閾値「50」以上であるため(ステップST212の”YES”の場合)、運転者が音声認識装置1aに対して発話したとして、認識結果に含まれる「右折確認」を示す識別子に対する応答を生成して出力装置へ出力する(ステップST213)。例えば、応答生成部21は、車両が右折すべき地点を表示装置7あるいはスピーカ8等により出力する旨の指示信号を応答として生成する。そして、当該信号に従って応答生成部21は、表示装置7あるいはスピーカ8と共働して車両が右折すべき地点を運転者に対して出力する。
 このように、音声認識装置1aから進行経路に関する情報を得るために運転者が行った発話の音量が小さい場合であっても、運転者が発話をする前に行った確認行動の時間が長い場合、音声認識装置1aは、運転者が進行経路の判断を迷っており、進行経路に関する情報を得るために音声認識装置1aに対して発話する可能性が高いとして、運転者の発話に対して応答し易くなる。
 次に、運転者が発話する前の10秒間の確認行動の累積時間が2秒である場合について説明する。
 ステップST201からステップST208の処理は上述と同様であるため説明を省略する。第2特徴量抽出部18aは、第2情報取得部17aによって取得された確認行動に関する情報に基づいて、確認行動の累積時間を抽出し、累積時間「2」を出力する(ステップST209)。そして、難易度算出部19aは、図7に示す定義に従って、確認行動の累積時間「2」に対応する難易度「0」を算出し、出力する(ステップST210)。
 続いて、ステップST211からステップST213の処理が実行された結果、応答度合い調整部20は、図4の定義に従って難易度「0」に対応する調整値「0」を算出する。そして、応答度合い調整部20は、応答度合い算出部15が算出した応答度合いに、調整値「0」を加算することを指示する信号を、応答度合い算出部15へ出力する。その後、応答度合い算出部15は、応答度合い「40」に調整値「0」を加算し、調整後の応答度合いとして「40」を算出する(ステップST211)。
 応答生成部21は、応答度合い調整部20によって調整された応答度合い「40」が、予め定められた閾値「50」未満であるので、運転者が音声認識装置1aに対して発話していないとして、認識結果に含まれる「右折確認」を示す識別子に対する応答を出力装置へ出力することなく処理を終了する(ステップST212の”NO”)。これは、運転者が進行経路の判断を迷っている可能性が低い地点で、運転者が発話した進行経路を確認する発話は、例えば、独り言等のように、音声認識装置1aに対する発話ではない可能性が高いためである。
 以上のように、実施の形態2に係る音声認識装置1aは、確認行動抽出部22を備える。確認行動抽出部22は、乗員の視線方向又は姿勢を検出する状態検出装置4から取得した運転者の視線方向又は顔向き方向又は姿勢に関する情報に基づいて、進行経路を確認するための確認行動を抽出するとともに確認行動に関する情報を記憶する。第2情報取得部17aは、予め定められた期間に対応する確認行動に関する情報を確認行動抽出部22から取得する。第2特徴量抽出部18aは、第2情報取得部17aによって取得された確認行動に関する情報に基づいて確認行動の累積時間を抽出する。難易度算出部19aは、確認行動の累積時間が少ない場合に比して確認行動の累積時間が多い場合に難易度が大きくなるように難易度を算出する。
 これにより、音声認識装置1aは、進行経路を確認する発話を行う前に、運転者が姿勢を前傾させる等というような進行経路の確認行動を行う時間が長い場合に、運転者が進行経路の判断を迷っている可能性が高いとして、運転者の発話に対して応答し易くなるため、運転者が応答を希望するときは音声認識を開始する操作を行うことなく応答が得られるとともに、運転者が応答を希望しないときは応答を出力しないことにより煩わしさを抑制することとなり、運転者の発話に対する応答精度を向上させることができる。
実施の形態3.
 図9は、実施の形態3に係る音声認識装置1bの構成例を示す図である。図9において図1と同一又は相当する部分は、同一の符号を付し説明を省略する。
 実施の形態3に係る音声認識装置1bは、運転者が発話した地点を含む道路のリンクコストが小さい場合に比して、リンクコストが大きい場合に、進行経路の確認を意図した運転者の発話に対して応答し易くするものである。
 具体的には、音声認識装置1bは、道幅又は交通量に関するリンクコストが小さい場合に比して、道幅又は交通量に関するリンクコストが大きい場合に、進行経路の確認を意図した運転者の発話に対して応答し易くするものである。これは、道路の幅が狭い細街路等は、見通しが悪く進行経路の判断が困難であると考えられるためである。また、交通量が多い道路では、自車両の周辺に多くの他車両が存在するため、見通しが悪く進行経路の判断が困難であると考えられるためである。
 即ち実施の形態3は走行環境に関する特徴量として、リンクコストを用いるものである。
 第2情報取得部17bは、認識結果判定部16によって出力された判定結果が、進行経路の確認であることを示す場合に、位置検出装置6によって出力された車両の位置情報を取得する。
 地図情報記憶部10は、カーナビゲーション装置が用いる地図情報を記憶している。地図情報記憶部10は、図示しないカーナビゲーション装置に含まれていてもよいし、ネットワーク上のサーバ装置に含まれていてもよい。本実施の形態では、ナビゲーション装置に含まれているものとして説明する。
 地図情報には、カーナビゲーション装置が目的地までの経路探索の際に用いるリンクコストが含まれている。リンクコストは、道路長、道路種別、車線数、道路幅、カーブの曲率、勾配等から予め定められた計算式によって算出される。ここでは、リンクコストは、カーナビゲーション装置が、運転し易い経路を探索するために用いるリンクコストであるとする。例えば、道路の幅が広い道路のリンクコストに比して、道路幅が狭い道路のリンクコストが大きくなるようにリンクコストが設定されている。また、交通量が少ない道路のリンクコストに比して、交通量が多い道路のリンクコストが大きくなるように設定されていてもよい。なお、一つのリンクに対して複数の種類のリンクコストが設定されていてもよい。なお、リンクコストの種類やリンクコストの計算式については周知の技術であるため説明を省略する。
 第2特徴量抽出部18bは、第2情報取得部17bによって出力された車両の位置情報を取得する。そして、第2特徴量抽出部18bは、車両の位置情報により特定される地点を含む道路のリンクコストを地図情報記憶部10から取得し、走行環境に関する特徴量として抽出する。なお、第2特徴量抽出部18bは、ナビゲーション装置を介してリンクコストを取得するものとする。
 難易度算出部19bは、第2特徴量抽出部18bによって出力されたリンクコストが小さい場合に比して、リンクコストが大きい場合に難易度が大きくなるように難易度を算出する。これは、道路の幅が狭い細街路等は、見通しが悪く進行経路の判断が困難であると考えられるためである。また、交通量が多い道路では、自車両の周辺に他車両が多く存在するため、見通しが悪く進行経路の判断が困難であると考えられるためである。
 難易度算出部19bは、リンクコストが小さい場合に比して、リンクコストが大きい場合に難易度が大きくなるように難易度を定義している。これは例えば、図示しないメモリにテーブル形式で記憶される。難易度算出部19bは、第2特徴量抽出部18bによって出力されたリンクコストに対応する難易度を定義に従って算出する。
 図10は、リンクコストに対応付けられた難易度の一例を示す図である。例えば、リンクコストが「0」から「50」の場合には、難易度「低」を示す「0」が定義されている。一方、リンクコストが「51」から「100」の場合には、難易度「高」を示す「1」が定義されている。なお、図10に示した定義は一例に過ぎない。図10では難易度が「0(低)」「1(高)」の2段階の例を示したが、3段階以上であってもよい。
 次に、実施の形態3に係る音声認識装置1bの動作について説明する。図11は、実施の形態3に係る音声認識装置1bの動作を説明するためのフローチャートである。図11の処理は、キーオンになってからキーオフになるまでの間、常に繰り返される。
 図10のフローチャートにおけるステップST301からステップST307の処理及び、ステップST311からステップST313の処理は、図1のフローチャートにおけるステップST101からステップST107の処理及び、ステップST111からステップST113の処理と同じであるため説明を省略する。
 音声認識部12によって出力された認識結果に含まれる識別子が、進行経路の確認を示す識別子である場合(ステップST307の”YES”の場合)、第2情報取得部17bは、位置検出装置6によって出力された車両の位置情報を取得する(ステップST308)。
 第2特徴量抽出部18bは、車両の位置情報により特定される地点を含む道路のリンクコストを地図情報記憶部10から取得し、走行環境に関する特徴量として抽出する(ステップST309)。
 難易度算出部19bは、第2特徴量抽出部18bにより出力されたリンクコストに対応した難易度を定義に従って算出する(ステップST310)。
 ここでは、運転者が「ここを右折かな」と発話したものとする。また、音声認識部12による音声認識が成功したものとする。また、リンクコストは、道路の道幅に基づいて設定されているものとし、運転者が発話した地点を含む道路のリンクコストは「60」であるとする。また、応答度合い算出部15は、図2の定義に従って発話音量に基づいて応答度合いを算出するものとする。また、難易度算出部19bは、図10に示すようにリンクコストに対する難易度を定義しているものとする。また、応答度合い調整部20は、図4に示すように難易度に対する調整値を定義しているものとする。また、応答生成部21が、認識結果に対する応答を出力装置へ出力するか否かを判断する際に用いる予め定められた閾値は、「50」であるとする。
 音声認識部12は、音声取得部11により取得された音声情報を認識して、認識成功を示す情報と「右折確認」を示す識別子とを含む認識結果を出力する。また、第1特徴量抽出部14は、発話音量「50」を抽出する。また、応答度合い算出部15は、発話音量「50」に対応する応答度合い「40」を算出し出力する(ステップST301~ステップST306)。そして、認識結果に含まれる識別子が、進行経路の確認を示す識別子であるので、音声認識装置1bの動作はステップST308へ進む(ステップST307の”YES”の場合)。
 第2情報取得部17bは、位置検出装置6によって出力された車両の位置情報を取得する(ステップST308)。そして、第2特徴量抽出部18bは、車両の位置情報により特定される地点を含む道路のリンクコストを地図情報記憶部10から取得し、走行環境に関する特徴量として抽出する(ステップST309)。ここでは、第2特徴量抽出部18bは、リンクコスト「60」を抽出し、出力する。そして、難易度算出部19bは、図10に示す定義に従って、リンクコスト「60」に対応する難易度「1」を算出し、出力する(ステップST310)。
 応答度合い調整部20は、図4の定義に従って難易度「1」に対応する調整値「20」を算出する。そして、応答度合い調整部20は、応答度合い算出部15が算出した応答度合いに、調整値「20」を加算することを指示する信号を、応答度合い算出部15へ出力する。その後、応答度合い算出部15は、応答度合い「40」に調整値「20」を加算し、調整後の応答度合いとして「60」を算出する(ステップST311)。
 応答生成部21は、応答度合い調整部20によって調整された応答度合い「60」が、予め定められた閾値「50」以上であるため(ステップST312の”YES”の場合)、運転者が音声認識装置1bに対して発話したとして、認識結果に含まれる「右折確認」を示す識別子に対する応答を生成して出力装置へ出力する(ステップST313)。例えば、応答生成部21は、車両が右折すべき地点を表示装置7あるいはスピーカ8等により出力する旨の指示信号を応答として生成する。そして、当該信号に従って応答生成部21は、表示装置7あるいはスピーカ8と共働して車両が右折すべき地点を運転者に対して出力する。
 このように、音声認識装置1bから進行経路に関する情報を得るために運転者が行った発話の音量が小さい場合であっても、運転者が発話した地点を含む道路のリンクコストが大きい場合、音声認識装置1bは、運転者にとって進行経路の判断が困難であり、進行経路に関する情報を得るために音声認識装置1bに対して発話する可能性が高いとして、運転者の発話に対して応答し易くなる。
 次に、運転者が発話した地点を含む道路のリンクコストが「30」である場合について説明する。
 ステップST301からステップST308の処理は上述と同様であるため説明を省略する。第2特徴量抽出部18bは、地図情報記憶部10からリンクコスト「30」を取得する(ステップST309)。そして、難易度算出部19bは、図10に示す定義に従って、リンクコスト「30」に対応する難易度「0」を算出し、出力する(ステップST310)。
 続いて、ステップST311からステップST313の処理が実行された結果、応答度合い調整部20は、図4の定義に従って難易度「0」に対応する調整値「0」を算出する。そして、応答度合い調整部20は、応答度合い算出部15が算出した応答度合いに、調整値「0」を加算することを指示する信号を、応答度合い算出部15へ出力する。その後、応答度合い算出部15は、応答度合い「40」に調整値「0」を加算し、調整後の応答度合いとして「40」を算出する(ステップST311)。
 応答生成部21は、応答度合い調整部20によって調整された応答度合い「40」が閾値「50」未満であるので、運転者が音声認識装置1bに対して発話していないとして、認識結果に含まれる「右折確認」を示す識別子に対する応答を出力装置へ出力することなく処理を終了する(ステップST312の”NO”の場合)。これは、運転者にとって進行経路の判断が困難ではない地点で、運転者が発話した進行経路を確認する発話は、例えば、独り言等のように、音声認識装置1bに対する発話ではない可能性が高いためである。
 以上のように、実施の形態3に係る音声認識装置1bでは、第2情報取得部17bは位置検出装置6から車両の位置情報を取得する。第2特徴量抽出部18bは、地図情報が格納された地図情報記憶部10から、車両の位置情報により特定される地点を含む道路のリンクコストを抽出する。難易度算出部19bは、リンクコストが小さい場合に比してリンクコストが大きい場合に難易度が大きくなるように難易度を算出する。
 これにより、音声認識装置1bは、道幅が狭いために見通しが悪い道路、又は交通量が多いために見通しが悪い道路のような、運転手が進行経路を判断することが困難な状況で、進行経路を確認する発話を行った場合に、運転者の発話に対して応答し易くなるため、運転者が応答を希望するときは音声認識を開始する操作を行うことなく応答が得られるとともに、運転者が応答を希望しないときは応答を出力しないことにより煩わしさを抑制することとなり、運転者の発話に対する応答精度を向上させることができる。
 図12A、図12Bは、実施の形態1から実施の形態3に係る音声認識装置1、1a、1bのハードウェア構成の一例を示す図である。実施の形態1に係る音声認識装置1と、実施の形態2に係る音声認識装置1aと、実施の形態3に係る音声認識装置1bとは、同様のハードウェア構成を有する。
 実施の形態1から実施の形態3において、音声取得部11と、音声認識部12と、第1情報取得部13と、第1特徴量抽出部14と、応答度合い算出部15と、認識結果判定部16と、第2情報取得部17、17a、17bと、第2特徴量抽出部18、18a、18bと、難易度算出部19、19a、19bと、応答度合い調整部20と、応答生成部21と、確認行動抽出部22の機能は、処理回路31により実現される。すなわち、音声認識装置1、1a、1bは、進行経路の確認を意図した運転者の発話に対して応答すべきか否かを決定し、応答すべきと決定した場合に応答を生成する制御を行うための処理回路31を備える。
 処理回路31は、図12Aに示すように専用のハードウェアであっても、図12Bに示すようにメモリ35に格納されるプログラムを実行するCPU(Central Processing Unit)34であってもよい。
 処理回路31が専用のハードウェアである場合、処理回路31は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、又はこれらを組み合わせたものが該当する。
 処理回路31がCPU34の場合、音声取得部11と、音声認識部12と、第1情報取得部13と、第1特徴量抽出部14と、応答度合い算出部15と、認識結果判定部16と、第2情報取得部17、17a、17bと、第2特徴量抽出部18、18a、18bと、難易度算出部19、19a、19bと、応答度合い調整部20と、応答生成部21と、確認行動抽出部22の機能は、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせにより実現される。すなわち、音声取得部11と、音声認識部12と、第1情報取得部13と、第1特徴量抽出部14と、応答度合い算出部15と、認識結果判定部16と、第2情報取得部17、17a、17bと、第2特徴量抽出部18、18a、18bと、難易度算出部19、19a、19bと、応答度合い調整部20と、応答生成部21と、確認行動抽出部22は、メモリ35等に記憶されたプログラムを実行するCPU34、又はシステムLSI(Large-Scale Integration)等の処理回路により実現される。また、メモリ35等に記憶されたプログラムは、音声取得部11と、音声認識部12と、第1情報取得部13と、第1特徴量抽出部14と、応答度合い算出部15と、認識結果判定部16と、第2情報取得部17、17a、17bと、第2特徴量抽出部18、18a、18bと、難易度算出部19、19a、19bと、応答度合い調整部20と、応答生成部21と、確認行動抽出部22の手順や方法をコンピュータに実行させるものであるとも言える。ここで、メモリ35とは、例えば、RAM、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)等の、不揮発性もしくは揮発性の半導体メモリ、又は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)等が該当する。
 なお、音声取得部11と、音声認識部12と、第1情報取得部13と、第1特徴量抽出部14と、応答度合い算出部15と、認識結果判定部16と、第2情報取得部17、17a、17bと、第2特徴量抽出部18、18a、18bと、難易度算出部19、19a、19bと、応答度合い調整部20と、応答生成部21と、確認行動抽出部22の機能について、一部を専用のハードウェアで実現し、一部をソフトウェア又はファームウェアで実現するようにしてもよい。
 また、音声認識装置1、1a、1bは、マイク2、状態検出装置4、識別装置5、位置検出装置6、又は、表示装置7、スピーカ8等との通信を行う、入力インタフェース装置32、及び、出力インタフェース装置33を有する。
 また、以上の実施の形態1から実施の形態3では、マイク2は、アレイマイクであるとし1つのアレイマイクが車内に設置されているものとしたが、これは一例に過ぎない。マイク2は、例えば、運転席の前方に設置されており運転者が発話した音声を収集することができる位置に設置されている指向性マイクとしてもよい。
 また、以上の実施の形態1から実施の形態3では、音声認識部12は、音声認識装置1、1a、1bに備えられるとしたが、音声認識装置1、1a、1bとネットワークを介して接続された図示しないサーバ装置に備えられるとしてもよい。この場合、音声認識装置1、1a、1bは、音声取得部11によって出力された音声情報を、ネットワークを介してサーバ装置に送信するとともに、サーバ装置からネットワークを介して音声認識部12により出力された認識結果を受信するとしてもよい。 
 なお、本開示は、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。
 この発明に係る音声認識装置は、音声認識を開始する操作の有無に拘わらず、発話に対して音声認識処理を行う機器等に適用可能である。
 1 音声認識装置、2 マイク、3 撮像装置、4 状態検出装置、5 識別装置、6 位置検出装置、7 表示装置、8 スピーカ、9 走行履歴記憶部、10 地図情報記憶部、11 音声取得部、12 音声認識部、13 第1情報取得部、14 第1特徴量抽出部、15 応答度合い算出部、16 認識結果判定部、17 第2情報取得部、18 第2特徴量抽出部、19、難易度算出部、20 応答度合い調整部、21 応答生成部、22 確認行動抽出部、31 処理回路、32 入力インタフェース装置、33 出力インタフェース装置、34 CPU、35 メモリ 

Claims (5)

  1.  音声認識を開始する操作の有無に拘わらず音声取得部により取得された音声情報を認識して認識結果を出力する音声認識部と、
     運転者の音声情報又は行動情報を取得する第1情報取得部と、
     前記運転者の前記音声情報又は前記行動情報に基づいて発話に関する特徴量又は対話行動に関する特徴量を抽出する第1特徴量抽出部と、
     前記発話に関する特徴量又は前記対話行動に関する特徴量に基づいて前記認識結果に対して応答すべきか否かを示す度合いである応答度合いを算出する応答度合い算出部と、
     前記認識結果が進行経路の確認であるか否かを判定して判定結果を出力する認識結果判定部と、
     前記判定結果が進行経路の確認であることを示す場合に走行情報を取得する第2情報取得部と、
     前記走行情報に基づいて走行環境に関する特徴量を抽出する第2特徴量抽出部と、
     前記走行環境に関する特徴量に基づいて運転者が進行経路を判断する困難さを示す度合いである難易度を算出する難易度算出部と、
     前記難易度が低い場合に比して前記難易度が高い場合の前記応答度合いが高くなるように前記応答度合いを調整する応答度合い調整部と、
     前記調整された前記応答度合いが予め定められた閾値以上である場合に前記認識結果に対する応答を生成して出力装置へ出力するとともに前記調整された前記応答度合いが予め定められた閾値未満である場合に前記認識結果に対する応答を出力装置へ出力しない応答生成部と、
     を備えることを特徴とする音声認識装置。
  2.  前記第2情報取得部は乗員を識別する識別装置から前記運転者の識別情報を取得するとともに位置検出装置から車両の位置情報を取得し、
     前記第2特徴量抽出部は走行履歴が格納された走行履歴記憶部から前記運転者の識別情報に対応する走行履歴を取得するとともに前記運転者の走行履歴に基づいて前記車両の位置情報により特定される地点を前記運転者が走行した走行回数を抽出し、
     前記難易度算出部は前記走行回数が多い場合に比して前記走行回数が少ない場合に前記難易度が大きくなるように前記難易度を算出する請求項1記載の音声認識装置。
  3.  乗員の視線方向又は顔向き方向又は姿勢を検出する状態検出装置から取得した前記運転者の視線方向又は顔向き方向又は姿勢に関する情報に基づいて進行経路を確認するための確認行動を抽出とともに前記確認行動に関する情報を記憶する確認行動抽出部を備え、
     前記第2情報取得部は予め定められた期間に対応する前記確認行動に関する情報を前記確認行動抽出部から取得し、
     前記第2特徴量抽出部は前記第2情報取得部によって取得された前記確認行動に関する情報に基づいて前記確認行動の累積時間を抽出し、
     前記難易度算出部は前記確認行動の累積時間が少ない場合に比して前記確認行動の累積時間が多い場合に前記難易度が大きくなるように前記難易度を算出する請求項1記載の音声認識装置。
  4.  前記第2情報取得部は位置検出装置から車両の位置情報を取得し、
     前記第2特徴量抽出部は地図情報が格納された地図情報記憶部から前記位置情報により特定される地点を含む道路のリンクコストを抽出し、
     前記難易度算出部は前記リンクコストが小さい場合に比して前記リンクコストが大きい場合に前記難易度が大きくなるように前記難易度を算出する請求項1記載の音声認識装置。
  5.  音声認識部が、音声認識を開始する操作の有無に拘わらず音声取得部により取得された音声情報を認識して認識結果を出力するステップと、
     第1情報取得部が、運転者の音声情報又は行動情報を取得するステップと、
     第1特徴量抽出部が、前記運転者の前記音声情報又は前記行動情報に基づいて発話に関する特徴量又は対話行動に関する特徴量を抽出するステップと、
     応答度合い算出部が、前記発話に関する特徴量又は前記対話行動に関する特徴量に基づいて前記認識結果に対して応答すべきか否かを示す度合いである応答度合いを算出するステップと、
     認識結果判定部が、前記認識結果が進行経路の確認であるか否かを判定して判定結果を出力するステップと、
     第2情報取得部が、前記判定結果が進行経路の確認であることを示す場合に走行情報を取得するステップと、
     第2特徴量抽出部が、前記走行情報に基づいて走行環境に関する特徴量を抽出するステップと、
     難易度算出部が、前記走行環境に関する特徴量に基づいて運転者が進行経路を判断する困難さを示す度合いである難易度を算出するステップと、
     応答度合い調整部が、前記難易度が低い場合に比して前記難易度が高い場合の前記応答度合いが高くなるように前記応答度合いを調整するステップと、
     応答生成部が、前記調整された前記応答度合いが予め定められた閾値以上である場合に前記認識結果に対する応答を生成して出力装置へ出力するとともに前記調整された前記応答度合いが予め定められた閾値未満である場合に前記認識結果に対する応答を出力装置へ出力しないステップとを備える
     ことを特徴とする音声認識方法。
PCT/JP2021/013963 2021-03-31 2021-03-31 音声認識装置及び音声認識方法 WO2022208783A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/013963 WO2022208783A1 (ja) 2021-03-31 2021-03-31 音声認識装置及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/013963 WO2022208783A1 (ja) 2021-03-31 2021-03-31 音声認識装置及び音声認識方法

Publications (1)

Publication Number Publication Date
WO2022208783A1 true WO2022208783A1 (ja) 2022-10-06

Family

ID=83458238

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/013963 WO2022208783A1 (ja) 2021-03-31 2021-03-31 音声認識装置及び音声認識方法

Country Status (1)

Country Link
WO (1) WO2022208783A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000338994A (ja) * 1999-05-27 2000-12-08 Fujitsu Ten Ltd 車載用音声認識装置
JP2004045616A (ja) * 2002-07-10 2004-02-12 Equos Research Co Ltd 車載装置、データ作成装置、及びデータ作成プログラム
JP2008233678A (ja) * 2007-03-22 2008-10-02 Honda Motor Co Ltd 音声対話装置、音声対話方法、及び音声対話用プログラム
JP2008287193A (ja) * 2007-05-21 2008-11-27 Toyota Motor Corp 音声対話装置
JP2010204637A (ja) * 2009-02-03 2010-09-16 Denso Corp 音声認識装置、音声認識方法、及びナビゲーション装置
WO2019198123A1 (ja) * 2018-04-09 2019-10-17 三菱電機株式会社 ナビゲーション装置及びナビゲーション方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000338994A (ja) * 1999-05-27 2000-12-08 Fujitsu Ten Ltd 車載用音声認識装置
JP2004045616A (ja) * 2002-07-10 2004-02-12 Equos Research Co Ltd 車載装置、データ作成装置、及びデータ作成プログラム
JP2008233678A (ja) * 2007-03-22 2008-10-02 Honda Motor Co Ltd 音声対話装置、音声対話方法、及び音声対話用プログラム
JP2008287193A (ja) * 2007-05-21 2008-11-27 Toyota Motor Corp 音声対話装置
JP2010204637A (ja) * 2009-02-03 2010-09-16 Denso Corp 音声認識装置、音声認識方法、及びナビゲーション装置
WO2019198123A1 (ja) * 2018-04-09 2019-10-17 三菱電機株式会社 ナビゲーション装置及びナビゲーション方法

Similar Documents

Publication Publication Date Title
CN107851437B (zh) 语音操作系统、服务器装置、车载设备和语音操作方法
US10269348B2 (en) Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system
CN106796786B (zh) 语音识别系统
US20200152203A1 (en) Agent device, agent presentation method, and storage medium
JP6479289B1 (ja) ナビゲーション装置及びナビゲーション方法
JP7211856B2 (ja) エージェント装置、エージェントシステム、サーバ装置、エージェント装置の制御方法、およびプログラム
JP2008309966A (ja) 音声入力処理装置および音声入力処理方法
WO2022208783A1 (ja) 音声認識装置及び音声認識方法
JP2000338993A (ja) 音声認識装置、その装置を用いたナビゲーションシステム
JP3580643B2 (ja) 音声認識方法及び音声認識装置
WO2022137534A1 (ja) 車載用音声認識装置及び車載用音声認識方法
JP2007057805A (ja) 車両用情報処理装置
JP2000122685A (ja) ナビゲーションシステム
JP3849283B2 (ja) 音声認識装置
JP3358498B2 (ja) 音声認識装置及びナビゲーションシステム
JP3654262B2 (ja) 音声認識装置及びナビゲーションシステム
JP4652504B2 (ja) 音声認識装置および音声認識ナビゲーション装置
WO2022215104A1 (ja) 音声対話装置および音声対話方法
WO2022038724A1 (ja) 音声対話装置、および、音声対話装置における対話対象判定方法
WO2023163047A1 (ja) 端末装置、情報提供システム、情報処理方法、プログラム及び記憶媒体
WO2023062814A1 (ja) 音声出力装置、音声出力方法、プログラム及び記憶媒体
JP2877045B2 (ja) 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
KR101597528B1 (ko) 내비게이션 장치 및 그 제어 방법
JP2001005480A (ja) ユーザー発音判定装置及び記録媒体
JP2023059442A (ja) 音声出力装置、音声出力方法、プログラム及び記憶媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21934949

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21934949

Country of ref document: EP

Kind code of ref document: A1