WO2023144574A1 - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置 Download PDF

Info

Publication number
WO2023144574A1
WO2023144574A1 PCT/IB2022/000056 IB2022000056W WO2023144574A1 WO 2023144574 A1 WO2023144574 A1 WO 2023144574A1 IB 2022000056 W IB2022000056 W IB 2022000056W WO 2023144574 A1 WO2023144574 A1 WO 2023144574A1
Authority
WO
WIPO (PCT)
Prior art keywords
component
vehicle
speech recognition
user
recognition method
Prior art date
Application number
PCT/IB2022/000056
Other languages
English (en)
French (fr)
Other versions
WO2023144574A8 (ja
Inventor
充伸 神沼
Original Assignee
日産自動車株式会社
ルノー エス. ア. エス.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日産自動車株式会社, ルノー エス. ア. エス. filed Critical 日産自動車株式会社
Priority to PCT/IB2022/000056 priority Critical patent/WO2023144574A1/ja
Publication of WO2023144574A1 publication Critical patent/WO2023144574A1/ja
Publication of WO2023144574A8 publication Critical patent/WO2023144574A8/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Definitions

  • the present invention relates to a speech recognition method and a speech recognition device.
  • Patent Document 1 describes a vehicle that illuminates an air conditioner switch and moves a pointer displayed in the illumination area along the switch operation direction when it detects that a user has asked a question about how to operate the air conditioner. A lighting device is described.
  • the voice input system it is possible to respond to a voice question from a vehicle user about the meaning of components that make up the vehicle (for example, the meaning of lamps) and how to operate them (how to operate switches). can.
  • Such speech input systems need to accurately identify the constructs mentioned by the user. However, it may be difficult to utter enough characteristics to precisely identify a construct (eg, a lamp or a switch). For example, when the user is doing other work such as driving a vehicle, it may be difficult to speak appropriately.
  • the present invention aims to improve the accuracy of estimating a component mentioned in a user's utterance in voice recognition for estimating a component mentioned in a user's utterance among a plurality of components constituting a vehicle. aim.
  • voice for estimating a target component which is a component mentioned in the utterance content among a plurality of components constituting a vehicle, by acquiring the utterance content of a vehicle user.
  • a recognition method is given.
  • the speech recognition method a process of specifying a reference position that is a position mentioned in the utterance content based on the utterance content, and a storage device or configuration that stores the constituent position that is the position where each of a plurality of constituents is provided. making the controller refer to a learning model that has learned object positions and estimate a structure provided at a structure position that matches the specified reference position as a target structure.
  • FIG. 1 is a schematic configuration diagram of an example of a vehicle equipped with a speech recognition device according to an embodiment
  • FIG. 1 is a block diagram showing an example of a functional configuration of a speech recognition device according to an embodiment
  • FIG. 1 is a schematic diagram of an example of a component that constitutes a vehicle
  • FIG. 3 is a schematic diagram of another example of a component that constitutes a vehicle
  • It is a schematic diagram of an example of structure position information.
  • 4 is a flow chart of an example of a speech recognition method according to an embodiment
  • FIG. 1 is a schematic configuration diagram of an example of a vehicle equipped with a speech recognition device according to an embodiment.
  • the vehicle 1 includes components 2 constituting the vehicle 1 , an on-board device controller 3 , an in-vehicle sensor 4 , a human machine interface (hereinafter referred to as “HMI”) 6 , and a speech recognition device 7 .
  • the components 2 are various in-vehicle devices that are mounted on the vehicle 1 and constitute the vehicle 1 .
  • the component 2 may be a lamp such as a meter cluster on the instrument panel of the driver's seat of the vehicle 1 or a warning light or indicator light arranged near the A pillar.
  • the component 2 may be a display device (display) provided in a center cluster or center console.
  • the lamps and display devices are examples of devices that are provided inside the vehicle 1 and present visual information to the user.
  • the component 2 may be an alarm device that outputs an alarm sound to the user of the vehicle 1, for example.
  • An alarm device is an example of a device that is provided inside a vehicle and presents auditory information to a user.
  • the component 2 sets a travel route based on the current position of the vehicle 1 and map information measured by a positioning device (for example, a global positioning system (GNSS) receiver, etc.), and the occupant follows this travel route. It may also be a navigation system that provides route guidance. Also, for example, the component 2 may be a window provided in the door of the vehicle 1 .
  • a positioning device for example, a global positioning system (GNSS) receiver, etc.
  • GNSS global positioning system
  • the component 2 may be a window provided in the door of the vehicle 1 .
  • the vehicle-mounted device controller 3 is an electronic control unit (ECU) that controls the operation of the component 2 that is the vehicle-mounted device, and generates a control signal for controlling the component 2 .
  • the in-vehicle device controller 3 includes, for example, a processor and peripheral components such as a storage device.
  • the processor may be, for example, a CPU (Central Processing Unit) or an MPU (Micro-Processing Unit).
  • the storage device may comprise a semiconductor storage device, a magnetic storage device, an optical storage device, or the like.
  • the storage device may include memories such as registers, cache memory, ROM (Read Only Memory) and RAM (Random Access Memory) used as main storage devices.
  • the in-vehicle device controller 3 may be formed of dedicated hardware for executing each information processing described below.
  • the in-vehicle device controller 3 may have a functional logic circuit set in a general-purpose semiconductor integrated circuit.
  • the in-vehicle equipment controller 3 may have a programmable logic device (PLD: Programmable Logic Device) such as a field programmable gate array (FPGA: Field-Programmable Gate Array).
  • PLD Programmable Logic Device
  • FPGA Field-Programmable Gate Array
  • the in-vehicle sensor 4 is a sensor that detects the state of the interior of the vehicle 1 .
  • the in-vehicle sensor 4 may be an in-vehicle camera that captures the interior of the vehicle, or may be a pressure sensor or a seatbelt sensor provided in the seat for determining whether or not the occupant is seated. It may be a biosensor for detecting biometric information, or a microphone for detecting sound generated from the vehicle 1 .
  • the HMI 6 is an interface device that exchanges information between the speech recognition device 7 and the user.
  • the HMI 6 includes a display device (for example, a display screen of a navigation system) visible to the user of the vehicle 1, and a speaker and buzzer for outputting warning sounds, notification sounds, and audio information.
  • the HMI 6 also includes a voice input device (for example, a microphone) for obtaining voice input from the user.
  • the speech recognition device 7 is an electronic control unit that operates as a controller that executes speech recognition to recognize the contents of speech by the user of the vehicle 1 .
  • the speech recognition device 7 estimates the component 2 mentioned in the content of the user's utterance, outputs information related to the mentioned component 2 from the HMI 6, and provides the user with the information.
  • the speech recognition device 7 operates the component 2 mentioned in the content of the user's utterance.
  • the speech recognition device 7 includes a processor 8 and peripheral components such as a storage device 9 and the like.
  • the processor 8 may be, for example, a CPU or MPU.
  • the storage device 9 may include a semiconductor storage device, a magnetic storage device, an optical storage device, or the like.
  • the storage device 9 may include memories such as registers, cache memories, and ROMs and RAMs used as main storage devices.
  • the functions of the speech recognition device 7 described below are realized by the processor 8 executing a computer program stored in the storage device 9, for example.
  • the speech recognition device 7 may be formed of dedicated hardware for executing each information processing described below.
  • the speech recognition device 7 may comprise functional logic circuits implemented in general-purpose semiconductor integrated circuits.
  • speech recognizer 7 may comprise a programmable logic device such as a field programmable gate array.
  • FIG. 2 is a block diagram showing an example of the functional configuration of the speech recognition device 7.
  • the speech recognition device 7 operates as a speech recognition unit 10 , a natural language understanding unit 11 , an input signal acquisition unit 12 , a component identification unit 13 and a control unit 14 .
  • the voice recognition unit 10 recognizes voice input from the user acquired by the HMI 6 and converts it into language information such as text.
  • the speech recognition unit 10 outputs linguistic information generated by converting the speech input to the natural language understanding unit 11 .
  • the natural language understanding unit 11 analyzes the language information output from the speech recognition unit 10 by natural language processing, and extracts the user's utterance intention and keywords related to the composition 2 mentioned by the user. For example, the natural language understanding unit 11 extracts a keyword indicating the position of the construct 2 mentioned in the utterance content as a keyword related to the construct 2 .
  • the position indicated by the keyword extracted from the utterance content (that is, the position indicating the position of the component 2) is an example of the "reference position" described in the scope of claims.
  • keywords and their synonyms may be defined in advance, and the synonyms included in the user's utterance content may be converted into keywords.
  • the natural language understanding unit 11 will inquire about the meaning of the component. and "meter”, “top”, and “lamp” as keywords.
  • the synonyms of the keyword “meter” are defined in advance as “instrument”, “indicator”, “meter”, etc.
  • the synonyms of the keyword “upper” are defined in advance as “above”, “directly above”, “above”, etc. It is sufficient to define in advance such as “warning light” and “indication light” as synonyms of the keyword "lamp”.
  • the user's utterance intention extracted by the natural language understanding unit 11 includes, in addition to "inquiry about the meaning", an operation instruction (for example, "open a window") for instructing the operation of the vehicle-mounted device that is the component 2. utterance intent is included.
  • the natural language understanding unit 11 uses a keyword indicating the position of the component 2 mentioned in the utterance content as a reference position for indicating the position of the component 2 (hereinafter referred to as “reference position”). is extracted) and a keyword indicating the relative position of the component 2 with respect to the reference position.
  • reference position for indicating the position of the component 2
  • keyword indicating the relative position of the component 2 with respect to the reference position For example, in the above example, "meter” is extracted as a keyword indicating the reference position, and “above” is extracted as a keyword indicating the relative position of the component 2 with respect to the reference position (position of the meter).
  • the keyword indicating the reference position may be a component other than the component 2 mentioned in the utterance content.
  • FIG. 3 is a schematic diagram of an example of arrangement of lamps and meters, which are examples of the component 2 .
  • a plurality of lamps and meters are arranged in the meter cluster 20 along with a tachometer 21 and a speedometer 22 .
  • the meter cluster 20 is simply referred to as "meter 20".
  • a tire pressure warning light 30 is arranged as a lamp above the meter 20 .
  • a fog lamp indicator lamp 31a As lamps on the upper left of the meter 20 and above the tachometer 21, a fog lamp indicator lamp 31a, a high beam warning lamp 31b, a headlight indicator lamp 31c, and an engine warning lamp 31d are arranged.
  • a VDC (Vehicle Dynamics Control) warning light 32 is arranged as a lamp on the upper right of the meter 20 and a lamp above the speedometer 22 .
  • an auto brake hold indicator lamp 33 is arranged as a lamp on the lower left of the speedometer.
  • an idling stop indicator light 34 As lamps in the tachometer 21, an idling stop indicator light 34, a brake warning light 35a, an oil pressure warning light 35b, and a low water temperature indicator light 36a are arranged.
  • An HEV power meter 36b is arranged as a meter within the tachometer 21 .
  • a seat belt warning light 37, a hill descent control indicator light 38, an erroneous stepping collision prevention assist OFF indicator light 39a, and a remaining fuel warning light 39b are arranged.
  • a fuel gauge 39c is arranged as a meter within the speedometer 22 .
  • the natural language understanding unit 11 uses the keywords “meter”, “up”, “”Lamp” may be extracted.
  • the keyword “meter” is a keyword indicating a reference position for indicating the position of the component 2
  • “top” is a keyword indicating the relative position of the component 2 with respect to the reference position (the position of the meter 20).
  • the natural language understanding unit 11 uses the keywords “speedometer”, “ You may extract “bottom left” and “lamp”.
  • the keyword "speedometer” is a keyword indicating a reference position for indicating the position of the component 2
  • “bottom left” is a keyword indicating the relative position of the component 2 with respect to the reference position (the position of the speedometer 22).
  • the keywords “exclamation mark” and “lamp” are keywords indicating a reference position for indicating the position of the component 2, and the example in FIG. 3 indicates the brake warning light 35a.
  • “Lower left” is a keyword indicating the relative position of the component 2 with respect to the reference position (the position of the brake warning light 35a).
  • the keywords "light”, “lamp”, and “row” are keywords indicating reference positions for indicating the position of the component 2, and in the example of FIG. 31c sequence is shown. "Rightmost” is a keyword indicating the relative position of the component 2 with respect to the reference position (the position of the arrangement of the lamps 31a to 31c).
  • FIG. 4 is a schematic diagram of an example of arrangement of a steering wheel switch, which is another example of the component 2.
  • the steering wheel switches 41 to 46 are switches provided on the steering wheel 40 .
  • the steering wheel switches 41 to 43 are a switch group for using the autonomous driving control function of the vehicle 1 .
  • the rightmost switch 41 on the right side of the steering wheel 40 is a main switch for turning on/off the autonomous driving control function of the vehicle 1 .
  • a switch 42 in the middle of the steering wheel 40 is a set coast switch that initiates the autonomous cruise control function.
  • the leftmost switch 43 on the right side of the steering wheel 40 is a cancel switch 43 that cancels the autonomous cruise control function.
  • the cancel switch 43 is a switch located near the thumb of the user's right hand when the user grips the steering wheel 40 (that is, when the user puts his or her finger on the steering wheel 40).
  • the steering wheel switches 44 to 45 are a switch group for using the audio function of the vehicle 1 .
  • a switch 44 under the left side of the steering wheel 40 is a play stop switch for instructing play/stop of music by the audio function of the vehicle 1 .
  • the rightmost switch 45 on the left side of the steering wheel 40 is a volume switch that increases the volume of the audio functions of the vehicle 1 .
  • the volume switch 45 is a switch located near the user's left thumb when the user grips the steering wheel 40 .
  • the leftmost switch 46 on the left side of the steering wheel 40 is a volume switch that reduces the volume of the audio functions of the vehicle 1 .
  • the natural language understanding unit 11 uses keywords “steering wheel”, “left side", “Bottom” and “switch” may be extracted.
  • the keyword “steering wheel” is a keyword indicating a reference position for indicating the position of the component 2
  • “left side” and “bottom” indicate the relative position of the component 2 with respect to the reference position (the position of the steering wheel 40).
  • the keyword indicating the reference position may be a user's finger when the user grips the steering wheel 40 .
  • the natural language understanding unit 11 extracts the keywords “right hand”, “thumb”, and “switch”. You can The keywords “right hand” and “thumb” are keywords indicating reference positions for indicating the position of the component 2, and in the example of FIG.
  • the natural language understanding unit 11 reads the keywords “cancel” and "switch". , "Right" may be extracted.
  • the keywords "cancel” and “switch” are keywords indicating a reference position for indicating the position of the component 2, and the cancel switch 43 is shown in the example of FIG. "Right” is a keyword indicating the relative position of the component 2 with respect to the reference position (the position of the cancel switch 43).
  • the natural language understanding unit 11 may supplementarily extract a keyword indicating the state of the component 2 .
  • the natural language understanding unit 11 extracts "lighting" as a keyword indicating the state of the component 2 when the user utters "What is the lamp that just turned on?" in order to ask about the meaning of the warning light. good.
  • the natural language understanding unit 11 outputs the extracted utterance intention information and the extracted keyword information to the structure identifying unit 13 .
  • the input signal acquisition unit 12 acquires, as an input signal, a control signal for the component 2 (in-vehicle device) generated by the in-vehicle device controller 3 .
  • the control signal may be a lamp on/off signal.
  • the control signal may be a signal instructing output and stop of an alarm sound by an alarm device.
  • the control signal may be a drive signal for opening or closing a window provided in the door of the vehicle 1, or a state signal indicating the open state or closed state of the window.
  • the input signal acquisition unit 12 acquires the output signal of the in-vehicle sensor 4 as an input signal.
  • the input signal acquisition unit 12 converts the acquired control signal of the component 2 and the output signal of the in-vehicle sensor 4 into a predetermined specific data format for expressing the detected situation.
  • the input signal acquisition unit 12 may convert the control signal into flag information and set the value of the flag according to the control state of the component 2 .
  • it may be converted into flag information that is set to the value "True” when the target lamp is on, and is set to the value "False” when the lamp is off.
  • it may be converted into flag information that is set to a value "True” when the alarm device operates and outputs an alarm sound, and is set to a value "False” when the alarm device does not operate.
  • it may be converted into flag information that is set to the value "True” when the window is in the open state and set to the value "False” when the window is in the closed state.
  • the input signal acquisition unit 12 may convert the output signal of the in-vehicle sensor 4 into flag information, and set the value of the flag according to the state and position of the object detected by the in-vehicle sensor 4 .
  • a flag may be set according to the seating position of the user in the vehicle detected based on the output signal of the in-vehicle sensor 4 such as an in-vehicle camera, a pressure sensor, a seat belt sensor, and a biosensor.
  • the value of the flag may be set to "True” when the user is sitting in the driver's seat, and the value of the flag may be set to "False” when the user is sitting in the passenger's seat.
  • the input signal acquisition unit 12 outputs the converted input signal (hereinafter simply referred to as “input signal”) to the structure identification unit 13 .
  • the construct identification unit 13 receives the information on the utterance intention and the information on the keyword output from the natural language understanding unit 11 .
  • the construct identifying unit 13 estimates the construct 2 mentioned in the utterance content based on the keyword indicating the position of the construct 2 output from the natural language understanding unit 11 .
  • the composition 2 referred to in the utterance content is referred to as a "target composition”.
  • the component identification unit 13 may refer to information on component positions, which are positions where the components 2 are provided, to estimate the target component.
  • the storage device 9 of the speech recognition device 7 may store component position information 15, which is information on component positions.
  • FIG. 5 is a schematic diagram of an example of the component position information 15.
  • the structure position information 15 stores records of multiple lines. Each record records information about a component and a keyword related to the component. That is, in the structure position information 15, the structure information and the keyword related to the structure are stored in association with each other.
  • the keywords stored in the structure position information 15 include at least a keyword indicating the position of the structure as structure position information.
  • the structure identifying unit 13 estimates the structure 2 stored in the structure position information 15 in association with a keyword that matches (for example, matches) the keyword output from the natural language understanding unit 11 as the target structure. That is, the component 2 provided at the component position that matches (for example, matches) the reference position mentioned in the utterance content is estimated as the target component.
  • the structure identifying unit 13 refers to the structure position information 15 to select the record in the first row that includes the same keywords as the keywords “meter”, “top”, and “lamp” extracted by the natural language understanding unit 11. Select and presume the tire pressure warning light 30 in the first row record to be the target component. Further, for example, it is assumed that the user utters "What is the lower left lamp of the speedometer?" and the natural language understanding unit 11 extracts the keywords "speedometer", “lower left”, and "lamp”.
  • the structure identifying unit 13 refers to the structure location information 15 to find records in the second row that include the same keywords as the keywords “speedometer”, “bottom left”, and “lamp” extracted by the natural language understanding unit 11. is selected, and the auto brake hold indicator lamp 33 of the second row record is assumed to be the object component.
  • the structure identification unit 13 refers to the structure location information 15 and selects a record in the third row that includes the same keywords as the keywords “surprise mark”, “lamp”, and “below” extracted by the natural language understanding unit 11. selected, and the oil pressure warning light 35b of the record on the third line is assumed to be the target component. Further, for example, it is assumed that the user utters "What is the switch under the left side of the steering wheel?”"Handle”,”leftside", and “bottom” are keywords indicating the reference position.
  • the component identifying unit 13 refers to the component position information 15, and extracts the keywords "handle”, “left side”, “bottom”, and “switch” extracted by the natural language understanding unit 11. 4th record is selected, and the playback stop switch 44 of the 4th row record is assumed to be the target component.
  • the structure identifying unit 13 refers to the structure position information 15 and selects a record in the fifth row that includes the same keywords as the keywords “right hand”, “thumb”, and “switch” extracted by the natural language understanding unit 11. It is assumed that the cancel switch 43 of the record on the fifth line is the target component.
  • the natural language understanding unit 11 extracts the keywords "right hand” and “thumb” indicating the reference position for indicating the position of the component 2, but the relative position to the reference position "right thumb” is The indicated keyword has not been extracted.
  • the relative position of the reference position with respect to the structure position is "near", and there is no need to use a keyword to indicate the relative position.
  • the component identifying unit 13 refers to the component position information 15, and searches for the record in the sixth row that includes the same keywords as the keywords “cancel”, “switch”, and “right” extracted by the natural language understanding unit 11.
  • the component set coast switch 42 is assumed to be the target component.
  • the component identification unit 13 may estimate which of the plurality of components 2 is the target component based on the input signal output from the input signal acquisition unit 12 . For example, a keyword indicating the state of the component 2 may be extracted from the utterance content, and the component 2 in the same control state as the state indicated by the extracted keyword may be estimated as the target component.
  • the fog lamp indicator lamp 31a and the high beam warning lamp corresponding to the keywords “tachometer” and “upper” are extracted.
  • the headlight indicator lamp 31c, and the engine warning lamp 31d the lamp in the lighting state may be selected based on the input signal and estimated as the target component.
  • the component identifying unit 13 may identify the reference position mentioned in the utterance content based on the time series of the keywords acquired from the natural language understanding unit 11 .
  • the structure identification unit 13 may identify the mention position based on the time series of the target structure estimated by the keyword acquired from the natural language understanding unit 11 . For example, after estimating the cancel switch 43 as the target component based on the utterance content "What is the switch near the right thumb?", if the user utters "What is the switch on the right side?” ”, the position of the target component (cancel switch 43) estimated from the content of the previous utterance is specified as the reference position, and the set/coast switch 42 on the right side of the reference position (cancel switch 43) is specified as the target component. can be estimated.
  • the component identification unit 13 may estimate the target component for presenting the auditory information to the user based on the position where the auditory signal of the component 2 for presenting the auditory information to the user can be heard. For example, when the user utters, "What sound did you hear from the speaker on the right side?" You may presume that the navigation system which carries out is a target structure. Also, for example, an alarm device that presents an alarm sound to the user when the user utters "What sound did you hear before?" It may be presumed to be a component. Also, for example, when the user utters, "What is the sound that is ringing in the right rear?” It may be presumed to be a constituent.
  • the component identifying unit 13 may identify the position of the component 2 relative to the seating position of the user as the reference position.
  • the structure identification unit 13 determines the seating position of the user based on the input signal output from the input signal acquisition unit 12 .
  • the structure identification unit 13 identifies the reference position mentioned in the utterance content based on the determination result of the user's sitting position and the keyword for indicating the relative position extracted from the user's utterance content. good. For example, if it is determined that the user is seated in the driver's seat based on the input signal, the user utters "open here" and the keyword "here" indicating the relative position is extracted, the reference The position is near the driver's seat. Therefore, the component identifying unit 13 may estimate the window on the driver's seat side as the target component.
  • the component identification unit 13 may estimate the window on the passenger seat side as the target component.
  • the structure identifying unit 13 may also identify the reference position based on the time series of the target structure estimated by the keyword acquired from the natural language understanding unit 11 . For example, it is assumed that the user utters ⁇ open the back'' after estimating the window on the driver's seat side as the target component based on the utterance content ⁇ open here''.
  • the structure identification unit 13 identifies the position of the target structure (the window on the driver's seat side) estimated from the previous utterance content as the reference position, and the keyword "behind” indicating the relative position from the current utterance content.
  • the window behind the driver's side window may be inferred to be the target component.
  • the component identifying unit 13 may estimate the switch or display arranged on the center console as the target component. Note that when estimating the target structure based on the relative position of the structure 2 with respect to the seating position of the user, for example, for each structure 2, a plurality of records that differ according to the seating position of the user , and a keyword indicating the relative position corresponding to the seating position is stored in each record.
  • the component identifying unit 13 outputs information on the estimated target component and information on the utterance intention output from the natural language understanding unit 11 to the control unit 14 .
  • the component identifying unit 13 may refer to the learning model 16 that has learned the component positions instead of the component position information 15 to estimate the target component.
  • the learning model 16 various classifiers such as neural networks and rule-based (tree structure) inference models can be used.
  • the learning model 16 learns the structure position
  • the keyword indicating the structure position for example, the keyword of the reference position and the keyword of the relative position
  • the example data and the correct label that is, the target structure
  • the keyword and the input signal may be used as example data.
  • the speech recognition device 7 need not have both the structure position information 15 and the learning model 16.
  • the learning model 16 may be omitted when the structure position information 15 is provided, and the structure position information 15 may be omitted when the learning model 16 is provided.
  • the control unit 14 Based on the target structure specified by the structure specifying unit 13 and information on the utterance intention extracted by the natural language understanding unit 11 and input via the structure specifying unit 13, the control unit 14 identifies the user generates a response to the utterance of For example, when the utterance intention extracted by the natural language understanding unit 11 is "meaning inquiry", the control unit 14 may control the HMI 6 to output information about the estimated target construct. For example, the control unit 14 outputs a response message that notifies information about the target component and an instruction signal that causes the HMI 6 to output the response message. The HMI 6 may output the voice information and text information of the response message from the speaker, respectively, or display them on the display device.
  • the information about the target configuration may be, for example, function information about the function of the target configuration.
  • function information about the function of the target configuration.
  • a response message "This is a switch for turning on/off the autonomous driving control function" may be output as function information.
  • the information about the target component may be, for example, operation information about an operation for using the function of the target component. For example, if the target component is the set coast switch 42, a response message "To start the autonomous driving control function, turn on the main switch and then press the set coast switch" is output as the operation information. good.
  • the control unit 14 when the utterance intention extracted by the natural language understanding unit 11 is an operation instruction (for example, “open a window”) instructing the operation of an in-vehicle device, the control unit 14 operates the estimated target component.
  • the control unit 14 when the content of the speech is "open here", the control unit 14 outputs to the in-vehicle equipment controller 3 a command signal for opening the window on the driver's seat side where the user is seated.
  • the in-vehicle device controller 3 opens the window on the driver's seat side according to the command signal.
  • the control unit 14 may output from the HMI 16 a notification prompting the user to input whether or not to activate the target component.
  • the component identifying unit 13 cannot uniquely determine the target component from the user's utterance content and estimates a plurality of candidates for the target component, an input as to whether or not to activate the estimated candidate is used.
  • a notification prompting the person may be output from the HMI 16 .
  • a notification prompting the user may be output. For example, if the user's utterance intention is to open a window and it is not possible to distinguish between the driver's side window and the passenger's side window, a notification prompting the user to enter whether or not to activate the target structure " Do you want to open the window on the driver's side?" may be output.
  • FIG. 6 is a flow chart of an example of the speech recognition method of the embodiment.
  • the HMI 6 acquires voice input from the user.
  • the voice recognition unit 10 recognizes voice input from the user and converts it into linguistic information such as text.
  • the natural language understanding unit 11 analyzes the language information output from the speech recognition unit 10 by natural language processing, and extracts the user's utterance intention.
  • the natural language understanding section 11 extracts a keyword indicating the position of the construct 2 from the language information output from the speech recognition section 10 .
  • step S4 the natural language understanding unit 11 identifies the mention position, which is the position mentioned in the utterance content.
  • the component identifying unit 13 estimates the target component mentioned in the utterance content based on the research position mentioned in the utterance content.
  • step S ⁇ b>6 the control unit 14 generates a response to the user's utterance based on the target structure specified by the structure specifying unit 13 and the utterance intention information extracted by the natural language understanding unit 11 . Processing then ends.
  • the speech recognition device 7 acquires the contents of the speech of the user of the vehicle, and estimates the target component, which is the component mentioned in the content of the speech, among the plurality of components constituting the vehicle.
  • the speech recognition device 7 performs a process of specifying a reference position, which is a position referred to in the utterance content, based on the utterance content, and a storage device or a
  • a process of estimating the structure provided at the position of the structure that matches the identified position of reference as the target structure is executed.
  • voice recognition for estimating a component mentioned in the utterance content of the user among a plurality of components configuring the vehicle it is possible to improve the accuracy of estimating the component mentioned in the utterance content.
  • the component may be a device provided inside the vehicle to present visual information to the user. This makes it possible to estimate whether or not a device that presents visual information is mentioned in the utterance content.
  • the component may be a device that is provided inside the vehicle and presents auditory information to the user. This makes it possible to estimate whether or not a device that presents auditory information is mentioned in the utterance content.
  • the speech recognition device 7 may identify the relative position of the component with respect to the meter provided on the instrument panel of the vehicle as the reference position.
  • the speech recognition device 7 may identify the position of the component relative to the lamp provided on the instrument panel of the vehicle as the reference position.
  • the speech recognition device 7 may identify the position of the structure relative to the steering wheel of the vehicle as the mentioned position.
  • the speech recognition device 7 may identify the position of the component relative to the switch provided on the steering wheel of the vehicle as the mentioned position.
  • the speech recognition device 7 may identify the position of the construct relative to the position of the user's finger placed on the steering wheel of the vehicle as the reference position.
  • the speech recognition device 7 may detect the user position, which is the position of the user in the vehicle, and specify the mention position based on the utterance content and the user position. This makes it possible to estimate the target structure using the relative position keyword included in the content of the user's utterance.
  • the speech recognition device 7 may output information about the estimated target structure.
  • the speech recognition device 7 may output function information regarding the estimated function of the target component.
  • the speech recognition device 7 may output operation information regarding an operation for using the function of the estimated target component. This makes it possible to provide information about the construct mentioned in the user's utterance.
  • the speech recognition device 7 may operate the estimated target structure based on the estimation result of the target structure. Thereby, the components constituting the vehicle can be operated by voice input. (7) The speech recognition device 7 may output a notification prompting the user to input whether or not to operate the target component. As a result, for example, when the target configuration cannot be uniquely determined from the content of the user's utterance and multiple candidates for the target configuration are estimated, the estimation result of the target configuration can be confirmed by the user.
  • SYMBOLS 1... Vehicle, 2... Component, 3... In-vehicle device controller, 4... In-vehicle sensor, 6... Human-machine interface, 7... Voice recognition device, 8... Processor, 9... Storage device, 10... Voice recognition unit, 11... Nature Language understanding unit 12 Input signal acquisition unit 13 Structure identification unit 14 Control unit 15 Structure position information 16 Learning model

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

車両の利用者の発話内容を取得して、車両を構成している複数の構成物のうち発話内容で言及された構成物である対象構成物を推定する音声認識方法では、発話内容に基づいて発話内容で言及された位置である言及位置を特定し(S4)複数の構成物がそれぞれ設けられている位置である構成物位置を記憶した記憶装置又は構成物位置を学習した学習モデルを参照し、特定された言及位置と合致する構成物位置に設けられている構成物を、対象構成物として推定する(S5)。

Description

音声認識方法及び音声認識装置
 本発明は、音声認識方法及び音声認識装置に関する。
 近年、音声認識を用いて利用者からの質問に応答したり機器の操作を行う音声入力システムが提案されている。例えば、下記特許文献1には、ユーザがエアコンの操作方法に関する質問をしたことを検知すると、エアコンのスイッチを照明し、その照明エリアに表示されたポインタをスイッチの操作方向に沿って移動させる車両用照明装置が記載されている。
特許第6668296号明細書
 音声入力システムによれば、車両の利用者の音声による質問に対して、車両を構成している構成物の意味(例えばランプの意味)や、操作方法(スイッチの操作方法)を回答することができる。
 このような音声入力システムでは、利用者が言及した構成物を正確に特定する必要がある。しかしながら、構成物(例えばランプやスイッチ)を正確に特定するだけの特徴を発話することが難しい場合がある。例えば、利用者が車両の運転をしている場合のように他の作業をしていると、適切な発話が困難な場合がある。
 本発明では、車両を構成している複数の構成物のうち利用者の発話内容で言及された構成物を推定する音声認識において、発話内容で言及された構成物の推定精度を向上することを目的とする。
 本発明の一態様によれば、車両の利用者の発話内容を取得して、車両を構成している複数の構成物のうち発話内容で言及された構成物である対象構成物を推定する音声認識方法が与えられる。音声認識方法では、発話内容に基づいて発話内容で言及された位置である言及位置を特定する処理と、複数の構成物がそれぞれ設けられている位置である構成物位置を記憶した記憶装置又は構成物位置を学習した学習モデルを参照し、特定された言及位置と合致する構成物位置に設けられている構成物を、対象構成物として推定する処理と、をコントローラに実行させる。
 本発明によれば、車両を構成している複数の構成物のうち利用者の発話内容で言及された構成物を推定する音声認識において、発話内容で言及された構成物の推定精度を向上できる。
 本発明の目的及び利点は、特許請求の範囲に示した要素及びその組合せを用いて具現化され達成される。前述の一般的な記述及び以下の詳細な記述の両方は、単なる例示及び説明であり、特許請求の範囲のように本発明を限定するものでないと解するべきである。
実施形態の音声認識装置を備えた車両の一例の概略構成図である。 実施形態の音声認識装置の機能構成の一例を示すブロック図である。 車両を構成する構成物の一例の模式図である。 車両を構成する構成物の他の一例の模式図である。 構成物位置情報の一例の模式図である。 実施形態の音声認識方法の一例のフローチャートである。
 (構成)
 図1は、実施形態の音声認識装置を備えた車両の一例の概略構成図である。車両1には、車両1を構成している構成物2と、車載機器コントローラ3と、車内センサ4と、ヒューマンマシンインタフェース(以下「HMI」と表記する)6と、音声認識装置7を備える。
 構成物2は、車両1に搭載されて車両1を構成している各種車載機器である。
 例えば構成物2は、車両1の運転席のインストルメントパネルのメータクラスタやAピラー付近に配置された警告灯や表示灯などのランプであってよい。例えば構成物2は、センタクラスタやセンタコンソールに設けられた表示装置(ディスプレイ)であってよい。ランプや表示装置は、車両1の車内に設けられて利用者に視覚情報を提示する機器の一例である。
 また例えば構成物2は、例えば車両1の利用者に警報音を出力する警報装置であってもよい。警報装置は、車両の車内に設けられて利用者に聴覚情報を提示する機器の一例である。
 また例えば構成物2は、測位装置(例えば全地球型測位システム(GNSS)受信機など)により測定された車両1の現在位置と地図情報とに基づいて走行経路を設定し、この走行経路に従って乗員に経路案内を行うナビゲーションシステムであってもよい。
 また例えば構成物2は、車両1のドアに設けられた窓であってよい。
 車載機器コントローラ3は、車載機器である構成物2の動作を制御する電子制御ユニット(ECU:Electronic Control Unit)であり、構成物2を制御するための制御信号を生成する。車載機器コントローラ3は、例えばプロセッサと、記憶装置等の周辺部品とを含む。プロセッサは、例えばCPU(Central Processing Unit)やMPU(Micro−Processing Unit)であってよい。
 記憶装置は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置は、レジスタ、キャッシュメモリ、主記憶装置として使用されるROM(Read Only Memory)及びRAM(Random Access Memory)等のメモリを含んでよい。
 なお、車載機器コントローラ3を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、車載機器コントローラ3は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば車載機器コントローラ3はフィールド・プログラマブル・ゲート・アレイ(FPGA:Field−Programmable Gate Array)等のプログラマブル・ロジック・デバイス(PLD:Programmable Logic Device)等を有していてもよい。
 車内センサ4は、車両1の車内の状態を検出するセンサである。例えば車内センサ4は、車内を撮影する車内カメラであってもよく、座席に設けられて乗員が着座しているか否かを判定するための圧力センサやシートベルトセンサであってもよく、乗員の生体情報を検出する生体センサであってもよく、車両1から発生する音を検出するためのマイクロフォンであってよい。
 HMI6は、音声認識装置7と利用者との間で情報を授受するインタフェース装置である。HMI6は、車両1の利用者が視認可能な表示装置(例えば、ナビゲーションシステムの表示画面)や、警報音や通知音、音声情報を出力するためのスピーカやブザーを備える。
 またHMI6は、利用者からの音声入力を取得する音声入力装置(例えばマイクロフォン)を備える。
 音声認識装置7は、車両1の利用者の発話内容を認識する音声認識を実行するコントローラとして動作する電子制御ユニットである。音声認識装置7は、利用者の発話内容で言及された構成物2を推定して、言及された構成物2に関連する情報をHMI6から出力して利用者に提供する。または音声認識装置7は、利用者の発話内容で言及された構成物2を動作させる。
 音声認識装置7は、プロセッサ8と、記憶装置9等の周辺部品とを含む。プロセッサ8は、例えばCPUやMPUであってよい。
 記憶装置9は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置9は、レジスタ、キャッシュメモリ、主記憶装置として使用されるROM及びRAM等のメモリを含んでよい。以下に説明する音声認識装置7の機能は、例えばプロセッサ8が、記憶装置9に格納されたコンピュータプログラムを実行することにより実現される。
 なお、音声認識装置7を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、音声認識装置7は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば音声認識装置7はフィールド・プログラマブル・ゲート・アレイ等のプログラマブル・ロジック・デバイス等を有していてもよい。
 図2は、音声認識装置7の機能構成の一例を示すブロック図である。音声認識装置7は、音声認識部10と、自然言語理解部11と、入力信号取得部12と、構成物特定部13と、制御部14として動作する。
 音声認識部10は、HMI6が取得した利用者からの音声入力を認識してテキストなどの言語情報に変換する。音声認識部10は、音声入力を変換して生成した言語情報を自然言語理解部11に出力する。
 自然言語理解部11は、音声認識部10から出力された言語情報を自然言語処理によって解析し、利用者の発話意図と、利用者が言及した構成物2に関連したキーワードを抽出する。例えば自然言語理解部11は、構成物2に関連したキーワードとして、発話内容で言及された構成物2の位置を示すキーワードを抽出する。発話内容から抽出されたキーワードが示す位置(すなわち構成物2の位置を示す位置)は、特許請求の範囲に記載の「言及位置」の一例である。
 例えば、キーワードとその類義語を予め定義しておき、利用者の発話内容に含まれている類義語をキーワードに変換してよい。
 例えば、利用者が点灯したランプの意味を質問するために「メータの上のランプ何?」と発話した場合に、自然言語理解部11は構成物の意味を照会する発話意図「意味の照会」を抽出し、キーワードとして「メータ」、「上」、「ランプ」を抽出する。
 この場合、例えばキーワード「メータ」の類義語として「計器」、「インジケータ」、「メータ」、等を予め定義し、キーワード「上」の類義語として「上方」、「直上」、「上」等を予め定義し、キーワード「ランプ」の類義語として「警告灯」、「表示灯」等を予め定義しておけばよい。
 また、自然言語理解部11が抽出する利用者の発話意図には、「意味の照会」以外に、構成物2である車載機器の作動を指示する作動指示(例えば「窓の開放」)など様々な発話意図が含まれる。
 また、例えば自然言語理解部11は、発話内容で言及された構成物2の位置を示すキーワードとして、構成物2の位置を示すための基準となる位置(以下「基準位置」と表記することがある)を示すキーワードと、基準位置に対する構成物2の相対位置を示すキーワードを抽出する。例えば前述の例では基準位置を示すキーワードとして「メータ」を抽出し、基準位置(メータの位置)に対する構成物2の相対位置を示すキーワードとして「上」を抽出する。
 例えば基準位置を示すキーワードは、発話内容で言及された構成物2以外の構成物であってよい。例えば上記の発話の例では、発話内容で言及された構成物2はいずれかのランプであり、基準位置となる構成物2はランプ以外の構成物2であるメータである。
 図3は、構成物2の一例であるランプやメータの配置の一例の模式図である。メータクラスタ20には、タコメータ21とスピードメータ22とともに、複数のランプやメータが配置されている。以下、メータクラスタ20を単に「メータ20」と表記する。
 図3の例では、メータ20の上のランプとしてタイヤ空気圧警告灯30が配置されている。また、メータ20の左上のランプやタコメータ21の上のランプとして、フォグランプ表示灯31aや、ハイビーム警告灯31b、ヘッドライト表示灯31c、エンジン警告灯31dが配置されている。また、メータ20の右上のランプやスピードメータ22の上のランプとしてVDC(Vehicle Dynamics Control)警告灯32が配置されている。また、スピードメータ左下のランプとしてオートブレーキホールド表示灯33が配置されている。
 また、タコメータ21内のランプとして、アイドリングストップ表示灯34や、ブレーキ警告灯35aや油圧警告灯35b、低水温表示灯36aが配置されている。タコメータ21内のメータとしてHEVパワー計36bが配置されている。
 また、スピードメータ22内のランプとしてシートベルト警告灯37や、ヒルディセントコントロール表示灯38、踏み間違い衝突防止アシストOFF表示灯39a、燃料残量警告灯39bが配置されている。スピードメータ22内のメータとして燃料計39cが配置されている。
 例えば、利用者がタイヤ空気圧警告灯30の意味を質問するために「メータの上のランプ何?」と発話した場合には、自然言語理解部11は、キーワード「メータ」、「上」、「ランプ」を抽出してよい。キーワード「メータ」は、構成物2の位置を示すための基準位置を示すキーワードであり、「上」は、基準位置(メータ20の位置)に対する構成物2の相対位置を示すキーワードである。
 また例えば、利用者がオートブレーキホールド表示灯33の意味を質問するために「スピードメータの左下のランプ何?」と発話した場合には、自然言語理解部11は、キーワード「スピードメータ」、「左下」、「ランプ」を抽出してよい。キーワード「スピードメータ」は、構成物2の位置を示すための基準位置を示すキーワードであり、「左下」は、基準位置(スピードメータ22の位置)に対する構成物2の相対位置を示すキーワードである。
 また例えば、利用者が油圧警告灯35bの意味を質問するために「ビックリマークのランプの下のランプ何?」と発話した場合には、自然言語理解部11は、キーワード「ビックリマーク」、「ランプ」、「下」を抽出してよい。キーワード「ビックリマーク」及び「ランプ」は、構成物2の位置を示すための基準位置を示すキーワードであり、図3の例ではブレーキ警告灯35aを示している。「左下」は、基準位置(ブレーキ警告灯35aの位置)に対する構成物2の相対位置を示すキーワードである。
 また例えば、利用者がエンジン警告灯31dの意味を質問するために「ライトの表示灯の並びにある一番右のランプ何?」と発話した場合には、自然言語理解部11は、キーワード「ライト」、「ランプ」、「並び」、「一番右」を抽出してよい。キーワード「ライト」、「ランプ」、「並び」は、構成物2の位置を示すための基準位置を示すキーワードであり、図3の例ではフォグランプ表示灯31a、ハイビーム警告灯31b、ヘッドライト表示灯31cの配列を示している。「一番右」は、基準位置(ランプ31a~31cの配列の位置)に対する構成物2の相対位置を示すキーワードである。
 図4は、構成物2の他の一例であるステアリングホイールスイッチの配置の一例の模式図である。ステアリングホイールスイッチ41~46とは、ステアリングホイール40に設けられたスイッチである。
 例えば、ステアリングホイールスイッチ41~43は、車両1の自律走行制御機能を利用するためのスイッチ群である。例えば、ステアリングホイール40の右側の一番右のスイッチ41は、車両1の自律走行制御機能をオン/オフするメインスイッチである。ステアリングホイール40の真ん中のスイッチ42は、自律走行制御機能を開始するセット・コーストスイッチである。ステアリングホイール40の右側の一番左のスイッチ43は、自律走行制御機能を解除するキャンセルスイッチ43である。キャンセルスイッチ43は、利用者がステアリングホイール40を把持した場合(すなわち利用者がステアリングホイール40に指を置いた場合)に、利用者の右手の親指付近に位置するスイッチである。
 また例えば、ステアリングホイールスイッチ44~45は、車両1のオーディオ機能を利用するためのスイッチ群である。例えばステアリングホイール40の左側の下のスイッチ44は、車両1のオーディオ機能による楽曲の再生/停止を指示する再生停止スイッチである。ステアリングホイール40の左側の一番右のスイッチ45は、車両1のオーディオ機能の音量を大きくする音量スイッチである。音量スイッチ45は、利用者がステアリングホイール40を把持した場合に、利用者の左手の親指付近に位置するスイッチである。ステアリングホイール40の左側の一番左のスイッチ46は、車両1のオーディオ機能の音量を小さくする音量スイッチである。
 例えば、利用者が再生停止スイッチ44の意味を質問するために「ハンドル左側の下にあるスイッチ何?」と発話した場合には、自然言語理解部11は、キーワード「ハンドル」、「左側」、「下」、「スイッチ」を抽出してよい。キーワード「ハンドル」は、構成物2の位置を示すための基準位置を示すキーワードであり、「左側」、「下」は、基準位置(ステアリングホイール40の位置)に対する構成物2の相対位置を示すキーワードである。
 また例えば、基準位置を示すキーワードは、利用者がステアリングホイール40を把持した場合の利用者の指であってもよい。例えば利用者がキャンセルスイッチ43の意味を質問するために「右手親指あたりのスイッチ何?」と発話した場合に、自然言語理解部11は、キーワード「右手」、「親指」、「スイッチ」を抽出してよい。キーワード「右手」、「親指」は、構成物2の位置を示すための基準位置を示すキーワードであり、図3の例ではステアリングホイール40に置かれた利用者の右手親指を示している。
 また例えば、利用者がセット・コーストスイッチ42の意味を質問するために「キャンセルスイッチの右のスイッチ何?」と発話した場合には、自然言語理解部11は、キーワード「キャンセル」、「スイッチ」、「右」を抽出してよい。キーワード「キャンセル」及び「スイッチ」は、構成物2の位置を示すための基準位置を示すキーワードであり、図3の例でキャンセルスイッチ43を示している。「右」は、基準位置(キャンセルスイッチ43の位置)に対する構成物2の相対位置を示すキーワードである。
 また、自然言語理解部11は、構成物2の状態を示すキーワードを補助的に抽出してもよい。例えば自然言語理解部11は、利用者が警告灯の意味を質問するために「今ついたランプ何?」と発話した場合に、構成物2の状態を示すキーワードとして「点灯」を抽出してよい。また、例えば警報装置が出力した警報音の意味を質問するために利用者が「左前でピッと鳴ったのは何?」と発話した場合に構成物2の状態を示すキーワード「ピッと鳴る」を抽出してもよい。
 自然言語理解部11は、抽出した発話意図の情報と抽出したキーワードの情報を構成物特定部13へ出力する。
 図2を参照する。入力信号取得部12は、車載機器コントローラ3が生成した構成物2(車載機器)の制御信号を入力信号として取得する。例えば制御信号は、ランプのオンオフ信号であってもよい。また例えば制御信号は、警報装置による警報音の出力及び停止を指示する信号であってよい。また制御信号は、車両1のドアに設けられた窓を開放又は閉鎖する駆動信号や、窓の開放状態や閉鎖状態を示す状態信号であってもよい。
 また、入力信号取得部12は、車内センサ4の出力信号を入力信号として取得する。
 入力信号取得部12は、取得した構成物2の制御信号と車内センサ4の出力信号を、検出した状況を表現するために予め定めた特定のデータ形式に変換する。
 例えば入力信号取得部12は、制御信号をフラグ情報に変換し、構成物2の制御状態に応じてフラグの値を設定してよい。
 例えば、対象のランプが点灯状態の場合に値「True」に設定され消灯状態の場合に値「False」に設定されるフラグ情報に変換してよい。また例えば警報装置が動作して警報音を出力した場合に値「True」に設定され警報装置が動作していない場合に値「False」に設定されるフラグ情報に変換してよい。また例えば窓が開放状態にある場合に値「True」に設定され閉鎖状態である場合に値「False」に設定されるフラグ情報に変換してよい。
 また入力信号取得部12は、車内センサ4の出力信号をフラグ情報に変換し、車内センサ4が検出した物体の状態や位置に応じてフラグの値を設定してよい。
 例えば、車内カメラ、圧力センサ、シートベルトセンサ、生体センサなどの車内センサ4の出力信号に基づいて検出した車内の利用者の着座位置に応じたフラグを設定してよい。例えば、利用者が運転席に座っている場合にフラグの値を「True」に設定し、助手席に座っている場合にフラグの値を「False」に設定してよい。
 入力信号取得部12は、変換後の入力信号(以下、単に「入力信号」と表記する)を構成物特定部13へ出力する。
 構成物特定部13は、自然言語理解部11から出力された発話意図の情報とキーワードの情報を受信する。構成物特定部13は、自然言語理解部11から出力された構成物2の位置を示すキーワードに基づいて、発話内容で言及された構成物2を推定する。以下、発話内容で言及された構成物2を「対象構成物」と表記する。
 例えば、構成物特定部13は、構成物2がそれぞれ設けられている位置である構成物位置の情報を参照して、対象構成物を推定してもよい。例えば音声認識装置7の記憶装置9は、構成物位置の情報である構成物位置情報15を記憶してもよい。
 図5は、構成物位置情報15の一例の模式図である。構成物位置情報15には、複数行のレコードが格納されている。各々のレコードには、構成物の情報と、構成物に関するキーワードとが記録されている。すなわち、構成物位置情報15には、構成物の情報と、構成物に関するキーワードとが関連付けて記憶されている。
 構成物位置情報15に記憶されるキーワードは、少なくとも構成物の位置を示すキーワードを構成物位置の情報として含んでいる。構成物特定部13は、自然言語理解部11から出力されたキーワードに適合する(例えば合致する)キーワードに関連付けて構成物位置情報15に記憶された構成物2を、対象構成物と推定する。すなわち、発話内容で言及された言及位置に適合する(例えば合致する)構成物位置に設けられている構成物2を、対象構成物と推定する。
 例えば、利用者が「メータの上のランプ何?」と発話し、自然言語理解部11がキーワード「メータ」、「上」、「ランプ」を抽出した場合を想定する。「メータ」及び「上」は言及位置を示すキーワードである。構成物特定部13は、構成物位置情報15を参照して、自然言語理解部11が抽出したキーワード「メータ」、「上」、「ランプ」と同一のキーワードを含む第1行目のレコードを選択し、第1行目のレコードのタイヤ空気圧警告灯30を対象構成物と推定する。
 また例えば利用者が「スピードメータの左下のランプ何?」と発話し、自然言語理解部11がキーワード「スピードメータ」、「左下」、「ランプ」を抽出した場合を想定する。「スピードメータ」及び「左下」は言及位置を示すキーワードである。構成物特定部13は、構成物位置情報15を参照して、自然言語理解部11が抽出したキーワード「スピードメータ」、「左下」、「ランプ」と同一のキーワードを含む第2行目のレコードを選択し、第2行目のレコードのオートブレーキホールド表示灯33を対象構成物と推定する。
 また例えば利用者が「ビックリマークのランプの下のランプ何?」と発話し、自然言語理解部11がキーワード「ビックリマーク」、「ランプ」、「下」を抽出した場合を想定する。「ビックリマーク」、「ランプ」、「下」は言及位置を示すキーワードである。構成物特定部13は、構成物位置情報15を参照して自然言語理解部11が抽出したキーワード「ビックリマーク」、「ランプ」、「下」と同一のキーワードを含む第3行目のレコードを選択し、第3行目のレコードの油圧警告灯35bを対象構成物と推定する。
 また例えば利用者が「ハンドル左側の下にあるスイッチ何?」と発話し、自然言語理解部11がキーワード「ハンドル」、「左側」、「下」、「スイッチ」を抽出した場合を想定する。「ハンドル」、「左側」、「下」は言及位置を示すキーワードである。構成物特定部13は、構成物位置情報15を参照して、自然言語理解部11が抽出したキーワード「ハンドル」、「左側」、「下」、「スイッチ」と同一のキーワードを含む第4行目のレコードを選択し、第4行目のレコードの再生停止スイッチ44を対象構成物と推定する。
 また例えば利用者が「右手親指あたりのスイッチ何?」と発話し、自然言語理解部11がキーワード「右手」、「親指」、「スイッチ」を抽出した場合を想定する。「右手」及び「親指」は言及位置を示すキーワードである。構成物特定部13は、構成物位置情報15を参照して、自然言語理解部11が抽出したキーワード「右手」、「親指」、「スイッチ」と同一のキーワードを含む第5行目のレコードを選択し、第5行目のレコードのキャンセルスイッチ43を対象構成物と推定する。なお、このケースでは自然言語理解部11は、構成物2の位置を示すための基準位置を示すキーワード「右手」、「親指」を抽出しているが、基準位置「右手親指」に対する相対位置を示すキーワードが抽出していない。この場合、構成物位置に対する基準位置の相対位置は「近傍」であり、キーワードを用いて相対位置を示す必要がない。
 また例えば利用者が「キャンセルスイッチの右のスイッチ何?」と発話し、自然言語理解部11がキーワード「キャンセル」、「スイッチ」、「右」を抽出した場合を想定する。「キャンセル」、「スイッチ」、「右」は言及位置を示すキーワードである。構成物特定部13は、構成物位置情報15を参照して、自然言語理解部11が抽出したキーワード「キャンセル」、「スイッチ」、「右」と同一のキーワードを含む第6行目のレコードの構成物であるセット・コーストスイッチ42を対象構成物と推定する。
 なお、利用者が「今ついたタコメータの上のランプ何?」と発話した場合のように、位置を示すキーワード「タコメータ」、「上」が、複数の構成物2(この例ではフォグランプ表示灯31a、ハイビーム警告灯31b、ヘッドライト表示灯31c、エンジン警告灯31d)に該当することがある。
 この場合に、構成物特定部13は、入力信号取得部12から出力された入力信号に基づいて、複数の構成物2のいずれが対象構成物であるかを推定してもよい。例えば、発話内容から構成物2の状態を示すキーワードを抽出し、抽出されたキーワードが示す状態と同じ制御状態の構成物2を対象構成物と推定してもよい。
 上記の例では、発話内容「今ついた」から構成物2の状態を示すキーワード「点灯」が抽出された場合に、キーワード「タコメータ」、「上」に該当するフォグランプ表示灯31a、ハイビーム警告灯31b、ヘッドライト表示灯31c、エンジン警告灯31dのうち、入力信号に基づいて点灯状態にあるランプを選択して対象構成物と推定してもよい。
 また構成物特定部13は、自然言語理解部11から取得したキーワードの時系列に基づいて、発話内容で言及された言及位置を特定してもよい。例えば、構成物特定部13は、自然言語理解部11から取得したキーワードによって推定された対象構成物の時系列に基づいて言及位置を特定してもよい。例えば発話内容「右手親指あたりのスイッチ何?」に基づいてキャンセルスイッチ43を対象構成物と推定した後に、利用者が「その右側のスイッチ何?」と発話した場合、指示詞を示すキーワード「その」に基づいて前回の発話内容から推定された対象構成物(キャンセルスイッチ43)の位置を基準位置と特定し、基準位置(キャンセルスイッチ43)の右側にあるセット・コーストスイッチ42を対象構成物と推定してもよい。
 構成物特定部13は、利用者に聴覚情報を提示する構成物2の聴覚信号が聞こえる位置に基づいて、聴覚情報を提示する対象構成物を推定してもよい。例えば利用者が「右側のスピーカから聞こえた音何?」と発話し、自然言語理解部11がキーワード「右側」、「スピーカ」、「音」を抽出した場合に、経路案内を聴覚情報として提示するナビゲーションシステムを対象構成物と推定してもよい。
 また例えば利用者が「前から聞こえた音何?」と発話し、自然言語理解部11がキーワード「前」、「音」を抽出した場合に、利用者に警報音を提示する警報装置を対象構成物と推定してもよい。
 また例えば利用者が「右後方で鳴っている音何?」と発話し、自然言語理解部11がキーワード「右後方」、「音」を抽出した場合に、後側方車両接近警報装置を対象構成物と推定してもよい。
 さらに構成物特定部13は、利用者の着座位置に対する構成物2の相対位置を言及位置として特定してもよい。この場合、構成物特定部13は、入力信号取得部12から出力された入力信号に基づいて、利用者の着座位置を判定する。構成物特定部13は、利用者の着座位置の判定結果と、利用者の発話内容から抽出された相対位置を示すためにキーワードに基づいて、発話内容で言及された言及位置を特定してもよい。
 例えば、入力信号に基づいて利用者が運転席に着座していると判定され、利用者が「ここ開けて」と発話し、相対位置を示すキーワード「ここ」が抽出された場合には、言及位置は運転席の近傍である。このため、構成物特定部13は、運転席側の窓を対象構成物と推定してもよい。
 また例えば、利用者が運転席に着座していると判定され、利用者が「反対側開けて」と発話し、相対位置を示すキーワード「反対側」が抽出された場合には、言及位置は、運転席の車幅方向反対側の助手席近傍である。このため構成物特定部13は、助手席側の窓を対象構成物と推定してもよい。
 また構成物特定部13は、自然言語理解部11から取得したキーワードによって推定された対象構成物の時系列に基づいて言及位置を特定してもよい。例えば発話内容「ここ開けて」に基づいて運転席側の窓を対象構成物と推定した後に利用者が「後ろも開けて」と発話した場合を想定する。この場合に構成物特定部13は、前回の発話内容から推定された対象構成物(運転席側の窓)の位置を基準位置と特定し、今回の発話内容から相対位置を示すキーワード「後ろ」に基づいて、運転席側の窓の後ろの窓を対象構成物と推定してもよい。
 また例えば、右ハンドル車の利用者が運転席に着座していると判定され、利用者が「左にあるディスプレイ」や「左にあるスイッチ」と発話した場合には、言及位置は右座席の左側、すなわち車幅方向中央近傍である。このため構成物特定部13は、センタコンソールに配置されたスイッチやディスプレイを対象構成物と推定してもよい。
 なお、利用者の着座位置に対する構成物2の相対位置に基づいて対象構成物を推定する場合には、例えば、各々の構成物2に対して、利用者の着座位置に応じて異なる複数のレコードを格納し、着座位置に応じた相対位置を示すキーワードを各々のレコードに記憶すればよい。
 構成物特定部13は、推定した対象構成物の情報と、自然言語理解部11から出力された発話意図の情報とを制御部14へ出力する。
 なお、構成物特定部13は、構成物位置情報15の代わりに構成物位置を学習した学習モデル16を参照して対象構成物として推定してもよい。学習モデル16としては、例えばニューラルネットワーク、ルールベース(木構造)の推論モデルなど、様々な識別機を利用できる。
 学習モデル16に構成物位置を学習させる場合には、構成物位置を示すキーワード(例えば基準位置のキーワードと相対位置のキーワード)を例題データとして、例題のデータと正解ラベル(すなわち対象構成物)とを組み合わせた教師データを学習モデル16に与えて、例題データに対して正解ラベルを出力するように訓練する。
 入力信号取得部12が出力する入力信号を対象構成物の推定に用いる場合には、キーワードと入力信号とを例題データとしてもよい。
 なお、図2には構成物位置情報15及び学習モデル16の両方が記載されているが、音声認識装置7は、構成物位置情報15及び学習モデル16の両方を備える必要はない。構成物位置情報15を備える場合に学習モデル16を省略してもよく、学習モデル16を備える場合に構成物位置情報15を省略してもよい。
 制御部14は、構成物特定部13が特定した対象構成物と、自然言語理解部11が抽出して構成物特定部13を経由して入力された発話意図の情報とに基づいて、利用者の発話に対する応答を生成する。
 例えば、自然言語理解部11が抽出した発話意図が「意味の照会」である場合に、制御部14は推定した対象構成物に関する情報を出力するようにHMI6を制御してよい。例えば、制御部14は、対象構成物に関する情報の通知する応答メッセージと、HMI6に応答メッセージを出力させる命令信号を出力する。HMI6は、応答メッセージの音声情報とテキスト情報をそれぞれスピーカから出力したり、表示装置に表示してよい。
 対象構成物に関する情報は、例えば対象構成物の機能に関する機能情報であってもよい。例えば、対象構成物がメインスイッチ41である場合、機能情報として応答メッセージ「自律走行制御機能をオン/オフするスイッチです」を出力してよい。
 対象構成物に関する情報は、例えば対象構成物の機能を利用するための操作に関する操作情報であってもよい。例えば、対象構成物がセット・コーストスイッチ42である場合、操作情報として応答メッセージ「自律走行制御機能を開始するには、メインスイッチをオンにしてからセット・コーストスイッチを押してください」を出力してよい。
 また例えば、自然言語理解部11が抽出した発話意図が、車載機器の作動を指示する作動指示(例えば「窓の開放」)である場合に、制御部14は、推定した対象構成物を作動させてもよい。例えば、発話内容が「ここ開けて」であった場合に、制御部14は、利用者が着座する運転席側の窓を開放する命令信号を車載機器コントローラ3へ出力する。車載機器コントローラ3は、命令信号に従って運転席側の窓を開放する。
 なお、発話意図に対する応答として対象構成物を作動させる場合に、制御部14は、対象構成物を作動させるか否かの入力を利用者に促す通知を、HMI16から出力してもよい。
 例えば、構成物特定部13が利用者の発話内容から対象構成物を一意に決定できず、対象構成物の複数の候補を推定した場合に、推定した候補を作動させるか否かの入力を利用者に促す通知を、HMI16から出力してもよい。例えば、利用者の発話意図が窓の開放であり、対象構成物が運転席側の窓か助手席側の窓か区別できない場合に、対象構成物を作動させるか否かの入力を促す通知「運転席側の窓を開けますか」を出力してもよい。
 (動作)
 図6は、実施形態の音声認識方法の一例のフローチャートである。
 ステップS1においてHMI6は、利用者からの音声入力を取得する。
 ステップS2において音声認識部10は、利用者からの音声入力を認識してテキストなどの言語情報に変換する。自然言語理解部11は、音声認識部10から出力された言語情報を自然言語処理によって解析し、利用者の発話意図を抽出する。ステップS3において自然言語理解部11は、音声認識部10から出力された言語情報から、構成物2の位置を示すキーワードを抽出する。
 ステップS4において自然言語理解部11は、発話内容で言及された位置である言及位置を特定する。
 ステップS5において構成物特定部13は、発話内容で言及された研究位置に基づいて、発話内容で言及された対象構成物を推定する。
 ステップS6において制御部14は、構成物特定部13が特定した対象構成物と、自然言語理解部11が抽出した発話意図の情報とに基づいて、利用者の発話に対する応答を生成する。その後に処理は終了する。
 (実施形態の効果)
(1)音声認識装置7は、車両の利用者の発話内容を取得して、車両を構成している複数の構成物のうち発話内容で言及された構成物である対象構成物を推定する。音声認識装置7は、発話内容に基づいて発話内容で言及された位置である言及位置を特定する処理と、複数の構成物がそれぞれ設けられている位置である構成物位置を記憶した記憶装置又は構成物位置を学習した学習モデルを参照し、特定された言及位置と合致する構成物位置に設けられている構成物を、対象構成物として推定する処理を実行する。
 これにより、車両を構成している複数の構成物のうち利用者の発話内容で言及された構成物を推定する音声認識において、発話内容で言及された構成物の推定精度を向上できる。
 (2)構成物は、車両の車内に設けられ利用者に視覚情報を提示する機器であってもよい。これにより、視覚情報を提示する機器が発話内容で言及されているか否かを推定できる。
 (3)構成物は、車両の車内に設けられ利用者に聴覚情報を提示する機器であってもよい。これにより、聴覚情報を提示する機器が発話内容で言及されているか否かを推定できる。
 (4)音声認識装置7は、車両のインストルメンタルパネルに設けられたメータに対する構成物の相対位置を、言及位置として特定してもよい。音声認識装置7は、車両のインストルメンタルパネルに設けられたランプに対する構成物の相対位置を、言及位置として特定してもよい。音声認識装置7は、車両のステアリングホイールに対する構成物の相対位置を、言及位置として特定してもよい。音声認識装置7は、車両のステアリングホイールに設けられたスイッチに対する構成物の相対位置を、言及位置として特定してもよい。音声認識装置7は、利用者の指を車両のステアリングホイールに置いた場合の指の位置に対する構成物の相対位置を、言及位置として特定してもよい。
 また音声認識装置7は、車両における利用者の位置である利用者位置を検出し、発話内容と利用者位置とに基づいて言及位置を特定してもよい。
 これにより、利用者の発話内容に含まれる相対位置のキーワードを用いて対象構成物を推定できる。
 (5)音声認識装置7は、推定した対象構成物に関する情報を出力してもよい。例えば音声認識装置7は、推定した対象構成物の機能に関する機能情報を出力してもよい。例えば音声認識装置7は、推定した対象構成物の機能を利用するための操作に関する操作情報を出力してもよい。
 これにより、利用者の発話内容で言及された構成物についての情報を提供できる。
 (6)音声認識装置7は、対象構成物の推定結果に基づいて推定した対象構成物を作動させてもよい。これにより、車両を構成する構成物を音声入力で作動させることができる。
 (7)音声認識装置7は、対象構成物を作動させるか否かの入力を利用者に促す通知を出力してもよい。これにより例えば利用者の発話内容から対象構成物を一意に決定できず、対象構成物の複数の候補を推定した場合に、対象構成物の推定結果を利用者に確認できる。
 ここに記載されている全ての例及び条件的な用語は、読者が、本発明と技術の進展のために発明者により与えられる概念とを理解する際の助けとなるように、教育的な目的を意図したものであり、具体的に記載されている上記の例及び条件、並びに本発明の優位性及び劣等性を示すことに関する本明細書における例の構成に限定されることなく解釈されるべきものである。本発明の実施例は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であると解すべきである。
 1…車両、2…構成物、3…車載機器コントローラ、4…車内センサ、6…ヒューマンマシンインタフェース、7…音声認識装置、8…プロセッサ、9…記憶装置、10…音声認識部、11…自然言語理解部、12…入力信号取得部、13…構成物特定部、14…制御部、15…構成物位置情報、16…学習モデル

Claims (15)

  1.  車両の利用者の発話内容を取得して、前記車両を構成している複数の構成物のうち前記発話内容で言及された構成物である対象構成物を推定する音声認識方法であって、
     前記発話内容に基づいて前記発話内容で言及された位置である言及位置を特定する処理と、
     前記複数の前記構成物がそれぞれ設けられている位置である構成物位置を記憶した記憶装置又は前記構成物位置を学習した学習モデルを参照し、特定された前記言及位置と合致する前記構成物位置に設けられている構成物を、前記対象構成物として推定する処理と、
     をコントローラに実行させることを特徴とする音声認識方法。
  2.  前記構成物は、前記車両の車内に設けられ前記利用者に視覚情報を提示する機器であることを特徴とする請求項1に記載の音声認識方法。
  3.  前記構成物は、前記車両の車内に設けられ前記利用者に聴覚情報を提示する機器であることを特徴とする請求項1に記載の音声認識方法。
  4.  前記車両のインストルメンタルパネルに設けられたメータに対する前記構成物の相対位置を、前記言及位置として特定することを特徴とする請求項1又は2に記載の音声認識方法。
  5.  前記車両のインストルメンタルパネルに設けられたランプに対する前記構成物の相対位置を、前記言及位置として特定することを特徴とする請求項1又は2に記載の音声認識方法。
  6.  前記車両のステアリングホイールに対する前記構成物の相対位置を、前記言及位置として特定することを特徴とする請求項1又は2に記載の音声認識方法。
  7.  前記車両のステアリングホイールに設けられたスイッチに対する前記構成物の相対位置を、前記言及位置として特定することを特徴とする請求項1又は2に記載の音声認識方法。
  8.  前記利用者の指を前記車両のステアリングホイールに置いた場合の前記指の位置に対する前記構成物の相対位置を、前記言及位置として特定することを特徴とする請求項1又は2に記載の音声認識方法。
  9.  前記コントローラは、推定した前記対象構成物に関する情報を出力することを特徴とする請求項1~8のいずれか一項に記載の音声認識方法。
  10.  前記コントローラは、前記推定した対象構成物の機能に関する機能情報を出力することを特徴とする請求項9に記載の音声認識方法。
  11.  前記コントローラは、前記推定した前記対象構成物の機能を利用するための操作に関する操作情報を出力することを特徴とする請求項9に記載の音声認識方法。
  12.  前記コントローラは、前記対象構成物の推定結果に基づいて前記推定した前記対象構成物を作動させることを特徴とする請求項1に記載の音声認識方法。
  13.  前記コントローラは、前記対象構成物を作動させるか否かの入力を前記利用者に促す通知を出力することを特徴とする請求項12に記載の音声認識方法。
  14.  前記コントローラは、
     前記車両における前記利用者の位置である利用者位置を検出し、
     前記発話内容と前記利用者位置とに基づいて、前記言及位置を特定することを特徴とする請求項1~13のいずれか一項に記載の音声認識方法。
  15.  車両の利用者の発話内容を取得して、前記車両を構成している複数の構成物のうち前記発話内容で言及された構成物である対象構成物を推定する音声認識装置であって、
     前記発話内容に基づいて前記発話内容で言及された位置である言及位置を特定する処理と、
     前記複数の前記構成物がそれぞれ設けられている位置である構成物位置を記憶した記憶装置又は前記構成物位置を学習した学習モデルを参照し、特定された前記言及位置と合致する前記構成物位置に設けられている構成物を、前記対象構成物として推定する処理と、
     を実行するコントローラを備えることを特徴とする音声認識装置。
PCT/IB2022/000056 2022-01-26 2022-01-26 音声認識方法及び音声認識装置 WO2023144574A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/IB2022/000056 WO2023144574A1 (ja) 2022-01-26 2022-01-26 音声認識方法及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2022/000056 WO2023144574A1 (ja) 2022-01-26 2022-01-26 音声認識方法及び音声認識装置

Publications (2)

Publication Number Publication Date
WO2023144574A1 true WO2023144574A1 (ja) 2023-08-03
WO2023144574A8 WO2023144574A8 (ja) 2024-05-16

Family

ID=87470984

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2022/000056 WO2023144574A1 (ja) 2022-01-26 2022-01-26 音声認識方法及び音声認識装置

Country Status (1)

Country Link
WO (1) WO2023144574A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343829A (ja) * 2005-06-07 2006-12-21 Denso Corp 車両周辺撮影装置および車両周辺撮影方法
JP2015089697A (ja) * 2013-11-05 2015-05-11 トヨタ自動車株式会社 車両用音声認識装置
JP2019127192A (ja) * 2018-01-25 2019-08-01 トヨタ自動車株式会社 車載装置
JP2019183504A (ja) * 2018-04-10 2019-10-24 株式会社デンソー 車両用ドア制御装置
JP2020060861A (ja) * 2018-10-05 2020-04-16 本田技研工業株式会社 エージェントシステム、エージェント方法、およびプログラム
JP2020126166A (ja) * 2019-02-05 2020-08-20 本田技研工業株式会社 エージェントシステム、情報処理装置、情報処理方法、およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343829A (ja) * 2005-06-07 2006-12-21 Denso Corp 車両周辺撮影装置および車両周辺撮影方法
JP2015089697A (ja) * 2013-11-05 2015-05-11 トヨタ自動車株式会社 車両用音声認識装置
JP2019127192A (ja) * 2018-01-25 2019-08-01 トヨタ自動車株式会社 車載装置
JP2019183504A (ja) * 2018-04-10 2019-10-24 株式会社デンソー 車両用ドア制御装置
JP2020060861A (ja) * 2018-10-05 2020-04-16 本田技研工業株式会社 エージェントシステム、エージェント方法、およびプログラム
JP2020126166A (ja) * 2019-02-05 2020-08-20 本田技研工業株式会社 エージェントシステム、情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
WO2023144574A8 (ja) 2024-05-16

Similar Documents

Publication Publication Date Title
JP4380541B2 (ja) 車両用エージェント装置
CN108885836A (zh) 驾驶辅助方法和利用该驾驶辅助方法的驾驶辅助装置、自动驾驶控制装置、车辆、驾驶辅助系统以及程序
US11685390B2 (en) Assistance method and assistance system and assistance device using assistance method that execute processing relating to a behavior model
EP2806335A1 (en) Vehicle human machine interface with gaze direction and voice recognition
JP7190952B2 (ja) 制御装置、制御方法およびプログラム
JP6173477B2 (ja) ナビゲーション用サーバ、ナビゲーションシステムおよびナビゲーション方法
JP6062043B2 (ja) 移動体状態通知装置、サーバ装置および移動体状態通知方法
US20170221480A1 (en) Speech recognition systems and methods for automated driving
JP2000221049A (ja) 車両状況把握装置、エージェント装置、および、車両制御装置
JP6075577B2 (ja) 運転支援装置
JP6677126B2 (ja) 車両用対話制御装置
JP2006308848A (ja) 車両機器制御装置
US20190228767A1 (en) Speech recognition apparatus and method of controlling the same
US10207584B2 (en) Information providing apparatus for vehicle
JP2010072573A (ja) 運転評価装置
CN114758653A (zh) 对话系统、具有对话系统的车辆以及控制对话系统的方法
WO2023144574A1 (ja) 音声認識方法及び音声認識装置
CN112534499B (zh) 声音对话装置、声音对话系统以及声音对话装置的控制方法
JP2020144285A (ja) エージェントシステム、情報処理装置、移動体搭載機器制御方法、及びプログラム
JP2014218124A (ja) 操作支援装置及び操作支援方法
JP2020154098A (ja) 車載機器制御システム、車載機器制御装置、車載機器制御方法、及びプログラム
JP7320928B2 (ja) 運転評価装置及び運転評価方法
WO2023144573A1 (ja) 音声認識方法及び音声認識装置
JP6555113B2 (ja) 対話装置
JP2021089360A (ja) エージェント装置、エージェント方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22923691

Country of ref document: EP

Kind code of ref document: A1