WO2024029192A1 - 音声コマンド受付装置、および音声コマンド受付方法 - Google Patents

音声コマンド受付装置、および音声コマンド受付方法 Download PDF

Info

Publication number
WO2024029192A1
WO2024029192A1 PCT/JP2023/021310 JP2023021310W WO2024029192A1 WO 2024029192 A1 WO2024029192 A1 WO 2024029192A1 JP 2023021310 W JP2023021310 W JP 2023021310W WO 2024029192 A1 WO2024029192 A1 WO 2024029192A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice command
language
voice
command reception
reception unit
Prior art date
Application number
PCT/JP2023/021310
Other languages
English (en)
French (fr)
Inventor
領平 須永
Original Assignee
株式会社Jvcケンウッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2023015969A external-priority patent/JP2024022448A/ja
Application filed by 株式会社Jvcケンウッド filed Critical 株式会社Jvcケンウッド
Publication of WO2024029192A1 publication Critical patent/WO2024029192A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Definitions

  • the present disclosure relates to a voice command reception device and a voice command reception method.
  • Non-Patent Document 1 discloses a drive recorder that performs event recording by issuing a voice instruction in response to event detection based on acceleration.
  • the voice command for instructing the drive recorder to record an event is set in advance so that, for example, a voice command such as "Rokugakaishi" can be accepted.
  • Voice commands are required to consist of a certain number of syllables in order to prevent false detection due to other voices. For example, ⁇ Rokugakaishi'' consists of six syllables. Therefore, in order to have the voice command accurately recognized, the speaker often speaks while facing the direction of the microphone into which the spoken voice command is input, such as the direction of the drive recorder.
  • a typical drive recorder is installed at the front of the vehicle from the perspective of the passenger who is speaking, so voice commands input while facing the front of the vehicle in the direction of travel will be recognized appropriately. .
  • voice commands for instructing operations that require urgency or immediacy such as voice commands for recording events on a drive recorder
  • voice commands for recording events on a drive recorder may be delayed due to rewording of the voice commands. It ends up.
  • a situation in which a voice command is not properly recognized may occur, for example, when the person who speaks the voice command is not a person who can properly speak the voice command.
  • An object of the present disclosure is to provide a voice command reception device and a voice command reception method that can appropriately perform operations using voice commands.
  • the voice command reception device of the present disclosure includes a voice command reception unit that receives voice commands, a detection unit that acquires information regarding the language used by the person who speaks the voice command, and a voice command reception unit that receives voice commands.
  • an execution control unit that executes a function in response to the received voice command, and when the voice command reception unit determines that the language used by the person is a language that can be used as the voice command, If the voice command reception unit accepts a voice command when the recognition rate of the acquired voice command is equal to or higher than a first threshold, and it is determined that the language used by the person is not a language that can be used as the voice command, the voice command The voice command is accepted when the recognition rate of the voice command acquired by the reception unit is equal to or higher than a second threshold value, which is lower than the first threshold value.
  • the voice command reception method of the present disclosure includes the steps of acquiring information regarding the language used by the person who speaks the voice command, and if it is determined that the language used by the person is a language that can be used as the voice command, If the recognition rate of the voice command is equal to or higher than the first threshold and it is determined that the language used by the person is not a language that can be used as the voice command, then the recognition rate of the voice command is equal to or higher than the first threshold.
  • the voice command receiving device executes the steps of accepting a voice command at a second threshold value or more, which is lower than the first threshold value, and executing a function for the received voice command when the voice command is received.
  • FIG. 1 is a block diagram showing an example of the configuration of a recording apparatus according to the first embodiment.
  • FIG. 2 is a flowchart showing the flow of processing by the control unit according to the first embodiment.
  • FIG. 3 is a block diagram showing a configuration example of a voice command receiving device according to the second embodiment.
  • FIG. 4 is a flowchart showing the process flow of the voice command receiving device according to the second embodiment.
  • FIG. 5 is a block diagram showing a configuration example of a recording device according to the third embodiment.
  • FIG. 6 is a flowchart showing the flow of processing by the control unit according to the third embodiment.
  • FIG. 7 is a block diagram showing a configuration example of a voice command receiving device according to the fourth embodiment.
  • FIG. 8 is a flowchart showing the process flow of the voice command receiving device according to the fourth embodiment.
  • the voice command reception device is intended for various devices that operate using voice commands, and the devices to which it is applied are not limited by the following embodiments.
  • a recording device used in a vehicle will be described as an example of a voice command receiving device.
  • FIG. 1 is a block diagram showing an example of the configuration of a recording apparatus according to the first embodiment.
  • the recording device 1 is a so-called drive recorder that detects events that occur in a vehicle and records images based on user instructions.
  • the recording device 1 may be a device mounted on a vehicle, or may be a device that is portable and usable in the vehicle. Since the recording device 1 has a video playback function, it may also be referred to as a recording and playback device.
  • the recording device 1 may be realized by including the functions or configurations of a device installed in a vehicle in advance, a navigation device, or the like. Since the language used by passengers including the driver of the vehicle is registered as a voice command, the recording device 1 assigns a recognition rate to the received voice command depending on whether the language can be used for the voice command or not. Execute the process that changes the .
  • the recording device 1 includes a camera 10, a recording section 14, a display section 16, a microphone 18, an acceleration sensor 20, an operation section 22, and a GNSS (Global Navigation Satellite System) receiving section 24. and a control unit (recording control device) 26.
  • the recording device 1 may be a device that integrally includes the camera 10 and the microphone 18, or may be a device in which the camera 10 and the microphone 18 are configured separately.
  • the camera 10 is a camera that photographs the surroundings of the vehicle.
  • the camera 10 is, for example, a camera unique to the recording device 1 or a plurality of cameras that respectively take images of the front and back directions of the vehicle.
  • the camera 10 includes, for example, a plurality of cameras arranged facing the front and rear of the vehicle, and photographs the surrounding area centered on the front and rear of the vehicle.
  • the camera 10 may be, for example, a single camera capable of photographing the entire sky or half the sky.
  • the camera 10 outputs captured video data to the video data acquisition section 30 of the control section 26.
  • the video data is, for example, a moving image composed of images at 30 frames per second.
  • the recording unit 14 is used for temporary storage of data in the recording device 1.
  • the recording unit 14 is, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory, or a recording medium such as a memory card. Alternatively, it may be an external recording unit that is wirelessly connected via a communication device (not shown).
  • the recording unit 14 records loop recording video data or event data based on a control signal output from the recording control unit 36 of the control unit 26.
  • the display unit 16 is, for example, a display device specific to the recording device 1 or a display device shared with other systems including a navigation system.
  • the display section 16 may be formed integrally with the camera 10.
  • the display unit 16 is a display including, for example, a liquid crystal display (LCD) or an organic electro-luminescence (EL) display.
  • the display unit 16 is arranged on a dashboard, an instrument panel, a center console, etc. in front of the driver of the vehicle.
  • the display unit 16 displays video based on the video signal output from the recording control unit 36 of the control unit 26.
  • the display unit 16 displays an image captured by the camera 10 or an image recorded in the recording unit 14.
  • the microphone 18 collects audio data of the audio inside the vehicle.
  • the microphone 18 is placed at a position where it can capture sounds uttered by vehicle occupants including the driver.
  • the microphone 18 is placed, for example, on a dashboard, an instrument panel, a center console, or the like.
  • the microphone 18 picks up audio data related to the utterances and conversations of the passenger inside the vehicle interior, and outputs it to the detection unit 42 .
  • the microphone 18 picks up audio related to audio commands to the recording device 1 and outputs it to the audio command reception unit 44 .
  • the microphone 18 may output the collected audio to the video data acquisition unit 30, so that the recording control unit 36 may record loop recording video data or event data including the audio.
  • the acceleration sensor 20 is a sensor that detects acceleration that occurs to the vehicle.
  • the acceleration sensor 20 outputs the detection result to the event detection section 46 of the control section 26.
  • the acceleration sensor 20 is, for example, a sensor that detects acceleration in three axial directions.
  • the three axial directions are the longitudinal direction, the horizontal direction, and the vertical direction of the vehicle.
  • the operation unit 22 can accept various operations on the recording device 1.
  • the operation unit 22 can accept an operation to manually save captured video data in the recording unit 14 as event data.
  • the operation unit 22 can accept an operation for reproducing loop recorded video data or event data recorded in the recording unit 14.
  • the operation unit 22 can accept an operation to delete event data recorded in the recording unit 14.
  • the operation unit 22 can accept an operation to end loop recording.
  • the operation unit 22 outputs operation information to the operation control unit 48 of the control unit 26.
  • the GNSS receiving unit 24 is composed of a GNSS receiver that receives GNSS signals from GNSS satellites.
  • the GNSS reception unit 24 outputs the received GNSS signal to the position information acquisition unit 50 of the control unit 26.
  • the control unit 26 is a recording control device that controls each part of the recording apparatus 1.
  • the control unit 26 includes, for example, an information processing device such as a CPU (Central Processing Unit) or an MPU (Micro Processing Unit), and a RAM (Random Access Memory) or a ROM (Read Only). It has a storage device such as Memory).
  • the control unit 26 executes a program that controls the operation of the recording device 1 according to the present disclosure.
  • the control unit 26 may be realized by, for example, an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • the control unit 26 may be realized by a combination of hardware and software.
  • the control unit 26 includes a video data acquisition unit 30, a buffer memory 32, a video data processing unit 34, a recording control unit 36, a playback control unit 38, a display control unit 40, a detection unit 42, and a voice command reception unit.
  • the control unit 44, the event detection unit 46, the operation control unit 48, and the position information acquisition unit 50 are provided as functional blocks realized by the configuration of the control unit 26 or the execution of a program.
  • the video data acquisition unit 30 acquires video data of the surroundings of the vehicle. Specifically, the video data acquisition unit 30 acquires video data captured by the camera 10. The video data acquisition unit 30 outputs the acquired video data to the buffer memory 32.
  • the video data acquired by the video data acquisition unit 30 is not limited to only video data, but may be video data including video and audio.
  • the video data acquisition unit 30 may acquire, as the video data, video data obtained by photographing a full sky circumference or a half sky circumference.
  • the buffer memory 32 is an internal memory included in the recording device 1, and is a memory that temporarily records video data for a certain period of time acquired by the video data acquisition unit 30 while updating it.
  • the video data processing unit 34 converts the video data temporarily stored in the buffer memory 32 into, for example, H.
  • the file format is converted into an arbitrary file format such as the MP4 format, which is encoded using an arbitrary codec such as H.264 or MPEG-4 (Moving Picture Experts Group).
  • the video data processing unit 34 generates video data as a file for a certain period of time from the video data temporarily stored in the buffer memory 32.
  • the video data processing unit 34 generates 60 seconds of video data temporarily stored in the buffer memory 32 as a file in the recording order.
  • the video data processing section 34 outputs the generated video data to the recording control section 36.
  • the video data processing section 34 outputs the generated video data to the display control section 40.
  • the period of video data generated as a file is set to 60 seconds as an example, but is not limited to this.
  • the recording control unit 36 controls the recording unit 14 to record the video data that has been converted into a file by the video data processing unit 34. During a period when the loop recording process is executed, such as when the accessory power source of the vehicle is ON, the recording control unit 36 stores the video data that has been converted into a file in the video data processing unit 34 into the recording unit 14 as overwritable video data. to be recorded. The recording control unit 36 continues to record the video data generated by the video data processing unit 34 in the recording unit 14 during the period in which the loop recording process is executed, and when the capacity of the recording unit 14 becomes full, the oldest video data is recorded. overwrite and record new video data.
  • the recording control unit 36 stores video data including the time point at which the event detection is accepted as event data.
  • the recording control unit 36 stores the event data in the recording unit 14 as data that is prohibited from being overwritten. For example, the recording control unit 36 copies video data for a predetermined period of about 10 seconds before and after the time when the voice command receiving unit 44 receives an event detection based on a voice command from the buffer memory 32, and stores it as event data.
  • the recording control unit 36 stores video data including the time point at which the event was detected as event data.
  • the recording control unit 36 stores the event data in the recording unit 14 as data that is prohibited from being overwritten. For example, the recording control unit 36 copies video data for a predetermined period of about 10 seconds before and after the event detection unit 46 detects the event from the buffer memory 32, and stores it as event data.
  • the playback control unit 38 plays back the loop recorded video data or event data recorded in the recording unit 14 based on the playback operation control signal output from the operation control unit 48, and displays the played back video etc. on the display control unit 40. Control is performed to output to the display section 16.
  • the display control unit 40 controls the display of video data on the display unit 16.
  • the display control unit 40 outputs a video signal that causes the display unit 16 to output video data. More specifically, the display control unit 40 outputs a video signal to be displayed by reproducing the video captured by the camera 10 or the loop recorded video data or event data recorded in the recording unit 14.
  • the detection unit 42 detects a condition in the environment in which the voice command is uttered, under which the voice command is not properly recognized. In this embodiment, the detection unit 42 acquires information regarding the language used by the person who speaks the voice command. The detection unit 42 acquires information about a language normally used by the person who speaks the voice command, in other words, a language that the person who speaks the voice command uses on a daily basis, such as his or her native language. In the case of the recording device 1 used in a vehicle, the person who speaks the voice command is the passenger of the vehicle or the driver of the vehicle.
  • the detection unit 42 acquires the speech and conversation voices of the vehicle occupants from the voices collected by the microphone 18 while the vehicle is operating, and determines the language used by the vehicle occupants. Identify.
  • the detection unit 42 refers to a learning model in which feature quantities and the like are machine-learned for each of a plurality of languages, and identifies the language used by the passenger of the vehicle.
  • the detection unit 42 identifies one or more languages used by the vehicle occupant based on the voice of the vehicle occupant.
  • the detection unit 42 may identify the language being used by the vehicle occupant by operating the operation unit 22 .
  • the detection unit 42 detects a language that can be used for voice commands by determining whether the language used by the vehicle occupant matches the language registered as the voice command. Determine whether it exists or not.
  • the language registered as a voice command is a language in which words or phrases indicating a voice command are registered in the recording device 1. For example, the case where a voice command in Japanese is registered in the recording device 1 means that a voice command such as "start recording" in Japanese is registered.
  • a language that is not registered as a voice command, that is, a language that is not registered as a voice command, is a language in which no voice command is registered in the recording device 1.
  • the detection unit 42 detects a plurality of languages used by a vehicle passenger, and the detected languages include a language registered as a voice command and a language not registered. , the language used by the vehicle occupant is considered to be a language that is not registered as a voice command. The reason for this is that a passenger who uses a language that is not registered as a voice command may utter a voice command.
  • the voice command reception unit 44 accepts voice commands by recognizing the voice collected by the microphone 18.
  • the voice command reception unit 44 performs, for example, a sound source separation process and a voice recognition process on the voice collected by the microphone 18, and recognizes a voice command for starting event recording. If Japanese is registered as a voice command, the voice command for starting event recording is, for example, "start recording.”
  • the voice command receiving unit 44 recognizes six consecutive syllables of "Ro, Ku, Ga, Ka, I, Shi" in the voice collected by the microphone 18, it issues a control signal to start event recording processing. It is output to the recording control section 36.
  • the voice command reception unit 44 when the voice command reception unit 44 recognizes the voice indicating the word “RoKuGaKaIShi” in the voice collected by the microphone 18, it outputs a control signal for starting the event recording process to the recording control unit 36.
  • the voice command reception unit 44 determines whether the language used by the person speaking the voice command is a language registered as a voice command, and determines whether the language used by the person speaking the voice command is registered as a voice command.
  • the recognition rate of the voice for determining whether or not a voice command has been acquired is changed depending on whether the voice command is acquired or not.
  • the voice command receiving unit 44 transmits six consecutive syllables of "Ro, Ku, Ga, Ka, I, Shi". If all of the syllables match, it is determined that a voice command has been obtained.
  • the voice command receiving unit 44 sets, for example, 90% as the first threshold of the recognition rate for determining whether the voice command has been acquired. In this case, the voice command receiving unit 44 determines that a voice command has been obtained if 90% or more of the six syllables of "Ro, Ku, Ga, Ka, I, Shi" can be recognized.
  • the voice command reception unit 44 transmits six consecutive syllables of "Ro, Ku, Ga, Ka, I, Shi". If five or more syllables match, it is determined that a voice command has been obtained. In this case, the voice command reception unit 44 sets the recognition rate for determining that a voice command has been acquired to a second threshold value that is lower than the first threshold value. The voice command reception unit 44 sets the second threshold to 80%, for example. In this case, the voice command reception unit 44 determines that a voice command has been obtained if 80% or more of the six consecutive syllables of "Ro, Ku, Ga, Ka, I, Shi" can be recognized.
  • the voice command reception unit 44 when the language used by the vehicle passenger is a language registered as a voice command, the voice command reception unit 44 generates an acoustic model of a voice waveform indicating the word "RoKuGaKaIShi" and the input voice command.
  • the matching rate with the voice waveform is set to, for example, 90% as the first threshold of the recognition rate for determining the acquired voice command.
  • the voice command receiving unit 44 determines that a voice command has been acquired if the matching rate between the acoustic model of the voice waveform representing the word "RoKuGaKaIShi" and the waveform of the input voice is 90% or more. judge.
  • the voice command reception unit 44 sends an acoustic model of the voice waveform indicating the word "RoKuGaKaIShi" and the input
  • the matching rate with the voice waveform is set to, for example, 80% as a second threshold value that is lower than the first threshold value of the recognition rate to be determined based on the acquired voice command.
  • the voice command receiving unit 44 determines that a voice command has been acquired if the matching rate between the acoustic model of the voice waveform representing the word "RoKuGaKaIShi" and the waveform of the input voice is 80% or more. judge. That is, if the language used by the vehicle passenger is not a language registered as a voice command, the voice of the vehicle passenger is likely to be recognized as a voice command.
  • the event detection unit 46 detects an event based on acceleration applied to the vehicle.
  • the event detection unit 46 detects an event based on the detection result of the acceleration sensor 20.
  • the event detection unit 46 detects that an event has occurred when the acceleration information is equal to or greater than a preset threshold that corresponds to a vehicle collision.
  • the operation control unit 48 acquires operation information of the operation accepted by the operation unit 22.
  • the operation control unit 48 acquires storage operation information indicating a manual storage operation of video data, playback operation information indicating a playback operation, or deletion operation information indicating a video data deletion operation, and outputs a control signal.
  • the operation control unit 48 acquires end operation information indicating an operation to end loop recording and outputs a control signal.
  • the operation control unit 48 may acquire the operation information that is received by the operation unit 22 and sets the language used by the passenger of the vehicle.
  • the operation control section 48 replaces the function of the detection section 42 when acquiring operation information for setting the language used by the passenger of the vehicle.
  • the operation control unit 48 accepts an event recording operation based on the voice command recognized by the voice command reception unit 44.
  • the location information acquisition unit 50 acquires location information indicating the current location of the vehicle.
  • the position information acquisition unit 50 calculates the position information of the current position of the vehicle based on the GNSS signal received by the GNSS reception unit 24 using a known method.
  • FIG. 2 is a flowchart showing the flow of processing by the control unit 26 according to the first embodiment.
  • the flowchart shown in FIG. 2 is started when the engine of the vehicle in which the recording device 1 is mounted is started, or when electric power is supplied to the recording device 1.
  • step S10 the control unit 26 starts normal recording, so-called loop recording (step S10). Specifically, the recording control unit 36 transmits the video data captured by the camera 10 to the buffer memory 32, generates a video file for each video of a predetermined period, such as every 60 seconds, and stores the video data in the recording unit 14. The recording process is started and the process advances to step S12.
  • the detection unit 42 may start identifying the language used by the vehicle occupant.
  • the detection unit 42 may identify the language used by the passenger of the vehicle by acquiring utterances in the vehicle at the start of the flowchart shown in FIG. 2 .
  • guidance may be provided to the passenger of the vehicle to inquire about the language to be used through a display on the display unit 16 or by voice.
  • a language specified in the past may be set based on an in-vehicle camera (not shown) or information on a vehicle passenger or driver associated with a smart key.
  • the person lending the vehicle may set it in advance based on the nationality of the user, the result of the conversation, etc. For example, if only voice commands in Japanese are registered in the recording device 1, it is detected that utterances or conversations are being made in a language other than Japanese inside the vehicle. This is because such a passenger may not be able to utter a voice command in Japanese with appropriate pronunciation, or may not be able to utter a voice command in Japanese with appropriate pronunciation at once.
  • the voice command reception unit 44 determines whether the language used by the vehicle passenger who is the person who speaks the voice command is a language registered as a voice command (step S12).
  • the person who speaks the voice command may be limited to the driver of the vehicle, or may be a passenger other than the driver of the vehicle. If it is determined that the language used by the person speaking the voice command is a language registered as a voice command (step S12; Yes), the process advances to step S14. If it is determined that the language used by the person speaking the voice command is not a language registered as a voice command (step S12; No), the process advances to step S18.
  • step S12 the voice command reception unit 44 determines whether or not a voice command has been obtained from the vehicle occupant through the microphone 18 (step S14). If it is determined that the voice command has been acquired (step S14; Yes), the process advances to step S16. If it is not determined that the voice command has been acquired (step S14; No), the process advances to step S24.
  • step S14 the voice command reception unit 44 determines whether the recognition rate of the acquired voice command is equal to or higher than the first threshold (step S16). If it is determined that the recognition rate of the voice command is equal to or higher than the first threshold (step S16; Yes), the process proceeds to step S22. If it is not determined that the recognition rate of the voice command is equal to or higher than the first threshold (step S16; No), the process advances to step S24.
  • step S12 determines whether or not a voice command has been obtained from the passenger of the vehicle through the microphone 18 (step S18). If it is determined that the voice command has been acquired (step S18; Yes), the process advances to step S20. If it is not determined that the voice command has been acquired (step S18; No), the process advances to step S24.
  • step S18 the voice command reception unit 44 determines whether the recognition rate of the acquired voice command is equal to or higher than the second threshold (step S20). If it is determined that the recognition rate of the voice command is equal to or higher than the second threshold (step S20; Yes), the process proceeds to step S22. If it is not determined that the recognition rate of the voice command is equal to or higher than the second threshold (step S20; No), the process proceeds to step S24.
  • steps S14 and S18 in addition to determining whether a voice command has been acquired, it may be determined whether the acquired voice command is a voice command with high urgency or immediacy. In other words, in step S14 and step S18, it is determined whether a voice command with high urgency or immediacy has been obtained.
  • a highly urgent or immediate voice command is a voice command that requests an operation for a function that is required to start operating without delay upon acceptance of the voice command.
  • a highly urgent or immediate voice command in the recording device 1 is a voice command that instructs event recording.
  • step S16 If the determination is Yes in step S16 or Yes in step S20, the recording control unit 36 stores the event data in the recording unit 14 (step S22). Specifically, the recording control unit 36 stores the first video data before and after the time when the voice command reception unit 44 acquired the voice command as event data in the recording unit 14, and proceeds to step S24.
  • step S24 determines whether or not to end the process. Specifically, when the operation unit 22 receives an operation to turn off the power or an operation to end the process, or when the control unit 26 receives an operation to turn off the power or terminate processing, the control unit 26 controls the power of the engine of the vehicle in which the recording device 1 is installed. OFF, it is determined that the process is to be terminated. If it is determined that the process should be terminated (step S24; Yes), the process of FIG. 2 is terminated. If it is not determined that the process is to end (step S24; No), the process advances to step S12.
  • the language used by the vehicle passenger is a language registered as a voice command, and the language used is not registered as a voice command. Accept voice commands by changing the recognition rate for recognizing them as commands.
  • the voice command that the recording device 1 accepts is, for example, a voice command that instructs to record an event. Furthermore, the recording device 1 saves event data by accepting a voice command that instructs to record an event.
  • the language used by the vehicle occupant that is, the person who speaks the voice command
  • the language used is the language registered as a voice command.
  • voice commands are accepted with a lower recognition rate, and event data storage processing is executed.
  • the event data can be saved by issuing an operation instruction using a voice command, for example, an event recording instruction using a voice command. can be carried out appropriately.
  • the voice command receiving device in the second embodiment is a general-purpose device that performs operations using voice commands, and includes information on household devices such as smart speakers and television receivers, smartphones, tablet terminals, PCs, etc.
  • the present invention can be applied to devices, navigation devices, infotainment systems, etc. used in vehicles.
  • FIG. 3 is a block diagram showing a configuration example of the voice command receiving device 100 according to the second embodiment.
  • the voice command reception device 100 includes a voice command reception section 144, a detection section 142, and an execution control section 150.
  • the voice command receiving device 100 includes, for example, an information processing device such as a CPU or an MPU, and a storage device such as a RAM or ROM.
  • the voice command receiving device 100 executes a program according to the present disclosure.
  • the voice command receiving device 100 may be realized by, for example, an integrated circuit such as an ASIC or an FPGA.
  • the voice command receiving device 100 may be realized by a combination of hardware and software.
  • the voice command receiving device 100 is a control unit that controls a device that uses voice commands, like the control unit 26 in the first embodiment. For this reason, the voice command receiving device 100 may include additional components for operating or functioning based on the received voice commands.
  • the voice command receiving device 100 acquires voice from the microphone 118.
  • Microphone 118 may be a component of voice command receiving device 100.
  • the microphone 118 picks up the voice spoken by the speaker.
  • the microphone 118 outputs audio related to the collected audio to the audio command receiving device 100.
  • the microphone 118 may be configured integrally with the voice command receiving device 100, or may be configured separately.
  • the voice command reception unit 144 accepts voice commands.
  • the voice command reception unit 144 accepts voice commands, for example, by recognizing the voice picked up by the microphone 118.
  • the voice command reception unit 144 has the same functions as the voice command reception unit 44 in the first embodiment.
  • the detection unit 142 detects a condition in an environment where a voice command is uttered, in which a voice command is not properly recognized. In this embodiment, the detection unit 142 acquires information regarding the language used by the person who speaks the voice command. The detection unit 142 acquires information about a language normally used by the person who speaks the voice command, in other words, a language that the person who speaks the voice command uses on a daily basis, as the language used by the person who speaks the voice command. The detection unit 142 has the same function as the detection unit 42 in the first embodiment.
  • the execution control unit 150 causes the function corresponding to the received voice command to be executed.
  • the voice command reception unit 144 Based on the detection result of the detection unit 142, the voice command reception unit 144 issues a voice command depending on whether the language used by the person speaking the voice command is a language that is registered as a voice command and can be used. It accepts voice commands by changing the recognition rate. For example, if the voice command reception unit 144 determines that the language used by the person speaking the voice command is a language registered as a voice command, the voice command reception unit 144 accepts the voice command with a recognition rate equal to or higher than the first threshold value.
  • the voice command reception unit 144 determines that the language used by the person who speaks the voice command is not a language registered as a voice command, the voice command reception unit 144 accepts the voice command at a second threshold or higher, which is lower than the first threshold. accept.
  • the voice command reception unit 144 may accept voice commands with a recognition rate equal to or higher than the second threshold value for voice commands with high urgency or immediacy.
  • voice commands with high urgency or immediacy include emergency calls, emergency communications, instructions to start recording broadcast content, instructions to stop functions with high continuation risk, etc. These are voice commands for functions where a delay from the point of operation is undesirable, or where there is a risk or negative impact due to a delay.
  • FIG. 4 is a flowchart showing the process flow of the voice command receiving device 100 according to the second embodiment.
  • the detection unit 142 extracts the language used by the person speaking the voice command (step S40), and proceeds to step S42. Specifically, the detection unit 142 extracts the language used by the person speaking the voice command based on the content of the voice uttered in the vicinity of the voice command reception device 100.
  • the voice command receiving unit 144 determines whether the language used by the person speaking the voice command is a language registered as a voice command (step S42). Specifically, the voice command reception unit 144 detects the language registered as the voice command of the voice command reception device 100 based on the result of the detection unit 142 detecting the language used by the person speaking the voice command. Determine whether or not. If it is determined that the language used by the person speaking the voice command is a language registered as a voice command (step S42; Yes), the process advances to step S44. If it is determined that the language used by the person speaking the voice command is not a language registered as a voice command (step S42; No), the process advances to step S48.
  • step S42 the voice command reception unit 144 determines whether or not a voice command has been acquired by the microphone 118 (step S44). If it is determined that the voice command has been acquired (step S44; Yes), the process advances to step S46. If it is not determined that the voice command has been acquired (step S44; No), the process advances to step S54.
  • step S44 the voice command reception unit 144 determines whether the recognition rate of the acquired voice command is equal to or higher than the first threshold (step S46). If it is determined that the recognition rate of the voice command is equal to or higher than the first threshold (step S46; Yes), the process advances to step S52. If it is not determined that the recognition rate of the voice command is equal to or higher than the first threshold (step S46; No), the process advances to step S54.
  • step S48 determines whether a voice command has been acquired by the microphone 118 (step S48). If it is determined that the voice command has been acquired (step S48; Yes), the process advances to step S50. If it is not determined that the voice command has been acquired (step S48; No), the process advances to step S54.
  • step S50 the voice command reception unit 144 determines whether the recognition rate of the acquired voice command is equal to or higher than the second threshold (step S50). If it is determined that the recognition rate of the voice command is equal to or higher than the second threshold (step S50; Yes), the process advances to step S52. If it is not determined that the recognition rate of the voice command is equal to or higher than the second threshold (step S50; No), the process proceeds to step S54.
  • steps S44 and S48 in addition to determining whether a voice command has been acquired, it may be determined whether the acquired voice command is a voice command with high urgency or immediacy.
  • step S46 If the determination is Yes in step S46 or Yes in step S50, the execution control unit 150 executes the function in response to the voice command (step S52). Then, the process advances to step S54.
  • step S54 the voice command receiving device 100 determines whether or not to end the process. Specifically, the voice command receiving device 100 determines to end the process when it receives an operation to turn off the power or an operation to end the process. If it is determined that the process should be terminated (step S54; Yes), the process of FIG. 4 is terminated. If it is not determined that the process is to end (step S54; No), the process advances to step S42.
  • the language used by the person speaking the voice command is a language registered as a voice command, and the language used is not registered as a voice command. Change the recognition rate for recognizing the voice command as a voice command, accept the voice command, and execute the function for the voice command.
  • the recognition rate is lowered compared to the case where the language is registered as a voice command. Low to accept voice commands and perform functions in response to voice commands.
  • the person who speaks the voice command is using a language other than the language registered as a voice command, and is not in a state where he or she can properly speak the voice command. can also properly perform functions in response to voice commands.
  • a third embodiment will be described.
  • a recording device used in a vehicle will be described as an example of a voice command receiving device.
  • FIG. 5 is a block diagram showing a configuration example of a recording device according to the third embodiment. Since the recording device 1A according to the third embodiment has the same configuration and functions as the recording device 1 according to the first embodiment, in the following description, the same components as those in the recording device 1 are given the same reference numerals. However, detailed explanation thereof will be omitted.
  • the recording device 1A according to the third embodiment is a device that supports voice commands in multiple languages, in other words, a device in which voice commands in multiple languages are registered, and is a device that supports voice commands in multiple languages. , a device that selects and uses the language in which it accepts voice commands.
  • the recording device 1A has the same configuration as the recording device 1, and also includes a control section 26A.
  • the control unit 26A has the same configuration as the control unit 26, and further includes a setting unit 52.
  • the setting unit 52 sets the language in which the voice command reception unit 44 accepts voice commands.
  • the setting unit 52 sets at least one language from among a plurality of languages to which the voice command corresponds, for example, by operating the operation unit 22. In other words, the setting unit 52 selects and enables use of at least one language from voice commands corresponding to a plurality of languages in the recording device 1A.
  • the setting unit 52 allows the user of the recording device 1A to select and set the language in which voice commands will be accepted from a plurality of languages supported by the recording device 1A by operating the operation unit 22.
  • the detection unit 42 can be used for voice commands by determining whether the language used by the vehicle occupant matches the language set as the language for accepting voice commands. Determine whether the language is correct or not.
  • the language set as a language for accepting voice commands is a language selected from a plurality of languages in which words and phrases representing voice commands are registered in the recording device 1A. For example, if voice commands in Japanese, English, Chinese, and Korean are registered in the recording device 1A, and Japanese is selected as the language that accepts voice commands, "Start recording" in Japanese is selected. Voice commands such as "Kaishi" can be used.
  • languages that are not set as languages that accept voice commands are those that are registered in the recording device 1A, in addition to languages that are not set as languages that accept voice commands. This includes languages that are not available.
  • the voice command reception unit 44 accepts voice commands by recognizing the voice collected by the microphone 18. When Japanese is set as the language for accepting voice commands, for example, the voice command for starting event recording is "start recording.” The voice command reception unit 44 determines whether the language used by the person speaking the voice command is a language set as a language that accepts voice commands, and determines whether the language used by the person speaking the voice command is the language used by the person speaking the voice command. The speech recognition rate for determining whether or not a voice command has been acquired is changed depending on whether the language is set as a language that accepts commands.
  • the voice command reception unit 44 When the language used by the vehicle passenger is a language set as a language that accepts voice commands, the voice command reception unit 44 inputs a sequence of “Ro, Ku, Ga, Ka, I, and Shi”. If all syllables among the six syllables match, it is determined that a voice command has been obtained.
  • the voice command receiving unit 44 sets, for example, 90% as the first threshold of the recognition rate for determining whether the voice command has been acquired. In this case, the voice command receiving unit 44 determines that a voice command has been obtained if 90% or more of the six syllables of "Ro, Ku, Ga, Ka, I, Shi" can be recognized.
  • the voice command reception unit 44 inputs a sequence of “Ro, Ku, Ga, Ka, I, and Shi”. If 5 or more syllables match among the 6 syllables, it is determined that a voice command has been obtained. In this case, the voice command reception unit 44 sets the recognition rate for determining that a voice command has been acquired to a second threshold value that is lower than the first threshold value. The voice command reception unit 44 sets the second threshold to 80%, for example.
  • the voice command reception unit 44 determines that a voice command has been obtained if 80% or more of the six consecutive syllables of "Ro, Ku, Ga, Ka, I, Shi" can be recognized.
  • the language used by the vehicle's occupants is not one that is set to accept voice commands, the person speaking the voice commands may not be able to understand the voice commands with appropriate pronunciation or intonation.
  • the voice command has been uttered, and the voice command can be issued appropriately. is recognized.
  • the voice command reception unit 44 sends an acoustic model of a voice waveform indicating the word "RoKuGaKaIShi"
  • the matching rate with the waveform of the input voice is set to, for example, 90% as the first threshold of the recognition rate for determining the acquired voice command.
  • the voice command receiving unit 44 determines that a voice command has been acquired if the matching rate between the acoustic model of the voice waveform representing the word "RoKuGaKaIShi" and the waveform of the input voice is 90% or more. judge.
  • the voice command reception unit 44 sends an acoustic model of a voice waveform indicating the words "RoKuGaKaIShi"
  • the matching rate with the waveform of the input voice is set to, for example, 80% as a second threshold value that is lower than the first threshold value of the recognition rate for determining the acquired voice command.
  • the voice command receiving unit 44 determines that a voice command has been acquired if the matching rate between the acoustic model of the voice waveform representing the word "RoKuGaKaIShi" and the waveform of the input voice is 80% or more. judge. That is, if the language used by the vehicle occupant is not a language set as a language that accepts voice commands, the voice of the vehicle occupant is likely to be recognized as a voice command.
  • FIG. 6 is a flowchart showing the flow of processing by the control unit 26A according to the third embodiment.
  • the processing from step S60 and step S64 to step S74 shown in FIG. 6 is the same as the processing from step S10 and step S14 to step S24 shown in FIG. 2, so a description thereof will be omitted.
  • the voice command reception unit 44 determines whether the language used by the vehicle passenger who is the person who speaks the voice command is the language set as the language for accepting voice commands (step S62). In other words, the voice command reception unit 44 determines whether the language used by the vehicle passenger who is the person who speaks the voice command is the language set by the setting unit 52. If it is determined that the language used by the person speaking the voice command is the language set as the language for accepting voice commands (step S62; Yes), the process advances to step S64. If it is determined that the language used by the person speaking the voice command is not the language set as the language for accepting voice commands (step S62; No), the process advances to step S68.
  • the language used by the vehicle passenger is the language set as the language that accepts voice commands, and the case where the language used by the vehicle passenger is not the language set as the language that accepts voice commands.
  • the language used by the vehicle occupant that is, the person who speaks the voice command
  • the language that is set as the language that accepts the voice command is The voice command is accepted with a lower recognition rate compared to the case where the language is the one that is used, and the event data storage process is executed.
  • the event data storage process is executed.
  • a fourth embodiment will be described.
  • the voice command reception device in the fourth embodiment is applied to various devices that perform operations using voice commands, similar to the voice command reception device in the second embodiment.
  • FIG. 7 is a block diagram showing a configuration example of a voice command receiving device 100A according to the fourth embodiment.
  • the voice command reception device 100A according to the fourth embodiment has the same configuration as the voice command reception device 100 according to the second embodiment, so in the following description, the same components as the voice command reception device 100 will be referred to as the same components. The detailed explanation will be omitted.
  • the voice command reception device 100A has the same configuration as the voice command reception device 100, and further includes an operation section 122, an operation control section 148, and a setting section 152.
  • the operation unit 122 may be a component of the voice command receiving device 100A.
  • the operation unit 122 can accept various operations on the voice command reception device 100A.
  • the operation unit 122 can accept an operation for setting a language for accepting voice commands from among the plurality of languages supported by the voice command reception device 100A.
  • the operation unit 122 outputs operation information to the operation control unit 148.
  • the operation control unit 148 acquires operation information of the operation accepted by the operation unit 122. For example, the operation control unit 148 obtains operation information that sets the language in which voice commands are accepted.
  • the setting unit 152 sets the language in which the voice command reception unit 144 accepts voice commands.
  • the setting unit 152 has the same functions as the setting unit 52 in the third embodiment.
  • FIG. 8 is a flowchart showing the process flow of the voice command receiving device 100A according to the fourth embodiment. Since the processing from step S80 and step S84 to step S94 shown in FIG. 8 is the same as the processing from step S40 and step S44 to step S54 shown in FIG. 4, the explanation will be omitted.
  • step S82 the voice command receiving unit 144 determines whether the language is set as a language for accepting voice commands. Specifically, the voice command reception unit 144 sets the language in which the voice command reception device 100A accepts voice commands based on the result of the detection unit 142 detecting the language used by the person speaking the voice command. Determine whether it is a language. If it is determined that the language used by the person speaking the voice command is the language set as the language for accepting voice commands (step S82; Yes), the process advances to step S84. If it is determined that the language used by the person speaking the voice command is not the language set as the language for accepting voice commands (step S82; No), the process advances to step S88.
  • the language used by the person who speaks the voice command is the language set as the language that accepts voice commands, and the language used is not the language set as the voice command. Then, the recognition rate for recognizing the voice as a voice command is changed, the voice command is accepted, and the function corresponding to the voice command is executed.
  • the language used by the person who speaks the voice command is not the language set as the language that accepts voice commands, compared to the case where the language is set as the language that accepts voice commands, It accepts voice commands with a low recognition rate and executes the function in response to the voice commands.
  • the fourth embodiment provides a situation in which the person who speaks the voice command is using a language other than the language set as the language that accepts voice commands, and is not in a state where he or she can properly speak the voice command.
  • the functions for voice commands can be executed appropriately.
  • the voice command reception device and voice command reception method according to the present disclosure are applicable to household devices such as smart speakers and television receivers, information devices such as smartphones, tablet terminals, and PCs, and navigation devices and infotainment systems used in vehicles. It is applicable to

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

音声コマンド受付装置は、音声コマンドを受け付ける音声コマンド受付部と、音声コマンドを発話する人物が使用する言語に関する情報を取得する検出部と、音声コマンド受付部が音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させる実行制御部と、を備え、音声コマンド受付部は、音声コマンドを発話する人物が使用する言語が音声コマンドとして使用可能な言語であると判断した場合は、音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、音声コマンドを発話する人物が使用する言語が音声コマンドとして使用可能な言語ではないと判断した場合は、音声コマンド受付部が取得した音声コマンドの認識率が、第一閾値より低い第二閾値以上で音声コマンドを受け付ける。

Description

音声コマンド受付装置、および音声コマンド受付方法
 本開示は、音声コマンド受付装置、および音声コマンド受付方法に関する。
 音声コマンドによって操作を行う装置が多様化している。例えば、車両用記録装置、いわゆるドライブレコーダにおいては、加速度センサによる衝撃検出に加え、音声コマンドによってイベント記録を行うものもある(例えば、非特許文献1)。音声コマンドによるイベント記録は、自らが事故の当事者ではない場合の事故を記録する場合など、運転中にタッチパネル等の操作を必要とせず、安全にイベント記録を行うことができる。特許文献1には、加速度によるイベント検出に対して音声による指示を行うことで、イベント記録を行うドライブレコーダが開示されている。
特開2020-154904号公報
DRV-MR760[令和3年12月20日検索]、インターネット(URL:https://www.kenwood.com/jp/car/drive-recorders/products/drv-mr760/)
 ドライブレコーダにイベント記録を指示する音声コマンドは、例えば「ろくがかいし」のような音声コマンドが受け付けられるよう予め設定されている。音声コマンドは、他の音声による誤検出を防止するため、ある程度の音節数で構成されることが要求される。例えば「ろくがかいし」は6音節からなる。このため、音声コマンドを正確に認識させるために、発話者はドライブレコーダの方向など、音声コマンドの発話音声を入力するマイクロフォンの方向を向いて発話することが多い。一般的なドライブレコーダは、発話者である搭乗者から見て車両の前方に設置されていることから、車両の前方である進行方向を向いた状態での音声コマンド入力は、適切に認識される。
 しかし、音声コマンドが適切に認識されないような状況において音声コマンドが発話された場合、音声コマンドの認識率が低くなることから、音声コマンドによる指示が受け付けられない場合が生じる。このような場合、例えば、ドライブレコーダにおけるイベント記録を行う場合の音声コマンドなど、緊急性や即時性を要する操作を指示するための音声コマンドは、音声コマンドの言い直しなどによって、操作に遅れが生じてしまう。音声コマンドが適切に認識されないような状況とは、例えば、音声コマンドを発話する人物が、音声コマンドを適切に発話できる人物ではない場合に生じる可能性がある。
 本開示は、音声コマンドによる操作を適切に行うことができる音声コマンド受付装置、および音声コマンド受付方法を提供することを目的とする。
 本開示の音声コマンド受付装置は、音声コマンドを受け付ける音声コマンド受付部と、前記音声コマンドを発話する人物が使用する言語に関する情報を取得する検出部と、前記音声コマンド受付部が音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させる実行制御部と、を備え、前記音声コマンド受付部は、前記人物が使用する言語が前記音声コマンドとして使用可能な言語であると判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして使用可能な言語ではないと判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける。
 本開示の音声コマンド受付方法は、音声コマンドを発話する人物が使用する言語に関する情報を取得するステップと、前記人物が使用する言語が前記音声コマンドとして使用可能な言語であると判断した場合は、前記音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして使用可能な言語ではないと判断した場合は、前記音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付けるステップと、前記音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させるステップと、を音声コマンド受付装置が実行する。
 本開示によれば、音声コマンドによる操作を適切に行うことができる。
図1は、第一実施形態に係る記録装置の構成例を示すブロック図である。 図2は、第一実施形態に係る制御部の処理の流れを示すフローチャートである。 図3は、第二実施形態に係る音声コマンド受付装置の構成例を示すブロック図である。 図4は、第二実施形態に係る音声コマンド受付装置の処理の流れを示すフローチャートである。 図5は、第三実施形態に係る記録装置の構成例を示すブロック図である。 図6は、第三実施形態に係る制御部の処理の流れを示すフローチャートである。 図7は、第四実施形態に係る音声コマンド受付装置の構成例を示すブロック図である。 図8は、第四実施形態に係る音声コマンド受付装置の処理の流れを示すフローチャートである。
 以下、添付図面を参照して、本開示に係る実施形態を詳細に説明する。なお、この実施形態により本開示が限定されるものではなく、また、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。また、本開示に係る音声コマンド受付装置は、音声コマンドを用いて操作を行う様々な装置を想定しており、以下の実施の形態により、適用される装置が限定されるものではない。
 [第一実施形態]
 第一実施形態においては、音声コマンド受付装置の例として、車両において用いられる記録装置について説明する。
 (記録装置)
 図1を用いて、第一実施形態に係る記録装置の構成例を説明する。図1は、第一実施形態に係る記録装置の構成例を示すブロック図である。
 記録装置1は、車両に対して発生したイベントの検出や、ユーザの指示によって映像などを記録する、いわゆるドライブレコーダである。記録装置1は、車両に載置されている装置であってもよいし、可搬型で車両において利用可能な装置であってもよい。記録装置1は、映像の再生機能を備えることから、記録再生装置と言い換えてもよい。記録装置1は、車両にあらかじめ設置されている装置やナビゲーション装置等の機能または構成を含んで実現されてもよい。記録装置1は、車両の運転者を含む搭乗者が使用する言語が音声コマンドとして登録されていることによって、音声コマンドに使用可能な言語であるか否かに応じて、受け付ける音声コマンドに認識率を変更する処理を実行する。
 図1に示すように、記録装置1は、カメラ10と、記録部14と、表示部16と、マイクロフォン18と、加速度センサ20と、操作部22と、GNSS(Global Navigation Satellite System)受信部24と、制御部(記録制御装置)26と、を備える。記録装置1は、カメラ10と、マイクロフォン18とを一体的に含む装置であってもよく、カメラ10と、マイクロフォン18とが別体で構成された装置であってもよい。
 カメラ10は、車両の周辺を撮影するカメラである。カメラ10は、一例としては、記録装置1に固有のカメラ、または、車両の前後方向などをそれぞれ撮影する複数のカメラである。第一実施形態では、カメラ10は、例えば、車両の前方および後方を向いて配置される複数のカメラで構成され、車両の前方および後方を中心とした周辺を撮影する。カメラ10は、例えば、全天周や半天周を撮影可能な単一のカメラであってもよい。カメラ10は、撮影した映像データを制御部26の映像データ取得部30へ出力する。映像データは、例えば毎秒30フレームの画像から構成される動画像である。
 記録部14は、記録装置1におけるデータの一時記憶などに用いられる。記録部14は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、または、メモリカードなどの記録媒体である。または、図示しない通信装置を介して無線接続される外部記録部であってもよい。記録部14は、制御部26の記録制御部36から出力された制御信号に基づいて、ループ記録映像データまたはイベントデータを記録する。
 表示部16は、例えば、記録装置1に固有の表示装置、または、ナビゲーションシステムを含む他のシステムと共用した表示装置などである。表示部16は、カメラ10と一体に形成されていてもよい。表示部16、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)または有機EL(Organic Electro-Luminescence)ディスプレイなどを含むディスプレイである。第一実施形態では、表示部16は、車両の運転者前方の、ダッシュボード、インストルメントパネル、センターコンソールなどに配置されている。表示部16は、制御部26の記録制御部36から出力された映像信号に基づいて、映像を表示する。表示部16は、カメラ10が撮影している映像、または、記録部14に記録された映像を表示する。
 マイクロフォン18は、車両の車室内の音声の音声データを収音する。第一実施形態では、マイクロフォン18は、運転者を含む車両の搭乗者が発話する音声を取得可能な位置に配置される。マイクロフォン18は、例えば、ダッシュボード、インストルメントパネル、センターコンソールなどに配置されている。マイクロフォン18は、車両の車室内における搭乗者の発話や会話に関する音声データを収音し、検出部42に出力する。マイクロフォン18は、記録装置1に対する音声コマンドに関する音声を収音し、音声コマンド受付部44に出力する。マイクロフォン18は、収音した音声を、映像データ取得部30に出力することで、記録制御部36は、音声を含むループ記録映像データまたはイベントデータを記録してもよい。
 加速度センサ20は、車両に対して生じる加速度を検出するセンサである。加速度センサ20は、検出結果を制御部26のイベント検出部46に出力する。加速度センサ20は、例えば3軸方向の加速度を検出するセンサである。3軸方向とは、車両の前後方向、左右方向、および上下方向である。
 操作部22は、記録装置1に対する各種操作を受付可能である。例えば、操作部22は、撮影した映像データを記録部14にイベントデータとして手動で保存する操作を受付可能である。例えば、操作部22は、記録部14に記録したループ記録映像データまたはイベントデータを再生する操作を受付可能である。例えば、操作部22は、記録部14に記録したイベントデータを消去する操作を受付可能である。例えば、操作部22は、ループ記録を終了する操作を受付可能である。操作部22は、操作情報を制御部26の操作制御部48に出力する。
 GNSS受信部24は、GNSS衛星からのGNSS信号を受信するGNSS受信機なで構成される。GNSS受信部24は、受信したGNSS信号を制御部26の位置情報取得部50へ出力する。
 制御部26は、記録装置1の各部を制御する、記録制御装置である。制御部26は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの情報処理装置と、RAM(Random Access Memory)又はROM(Read Only Memory)などの記憶装置とを有する。制御部26は、本開示に係る記録装置1の動作を制御するプログラムを実行する。制御部26は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。制御部26は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。
 制御部26は、映像データ取得部30と、バッファメモリ32と、映像データ処理部34と、記録制御部36と、再生制御部38と、表示制御部40と、検出部42と、音声コマンド受付部44と、イベント検出部46と、操作制御部48と、位置情報取得部50と、を制御部26の構成またはプログラムの実行によって実現される機能ブロックとして備える。
 映像データ取得部30は、車両の周辺を撮影した映像データを取得する。具体的には、映像データ取得部30は、カメラ10が撮影した映像データを取得する。映像データ取得部30は、取得した映像データを、バッファメモリ32に出力する。映像データ取得部30が取得する映像データは、映像のみのデータに限らず、映像と音声とを含む映像データであってもよい。映像データ取得部30は、映像データとして、全天周や半天周を撮影した映像データを取得してもよい。
 バッファメモリ32は、記録装置1が備える内部メモリであり、映像データ取得部30が取得した一定時間分の映像データを、更新しながら一時的に記録するメモリである。
 映像データ処理部34は、バッファメモリ32が一時的に記憶している映像データを、例えばH.264やMPEG-4(Moving Picture Experts Group)などの任意の方式のコーデックで符号化された、例えばMP4形式などの任意のファイル形式に変換する。映像データ処理部34は、バッファメモリ32が一時的に記憶している映像データから、一定時間分のファイルとした映像データを生成する。具体例として、映像データ処理部34は、バッファメモリ32が一時的に記憶している映像データを、記録順に60秒間の映像データをファイルとして生成する。映像データ処理部34は、生成した映像データを記録制御部36へ出力する。映像データ処理部34は、生成した映像データを表示制御部40へ出力する。ファイルとして生成される映像データの期間は、一例として60秒としたが、これには限定されない。
 記録制御部36は、映像データ処理部34でファイル化された映像データを、記録部14に記録させる制御を行う。記録制御部36は、車両のアクセサリ電源がONであるときなど、ループ記録処理を実行する期間は、映像データ処理部34でファイル化された映像データを、上書き可能な映像データとして、記録部14に記録する。記録制御部36は、ループ記録処理を実行する期間は、映像データ処理部34が生成した映像データを記録部14に記録し続け、記録部14の容量が一杯になった場合、最も古い映像データに新しい映像データを上書きして記録する。
 記録制御部36は、音声コマンド受付部44が音声コマンドによるイベント検出を受け付けた場合に、イベント検出を受け付けた時点を含む映像データをイベントデータとして保存する。記録制御部36は、イベントデータを上書きが禁止されたデータとして記録部14に保存する。例えば、記録制御部36は、音声コマンド受付部44が音声コマンドによるイベント検出を受け付けた時点の前後10秒程度の所定の期間の映像データをバッファメモリ32からコピーして、イベントデータとして保存する。
 記録制御部36は、イベント検出部46が、加速度センサ20の出力値に基づきイベントの発生を検出した場合に、イベントを検出した時点を含む映像データをイベントデータとして保存する。記録制御部36は、イベントデータを上書きが禁止されたデータとして記録部14に保存する。例えば、記録制御部36は、イベント検出部46がイベントを検出した時点の前後10秒程度の所定の期間の映像データをバッファメモリ32からコピーして、イベントデータとして保存する。
 再生制御部38は、操作制御部48から出力された再生操作の制御信号に基づいて、記録部14に記録されたループ記録映像データまたはイベントデータを再生し、再生した映像などを表示制御部40によって表示部16に出力させる制御を行う。
 表示制御部40は、表示部16における映像データの表示を制御する。表示制御部40は、映像データを表示部16に出力させる映像信号を出力する。より詳しくは、表示制御部40は、カメラ10が撮影している映像、または、記録部14に記録されたループ記録映像データまたはイベントデータの再生によって表示する映像信号を出力する。
 検出部42は、音声コマンドを発話する環境における、音声コマンドが適切に認識されない状況となる条件を検出する。本実施形態においては、検出部42は、音声コマンドを発話する人物が使用する言語に関する情報を取得する。検出部42は、音声コマンドを発話する人物が使用する言語として、音声コマンドを発話する人物が通常使用する言語、言い換えると、母国語など日常的に使用している言語に関する情報を取得する。音声コマンドを発話する人物は、車両において用いられる記録装置1の場合は、車両の搭乗者、車両の運転者である。
 検出部42は、例えば、車両が動作している期間、マイクロフォン18が集音した音声に対して、車両の搭乗者による発話や会話の音声を取得し、車両の搭乗者が使用している言語を特定する。検出部42は、複数の言語毎に特徴量等を機械学習させた学習モデルを参照し、車両の搭乗者が使用している言語を特定する。検出部42は、車両の搭乗者による発話や会話の音声に基づき、車両の搭乗者が使用している単数または複数の言語を特定する。検出部42は、車両の搭乗者が操作部22を操作することで、使用している言語を特定してもよい。
 本実施形態では、検出部42は、車両の搭乗者が使用している言語と、音声コマンドとして登録されている言語が一致するか否かを判断することによって、音声コマンドに使用可能な言語であるか否かを判断する。音声コマンドとして登録されている言語とは、記録装置1において、音声コマンドを示す単語や語句が登録されている言語である。記録装置1に、例えば、日本語による音声コマンドが登録されている場合とは、日本語による「録画開始(ろくがかいし)」のような音声コマンドが登録されていることである。音声コマンドとして登録されている言語ではない言語、つまり、音声コマンドとして登録されていない言語とは、記録装置1において、音声コマンドが登録されていない言語である。
 検出部42は、車両の搭乗者が使用している言語が複数検出された場合であって、検出された複数の言語が、音声コマンドとして登録されている言語と登録されていない言語である場合、車両の搭乗者が使用している言語は、音声コマンドとして登録されていない言語とみなす。その理由としては、音声コマンドとして登録されていない言語を使用する搭乗者が、音声コマンドを発話する可能性があることによる。
 音声コマンド受付部44は、マイクロフォン18が集音した音声を認識することで、音声コマンドを受け付ける。音声コマンド受付部44は、例えば、マイクロフォン18が集音した音声に対して、音源分離処理および音声認識処理を実行し、イベント記録を開始するための音声コマンドを認識する。イベント記録を開始するための音声コマンドは、音声コマンドとして日本語が登録されている場合、例えば、「録画開始(ろくがかいし)」である。音声コマンド受付部44は、マイクロフォン18が集音した音声において「Ro・Ku・Ga・Ka・I・Shi」の連続した6音節を認識した場合に、イベント記録処理を開始するための制御信号を記録制御部36に出力する。または、音声コマンド受付部44は、マイクロフォン18が集音した音声において「RoKuGaKaIShi」の単語を示す音声を認識した場合に、イベント記録処理を開始するための制御信号を記録制御部36に出力する。音声コマンド受付部44は、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語であるか否かを判断し、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語であるか否かに応じて、音声コマンドを取得した否かを判定するための音声の認識率を変更する。
 音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語である場合には、「Ro・Ku・Ga・Ka・I・Shi」の連続した6音節のうち、全ての音節が一致した場合に、音声コマンドを取得したと判定する。音声コマンド受付部44は、例えば、音声コマンドを取得した判定する認識率の第一閾値として、90%に設定する。この場合、音声コマンド受付部44は、「Ro・Ku・Ga・Ka・I・Shi」の6音節のうち、90%以上認識できた場合には、音声コマンドを取得したと判定する。
 音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語ではない場合には、「Ro・Ku・Ga・Ka・I・Shi」の連続した6音節のうち、5音節以上が一致した場合に、音声コマンドを取得したと判定する。この場合、音声コマンド受付部44は、音声コマンドを取得したと判定する認識率を第一閾値よりも低い第二閾値に設定する。音声コマンド受付部44は、例えば、第二閾値を80%に設定する。この場合、音声コマンド受付部44は、「Ro・Ku・Ga・Ka・I・Shi」の連続した6音節のうち、80%以上認識できた場合には、音声コマンドを取得したと判定する。すなわち、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語ではない場合のように、音声コマンドを発話する人物が、適切な発音や適切なイントネーションなどによる音声コマンドの発話に慣れていない状態や、適切な発話を咄嗟に行うことができない状態などにおいては、搭乗者の発話が完全に認識できなくとも、音声コマンドが発話されたと判定することで、適切に音声コマンドが認識される。
 また、音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語である場合には、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率を、音声コマンドを取得した判定する認識率の第一閾値として、例えば、90%に設定する。この場合、音声コマンド受付部44は、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率が90%以上である場合には、音声コマンドを取得したと判定する。
 また、音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語ではない場合には、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率を、音声コマンドを取得した判定する認識率の第一閾値よりも低い第二閾値として、例えば80%に設定する。この場合、音声コマンド受付部44は、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率が80%以上である場合には、音声コマンドを取得したと判定する。すなわち、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語ではない場合には、搭乗者の音声が音声コマンドとして認識されやすくなる。
 イベント検出部46は、車両に加わる加速度に基づくイベントを検出する。イベント検出部46は、加速度センサ20の検出結果に基づいて、イベントを検出する。イベント検出部46は、加速度情報が、車両の衝突に該当するような予め設定された閾値以上である場合、イベントが発生したことを検出する。
 操作制御部48は、操作部22が受け付けた操作の操作情報を取得する。例えば、操作制御部48は、映像データの手動保存操作を示す保存操作情報、再生操作を示す再生操作情報、または、映像データの消去操作を示す消去操作情報を取得して制御信号を出力する。例えば、操作制御部48は、ループ記録を終了する操作を示す終了操作情報を取得して制御信号を出力する。操作制御部48は、操作部22が受け付けた、車両の搭乗者が使用している言語を設定する操作情報を取得してもよい。操作制御部48は、車両の搭乗者が使用している言語を設定する操作情報を取得する場合は、検出部42の機能を代替する。
 操作制御部48は、音声コマンド受付部44が認識した音声コマンドによるイベント記録操作を受け付ける。
 位置情報取得部50は、車両の現在位置を示す位置情報を取得する。位置情報取得部50は、GNSS受信部24が受信したGNSS信号に基づいて、車両の現在位置の位置情報を公知の方法によって算出する。
 (制御部の処理)
 図2を用いて、第一実施形態に係る制御部の処理の流れを説明する。図2は、第一実施形態に係る制御部26の処理の流れを示すフローチャートである。図2に示すフローチャートは、記録装置1が装着されている車両のエンジンなどの動力が始動することや、記録装置1に電力が供給されることで開始される。
 処理の開始に伴い、制御部26は、通常記録、いわゆるループ記録を開始する(ステップS10)。具体的には、記録制御部36は、カメラ10が撮影した映像データをバッファメモリ32に送信し、例えば、60秒ごとのような所定期間の映像ごとに映像ファイルを生成し、記録部14に記録させる処理を開始し、ステップS12に進む。
 ステップS10の開始とともに、検出部42は、車両の搭乗者が使用している言語の特定を開始してもよい。検出部42による車両の搭乗者が使用している言語の特定は、図2に示すフローチャートの開始によって車両内の発話が取得されることで特定されてもよい。または、図2に示すフローチャートの開始によって、車両の搭乗者に対して、表示部16の表示や、音声によって使用言語を問い合わせる案内を行ってもよい。または、図示しない車室内カメラや、スマートキーに対応付けられた車両の搭乗者や運転者の情報に基づいて、過去に特定された言語が設定されてもよい。また、記録装置1が搭載されている車両がレンタカーなどであれば、車両の貸与者が、利用者の国籍や会話の結果などに基づき、予め設定してもよい。例えば、記録装置1において日本語による音声コマンドのみが登録されている場合、車室内での発話や会話が日本語以外の言語で行われていることを検出する。このような搭乗者は、適切な発音の日本語による音声コマンドを発話することができない場合や、適切な発音の日本語による音声コマンドを咄嗟に発話することができない場合などが生じるためである。
 音声コマンド受付部44は、音声コマンドを発話する人物である車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語であるか否かを判定する(ステップS12)。音声コマンドを発話する人物とは、車両の運転者に限定してもよく、車両の運転者以外の搭乗者であってもよい。音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語であると判定された場合(ステップS12;Yes)、ステップS14に進む。音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語ではないと判定された場合(ステップS12;No)、ステップS18に進む。
 ステップS12でYesと判定された場合、音声コマンド受付部44は、マイクロフォン18により車両の搭乗者から音声コマンドを取得したか否かを判定する(ステップS14)。音声コマンドを取得したと判定された場合(ステップS14;Yes)、ステップS16に進む。音声コマンドを取得したと判定されない場合(ステップS14;No)、ステップS24に進む。
 ステップS14でYesと判定された場合、音声コマンド受付部44は、取得した音声コマンドの認識率は第一閾値以上であるか否かを判定する(ステップS16)。音声コマンドの認識率が第一閾値以上であると判定された場合(ステップS16;Yes)、ステップS22に進む。音声コマンドの認識率が第一閾値以上であると判定されない場合(ステップS16;No)、ステップS24に進む。
 ステップS12でNoと判定された場合、音声コマンド受付部44は、マイクロフォン18により車両の搭乗者から音声コマンドを取得したか否かを判定する(ステップS18)。音声コマンドを取得したと判定された場合(ステップS18;Yes)、ステップS20に進む。音声コマンドを取得したと判定されない場合(ステップS18;No)、ステップS24に進む。
 ステップS18でYesと判定された場合、音声コマンド受付部44は、取得した音声コマンドの認識率は第二閾値以上であるか否かを判定する(ステップS20)。音声コマンドの認識率が第二閾値以上であると判定された場合(ステップS20;Yes)、ステップS22に進む。音声コマンドの認識率が第二閾値以上であると判定されない場合(ステップS20;No)、ステップS24に進む。
 ステップS14およびステップS18においては、音声コマンドを取得したか否かの判断に加えて、取得した音声コマンドが、緊急性または即時性の高い音声コマンドであるか否かを判断してもよい。言い換えると、ステップS14およびステップS18においては、緊急性または即時性の高い音声コマンドを取得したか否かを判定する。緊急性または即時性の高い音声コマンドとは、音声コマンドが受け付けられることで、遅延なく動作開始することが要求される機能に対する操作を要求する音声コマンドである。例えば、記録装置1における緊急性または即時性の高い音声コマンドとは、イベント記録を指示する音声コマンドである。
 ステップS16でYesまたはステップS20でYesと判定された場合、記録制御部36は、イベントデータを記録部14に保存する(ステップS22)。具体的には、記録制御部36は、音声コマンド受付部44が音声コマンドを取得した時点の前後の第一映像データをイベントデータとして記録部14に保存し、ステップS24に進む。
 ステップS14からステップS20でNoと判定された場合、またはステップS22の後、制御部26は、処理を終了するか否かを判定する(ステップS24)。具体的には、制御部26は、操作部22が電源をオフにする操作や、処理を終了する旨の操作を受け付けた場合、または、記録装置1が装着されている車両のエンジンなどの動力がOFFとなることで、処理を終了すると判定する。処理を終了すると判定された場合(ステップS24;Yes)、図2の処理を終了する。処理を終了すると判定されない場合(ステップS24;No)、ステップS12に進む。
 上述のとおり、第一実施形態は、車両の搭乗者が使用する言語が、音声コマンドとして登録されている言語である場合と、音声コマンドとして登録されている言語ではない場合とで、音声を音声コマンドとして認識するための認識率を変更して、音声コマンドを受け付ける。記録装置1が受け付ける音声コマンドは、例えば、イベント記録指示を行う音声コマンドである。また、記録装置1は、イベント記録指示を行う音声コマンドを受け付けることで、イベントデータの保存を行う。第一実施形態では、車両の搭乗者、つまり音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語ではない場合には、音声コマンドとして登録されている言語である場合と比較して、認識率を低くして音声コマンドを受け付け、イベントデータの保存処理を実行する。これにより、第一実施形態は、搭乗者が音声コマンドを適切に発話できる状態ではない場合であっても、音声コマンドによる操作指示、例えば音声コマンドによるイベント記録指示を行うことで、イベントデータの保存を適切に行うことができる。
 [第二実施形態]
 第二実施形態について説明する。第二実施形態における音声コマンド受付装置は、音声コマンドを用いて操作を行う汎用的な装置であり、例えば、スマートスピーカーやテレビジョン受信器などの家庭用装置、スマートフォン、タブレット端末、PCなどの情報装置、車両において用いられるナビゲーション装置やインフォテインメントシステムなどに適用可能である。
 図3を用いて、第二実施形態に係る音声コマンド受付装置の構成例について説明する。図3は、第二実施形態に係る音声コマンド受付装置100の構成例を示すブロック図である。
 図3に示すように、音声コマンド受付装置100は、音声コマンド受付部144と、検出部142と、実行制御部150と、を備える。音声コマンド受付装置100は、例えば、CPUやMPUなどの情報処理装置と、RAM又はROMなどの記憶装置とを有する。音声コマンド受付装置100は、本開示に係るプログラムを実行する。音声コマンド受付装置100は、例えば、ASICやFPGA等の集積回路により実現されてもよい。音声コマンド受付装置100は、ハードウェアと、ソフトウェアとの組み合わせで実現されてもよい。音声コマンド受付装置100は、第一実施形態における制御部26のように、音声コマンドを用いる装置を制御する制御部である。このため、音声コマンド受付装置100は、受け付けた音声コマンドに基づいて動作または機能するための構成要素が付加されていてもよい。
 音声コマンド受付装置100は、マイクロフォン118から音声を取得する。マイクロフォン118は、音声コマンド受付装置100の構成要素としてもよい。
 マイクロフォン118は、発話者が発話した音声を収音する。マイクロフォン118は、収音した音声に関する音声を音声コマンド受付装置100に出力する。マイクロフォン118は、音声コマンド受付装置100と一体に構成されていてもよいし、別体に構成されていてもよい。
 音声コマンド受付部144は、音声コマンドを受け付ける。音声コマンド受付部144は、例えば、マイクロフォン118が収音した音声を認識することで、音声コマンドを受け付ける。音声コマンド受付部144は、第一実施形態における音声コマンド受付部44と同様の機能を備える。
 検出部142は、音声コマンドを発話する環境における、音声コマンドが適切に認識されない状況となる条件を検出する。本実施形態においては、検出部142は、音声コマンドを発話する人物が使用する言語に関する情報を取得する。検出部142は、音声コマンドを発話する人物が使用する言語として、音声コマンドが発話する人物が通常使用する言語、言い換えると、母国後など日常的に使用している言語に関する情報を取得する。検出部142は、第一実施形態における検出部42と同様の機能を備える。
 実行制御部150は、音声コマンド受付部144が音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させる。
 音声コマンド受付部144は、検出部142の検出結果に基づき、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されていることによって使用可能な言語であるか否かに応じて音声コマンドの認識率を変化させて音声コマンドを受け付ける。音声コマンド受付部144は、例えば、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語であると判断した場合には、第一閾値以上の認識率で音声コマンドを受け付ける。音声コマンド受付部144は、例えば、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語ではないと判断した場合には、第一閾値よりも低い第二閾値以上で音声コマンドを受け付ける。
 音声コマンド受付部144は、緊急性または即時性の高い音声コマンドに対しては、第二閾値以上の認識率で音声コマンドを受け付けることとしてもよい。第二実施形態において、緊急性または即時性の高い音声コマンドとは、緊急通話、緊急通信、放送コンテンツの記録開始指示、継続リスクの高い機能の停止指示など、機能の実行開始や実行終了に対して、操作時点からの遅延が好ましくない、または遅延によって悪影響やリスクのある機能に対する音声コマンドである。
(音声コマンド受付装置の処理)
 図4を用いて、第二実施形態に係る音声コマンド受付装置の処理の流れを説明する。図4は、第二実施形態に係る音声コマンド受付装置100の処理の流れを示すフローチャートである。
 検出部142は、音声コマンドを発話する人物が使用する言語を抽出し(ステップS40)、ステップS42に進む。具体的には、検出部142は、音声コマンド受付装置100の近傍で発話されている発話内容などに基づき、音声コマンドを発話する人物が使用する言語を抽出する。
 音声コマンド受付部144は、音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語であるか否かを判定する(ステップS42)。具体的には、音声コマンド受付部144は、検出部142が音声コマンドを発話する人物が使用する言語を検出した結果に基づいて、音声コマンド受付装置100の音声コマンドとして登録されている言語であるか否かを判定する。音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語であると判定された場合(ステップS42;Yes)、ステップS44に進む。音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語ではないと判定される場合(ステップS42;No)、ステップS48に進む。
 ステップS42でYesと判定された場合、音声コマンド受付部144は、マイクロフォン118により音声コマンドを取得したか否かを判定する(ステップS44)。音声コマンドを取得したと判定された場合(ステップS44;Yes)、ステップS46に進む。音声コマンドを取得したと判定されない場合(ステップS44;No)、ステップS54に進む。
 ステップS44でYesと判定された場合、音声コマンド受付部144は、取得した音声コマンドの認識率は第一閾値以上であるか否かを判定する(ステップS46)。音声コマンドの認識率が第一閾値以上であると判定された場合(ステップS46;Yes)、ステップS52に進む。音声コマンドの認識率が第一閾値以上であると判定されない場合(ステップS46;No)、ステップS54に進む。
 ステップS42でNoと判定された場合、音声コマンド受付部144は、マイクロフォン118により音声コマンドを取得したか否かを判定する(ステップS48)。音声コマンドを取得したと判定された場合(ステップS48;Yes)、ステップS50に進む。音声コマンドを取得したと判定されない場合(ステップS48;No)、ステップS54に進む。
 ステップS48でYesと判定された場合、音声コマンド受付部144は、取得した音声コマンドの認識率は第二閾値以上であるか否かを判定する(ステップS50)。音声コマンドの認識率が第二閾値以上であると判定された場合(ステップS50;Yes)、ステップS52に進む。音声コマンドの認識率が第二閾値以上であると判定されない場合(ステップS50;No)、ステップS54に進む。
 ステップS44およびステップS48においては、音声コマンドを取得したか否かの判断に加えて、取得した音声コマンドが、緊急性または即時性の高い音声コマンドであるか否かを判断してもよい。
 ステップS46でYesまたはステップS50でYesと判定された場合、実行制御部150は、音声コマンドに対する機能を実行する(ステップS52)。そして、ステップS54に進む。
 ステップS44からステップS50でNoと判定された場合、またはステップS52の後、音声コマンド受付装置100は、処理を終了するか否かを判定する(ステップS54)。具体的には、音声コマンド受付装置100は、電源をオフにする操作や、処理を終了する旨の操作を受け付けた場合などに、処理を終了すると判定する。処理を終了すると判定された場合(ステップS54;Yes)、図4の処理を終了する。処理を終了すると判定されない場合(ステップS54;No)、ステップS42に進む。
 上述のとおり、第二実施形態は、音声コマンドを発話する人物が使用する言語が、音声コマンドとして登録されている言語である場合と、音声コマンドとして登録されている言語ではない場合とで、音声を音声コマンドとして認識するための認識率を変更して、音声コマンドを受け付け、音声コマンドに対する機能を実行する。第二実施形態では、音声コマンドを発話する人物が使用する言語が音声コマンドとして登録されている言語ではない場合には、音声コマンドとして登録されている言語である場合と比較して、認識率を低くして音声コマンドを受け付け、音声コマンドに対する機能を実行する。これにより、第二実施形態は、音声コマンドを発話する人物が音声コマンドとして登録されている言語ではない言語を使用している人物であり、音声コマンドを適切に発話できる状態ではない状況であっても、音声コマンドに対する機能を適切に実行することができる。
 [第三実施形態]
 第三実施形態について説明する。第三実施形態は、音声コマンド受付装置の例として、車両において用いられる記録装置について説明する。
 (記録装置)
 図5を用いて、第三実施形態に係る記録装置の構成例を説明する。図5は、第三実施形態に係る記録装置の構成例を示すブロック図である。第三実施形態に係る記録装置1Aは、第一実施形態に係る記録装置1と構成と機能が共通するため、以下の説明においては、記録装置1と同一の構成要素には同一の符号を付し、その詳細な説明は省略する。第三実施形態に係る記録装置1Aは、複数の言語による音声コマンドに対応している装置、言い換えると、複数の言語による音声コマンドが登録されている装置であり、対応している複数の言語から、音声コマンドを受け付ける言語を選択して用いる装置である。
 図5に示すように、記録装置1Aは、記録装置1と同一の構成に加えて、制御部26Aを備える。制御部26Aは、制御部26と同一の構成に加えて、設定部52をさらに備える。
 設定部52は、音声コマンド受付部44が音声コマンドを受け付ける言語を設定する。設定部52は、例えば、操作部22による操作によって、音声コマンドが対応する複数の言語から、少なくとも1つの言語を設定する。設定部52は、言い換えると、記録装置1Aにおいて複数の言語に対応する音声コマンドから、少なくとも1つの言語を選択して使用可能とする。
 設定部52は、記録装置1Aのユーザなどが、操作部22を操作することによって、記録装置1Aが対応している複数の言語から、音声コマンドを受け付ける言語を選択して設定する。
 本実施形態では、検出部42は、車両の搭乗者が使用している言語と、音声コマンドを受け付ける言語として設定されている言語が一致するか否かを判断することによって、音声コマンドに使用可能な言語であるか否かを判断する。音声コマンドを受け付ける言語として設定されている言語とは、記録装置1Aにおいて、音声コマンドを示す単語や語句が登録されている複数の言語から選択された言語である。記録装置1Aに、例えば、日本語、英語、中国語、韓国語の音声コマンドが登録されており、音声コマンドを受け付ける言語として日本語が選択されている場合、日本語による「録画開始(ろくがかいし)」のような音声コマンドが使用可能である。また、音声コマンドを受け付ける言語として設定されている言語ではない言語とは、記録装置1Aに登録されており、音声コマンドを受け付ける言語として設定されていない言語に加えて、記録装置1Aに登録されていない言語も含まれる。
 音声コマンド受付部44は、マイクロフォン18が集音した音声を認識することで、音声コマンドを受け付ける。音声コマンドを受け付ける言語として日本語が設定されている場合、例えば、イベント記録を開始するための音声コマンドは、「録画開始(ろくがかいし)」である。音声コマンド受付部44は、音声コマンドを発話する人物が使用する言語が音声コマンドを受け付ける言語として設定されている言語であるか否かを判断し、音声コマンドを発話する人物が使用する言語が音声コマンドを受け付ける言語として設定されている言語であるか否かに応じて、音声コマンドを取得した否かを判定するための音声の認識率を変更する。
 音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語である場合には、「Ro・Ku・Ga・Ka・I・Shi」の連続した6音節のうち、全ての音節が一致した場合に、音声コマンドを取得したと判定する。音声コマンド受付部44は、例えば、音声コマンドを取得した判定する認識率の第一閾値として、90%に設定する。この場合、音声コマンド受付部44は、「Ro・Ku・Ga・Ka・I・Shi」の6音節のうち、90%以上認識できた場合には、音声コマンドを取得したと判定する。
 音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではない場合には、「Ro・Ku・Ga・Ka・I・Shi」の連続した6音節のうち、5音節以上が一致した場合に、音声コマンドを取得したと判定する。この場合、音声コマンド受付部44は、音声コマンドを取得したと判定する認識率を第一閾値よりも低い第二閾値に設定する。音声コマンド受付部44は、例えば、第二閾値を80%に設定する。この場合、音声コマンド受付部44は、「Ro・Ku・Ga・Ka・I・Shi」の連続した6音節のうち、80%以上認識できた場合には、音声コマンドを取得したと判定する。すなわち、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではない場合のように、音声コマンドを発話する人物が、適切な発音や適切なイントネーションなどによる音声コマンドの発話に慣れていない状態や、適切な発話を咄嗟に行うことができない状態などにおいては、搭乗者の発話が完全に認識できなくとも、音声コマンドが発話されたと判定することで、適切に音声コマンドが認識される。
 また、音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語である場合には、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率を、音声コマンドを取得した判定する認識率の第一閾値として、例えば、90%に設定する。この場合、音声コマンド受付部44は、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率が90%以上である場合には、音声コマンドを取得したと判定する。
 また、音声コマンド受付部44は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではない場合には、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率を、音声コマンドを取得した判定する認識率の第一閾値よりも低い第二閾値として、例えば80%に設定する。この場合、音声コマンド受付部44は、「RoKuGaKaIShi」の単語を示す音声波形の音響モデルと、入力された音声の波形との一致率が80%以上である場合には、音声コマンドを取得したと判定する。すなわち、車両の搭乗者が使用する言語が、音声コマンド受け付ける言語として設定されている言語ではない場合には、搭乗者の音声が音声コマンドとして認識されやすくなる。
 (制御部の処理)
 図6を用いて、第三実施形態に係る制御部の処理の流れを説明する。図6は、第三実施形態に係る制御部26Aの処理の流れを示すフローチャートである。図6に示すステップS60、ステップS64からステップS74の処理は、図2に示すステップS10、ステップS14からステップS24の処理と同一であるため、説明を省略する。
 音声コマンド受付部44は、音声コマンドを発話する人物である車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語であるか否かを判定する(ステップS62)。言い換えると、音声コマンド受付部44は、音声コマンドを発話する人物である車両の搭乗者が使用する言語が、設定部52で設定された言語であるか否かを判定する。音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語であると判定された場合(ステップS62;Yes)、ステップS64に進む。音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではないと判定された場合(ステップS62;No)、ステップS68に進む。
 上述のとおり、第三実施形態は、車両の搭乗者が使用する言語が、音声コマンドを受け付ける言語として設定されている言語である場合と、音声コマンドを受け付ける言語として設定されている言語ではない場合とで、音声を音声コマンドとして認識するための認識率を変更して、音声コマンドを受け付ける。第三実施形態では、車両の搭乗者、つまり音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではない場合には、音声コマンドを受け付ける言語として設定されている言語である場合と比較して、認識率を低くして音声コマンドを受け付け、イベントデータの保存処理を実行する。これにより、第三実施形態は、搭乗者が音声コマンドを適切に発話できる状態ではない場合であっても、音声コマンドによる操作指示、例えばイベントデータの保存を適切に行うことができる。
 [第四実施形態]
 第四実施形態について説明する。第四実施形態における音声コマンド受付装置は、第二実施形態における音声コマンド受付装置と同様に、音声コマンドを用いて操作を行う様々な装置に適用される。
 図7を用いて、第四実施形態に係る音声コマンド受付装置の構成例を説明する。図7は、第四実施形態に係る音声コマンド受付装置100Aの構成例を示すブロック図である。第四実施形態に係る音声コマンド受付装置100Aは、第二実施形態に係る音声コマンド受付装置100と構成が共通するため、以下の説明においては、音声コマンド受付装置100と同一の構成要素には同一の符号を付し、その詳細な説明は省略する。
 図7に示すように、音声コマンド受付装置100Aは、音声コマンド受付装置100と同一の構成に加えて、操作部122、操作制御部148および設定部152をさらに備える。操作部122は、音声コマンド受付装置100Aの構成要素としてもよい。
 操作部122は、音声コマンド受付装置100Aに対する各種操作を受付可能である。操作部122は、音声コマンド受付装置100Aが対応している複数の言語から、音声コマンドを受け付ける言語を設定する操作を受け付け可能である。操作部122は、操作情報を操作制御部148に出力する。
 操作制御部148は、操作部122が受け付けた操作の操作情報を取得する。例えば、操作制御部148は、音声コマンドを受け付ける言語を設定する操作情報を取得する。
 設定部152は、音声コマンド受付部144が音声コマンドを受け付ける言語を設定する。設定部152は、第三実施形態における設定部52と同様の機能を備える。
(音声コマンド受付装置の処理)
 図8を用いて、第四実施形態に係る音声コマンド受付装置の処理の流れを説明する。図8は、第四実施形態に係る音声コマンド受付装置100Aの処理の流れを示すフローチャートである。図8に示すステップS80、ステップS84からステップS94の処理は、図4に示すステップS40、ステップS44からステップS54の処理と同一であるため、説明を省略する。
 ステップS82においては、音声コマンド受付部144は、音声コマンドを受け付ける言語として設定されている言語であるか否かを判定する。具体的には、音声コマンド受付部144は、検出部142が音声コマンドを発話する人物が使用する言語を検出した結果に基づいて、音声コマンド受付装置100Aが音声コマンドを受け付ける言語として設定されている言語であるか否かを判定する。音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語であると判定された場合(ステップS82;Yes)、ステップS84に進む。音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語ではないと判定される場合(ステップS82;No)、ステップS88に進む。
 上述のとおり、第四実施形態は、音声コマンドを発話する人物が使用する言語が、音声コマンドを受け付ける言語として設定されている言語である場合と、音声コマンドとして設定されている言語ではない場合とで、音声を音声コマンドとして認識するための認識率を変更して、音声コマンドを受け付け、音声コマンドに対する機能を実行する。第四実施形態では、音声コマンドを発話する人物が使用する言語が音声コマンドを受け付ける言語として設定されている言語ではない場合には、音声コマンドを受け付ける言語として設定されている場合と比較して、認識率を低くして音声コマンドを受け付け、音声コマンドに対する機能を実行する。これにより、第四実施形態は、音声コマンドを発話する人物が音声コマンドを受け付ける言語として設定されている言語ではない言語を使用している人物であり、音声コマンドを適切に発話できる状態ではない状況であっても、音声コマンドに対する機能を適切に実行することができる。
 以上、本開示の実施形態を説明したが、これら実施形態の内容により本開示が限定されるものではない。また、前述した構成要素には、当業者が容易に想定できるもの、実質的に同一のもの、いわゆる均等の範囲のものが含まれる。さらに、前述した構成要素は適宜組み合わせることが可能である。さらに、前述した実施形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換又は変更を行うことができる。
 本開示に係る音声コマンド受付装置、音声コマンド受付方法は、スマートスピーカーやテレビジョン受信器などの家庭用装置、スマートフォン、タブレット端末、PCなどの情報装置、車両において用いられるナビゲーション装置やインフォテインメントシステムなどに適用可能である。
 1、1A 記録装置
 10 カメラ
 14 記録部
 16 表示部
 18、118 マイクロフォン
 20 加速度センサ
 22、122 操作部
 24 GNSS受信部
 26 制御部(記録制御装置)
 30 映像データ取得部
 32 バッファメモリ
 34 映像データ処理部
 36 記録制御部
 38 再生制御部
 40 表示制御部
 42、142 検出部
 44、144 音声コマンド受付部
 46 イベント検出部
 48、148 操作制御部
 50 位置情報取得部
 52、152 設定部
 100、100A 音声コマンド受付装置
 150 実行制御部

Claims (7)

  1.  音声コマンドを受け付ける音声コマンド受付部と、
     前記音声コマンドを発話する人物が使用する言語に関する情報を取得する検出部と、
     前記音声コマンド受付部が音声コマンドを受け付けた場合に、受け付けた音声コマンド
    に対する機能を実行させる実行制御部と、
     を備え、
     前記音声コマンド受付部は、前記人物が使用する言語が前記音声コマンドとして使用可能な言語であると判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして使用可能な言語ではないと判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける、
     音声コマンド受付装置。
  2.  前記音声コマンド受付部は、前記人物が使用する言語が前記音声コマンドとして登録されていることによって使用可能な言語であると判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして登録されていることによって使用可能な言語ではないと判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける、
     請求項1に記載の音声コマンド受付装置。
  3.  前記音声コマンド受付部が音声コマンドを受け付ける言語を設定する設定部をさらに備え、
     前記音声コマンド受付部は、前記人物が使用する言語が、前記設定部で前記音声コマンドを受け付ける言語として設定されていることによって使用可能な言語であると判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が、前記設定部で前記音声コマンドを受け付ける言語として設定されていることによって使用可能な言語ではないと判断した場合は、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける、
     請求項1に記載の音声コマンド受付装置。
  4.  前記検出部は、前記人物の発話に基づいて、前記人物が使用する言語に関する情報を取得する、
     請求項1から3のいずれか1項に記載の音声コマンド受付装置。
  5.  前記音声コマンド受付部は、緊急性または即時性の高い音声コマンドに対して、前記音声コマンド受付部が取得した音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付ける、
     請求項1から3のいずれか1項に記載の音声コマンド受付装置。
  6.  前記音声コマンド受付装置は、車両において用いられる車両用記録制御装置であり、
     車両の周辺を撮影する第一撮影部が撮影した第一映像データを取得する映像データ取得部を備え、
     前記音声コマンド受付部は、音声コマンドによるイベント記録指示を受け付け、
     前記実行制御部は、前記音声コマンド受付部が音声コマンドによるイベント記録指示を受け付けた場合に、イベント記録指示を受け付けた時点を含む前記第一映像データをイベントデータとして保存する、
     請求項1から3のいずれか1項に記載の音声コマンド受付装置。
  7.  音声コマンドを発話する人物が使用する言語に関する情報を取得するステップと、
     前記人物が使用する言語が前記音声コマンドとして使用可能な言語であると判断した場合は、前記音声コマンドの認識率が第一閾値以上で音声コマンドを受け付け、前記人物が使用する言語が前記音声コマンドとして使用可能な言語ではないと判断した場合は、前記音声コマンドの認識率が、前記第一閾値より低い第二閾値以上で音声コマンドを受け付けるステップと、
     前記音声コマンドを受け付けた場合に、受け付けた音声コマンドに対する機能を実行させるステップと、
     を音声コマンド受付装置が実行する音声コマンド受付方法。
PCT/JP2023/021310 2022-08-03 2023-06-08 音声コマンド受付装置、および音声コマンド受付方法 WO2024029192A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2022123854 2022-08-03
JP2022-123854 2022-08-03
JP2023015969A JP2024022448A (ja) 2022-08-03 2023-02-06 音声コマンド受付装置、および音声コマンド受付方法
JP2023-015969 2023-02-06

Publications (1)

Publication Number Publication Date
WO2024029192A1 true WO2024029192A1 (ja) 2024-02-08

Family

ID=89848779

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/021310 WO2024029192A1 (ja) 2022-08-03 2023-06-08 音声コマンド受付装置、および音声コマンド受付方法

Country Status (1)

Country Link
WO (1) WO2024029192A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176543A (ja) * 2009-01-30 2010-08-12 Toshiba Corp 翻訳装置、方法、及びプログラム
JP2021033676A (ja) * 2019-08-26 2021-03-01 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2021087026A (ja) * 2019-11-25 2021-06-03 キヤノン株式会社 撮像装置、撮像装置の制御方法及びそのプログラム
JP2021530794A (ja) * 2018-07-17 2021-11-11 アイ・ティー スピークス エル・エル・シーiT SpeeX LLC インテリジェントアシスタントおよび産業機械とのやり取りのための方法、システム、および、コンピュータプログラム製品

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176543A (ja) * 2009-01-30 2010-08-12 Toshiba Corp 翻訳装置、方法、及びプログラム
JP2021530794A (ja) * 2018-07-17 2021-11-11 アイ・ティー スピークス エル・エル・シーiT SpeeX LLC インテリジェントアシスタントおよび産業機械とのやり取りのための方法、システム、および、コンピュータプログラム製品
JP2021033676A (ja) * 2019-08-26 2021-03-01 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2021087026A (ja) * 2019-11-25 2021-06-03 キヤノン株式会社 撮像装置、撮像装置の制御方法及びそのプログラム

Similar Documents

Publication Publication Date Title
US9704484B2 (en) Speech recognition method and speech recognition device
US20050216271A1 (en) Speech dialogue system for controlling an electronic device
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
CN111199735A (zh) 车载装置以及语音识别方法
JP2017090614A (ja) 音声認識制御システム
JPH1152976A (ja) 音声認識装置
JP2004354930A (ja) 音声認識システム
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2018116130A (ja) 車内音声処理装置および車内音声処理方法
CN113535308A (zh) 语言调整方法、装置、电子设备及介质
WO2024029192A1 (ja) 音声コマンド受付装置、および音声コマンド受付方法
JP2019018729A (ja) 車載システム
JPH11352987A (ja) 音声認識装置
JP2024022448A (ja) 音声コマンド受付装置、および音声コマンド受付方法
JP4478146B2 (ja) 音声認識システム、音声認識方法およびそのプログラム
JP2004301875A (ja) 音声認識装置
JP2024030853A (ja) 音声コマンド受付装置、および音声コマンド受付方法
JP2024030925A (ja) 音声コマンド受付装置、音声コマンド受付方法およびプログラム
WO2024029187A1 (ja) 音声コマンド受付装置、および音声コマンド受付方法
JP2023094516A (ja) 音声コマンド受付装置、音声コマンド受付方法およびプログラム
WO2023074162A1 (ja) 車両用記録制御装置および記録制御方法
JP2024030926A (ja) 音声コマンド受付装置、および音声コマンド受付方法
JP6332072B2 (ja) 対話装置
WO2023119771A1 (ja) 音声コマンド受付装置、音声コマンド受付方法およびプログラム
WO2023145405A1 (ja) 音声操作制御装置および音声操作方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23849752

Country of ref document: EP

Kind code of ref document: A1