WO2023145405A1 - 音声操作制御装置および音声操作方法 - Google Patents

音声操作制御装置および音声操作方法 Download PDF

Info

Publication number
WO2023145405A1
WO2023145405A1 PCT/JP2023/000167 JP2023000167W WO2023145405A1 WO 2023145405 A1 WO2023145405 A1 WO 2023145405A1 JP 2023000167 W JP2023000167 W JP 2023000167W WO 2023145405 A1 WO2023145405 A1 WO 2023145405A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice command
utterance
voice
recording
detected
Prior art date
Application number
PCT/JP2023/000167
Other languages
English (en)
French (fr)
Inventor
真聖 坂野
Original Assignee
株式会社Jvcケンウッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2022050753A external-priority patent/JP2023109663A/ja
Application filed by 株式会社Jvcケンウッド filed Critical 株式会社Jvcケンウッド
Publication of WO2023145405A1 publication Critical patent/WO2023145405A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules

Definitions

  • the present invention relates to a voice operation control device and a voice operation method.
  • Patent Literature 2 discloses saving still images in addition to event records.
  • a video camera such as a smartphone or an action cam
  • the user performs physical operations such as while riding a bicycle or sliding on a snowboard. is often difficult to do.
  • the voice command may not be uttered accurately, or even if the voice command is uttered accurately, the voice command may not be properly recognized due to the influence of the surrounding sounds. In such a case, the timing of recording video or still images may be delayed.
  • a drive recorder when the driver of the vehicle wants to take a picture of an interesting facility or scenery, or when he/she wants to record an event while driving, the driver of the vehicle can use voice commands. You may be instructed to record video or still images. However, voice commands for recording video or still images are not immediately accurate due to the fact that different voice commands are used depending on the model, redundancy is required to prevent malfunction, and the frequency of use is low. You may not be able to speak a valid voice command. Therefore, when a video or still image is recorded using a voice command, the timing of recording the video or still image may be delayed due to the inability to utter an accurate voice command immediately.
  • the present disclosure has been made in view of the above, and aims to appropriately record video or still images using voice commands.
  • a voice operation control device includes a voice command determination unit that recognizes an utterance by a user and determines whether the recognized utterance is a voice command. and a voice command reception unit that receives the received voice command when the voice command determination unit determines that the voice command is uttered, wherein the voice command determination unit determines whether the recognition result of the received utterance is set in advance. If it indicates that an utterance that matches the received voice command by a first threshold or more is detected, it is determined that the recognized utterance is a voice command, and the recognition result of the received utterance is higher than the first threshold.
  • a recognized speech is determined to be a voice command if it indicates that an utterance that is equal to or greater than a second threshold and less than the first threshold, which indicates a low degree of matching, has been detected multiple times within a predetermined period of time.
  • the voice operation method recognizes an utterance by a user, and if the recognition result of the received utterance indicates that an utterance that matches a preset voice command by a first threshold or more is detected, It is determined that the recognized utterance is a voice command, and the utterance whose recognition result of the received utterance is equal to or more than a second threshold indicating a degree of matching lower than the first threshold and less than the first threshold is received within a predetermined period of time.
  • FIG. 1 is a block diagram showing a configuration example of a vehicle recording apparatus having a control device according to the first embodiment.
  • FIG. 2 is a diagram showing an example of an event data recording period.
  • FIG. 3 is a flow chart showing an example of the flow of processing in the control device according to the first embodiment.
  • FIG. 4 is a diagram showing an example of recording time of a still image.
  • FIG. 5 is a flow chart showing an example of the flow of processing in the control device according to the second embodiment.
  • FIG. 6 is a block diagram showing a configuration example of a video recording apparatus having a control device according to the third embodiment.
  • FIG. 7 is a diagram showing an example of a start point of video shooting.
  • FIG. 8 is a flow chart showing an example of the flow of processing in the control device according to the third embodiment.
  • FIG. 1 is a block diagram showing a configuration example of a vehicle recording device (voice operation device) 10 having a voice operation control device (hereinafter referred to as "control device") 100 according to the first embodiment.
  • a vehicle recording device 10 which is an example of a voice operation device, is a so-called drive recorder that records images based on events occurring in a vehicle. For example, even when an accurate voice command cannot be uttered immediately, the vehicle recording device 10 judges it as a voice command and records event data when utterances with a low degree of matching are detected a plurality of times.
  • the vehicle recording device 10 is used in a vehicle.
  • the vehicle recording device 10 may be a portable device that can be used in a vehicle, in addition to one mounted on the vehicle.
  • the vehicle recording device 10 may be realized by including the functions or configurations of a device installed in advance in the vehicle, a navigation device, or the like.
  • the vehicle recording device 10 includes a camera 211, a microphone 212, a recording unit 213, an operation unit 214, an acceleration sensor 215, a GNSS (Global Navigation Satellite System) receiving unit 216, a display unit 217, and a control device 100.
  • the vehicle recording device 10 may be a device that includes the camera 211 and the microphone 212 integrally, or may be a device that includes the camera 211 and the microphone 212 separately.
  • the camera 211 photographs the surroundings of the vehicle.
  • Camera 211 may be a group of cameras.
  • the camera 211 is arranged, for example, at a position in front of the interior of the vehicle where the image in front of the vehicle can be captured.
  • the camera 211 constantly captures images while the accessory power source of the vehicle is ON.
  • the camera 211 outputs captured image data to the image data acquisition unit 111 of the control device 100 .
  • the photographed data is, for example, a moving image composed of images of 27.5 frames per second.
  • the microphone 212 is a microphone that picks up voice commands indicating various operations on the vehicle recording device 10 .
  • the microphone 212 may also be used as a microphone for inputting audio in addition to video from the camera 211 to the captured data acquisition unit 111 .
  • the microphone 212 can accept an operation to store captured image data in the recording unit 213 as event data.
  • Microphone 212 outputs the collected voice data to voice command determination section 116 of control device 100 .
  • the recording unit 213 is used for temporary storage of data in the recording device 10 for vehicle.
  • the recording unit 213 is, for example, a RAM (Random Access Memory), a semiconductor memory device such as a flash memory, or a recording medium such as a memory card.
  • the recording unit 213 may be an external recording unit wirelessly connected via a communication device (not shown).
  • the recording unit 213 records loop recording video data or event data based on the control signal output from the recording control unit 122 of the control device 100 .
  • the operation unit 214 can receive various operations for the vehicle recording device 10 .
  • the operation unit 214 is, for example, a touch panel arranged over the display screen of the display unit 217 .
  • the operation unit 214 can accept an operation to manually store captured image data in the recording unit 213 as event data.
  • the operation unit 214 can accept an operation to reproduce loop-recorded video data or event data recorded in the recording unit 213 .
  • the operation unit 214 can accept an operation to erase event data recorded in the recording unit 213 .
  • the operation unit 214 can accept an operation to end loop recording.
  • the operation unit 214 outputs operation information to the operation control unit 118 of the control device 100 .
  • the acceleration sensor 215 is a sensor that detects acceleration that occurs with respect to the vehicle. Acceleration sensor 215 outputs the detection result to event detection unit 114 of control device 100 .
  • the acceleration sensor 215 is, for example, a sensor that detects acceleration in three axial directions. The three axial directions are the longitudinal direction, the lateral direction, and the vertical direction of the vehicle.
  • the GNSS receiving unit 216 is composed of a GNSS receiver that receives GNSS signals from GNSS satellites.
  • the GNSS receiver 216 outputs the received location information signal to the location information acquisition unit 115 of the control device 100 .
  • the display unit 217 is, for example, a display device unique to the vehicle recording device 10 or a display device shared with other systems including a navigation system.
  • the display section 217 may be formed integrally with the camera 211 .
  • the display unit 217 is, for example, a display including a liquid crystal display or an organic EL (Electro-Luminescence) display.
  • the display unit 217 is arranged on the dashboard, instrument panel, center console, etc. in front of the driver of the vehicle.
  • the display unit 217 displays images based on the image signal output from the display control unit 119 of the control device 100 .
  • a display unit 217 displays an image captured by the camera 211 or an image recorded in the recording unit 213 .
  • the control device 100 controls each section of the vehicle recording device 10 .
  • the control device 100 is, for example, an arithmetic processing device (control device) configured by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like, and a RAM (Random Access Memory) or a ROM (Read Only Memory). It has storage. Controller 100 loads a stored program into memory and executes the instructions contained in the program.
  • the control device 100 includes an internal memory such as the RAM described above, and the internal memory is used for temporary storage of data in the control device 100 .
  • the control device 100 includes a captured data acquisition unit 111, a buffer memory 112, a captured data processing unit 113, an event detection unit 114, and a position information acquisition unit 115 as components such as functional blocks realized by executing a program. , a voice command determination unit 116 , a voice command reception unit 117 , an operation control unit 118 , a display control unit 119 , a reproduction control unit 121 , and an operation control unit (recording control unit) 122 .
  • the photographed data acquisition unit 111 acquires peripheral photographed data captured by the camera 211 that photographs the surroundings of the vehicle.
  • the captured data acquisition unit 111 outputs the acquired captured data to the buffer memory 112 .
  • the buffer memory 112 is an internal memory such as a RAM provided in the control device 100, and is a memory that temporarily records, while updating, the photographic data acquired by the photographic data acquisition unit 111 for a certain period of time.
  • the photographed data processing unit 113 converts the photographed data temporarily stored in the buffer memory 112 into H.264, for example. 264, MPEG-4 (Moving Picture Experts Group), or any other codec, and converted into any file format, such as MP4 format.
  • a photographed data processing unit 113 generates photographed data as a file for a certain period of time from the photographed data temporarily stored in the buffer memory 112 .
  • the photographed data processing unit 113 generates a file of photographed data temporarily stored in the buffer memory 112 for 60 seconds in recording order.
  • the captured data processing unit 113 outputs the generated captured data to the operation control unit (recording control unit) 122 .
  • the captured data processing unit 113 outputs the generated captured data to the display control unit 119 after decoding the image through the reproduction control unit 121 .
  • the period of photographing data generated as a file is set to 60 seconds as an example, but is not limited to this.
  • the photographed data referred to here may be data containing sound in addition to the image photographed by the camera 211 .
  • the event detection unit 114 detects an event based on the acceleration applied to the vehicle. More specifically, event detection unit 114 detects an event based on the detection result of acceleration sensor 215 . The event detection unit 114 detects that an event has occurred when the acceleration information acquired by the event detection unit 114 from the acceleration sensor 215 is greater than or equal to a threshold.
  • the position information acquisition unit 115 acquires position information indicating the current position of the vehicle.
  • the position information acquisition unit 115 calculates the position information of the current position of the vehicle by a known method based on the GNSS signals received by the GNSS reception unit 216 .
  • the position information acquisition section 115 outputs the calculated position information to the recording control section 122 .
  • the voice command determination unit 116 recognizes an utterance by the user and determines whether or not the recognized utterance is a voice command.
  • Voice command determination unit 116 analyzes the voice input from microphone 212 and recognizes the utterance content included in the voice.
  • the voice command determination unit 116 performs acoustic model analysis for each phoneme or word on the voice input from the microphone 212, and recognizes the content of the utterance by comparing with the phoneme model and the language model.
  • the voice command determination unit 116 recognizes voice commands for the vehicle recording device 100 .
  • the voice command determination unit 116 recognizes a voice command such as a voice command instructing the vehicle recording device 100 to record an event
  • the voice command determination unit 116 outputs the recognition result to the voice command reception unit 117 .
  • the voice command determination unit 116 determines whether or not the recognized speech is a voice command for recording shooting data. In the present embodiment, the voice command determination unit 116 determines whether or not the recognized speech is a voice command for event recording of photographed data.
  • the voice command determination unit 116 detects that the recognized speech is Judge it as a voice command.
  • Voice commands consist of, for example, 4-5 or more syllables to prevent malfunctions.
  • a voice command for recording an event is set as "rokuga kaishi" consisting of six syllables.
  • the voice command determination unit 116 determines that the command is a voice command when the recognition rate of the voice command is equal to or higher than the first threshold.
  • the voice command determination unit 116 does not determine that the command is a voice command when the recognition rate of the voice command is less than the first threshold. For example, let the first threshold be 70%.
  • the voice command determination unit 116 determines that the command is a voice command when the recognition rate of the voice command is, for example, 70% or higher.
  • the voice command determination unit 116 does not determine that the command is a voice command when the recognition rate of the voice command is less than 70%, for example.
  • the voice command recognition rate is the rate at which recognized voices match preset voice commands.
  • the ratio of matching of recognized speech is the ratio of matching syllables to syllables constituting a preset voice command, or the degree of matching with the original meaning model for the entire preset voice command.
  • the preset voice command is "Rokuga Kaishi”. For example, if the recognized utterance has a speech recognition rate of 70% or higher for "Rokuga Kaishi", the voice command determination unit 116 determines that "Rokuga Kaishi" was voice-inputted, and issues a voice command. Accept voice operation by
  • the drive recorder's voice commands are required to be redundant to prevent malfunctions, and because they are used infrequently, it is difficult for users to remember them, and it is predicted that they will not be able to speak accurately on the spur of the moment.
  • voice commands for drive recorders for recording events such as accidents may require urgency and promptness. Therefore, the voice command determination unit 116 has the following functions.
  • the voice command determination unit 116 determines that an utterance whose recognition result of the received utterance is equal to or greater than a second threshold and less than the first threshold, which indicates a degree of matching lower than the first threshold, is detected multiple times within the predetermined time period T1. If so, it determines that the recognized utterance is a voice command.
  • the predetermined period T1 is, for example, 5 seconds.
  • the voice command determination unit 116 determines that the recognition rate of the recognized voice with respect to the voice command is, for example, 50% or more and less than 70%, and there is no voice with the recognition rate of 50% or more and less than 70% within the predetermined period T1. If it is detected multiple times, it is determined that it is a voice command, that is, that a voice command has been uttered. The voice command determination unit 116 detects, for example, a recognition rate of less than 50% for the voice command of the recognized voice, or a voice with a recognition rate of 50% or more and less than 70% multiple times within the predetermined period T1. If not, do not determine that the recognized speech is a voice command, ie, determine that the recognized speech is not a voice command.
  • the voice command determination unit 116 determines that the recognized voice has a voice recognition rate of 50% or more and less than 70%, and the voice with a voice recognition rate of 50% or more and less than 70% If it is detected a plurality of times within the predetermined period T1, it is determined that the voice input of "Rokuga Kaishi" has been input. For example, when “rokuga” is uttered twice within a predetermined period T1, it is determined that "rokuga kaishi" has been voice-inputted.
  • the voice command determination unit 116 determines whether the voice is recognized multiple times within the predetermined period T1. If it is not detected, it is not determined that "rokuga kaishi” was input by voice. For example, when “rokuga” is uttered once within the predetermined period T1, it is not determined that "rokuga kaishi” is voice-inputted. For example, if “satsuei” is uttered twice within the predetermined time period T1, it is not determined that "rokuga kaishi” has been voice-inputted.
  • the voice command reception unit 117 receives the received voice command.
  • the voice command accepting unit 117 accepts the voice input from the microphone 212 as a voice command instructing various operations based on the recognition result of the voice command determining unit 116 for the voice input from the microphone 212 .
  • the voice command receiving unit 117 receives a voice command instructing a reproduction operation or a voice command instructing an erasing operation of photographed data, and outputs a control signal.
  • the voice command receiving unit 117 receives a voice command instructing the end of loop recording and outputs a control signal.
  • a voice command receiving unit 117 receives a voice command instructing event recording and outputs a control signal.
  • the voice command receiving unit 117 receives a voice command of "Rokuga Kaishi" as a voice command for instructing event recording, and outputs a control signal.
  • voice command reception unit 117 acquires from the voice command determination unit 116 that an utterance instructing event recording has been recognized, it outputs a control signal instructing event recording to the recording control unit 122 .
  • voice command receiving portion 117 acquires from voice command determining portion 116 that an utterance instructing a reproduction operation has been recognized, voice command accepting portion 117 outputs a control signal instructing a reproduction operation to reproduction control portion 121 .
  • the operation control unit 118 acquires operation information of various operations received by the operation unit 214 . More specifically, operation control unit 118 receives operations of a physical interface such as a touch panel. For example, the operation control unit 118 acquires reproduction operation information indicating a reproduction operation or erase operation information indicating an operation for erasing photographed data, and outputs a control signal. For example, the operation control unit 118 acquires end operation information indicating an operation for ending loop recording, and outputs a control signal.
  • the display control unit 119 controls display of photographed data on the display unit 217 .
  • the display control unit 119 outputs a video signal that causes the display unit 217 to output the photographed data. More specifically, the display control unit 119 outputs a video signal to be displayed by playing back video captured by the camera 211 or loop-recorded video data or event data recorded in the recording unit 213 .
  • the playback control unit 121 controls playback of the loop-recorded video data or event data recorded in the recording unit 213 based on the playback operation control signal output from the operation control unit 118 .
  • the reproduction control unit 121 includes a decoder (not shown) and reproduces various data by decoding supplied compressed data.
  • the operation control unit 122 performs an operation based on the voice command received by the voice command receiving unit 117.
  • the recording control unit 122 will be described as an example of the operation control unit 122 .
  • the recording control unit 122 controls the recording unit 213 to record the captured data filed by the captured data processing unit 113 .
  • the recording control unit 122 records the photographed data filed by the photographed data processing unit 113 as overwritable photographed data in the recording unit 213 during a period in which the loop recording process is executed, such as when the accessory power source of the vehicle is ON. do. More specifically, the recording control unit 122 continues recording the captured data generated by the captured data processing unit 113 in the recording unit 213 during the loop recording process. The oldest shooting data is overwritten with new shooting data and recorded.
  • the recording control unit 122 saves the shooting data corresponding to the detection of the event.
  • the photographed data corresponding to event detection is photographed data for a predetermined period in the photographed data generated by the photographed data processing unit 113 .
  • the recording control unit 122 stores the shooting data corresponding to the detection of the event in the recording unit 213 as overwrite-prohibited event data.
  • FIG. 2 is a diagram showing an example of an event data recording period. As shown in FIG. 2, the captured data in the period from the time point P1 before the time point t1 when the event was detected by the event detection unit 114 to the time point P1 after t1 is saved as event data.
  • the recording control unit 122 copies, from the buffer memory 112, photographed data of a predetermined period before and after the time t1 when the event is detected, for example, and uses it as event data. save.
  • the predetermined period before and after is, for example, 10 seconds, which is the sum of a period P1 (eg, 5 seconds) before a certain point and a period P1 (eg, 5 seconds) after a certain point.
  • the period before and after a certain point in time may be different periods.
  • the recording control unit 122 saves the captured data acquired by the captured data acquiring unit 111 based on the voice command received by the voice command receiving unit 117 .
  • the recording control unit 122 determines that the voice command is Captured data for a predetermined period before and after the detected time is saved as event data.
  • the photographed data in the period from the time point P1 before the voice command reception time point t2 to the time point P1 after the voice command reception time point t2 is stored as event data. For example, captured data for 10 seconds before and after the reception of the voice command is saved as event data.
  • the recording control unit 122 detects an utterance whose recognition rate is equal to or more than the second threshold value and less than the first threshold value for a preset voice command multiple times within the predetermined period T1.
  • the shooting data for a predetermined period before and after t3 when the first utterance is detected among the utterances detected multiple times (hereinafter referred to as "utterance detection time") is used as the event data.
  • the recording control unit 122 saves captured data for a predetermined period before and after the time when the first speech is detected as event data. As shown in FIG.
  • a voice command with a low recognition rate may be uttered multiple times without uttering an accurate voice command. Therefore, when a voice command with a low recognition rate is received a plurality of times within the predetermined period T1, the event data is stored starting from the time when the first utterance is detected. This saves event data for the appropriate duration even if the correct voice command is not spoken.
  • FIG. 3 The process of the flowchart shown in FIG. 3 is started by starting the vehicle recording device 10 . While the vehicle recording device 10 is activated, the control device 100 detects acceleration by the acceleration sensor 215 at the set acceleration threshold. Control device 100 starts event detection based on the acceleration detected by event detector 114 . Description of event detection based on acceleration detection is omitted here. Further, while the vehicle recording device 10 is activated, the control device 100 performs recognition processing of voice input from the microphone 212 .
  • the control device 100 starts loop recording, which is normal recording (step S101). More specifically, the recording control unit 122 starts loop recording for overwriting the file generated by the captured data processing unit 113 in the recording unit 213 . Loop recording by the recording control unit 122 and event detection by the event detection unit 114 and the voice command reception unit 117 are continued until the processing ends. The control device 100 proceeds to step S102.
  • the control device 100 determines whether an event has been detected based on the detection result of the event detection unit 114 (step S102). When the acceleration detected by the event detection unit 114 is equal to or greater than the threshold, the control device 100 determines that an event has been detected (Yes in step S102), and proceeds to step S103. When the event detection unit 114 determines that the detected acceleration is not equal to or greater than the threshold value, the control device 100 determines that no event is detected (No in step S102), and proceeds to step S104.
  • the control device 100 causes the recording control unit 122 to store the captured data for a predetermined period before and after the event detection as event data (step S103). More specifically, the control device 100 causes the recording control unit 122 to record photographed data captured during the period P1 after the event detection time as the event data from the time point P1 before the event detection time. to prevent overwriting and save. The control device 100 proceeds to step S109.
  • step S104 determines whether or not a voice command instructing event recording has been received. More specifically, when voice command determination unit 116 indicates that the recognition result of the received utterance matches a preset voice command by a first threshold or more, control device 100 It is determined that a voice command instructing event recording has been received. When the voice command determination unit 116 determines that the voice command instructing event recording has been received (Yes in step S104), the control device 100 proceeds to step S105. Alternatively, if the voice command determination unit 116 does not determine that the voice command instructing event recording has been received (No in step S104), the control device 100 proceeds to step S109.
  • the control device 100 causes the recording control unit 122 to store the shooting data for a predetermined period before and after the time when the voice command was received as event data (step S105). More specifically, the control device 100 causes the recording control unit 122 to record, as event data, photographed data captured during the period P1 after the reception of the voice command from the time P1 before the reception of the voice command. The unit 213 prohibits overwriting and saves. The control device 100 proceeds to step S109.
  • control device 100 determines whether or not an utterance having a low degree of matching with the voice command instructing event recording has been detected (step S106). ). More specifically, control device 100 instructs event recording when voice command determination unit 116 indicates that the recognition result of the received utterance indicates that an utterance equal to or greater than the second threshold and less than the first threshold is detected. It is determined that an utterance that has a low degree of matching with the voice command to be executed has been detected. If the control device 100 determines that an utterance having a low degree of matching with the voice command instructing event recording is detected (Yes in step S106), the process proceeds to step S107. If the control device 100 does not determine that an utterance having a low degree of matching with the voice command instructing event recording has been detected (No in step S106), the process proceeds to step S109.
  • step S106 When determining that an utterance with a low degree of agreement with the voice command instructing event recording has been detected (Yes in step S106), the control device 100 detects an utterance with a low degree of agreement with the voice command for event recording within the predetermined period T1. It is determined whether or not (step S107).
  • voice command determination unit 116 detects an utterance with a low degree of matching a plurality of times within predetermined period T1 (Yes in step S107)
  • control device 100 proceeds to step S108.
  • voice command determination unit 116 does not detect an utterance with a low degree of matching a plurality of times within predetermined period T1 (No in step S107)
  • control device 100 proceeds to step S109.
  • the control device 100 causes the recording control unit 122 to generate a voice command instructing event recording and a voice command with a low degree of matching.
  • the imaging data for a predetermined period before and after the initial detection of is stored as event data (step S108). More specifically, the control device 100 causes the recording control unit 122 to use the photographed data captured during the period P1 after the first utterance detection as the event data from the time before the period P1 after the first utterance is detected.
  • the recording unit 213 prohibits overwriting and stores the data.
  • the control device 100 proceeds to step S109.
  • the control device 100 determines whether or not to end the process (step S109). For example, it is determined to end the process when the power source or power of the vehicle is turned off, or when the operation unit 214 is operated. If the control device 100 determines to end the process (Yes in step S109), it ends the process. If it is not determined to end the process (No in step S109), the control device 100 executes the process of step S102 again.
  • ⁇ effect> As described above, according to the present embodiment, when an utterance having a low degree of matching with a preset voice command is detected multiple times within a predetermined period, it is determined that the recognized utterance is a voice command. can do. According to the present embodiment, when a voice command is not immediately remembered and an utterance with a low degree of matching is uttered a plurality of times, it can be determined as a voice command.
  • the photographed data can be recorded as the event data.
  • the present embodiment it is possible to appropriately determine the voice command of the drive recorder, which requires redundancy, is used infrequently, is difficult for the user to remember, and is difficult to utter immediately and accurately, from utterances with a low degree of matching. . According to the present embodiment, it is possible to record photographed data for an appropriate period without delaying the timing of recording photographed data that may require urgency and speed.
  • FIG. 4 is a diagram showing an example of recording time of a still image.
  • FIG. 5 is a flow chart showing an example of the flow of processing in the control device according to the second embodiment.
  • the vehicle recording device 10 has the same basic configuration as the vehicle recording device 10 of the first embodiment. In the following description, components similar to those of the vehicle recording apparatus 10 are given the same reference numerals or corresponding reference numerals, and detailed description thereof will be omitted.
  • This embodiment differs from the first embodiment in processing in the operation unit 214, the voice command determination unit 116, the voice command reception unit 117, the operation control unit 118, and the recording control unit 122.
  • the operation unit 214 can accept an operation for recording a still image.
  • the voice command determination unit 116 determines whether or not the recognized speech is a voice command for recording a still image of the photographed data. When voice command determination unit 116 recognizes a voice command instructing to record a still image, voice command determination unit 116 outputs the recognition result to voice command reception unit 117 .
  • the voice command accepting unit 117 accepts a voice command instructing to record a still image.
  • the voice command receiving unit 117 receives a voice command of "photographing" as a voice command for instructing recording of a still image, and outputs a control signal.
  • the voice command receiving unit 117 acquires from the voice command determining unit 116 that the utterance instructing the recording of the still image is recognized, the voice command receiving unit 117 outputs a control signal instructing the recording of the still image to the recording control unit 122 .
  • the operation control unit 118 acquires operation information indicating still image recording and outputs a control signal.
  • the recording control unit 122 accepts the voice command. Save a still image of the time point.
  • the voice command receiving unit 117 receives a voice command instructing to record a still image
  • the recording control unit 122 saves the still image at the time of receiving the voice command. As shown in FIG. 4, for example, a still image at time t6 when the voice command is received is saved.
  • the recording control unit 122 determines that the voice command is detected when the voice command determination unit 116 detects the utterance that is equal to or greater than the second threshold value and is less than the first threshold value multiple times within the predetermined period T1. saves the still image at time t7 when the utterance is detected. As shown in FIG. 4, when speech that is equal to or greater than the second threshold value and less than the first threshold value is detected at times t7 and t8 within a predetermined time period T1, the still image at time t7 when the first speech is detected is saved. .
  • the recording control unit 122 When the preset voice command is, for example, "Shashin Satsuei", the recording control unit 122 outputs, for example, “Shashin”, “Satsuei If an utterance such as "Do" is detected multiple times within the predetermined period T1, it is determined that a voice command has been detected.
  • steps S111 and S117 shown in FIG. 5 are the same as those of steps S101 and S109 of the flowchart shown in FIG.
  • the control device 100 determines whether or not a voice command instructing recording of a still image has been received (step S112). More specifically, when voice command determination unit 116 indicates that the recognition result of the received utterance matches a preset voice command by a first threshold or more, control device 100 It is determined that a voice command instructing still image recording has been accepted. When the voice command determination unit 116 determines that the voice command instructing the recording of the still image has been received (Yes in step S112), the control device 100 proceeds to step S113. Alternatively, if the voice command determination unit 116 does not determine that the voice command instructing the recording of the still image has been received (No in step S112), the control device 100 proceeds to step S114.
  • step S112 When determining that a voice command instructing recording of a still image has been received (Yes in step S112), the control device 100 causes the recording control unit 122 to save the shot data at the time of receiving the voice command as a still image (step S113). The control device 100 proceeds to step S117.
  • control device 100 determines whether or not an utterance having a low degree of matching with the voice command instructing still image recording has been detected (step S114). More specifically, control device 100 performs still image recording when voice command determination unit 116 indicates that the recognition result of the received utterance indicates that an utterance equal to or greater than the second threshold and less than the first threshold is detected. It is determined that an utterance having a low degree of matching with the instructed voice command is detected. If the control device 100 determines that an utterance having a low degree of matching with the voice command instructing recording of a still image has been detected (Yes in step S114), the process proceeds to step S115. If the control device 100 does not determine that an utterance having a low degree of matching with the voice command instructing recording of a still image has been detected (No in step S114), the process proceeds to step S117.
  • step S114 If it is determined that an utterance with a low degree of agreement with the voice command instructing the recording of a still image has been detected (Yes in step S114), whether or not an utterance with a low degree of agreement with the voice command for recording the still image has been detected within the predetermined time period T1. (step S115).
  • voice command determination unit 116 detects an utterance with a low degree of matching a plurality of times within predetermined period T1 (Yes in step S115), control device 100 proceeds to step S116.
  • voice command determination unit 116 does not detect an utterance with a low degree of matching a plurality of times within predetermined period T1 (No in step S115), control device 100 proceeds to step S117.
  • control device 100 When an utterance with a low degree of matching is detected multiple times within the predetermined period T1 (Yes in step S115), the control device 100 causes the recording control unit 122 to generate a voice command instructing recording of a still image and a voice command with a low degree of matching. is stored as a still image (step S116). The control device 100 proceeds to step S117.
  • the recognized utterance is a voice command. is determined, and a still image can be recorded at an appropriate timing.
  • FIG. 6 is a block diagram showing a configuration example of a video recording device 20 having a control device 100 according to the third embodiment.
  • FIG. 7 is a diagram showing an example of a start point of video shooting.
  • FIG. 8 is a flow chart showing an example of the flow of processing in the control device 100 according to the third embodiment.
  • the video recording device 20, which is an example of a voice operation device is a device such as a smart phone or a video camera that records video and audio. Video cameras also include so-called action cams.
  • the video recording device 20 can not accurately utter a voice command, or even if the voice command cannot be properly recognized, and if utterances with a low degree of matching are detected multiple times, the voice command After making a decision, shooting is started, in other words, recording of the shot video and audio is started.
  • the same or corresponding reference numerals are assigned to the same configurations as those of the vehicle recording apparatus 10 of the first embodiment, and detailed description thereof will be omitted.
  • the video recording device 20 has a camera 211, a microphone 212, a recording section 213, an operation section 214, a display section 217, and a control device 100.
  • the camera 211 shoots images.
  • the camera 211 shoots an image according to a shooting instruction by a voice command.
  • the microphone 212 is a microphone that picks up voice commands indicating various operations on the video recording device 20 .
  • the microphone 212 can accept shooting instructions by voice commands.
  • the operation unit 214 can accept various operations for the video recording device 20 .
  • the operation unit 214 can accept an instruction indicating whether or not to accept a voice operation.
  • the acceptance of the voice operation is put on standby by the voice command determination unit 116, which will be described later.
  • the display unit 217 is arranged at a position visible to the user.
  • the control device 100 includes a photographed data acquisition unit 111, a buffer memory 112, a photographed data processing unit 113, a voice command determination unit 116, and a voice command reception unit as components such as functional blocks realized by executing a program. 117 , an operation control unit 118 , a display control unit 119 , a reproduction control unit 121 , and an operation control unit (recording control unit) 122 .
  • the captured data acquisition unit 111 acquires captured data captured by the camera 211 .
  • the captured data acquisition unit 111 outputs the acquired captured data to the captured data processing unit 113 or the buffer memory 112 .
  • the buffer memory 112 starts buffering the imaged data for a certain period of time acquired by the imaged data acquisition unit 111 when it becomes possible to accept image capturing instructions by voice commands.
  • the photographed data processing unit 113 generates photographed data as a file for a certain period of time from the photographed data acquired by the photographed data acquisition unit 111 or the photographed data temporarily stored in the buffer memory 112 .
  • the image data processing unit 113 generates a file of image data acquired by the image data acquisition unit 111 or image data temporarily stored in the buffer memory 112 for 60 seconds in recording order.
  • the captured data processing unit 113 outputs the generated captured data to the operation control unit (recording control unit) 122 . Further, the captured data processing unit 113 outputs the generated captured data to the display control unit 119 after decoding the image through the reproduction control unit 121 .
  • the voice command determination unit 116 When the voice command determination unit 116 recognizes a voice command such as a voice command instructing the video recording apparatus 20 to start shooting or to end shooting, the voice command determination unit 116 outputs the recognition result to the voice command reception unit 117. .
  • the voice command determination unit 116 determines whether the recognized speech is a voice command for starting shooting and whether it is a voice command for ending shooting.
  • the voice command for starting shooting is also composed of, for example, 4 to 5 syllables or more, like the first embodiment, in order to prevent malfunction.
  • a voice command for starting shooting is set such as "Rokuga Kaishi" consisting of six syllables.
  • the voice commands of the video recording device 20 require redundancy to prevent malfunctions, and depending on the mode of use, it is expected that accurate speech may be difficult or appropriate recognition may be difficult.
  • the voice command determination unit 116 has the following functions.
  • the voice command reception unit 117 receives a voice command instructing the start of shooting and a voice command instructing the end of shooting, and outputs a control signal.
  • the voice command receiving unit 117 receives a voice command of "rokuga kaishi" as a voice command for instructing the start of shooting, and outputs a control signal.
  • the voice command reception unit 117 acquires from the voice command determination unit 116 that an utterance instructing the start of shooting has been recognized, the voice command reception unit 117 outputs a control signal instructing the start of shooting to the recording control unit 122 .
  • the voice command accepting unit 117 accepts a voice command of “Rokuga Shuryo” as a voice command for instructing the end of shooting, and outputs a control signal.
  • the voice command reception unit 117 acquires from the voice command determination unit 116 that an utterance instructing the end of shooting is recognized, the voice command reception unit 117 outputs a control signal instructing the end of the shooting to the recording control unit 122 .
  • the operation control unit 118 acquires operation information indicating an operation indicating whether or not to accept a voice operation with respect to the operation unit 214, and outputs a control signal.
  • the operation control unit 122 performs an operation based on the voice command received by the voice command receiving unit 117.
  • the recording control unit 122 will be described as an example of the operation control unit 122 .
  • the recording control unit 122 controls the recording unit 213 to record the captured data filed by the captured data processing unit 113 .
  • the recording control unit 122 stores the captured data filed by the captured data processing unit 113 in the recording unit 213 during the period from when the capturing start operation is performed to when the capturing end operation is performed in the video recording device 20 . to record.
  • the recording control unit 122 determines that the voice command is Recording of photographed data is started from the time of detection. As shown in FIG. 7, recording of photographing data is started at time t21 when the voice command is received.
  • the recording control unit 122 detects an utterance whose recognition rate is equal to or more than the second threshold value and less than the first threshold value for a preset voice command multiple times within the predetermined period T1.
  • captured data for a predetermined period before and after the time when the first utterance is detected among the utterances detected a plurality of times is stored as event data.
  • the image is captured from the first utterance detection time t22. Start recording data.
  • the control device 100 determines whether or not to stand by for reception of voice operation to start shooting (step S201). More specifically, operation control unit 118 determines whether or not operation information indicating an operation indicating whether or not to accept a voice operation has been acquired. When the operation information indicating the operation indicating whether or not to accept the voice operation is acquired, it is determined that acceptance of the voice operation for starting shooting is on standby. If the control device 100 determines to stand by for reception of voice operation for starting imaging (Yes in step S201), the process proceeds to step S207. The processing from step S207 to step S218 is processing based on voice commands. If the control device 100 does not determine to stand by for reception of voice operation to start shooting (No in step S201), the process proceeds to step S202. The processing from step S202 to step S206 is processing based on various operations on the operation unit 214 .
  • step S202 determines whether or not the shooting start operation has been accepted. More specifically, the operation control unit 118 determines whether operation information indicating a shooting start operation has been acquired from the operation unit 214 . When the operation information indicating the shooting start operation is acquired, it is determined that the shooting start operation has been accepted. If the control device 100 determines that the shooting start operation has been received (Yes in step S202), the process proceeds to step S203. If the control device 100 does not determine that the shooting start operation has been received (No in step S202), the process proceeds to step S206.
  • step S202 When determining that the shooting start operation has been accepted (Yes in step S202), the control device 100 causes the recording control unit 122 to start recording the shooting data from the time of accepting the shooting start operation (step S203). The control device 100 proceeds to step S204.
  • the control device 100 determines whether or not an operation to end shooting has been received (step S204). More specifically, the operation control unit 118 determines whether or not the operation information indicating the shooting end operation has been acquired from the operation unit 214 . When the operation information indicating the shooting end operation is acquired, it is determined that the shooting end operation has been accepted. If the control device 100 determines that the shooting end operation has been received (Yes in step S204), the process proceeds to step S205. If the control device 100 does not determine that the shooting end operation has been received (No in step S204), the process of step S204 is executed again.
  • step S204 When determining that the shooting end operation has been accepted (Yes in step S204), the control device 100 causes the recording control unit 122 to end the recording of the shooting data at the time of accepting the shooting end operation (step S205). The control device 100 proceeds to step S206.
  • the control device 100 determines whether or not to end the process (step S206). For example, it is determined to end the process when the power or power of the video recording device 20 is turned off, or when the operation unit 214 is operated. If the control device 100 determines to end the process (Yes in step S206), the control device 100 ends the process. If it is determined not to end the process (No in step S206), the control device 100 executes the process of step S202 again.
  • step S207 the control device 100 starts buffering of shooting data. More specifically, the recording control unit 122 starts buffering the captured data acquired by the captured data acquisition unit 111 for a certain period of time in the buffer memory 112 . The control device 100 proceeds to step S208.
  • the control device 100 determines whether or not a voice command instructing the start of shooting has been received (step S208). More specifically, when voice command determination unit 116 indicates that the recognition result of the received utterance matches a preset voice command by a first threshold or more, control device 100 It is determined that a voice command instructing start of shooting has been accepted. When the voice command determining unit 116 determines that the voice command instructing the start of shooting has been received (Yes in step S208), the control device 100 proceeds to step S209. Alternatively, if the voice command determining unit 116 does not determine that the voice command instructing the start of shooting has been received (No in step S208), the control device 100 proceeds to step S210.
  • the control device 100 causes the recording control unit 122 to start recording the shooting data from the time of receiving the voice command (step S209). More specifically, the control device 100 causes the recording control unit 122 to allow the recording unit 213 to overwrite and store the shooting data shot from the time when the voice command was received. The control device 100 proceeds to step S210.
  • control device 100 determines whether or not an utterance having a low degree of matching with the voice command instructing the start of imaging has been detected (step S210). ). More specifically, when voice command determination section 116 indicates that the recognition result of the received utterance is equal to or greater than the second threshold value and less than the first threshold value, control device 100 instructs the start of imaging. It is determined that an utterance that has a low degree of matching with the voice command to be executed has been detected. If the control device 100 determines that an utterance having a low degree of matching with the voice command instructing the start of shooting has been detected (Yes in step S210), the process proceeds to step S211. If the control device 100 does not determine that an utterance having a low degree of matching with the voice command instructing the start of shooting has been detected (No in step S210), the process proceeds to step S213.
  • step S210 If it is determined that an utterance having a low degree of agreement with the voice command instructing the start of imaging has been detected (Yes in step S210), the control device 100 detects an utterance with a low degree of agreement with the voice command instructing the start of imaging within the predetermined period T1. is detected (step S211).
  • voice command determination unit 116 detects an utterance with a low degree of matching a plurality of times within predetermined period T1 (Yes in step S211)
  • control device 100 proceeds to step S212.
  • voice command determination unit 116 does not detect an utterance with a low degree of matching a plurality of times within predetermined period T1 (No in step S211)
  • control device 100 proceeds to step S213.
  • the control device 100 causes the recording control unit 122 to select a voice command instructing the start of shooting and a voice command with a low degree of matching. Recording of photographed data from the time of the first detection is started (step S212). More specifically, the control device 100 causes the recording control unit 122 to allow the recording unit 213 to overwrite and store the photographed data from the time when the first speech is detected. The control device 100 proceeds to step S213.
  • the control device 100 determines whether or not a voice command instructing the end of shooting has been received (step S213). More specifically, when voice command determination unit 116 indicates that the recognition result of the received utterance matches a preset voice command by a first threshold or more, control device 100 It is determined that the voice command instructing the end of shooting has been accepted. If the voice command determination unit 116 determines that the voice command instructing the end of shooting has been received (Yes in step S213), the control device 100 proceeds to step S214. Alternatively, if the voice command determination unit 116 does not determine that the voice command instructing the end of the shooting has been received (No in step S213), the control device 100 proceeds to step S215.
  • control device 100 When determining that the voice command instructing the end of shooting has been received (Yes in step S213), the control device 100 causes the recording control unit 122 to end the recording of the shooting data at the time of receiving the voice command (step S214). The control device 100 proceeds to step S218.
  • step S215 the control device 100 determines whether or not an utterance having a low degree of matching with the voice command instructing the end of shooting has been detected. ). More specifically, when voice command determination unit 116 indicates that the recognition result of the received utterance is equal to or greater than the second threshold value and less than the first threshold value, control device 100 instructs the end of imaging. It is determined that an utterance that has a low degree of matching with the voice command to be executed has been detected. If the control device 100 determines that an utterance having a low degree of matching with the voice command instructing the end of shooting is detected (Yes in step S215), the process proceeds to step S216. If the control device 100 does not determine that an utterance having a low degree of matching with the voice command instructing the end of shooting has been detected (No in step S215), the process proceeds to step S218.
  • step S215 If it is determined that an utterance having a low degree of agreement with the voice command instructing the end of shooting is detected (Yes in step S215), the control device 100 detects an utterance having a low degree of agreement with the voice command instructing the end of shooting within the predetermined time period T1. is detected (step S216).
  • voice command determination unit 116 detects an utterance with a low degree of matching a plurality of times within predetermined period T1 (Yes in step S216)
  • control device 100 proceeds to step S217. If voice command determination unit 116 does not detect an utterance with a low degree of matching a plurality of times within predetermined period T1 (No in step S216), control device 100 proceeds to step S218.
  • the control device 100 causes the recording control unit 122 to divide the voice command instructing the end of shooting from the voice command with a low degree of matching. Recording of the photographed data ends at the time of the first detection (step S217). More specifically, the control device 100 causes the recording control unit 122 to store the photographed data up to the time when the first speech is detected in the recording unit 213 . The control device 100 proceeds to step S218.
  • the control device 100 determines whether or not to end the process (step S218). For example, it is determined to end the process when the power source or power of the vehicle is turned off, or when the operation unit 214 is operated. If the control device 100 determines to end the process (Yes in step S218), the control device 100 ends this process. If it is not determined to end the process (No in step S218), the control device 100 executes the process of step S208 again.
  • ⁇ effect> As described above, according to the present embodiment, when a voice command cannot be uttered accurately, or even when the voice command is uttered accurately, the voice command cannot be properly recognized due to the influence of ambient sounds. video or still images can be recorded at the appropriate time.
  • the vehicle recording device 10 may be implemented in various different forms other than the above-described embodiment.
  • the example of the vehicle recording device 10 including the voice operation control device 100 has been described, but the technology of the present disclosure can also be applied to devices other than the vehicle recording device 10 .
  • it can be applied to various devices that control devices using voice commands.
  • the recording control unit 122 has been described as an example of the operation control unit 122. applicable to
  • the concept of the duration of the utterance to be detected as the utterance detection point is not included. There is a time span during which the utterance is performed from the start time to the end time of . Therefore, the utterance detection time t3 and the utterance detection time t7 may be set at the start time and the end time of such an utterance, and the period from the start time to the end time of the utterance can be set arbitrarily. .
  • Each component of the illustrated vehicle recording device 10 is functionally conceptual, and does not necessarily have to be physically configured as illustrated.
  • the specific form of each device is not limited to the illustrated one, and all or part of it may be functionally or physically distributed or integrated in arbitrary units according to the processing load and usage conditions of each device.
  • the configuration of the recording device for vehicle 10 is implemented by, for example, a program loaded into the memory as software.
  • functional blocks realized by cooperation of these hardware or software have been described. That is, these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof.
  • the voice operation control device and voice operation method of the present disclosure can be used, for example, in drive recorders.
  • vehicle recording device 100 control device (voice operation control device) 111 captured data acquisition unit 112 buffer memory 113 captured data processing unit 114 event detection unit 115 position information acquisition unit 116 voice command determination unit 117 voice command reception unit 118 operation control unit 119 display control unit 121 playback control unit 122 recording control unit 211 camera 212 microphone 213 recording unit 214 operation unit 215 acceleration sensor 216 GNSS reception unit 217 display unit P1 period T1 period

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)

Abstract

制御装置100は、ユーザによる発話を認識し、認識した発話が音声コマンドであるか否かを判断する音声コマンド判断部116と、音声コマンド判断部116が、音声コマンドが発話されたと判断した場合、受け付けた音声コマンドを受け付ける音声コマンド受付部117とを備え、音声コマンド判断部116は、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第1閾値以上一致する発話が検出されたことを示す場合に、認識した発話が音声コマンドであると判断するととともに、受け付けた発話の認識結果が、第1閾値より低い一致度を示す第2閾値以上かつ第1閾値未満である発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断する。

Description

音声操作制御装置および音声操作方法
 本発明は、音声操作制御装置および音声操作方法に関する。
 スマートフォンアプリや、ビデオカメラなど、様々な装置が音声コマンドによる操作に対応している。このような装置は、物理的な操作を行うことなく操作が可能であることに加えて、近距離であれば遠隔操作も可能である。特許文献1には、音声コマンドで操作可能な撮像装置が開示されている。また、車両用記録装置、いわゆるドライブレコーダにおいては、加速度センサによる衝撃検出に加え、音声コマンドによってイベント記録を行うものがある。音声コマンドによる記録指示は、運転中にタッチパネル等の操作を必要とせず、安全にイベントデータや静止画像の記録を行うことができる。特許文献2には、イベント記録に加えて、静止画を保存することが開示されている。
特開2020-205637号公報 特開2020-154904号公報
 例えば、スマートフォンやアクションカムなどのビデオカメラを用いて、音声コマンドによって映像または静止画の記録を制御する場合とは、例えば、自転車での走行中、スノーボードでの滑走中など、ユーザが物理的操作を行うことが困難であることが多い。このような状態においては、音声コマンドを正確に発話できない場合や、正確に発話を行った場合であっても、周囲の音による影響で、音声コマンドを適切に認識できない場合もある。このような場合、映像または静止画の記録のタイミングが遅れてしまうことがある。
 また、ドライブレコーダにおいては、運転中に、気になった施設や景色などを撮影したいときや、イベント記録を行いたいときに、車両の運転者は、運転中であるため、音声コマンドを用いて映像または静止画の記録を指示する場合がある。しかし、映像または静止画の記録を行う音声コマンドは、機種によって異なる音声コマンドが用いられていること、誤作動防止のために冗長性が求められること、利用頻度が低いことなどから、咄嗟に正確な音声コマンドを発話できないことがある。このため、音声コマンドを用いて映像または静止画の記録を行う場合に、咄嗟に正確な音声コマンドを発話できないことにより、映像または静止画の記録のタイミングが遅れてしまうことがある。
 本開示は、上記に鑑みてなされたものであって、音声コマンドによる映像または静止画の記録を適切に行うことを目的とする。
 上述した課題を解決し、目的を達成するために、本開示に係る音声操作制御装置は、ユーザによる発話を認識し、認識した発話が音声コマンドであるか否かを判断する音声コマンド判断部と、前記音声コマンド判断部が、音声コマンドが発話されたと判断した場合、受け付けた音声コマンドを受け付ける音声コマンド受付部と、を備え、前記音声コマンド判断部は、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第1閾値以上一致する発話が検出されたことを示す場合に、認識した発話が音声コマンドであると判断するととともに、受け付けた発話の認識結果が、前記第1閾値より低い一致度を示す第2閾値以上かつ前記第1閾値未満である発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断する。
 本開示に係る音声操作方法は、ユーザによる発話を認識し、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第1閾値以上一致する発話が検出されたことを示す場合に、認識した発話が音声コマンドであると判断するととともに、受け付けた発話の認識結果が、前記第1閾値より低い一致度を示す第2閾値以上かつ前記第1閾値未満である発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断する、音声コマンド判断ステップと、前記音声コマンド判断ステップで、音声コマンドが発話されたと判断した場合、受け付けた音声コマンドを受け付ける音声コマンド受付ステップと、を音声操作制御装置が実行する。
 本開示によれば、音声コマンドによる映像または静止画の記録を適切に行うことができるという効果を奏する。
図1は、第一実施形態に係る制御装置を有する車両用記録装置の構成例を示すブロック図である。 図2は、イベントデータの記録期間の一例を示す図である。 図3は、第一実施形態に係る制御装置における処理の流れの一例を示すフローチャートである。 図4は、静止画像の記録時点の一例を示す図である。 図5は、第二実施形態に係る制御装置における処理の流れの一例を示すフローチャートである。 図6は、第三実施形態に係る制御装置を有する映像記録装置の構成例を示すブロック図である。 図7は、映像の撮影開始時点の一例を示す図である。 図8は、第三実施形態に係る制御装置における処理の流れの一例を示すフローチャートである。
 以下に添付図面を参照して、本開示に係る音声操作制御装置および音声操作方法の実施形態を詳細に説明する。なお、以下の実施形態により本発明が限定されるものではない。
[第一実施形態]
<車両用記録装置>
 図1は、第一実施形態に係る音声操作制御装置(以下、「制御装置」という。)100を有する車両用記録装置(音声操作装置)10の構成例を示すブロック図である。音声操作装置の一例である車両用記録装置10は、車両に対して発生したイベントに基づく映像などを記録する、いわゆるドライブレコーダである。車両用記録装置10は、例えば、咄嗟に正確な音声コマンドを発話できないような場合でも、一致度の低い発話が複数回、検出された場合に、音声コマンドとして判断してイベントデータを記録する。
 車両用記録装置10は、車両において用いられる。車両用記録装置10は、車両に載置されているものに加えて、可搬型で車両において利用可能な装置であってもよい。また、車両用記録装置10は、車両にあらかじめ設置されている装置やナビゲーション装置等の機能または構成を含んで実現されてもよい。車両用記録装置10は、カメラ211と、マイクロフォン212と、記録部213と、操作部214と、加速度センサ215と、GNSS(Global Navigation Satellite System)受信部216と、表示部217と、制御装置100とを有する。車両用記録装置10は、カメラ211と、マイクロフォン212とを一体的に含む装置であってもよく、カメラ211と、マイクロフォン212とが別体で構成された装置であってもよい。
 カメラ211は、車両の周辺を撮影する。カメラ211は、複数のカメラ群であってもよい。カメラ211は、例えば、車両の車室内前方における車両の前方を撮影可能な位置に配置されている。本実施形態では、カメラ211は、車両のアクセサリ電源がONである間、映像を常時撮影する。カメラ211は、撮影した撮影データを制御装置100の撮影データ取得部111に出力する。撮影データは、例えば毎秒27.5フレームの画像から構成される動画像である。
 マイクロフォン212は、車両用記録装置10に対する各種操作を示す音声コマンドを収音するマイクロフォンである。マイクロフォン212は、撮影データ取得部111にカメラ211からの映像に加えて音声を入力するマイクロフォンと共用されてもよい。例えば、マイクロフォン212は、撮影した撮影データを記録部213にイベントデータとして保存する操作を受付可能である。マイクロフォン212は、収音した音声データを制御装置100の音声コマンド判断部116に出力する。
 記録部213は、車両用記録装置10におけるデータの一時記憶などに用いられる。記録部213は、例えば、RAM(Random Access Memory)、フラッシュメモリなどの半導体メモリ素子、または、メモリカードなどの記録媒体である。記録部213は、図示しない通信装置を介して無線接続される外部記録部であってもよい。記録部213は、制御装置100の記録制御部122から出力された制御信号に基づいて、ループ記録映像データまたはイベントデータを記録する。
 操作部214は、車両用記録装置10に対する各種操作を受付可能である。操作部214は、例えば、表示部217の表示画面上に重ねて配置されたタッチパネルである。例えば、操作部214は、撮影した撮影データを記録部213にイベントデータとして手動で保存する操作を受付可能である。例えば、操作部214は、記録部213に記録したループ記録映像データまたはイベントデータを再生する操作を受付可能である。例えば、操作部214は、記録部213に記録したイベントデータを消去する操作を受付可能である。例えば、操作部214は、ループ記録を終了する操作を受付可能である。操作部214は、操作情報を制御装置100の操作制御部118に出力する。
 加速度センサ215は、車両に対して生じる加速度を検出するセンサである。加速度センサ215は、検出結果を制御装置100のイベント検出部114に出力する。加速度センサ215は、例えば3軸方向の加速度を検出するセンサである。3軸方向とは、車両の前後方向、左右方向、および上下方向である。
 GNSS受信部216は、GNSS衛星からのGNSS信号を受信するGNSS受信機などで構成される。GNSS受信部216は、受信した位置情報信号を制御装置100の位置情報取得部115に出力する。
 表示部217は、一例としては、車両用記録装置10に固有の表示装置、または、ナビゲーションシステムを含む他のシステムと共用した表示装置などである。表示部217は、カメラ211と一体に形成されていてもよい。表示部217は、例えば、液晶ディスプレイまたは有機EL(Electro-Luminescence)ディスプレイなどを含むディスプレイである。本実施形態では、表示部217は、車両の運転者前方の、ダッシュボード、インストルメントパネル、センターコンソールなどに配置されている。表示部217は、制御装置100の表示制御部119から出力された映像信号に基づいて、映像を表示する。表示部217は、カメラ211が撮影している映像、または、記録部213に記録された映像を表示する。
<音声操作制御装置>
 制御装置100は、車両用記録装置10の各部を制御する。制御装置100は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などで構成された演算処理装置(制御装置)であり、RAM(Random Access Memory)又はROM(Read Only Memory)などの記憶装置を有する。制御装置100は、記憶されているプログラムをメモリにロードして、プログラムに含まれる命令を実行する。制御装置100には上述したRAMなどの内部メモリが含まれ、内部メモリは制御装置100におけるデータの一時記憶などに用いられる。制御装置100は、プログラムの実行によって実現される機能ブロックなどの構成要素として、撮影データ取得部111と、バッファメモリ112と、撮影データ処理部113と、イベント検出部114と、位置情報取得部115と、音声コマンド判断部116と、音声コマンド受付部117と、操作制御部118と、表示制御部119と、再生制御部121と、動作制御部(記録制御部)122とを有する。
 撮影データ取得部111は、車両の周辺を撮影するカメラ211が撮影した周辺の撮影データを取得する。撮影データ取得部111は、取得した撮影データをバッファメモリ112に出力する。
 バッファメモリ112は、制御装置100が備えるRAMなどの内部メモリであり、撮影データ取得部111が取得した一定時間分の撮影データを、更新しながら一時的に記録するメモリである。
 撮影データ処理部113は、バッファメモリ112が一時的に記憶している撮影データを、例えばH.264やMPEG-4(Moving Picture Experts Group)などの任意の方式のコーデックで符号化された、例えばMP4形式などの任意のファイル形式に変換する。撮影データ処理部113は、バッファメモリ112が一時的に記憶している撮影データから、一定時間分のファイルとした撮影データを生成する。具体例として、撮影データ処理部113は、バッファメモリ112が一時的に記憶している撮影データを、記録順に60秒間の撮影データをファイルとして生成する。撮影データ処理部113は、生成した撮影データを動作制御部(記録制御部)122へ出力する。また、撮影データ処理部113は生成した撮影データを、再生制御部121を通して画像をデコード後、表示制御部119へ出力する。ファイルとして生成される撮影データの期間は、一例として60秒としたが、これには限定されない。ここで言う撮影データとは、カメラ211が撮影した映像に加えて音声が含まれたデータであってもよい。
 イベント検出部114は、車両に加わった加速度に基づき、イベントを検出する。より詳しくは、イベント検出部114は、加速度センサ215の検出結果に基づいて、イベントを検出する。イベント検出部114は、イベント検出部114が加速度センサ215から取得した加速度情報が閾値以上である場合、イベントが発生したことを検出する。
 位置情報取得部115は、車両の現在位置を示す位置情報を取得する。位置情報取得部115は、GNSS受信部216が受信したGNSS信号に基づいて、車両の現在位置の位置情報を公知の方法によって算出する。位置情報取得部115は、算出した位置情報を、記録制御部122に出力する。
 音声コマンド判断部116は、ユーザによる発話を認識し、認識した発話が音声コマンドであるか否かを判断する。音声コマンド判断部116は、マイクロフォン212から入力された音声を分析し、音声に含まれる発話内容を認識する。音声コマンド判断部116は、マイクロフォン212から入力された音声に対して、音素毎または単語毎の音響モデル分析を行い、音素モデルや言語モデルとの対比を行うことで、発話内容を認識する。音声コマンド判断部116は、車両用記録装置100に対する音声コマンドを認識する。音声コマンド判断部116は、車両用記録装置100に対するイベント記録を指示する音声コマンドなどの音声コマンドを認識した場合、認識した結果を音声コマンド受付部117に出力する。
 本実施形態では、音声コマンド判断部116は、認識した発話が撮影データの記録を行うための音声コマンドであるか否かを判断する。本実施形態では、音声コマンド判断部116は、認識した発話が撮影データのイベント記録を行うための音声コマンドであるか否かを判断する。
 本実施形態では、音声コマンド判断部116は、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第1閾値以上一致する発話が検出されたことを示す場合に、認識した発話が音声コマンドであると判断する。
 音声コマンドは、誤動作防止のため、例えば4~5音節以上で構成される。例えば、イベント記録を行う音声コマンドは、6音節からなる「ろくがかいし」などが設定されている。音声コマンド判断部116は、音声コマンドの認識率が第1閾値以上である場合、音声コマンドであると判断する。音声コマンド判断部116は、音声コマンドの認識率が第1閾値未満である場合、音声コマンドであると判断しない。例えば、第1閾値を70%とする。音声コマンド判断部116は、音声コマンドの認識率が、例えば、70%以上である場合、音声コマンドであると判断する。音声コマンド判断部116は、音声コマンドの認識率が、例えば、70%未満である場合、音声コマンドであると判断しない。音声コマンドの認識率とは、予め設定された音声コマンドに対して、認識された音声が一致する割合である。認識された音声が一致する割合とは、予め設定された音声コマンドを構成する音節に対する一致した音節の割合、または予め設定された音声コマンド全体に対する原義モデルとの一致度などである。
 予め設定された音声コマンドが「ろくがかいし」である場合について説明する。音声コマンド判断部116は、例えば、認識した発話が、「ろくがかいし」に対して音声認識率が70%以上である場合、「ろくがかいし」と音声入力されたと判断し、音声コマンドによる音声操作を受け付ける。
 ドライブレコーダの音声コマンドは、誤作動防止のために冗長性が求められ、かつ、利用頻度が低いことからユーザが覚えにくく、咄嗟に正確な発話ができないことが予測される。一方で、事故などのイベントを記録するためのドライブレコーダの音声コマンドは、緊急性や迅速性が求められることもある。そこで、音声コマンド判断部116は、次のような機能を有する。
 音声コマンド判断部116は、受け付けた発話の認識結果が、第1閾値より低い一致度を示す第2閾値以上かつ第1閾値未満である発話が、所定期間T1内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断する。
 所定期間T1は、例えば、5秒間である。
 例えば、第2閾値を50%とする。音声コマンド判断部116は、認識された音声の音声コマンドに対する認識率が、例えば、50%以上70%未満であり、かつ、所定期間T1内に、認識率が50%以上70%未満の音声が複数回検出された場合、音声コマンドである、つまり、音声コマンドが発話されたと判断する。音声コマンド判断部116は、認識された音声の音声コマンドに対する認識率が、例えば、50%未満である場合、または、認識率が50%以上70%未満の音声が所定期間T1内に複数回検出されなかった場合、認識された音声は音声コマンドであると判断しない、つまり、認識された音声は音声コマンドではないと判断する。
 予め設定された音声コマンドが「ろくがかいし」である場合について説明する。音声コマンド判断部116は、例えば、認識された音声が「ろくがかいし」に対して音声認識率が50%以上70%未満であり、音声認識率が50%以上70%未満の音声が、所定期間T1内に複数回検出された場合、「ろくがかいし」と音声入力されたと判断する。例えば、所定期間T1内に2回「ろくが」と発話された場合、「ろくがかいし」と音声入力されたと判断する。例えば、所定期間T1内に「かいし」、「ろくが」と発話された場合、「ろくがかいし」と音声入力されたと判断する。音声コマンド判断部116は、例えば、「ろくがかいし」の音声認識率が50%未満である場合、または、音声認識率が50%以上70%未満の音声が、所定期間T1内に複数回検出されなかった場合、「ろくがかいし」と音声入力されたと判断しない。例えば、所定期間T1内に1回「ろくが」と発話された場合、「ろくがかいし」と音声入力されたと判断しない。例えば、所定期間T1内に2回「さつえい」と発話された場合、「ろくがかいし」と音声入力されたと判断しない。
 音声コマンド受付部117は、音声コマンド判断部116が、音声コマンドが発話されたと判断した場合、受け付けた音声コマンドを受け付ける。音声コマンド受付部117は、マイクロフォン212から入力された音声に対する音声コマンド判断部116の認識結果に基づき、マイクロフォン212から入力された音声を、各種操作を指示する音声コマンドとして受け付ける。例えば、音声コマンド受付部117は、再生操作を指示する音声コマンド、または、撮影データの消去操作を指示する音声コマンドを受け付けて制御信号を出力する。例えば、音声コマンド受付部117は、ループ記録の終了を指示する音声コマンドを受け付けて制御信号を出力する。音声コマンド受付部117は、イベント記録を指示する音声コマンドを受け付けて制御信号を出力する。例えば、音声コマンド受付部117は、イベント記録を指示する音声コマンドとして、「ろくがかいし」の音声コマンドを受け付けて制御信号を出力する。
 音声コマンド受付部117は、音声コマンド判断部116からイベント記録を指示する発話を認識したことを取得した場合、イベント記録を指示する制御信号を記録制御部122に出力する。音声コマンド受付部117は、音声コマンド判断部116から再生操作を指示する発話を認識したことを取得した場合、再生操作を指示する制御信号を再生制御部121に出力する。
 操作制御部118は、操作部214が受け付けた各種操作の操作情報を取得する。より詳しくは、操作制御部118は、タッチパネルなどの物理的インターフェースの操作を受け付ける。例えば、操作制御部118は、再生操作を示す再生操作情報、または、撮影データの消去操作を示す消去操作情報を取得して制御信号を出力する。例えば、操作制御部118は、ループ記録を終了する操作を示す終了操作情報を取得して制御信号を出力する。
 表示制御部119は、表示部217における撮影データの表示を制御する。表示制御部119は、撮影データを表示部217に出力させる映像信号を出力する。より詳しくは、表示制御部119は、カメラ211が撮影している映像、または、記録部213に記録されたループ記録映像データまたはイベントデータの再生によって表示する映像信号を出力する。
 再生制御部121は、操作制御部118から出力された再生操作の制御信号に基づいて、記録部213に記録されたループ記録映像データまたはイベントデータを再生するよう制御する。再生制御部121は、図示しないデコーダを含み、供給された圧縮データをデコードすることで、各種データを再生する。
 動作制御部122は、音声コマンド受付部117が受け付けた音声コマンドに基づく動作を行う。本実施形態では、動作制御部122の一例として記録制御部122について説明する。記録制御部122は、撮影データ処理部113でファイル化された撮影データを、記録部213に記録させる制御を行う。記録制御部122は、車両のアクセサリ電源がONであるときなど、ループ記録処理を実行する期間は、撮影データ処理部113でファイル化された撮影データを上書き可能な撮影データとして記録部213に記録する。より詳しくは、記録制御部122は、ループ記録処理を実行する期間は、撮影データ処理部113が生成した撮影データを記録部213に記録し続け、記録部213の容量が一杯になった場合、最も古い撮影データに新しい撮影データを上書きして記録する。
 記録制御部122は、イベント検出部114によってイベントが検出された場合、イベントの検出に対応する撮影データを保存する。イベントの検出に対応する撮影データとは、撮影データ処理部113が生成した撮影データにおける所定期間の撮影データである。記録制御部122は、イベントの検出に対応する撮影データを、上書きが禁止されたイベントデータとして記録部213に保存する。
 記録制御部122は、イベント検出部114によってイベントが検出された場合、イベント検出時点を起点として、前後所定期間の撮影データをイベントデータとして保存する。図2は、イベントデータの記録期間の一例を示す図である。図2に示すように、イベント検出部114によってイベントが検出された時点t1より期間P1遡った時点から、t1から期間P1経過した時点までの期間の撮影データをイベントデータとして保存する。記録制御部122は、イベント検出部114によってイベントが検出された場合、例えば、イベントが検出された時点t1の前後10秒程度など前後所定期間の撮影データをバッファメモリ112からコピーし、イベントデータとして保存する。
 前後所定期間とは、例えば、ある時点より前の期間P1(例えば5秒間)と、後の期間P1(例えば5秒間)を合わせた10秒間である。ある時点より前の期間と後の期間は異なる期間であってもよい。
 本実施形態では、記録制御部122は、音声コマンド受付部117が受け付けた音声コマンドに基づき、撮影データ取得部111が取得した撮影データの保存を行う。
 本実施形態では、記録制御部122は、音声コマンド判断部116が、予め設定された音声コマンドに対して第1閾値以上一致する発話を検出することで音声コマンドを検出した場合は、音声コマンドが検出された時点を基準とした前後所定期間の撮影データをイベントデータとして保存する。図2に示すように、音声コマンド受付時点t2より期間P1遡った時点から、音声コマンド受付時点t2から期間P1経過した時点までの期間の撮影データをイベントデータとして保存する。例えば、音声コマンド受付時点の前後10秒間の撮影データをイベントデータとして保存する。
 記録制御部122は、音声コマンド判断部116が、予め設定された音声コマンドに対して第2閾値以上かつ第1閾値未満の認識率である発話が、所定期間T1内に複数回検出されることで音声コマンドを検出した場合は、複数回検出された発話のうち初回の発話が検出された時点(以下、「発話検出時点」という。)t3を基準とした前後所定期間の撮影データをイベントデータとして保存する。本実施形態では、記録制御部122は、初回の発話検出時点を起点として、前後所定期間の撮影データをイベントデータとして保存する。図2に示すように、第2閾値以上かつ第1閾値未満である発話が、所定期間T1内に発話検出時点t3およびt4のように複数回検出された場合、初回の発話検出時点t3より期間P1遡った時点から、初回の発話検出時点t3から期間P1経過した時点までの期間の撮影データをイベントデータとして保存する。例えば、発話検出時点t3の前後10秒間の撮影データをイベントデータとして保存する。
 緊急的にイベント記録を行いたい場合など、咄嗟の場合には音声コマンドを正確に発話できない可能性が高い。このような場合は、正確な音声コマンドが発話されずに、認識率が低い音声コマンドが複数回発話されることがある。そこで、認識率が低い音声コマンドを所定期間T1内に複数回受け付けた場合に、初回の発話検出時点を起点としてイベントデータを保存する。これにより、正確な音声コマンドが発話されなくとも、適切な期間のイベントデータが保存される。
<音声操作制御装置における情報処理>
 次に、図3を用いて、制御装置100における処理の流れについて説明する。車両用記録装置10が起動されることで、図3に示すフローチャートの処理が開始される。車両用記録装置10が起動している間、制御装置100では、設定された加速度の閾値での加速度センサ215による加速度の検出が行われる。制御装置100は、イベント検出部114によって、検出された加速度に基づいて、イベント検出を開始する。加速度の検出によるイベント検出については、ここでの説明を省略する。また、車両用記録装置10が起動している間、制御装置100では、マイクロフォン212から入力された音声の認識処理が行われる。
 処理の開始に伴い、制御装置100は、通常記録であるループ記録を開始する(ステップS101)。より詳しくは、記録制御部122は、撮影データ処理部113が生成したファイルを記録部213に上書可能に記録するループ記録を開始する。記録制御部122によるループ記録、及びイベント検出部114及び音声コマンド受付部117によるイベント検出は、処理が終了するまで継続される。制御装置100は、ステップS102へ進む。
 制御装置100は、イベント検出部114による検出結果に基づいて、イベントを検出したか否かを判定する(ステップS102)。制御装置100は、イベント検出部114によって、検出された加速度が閾値以上である場合、イベントを検出したと判定して(ステップS102でYes)、ステップS103に進む。制御装置100は、イベント検出部114によって、検出された加速度が閾値以上ではないと判定する場合、イベントを検出しないと判定して(ステップS102でNo)、ステップS104に進む。
 イベントを検出したと判定した場合(ステップS102でYes)、制御装置100は、記録制御部122によって、イベント検出時点から前後所定期間の撮影データをイベントデータとして保存する(ステップS103)。より詳しくは、制御装置100は、記録制御部122によって、イベント検出時点から期間P1遡った時点から、イベント検出時点から期間P1後の時点の間に撮影された撮影データをイベントデータとして記録部213に上書きを禁止して保存させる。制御装置100は、ステップS109に進む。
 イベントを検出しないと判定した場合(ステップS102でNo)、制御装置100は、イベント記録を指示する音声コマンドが受け付けされたか否かを判定する(ステップS104)。より詳しくは、制御装置100は、音声コマンド判断部116によって、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第1閾値以上一致する発話が検出されたことを示す場合に、イベント記録を指示する音声コマンドが受け付けされたと判断する。制御装置100は、音声コマンド判断部116によって、イベント記録を指示する音声コマンドを受け付けたと判定する場合(ステップS104でYes)、ステップS105に進む。または、制御装置100は、音声コマンド判断部116によって、イベント記録を指示する音声コマンドを受け付けたと判定しない場合(ステップS104でNo)、ステップS109に進む。
 イベント記録を指示する音声コマンドを受け付けたと判定する場合(ステップS104でYes)、制御装置100は、記録制御部122によって、音声コマンド受付時点の前後所定期間の撮影データをイベントデータとして保存する(ステップS105)。より詳しくは、制御装置100は、記録制御部122によって、音声コマンド受付時点から期間P1遡った時点から、音声コマンド受付時点から期間P1後の時点の間に撮影された撮影データをイベントデータとして記録部213に上書きを禁止して保存させる。制御装置100は、ステップS109に進む。
 イベント記録を指示する音声コマンドを受け付けたと判定しない場合(ステップS104でNo)、制御装置100は、イベント記録を指示する音声コマンドと一致度の低い発話を検出したか否かを判定する(ステップS106)。より詳しくは、制御装置100は、音声コマンド判断部116によって、受け付けた発話の認識結果が、第2閾値以上かつ第1閾値未満である発話が検出されたことを示す場合に、イベント記録を指示する音声コマンドと一致度の低い発話を検出したと判断する。制御装置100は、イベント記録を指示する音声コマンドと一致度の低い発話を検出したと判定する場合(ステップS106でYes)、ステップS107へ進む。制御装置100は、イベント記録を指示する音声コマンドと一致度の低い発話を検出したと判定しない場合(ステップS106でNo)、ステップS109へ進む。
 イベント記録を指示する音声コマンドと一致度の低い発話を検出したと判定する場合(ステップS106でYes)、制御装置100は、所定期間T1内にイベント記録の音声コマンドと一致度の低い発話を検出したか否かを判定する(ステップS107)。制御装置100は、音声コマンド判断部116によって、一致度の低い発話が所定期間T1内に複数回検出された場合(ステップS107でYes)、ステップS108へ進む。制御装置100は、音声コマンド判断部116によって、一致度の低い発話が所定期間T1内に複数回検出されなかった場合(ステップS107でNo)、ステップS109へ進む。
 一致度の低い発話が所定期間T1内に複数回検出されなかった場合(ステップS107でNo)、制御装置100は、記録制御部122によって、イベント記録を指示する音声コマンドと一致度の低い音声コマンドの初回検出時点の前後所定期間の撮影データをイベントデータとして保存する(ステップS108)。より詳しくは、制御装置100は、記録制御部122によって、初回の発話検出時点から期間P1遡った時点から、初回発話検出時点から期間P1後の時点の間に撮影された撮影データをイベントデータとして記録部213に上書きを禁止して保存させる。制御装置100は、ステップS109に進む。
 制御装置100は、処理を終了するか否かを判定する(ステップS109)。例えば、車両の電源や動力がOFFにされたことや、操作部214の操作がされたことなどで、処理を終了することが判定される。制御装置100は、処理を終了すると判定された場合(ステップS109でYes)、本処理を終了する。制御装置100は、処理を終了すると判定されない場合(ステップS109でNo)、ステップS102の処理を再度実行する。
<効果>
 上述したように、本実施形態によれば、予め設定された音声コマンドと一致度の低い発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断することができる。本実施形態によれば、咄嗟に音声コマンドを思い出すことができずに、一致度が低い発話を複数回行った場合に、音声コマンドとして判断することができる。
 本実施形態によれば、撮影データの記録を指示する音声コマンドと一致度の低い発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断することができる。本実施形態によれば、撮影データを記録したい時に咄嗟に音声コマンドを思い出すことができずに、一致度が低い発話を複数回行った場合に、撮影データの記録を行うことができる。
 本実施形態によれば、イベント記録を指示する音声コマンドと一致度の低い発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断することができる。本実施形態によれば、イベント発生時に咄嗟に音声コマンドを思い出すことができずに、一致度が低い発話を複数回行った場合に、撮影データをイベントデータとして記録を行うことができる。
 本実施形態によれば、冗長性が求められ、かつ、利用頻度が低くユーザが覚えにくく、咄嗟に正確に発話することが難しいドライブレコーダの音声コマンドを、一致度が低い発話から適切に判断できる。本実施形態によれば、緊急性や迅速性が求められることもある撮影データの記録を、記録するタイミングが遅れることなく、適切な期間の撮影データを記録することができる。
[第二実施形態]
 図4、図5を参照しながら、本実施形態に係る車両用記録装置10について説明する。図4は、静止画像の記録時点の一例を示す図である。図5は、第二実施形態に係る制御装置における処理の流れの一例を示すフローチャートである。車両用記録装置10は、基本的な構成は第一実施形態の車両用記録装置10と同様である。以下の説明においては、車両用記録装置10と同様の構成要素には、同一の符号または対応する符号を付し、その詳細な説明は省略する。本実施形態では、操作部214と、音声コマンド判断部116と、音声コマンド受付部117と、操作制御部118と、記録制御部122とにおける処理が第一実施形態と異なる。
 操作部214は、静止画像記録を行う操作を受付可能である。
 音声コマンド判断部116は、認識した発話が撮影データの静止画像の記録を行うための音声コマンドであるか否かを判断する。音声コマンド判断部116は、静止画像記録を指示する音声コマンドを認識した場合、認識した結果を音声コマンド受付部117に出力する。
 音声コマンド受付部117は、静止画像記録を指示する音声コマンドを受け付ける。例えば、音声コマンド受付部117は、静止画像記録を指示する音声コマンドとして、「しゃしんさつえい(写真撮影)」の音声コマンドを受け付けて制御信号を出力する。音声コマンド受付部117は、音声コマンド判断部116から静止画像記録を指示する発話を認識したことを取得した場合、静止画像記録を指示する制御信号を記録制御部122に出力する。
 操作制御部118は、静止画像記録を示す操作情報を取得して制御信号を出力する。
 記録制御部122は、音声コマンド判断部116が、静止画像記録を示す予め設定された音声コマンドに対して第1閾値以上一致する発話を検出することで音声コマンドを検出した場合は、音声コマンド受付時点の静止画像を保存する。記録制御部122は、音声コマンド受付部117が静止画像記録を指示する音声コマンドを受け付けた場合、音声コマンド受付時点の静止画像を保存する。図4に示すように、例えば、音声コマンド受付時点t6の静止画像を保存する。
 記録制御部122は、音声コマンド判断部116が、第2閾値以上かつ第1閾値未満である発話が、所定期間T1内に複数回検出された場合は、音声コマンドを検出したと判断し、初回の発話検出時点t7の静止画像を保存する。図4に示すように、第2閾値以上かつ第1閾値未満である発話が、所定期間T1内に時点t7と時点t8とで検出された場合、初回の発話検出時点t7の静止画像を保存する。記録制御部122は、予め設定された音声コマンドが例えば「しゃしんさつえい」である場合、音声認識率が第2閾値以上かつ第1閾値未満である発話として、例えば「しゃしん」「さつえいする」などの発話が所定期間T1内に複数回検出された場合は、音声コマンドを検出したと判断する。
 次に、図5を用いて、制御装置100における処理の流れについて説明する。図5に示すステップS111、ステップS117の処理は、図3に示すフローチャートのステップS101、ステップS109と同様の処理を行う。
 制御装置100は、静止画像記録を指示する音声コマンドが受け付けされたか否かを判定する(ステップS112)。より詳しくは、制御装置100は、音声コマンド判断部116によって、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第1閾値以上一致する発話が検出されたことを示す場合に、静止画像記録を指示する音声コマンドが受け付けされたと判断する。制御装置100は、音声コマンド判断部116によって、静止画像記録を指示する音声コマンドを受け付けたと判定する場合(ステップS112でYes)、ステップS113に進む。または、制御装置100は、音声コマンド判断部116によって、静止画像記録を指示する音声コマンドを受け付けたと判定しない場合(ステップS112でNo)、ステップS114に進む。
 静止画像記録を指示する音声コマンドを受け付けたと判定する場合(ステップS112でYes)、制御装置100は、記録制御部122によって、音声コマンド受付時点の撮影データを静止画像として保存する(ステップS113)。制御装置100は、ステップS117に進む。
 静止画像記録を指示する音声コマンドを受け付けたと判定しない場合(ステップS112でNo)、制御装置100は、静止画像記録を指示する音声コマンドと一致度の低い発話を検出したか否かを判定する(ステップS114)。より詳しくは、制御装置100は、音声コマンド判断部116によって、受け付けた発話の認識結果が、第2閾値以上かつ第1閾値未満である発話が検出されたことを示す場合に、静止画像記録を指示する音声コマンドと一致度の低い発話を検出したと判断する。制御装置100は、静止画像記録を指示する音声コマンドと一致度の低い発話を検出したと判定する場合(ステップS114でYes)、ステップS115へ進む。制御装置100は、静止画像記録を指示する音声コマンドと一致度の低い発話を検出したと判定しない場合(ステップS114でNo)、ステップS117へ進む。
 静止画像記録を指示する音声コマンドと一致度の低い発話を検出したと判定する場合(ステップS114でYes)、所定期間T1内に静止画像記録の音声コマンドと一致度の低い発話を検出したか否かを判定する(ステップS115)。制御装置100は、音声コマンド判断部116によって、一致度の低い発話が所定期間T1内に複数回検出された場合(ステップS115でYes)、ステップS116へ進む。制御装置100は、音声コマンド判断部116によって、一致度の低い発話が所定期間T1内に複数回検出されなかった場合(ステップS115でNo)、ステップS117へ進む。
 一致度の低い発話が所定期間T1内に複数回検出された場合(ステップS115でYes)、制御装置100は、記録制御部122によって、静止画像記録を指示する音声コマンドと一致度の低い音声コマンドの初回検出時点の撮影データを静止画像として保存する(ステップS116)。制御装置100は、ステップS117に進む。
 上述したように、本実施形態によれば、静止画像記録を指示する音声コマンドと一致度の低い発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断され、適切なタイミングの静止画像を記録することができる。
[第三実施形態]
<映像記録装置>
 図6ないし図8を参照しながら、本実施形態に係る音声操作制御装置(以下、「制御装置」という。)100を有する映像記録装置(音声操作装置)20について説明する。図6は、第三実施形態に係る制御装置100を有する映像記録装置20の構成例を示すブロック図である。図7は、映像の撮影開始時点の一例を示す図である。図8は、第三実施形態に係る制御装置100における処理の流れの一例を示すフローチャートである。音声操作装置の一例である映像記録装置20は、映像や音声を記録する、スマートフォンやビデオカメラなどの装置である。ビデオカメラには、いわゆるアクションカムも含まれる。映像記録装置20は、例えば、音声コマンドを正確に発話できないような場合や、音声コマンドが適切に認識できなかった場合でも、一致度の低い発話が複数回、検出された場合に、音声コマンドとして判断して、撮影を開始、言い換えると、撮影した映像や音声の記録を開始する。第一実施形態の車両用記録装置10と同様の構成には、同一または対応する符号を付して詳細な説明は省略する。
 図6に示すように、映像記録装置20は、カメラ211と、マイクロフォン212と、記録部213と、操作部214と、表示部217と、制御装置100とを有する。
 カメラ211は、映像を撮影する。本実施形態では、カメラ211は、音声コマンドによる撮影指示によって、映像を撮影する。
 マイクロフォン212は、映像記録装置20に対する各種操作を示す音声コマンドを収音するマイクロフォンである。例えば、マイクロフォン212は、音声コマンドによる撮影指示を受付可能である。
 操作部214は、映像記録装置20に対する各種操作を受付可能である。例えば、操作部214は、音声操作を受け付けるか否かを示す指示を受付可能である。音声操作を受け付ける指示が受け付けられると、後述する音声コマンド判断部116によって、音声操作受付がスタンバイされる。
 表示部217は、ユーザから視認可能な位置に配置されている。
<音声操作制御装置>
 制御装置100は、プログラムの実行によって実現される機能ブロックなどの構成要素として、撮影データ取得部111と、バッファメモリ112と、撮影データ処理部113と、音声コマンド判断部116と、音声コマンド受付部117と、操作制御部118と、表示制御部119と、再生制御部121と、動作制御部(記録制御部)122とを有する。
 撮影データ取得部111は、カメラ211が撮影した撮影データを取得する。撮影データ取得部111は、取得した撮影データを、撮影データ処理部113またはバッファメモリ112に出力する。
 バッファメモリ112は、音声コマンドによる撮影指示の受付が可能となることで、撮影データ取得部111が取得した一定時間分の撮影データのバッファリングを開始する。
 撮影データ処理部113は、撮影データ取得部111が取得した撮影データ、またはバッファメモリ112が一時的に記憶している撮影データから、一定時間分のファイルとした撮影データを生成する。具体例として、撮影データ処理部113は、撮影データ取得部111が取得した撮影データ、またはバッファメモリ112が一時的に記憶している撮影データを、記録順に60秒間の撮影データをファイルとして生成する。撮影データ処理部113は、生成した撮影データを動作制御部(記録制御部)122へ出力する。また、撮影データ処理部113は生成した撮影データを、再生制御部121を通して画像をデコード後、表示制御部119へ出力する。
 音声コマンド判断部116は、映像記録装置20に対する撮影の開始を指示する音声コマンドまたは撮影の終了を指示する音声コマンドなどの音声コマンドを認識した場合、認識した結果を音声コマンド受付部117に出力する。
 本実施形態では、音声コマンド判断部116は、認識した発話が撮影の開始を行うための音声コマンドであるか否か、および撮影の終了を行うための音声コマンドであるか否かを判断する。
 撮影の開始を行う音声コマンドにおいても、誤動作防止のため、第一実施形態と同等に、例えば4~5音節以上で構成される。例えば、撮影の開始を行う音声コマンドは、6音節からなる「ろくがかいし」などが設定されている。
 映像記録装置20の音声コマンドは、誤作動防止のために冗長性が求められ、かつ、利用形態によっては、正確な発話が困難な場合や、適切な認識が困難となることが予測される。一方で、撮影の開始指示は、撮影を開始したいタイミングで行われることが多いことから、撮影の開始指示を受け付けたときは、迅速に撮影が開始される必要がある。そこで、音声コマンド判断部116は、次のような機能を有する。
 音声コマンド受付部117は、撮影の開始を指示する音声コマンドおよび撮影の終了を指示する音声コマンドを受け付けて制御信号を出力する。例えば、音声コマンド受付部117は、撮影の開始を指示する音声コマンドとして、「ろくがかいし」の音声コマンドを受け付けて制御信号を出力する。音声コマンド受付部117は、音声コマンド判断部116から撮影の開始を指示する発話を認識したことを取得した場合、撮影の開始を指示する制御信号を記録制御部122に出力する。例えば、音声コマンド受付部117は、撮影の終了を指示する音声コマンドとして、「ろくがしゅうりょう」の音声コマンドを受け付けて制御信号を出力する。音声コマンド受付部117は、音声コマンド判断部116から撮影の終了を指示する発話を認識したことを取得した場合、撮影の終了を指示する制御信号を記録制御部122に出力する。
 操作制御部118は、操作部214に対する、音声操作を受け付けるか否かを示す操作を示す操作情報を取得して制御信号を出力する。
 動作制御部122は、音声コマンド受付部117が受け付けた音声コマンドに基づく動作を行う。本実施形態では、動作制御部122の一例として記録制御部122について説明する。記録制御部122は、撮影データ処理部113でファイル化された撮影データを、記録部213に記録させる制御を行う。記録制御部122は、映像記録装置20において、撮影開始操作が行われたときから撮影終了操作が行われたときまでの期間は、撮影データ処理部113でファイル化された撮影データを記録部213に記録する。
 本実施形態では、記録制御部122は、音声コマンド判断部116が、予め設定された音声コマンドに対して第1閾値以上一致する発話を検出することで音声コマンドを検出した場合は、音声コマンドが検出された時点からの撮影データの記録を開始する。図7に示すように、音声コマンド受付時点t21から撮影データの記録を開始する。
 記録制御部122は、音声コマンド判断部116が、予め設定された音声コマンドに対して第2閾値以上かつ第1閾値未満の認識率である発話が、所定期間T1内に複数回検出されることで音声コマンドを検出した場合は、複数回検出された発話のうち初回の発話検出時点を基準とした前後所定期間の撮影データをイベントデータとして保存する。図7に示すように、第2閾値以上かつ第1閾値未満である発話が、所定期間T1内に発話検出時点t22およびt23のように複数回検出された場合、初回の発話検出時点t22から撮影データの記録を開始する。
<音声操作制御装置における情報処理>
 次に、図8を用いて、制御装置100における処理の流れについて説明する。映像記録装置20が起動されることで、図8に示すフローチャートの処理が開始される。映像記録装置20が起動している間、制御装置100では、マイクロフォン212から入力された音声の認識処理が行われる。
 処理の開始に伴い、制御装置100は、撮影開始の音声操作受付をスタンバイするか否かを判定する(ステップS201)。より詳しくは、操作制御部118は、音声操作を受け付けるか否かを示す操作を示す操作情報を取得したか否かを判定する。音声操作を受け付けるか否かを示す操作を示す操作情報を取得した場合、撮影開始の音声操作受付をスタンバイすると判定する。制御装置100は、撮影開始の音声操作受付をスタンバイすると判定する場合(ステップS201でYes)、ステップS207へ進む。ステップS207ないしステップS218の処理は、音声コマンドに基づく処理である。制御装置100は、撮影開始の音声操作受付をスタンバイすると判定しない場合(ステップS201でNo)、ステップS202へ進む。ステップS202ないしステップS206の処理は、操作部214に対する各種操作に基づく処理である。
 撮影開始の音声操作受付をスタンバイすると判定しない場合(ステップS201でNo)、制御装置100は、撮影開始操作を受け付けたか否かを判定する(ステップS202)。より詳しくは、操作制御部118は、操作部214から撮影開始操作を示す操作情報を取得したか否かを判定する。撮影開始操作を示す操作情報を取得した場合、撮影開始操作を受け付けたと判定する。制御装置100は、撮影開始操作を受け付けたと判定する場合(ステップS202でYes)、ステップS203へ進む。制御装置100は、撮影開始操作を受け付けたと判定しない場合(ステップS202でNo)、ステップS206へ進む。
 撮影開始操作を受け付けたと判定する場合(ステップS202でYes)、制御装置100は、記録制御部122によって、撮影開始操作受付時点からの撮影データの記録を開始する(ステップS203)。制御装置100は、ステップS204に進む。
 制御装置100は、撮影終了操作を受け付けたか否かを判定する(ステップS204)。より詳しくは、操作制御部118は、操作部214から撮影終了操作を示す操作情報を取得したか否かを判定する。撮影終了操作を示す操作情報を取得した場合、撮影終了操作を受け付けたと判定する。制御装置100は、撮影終了操作を受け付けたと判定する場合(ステップS204でYes)、ステップS205へ進む。制御装置100は、撮影終了操作を受け付けたと判定しない場合(ステップS204でNo)、ステップS204の処理を再度実行する。
 撮影終了操作を受け付けたと判定する場合(ステップS204でYes)、制御装置100は、記録制御部122によって、撮影終了操作受付時点で撮影データの記録を終了する(ステップS205)。制御装置100は、ステップS206に進む。
 制御装置100は、処理を終了するか否かを判定する(ステップS206)。例えば、映像記録装置20の電源や動力がOFFにされたことや、操作部214の操作がされたことなどで、処理を終了することが判定される。制御装置100は、処理を終了すると判定された場合(ステップS206でYes)、本処理を終了する。制御装置100は、処理を終了すると判定されない場合(ステップS206でNo)、ステップS202の処理を再度実行する。
 撮影開始の音声操作受付をスタンバイすると判定する場合(ステップS201でYes)、制御装置100は、撮影データのバッファリングを開始する(ステップS207)。より詳しくは、記録制御部122は、バッファメモリ112に、撮影データ取得部111が取得した一定時間分の撮影データのバッファリングを開始する。制御装置100は、ステップS208へ進む。
 制御装置100は、撮影開始を指示する音声コマンドが受け付けされたか否かを判定する(ステップS208)。より詳しくは、制御装置100は、音声コマンド判断部116によって、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第1閾値以上一致する発話が検出されたことを示す場合に、撮影開始を指示する音声コマンドが受け付けされたと判断する。制御装置100は、音声コマンド判断部116によって、撮影開始を指示する音声コマンドを受け付けたと判定する場合(ステップS208でYes)、ステップS209に進む。または、制御装置100は、音声コマンド判断部116によって、撮影開始を指示する音声コマンドを受け付けたと判定しない場合(ステップS208でNo)、ステップS210に進む。
 撮影開始を指示する音声コマンドを受け付けたと判定する場合(ステップS208でYes)、制御装置100は、記録制御部122によって、音声コマンド受付時点からの撮影データの記録を開始する(ステップS209)。より詳しくは、制御装置100は、記録制御部122によって、音声コマンド受付時点から撮影された撮影データを記録部213に上書きを許可して保存させる。制御装置100は、ステップS210に進む。
 撮影開始を指示する音声コマンドを受け付けたと判定しない場合(ステップS208でNo)、制御装置100は、撮影開始を指示する音声コマンドと一致度の低い発話を検出したか否かを判定する(ステップS210)。より詳しくは、制御装置100は、音声コマンド判断部116によって、受け付けた発話の認識結果が、第2閾値以上かつ第1閾値未満である発話が検出されたことを示す場合に、撮影開始を指示する音声コマンドと一致度の低い発話を検出したと判断する。制御装置100は、撮影開始を指示する音声コマンドと一致度の低い発話を検出したと判定する場合(ステップS210でYes)、ステップS211へ進む。制御装置100は、撮影開始を指示する音声コマンドと一致度の低い発話を検出したと判定しない場合(ステップS210でNo)、ステップS213へ進む。
 撮影開始を指示する音声コマンドと一致度の低い発話を検出したと判定する場合(ステップS210でYes)、制御装置100は、所定期間T1内に撮影開始を指示する音声コマンドと一致度の低い発話を検出したか否かを判定する(ステップS211)。制御装置100は、音声コマンド判断部116によって、一致度の低い発話が所定期間T1内に複数回検出された場合(ステップS211でYes)、ステップS212へ進む。制御装置100は、音声コマンド判断部116によって、一致度の低い発話が所定期間T1内に複数回検出されなかった場合(ステップS211でNo)、ステップS213へ進む。
 一致度の低い発話が所定期間T1内に複数回検出された場合(ステップS211でYes)、制御装置100は、記録制御部122によって、撮影開始を指示する音声コマンドと一致度の低い音声コマンドの初回検出時点からの撮影データの記録を開始する(ステップS212)。より詳しくは、制御装置100は、記録制御部122によって、初回の発話検出時点からの撮影データを記録部213に上書きを許可して保存させる。制御装置100は、ステップS213に進む。
 制御装置100は、撮影終了を指示する音声コマンドが受け付けされたか否かを判定する(ステップS213)。より詳しくは、制御装置100は、音声コマンド判断部116によって、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第1閾値以上一致する発話が検出されたことを示す場合に、撮影終了を指示する音声コマンドが受け付けされたと判断する。制御装置100は、音声コマンド判断部116によって、撮影終了を指示する音声コマンドを受け付けたと判定する場合(ステップS213でYes)、ステップS214に進む。または、制御装置100は、音声コマンド判断部116によって、撮影終了を指示する音声コマンドを受け付けたと判定しない場合(ステップS213でNo)、ステップS215に進む。
 撮影終了を指示する音声コマンドを受け付けたと判定する場合(ステップS213でYes)、制御装置100は、記録制御部122によって音声コマンド受付時点で撮影データの記録を終了する(ステップS214)。制御装置100は、ステップS218に進む。
 撮影終了を指示する音声コマンドを受け付けたと判定しない場合(ステップS213でNo)、制御装置100は、撮影終了を指示する音声コマンドと一致度の低い発話を検出したか否かを判定する(ステップS215)。より詳しくは、制御装置100は、音声コマンド判断部116によって、受け付けた発話の認識結果が、第2閾値以上かつ第1閾値未満である発話が検出されたことを示す場合に、撮影終了を指示する音声コマンドと一致度の低い発話を検出したと判断する。制御装置100は、撮影終了を指示する音声コマンドと一致度の低い発話を検出したと判定する場合(ステップS215でYes)、ステップS216へ進む。制御装置100は、撮影終了を指示する音声コマンドと一致度の低い発話を検出したと判定しない場合(ステップS215でNo)、ステップS218へ進む。
 撮影終了を指示する音声コマンドと一致度の低い発話を検出したと判定する場合(ステップS215でYes)、制御装置100は、所定期間T1内に撮影終了を指示する音声コマンドと一致度の低い発話を検出したか否かを判定する(ステップS216)。制御装置100は、音声コマンド判断部116によって、一致度の低い発話が所定期間T1内に複数回検出された場合(ステップS216でYes)、ステップS217へ進む。制御装置100は、音声コマンド判断部116によって、一致度の低い発話が所定期間T1内に複数回検出されなかった場合(ステップS216でNo)、ステップS218へ進む。
 一致度の低い発話が所定期間T1内に複数回検出された場合(ステップS216でYes)、制御装置100は、記録制御部122によって、撮影終了を指示する音声コマンドと一致度の低い音声コマンドの初回検出時点で撮影データの記録を終了する(ステップS217)。より詳しくは、制御装置100は、記録制御部122によって、初回の発話検出時点までの撮影データを記録部213に保存させる。制御装置100は、ステップS218に進む。
 制御装置100は、処理を終了するか否かを判定する(ステップS218)。例えば、車両の電源や動力がOFFにされたことや、操作部214の操作がされたことなどで、処理を終了することが判定される。制御装置100は、処理を終了すると判定された場合(ステップS218でYes)、本処理を終了する。制御装置100は、処理を終了すると判定されない場合(ステップS218でNo)、ステップS208の処理を再度実行する。
<効果>
 上述したように、本実施形態によれば、音声コマンドを正確に発話できない場合、または、正確に発話を行った場合であっても、周囲の音による影響で、音声コマンドを適切に認識できない場合に、映像または静止画を適切なタイミングで記録することができる。
 本開示に係る車両用記録装置10は、上述した実施形態以外にも種々の異なる形態にて実施されてもよい。上述した実施形態においては、音声操作制御装置100を備える車両用記録装置10の例を用いて説明したが、本開示の技術は、車両用記録装置10以外へに適用も可能である。例えば、音声コマンドを用いて装置の制御を行う様々な装置に適用可能である。このため、上述した実施形態においては、動作制御部122の一例として記録制御部122として説明したが、動作制御部122は、映像の記録制御以外においても、音声の記録や、他の様々な制御に適用可能である。
 上述した実施形態においては、発話検出時点として検出対象となる発話に対する時間幅の概念を含まずに説明したが、発話検出時点t3や発話検出時点t7には、例えば「ろくが」のような音声の開始時点から終了時点までの発話が行われた時間幅が存在する。したがって、発話検出時点t3や発話検出時点t7は、このような発話の開始時点や終了時点などが設定されてもよく、発話の開始時点から終了時点までの期間においては、任意に設定可能である。
 図示した車両用記録装置10の各構成要素は、機能概念的なものであり、必ずしも物理的に図示の如く構成されていなくてもよい。すなわち、各装置の具体的形態は、図示のものに限られず、各装置の処理負担や使用状況などに応じて、その全部または一部を任意の単位で機能的または物理的に分散または統合してもよい。
 車両用記録装置10の構成は、例えば、ソフトウェアとして、メモリにロードされたプログラムなどによって実現される。上記実施形態では、これらのハードウェアまたはソフトウェアの連携によって実現される機能ブロックとして説明した。すなわち、これらの機能ブロックについては、ハードウェアのみ、ソフトウェアのみ、または、それらの組み合わせによって種々の形で実現できる。
 上記した構成要素には、当業者が容易に想定できるもの、実質的に同一のものを含む。さらに、上記した構成は適宜組み合わせが可能である。また、本発明の要旨を逸脱しない範囲において構成の種々の省略、置換または変更が可能である。
 本開示の音声操作制御装置および音声操作方法は、例えば、ドライブレコーダに使用することができる。
 10   車両用記録装置(音声操作装置)
 100  制御装置(音声操作制御装置)
 111  撮影データ取得部
 112  バッファメモリ
 113  撮影データ処理部
 114  イベント検出部
 115  位置情報取得部
 116  音声コマンド判断部
 117  音声コマンド受付部
 118  操作制御部
 119  表示制御部
 121  再生制御部
 122  記録制御部
 211  カメラ
 212  マイクロフォン
 213  記録部
 214  操作部
 215  加速度センサ
 216  GNSS受信部
 217  表示部
 P1   期間
 T1   期間

Claims (6)

  1.  ユーザによる発話を認識し、認識した発話が音声コマンドであるか否かを判断する音声コマンド判断部と、
     前記音声コマンド判断部が、音声コマンドが発話されたと判断した場合、受け付けた音声コマンドを受け付ける音声コマンド受付部と、
     を備え、
     前記音声コマンド判断部は、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第1閾値以上一致する発話が検出されたことを示す場合に、認識した発話が音声コマンドであると判断するととともに、受け付けた発話の認識結果が、前記第1閾値より低い一致度を示す第2閾値以上かつ前記第1閾値未満である発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断する、
     音声操作制御装置。
  2.  映像を撮影するカメラが撮影した撮影データを取得する撮影データ取得部と、
      前記音声コマンド受付部が受け付けた音声コマンドに基づく動作を行う動作制御部と、をさらに備え、
     前記音声コマンド判断部は、認識した発話が前記撮影データの記録を行うための音声コマンドであるか否かを判断し、
     前記動作制御部は、前記音声コマンド受付部が受け付けた音声コマンドに基づき、前記撮影データ取得部が取得した撮影データの保存を行う、
     請求項1に記載の音声操作制御装置。
  3.  前記音声コマンド判断部は、認識した発話が前記撮影データのイベント記録を行うための音声コマンドであるか否かを判断し、
     前記動作制御部は、前記音声コマンド判断部が、予め設定された音声コマンドに対して第1閾値以上一致する発話を検出することで前記音声コマンドを検出した場合は、前記音声コマンドが検出された時点を基準とした前後所定期間の撮影データをイベントデータとして保存し、前記第2閾値以上かつ前記第1閾値未満である発話が、所定期間内に複数回検出されることで前記音声コマンドを検出した場合は、複数回検出された発話のうち初回の発話が検出された時点を基準とした前後所定期間の撮影データをイベントデータとして保存する、
     請求項2に記載の音声操作制御装置。
  4.  前記音声コマンド判断部は、認識した発話が前記撮影データの静止画像の記録を行うための音声コマンドであるか否かを判断し、
     前記動作制御部は、前記音声コマンド判断部が、予め設定された音声コマンドに対して第1閾値以上一致する発話を検出することで前記音声コマンドを検出した場合は、前記音声コマンドが検出された時点の静止画像を保存し、前記第2閾値以上かつ前記第1閾値未満である発話が、所定期間内に複数回検出されることで前記音声コマンドを検出した場合は、複数回検出された発話のうち初回の発話が検出された時点の静止画像を保存する、
     請求項2に記載の音声操作制御装置。
  5.  前記音声コマンド判断部は、認識した発話が撮影開始を行うための音声コマンドであるか否かを判断し、
     前記動作制御部は、前記音声コマンド判断部が、予め設定された音声コマンドに対して第1閾値以上一致する発話を検出することで前記音声コマンドを検出した場合は、前記音声コマンドが検出された時点を基準として前記撮影データの記録を開始し、前記第2閾値以上かつ前記第1閾値未満である発話が、所定期間内に複数回検出されることで前記音声コマンドを検出した場合は、複数回検出された発話のうち初回の発話が検出された時点を基準として前記撮影データの記録を開始する、
     請求項2に記載の音声操作制御装置。
  6.  ユーザによる発話を認識し、受け付けた発話の認識結果が、予め設定された音声コマンドに対して第1閾値以上一致する発話が検出されたことを示す場合に、認識した発話が音声コマンドであると判断するととともに、受け付けた発話の認識結果が、前記第1閾値より低い一致度を示す第2閾値以上かつ前記第1閾値未満である発話が、所定期間内に複数回検出されたことを示す場合、認識した発話が音声コマンドであると判断する、音声コマンド判断ステップと、
     前記音声コマンド判断ステップで、音声コマンドが発話されたと判断した場合、受け付けた音声コマンドを受け付ける音声コマンド受付ステップと、
     を音声操作制御装置が実行する音声操作方法。
PCT/JP2023/000167 2022-01-27 2023-01-06 音声操作制御装置および音声操作方法 WO2023145405A1 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2022-010662 2022-01-27
JP2022010662 2022-01-27
JP2022-050753 2022-03-25
JP2022050753A JP2023109663A (ja) 2022-01-27 2022-03-25 音声操作制御装置および音声操作方法

Publications (1)

Publication Number Publication Date
WO2023145405A1 true WO2023145405A1 (ja) 2023-08-03

Family

ID=87471215

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/000167 WO2023145405A1 (ja) 2022-01-27 2023-01-06 音声操作制御装置および音声操作方法

Country Status (1)

Country Link
WO (1) WO2023145405A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005090837A (ja) * 2003-09-17 2005-04-07 Noritz Corp 温水システム
JP2010181280A (ja) * 2009-02-05 2010-08-19 Clarion Co Ltd 移動体用画像記憶装置、ナビゲーション装置、移動体用画像記憶方法及びプログラム
JP2013257448A (ja) * 2012-06-13 2013-12-26 Seiko Epson Corp 音声認識装置
JP2016009202A (ja) * 2014-06-20 2016-01-18 株式会社デンソー ドライブレコーダーおよびドライブレコーダー用のプログラム
JP2020128206A (ja) * 2020-04-14 2020-08-27 株式会社ユピテル 電子機器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005090837A (ja) * 2003-09-17 2005-04-07 Noritz Corp 温水システム
JP2010181280A (ja) * 2009-02-05 2010-08-19 Clarion Co Ltd 移動体用画像記憶装置、ナビゲーション装置、移動体用画像記憶方法及びプログラム
JP2013257448A (ja) * 2012-06-13 2013-12-26 Seiko Epson Corp 音声認識装置
JP2016009202A (ja) * 2014-06-20 2016-01-18 株式会社デンソー ドライブレコーダーおよびドライブレコーダー用のプログラム
JP2020128206A (ja) * 2020-04-14 2020-08-27 株式会社ユピテル 電子機器

Similar Documents

Publication Publication Date Title
JP6594879B2 (ja) 電子デバイス上の音声をバッファリングする方法及びコンピューティングデバイス
US8564681B2 (en) Method, apparatus, and computer-readable storage medium for capturing an image in response to a sound
US9704484B2 (en) Speech recognition method and speech recognition device
US10964348B2 (en) Recording control apparatus, recording apparatus, recording control method, and recording control program
JP2002091466A (ja) 音声認識装置
JP6435658B2 (ja) ドライブレコーダーおよびドライブレコーダー用のプログラム
US11995927B2 (en) On-vehicle recording control apparatus, on-vehicle recording apparatus, on-vehicle recording control method, and non-transitory computer-readable recording medium
WO2023145405A1 (ja) 音声操作制御装置および音声操作方法
JP2019092077A (ja) 記録制御装置、記録制御方法およびプログラム
JP2023109663A (ja) 音声操作制御装置および音声操作方法
JPH11352987A (ja) 音声認識装置
WO2023074162A1 (ja) 車両用記録制御装置および記録制御方法
JP2004301893A (ja) 音声認識装置の制御方法
JP2023107446A (ja) 車両用記録制御装置および記録制御方法
JP2023107445A (ja) 車両用記録制御装置および記録制御方法
JP2023067736A (ja) 車両用記録制御装置および記録制御方法
WO2024029192A1 (ja) 音声コマンド受付装置、および音声コマンド受付方法
JP2018198093A (ja) ドライブレコーダーおよびドライブレコーダー用のプログラム
WO2024029187A1 (ja) 音声コマンド受付装置、および音声コマンド受付方法
WO2023047654A1 (ja) 車両用記録制御装置および記録方法
JP2024030853A (ja) 音声コマンド受付装置、および音声コマンド受付方法
JP2023162844A (ja) 車両用記録制御装置および記録制御方法
JP2024030925A (ja) 音声コマンド受付装置、音声コマンド受付方法およびプログラム
JP7010012B2 (ja) 音声出力制御装置、電子機器、音声出力制御方法およびプログラム
JP2024022448A (ja) 音声コマンド受付装置、および音声コマンド受付方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23746622

Country of ref document: EP

Kind code of ref document: A1