WO2021085242A1 - 情報処理装置、及びコマンド処理方法 - Google Patents

情報処理装置、及びコマンド処理方法 Download PDF

Info

Publication number
WO2021085242A1
WO2021085242A1 PCT/JP2020/039401 JP2020039401W WO2021085242A1 WO 2021085242 A1 WO2021085242 A1 WO 2021085242A1 JP 2020039401 W JP2020039401 W JP 2020039401W WO 2021085242 A1 WO2021085242 A1 WO 2021085242A1
Authority
WO
WIPO (PCT)
Prior art keywords
command
operation target
unit
start timing
state
Prior art date
Application number
PCT/JP2020/039401
Other languages
English (en)
French (fr)
Inventor
広 岩瀬
祐平 滝
邦仁 澤井
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2021553461A priority Critical patent/JPWO2021085242A1/ja
Priority to US17/771,043 priority patent/US20220357915A1/en
Publication of WO2021085242A1 publication Critical patent/WO2021085242A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04847Interaction techniques to control parameter settings, e.g. interaction with sliders or dials
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04806Zoom, i.e. interaction techniques or interactors for controlling the zooming operation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to an information processing device and a command processing method.
  • Patent Document 1 proposes a technique in which only the start portion of a received voice is recognized, and when the start portion is recognized, processing corresponding to the recognition result is started.
  • this disclosure proposes an information processing device capable of processing commands at an intended timing for an operation target, and a command processing method.
  • the information processing device has a detection unit and a command processing unit.
  • the detection unit detects the command input start timing by the gesture for the operation target accompanied by the time change.
  • the command processing unit processes the command recognized by the gesture based on the state of the operation target at the input start timing detected by the detection unit.
  • the user when operating an operation target with a temporal change by a voice command, the user inputs the command by voice at the timing when the operation decision is made.
  • the operation as intended by the user cannot be performed because a delay (latency) occurs in the execution of the command due to the utterance or the voice recognition process and the state of the operation target changes.
  • FIG. 1 is a diagram showing an example of a conventional voice operation for an operation target accompanied by a time change.
  • FIG. 1 shows a volume indicator 80 for adjusting the volume as an operation target with a time change.
  • the volume indicator 80 is provided with a slider bar 80a indicating the volume.
  • the volume indicator 80 can control the volume by moving the slider bar 80a. Further, in the volume indicator 80, the slider bar 80a moves according to the operation of the volume by voice.
  • FIG. 1 shows a case where the system accepts a voice command and sets the volume of the volume indicator 80. The system continuously increases the volume with the "turn up" voice and stops the volume increase with the "stop" voice.
  • the system stops the increase in volume by performing voice recognition / meaning understanding processing after the utterance of "stop” is finished.
  • the volume at the start of the "stop” utterance that the user originally wanted to set is set too far to the volume that is increased by the latency time (overshoot).
  • the system cannot determine what to do until the user finishes speaking the command and interprets the speech-recognized text as a command. Therefore, in the system, the latency from the start of the user's utterance to the execution of the command processing occurs. As a result, the command cannot be processed at the timing intended by the user.
  • FIG. 2 is a diagram showing a configuration example of the information processing system 1 according to the embodiment of the present disclosure.
  • the information processing system 1 is a system that provides input of commands by gestures.
  • the information processing device 10 is an information processing terminal that receives input of a command by a gesture from a user to an operation target that changes with time. In the present embodiment, the information processing device 10 accepts a voice command input from the user.
  • the information processing device 10 may be a personal computer, a mobile terminal such as a smartphone or tablet terminal carried by the user. In the present embodiment, the information processing device 10 corresponds to the information processing device according to the present disclosure.
  • the server device 20 is a server device that recognizes a command input by a gesture.
  • the server device 20 performs a recognition process of a command input by voice.
  • the information processing device 10 includes a display unit 11, a photographing unit 12, an audio output unit 13, an audio input unit 14, a storage unit 15, a communication unit 16, and a control unit 17.
  • the information processing device 10 may have an input unit (for example, a keyboard, a mouse, etc.) that receives various operations from a user or the like who uses the information processing device 10.
  • the display unit 11 is a display device that displays various types of information. Examples of the display unit 11 include display devices such as LCD (Liquid Crystal Display) and CRT (Cathode Ray Tube). The display unit 11 displays various information based on the control of the control unit 17. For example, the display unit 11 displays a screen displaying an operation target that changes with time.
  • LCD Liquid Crystal Display
  • CRT Cathode Ray Tube
  • the photographing unit 12 is an imaging device such as a camera.
  • the photographing unit 12 photographs an image based on the control from the control unit 17, and outputs the captured image data to the control unit 17.
  • the audio output unit 13 is an acoustic output device such as a speaker.
  • the photographing unit 12 outputs various sounds based on the control from the control unit 17.
  • the voice input unit 14 is a sound collecting device such as a microphone.
  • the photographing unit 12 collects the user's voice and the like, and outputs the collected voice data to the control unit 17.
  • the storage unit 15 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • the storage unit 15 stores various programs including a control program that controls state storage processing and command processing, which will be described later. In addition, the storage unit 15 stores various data.
  • the communication unit 16 is realized by, for example, a NIC (Network Interface Card) or the like.
  • the communication unit 16 is connected to the network N (Internet or the like) by wire or wirelessly, and transmits / receives information to / from the server device 20 or the like via the network N.
  • control unit 17 for example, a program stored in the information processing device 10 is executed by a CPU (Central Processing Unit), an MPU (Micro Processing Unit), or the like using a RAM (Random Access Memory) or the like as a work area. It will be realized. Further, the control unit 17 is a controller, and may be realized by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the server device 20 includes a communication unit 21, a storage unit 22, and a control unit 23.
  • the server device 20 has an input unit (for example, a keyboard, a mouse, etc.) that receives various operations from a user or the like who uses the server device 20, and a display unit (for example, a liquid crystal display, etc.) for displaying various information. You may.
  • the communication unit 21 is realized by, for example, a NIC or the like.
  • the communication unit 21 is connected to the network N by wire or wirelessly, and transmits / receives information to / from the information processing device 10 or the like via the network N.
  • the storage unit 22 is realized by, for example, a semiconductor memory element such as a RAM or a flash memory, or a storage device such as a hard disk or an optical disk.
  • the storage unit 22 stores various programs.
  • the storage unit 22 stores various data.
  • the storage unit 22 stores the user data 40 and the content data 41.
  • the user data 40 is data that stores various information for each user, such as the recognition time and operation history of each user.
  • the content data 41 is data that stores contents such as music and moving images.
  • the control unit 23 is realized by, for example, executing a program or the like stored in the server device 20 as a work area by a CPU, an MPU, or the like. Further, the control unit 17 is a controller, and may be realized by an integrated circuit such as an ASIC or FPGA.
  • control unit 17 of the information processing device 10 and the server device 20 control unit 23 receive the command input by the gesture by performing the processing in a distributed manner, and execute the processing of the command recognized from the gesture.
  • the control unit 17 has a detection unit 30, a command processing unit 31, and an output control unit 32
  • the control unit 23 includes a voice recognition unit 33, a meaning understanding unit 34, and an image recognition unit 35. It has and realizes or executes the functions and actions of information processing described below.
  • the control unit 17 and the control unit 23 are not limited to the configuration shown in FIG. 2, and may have other configurations as long as they can realize the functions and operations of information processing described below. Good.
  • FIG. 3 is a diagram showing a functional configuration example of the information processing system 1 according to the embodiment of the present disclosure.
  • the left side of the broken line L1 is a component on the information processing device 10 side
  • the right side of the broken line L1 is a component on the server device 20 side.
  • the boundary between the components of the information processing device 10 and the server device 20 is not limited to the broken line L1.
  • the detection unit 30, command processing unit 31, output control unit 32, voice recognition unit 33, meaning understanding unit 34, image recognition unit 35, user data 40, and content data 41 are on the information processing device 10 side and the server device 20 side. It may be either component.
  • the boundary between the components of the information processing device 10 and the server device 20 may be defined as the broken line L2, and all of the components may be the components on the information processing device 10 side. Further, the boundary between the components of the information processing device 10 and the server device 20 may be a broken line L3, and all of them may be components on the server device 20 side.
  • the server device 20 corresponds to the information processing device according to the present disclosure.
  • the voice spoken by the user is input to the information processing system 1 through the voice input unit 14.
  • the detection unit 30 performs voice section detection (VAD: Voice Activity Detection) on the input voice data to detect the utterance section, and outputs the voice data of the utterance section to the voice recognition unit 33. Further, the detection unit 30 detects the input start timing of the voice command from the input voice data. For example, the detection unit 30 detects the timing at which the utterance section becomes effective in the voice section detection as the input start timing. The detection unit 30 outputs the detected input start timing to the command processing unit 31.
  • VAD Voice Activity Detection
  • the voice recognition unit 33 performs voice recognition (ASR: Automatic Speech Recognition) processing on the voice data detected as the speech section in the voice section detection, and converts the voice data into text data. As a result, the user's voice input to the voice input unit 14 is converted into text.
  • the meaning understanding unit 34 performs meaning understanding processing such as natural language understanding (NLU: Natural language understanding) on the text data converted by the voice recognition unit 33, and estimates the utterance intention (Intent + Entity).
  • NLU Natural language understanding
  • the meaning understanding unit 34 outputs the utterance intention information indicating the estimated utterance intention to the command processing unit 31.
  • the user's image is input to the information processing system 1 through the photographing unit 12.
  • the photographing unit 12 periodically photographs an image, and outputs the captured image data to the image recognition unit 35.
  • the image recognition unit 35 performs face recognition and line-of-sight recognition on the input image data, recognizes the face orientation and line-of-sight of the recognized face, and outputs image recognition information indicating the recognition result to the command processing unit 31. ..
  • the output control unit 32 outputs the content of the content data 41 to the user through the voice output unit 13 and the display unit 11 based on the output instruction from the command processing unit 31.
  • the command processing unit 31 inputs the input start timing from the detection unit 30, the utterance intention information is input from the meaning understanding unit 34, and the image recognition information is input from the image recognition unit 35. Further, the command processing unit 31 acquires the state of the operation target from the output control unit 32. For example, the command processing unit 31 acquires from the output control unit 32 the state of the operation target at the input start timing detected by the detection unit 30.
  • the command processing unit 31 has input start timing input from the detection unit 30, speech intention information input from the meaning understanding unit 34, image recognition information input from the image recognition unit 35, and an operation target acquired from the output control unit 32. An output instruction is given to the output control unit 32 based on the state of.
  • the command processing unit 31 processes the command recognized from the voice based on the state of the operation target at the input start timing detected by the detection unit 30. For example, the command processing unit 31 stores the time of the input start timing or the state of the operation target at the time. Then, the command processing unit 31 returns the state of the operation target to the state of the stored time, or executes command processing for the stored state of the operation target.
  • FIG. 4 is a diagram showing an example of a voice operation on an operation target accompanied by a time change according to the embodiment of the present disclosure.
  • FIG. 4 shows a volume indicator 80 as in FIG.
  • the slider bar 80a moves according to the operation of the volume by voice. For example, as in FIG. 1, when the user speaks “turn up” and then "stop", the volume overshoots by the latency, but the position of the input start timing of the "stop” utterance. The volume is corrected to and the stop processing is performed. In this way, the command processing can be executed at the intended timing for the volume indicator 80.
  • FIG. 5 is a diagram illustrating a method for detecting an input start timing according to the embodiment of the present disclosure.
  • FIG. 5 shows a sequence in which an operation related to playback of moving image content is performed by a voice command.
  • FIG. 5 shows each period of the user's utterance, utterance section detection, voice recognition, and meaning understanding. Further, the moving image contents "1" to "5" displayed by the reproduction are shown in the lower part of FIG. 5, and the seek bar 81 indicating the reproduction position of the moving image is shown in the lower part of each moving image content.
  • FIG. 5 shows a case where the user utters “fast forward” and then utters “stop” at a timing desired to stop in order to fast forward the moving image content.
  • the detection unit 30 detects the input start timing of a voice command from the input voice data. For example, the detection unit 30 detects the timing at which the utterance section becomes effective in the voice section detection as the input start timing. The detection unit 30 may detect the timing at which the input volume (for example, RMS (Root Mean Square)) indicated by the voice data exceeds a certain threshold value as the input start timing, instead of the timing at which the utterance section becomes effective. ..
  • RMS Root Mean Square
  • the playback position Pt of the moving image content “1” at the start timing of the “fast forward” utterance is stored.
  • the command processing unit 31 discards the playback position Pt stored at the start timing of the “fast forward” utterance, and stores the playback position Pt at the start timing of the “stop” utterance.
  • the command processing unit 31 stops the fast forward at the position of the reproduction position Pt. In the example of FIG. 5, fast-forwarding is stopped at the moving image content “4” displayed at the start timing of the utterance of “stop”.
  • the command processing unit 31 stores and updates the playback position Pt as the state of the operation target at the input start timing.
  • the command processing unit 31 stores the time Tb of the input start timing as the state of the operation target at the input start timing, returns the state of the operation target to the state of the time Tb by the method described later, and processes the command. May be carried out.
  • the user may utter a filler when uttering a command by voice.
  • a filler is, for example, a connecting word that does not have a specific meaning by itself, such as “ah”, "er”, and "n”, and is sandwiched between utterances.
  • the user may utter a filler immediately before the command.
  • the user may speak a filler immediately before a command, such as when he suddenly notices that it is time to speak the command.
  • the user may utter a filler regardless of the command.
  • the command processing unit 31 processes the command for the state of the operation target at the timing when the filler starts to be generated.
  • FIG. 6 is a diagram illustrating a method for detecting an input start timing according to the embodiment of the present disclosure.
  • FIG. 6 shows a sequence in which an operation related to playback of the moving image content after the utterance of “fast forward” in FIG. 5 is performed by a voice command.
  • FIG. 6 shows a case where the user utters “stop” after uttering “hmm” at the timing when he / she wants to stop.
  • the command processing unit 31 When a voice command is input within a predetermined predetermined time th after the filler utterance, the command processing unit 31 returns the operation target to the state of the input start timing of the filler utterance and executes the command processing.
  • the specified time th is the time when the filler is immediately before the command and can be regarded as the filler spoken together with the command. For example, the specified time th is 2 seconds.
  • the update flag fu True because the utterance of "fast forward” in FIG. 5 was made before “Hmm”
  • the video at the input start timing of "Hmm” and the utterance The playback position Pt of the content is stored.
  • the filler when the time tl is less than or equal to the specified time th, the filler is used as the filler generated immediately before the command, and the command is processed for the state of the operation target at the filler input start timing.
  • the filler when the time tl is larger than the specified time th, the filler is used as a filler generated regardless of the command, and the command is processed for the state of the operation target at the input start timing of the subsequent command.
  • the specified time th may be variable.
  • the command processing unit 31 may change the specified time th so that the faster the operation target moves, the larger the value becomes.
  • the command processing unit 31 may extract the pitch of the utterance, and if the pitch of the end of the word is rising, change it so that the specified time th becomes a large value.
  • the command processing unit 31 determines whether the user's utterance is directed to the information processing system 1 and executes the command processing.
  • FIG. 7 is a diagram illustrating a method for detecting an input start timing according to the embodiment of the present disclosure.
  • FIG. 7 shows a sequence in which an operation related to playback of the moving image content after the utterance of “fast forward” in FIG. 5 is performed by a voice command.
  • An image taken by the photographing unit 12 is shown in the lower part of FIG. 7.
  • the image shows two users. Two users are parents and children.
  • the user (child) since the user (child) is noisy while the user (parent) is uttering the filler with “Hmm” when deciding the stop timing, the user (parent) directs the user (child). It shows the case where "stop” is spoken as a command after saying "noisy”.
  • the command processing unit 31 determines whether the user is looking at the display unit 11 from at least one of the face orientation and the line of sight recognized by the image recognition unit 35 when the command is input. When the user is looking at the display unit 11, the command processing unit 31 executes command processing based on the state of the operation target at the input start timing detected by the detection unit 30.
  • the image recognition unit 35 detects the user's face orientation and line of sight by image recognition processing of the image around the device captured by the photographing unit 12.
  • the command processing unit 31 determines whether the user's utterance is directed to the information processing system 1 from the face orientation or line of sight detected by the image recognition unit 35. For example, when the detected face direction or line of sight is directed toward the display unit 11, the command processing unit 31 determines that the utterance is directed to the information processing system 1. Further, when the face direction or the line of sight is not directed toward the display unit 11, the command processing unit 31 determines that the utterance is not directed to the information processing system 1.
  • non-system utterances utterances that are not directed to the information processing system 1 will be referred to as “non-system utterances”.
  • the result of the utterance determination for the system is input to the command processing unit 31 and used for the setting determination of the update flag fu.
  • the command processing unit 31 describes how to return the state of the operation target when storing the time of the input start timing.
  • the input start timing is time Tb.
  • the correction amount ⁇ p of the state of the operation target can be expressed by the following equation (1).
  • vn the speed of the operation target when receiving the utterance intention Intent.
  • ⁇ t is the time difference (Tn ⁇ Tb) between the time Tn at the time of receiving the utterance intention Intent and the time Tb at the input start timing.
  • ⁇ p vn ⁇ ⁇ t + (a ⁇ ⁇ t 2/2) ⁇ (2) here, a is the deceleration of the operation target.
  • the user may have a time lag before recognizing that it is the desired timing and issuing a command.
  • the command processing unit 31 may perform command processing by giving an offset to the operation target in consideration of the recognition time until the user starts speaking.
  • the command processing unit 31 sets the recognition time to until the user makes a decision while receiving feedback and starts utterance as an offset of the correction amount.
  • the command processing unit 31 executes command processing based on the state of the operation target at the timing when the recognition time according to the attribute of the user who inputs the command is changed from the input start timing detected by the detection unit 30. To do.
  • the command processing unit 31 When storing the time Tb of the input start timing as the operation target state of the input start timing, the command processing unit 31 obtains the time difference ⁇ t from the following equation (3).
  • ⁇ t Tn-Tb + to ⁇ ⁇ ⁇ (3) here, to is the cognitive time.
  • the correction amount ⁇ p of the state to be operated is obtained from the above equations (1) and (2).
  • the command processing unit 31 corrects the operation target state Pt from the recognition time to to the state before the recognition time to. Find the quantity ⁇ po. Then, the command processing unit 31 further corrects the correction amount ⁇ po with respect to the state Pt of the operation target.
  • the correction amount ⁇ po can be expressed by the following equation (4).
  • vb is the moving speed of the operation target at the input start timing.
  • the correction amount ⁇ po can be expressed by the following equation (5).
  • ⁇ po vb ⁇ to + (a ⁇ to 2/2) ⁇ (5) here, a is the deceleration of the operation target.
  • the cognitive time to may be variable by any of the following methods or combinations.
  • the image recognition unit 35 estimates the age of the user who spoke from the image obtained by the photographing unit 12.
  • the command processing unit 31 may be changed so that the recognition time to becomes a larger value as the age estimated by the image recognition unit 35 is higher than the specified value (the older the person).
  • the cognitive time to may be obtained by estimating the tendency of the cognitive time of the individual user from the operation history of the user for each user.
  • FIG. 8 is a diagram illustrating an example of estimating the tendency of the recognition time of an individual user from the operation history according to the embodiment of the present disclosure.
  • the volume indicator 80 is shown as an operation target that changes with time.
  • the slider bar 80a moves according to the operation of the volume by voice.
  • the user's recognition time to is set to 0.
  • the user utters "turn up the volume” to continuously increase the volume, and utters "stop” at the timing when he / she wants to stop.
  • the volume indicator 80 overshoots the volume by the latency when the "stop” is spoken, but the volume is corrected to the position Pt of the input start timing of the "stop” by the technique of the present embodiment.
  • the information processing system 1 obtains a finely adjusted amount as a cognitive correction amount ⁇ po within a predetermined predetermined time after continuous movement over a certain level. Then, the information processing system 1 obtains the recognition time to from the correction amount ⁇ po by the following equation (6), associates the obtained recognition time to with the user, and stores it in the user data 40. For example, the information processing system 1 causes a user to input identification information such as a user ID that identifies the user. The information processing system 1 stores the recognition time to in the user data 40 in association with the input user identification information. As the user identification information, the user's characteristic information recognized from the image taken by the user or the user's voice may be used.
  • vb is the moving speed of the operation target when an overshoot occurs.
  • the command processing unit 31 reads the recognition time to corresponding to the user's identification information from the user data 40, and corrects the user's operation by adding the recognition time to. For example, when the user utters "Volume up” to continuously increase the volume and utters "Stop", the position Pt + (the position Pt + of the recognition time to minutes is added from the position Pt of the input start timing of "Stop". Correct the volume to to ⁇ vb). In this way, the command processing unit 31 corrects the operation target in consideration of the user's recognition time to minutes, so that the operation can be performed at the timing intended by the user. For example, in the case of FIG. 8, the volume can be quickly corrected to the volume intended by the user from the next time onward.
  • the correction amount ⁇ po and the recognition time when the user's fine adjustment is in the same forward direction as the correction direction of the position Pt, the correction amount ⁇ po and the recognition time to take positive values.
  • the correction amount ⁇ po and the recognition time when the user's fine adjustment is in the direction opposite to the correction direction of the position Pt, the correction amount ⁇ po and the recognition time to take negative values.
  • the cognitive time to takes a positive value and the total correction amount increases.
  • the recognition time to takes a negative value and the correction amount decreases.
  • the output control unit 32 is a voice synthesis (TTS: Text To Speech) indicating that the correction value of the operation target will change from the next time onward based on this operation. May be output.
  • the cognitive time to obtained by fine-tuning the user may be the average of the most recent plurality of times (for example, three times) in the operation history.
  • the command processing unit 31 stores and stores the operation history finely adjusted by the user in the user data 40 in association with the user's identification information.
  • the command processing unit 31 calculates the recognition time to for each user based on the accumulated operation history, and stores the recognition time to in the user data 40 in association with the user's identification information.
  • the command processing unit 31 may read the recognition time to corresponding to the user's identification information from the user data 40 at the time of the correction processing in the voice command processing, and correct the operation target.
  • the operation target accompanied by the time change is the operation related to the playback of the volume indicator and the video content
  • the operation target may be any as long as it changes with time.
  • the operation target may be one that is continuously operated or one that is operated discretely. Examples of continuous operation targets include scrolling operations, two-dimensional movement and scaling (zooming in / out) operations of maps, and media playback control operations such as music and moving images.
  • the discrete operation target for example, an item selection operation and a cover flow for displaying contents such as photographs in a visually flipped format can be mentioned.
  • FIG. 9A is a diagram showing another example of an operation target with a time change according to the embodiment of the present disclosure.
  • FIG. 9A shows a vertical scrolling operation of the screen.
  • the technique of the present disclosure may be applied when inputting a scroll operation command by voice.
  • FIG. 9B is a diagram showing another example of an operation target with a time change according to the embodiment of the present disclosure.
  • FIG. 9B shows a two-dimensional movement and scaling operation of the map displayed on the screen in the vertical and horizontal directions.
  • the technique of the present disclosure may be applied when inputting commands for two-dimensional movement and scaling of a map using voice.
  • FIG. 9C is a diagram showing another example of an operation target with a time change according to the embodiment of the present disclosure.
  • 9C shows item selection for selecting an item to be selected from a plurality of items.
  • the technique of the present disclosure may be applied when inputting an item selection command by voice.
  • the item selection method of selecting by moving the focus position is effective.
  • the operation target is not limited to the operation of what is displayed on the screen.
  • the operation targets include stopping while listening to the text reading, returning the reading position to the front and rereading, adjusting the brightness of the lighting, adjusting the volume on a device without an indicator display, and air conditioner.
  • the operation target includes setting the destination / waypoint on the map of the car navigation system, moving the viewpoint or object in the three-dimensional space of VR (virtual reality), and setting the time / time. Since the car navigation system becomes difficult to operate by hand while driving, and the VR becomes difficult to operate by hand by attaching the head-mounted display, the operation by voice using the technique of the present disclosure is effective.
  • a voice operation using the technique of the present disclosure is effective for a movement operation such as turning pages when displaying an electronic document such as an electronic medical record in a hospital. For example, in an operating room or the like, it is difficult to operate by hand, so it is effective to operate by voice using the technique of the present disclosure.
  • FIG. 10 is a diagram showing an example of a voice operation on an operation target accompanied by a time change according to the embodiment of the present disclosure.
  • item selection is shown as an operation target with a temporal change.
  • FIG. 10 shows a case where an item is selected by moving the focus from a plurality of items arranged in the vertical direction to an item to be selected.
  • FIG. 10 shows a case where the user utters “down” to move the focus and then utters “stop” at the timing when the focus moves to the desired item.
  • the user utters "stop” at the timing when the focus moves to "itemN", but the focus moves to "itemP" by overshooting by the latency.
  • the technique of the present embodiment corrects the focus to "itemN".
  • the corrected item may be slightly different from the item desired by the user due to the recognition time of the user or the like. Therefore, the output control unit 32 may display the items in a predetermined range from the corrected items on the display unit 11 so as to be selectable by a number.
  • the selection number is presented centering on the “itemN” that was focused at the input start timing at the time of focus correction.
  • the information processing system 1 enables item selection by speaking a user's selection number.
  • the output control unit 32 may present a number in which more past items can be selected as the moving speed is faster, in consideration of the user's recognition time to. In the example of FIG. 10, when the moving speed is fast, the selection number is presented to "itemK" to "itemO", and when the moving speed is slow, the selection number is presented to "itemmL" to "itemP".
  • the output control unit 32 may present the selection number centering on the item that was viewed at the input start timing by the line-of-sight detection. Further, the output control unit 32 presents the selection number so that if the user's past number selection history is delayed in recognition and many items before the position Pt at the input start timing are selected, the number of previous items increases. You may. Further, the output control unit 32 may present the selection number so that if the user foresaw and selected many items after the item at the position Pt of the input start timing, the number of later items will increase. Further, the output control unit 32 may change the presented item according to the personal attribute information of the user. For example, the output control unit 32 may present a selection number so that if the user is an elderly person, the number of past items will increase.
  • selection numbers is not limited to item selection.
  • content such as a photograph may be divided and displayed on the screen, and selection numbers may be numbered for each of the divided and displayed contents.
  • FIG. 11 is a flowchart illustrating the state storage process according to the embodiment of the present disclosure. This state storage process is executed at the timing when the input start timing is input from the detection unit 30.
  • the command processing unit 31 determines whether or not the update flag fu is True (step S10). When the update flag fu is not True (step S10: No), the command processing unit 31 ends the measurement of the time tl, which is the time interval from the previous utterance (step S11). The command processing unit 31 determines whether the time tl is equal to or less than the specified time th (step S12). When the time tl is equal to or less than the specified time th (step S12: Yes), the command processing unit 31 ends the process.
  • step S12 when the time tl is not less than or equal to the specified time th (step S12: No), the command processing unit 31 sets the update flag fu to True (step S13). Then, the command processing unit 31 stores the time Tb of the input start timing or the state Tb of the operation target at the time (step S14), and ends the processing.
  • step S10: Yes when the update flag fu is True (step S10: Yes), the process proceeds to step S14 described above, stores the time Tb of the input start timing or the state Tb of the operation target at that time (step S14), and processes. To finish.
  • the state of the operation target is memorized when the utterance intention Intent of the previous utterance is other than OOD or when the time tl from the previous utterance becomes longer than the specified time th.
  • FIG. 12 is a flowchart illustrating command processing according to the embodiment of the present disclosure. This command processing is executed at the timing when the utterance intention information is input from the meaning understanding unit 34.
  • the command processing unit 31 determines whether or not the user's utterance is directed to the information processing system 1 (step S20). When the user's utterance is not directed to the information processing system 1 (step S20: No), the command processing unit 31 sets the update flag fu to False (step S21). The command processing unit 31 sets the specified time th according to the speed vn of the operation target, the pitch of the utterance, and the like (step S22). Then, the command processing unit 31 initializes the time tl to zero, and then starts measuring the time tl (step S23).
  • step S20 when the user's utterance is directed to the information processing system 1 (step S20: Yes), the command processing unit 31 determines whether or not the utterance intention Intent indicated by the utterance intention information is OOD. (Step S24). When the utterance intention Intent is OOD (step S24: Yes), the process proceeds to step S21 described above.
  • the command processing unit 31 determines whether or not the processing of the command of the utterance intention Intent depends on the state of the operation target to be changed (step S25). .. For example, when the operation target changes with time and the state of the operation target differs depending on the timing of executing the command, it is determined that the processing of the command depends on the state of the operation target that changes. For example, when a stop command is executed while the volume is being increased, the volume differs depending on the timing at which the stop command is executed. Therefore, it is determined that the stop command when the volume is increased depends on the state of the operation target in which the command processing changes. On the other hand, for example, the stop command for stopping the playback does not depend on the volume, and the playback of the content is stopped. Therefore, it is determined that the stop command processing does not depend on the state of the operation target to be changed.
  • step S25 When the processing of the command of the utterance intention Intent depends on the state of the operation target that changes (step S25: Yes), the command processing unit 31 determines the stored time Tb or the state Tb of the operation target at that time, and the user's recognition time. Based on to, the state of the operation target is corrected (step S26). Then, the command processing unit 31 executes command processing based on the state of the operation target (step S27). The command processing unit 31 sets the update flag fu to True (step S28), and ends the processing.
  • step S25: No when the processing of the command of the utterance intention Intent does not depend on the state of the operation target that changes (step S25: No), the process proceeds to step S27 described above.
  • FIG. 13 is a diagram illustrating a modified example of the present disclosure.
  • FIG. 13 shows a sequence in which an operation related to reproduction of moving image content captured by a surveillance camera is executed by a voice command.
  • FIG. 13 shows each period of the user's utterance, utterance section detection, voice recognition, and meaning understanding. Further, the lower part of FIG. 13 shows the moving image content displayed by the reproduction, and the lower part of each moving image content shows the seek bar 81 indicating the reproduction position of the moving image.
  • the user discovers a person to be noted and utters "Ahhh", and then utters "Zoom the person with the current black hat". The case is shown.
  • the command processing unit 31 will start generating the filler.
  • the command is processed based on the state of the operation target of. For example, the command processing unit 31 causes the image recognition unit 35 to search for a specific target specified by the command from a frame for a certain period before the frame Pt reproduced at the input start timing of the filler.
  • the command processing unit 31 regards a moving image of a fixed period ending at the frame Pt of the input start timing as a time series of discrete frames, and performs an image search of each frame retroactively from the frame Pt.
  • the image recognition unit 35 searches for an image of "a person with a black hat".
  • the command processing unit 31 performs command processing on the frame in which the specific target is first found. For example, when the command processing unit 31 identifies a frame including the "person with a black hat" by the image search, the command processing unit 31 expands the area of the "person with a black hat” with the specified frame.
  • the output control unit 32 outputs a frame in which the area of the “person with a black hat” is enlarged to the display unit 11. In FIG. 13, as a result of the command processing, the “person with a black hat” is displayed in zoom.
  • the command processing unit 31 may circulate and display a moving image for a certain period of time from the frame Pt at the input start timing.
  • the output control unit 32 repeatedly outputs a moving image for a certain period from the frame Pt to the display unit 11.
  • the command processing unit 31 may display the search tag for each frame to be reproduced in circulation.
  • the search tag may be any tag as long as it can identify each frame to be played back in circulation.
  • As the search tag for example, a color or a number can be used.
  • FIGS. 14A-14C are diagrams showing an example of the search tag of the present disclosure.
  • the date and time indicating the reproduction position are combined and displayed as search tags on the background of each frame.
  • the color of the screen frame on which the frame is displayed is changed for each frame, and the color of the screen frame is displayed as a search tag.
  • the number is changed for each frame and the number is displayed as a search tag.
  • the command processing unit 31 searches for a frame of the specified search tag and displays it.
  • the output control unit 32 displays the background color of the frame in a color that circulates at regular intervals.
  • the command processing unit 31 searches for and displays a frame displaying red before the frame Pt by saying "return to red”.
  • the output control unit 32 displays a number that circulates every second in a frame that circulates and reproduces.
  • the command processing unit 31 searches for and displays a frame displaying the number "8" before the frame Pt by uttering "return to 8".
  • FIG. 15 is a diagram illustrating a modified example of the present disclosure.
  • FIG. 15 shows a sequence in the case where a moving image for a certain period before the frame Pt of the input start timing is circulated and reproduced in FIG.
  • brown, yellow, green, blue, and red are circulated and displayed in order as search tags on a part of the background of each frame for a certain period before the frame Pt.
  • the user can specify the frame by speaking the composite background color.
  • the command processing unit 31 causes the output control unit 32 to display a frame in which the specified color is combined.
  • a frame in which the background of “blue” is combined is displayed because “blue” is specified by the user.
  • the command processing unit 31 determines the input start timing of the first utterance "return” before the WUW. Return to the playback position.
  • the output control unit 32 may sound a sound effect / vibration when moving to the next item at the time of movement to make the division easy to understand. .. Further, the output control unit 32 may output a question by voice synthesis (TTS) such as "Is it item N?" As the most promising candidate for selecting the item whose focus is on the input start timing. Further, the output control unit 32 may return to the beginning of the phrase or sentence read out at the input start timing in response to the utterance of "return to the present" during the text reading. For example, the text to be read is analyzed in natural language to extract phrases or sentence breaks. The output control unit 32 returns to the phrase or sentence break immediately before the input start timing, and reads out the text.
  • TTS voice synthesis
  • the technology of the present disclosure may be applied to a car navigation system. For example, if “Oh, I'm turning for now, ⁇ WUW> Turn left for now” is spoken, the car navigation system will guide you to the left turn point just before the input start timing of the first utterance. May be good.
  • the operation target that causes great damage to the user due to the overshoot of the utterance latency may pause the change of the operation target at the timing of starting the input of the utterance.
  • the command processing unit 31 suspends the temporal change of the state of the operation target at the state of the input start timing. Then, the command processing unit 31 may stop the operation target when the voice-recognized command is a stop instruction, and may release the pause when the command is other than the stop instruction.
  • the command processing unit 31 controls the output control unit 32 so that the increase in the volume pauses at the input start timing of the utterance.
  • the command processing unit 31 stops the increase in the volume as it is when the utterance intention Intent after the utterance is a stop instruction, and cancels the pause and increases the volume when the utterance intention Intent is other than the stop instruction.
  • the output control unit 32 is controlled so as to do so.
  • the command processing unit 31 may fine-tune the display position so that all the estimated targets are displayed. Further, the command processing unit 31 is not limited to "stop” during scrolling, and may control the scrolling speed to slow down when the user starts talking.
  • the display unit 11 may display the current state of the operation target that changes with time and the state of the operation target returned to the input start timing detected by the detection unit 30.
  • 16A and 16B are diagrams for explaining an example of the display of the operation target of the present disclosure.
  • the command processing unit 31 gives an output instruction to the output control unit 32 so as to display the state of the operation target at the input start timing detected by the detection unit 30.
  • the output control unit 32 displays the state of the operation target at the input start timing as the corrected state together with the current state of the operation target.
  • the slider bar 80a is displayed on the volume indicator 80 at the current position where the latency has passed, and the marker 80b is displayed as the position Pt of the input start timing of the “stop” utterance after correction.
  • the input start timing "itemN" of the "stop” utterance is displayed as the corrected state together with the "itemP" whose latency has passed.
  • the corrected state may disappear when the correction is completed or the position Pt is updated.
  • the detection unit 30 has described the case where the input start timing is detected from the input voice data, but the present invention is not limited to this.
  • the detection unit 30 may detect the input start timing from the image recognition result by the image recognition unit 35.
  • the detection unit 30 may detect the timing at which the user's facial expression changes as the input start timing from the image recognition result by the image recognition unit 35.
  • the detection unit 30 detects the timing at which the user's gaze point follows the scroll of the specific item from the line-of-sight detection result during the sucrose movement as the input start timing. You may.
  • the command processing unit 31 may determine how far the operation target should be returned after stopping depending on the position / movement seen by the user's line of sight.
  • the gesture is voice
  • the command input by voice is recognized
  • the recognized command is processed
  • the technique of the present disclosure may be applied when a gesture is a physical movement such as a gesture or a hand gesture, a command input process is performed by the physical movement, and the recognized command is processed.
  • the technique of the present disclosure is effective because the start of the processing is delayed by the amount of the recognition processing even when the command is recognized from the physical movement.
  • the information processing device 10 includes a detection unit 30 and a command processing unit 31.
  • the detection unit 30 detects the command input start timing by the gesture for the operation target accompanied by the time change.
  • the command processing unit 31 processes the command recognized by the gesture based on the state of the operation target at the input start timing detected by the detection unit 30. As a result, the information processing apparatus 10 can execute the command processing for the operation target at the intended timing.
  • the command is input by voice.
  • the detection unit 30 detects the command input start timing by voice. As a result, the information processing device 10 can process the command at the timing when the user inputs the command by voice to the operation target.
  • the command processing unit 31 stores the time of the input start timing detected by the detection unit 30 or the state of the operation target at the time.
  • the command processing unit 31 returns the state of the operation target to the state of the stored time, or executes command processing for the stored state of the operation target.
  • the information processing apparatus 10 can execute command processing for the state of the operation target at the input start timing.
  • the command processing unit 31 when a voice command is input within a predetermined predetermined time th after the filler utterance, the command processing unit 31 returns the operation target to the state of the input start timing of the filler utterance and executes the command processing. As a result, the information processing apparatus 10 can process the command at the timing intended by the user even when the filler speaks immediately before the command.
  • the information processing device 10 further includes a display unit 11, a photographing unit 12, and an image recognition unit 35.
  • the display unit 11 displays the operation target.
  • the photographing unit 12 photographs a user who inputs a command.
  • the image recognition unit 35 detects at least one of the direction of the user's face and the line of sight from the image captured by the photographing unit 12.
  • the command processing unit 31 determines whether the user is looking at the display unit 11 from at least one of the face orientation and the line of sight detected by the image recognition unit 35 when the command is input.
  • the command processing unit 31 executes command processing based on the state of the operation target at the input start timing detected by the detection unit 30.
  • the information processing apparatus 10 can determine whether the command is directed to the operation target and execute the command processing.
  • the command processing unit 31 processes the command based on the state of the operation target at the timing when the recognition time according to the attribute of the user who inputs the command is changed from the input start timing detected by the detection unit 30. carry out.
  • the information processing apparatus 10 can process the command at the timing intended by the user even if there is a recognition time before the user recognizes that it is the timing of the operation and inputs the command.
  • the display unit 11 displays the current state of the operation target that changes with time and the state of the operation target returned to the input start timing detected by the detection unit 30.
  • the information processing device 10 can grasp the current state of the operation target and the state of the operation target at the timing when the command is input.
  • the operation target is an operation in which the item to be selected is sequentially transitioned from a plurality of items.
  • the command processing unit 31 displays on the display unit 11 the items whose transition is within a predetermined range from the items to be selected at the timing detected by the detection unit 30 can be selected by number.
  • the information processing device 10 can display the desired item so that the user can specify the desired item by a number even if the item to be selected is slightly deviated from the item desired by the user at the timing detected by the detection unit 30.
  • the detection unit 30 detects the input start timing from the recognition result of the image captured by the photographing unit 12. As a result, the information processing device 10 can execute the command processing at the timing intended by the user.
  • the command processing unit 31 suspends the change with the temporal change of the state of the operation target in the state of the input start timing detected by the detection unit 30.
  • the command processing unit 31 stops the operation target when the command recognized by the gesture is a stop instruction, and releases the pause when the command is other than the stop instruction.
  • the information processing apparatus 10 can suppress the occurrence of an overshoot on the operation target when the operation target is stopped.
  • the command processing unit 31 circulates and displays the temporal change of the operation target for a certain period from the input start timing detected by the detection unit 30.
  • the information processing device 10 can easily display the state of the operation target for a certain period from the input start timing so that the user can easily confirm it.
  • the command processing unit 31 displays a search tag that identifies the state of the operation target for a certain period of time.
  • the information processing device 10 can display the state of the operation target for a certain period of time so that the user can specify it with the search tag.
  • the command processing unit 31 makes the utterance made before the start word.
  • the command is processed based on the state of the operation target at the input start timing of.
  • the information processing device 10 can process the command at the timing when the command is uttered even when the activation word is uttered after the command is uttered.
  • each process described in the present embodiment may be realized by causing a processor such as a CPU included in the information processing device 10 and the server device 20 to execute a program corresponding to each process.
  • the program corresponding to each process in the above description may be stored in the memory, and the program may be read from the memory by the processor and executed.
  • the program is stored in a program server connected to at least one of the information processing device 10 and the server device 20 via an arbitrary network, downloaded to at least one of the information processing device 10 and the server device 20, and executed. May be good.
  • the program may be stored in a recording medium that can be read by either the information processing device 10 or the server device 20, read from the recording medium, and executed.
  • Recording media include, for example, portable storage media such as memory cards, USB memory, SD cards, flexible discs, magneto-optical discs, CD-ROMs, DVDs, and Blu-ray® discs.
  • the program is a data processing method described in an arbitrary language or an arbitrary description method, and may be in any format such as source code or binary code.
  • the program is not necessarily limited to a single program, but is distributed as multiple modules or multiple libraries, or cooperates with a separate program represented by the OS to achieve its function. Including things.
  • the disclosed technology can also adopt the following configurations.
  • a detector that detects the command input start timing by gesture for an operation target that changes with time
  • a command processing unit that processes a command recognized from the gesture based on the state of the operation target at the input start timing detected by the detection unit.
  • Information processing device with. (2) The command is input by voice and The information processing device according to (1) above, wherein the detection unit detects a command input start timing by voice.
  • the command processing unit stores the time of the input start timing detected by the detection unit or the state of the operation target at the time, and returns or stores the state of the operation target to the state of the stored time.
  • the information processing apparatus according to (1) or (2) above, which processes the command in response to the state of.
  • the command processing unit When a voice command is input within a predetermined predetermined time after the filler utterance, the command processing unit returns the operation target to the state of the input start timing of the filler utterance and executes the command processing.
  • the information processing device according to (2).
  • a display unit that displays the operation target and A shooting unit that shoots the user who inputs a command, and An image recognition unit that detects at least one of the user's face orientation and line of sight from the image captured by the imaging unit.
  • the command processing unit determines whether the user is looking at the display unit from at least one of the face orientation and the line of sight detected by the image recognition unit when a command is input, and the user determines whether the user is looking at the display unit.
  • the information When looking at, the information according to any one of (1) to (4) above, which executes the processing of the command based on the state of the operation target at the input start timing detected by the detection unit. Processing equipment. (6) The command processing unit processes the command based on the state of the operation target at the timing when the recognition time according to the attribute of the user who inputs the command is changed from the input start timing detected by the detection unit. The information processing apparatus according to any one of (1) to (5) above. (7) The information processing device according to (5) above, wherein the display unit displays the current state of the operation target that changes with time and the state of the operation target returned to the input start timing detected by the detection unit. (8) The operation target is an operation in which the item to be selected is sequentially transitioned from a plurality of items.
  • the information processing device displays on the display unit items having a predetermined range of transitions from items to be selected at the timing detected by the detection unit so as to be selectable by number.
  • the detection unit detects an input start timing from a recognition result of an image captured by the imaging unit.
  • the command processing unit suspends a change accompanying a temporal change in the state of the operation target in the state of the input start timing detected by the detection unit, and when the command recognized from the gesture is a stop instruction, the operation is performed.
  • the information processing device according to any one of (1) to (9) above, which stops the target and releases the pause when the command is other than a stop instruction.
  • the command processing unit is described in any one of (1) to (9) above, wherein the command processing unit circulates and displays a temporal change of the operation target for a certain period from the input start timing detected by the detection unit.
  • Information processing device (12) The information processing device according to (11) above, wherein the command processing unit displays a search tag that identifies a state of the operation target for a certain period of time.
  • the command processing unit inputs the utterance made before the start word.
  • the information processing device according to (2) above which processes a command based on the state of the operation target at the start timing.
  • the computer Detects the input start timing of command input start by gesture for the operation target with time change, A command processing method for processing a command recognized from the gesture based on the state of the operation target at the detected input start timing.
  • Information processing system 10 Information processing device 11 Display unit 12 Imaging unit 13 Voice output unit 14 Voice input unit 15 Storage unit 16 Communication unit 17 Control unit 20 Server device 21 Communication unit 22 Storage unit 23 Control unit 30 Detection unit 31 Command processing unit 32 Output control unit 33 Voice recognition unit 34 Semantic understanding unit 35 Image recognition unit 40 User data 41 Content data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

検出部(30)は、時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出する。コマンド処理部(31)は、検出部(30)により検出した入力開始タイミングでの操作対象の状態に基づいて、ジェスチャから認識されるコマンドの処理を実施する。

Description

情報処理装置、及びコマンド処理方法
 本発明は、情報処理装置、及びコマンド処理方法に関する。
 音声によるコマンドの入力を受け付け、受け付けた音声を認識し、認識結果に対応した処理を実行する技術が知られている。例えば、特許文献1には、受け付けた音声の開始部分のみを認識対象とし、その開始部分が認識された時点で、その認識結果に対応した処理を開始する技術が提案されている。
特開2000-112490号公報
 しかし、特許文献1に記載の技術は、音声を認識した後、認識結果に対応した処理を開始するため、認識処理の分だけ処理の開始に遅延が発生し、意図したタイミングでコマンドの処理を実施できない場合がある。
 そこで、本開示では、操作対象に対して意図したタイミングでコマンドの処理を実施できる情報処理装置、及びコマンド処理方法を提案する。
 本開示によれば、情報処理装置は、検出部と、コマンド処理部とを有する。検出部は、時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出する。コマンド処理部は、検出部により検出した入力開始タイミングでの操作対象の状態に基づいて、ジェスチャから認識されるコマンドの処理を実施する。
従来の時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。 本開示の実施形態に係る情報処理システムの構成例を示す図である。 本開示の実施形態に係る情報処理システムの機能的な構成例を示す図である。 本開示の実施形態に係る時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。 本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。 本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。 本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。 本開示の実施形態に係る操作履歴からユーザ個人の認知時間の傾向を推定する一例を説明する図である。 本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。 本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。 本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。 本開示の実施形態に係る時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。 本開示の実施形態に係る状態記憶処理を説明するフローチャートである。 本開示の実施形態に係るコマンド処理を説明するフローチャートである。 本開示の変形例を説明する図である。 本開示の検索タグの一例を示す図である。 本開示の検索タグの一例を示す図である。 本開示の検索タグの一例を示す図である。 本開示の変形例を説明する図である。 本開示の操作対象の表示の一例を説明する図である。 本開示の操作対象の表示の一例を説明する図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 また、以下に示す項目順序に従って本開示を説明する。
  1-1.はじめに
  1-2.実施形態の概要
  2-1.実施形態に係る情報処理システムの構成
  2-2.具体例
  2-3.実施形態に係る処理の流れ
  3.変形例
  4.実施形態の効果
<1-1.はじめに>
 従来から、ジェスチャを用いてコマンドの入力を行う技術がある。以下では、ジェスチャを音声とし、音声によりコマンドの入力を行う場合を例に説明するが、これに限定されるものではない。ジェスチャを身振り、手振りなどの身体的な動作とし、身体的な動作によりコマンドの入力を行う場合に本開示の技術を適用してもよい。
 例えば、時間的変化を伴う操作対象を音声によるコマンドで操作する場合、ユーザは、操作の意思決定を行ったタイミングで音声によりコマンドを入力する。しかし、発話や音声認識処理の分だけコマンドの実行に遅延(レイテンシ)が発生して操作対象の状態が変化してしまい、ユーザが意図したとおりの操作が行えない場合がある。
 図1は、従来の時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。図1には、時間的変化を伴う操作対象として、音量を調整するための音量インジケータ80が示されている。音量インジケータ80は、音量を示すスライダーバー80aが設けられている。音量インジケータ80は、スライダーバー80aを移動させることにより音量の操作が可能とされている。また、音量インジケータ80は、スライダーバー80aが音声による音量の操作に応じて移動する。図1は、システムが、音声によるコマンドを受け付けて音量インジケータ80の音量を設定する場合を示している。システムは、「音量上げて」の音声により、音量を連続的に増加させ、「ストップ」の音声により、音量の増加を停止する。ユーザは、音量を増加させる場合、「音量上げて」と発話した後、増加する音量を聞きながら目的とする音量が聞こえた時点で「ストップ」の発話を開始する。しかし、システムは、「ストップ」の発話が終わった後に音声認識・意味理解処理を行って音量の増加を停止する。これにより、ユーザが本来設定したかった「ストップ」の発話開始時の音量に対して、レイテンシ分の時間増加した音量まで行き過ぎて設定されてしまう(オーバーシュート)。音声認識を使ったコマンド操作では、システムは、ユーザがコマンドを発話し終わって音声認識されたテキストをコマンドとして解釈するまで、実行する処理を決定できない。このため、システムでは、ユーザが発話を開始してからコマンドの処理を実行するまでのレイテンシが発生してしまう。この結果、ユーザが意図したタイミングでコマンドの処理を実施できない。
<1-2.実施形態の概要>
 そこで、本実施形態では、時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出し、検出した入力開始タイミングでの操作対象の状態に基づいて、ジェスチャから認識されるコマンドの処理を実施する。これにより、操作対象に対してユーザが意図したタイミングでコマンドの処理の実施が可能となる。
 以上、本実施形態の概要を述べたが、以下、本実施形態を詳細に説明する。
<2-1.実施形態に係る情報処理システムの構成>
 図2を用いて、実施形態に係る情報処理を実行する情報処理装置の一例である情報処理装置10、及びサーバ装置20を含む情報処理システム1の構成について説明する。図2は、本開示の実施形態に係る情報処理システム1の構成例を示す図である。情報処理システム1は、ジェスチャによるコマンドの入力を提供するシステムである。
 情報処理装置10は、時間的変化を伴う操作対象に対するユーザからのジェスチャによるコマンドの入力を受け付ける情報処理端末である。本実施形態では、情報処理装置10は、ユーザからの音声によるコマンドの入力を受け付ける。情報処理装置10は、パソコンや、ユーザが携帯するスマートフォン、タブレット端末等の携帯端末であってもよい。本実施形態では、情報処理装置10が本開示に係る情報処理装置に対応する。
 サーバ装置20は、ジェスチャにより入力されたコマンドの認識処理を行うサーバ装置である。本実施形態では、サーバ装置20は、音声により入力されたコマンドの認識処理を行う。
 まず、情報処理装置10の構成について説明する。図2に示すように、情報処理装置10は、表示部11と、撮影部12と、音声出力部13と、音声入力部14と、記憶部15と、通信部16と、制御部17とを有する。なお、情報処理装置10は、情報処理装置10を利用するユーザ等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)を有してもよい。
 表示部11は、各種情報を表示する表示デバイスである。表示部11としては、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)などの表示デバイスが挙げられる。表示部11は、制御部17の制御に基づき、各種情報を表示する。例えば、表示部11は、時間的変化を伴う操作対象を表示した画面を表示する。
 撮影部12は、カメラ等の撮像デバイスである。撮影部12は、制御部17からの制御に基づき、画像を撮影し、撮影した画像データを制御部17に出力する。
 音声出力部13は、スピーカー等の音響出力デバイスである。撮影部12は、制御部17からの制御に基づき、各種の音声を出力する。
 音声入力部14は、マイク等の集音デバイスである。撮影部12は、ユーザの音声などを集音し、集音した音声データを制御部17に出力する。
 記憶部15は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部15は、後述する状態記憶処理及びコマンド処理を制御する制御プログラムを含む各種プログラムを記憶する。また、記憶部15は、各種データを記憶する。
 通信部16は、例えば、NIC(Network Interface Card)等によって実現される。通信部16は、ネットワークN(インターネット等)と有線又は無線で接続され、ネットワークNを介して、サーバ装置20等との間で情報の送受信を行う。
 制御部17は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置10内部に記憶されたプログラムがRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部17は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
 続いて、サーバ装置20の構成について説明する。図2に示すように、サーバ装置20は、通信部21と、記憶部22と、制御部23とを有する。なお、サーバ装置20は、サーバ装置20を利用するユーザ等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
 通信部21は、例えば、NIC等によって実現される。通信部21は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、情報処理装置10等との間で情報の送受信を行う。
 記憶部22は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部22は、各種プログラムを記憶する。また、記憶部22は、各種データを記憶する。例えば、記憶部22は、ユーザデータ40と、コンテンツデータ41とを記憶する。
 ユーザデータ40は、各ユーザの認知時間、操作履歴等、ユーザ個別の各種情報を記憶したデータである。コンテンツデータ41は、音楽や動画などのコンテンツを記憶したデータである。
 制御部23は、例えば、CPUやMPU等によって、サーバ装置20内部に記憶されたプログラム等を作業領域として実行されることにより実現される。また、制御部17は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。
 本実施形態では、情報処理装置10の制御部17とサーバ装置20制御部23とが、処理を分散して実施することでジェスチャによるコマンドの入力を受け付け、ジェスチャから認識されるコマンドの処理を実施する。例えば、制御部17が、検出部30と、コマンド処理部31と、出力制御部32とを有し、制御部23が、音声認識部33と、意味理解部34と、画像認識部35とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部17及び制御部23は、図2に示した構成に限定されるものではなく、以下に説明する情報処理の機能や作用を実現可能な構成であれば他の構成であってもよい。
 図3は、本開示の実施形態に係る情報処理システム1の機能的な構成例を示す図である。図3では、破線L1の左側が情報処理装置10側の構成要素であり、破線L1の右側がサーバ装置20側の構成要素である。なお、情報処理装置10とサーバ装置20の構成要素の境界は、破線L1に限定されるものではない。検出部30、コマンド処理部31、出力制御部32、音声認識部33、意味理解部34、画像認識部35、ユーザデータ40、及びコンテンツデータ41は、情報処理装置10側、サーバ装置20側のどちらの構成要素とされてもよい。例えば、情報処理装置10とサーバ装置20の構成要素の境界を破線L2として、全て情報処理装置10側の構成要素としてもよい。また、情報処理装置10とサーバ装置20の構成要素の境界を破線L3として、全てサーバ装置20側の構成要素としてもよい。この場合、サーバ装置20が本開示に係る情報処理装置に対応する。
 ユーザが発話した音声は、音声入力部14を通して情報処理システム1に入力される。音声入力部14は、入力された音声をA/D変換して音声データに変換し、変換した音声データを検出部30に出力する。
 検出部30は、入力した音声データに対して音声区間検出(VAD:Voice Activity Detection)を行って発話区間を検出し、発話区間の音声データを音声認識部33に出力する。また、検出部30は、入力した音声データから音声によるコマンドの入力開始タイミングを検出する。例えば、検出部30は、音声区間検出で発話区間が有効になるタイミングを入力開始タイミングと検出する。検出部30は、検出した入力開始タイミングをコマンド処理部31に出力する。
 音声認識部33は、音声区間検出で発話区間として検出された音声データに対して音声認識(ASR:Automatic Speech Recognition)処理を行い、音声データをテキストデータに変換する。これにより、音声入力部14に入力されたユーザの音声がテキスト化される。意味理解部34は、音声認識部33により変換されたテキストデータに対して自然言語理解(NLU:Natural language understanding)などの意味理解処理を行って、発話意図(Intent+Entity)を推定する。意味理解部34は、推定した発話意図を示す発話意図情報をコマンド処理部31に出力する。
 ユーザの画像は、撮影部12を通して情報処理システム1に入力される。撮影部12は、周期的に画像を撮影し、撮影した画像データを画像認識部35に出力する。画像認識部35は、入力する画像データに対して顔認識や視線認識を行い、認識された顔の顔向きや視線の認識を行い、認識結果を示す画像認識情報をコマンド処理部31に出力する。
 出力制御部32は、コマンド処理部31からの出力指示に基づいて、コンテンツデータ41のコンテンツを音声出力部13や表示部11を通してユーザに出力する。
 コマンド処理部31は、検出部30から入力開始タイミングが入力し、意味理解部34から発話意図情報が入力し、画像認識部35から画像認識情報が入力する。また、コマンド処理部31は、出力制御部32から操作対象の状態を取得する。例えば、コマンド処理部31は、検出部30により検出した入力開始タイミングでの操作対象の状態を出力制御部32から取得する。コマンド処理部31は、検出部30から入力される入力開始タイミング、意味理解部34から入力される発話意図情報、画像認識部35から入力される画像認識情報、出力制御部32から取得した操作対象の状態に基づき、出力制御部32に対して出力指示を行う。コマンド処理部31は、検出部30により検出した入力開始タイミングでの操作対象の状態に基づいて、音声から認識されるコマンドの処理を実施する。例えば、コマンド処理部31は、入力開始タイミングの時刻又は当該時刻の操作対象の状態を記憶する。そして、コマンド処理部31は、記憶した時刻の状態まで操作対象の状態を戻して又は記憶した操作対象の状態に対して、コマンドの処理を実施する。
 これにより、操作対象に対して意図したタイミングでコマンドの処理を実施できる。図4は、本開示の実施形態に係る時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。図4には、図1と同様に音量インジケータ80が示されている。音量インジケータ80は、スライダーバー80aが音声による音量の操作に応じて移動する。例えば、図1と同様に、ユーザが「音量上げて」と発話した後、「ストップ」と発話した場合、一旦、音量がレイテンシ分オーバーシュートするが、「ストップ」の発話の入力開始タイミングの位置に音量が補正されてストップの処理が実施される。このように、音量インジケータ80に対して意図したタイミングでコマンドの処理を実施できる。
<2-2.具体例>
 以下、本開示の実施形態について、具体例を用いて説明する。最初に、入力開始タイミングの検出手法について説明する。図5は、本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。図5には、動画コンテンツの再生に関する操作を音声によるコマンドで実施する場合のシーケンスが示されている。図5には、ユーザの発話、発話区間検出、音声認識、意味理解の各期間がそれぞれ示されている。また、図5の下部には、再生により表示される動画コンテンツ「1」~「5」が示されており、各動画コンテンツの下部に動画の再生位置を示すシークバー81が示されている。図5では、動画コンテンツを早送りするため、ユーザが「早送り」の発話をした後、停止を希望するタイミングで「ストップ」の発話をした場合を示している。
 検出部30は、入力した音声データから音声によるコマンドの入力開始タイミングを検出する。例えば、検出部30は、音声区間検出で発話区間が有効になるタイミングを入力開始タイミングと検出する。なお、検出部30は、発話区間が有効になるタイミングではなく、音声データが示す入力音量(例えばRMS(Root Mean Square))が一定閾値以上となったタイミングを入力開始タイミングと検出してもよい。
 コマンド処理部31は、検出部30により検出された入力開始タイミングで、後述の更新フラグfu=Trueの場合、操作対象の状態を記憶する。図5の例では「早送り」の発話の開始タイミングでの動画コンテンツ「1」の再生位置Ptが記憶される。
 ユーザの「早送り」の発話後、ASRタイムアウト時間taが経過すると、「早送り」の発話の音声データは、音声認識部33により、発話テキスト「早送り」に変換されて意味理解部34に送られる。そして、意味理解部34による推定結果として発話意図Intent=FastFowardがコマンド処理部31に入力される。
 コマンド処理部31は、発話意図Intentが解釈不能な意図OOD(Out Of Domain)以外であった場合、後続の開始タイミングで操作対象の状態を更新するように更新フラグfuを設定する(更新フラグfu=True)。更新フラグfuは、後続の開始タイミングで操作対象の状態を更新して記憶する否かを示すフラグである。図5の例では、発話意図Intent=FastFowardがシステム解釈可能な意図(OOD以外)であるため、更新フラグfu=Trueとなる。
 次の「ストップ」の発話の開始タイミングでは、更新フラグfu=Trueである。このため、コマンド処理部31は、「早送り」の発話の開始タイミングで記憶した再生位置Ptを破棄し、「ストップ」の発話の開始タイミングでの再生位置Ptを記憶する。
 「ストップ」の発話後、ASRタイムアウト時間taが経過すると、「ストップ」の発話の音声データは、音声認識部33により、発話テキスト「ストップ」に変換されて意味理解部34に送られる。そして、意味理解部34による推定結果として発話意図Intent=Stopがコマンド処理部31に入力される。コマンド処理部31は、「ストップ」の発話の後に、意味理解部34から発話意図Intent=Stopを受け取ると、再生位置Ptの位置で早送りを停止させる。図5の例では、「ストップ」の発話の開始タイミングに表示されていた動画コンテンツ「4」で早送りが停止している。これは、ユーザが早送りの停止の意思決定をしたタイミングを「ストップ」の発話の入力開始タイミングとして検出し、時間変化する操作対象の状態をユーザの意思決定のタイミングの状態まで戻す補正処理をしたことを意味している。なお、上述の説明では、コマンド処理部31は、入力開始タイミングでの操作対象の状態として、再生位置Ptを記憶・更新している。しかし、コマンド処理部31は、入力開始タイミングでの操作対象の状態として、入力開始タイミングの時刻Tbを記憶し、後述の手法により、操作対象の状態を時刻Tbの状態まで戻して、コマンドの処理を実施してもよい。
 ところで、ユーザは、音声によりコマンドを発話する際に、フィラーを発話する場合がある。フィラーとは、例えば、「あー」や「えー」、「んー」などの単体で特定の意味を有せず、発話の合間に挟み込むつなぎの言葉である。ユーザは、コマンドを発話する際に、コマンドの直前にフィラーを発話する場合がある。例えば、ユーザは、コマンドの発話タイミングであることに突然気がついた場合など、コマンドの直前にフィラーを発話する場合がある。一方、ユーザは、コマンドとは関係なく、フィラーを発話する場合がある。
 そこで、コマンド処理部31は、コマンドの直前にフィラーが発話された場合、フィラーの発生開始のタイミングでの操作対象の状態に対して、コマンドの処理を実施する。
 図6は、本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。図6には、図5の「早送り」の発話があった後からの動画コンテンツの再生に関する操作を音声によるコマンドで実施する場合のシーケンスが示されている。図6では、ユーザが停止を希望するタイミングで「んーー」と発話した後に「ストップ」の発話をした場合を示している。
 コマンド処理部31は、フィラー発話の後に所定の規定時間th以内に音声によるコマンドが入力された場合、操作対象をフィラー発話の入力開始タイミングの状態に戻して、コマンドの処理を実施する。規定時間thは、フィラーがコマンドの直前されたものであり、フィラーがコマンドと共に発話されたものと見なせる時間とする。例えば、規定時間thは、2秒とする。
 例えば、コマンド処理部31は、「んーー」と発話の入力開始タイミングで、更新フラグfu=Trueの場合、操作対象の状態を記憶する。図6の例では、「んーー」の前に図5の「早送り」の発話があったことで更新フラグfu=Trueとなっているため、「んーー」と発話の入力開始タイミングでの動画コンテンツの再生位置Ptが記憶される。
 コマンド処理部31は、発話意図IntentがOODであった場合、後続の開始タイミングで操作対象の状態を更新しないように更新フラグfuを設定する(更新フラグfu=False)。図6の例では、ユーザのフィラーの発話「んーー」の意味理解部34による推定結果、発話意図Intent=OODとなるため、更新フラグfu=Falseとなる。コマンド処理部31は、更新フラグfu=Falseとした場合、後続の発話開始タイミングまでの時間tlを計測する。そして、コマンド処理部31は、時間tlが規定時間th以下の場合、後続のコマンドの入力開始タイミングで操作対象の状態(再生位置Pt)を更新しない。一方、コマンド処理部31は、時間tlが規定時間thよりも大きくなると更新フラグfu=Trueとして後続のコマンドの入力開始タイミングで操作対象の状態(再生位置Pt)を更新する。
 すなわち、時間tlが規定時間th以下の場合は、フィラーをコマンドの直前に発生したフィラーとして、フィラーの入力開始タイミングでの操作対象の状態に対して、コマンドの処理を実施する。一方、時間tlが規定時間thよりも大きい場合は、フィラーをコマンドとは関係なく発生したフィラーとして、後続のコマンドの入力開始タイミングでの操作対象の状態に対して、コマンドの処理を実施する。
 図6の例では、後続の「ストップ」の入力開始タイミングまでの時間tlが規定時間th以下である。このため、コマンド処理部31は、「ストップ」の入力開始タイミングでは操作対象の状態(再生位置Pt)を更新しない。これにより、「んーー」の入力開始タイミングで記憶した操作対象の状態(再生位置Pt)が保持される。そして、コマンド処理部31は、「ストップ」の発話の後に、意味理解部34から発話意図Intent=Stopを受け取ると「んーー」の入力開始タイミングで記憶した再生位置Ptの位置で早送りを停止させる。図6の例では、「んーー」の発話の開始タイミングに表示されていた動画コンテンツ「4」で早送りが停止している。これは、フィラーとコマンドの発話時間間隔の短かった場合、ユーザが早送り停止の意思決定をしたタイミングを、「ストップ」の発話の前のフィラーである「んーー」の発話の開始タイミングとして検出し、補正したことを意味している。これにより、ユーザがコマンドの直前にフィラーが発話する場合でも、意図したタイミングでコマンドの処理を実施できる。
 規定時間thは、可変としてもよい。例えば、コマンド処理部31は、操作対象の移動の速度に応じて速いほど大きな値となるように規定時間thを変更としてもよい。また、ユーザは、コマンドの実施タイミングであるかが疑問であるなど、コマンドの実施タイミングに自信がない場合、発話で語尾のピッチが上昇する傾向がある。そこで、コマンド処理部31は、発話のピッチを抽出し、語尾のピッチが上昇している場合は、規定時間thが大きな値となるように変更としてもよい。
 ところで、ユーザが複数いる場合、ユーザ間の会話をコマンドをとして誤って認識してしまう場合がある。
 そこで、コマンド処理部31は、ユーザの発話が情報処理システム1に向けられたものであるかを判定してコマンドの処理を実施する。
 図7は、本開示の実施形態に係る入力開始タイミングの検出手法を説明する図である。図7には、図5の「早送り」の発話があった後からの動画コンテンツの再生に関する操作を音声によるコマンドで実施する場合のシーケンスが示されている。図7の下部には、撮影部12により撮影された画像が示されている。画像には、2人のユーザが写っている。2人のユーザは、親子とする。図7では、ユーザ(親)が停止タイミングを決める際に「んーー」とフィラーを発話している途中で、ユーザ(子)が騒がしいため、ユーザ(親)が、ユーザ(子)に向けて「うるさい」と発話した後、コマンドとして「ストップ」と発話した場合を示している。
 コマンド処理部31は、コマンドが入力された際に画像認識部35により認識された顔の向き及び視線の少なくとも一方からユーザが表示部11を見ているかを判定する。コマンド処理部31は、ユーザが表示部11を見ている場合、検出部30により検出した入力開始タイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。
 例えば、画像認識部35は、撮影部12で撮像された機器周辺の画像の画像認識処理によりユーザの顔向きや視線を検出する。コマンド処理部31は、画像認識部35により検出された顔向きや視線からユーザの発話が情報処理システム1へ向けられたものであるかの判定する。例えば、コマンド処理部31は、検出された顔向きや視線が表示部11の方向に向いている場合、発話が情報処理システム1へ向けられたものと判定する。また、コマンド処理部31は、顔向きや視線が表示部11の方向に向いていない場合、発話を情報処理システム1へ向けられたものではない発話と判定する。以下、情報処理システム1へ向けられたものではない発話を、「非システム向け発話」と称する。このシステム向け発話判定の結果は、コマンド処理部31へ入力され、更新フラグfuの設定判定に使用される。
 コマンド処理部31は、意味理解部34により推定された発話意図IntentがOOD以外であった場合であっても、非システム向け発話である場合、後続の開始タイミングで操作対象の状態を更新しないように更新フラグfuを設定する(更新フラグfu=False)。
 図7の例では、コマンド処理部31は、ユーザ(親)が周辺にいる子供に向かって発話した「うるさい」について、発話意図IntentとしてVolumeDown(機器の音量を下げる意図・OOD以外)を受け取っている。しかし、コマンド処理部31は、この発話期間の発話が非システム向け発話であるため、更新フラグfu=Falseとする。すなわち、ユーザ(親)の「うるさい」の発話は、非システム向け発話であるため機器の音量を下げないものとしている。
 図7の例では、フィラー発話「んーー」は、発話意図Intent=ODDであるため、更新フラグfu=Falseとなる。その後、周辺のユーザに向けて規定時間th以下の時間tlで発話が開始された「うるさい」は、非システム向け発話であるため、更新フラグfu=Falseとなる。更にその後、規定時間th以下の時間tlで「ストップ」が発話されている。コマンド処理部31は、「ストップ」の発話の後に、意味理解部34から発話意図Intent=Stopを受け取ると、「んーー」の入力開始タイミングで記憶した再生位置Ptの位置で早送りを停止させる。図7の例では、「んーー」の発話の開始タイミングに表示されていた動画コンテンツ「4」で早送りが停止している。これは、フィラーとコマンドの間に非システム向け発話があった場合でも、ユーザが早送りの停止の意思決定をしたタイミングをフィラーの発話の入力開始タイミングとして検出したことを意味している。これにより、周辺に複数のユーザがおり、ユーザ同士の会話があった場合でも、システム向け発話判定により、正しくユーザの意思決定タイミングでコマンドの処理を実施できる。
 次に、コマンド処理部31は、入力開始タイミングの時刻を記憶する場合に、どのように操作対象の状態を戻すかについて説明する。入力開始タイミングは時刻Tbとする。
 操作対象の変化が等速移動である場合、操作対象の状態の補正量Δpは、以下の式(1)のように表せる。
 Δp=vn×Δt   ・・・(1)
 ここで、
 vnは、発話意図Intent受け取り時の操作対象の速度である。
 Δtは、発話意図Intent受け取り時の時刻Tnと、入力開始タイミングの時刻Tbとの時間差(Tn-Tb)である。
 操作対象が減速移動している場合、操作対象の状態の補正量Δpは、以下の式(2)のように表せる。
 Δp=vn×Δt+(a×Δt2/2)   ・・・(2)
 ここで、
 aは、操作対象の減速度である。
 ところで、ユーザは、希望するタイミングであることを認知してコマンドを発話するまでにタイムラグがある場合がある。
 そこで、コマンド処理部31は、操作対象に対してユーザの発話開始までの認知時間を考慮したオフセットを付与して、コマンドの処理を実施してもよい。コマンド処理部31は、ユーザがフィードバックを受けながら意思決定して発話開始するまでの認知時間toを補正量のオフセットとする。例えば、コマンド処理部31は、検出部30により検出した入力開始タイミングからコマンドの入力するユーザの属性に応じた認知時間分を変更したタイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。
 入力開始タイミングの操作対象の状態として入力開始タイミングの時刻Tbを記憶する場合、コマンド処理部31は、以下の式(3)から時間差Δtを求める。
 Δt=Tn-Tb+to   ・・・(3)
 ここで、
 toは、認知時間である。
 式(3)から求めた時間差Δtを用いて、上記式(1)、式(2)から操作対象の状態の補正量Δpを求める。
 一方、入力開始タイミングの操作対象の状態として、操作対象の状態Ptを記憶する場合、コマンド処理部31は、認知時間toから、操作対象の状態Ptを認知時間to前の状態に戻すための補正量Δpoを求める。そして、コマンド処理部31は、操作対象の状態Ptに対しさらに補正量Δpoの補正を行う。
 操作対象が等速移動している場合、補正量Δpoは、以下の式(4)のように表せる。
 Δpo=vb×to   ・・・(4)
 ここで、
 vbは、入力開始タイミングでの操作対象の移動速度である。
 操作対象が減速移動している場合、補正量Δpoは、以下の式(5)のように表せる。
 Δpo=vb×to+(a×to2/2)   ・・・(5)
 ここで、
 aは、操作対象の減速度である。
 認知時間toは、以下いずれかの方法または組み合わせにより可変としてもよい。例えば、画像認識部35は、撮影部12により得られた画像から発話したユーザの年齢を推定する。コマンド処理部31は、画像認識部35により推定された年齢が規定値より高いほど(高齢者ほど)、認知時間toが大きな値をとなるように変更としてもよい。また、認知時間toは、ユーザごとに、ユーザの操作履歴からユーザ個人の認知時間の傾向を推定して求めてもよい。
 図8は、本開示の実施形態に係る操作履歴からユーザ個人の認知時間の傾向を推定する一例を説明する図である。図8には、時間的変化を伴う操作対象として音量インジケータ80が示されている。音量インジケータ80は、スライダーバー80aが音声による音量の操作に応じて移動する。
 初期状態では、ユーザの認知時間toを0とする。ユーザは、「音量上げて」を発話して音量を連続的に増加させ、停止を希望するタイミングで「ストップ」を発話する。音量インジケータ80は、「ストップ」が発話された際、音量がレイテンシ分オーバーシュートするが、本実施形態の技術により音量が「ストップ」の入力開始タイミングの位置Ptに補正される。
 ユーザの認知時間toによるライムラグによって、位置Ptがユーザの目的位置に対して音量が大きい方向に少しずれていた場合、ユーザは、「少し下げて」と発話して微調整する。情報処理システム1は、一定以上の連続移動後の所定の規定時間内に微調整された量を認知の補正量Δpoとして求める。そして、情報処理システム1は、補正量Δpoから以下の式(6)により認知時間toを求め、求めた認知時間toをユーザに対応付けてユーザデータ40に記憶する。例えば、情報処理システム1は、ユーザからユーザIDなどユーザを識別する識別情報を入力させる。情報処理システム1は、入力されたユーザの識別情報に対応付けて認知時間toをユーザデータ40に記憶する。なお、ユーザの識別情報は、ユーザを撮影した画像やユーザの音声から認識されるユーザの特徴情報を用いてもよい。
 認知時間to=Δpo/vb   ・・・(6)
 ここで、
 vbは、オーバーシュートが発生した際の操作対象の移動速度である。
 次回以降、コマンド処理部31は、ユーザデータ40からユーザの識別情報に対応する認知時間toを読み出し、ユーザの操作に対して、認知時間to分を加味して補正を行う。例えば、ユーザが「音量上げて」を発話して音量を連続的に増加させ、「ストップ」を発話した場合、「ストップ」の入力開始タイミングの位置Ptから認知時間to分を加味した位置Pt+(to×vb)に音量を補正する。このように、コマンド処理部31がユーザの認知時間to分を加味して補正することで、操作対象に対してユーザが意図したタイミングで操作を実施できる。例えば、図8の場合、次回以降、ユーザが意図した音量に速やかに補正できる。
 図8に示すように、ユーザの微調整が、位置Ptの補正方向と同じ順方向の場合、補正量Δpo及び認知時間toは、正の値をとる。一方、ユーザの微調整が、位置Ptの補正方向と逆方向の場合、補正量Δpo及び認知時間toは、負の値をとる。例えば、ユーザの認知が遅延し、遅く発話する傾向の場合には、認知時間toが正の値をとり総補正量が増える。一方、ユーザが予見して早く発話する傾向の場合には、認知時間toが負の値をとり補正量が減る。
 出力制御部32は、ユーザの操作完了後に補正を学習したことをユーザに認知させるため、今回の操作に基づいて操作対象の補正値が次回以降変化する旨の音声合成(TTS:Text To Speech)を出力してもよい。また、ユーザの微調整により求めた認知時間toは、操作履歴上の直近の複数回(例えば、3回)分の平均をとってもよい。例えば、コマンド処理部31は、ユーザが微調整した操作履歴をユーザの識別情報に対応付けてユーザデータ40に蓄積して記憶する。コマンド処理部31は、ユーザごとに、蓄積された操作履歴に基づき、認知時間toを算出し、ユーザの識別情報に対応付けて認知時間toをユーザデータ40に記憶する。コマンド処理部31は、音声コマンド処理での補正処理時に、ユーザの識別情報に対応する認知時間toをユーザデータ40から読み出して、操作対象の補正を実施してもよい。
 ここで、本実施形態では、時間的変化を伴う操作対象を、音量インジケータや動画コンテンツの再生に関する操作とした場合を例に説明したが、これに限定されるものではない。操作対象は、時間的変化に伴い変化するものであれば、何れであってもよい。また、操作対象は、連続的に操作するものであってもよく、離散的に操作するものであってもよい。連続的な操作対象としては、例えば、スクロール操作や、マップの2次元移動と拡縮(ズームイン/アウト)操作、音楽や動画などのメディア再生制御操作が挙げられる。また、離散的な操作対象としては、例えば、アイテム選択操作や、写真などのコンテンツを視覚的にめくる形式で表示するカバーフローが挙げられる。図9Aは、本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。図9Aには、画面の上下方向のスクロール操作が示されている。音声を用いてスクロール操作のコマンドを入力する場合に本開示の技術を適用してもよい。図9Bは、本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。図9Bには、画面に表示されるマップの上下左右への2次元移動と拡縮操作が示されている。音声を用いてマップの2次元移動と拡縮操作のコマンドを入力する場合に本開示の技術を適用してもよい。図9Cは、本開示の実施形態に係る時間的変化を伴う操作対象の他の一例を示す図である。図9Cには、複数のアイテムから選択対象のアイテムを選択するアイテム選択が示されている。音声を用いてアイテム選択のコマンドを入力する場合に本開示の技術を適用してもよい。選択対象のアイテムが多数ある場合や、音声認識できない固有名詞や発話できないIDなどの記号列のアイテム選択を音声で行う場合に、フォーカス位置の移動により選択するアイテム選択の手法が有効である。
 また、操作対象は、画面に表示されるものの操作に限定されない。例えば、操作対象としては、テキスト読み上げを聞きながらの停止や読み上げ位置を前に戻して再読み上げを行う操作、照明の明るさを調整する操作、インジケータ表示の無い機器での音量調整の操作、エアコンの温度設定操作などが挙げられる。また、操作対象としては、カーナビゲーションシステムの地図上での目的地/経由地設定や、VR(virtual reality)の3次元空間内での視点やオブジェクトの移動、時間/時刻設定などが挙げられる。カーナビゲーションシステムは運転中に手による操作が困難となり、VRはヘッドマウントディスプレイを装着することで手による操作が困難となるため、本開示の技術を用いた音声による操作が有効である。また、操作対象としては、病院における電子カルテなどの電子書類の表示する際のページの捲りなどの移動操作に本開示の技術を用いた音声による操作が有効である。例えば、手術室等では、手による操作が困難となるため、本開示の技術を用いた音声による操作が有効である。
 図10は、本開示の実施形態に係る時間的変化を伴う操作対象に対する音声による操作の一例を示す図である。図10には、時間的変化を伴う操作対象として、アイテム選択が示されている。図10は、縦方向に並んだ複数のアイテムから選択対象とするアイテムにフォーカスを移動させて、アイテムを選択する場合を示している。図10では、ユーザが、フォーカスを移動させるために「下」と発話した後、希望するアイテムにフォーカスが移動したタイミングで「ストップ」と発話した場合を示している。図10では、ユーザが「itemN」にフォーカスが移動したタイミングで「ストップ」を発話したが、レイテンシ分、オーバーシュートして「itemP」にフォーカスが移動する。しかし、本実施形態の技術により「itemN」にフォーカスが補正される。ここで、ユーザの認知時間等によって、補正されたアイテムは、ユーザが希望するアイテムと若干ずれる場合がある。そこで、出力制御部32は、補正されたアイテムから所定範囲のアイテムを番号で選択可能に表示部11に表示してもよい。図10では、フォーカス補正時に、入力開始タイミングでフォーカスされていた「itemN」を中心に選択番号を提示している。情報処理システム1は、ユーザの選択番号の発話によりアイテム選択を可能とする。この場合、出力制御部32は、ユーザの認知時間toを考慮し、移動速度が速いほど過去アイテムが多く選択可能な番号提示を行ってもよい。図10の例では、移動速度が速い場合、「itemK」~「itemO」に選択番号を提示しており、移動速度が遅い場合、「itemL」~「itemP」に選択番号を提示している。
 なお、出力制御部32は、視線検出により入力開始タイミングで見ていたアイテムを中心に選択番号を提示してもよい。また、出力制御部32は、ユーザの過去の番号選択履歴で、認知が遅れて入力開始タイミングの位置Ptのアイテムより前のアイテムを多く選んでいれば前のアイテムが多くなるよう選択番号を提示してもよい。また、出力制御部32は、ユーザが予見して、入力開始タイミングの位置Ptのアイテムより後のアイテムを多く選んでいれば後のアイテムが多くなるよう選択番号を提示してもよい。また、出力制御部32は、ユーザの個人属性情報により提示アイテムを変えてもよい。例えば、出力制御部32は、ユーザが高齢者なら過去アイテムが多くなるよう選択番号を提示してもよい。
 また、選択番号の番号付けは、アイテム選択に限定されるものではない。例えば、写真などのコンテンツを画面に分割して表示し、分割表示したそれぞれのコンテンツに選択番号を番号付けしてもよい。
<2-3.実施形態に係る処理の流れ>
 次に、実施形態に係る情報処理システム1がコマンド処理において実行される各種の処理の流れを説明する。図11は、本開示の実施形態に係る状態記憶処理を説明するフローチャートである。この状態記憶処理は、検出部30から入力開始タイミングが入力したタイミングで実行される。
 コマンド処理部31は、更新フラグfuがTrueであるか否かを判定する(ステップS10)。更新フラグfuがTrueではない場合(ステップS10:No)、コマンド処理部31は、前の発話から時間間隔である時間tlの計測を終了する(ステップS11)。コマンド処理部31は、時間tlが規定時間th以下であるか判定する(ステップS12)。時間tlが規定時間th以下である場合(ステップS12:Yes)、コマンド処理部31は、処理を終了する。
 一方、時間tlが規定時間th以下ではない場合(ステップS12:No)、コマンド処理部31は、更新フラグfuにTrueを設定する(ステップS13)。そして、コマンド処理部31は、入力開始タイミングの時刻Tb又は当該時刻の操作対象の状態Tbを記憶し(ステップS14)、処理を終了する。
 一方、更新フラグfuがTrueである場合(ステップS10:Yes)、上述のステップS14へ移行して、入力開始タイミングの時刻Tb又は当該時刻の操作対象の状態Tbを記憶し(ステップS14)、処理を終了する。
 この状態記憶処理により、前の発話の発話意図IntentがOOD以外の場合や、前の発話からの時間tlが規定時間thよりも長くなった場合に、操作対象の状態が記憶される。
 図12は、本開示の実施形態に係るコマンド処理を説明するフローチャートである。このコマンド処理は、意味理解部34から発話意図情報が入力したタイミングで実行される。
 コマンド処理部31は、ユーザの発話が情報処理システム1に向けられたものであるか否かを判定する(ステップS20)。ユーザの発話が情報処理システム1に向けられたものではない場合(ステップS20:No)、コマンド処理部31は、更新フラグfuにFalse を設定する(ステップS21)。コマンド処理部31は、操作対象の速度vnや、発話のピッチ等に応じて、規定時間thを設定する(ステップS22)。そして、コマンド処理部31は、時間tlのゼロに初期化した後、時間tlの計測を開始する(ステップS23)。
 一方、ユーザの発話が情報処理システム1に向けられたものである場合(ステップS20:Yes)、コマンド処理部31は、発話意図情報により示される発話意図IntentがOODであるか否かを判定する(ステップS24)。発話意図IntentがOODである場合(ステップS24:Yes)、上述のステップS21へ移行する。
 一方、発話意図IntentがOODではない場合(ステップS24:No)、コマンド処理部31は、発話意図Intentのコマンドの処理が変化する操作対象の状態に依存するか否かを判定する(ステップS25)。例えば、操作対象が時間的変化しており、コマンドを実施するタイミングによって操作対象の状態が異なるものとなる場合、コマンドの処理が変化する操作対象の状態に依存すると判定する。例えば、音量を増加させている際に停止のコマンドを実施する場合、停止のコマンドを実施するタイミングによって音量が異なるものとなる。よって、音量を増加させている際の停止のコマンドは、コマンドの処理が変化する操作対象の状態に依存すると判定する。一方、例えば、再生を停止する停止コマンドは、音量に依存せず、コンテンツの再生が停止するため、コマンドの処理が変化する操作対象の状態に依存しないと判定する。
 発話意図Intentのコマンドの処理が変化する操作対象の状態に依存する場合(ステップS25:Yes)、コマンド処理部31は、記憶した時刻Tb又は当該時刻の操作対象の状態Tbと、ユーザの認知時間toとに基づき、操作対象の状態を補正する(ステップS26)。そして、コマンド処理部31は、操作対象の状態に基づいて、コマンドの処理を実施する(ステップS27)。コマンド処理部31は、更新フラグfuにTrueを設定し(ステップS28)、処理を終了する。
 一方、発話意図Intentのコマンドの処理が変化する操作対象の状態に依存しない場合(ステップS25:No)、上述のステップS27へ移行する。
<3.変形例>
 上述の実施形態は、一例を示したものであり、種々の変更及び応用が可能である。変形例として、本実施形態に係る情報処理システム1を用いて動画内の画像検索を行う場合を説明する。
 図13は、本開示の変形例を説明する図である。図13には、監視カメラで撮影された動画コンテンツの再生に関する操作を音声によるコマンドで実施する場合のシーケンスが示されている。図13には、ユーザの発話、発話区間検出、音声認識、意味理解の各期間がそれぞれ示されている。また、図13の下部には、再生により表示される動画コンテンツが示されており、各動画コンテンツの下部に動画の再生位置を示すシークバー81が示されている。図13では、監視カメラで撮影された動画コンテンツの早送り再生中に、ユーザが注目すべき人物を発見して「あーーっ」と発話した後、「いまの黒い帽子の人をズーム」と発話した場合を示している。
 「あーーっ」は、発話意図IntentがOODとなり、フィラーとして扱われる。「あーーっ」と発話の後の「いまの黒い帽子の人をズーム」との発話開始タイミングまでの時間tlが規定時間th以下の場合、コマンド処理部31は、フィラーの発生開始のタイミングでの操作対象の状態を基準として、コマンドの処理を実施する。例えば、コマンド処理部31は、フィラーの入力開始タイミングに再生されたフレームPtより前の一定期間のフレームからコマンドで指定された特定対象を画像認識部35により画像検索させる。例えば、コマンド処理部31は、入力開始タイミングのフレームPtを終端とする一定期間の動画を離散的なフレームの時系列とみなし、フレームPtから時間を遡って各フレームの画像検索を行う。画像認識部35は、“黒い帽子の人”を画像検索する。コマンド処理部31は、最初に特定対象が見つかったフレームに対してコマンド処理を行う。例えば、コマンド処理部31は、画像検索により“黒い帽子の人”を含んだフレームが特定された場合、特定されたフレームで“黒い帽子の人”の領域を拡大する。出力制御部32は、“黒い帽子の人”の領域を拡大したフレームを表示部11に出力する。図13では、コマンド処理の結果として、“黒い帽子の人”がズームで表示されている。
 なお、コマンド処理部31は、入力開始タイミングのフレームPtから一定期間の動画を循環して再生させて表示させるようにしてよい。出力制御部32は、フレームPtから一定期間の動画を繰り返し表示部11に出力する。この際、コマンド処理部31は、循環して再生する各フレームに対して検索タグを表示させてもよい。検索タグは、循環して再生される各フレームを識別できるものであれば何れであってよい。検索タグとしては、例えば、色や数字を用いることができる。
 図14A~14Cは、本開示の検索タグの一例を示す図である。図14Aでは、各フレームの背景に再生位置を示す日時を検索タグとして合成して表示している。図14Bでは、フレームごとに、フレームを表示する画面の枠の色を変えて、画面の枠の色を検索タグとして表示している。図14Cでは、フレームごとに、番号を変えて、番号を検索タグとして表示している。
 コマンド処理部31は、ユーザから検索タグが指定された場合、指定された検索タグのフレームを検索して表示させる。例えば、出力制御部32は、フレームの背景色を一定周期で循環する色で表示する。コマンド処理部31は、「赤まで戻して」の発話により、フレームPtより前の赤を表示したフレームを検索して表示させる。また、例えば、出力制御部32は、循環して再生するフレームに、1秒おきに循環する数字を表示する。コマンド処理部31は、「8まで戻して」の発話により、フレームPtより前の番号「8」を表示したフレームを検索して表示させる。
 図15は、本開示の変形例を説明する図である。図15は、図13において、入力開始タイミングのフレームPtより前の一定期間の動画を循環して再生させた場合のシーケンスが示されている。図15では、フレームPtより前の一定期間の各フレームの背景の一部分に、検索タグとして、茶色、黄色、緑色、青色、赤色を順に循環させて合成して表示している。ユーザは、合成された背景の色を発話することでフレームを指定できる。コマンド処理部31は、発話により何れかの色が指定された場合、指定された色が合成されたフレームを出力制御部32により表示させる。図15では、ユーザから「青」が指定されたことにより、「青」の背景が合成されたフレームが表示されている。
 また、音声認識による操作では、音声認識を起動させるための起動ワード(WUW:WakeUpWord)を必要とする場合がある。音声認識の起動ワードよりも前に発話された場合、次のような補正を行ってもよい。例えば、起動ワードよりも前に行われた発話の終端(VAD=OFFのタイミング)から起動ワード開始までの時間tlが規定時間th以下の場合、コマンド処理部31は、前の発話の入力開始タイミングでの操作対象の状態Ptに基づいて、コマンドの処理を実施してもよい。例えば、「あっ、今のもう一回見たい、<WUW>戻して」と発話された場合、コマンド処理部31は、WUWの前の最初の発話「あっ」の入力開始タイミングの再生位置に戻す。また、例えば、「戻して、<WUW>戻して」とWUWの発話を忘れたて言い直した場合でも、コマンド処理部31は、WUWの前の最初の発話「戻して」の入力開始タイミングの再生位置に戻す。
 また、例えば、アイテム選択など離散的な操作対象の操作において、出力制御部32は、移動時に次のアイテムに移るときに効果音を鳴らす/振動を提示して、区切りを分かりやすくしてもよい。また、出力制御部32は、入力開始タイミングにフォーカスのあったアイテムを、選択最有力候補として「アイテムNですか?」などと音声合成(TTS)で質問を出力してもよい。また、テキスト読み上げ中の「いまのところに戻って」の発話に対し、出力制御部32は、入力開始タイミングで読み上げていた文節もしくは文の先頭まで戻ってもよい。例えば、読み上げるテキストを自然言語解析し、文節もしくは文の区切りを抽出しておく。出力制御部32は、入力開始タイミングの直近の文節もしくは文の区切りまで戻って、テキストの読み上げを行う。
 また、本開示の技術をカーナビゲーションシステムに適用してもよい。例えは、「あっ、今のところ曲がるんだった、<WUW>今のところ左折」が発話された場合、カーナビゲーションシステムは、最初の発話の入力開始タイミングの直前の左折ポイントまでルート案内してもよい。
 また、発話のレイテンシのオーバーシュートによるユーザ被害の大きい操作対象は、発話の入力開始タイミングで操作対象の変化にポーズをかけてもよい。例えば、コマンド処理部31は、入力開始タイミングの状態で操作対象の状態の時間的変化を休止させる。そして、コマンド処理部31は、音声認識されたコマンドが停止指示であった場合、操作対象を停止させ、コマンドが停止指示以外であった場合、休止を解除するようにしてもよい。例えば、音量操作において音量が一定値以上の場合、コマンド処理部31は、発話の入力開始タイミングで音量の増加がポーズするように出力制御部32を制御する。そして、コマンド処理部31は、発話後の発話意図Intentが停止指示であった場合、そのまま音量の増加を停止させ、発話意図Intentが停止指示以外であった場合、ポーズを解除して音量が増加するように出力制御部32を制御する。
 また、コマンド処理部31は、「ストップ」といったタイミングから対象が推定される場合、推定された対象がすべて映るように表示位置を微調整してもよい。また、コマンド処理部31は、スクロール中、「ストップ」に限らず、ユーザが話し始めるとスクロール速度が遅くなるよう制御してもよい。
 また、表示部11は、時間的変化する操作対象の現在の状態と共に、検出部30により検出した入力開始タイミングに戻した操作対象の状態を表示してもよい。図16A、図16Bは、本開示の操作対象の表示の一例を説明する図である。コマンド処理部31は、検出部30により検出した入力開始タイミングでの操作対象の状態を表示するように出力制御部32に対して出力指示を行う。出力制御部32は、操作対象の現在の状態と共に、入力開始タイミングの操作対象の状態を補正後の状態として表示する。図16Aの例では、音量インジケータ80に、レイテンシ分過ぎた現在の位置にスライダーバー80aが表示されると共に「ストップ」の発話の入力開始タイミングの位置Ptが補正後の状態としてマーカ80bが表示されている。図16Bの例では、レイテンシ分過ぎた「itemP」と共に「ストップ」の発話の入力開始タイミングの「itemN」が補正後の状態として表示されている。補正後の状態は、補正完了もしくは位置Ptが更新されることで消えるようにしてもよい。
 また、検出部30は、入力した音声データから入力開始タイミングを検出する場合を説明したが、これに限定されるものではない。検出部30は、画像認識部35による画像認識結果から入力開始タイミングを検出してもよい。例えば、検出部30は、画像認識部35による画像認識結果から、ユーザの表情が変わったタイミングを入力開始タイミングと検出してもよい。また、例えば、検出部30は、図9Cに示すようなアイテム選択において、スクロース移動中に、視線検出結果からユーザの注視点が特定アイテムのスクロールに合わせて追従したタイミングを入力開始タイミングと検出してもよい。また、コマンド処理部31は、ストップした後、操作対象をどこまで戻すかをユーザの視線が見ている位置・動きによって決定してもよい。
 また、本実施形態では、ジェスチャを音声とし、音声により入力されたコマンドの認識処理を行い、認識されたコマンドの処理を行う場合を例に説明したが、これに限定されるものではない。ジェスチャを身振り、手振りなどの身体的な動作とし、身体的な動作により入力されたコマンドの認識処理を行い、認識されたコマンドの処理を行う場合に本開示の技術を適用してもよい。身体的な動作からコマンドを認識する場合も認識処理の分だけ処理の開始に遅延が発生するため、本開示の技術は有効である。
<4.実施形態の効果>
 以上のように、実施形態に係る情報処理装置10は、検出部30と、コマンド処理部31とを有する。検出部30は、時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出する。コマンド処理部31は、検出部30により検出した入力開始タイミングでの操作対象の状態に基づいて、ジェスチャから認識されるコマンドの処理を実施する。これにより、情報処理装置10は、操作対象に対して意図したタイミングでコマンドの処理を実施できる。
 また、コマンドは、音声により入力される。検出部30は、音声によるコマンドの入力開始タイミングを検出する。これにより、情報処理装置10は、操作対象に対してユーザが音声によりコマンドを入力したタイミングでコマンドの処理を実施できる。
 また、コマンド処理部31は、検出部30により検出した入力開始タイミングの時刻又は当該時刻の操作対象の状態を記憶する。コマンド処理部31は、記憶した時刻の状態まで操作対象の状態を戻して又は記憶した操作対象の状態に対して、コマンドの処理を実施する。これにより、情報処理装置10は、入力開始タイミングの操作対象の状態に対して、コマンドの処理を実施できる。
 また、コマンド処理部31は、フィラー発話の後に所定の規定時間th以内に音声によるコマンドが入力された場合、操作対象をフィラー発話の入力開始タイミングの状態に戻して、コマンドの処理を実施する。これにより、情報処理装置10は、ユーザがコマンドの直前にフィラーが発話する場合でも、ユーザが意図したタイミングでコマンドの処理を実施できる。
 また、情報処理装置10は、表示部11と、撮影部12と、画像認識部35とをさらに有する。表示部11は、操作対象を表示する。撮影部12は、コマンドを入力するユーザを撮影する。画像認識部35は、撮影部12により撮影された画像からユーザの顔の向き及び視線の少なくとも一方を検出する。コマンド処理部31は、コマンドが入力された際に画像認識部35により検出された顔の向き及び視線の少なくとも一方からユーザが表示部11を見ているかを判定する。コマンド処理部31は、ユーザが表示部11を見ている場合、検出部30により検出した入力開始タイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。これにより、情報処理装置10は、操作対象に向けられたコマンドであるかを判別してコマンドの処理を実施できる。
 また、コマンド処理部31は、検出部30により検出した入力開始タイミングから、コマンドを入力するユーザの属性に応じた認知時間分を変更したタイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。これにより、情報処理装置10は、ユーザが操作のタイミングであることを認識してコマンドを入力するまでに認知時間がある場合でも、ユーザが意図したタイミングでコマンドの処理を実施できる。
 また、表示部11は、時間的変化する操作対象の現在の状態と共に、検出部30により検出した入力開始タイミングに戻した操作対象の状態を表示する。これにより、情報処理装置10は、操作対象の現在の状態と共に、コマンドを入力したタイミングの操作対象の状態を把握できる。
 また、操作対象は、複数のアイテムから選択対象のアイテムが順に遷移する操作とする。コマンド処理部31は、検出部30により検出したタイミングで選択対象であるアイテムから遷移が所定範囲のアイテムを番号で選択可能に表示部11に表示する。これにより、情報処理装置10は、検出部30により検出したタイミングで選択対象であるアイテムがユーザの希望するアイテムと若干ずれる場合でも、希望するアイテムをユーザが番号で指定可能なように表示できる。
 また、検出部30は、撮影部12により撮影された画像の認識結果から入力開始タイミングを検出する。これにより、情報処理装置10は、ユーザが意図したタイミングでコマンドの処理を実施できる。
 また、コマンド処理部31は、検出部30により検出した入力開始タイミングの状態で操作対象の状態の時間的変化を伴う変化を休止させる。コマンド処理部31は、ジェスチャから認識されるコマンドが停止指示であった場合、操作対象を停止させ、コマンドが停止指示以外であった場合、休止を解除する。これにより、情報処理装置10は、操作対象を停止させる場合に、操作対象にオーバーシュートが発生することを抑制できる。
 また、コマンド処理部31は、検出部30により検出した入力開始タイミングから一定期間の間の操作対象の時間的変化を循環して表示させる。これにより、情報処理装置10は、入力開始タイミングから一定期間の間の操作対象の状態をユーザが確認しやすく表示できる。
 また、コマンド処理部31は、一定期間の間の操作対象の状態を識別する検索タグを表示させる。これにより、情報処理装置10は、一定期間の間の操作対象の状態をユーザが検索タグで指定可能なように表示できる。
 また、コマンド処理部31は、音声認識の起動ワードよりも前に行われた発話の入力開始タイミングから起動ワードの発話までの時間が規定時間以下の場合、起動ワードよりも前に行われた発話の入力開始タイミングでの操作対象の状態に基づいて、コマンドの処理を実施する。これにより、情報処理装置10は、コマンドの発話の後に起動ワードが発話された場合でも、コマンドを発話したタイミングでコマンドの処理を実施できる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本実施形態で説明した各処理の全部または一部は、各処理に対応するプログラムを情報処理装置10及びサーバ装置20が有するCPUなどのプロセッサに実行させることによって実現してもよい。例えば、上記説明における各処理に対応するプログラムがメモリに記憶され、プログラムがプロセッサによってメモリから読み出されて実行されてもよい。また、プログラムは、任意のネットワークを介して情報処理装置10及びサーバ装置20の少なくとも一方に接続されたプログラムサーバに記憶され、情報処理装置10及びサーバ装置20の少なくとも一方にダウンロードされて実行されてもよい。また、プログラムは、情報処理装置10及びサーバ装置20何れかが読み取り可能な記録媒体に記憶され、記録媒体から読み出されて実行されてもよい。記録媒体には、例えば、メモリーカード、USBメモリ、SDカード、フレキシブルディスク、光磁気ディスク、CD-ROM、DVD、及び、Blu-ray(登録商標)ディスク等の可搬の記憶媒体が含まれる。また、プログラムは、任意の言語や任意の記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。また、プログラムは必ずしも単一的に構成されるものに限られず、複数のモジュールや複数のライブラリとして分散構成されるものや、OSに代表される別個のプログラムと協働してその機能を達成するものも含む。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 また、開示の技術は、以下のような構成も採ることができる。
(1)
 時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出する検出部と、
 前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施するコマンド処理部と、
 を有する情報処理装置。
(2)
 前記コマンドは、音声により入力され、
 前記検出部は、音声によるコマンドの入力開始タイミングを検出する
 上記(1)に記載の情報処理装置。
(3)
 前記コマンド処理部は、前記検出部により検出した入力開始タイミングの時刻又は当該時刻の前記操作対象の状態を記憶し、記憶した時刻の状態まで前記操作対象の状態を戻して又は記憶した前記操作対象の状態に対して、前記コマンドの処理を実施する
  上記(1)又は(2)に記載の情報処理装置。
(4)
 前記コマンド処理部は、フィラー発話の後に所定の規定時間以内に音声によるコマンドが入力された場合、前記操作対象を前記フィラー発話の入力開始タイミングの状態に戻して、前記コマンドの処理を実施する
 上記(2)に記載の情報処理装置。
(5)
 前記操作対象を表示する表示部と、
 コマンドを入力するユーザを撮影する撮影部と、
 前記撮影部により撮影された画像から前記ユーザの顔の向き及び視線の少なくとも一方を検出する画像認識部と、
 をさらに有し、
 前記コマンド処理部は、コマンドが入力された際に前記画像認識部により検出された顔の向き及び視線の少なくとも一方から前記ユーザが前記表示部を見ているかを判定し、前記ユーザが前記表示部を見ている場合、前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記コマンドの処理を実施する
 上記(1)~(4)の何れか1つに記載の情報処理装置。
(6)
 前記コマンド処理部は、前記検出部により検出した入力開始タイミングから、コマンドを入力するユーザの属性に応じた認知時間分を変更したタイミングでの前記操作対象の状態に基づいて、前記コマンドの処理を実施する
 上記(1)~(5)の何れか1つに記載の情報処理装置。
(7)
 前記表示部は、時間的変化する前記操作対象の現在の状態と共に、前記検出部により検出した入力開始タイミングに戻した前記操作対象の状態を表示する
 上記(5)に記載の情報処理装置。
(8)
 前記操作対象は、複数のアイテムから選択対象のアイテムが順に遷移する操作とし、
 前記コマンド処理部は、前記検出部により検出したタイミングで選択対象であるアイテムから遷移が所定範囲のアイテムを番号で選択可能に前記表示部に表示する
 上記(5)に記載の情報処理装置。
(9)
 前記検出部は、前記撮影部により撮影された画像の認識結果から入力開始タイミングを検出する
 上記(5)に記載の情報処理装置。
(10)
 前記コマンド処理部は、前記検出部により検出した入力開始タイミングの状態で前記操作対象の状態の時間的変化を伴う変化を休止させ、ジェスチャから認識されるコマンドが停止指示であった場合、前記操作対象を停止させ、前記コマンドが停止指示以外であった場合、前記休止を解除する
 上記(1)~(9)の何れか1つに記載の情報処理装置。
(11)
 前記コマンド処理部は、前記検出部により検出した入力開始タイミングから一定期間の間の前記操作対象の時間的変化を循環して表示させる
 上記(1)~(9)の何れか1つに記載の情報処理装置。
(12)
 前記コマンド処理部は、前記一定期間の間の前記操作対象の状態を識別する検索タグを表示させる
 上記(11)に記載の情報処理装置。
(13)
 前記コマンド処理部は、音声認識の起動ワードよりも前に行われた発話の入力開始タイミングから起動ワードの発話までの時間が規定時間以下の場合、起動ワードよりも前に行われた発話の入力開始タイミングでの操作対象の状態に基づいて、コマンドの処理を実施する
 上記(2)に記載の情報処理装置。
(14)
 コンピュータが、
 時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始の入力開始タイミングを検出し、
 検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施する
 コマンド処理方法。
1 情報処理システム
10 情報処理装置
11 表示部
12 撮影部
13 音声出力部
14 音声入力部
15 記憶部
16 通信部
17 制御部
20 サーバ装置
21 通信部
22 記憶部
23 制御部
30 検出部
31 コマンド処理部
32 出力制御部
33 音声認識部
34 意味理解部
35 画像認識部
40 ユーザデータ
41 コンテンツデータ

Claims (14)

  1.  時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始タイミングを検出する検出部と、
     前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施するコマンド処理部と、
     を有する情報処理装置。
  2.  前記コマンドは、音声により入力され、
     前記検出部は、音声によるコマンドの入力開始タイミングを検出する
     請求項1に記載の情報処理装置。
  3.  前記コマンド処理部は、前記検出部により検出した入力開始タイミングの時刻又は当該時刻の前記操作対象の状態を記憶し、記憶した時刻の状態まで前記操作対象の状態を戻して又は記憶した前記操作対象の状態に対して、前記コマンドの処理を実施する
     請求項1に記載の情報処理装置。
  4.  前記コマンド処理部は、フィラー発話の後に所定の規定時間以内に音声によるコマンドが入力された場合、前記操作対象を前記フィラー発話の入力開始タイミングの状態に戻して、前記コマンドの処理を実施する
     請求項2に記載の情報処理装置。
  5.  前記操作対象を表示する表示部と、
     コマンドを入力するユーザを撮影する撮影部と、
     前記撮影部により撮影された画像から前記ユーザの顔の向き及び視線の少なくとも一方を検出する画像認識部と、
     をさらに有し、
     前記コマンド処理部は、コマンドが入力された際に前記画像認識部により検出された顔の向き及び視線の少なくとも一方から前記ユーザが前記表示部を見ているかを判定し、前記ユーザが前記表示部を見ている場合、前記検出部により検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記コマンドの処理を実施する
     請求項1に記載の情報処理装置。
  6.  前記コマンド処理部は、前記検出部により検出した入力開始タイミングから、コマンドを入力するユーザの属性に応じた認知時間分を変更したタイミングでの前記操作対象の状態に基づいて、前記コマンドの処理を実施する
     請求項1に記載の情報処理装置。
  7.  前記表示部は、時間的変化する前記操作対象の現在の状態と共に、前記検出部により検出した入力開始タイミングに戻した前記操作対象の状態を表示する
     請求項5に記載の情報処理装置。
  8.  前記操作対象は、複数のアイテムから選択対象のアイテムが順に遷移する操作とし、
     前記コマンド処理部は、前記検出部により検出したタイミングで選択対象であるアイテムから遷移が所定範囲のアイテムを番号で選択可能に前記表示部に表示する
     請求項5に記載の情報処理装置。
  9.  前記検出部は、前記撮影部により撮影された画像の認識結果から入力開始タイミングを検出する
     請求項5に記載の情報処理装置。
  10.  前記コマンド処理部は、前記検出部により検出した入力開始タイミングの状態で前記操作対象の状態の時間的変化を伴う変化を休止させ、ジェスチャから認識されるコマンドが停止指示であった場合、前記操作対象を停止させ、前記コマンドが停止指示以外であった場合、前記休止を解除する
     請求項1に記載の情報処理装置。
  11.  前記コマンド処理部は、前記検出部により検出した入力開始タイミングから一定期間の間の前記操作対象の時間的変化を循環して表示させる
     請求項1に記載の情報処理装置。
  12.  前記コマンド処理部は、前記一定期間の間の前記操作対象の状態を識別する検索タグを表示させる
     請求項11に記載の情報処理装置。
  13.  前記コマンド処理部は、音声認識の起動ワードよりも前に行われた発話の入力開始タイミングから起動ワードの発話までの時間が規定時間以下の場合、起動ワードよりも前に行われた発話の入力開始タイミングでの操作対象の状態に基づいて、コマンドの処理を実施する
     請求項2に記載の情報処理装置。
  14.  コンピュータが、
     時間的変化を伴う操作対象に対するジェスチャによるコマンドの入力開始の入力開始タイミングを検出し、
     検出した入力開始タイミングでの前記操作対象の状態に基づいて、前記ジェスチャから認識されるコマンドの処理を実施する
     コマンド処理方法。
PCT/JP2020/039401 2019-10-30 2020-10-20 情報処理装置、及びコマンド処理方法 WO2021085242A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021553461A JPWO2021085242A1 (ja) 2019-10-30 2020-10-20
US17/771,043 US20220357915A1 (en) 2019-10-30 2020-10-20 Information processing apparatus and command processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-197969 2019-10-30
JP2019197969 2019-10-30

Publications (1)

Publication Number Publication Date
WO2021085242A1 true WO2021085242A1 (ja) 2021-05-06

Family

ID=75715141

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/039401 WO2021085242A1 (ja) 2019-10-30 2020-10-20 情報処理装置、及びコマンド処理方法

Country Status (3)

Country Link
US (1) US20220357915A1 (ja)
JP (1) JPWO2021085242A1 (ja)
WO (1) WO2021085242A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7482640B2 (ja) * 2020-02-05 2024-05-14 キヤノン株式会社 音声入力装置およびその制御方法ならびにプログラム
JP7314102B2 (ja) * 2020-07-09 2023-07-25 Tvs Regza株式会社 制御信号生成回路、受信装置、システム、生成方法、およびプログラム
KR102516391B1 (ko) * 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004104986A1 (ja) * 2003-05-21 2004-12-02 Matsushita Electric Industrial Co., Ltd. 音声出力装置及び音声出力方法
JP2016109726A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP2016218852A (ja) * 2015-05-22 2016-12-22 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
WO2018034077A1 (ja) * 2016-08-19 2018-02-22 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5585401B2 (ja) * 2010-11-09 2014-09-10 ソニー株式会社 再生装置、再生方法、提供装置および再生システム
US9182233B2 (en) * 2012-05-17 2015-11-10 Robert Bosch Gmbh System and method for autocompletion and alignment of user gestures

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004104986A1 (ja) * 2003-05-21 2004-12-02 Matsushita Electric Industrial Co., Ltd. 音声出力装置及び音声出力方法
JP2016109726A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP2016218852A (ja) * 2015-05-22 2016-12-22 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
WO2018034077A1 (ja) * 2016-08-19 2018-02-22 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JPWO2021085242A1 (ja) 2021-05-06
US20220357915A1 (en) 2022-11-10

Similar Documents

Publication Publication Date Title
WO2021085242A1 (ja) 情報処理装置、及びコマンド処理方法
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
WO2017104207A1 (ja) 情報処理装置、情報処理方法、及びプログラム
KR102484257B1 (ko) 전자 장치, 그의 문서 표시 방법 및 비일시적 컴퓨터 판독가능 기록매체
JP2022529783A (ja) 発話認識エンジンのための入力の識別
WO2019087811A1 (ja) 情報処理装置、及び情報処理方法
JP2016218852A (ja) 情報処理装置および情報処理方法、並びにプログラム
WO2016064556A1 (en) Sound sample verification for generating sound detection model
JP6545716B2 (ja) 改善された音声認識を容易にする視覚的コンテンツの修正
WO2019107145A1 (ja) 情報処理装置、及び情報処理方法
JP2012047924A (ja) 情報処理装置、および情報処理方法、並びにプログラム
US20120088211A1 (en) Method And System For Acquisition Of Literacy
US11373635B2 (en) Information processing apparatus that fades system utterance in response to interruption
JP6443419B2 (ja) 音声対話装置及びその制御方法
WO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
KR101590053B1 (ko) 음성 인식을 이용한 비상벨 장치, 이의 작동 방법 및 이 방법이 기록된 컴퓨터 판독 가능한 기록매체
US20200388268A1 (en) Information processing apparatus, information processing system, and information processing method, and program
WO2019181218A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
KR20200041642A (ko) 차량용 음성인식 시스템 및 그 제어 방법
JPWO2018105373A1 (ja) 情報処理装置、情報処理方法、および情報処理システム
US11501208B2 (en) Rehearsal-based presentation assistance
JP7468360B2 (ja) 情報処理装置および情報処理方法
WO2020003820A1 (ja) 複数の処理を並列実行する情報処理装置
WO2023286775A1 (ja) 音声認識装置、音声認識方法、音声認識プログラム、撮像装置
WO2021085193A1 (ja) 情報処理装置、及びコマンド処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20883214

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021553461

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20883214

Country of ref document: EP

Kind code of ref document: A1