WO2016088410A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2016088410A1
WO2016088410A1 PCT/JP2015/073488 JP2015073488W WO2016088410A1 WO 2016088410 A1 WO2016088410 A1 WO 2016088410A1 JP 2015073488 W JP2015073488 W JP 2015073488W WO 2016088410 A1 WO2016088410 A1 WO 2016088410A1
Authority
WO
WIPO (PCT)
Prior art keywords
display
information processing
volume
voice
unit
Prior art date
Application number
PCT/JP2015/073488
Other languages
English (en)
French (fr)
Inventor
祐平 滝
真一 河野
邦仁 澤井
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201580057995.8A priority Critical patent/CN107148614B/zh
Priority to US15/521,322 priority patent/US10642575B2/en
Priority to EP15866106.6A priority patent/EP3229128A4/en
Priority to JP2016562324A priority patent/JP6627775B2/ja
Publication of WO2016088410A1 publication Critical patent/WO2016088410A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/1423Digital output to display device ; Cooperation and interconnection of the display device with other functional units controlling a plurality of local displays, e.g. CRT and flat panel display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Definitions

  • This disclosure relates to an information processing apparatus, an information processing method, and a program.
  • the display control unit includes: a determination unit that determines a user utterance volume based on an input voice; and a display control unit that controls the display unit so that a display object is displayed on the display unit.
  • a determination unit that determines a user utterance volume based on an input voice
  • a display control unit that controls the display unit so that a display object is displayed on the display unit. Is provided with an information processing apparatus that causes a first moving object that moves toward the display object to be displayed on the display unit when the user utterance volume exceeds a sound recognizable volume.
  • the method includes: determining a user utterance volume based on an input voice; and controlling the display unit such that a display object is displayed by the display unit, wherein the user utterance volume is a voice recognition
  • an information processing method including displaying, on the display unit, a first moving object that moves toward the display object when the possible volume is exceeded.
  • the computer includes: a determination unit that determines a user utterance volume based on an input voice; and a display control unit that controls the display unit so that a display object is displayed on the display unit.
  • the display control unit causes the display unit to display a first moving object that moves toward the display object when the user utterance volume exceeds a voice recognizable volume, and causes the display unit to function as an information processing apparatus.
  • a program is provided.
  • a plurality of constituent elements having substantially the same functional configuration may be distinguished by attaching different alphabets or numbers after the same reference numeral.
  • it is not necessary to particularly distinguish each of a plurality of constituent elements having substantially the same functional configuration only the same reference numerals are given.
  • Embodiment of the present disclosure 1.1. System configuration example 1.2. Functional configuration example 1.3. Display of first moving object 1.4. Setting of recognizable volume 1.5. Display of second moving object 1.6. Example of operation 1.7. Modification of display mode 1.8. 1. Hardware configuration example Conclusion
  • FIG. 1 is a diagram illustrating a configuration example of an information processing system 10 according to an embodiment of the present disclosure.
  • the information processing system 10 includes an image input unit 110, an operation input unit 115, a voice input unit 120, and a display unit 130.
  • the information processing system 10 can perform voice recognition on a voice uttered by a user U (hereinafter also simply referred to as “user”).
  • the image input unit 110 has a function of inputting an image.
  • the image input unit 110 includes two cameras embedded in the table Tbl.
  • the number of cameras included in the image input unit 110 is not particularly limited as long as it is one or more. In such a case, the position where each of the one or more cameras included in the image input unit 110 is provided is not particularly limited.
  • the one or more cameras may include a monocular camera or a stereo camera.
  • the operation input unit 115 has a function of inputting a user U operation.
  • the operation input unit 115 includes one camera suspended from the ceiling that exists above the table Tbl.
  • the position where the camera included in the operation input unit 115 is provided is not particularly limited.
  • the camera may include a monocular camera or a stereo camera.
  • the operation input unit 115 may not be a camera as long as it has a function of inputting the operation of the user U.
  • the operation input unit 115 may be a touch panel or a hardware button.
  • the display unit 130 has a function of displaying a screen on the table Tbl.
  • the display unit 130 is suspended from the ceiling above the table Tbl.
  • the position where the display unit 130 is provided is not particularly limited.
  • the display unit 130 may be a projector that can project a screen onto the top surface of the table Tbl.
  • the display unit 130 may be a display of another form. May be.
  • the display surface of the screen may be other than the top surface of the table Tbl.
  • the display surface of the screen may be a wall, a building, a floor, a ground, a ceiling, and others It may be the surface at the location.
  • the display surface of the screen may be a display surface that the display unit 130 has.
  • the voice input unit 120 has a function of inputting voice.
  • the audio input unit 120 includes a total of six microphones including three microphones existing above the table Tbl and three microphones existing on the upper surface of the table Tbl.
  • the number of microphones included in the voice input unit 120 is not particularly limited as long as it is one or more. In such a case, the position where each of the one or more microphones included in the audio input unit 120 is provided is not particularly limited.
  • the sound input unit 120 includes a plurality of microphones, the sound source direction can be estimated based on the sound input to each of the plurality of microphones. Further, if the sound input unit 120 includes a microphone having directivity, the sound source direction can be estimated based on the sound input to the microphone having directivity.
  • FIG. 2 is a block diagram illustrating a functional configuration example of the information processing system 10 according to the embodiment of the present disclosure.
  • the information processing system 10 according to the embodiment of the present disclosure includes an image input unit 110, an operation input unit 115, a voice input unit 120, a display unit 130, and an information processing device 140 (hereinafter referred to as “information processing device 140”). , Also referred to as “control unit 140”).
  • the information processing apparatus 140 executes control of each unit of the information processing system 10. For example, the information processing apparatus 140 generates information output from the display unit 130. Further, for example, the information processing apparatus 140 reflects information input by the image input unit 110, the operation input unit 115, and the voice input unit 120 in information output from the display unit 130. As illustrated in FIG. 2, the information processing apparatus 140 includes an input image acquisition unit 141, an input voice acquisition unit 142, an operation detection unit 143, a determination unit 144, a voice recognition unit 145, and a display control unit 146. Is provided. Details of these functional blocks will be described later.
  • the information processing apparatus 140 may be configured by, for example, a CPU (Central Processing Unit).
  • a CPU Central Processing Unit
  • the processing device can be configured by an electronic circuit.
  • FIG. 3 is a diagram illustrating an example of a screen displayed by the display unit 130.
  • the display control unit 146 displays the voice recognition cancel operation object Bu1, the voice recognition end operation object Bu2, and the display object Sb.
  • the voice recognition cancel operation object Bu1 is an object for receiving an input of an operation for canceling voice recognition.
  • the voice recognition end operation object Bu2 is an object for receiving an input of an operation to end voice recognition.
  • the display object Sb is not particularly limited as long as the object is visible to the user.
  • the display object Sb may be a stationary object or a moving object.
  • the determination unit 144 determines the utterance volume by the user U based on the input voice.
  • the determination method of the user utterance volume is not particularly limited.
  • the determination unit 144 may estimate the sound source direction Du of the uttered voice by the user, and determine the volume input from the sound source direction Du of the uttered voice by the user as the user uttered volume.
  • the estimation method of the sound source direction Du of the speech sound by the user is not particularly limited.
  • the determination unit 144 may estimate the arrival direction of the voice input by the voice input unit 120 at a volume exceeding the threshold as the sound source direction Du of the uttered voice by the user. In addition, when there are a plurality of directions of arrival of sound input at a volume exceeding the threshold, the determination unit 144 first inputs the sound at a volume exceeding the threshold among the plurality of arrival directions.
  • the similarity range may be determined in advance.
  • the finger direction may be obtained by analyzing the input image.
  • the determination unit 144 may estimate the arrival direction of the voice input with the highest volume by the voice input unit 120 as the sound source direction Du of the uttered voice by the user.
  • the determination unit 144 may estimate one arrival direction that matches or is similar to the finger direction of the user who has performed an operation of selecting a voice recognition start object (not shown) as the sound source direction Du of the uttered voice by the user. .
  • the determination unit 144 determines the voice input to the voice input unit 120 from a direction other than the sound source direction of the uttered voice by the user as noise, and the voice input unit 120 from a direction other than the sound source direction Du of the uttered voice by the user.
  • the volume input to may be determined as the noise volume.
  • the display control unit 146 moves toward the display object Sb when the user utterance volume exceeds the volume that can be recognized by the voice recognition unit 145 (hereinafter also referred to as “recognizable volume”).
  • the first moving object Mu may be displayed on the display unit 130. If it does so, it will become possible to make a user grasp
  • the display control unit 146 may move the first moving object Mu toward the display object Sb in the direction opposite to the sound source direction Du of the uttered voice by the user.
  • the movement of the first moving object Mu is not limited to such an example.
  • the display control unit 146 may control a parameter related to the first moving object Mu based on predetermined information corresponding to the input voice.
  • the input voice used at this time may be input voice from the sound source direction of the uttered voice by the user.
  • the parameter relating to the first moving object may include at least one of the size, shape, color, and moving speed of the first moving object Mu.
  • the predetermined information corresponding to the input voice is at least one of user utterance volume, input voice frequency, recognition character string acquisition speed, feature amount extracted from the input voice, and user identified from the input voice.
  • One may be included.
  • the display control unit 146 may increase the movement speed of the first moving object Mu as the recognition character string acquisition speed increases. Further, when the recognition character string acquisition speed exceeds a predetermined speed, the display control unit 146 gives a predetermined movement (for example, a movement that is played by the display object Sb) to the first moving object Mu.
  • a predetermined movement for example, a movement that is played by the display object Sb
  • the speech recognition unit 145 may acquire the recognized character string by performing speech recognition on the input speech from the sound source direction of the uttered speech by the user. Then, compared to the case where voice recognition is directly performed on the voice input by the voice input unit 120, voice recognition is performed on voice with less noise, and thus the accuracy of voice recognition is improved. Is expected to do.
  • the display control unit 146 may display the recognized character string on the display unit 130. If it does so, it becomes possible to make a user grasp the recognition character string obtained by voice recognition.
  • FIG. 4 is a diagram for explaining the display start of the first moving object Mu. As shown in FIG. 4, it is assumed that the noise volume and the user utterance volume change with time. As shown in FIG. 4, the display control unit 146 displays the first moving object when the user utterance volume exceeds the recognizable volume V_able (or when the user utterance volume becomes equal to the recognizable volume V_able). Mu may be displayed on the display unit 130.
  • the recognizable volume will be described in detail. It is conceivable that the recognizable volume described above is not always constant and changes based on the noise volume.
  • 5 to 7 are diagrams for explaining the recognizable sound volume. For example, as shown in FIG. 5, it is considered that the recognizable volume V_able does not change when the noise volume average value N_ave falls below a predetermined lower limit value (hereinafter also referred to as “noise volume lower limit value”) N_min. Therefore, the determination unit 144 may set the specified value V_able_min for the recognizable volume V_able when the noise volume average value N_ave is lower than the noise volume lower limit N_min. Note that the noise volume itself may be used instead of the noise volume average value N_ave.
  • the determination unit 144 sets the recognizable volume V_able to a volume corresponding to the noise volume average value N_ave (in the example illustrated in FIG. 6, the noise volume average value). A value obtained by multiplying N_ave by V_ratio) may be set. Note that the noise volume itself may be used instead of the noise volume average value N_ave.
  • FIG. 7 shows the relationship between the noise volume average value N_ave and the recognizable volume V_able based on the examples shown in FIGS. 5 and 6.
  • the noise volume average value N_ave when the noise volume average value N_ave is lower than the noise volume lower limit N_min, the specified value V_able_min is set to the recognizable volume V_able, but the noise volume average value N_ave exceeds the noise volume lower limit N_min.
  • a value obtained by multiplying the noise volume average value N_ave by V_ratio is set to the recognizable volume V_able.
  • the change in the recognizable sound volume V_able when the noise sound volume average value N_ave exceeds the noise sound volume lower limit value N_min may not be a linear change.
  • the specified value V_able_min may be set to the recognizable volume V_able, or the volume corresponding to the noise volume average value N_ave may be set to the recognizable volume V_able. May be set.
  • values such as the specified value V_able_min, noise volume lower limit N_min, and V_ratio may be set in advance according to the use environment, use case, etc. of the product that performs voice recognition, or when the voice recognition starts. It may be dynamically updated by software update or the like.
  • FIG. 8 is a diagram illustrating another example of a screen displayed by the display unit 130. Referring to FIG. 8, noise sound sources Ns1 and Ns2 exist. Here, a case where two noise sound sources are present will be described, but the number of noise sound sources is not limited.
  • the determination unit 144 determines the noise volume based on the input voice.
  • the noise volume determination method is not particularly limited.
  • the determination unit 144 may estimate the noise sound source directions Dn1 and Dn2 and determine the sound volume input from the noise sound source directions Dn1 and Dn2 as the noise sound volume.
  • the estimation method of the noise sound source directions Dn1 and Dn2 is not particularly limited.
  • the determination unit 144 when there are a plurality of directions of arrival of sound input at a volume exceeding the threshold, the determination unit 144 is input at a volume exceeding the threshold after the second of the plurality of arrival directions.
  • the voice arrival direction may be estimated as the noise source directions Dn1 and Dn2.
  • the determination unit 144 may estimate the arrival directions of the voices input by the voice input unit 120 at the second or higher volume as the noise source directions Dn1 and Dn2.
  • the display control unit 146 may cause the display unit 130 to display the second moving objects Mn1 and Mn2 different from the first moving object Mu when the noise volume exceeds the voice recognizable volume. If it does so, it becomes possible to make the user U grasp
  • the display control unit 146 may display the second moving objects Mn1 and Mn2 on the display unit 130 based on the noise sound source direction. If it does so, it becomes possible to make a user grasp
  • the display control unit 146 may move the second moving objects Mn1 and Mn2 so that the movement to the display object Sb is blocked. For example, as shown in FIG. 8, the display control unit 146 may move the second moving objects Mn1 and Mn2 so as not to go outside the predetermined range. Then, when speech recognition is performed on the input speech from the sound source direction of the uttered speech by the user, it is more intuitive that speech recognition is not performed on the speech emitted from the noise sound source directions Dn1 and Dn2. This makes it possible for the user to grasp.
  • FIG. 9 is a diagram for explaining display start of the second moving objects Mn1 and Mn2.
  • the display control unit 146 performs the second motion object Mn1 when the first noise volume exceeds the recognizable volume V_able (or when the first noise volume becomes equal to the recognizable volume V_able). May be displayed on the display unit 130.
  • the display control unit 146 displays the second moving object Mn2 when the second noise volume exceeds the recognizable volume V_able (or when the second noise volume becomes equal to the recognizable volume V_able). You may display on the display part 130.
  • FIG. The display start of the first moving object Mu is as already described.
  • 10A and 10B are flowcharts illustrating an example of the operation flow of the information processing system 10 according to the embodiment of the present disclosure. Note that the flowcharts of FIGS. 10A and 10B are merely examples of the operation flow of the information processing system 10 according to the embodiment of the present disclosure. Therefore, the operation flow of the information processing system 10 according to the embodiment of the present disclosure is as follows. The present invention is not limited to the examples shown in the flowcharts of FIGS. 10A and 10B.
  • the input image acquisition unit 141 acquires the input image input by the image input unit 110 (S11). Further, the input voice acquisition unit 142 acquires the input voice input by the voice input unit 120 (S12). Subsequently, the information processing apparatus 140 shifts the operation to S11 and S12 when the sound source direction of the user uttered voice cannot be specified based on the input image and the input voice (“No” in S13). If the sound source direction of the user uttered voice can be specified based on the input image and the input voice (“Yes” in S13), the operation is shifted to S14.
  • the determination unit 144 determines the sound source direction of the user utterance voice and the user utterance volume (S14), and determines the direction of the noise sound source and the noise volume (S15). Subsequently, when the noise volume exceeds the noise volume lower limit N_min (“No” in S16), the determination unit 144 sets a value obtained by multiplying the recognizable volume V_able by the noise volume average value N_ave by V_ratio ( The operation is shifted to S17) and S19. On the other hand, when the noise volume is lower than the noise volume lower limit N_min (“Yes” in S16), the determination unit 144 sets the specified value V_able_min to the recognizable volume V_able (S18), and shifts the operation to S19.
  • the information processing apparatus 140 shifts the operation to S24.
  • the voice recognition unit 145 performs voice recognition from the input voice. At this time, the voice recognition unit 145 may perform voice recognition on the input voice from the sound source direction of the uttered voice by the user.
  • the display control unit 146 causes the display unit 130 to display the first moving object Mu according to the sound source direction of the user uttered voice (S21). Then, when there is a noise sound source that emits a noise volume that exceeds the recognizable volume V_able (“Yes” in S22), the display control unit 146 displays a second moving object corresponding to the direction of the noise sound source. (S23), and the operation is shifted to S13. On the other hand, when there is no noise sound source that emits a noise volume higher than the recognizable volume V_able (“No” in S22), the information processing apparatus 140 shifts the operation to S24. When the operation is shifted to S24, the information processing apparatus 140 causes the input image acquisition unit 141 and the input sound acquisition unit 142 to acquire the input image and the input sound in the next time unit (S24), and shifts the operation to S13.
  • FIG. 11 is a diagram illustrating a first modification of the display form by the display unit 130.
  • the display unit 130 may be included in the mobile terminal.
  • the kind of portable terminal is not specifically limited, A tablet terminal may be sufficient, a smart phone may be sufficient, and a mobile phone may be sufficient.
  • FIG. 12 is a diagram showing a second modification of the display form by the display unit 130.
  • the display unit 130 may be included in the television receiver.
  • the display control unit 146 displays the first moving object Mu on the display unit 130 based on the sound source direction of the uttered voice by the user U, and changes the first movement object Mu based on the direction of the noise sound source Ns.
  • Two moving objects Mn may be displayed on the display unit 130.
  • FIG. 13 is a diagram showing a third modification of the display form by the display unit 130.
  • the display unit 130 may be a head mounted display.
  • the display control unit 146 causes the display unit 130 to display the display object Sb when the object Ob corresponding to the display object Sb is recognized from the image captured by the camera included in the head mounted display. May be.
  • the display control unit 146 may recognize the three-dimensional position and posture of the object Ob, and place the display object Sb in an AR (augmented reality) space according to the recognized three-dimensional position and posture.
  • the first moving object Mu may also be moved based on the three-dimensional position of the object Ob.
  • the display control unit 146 moves the first moving object Mu in the AR space toward the three-dimensional position of the object Ob when the user utterance volume exceeds the voice recognizable volume.
  • the moving object Mu may be displayed so as to move from the front to the back.
  • the first moving object Mu appears from the vicinity of the user's mouth and moves to the display object Sb. is doing.
  • the information processing apparatus 140 recognizes the recognized character string obtained by the speech recognition. It is assumed that the object Ob is caused to execute an operation corresponding to the power (for example, switching between power ON and OFF of the lighting fixture). However, the object Ob may be any object other than the lighting fixture.
  • FIG. 14 is a diagram showing a fourth modification of the display form by the display unit 130.
  • the display unit 130 may be included in the three-dimensional stereoscopic display.
  • the display control unit 146 moves toward the display object Sb with an expression that moves from the front to the back.
  • the first moving object Mu to be displayed may be displayed.
  • the expression of moving from the front to the back can be realized by using the parallax between the left and right eyes of the user U.
  • an expression that moves from the front to the back is realized by causing the user U to wear the stereoscopic glasses L, but the naked eye stereoscopic that does not cause the user U to wear the stereoscopic glasses L.
  • An expression that moves from the front to the back may be realized.
  • the depth of the display object Sb displayed on the object G1 is increased.
  • FIG. 15 is a diagram illustrating a fifth modification of the display form by the display unit 130.
  • the display control unit 146 may display the virtual object Vr on the display unit 130 and display a predetermined object included in the virtual object Vr on the display unit 130 as the display object Sb.
  • the virtual object Vr corresponds to the game controller Cr, but the virtual object Vr may correspond to an object other than the game controller Cr.
  • the predetermined object corresponds to the microphone Mc included in the game controller Cr, but the predetermined object is not limited to the microphone Mc.
  • the user U views the destination of the first moving object Mu displayed by the display unit 130 to input his / her utterance voice. It is possible to easily grasp what is being done. Further, if the virtual object Vr and the display object Sb are displayed in this way, it is possible to prevent the user U from performing an utterance toward an incorrect position (for example, the position of the display unit 130). It becomes.
  • FIG. 16 is a block diagram illustrating a hardware configuration example of the information processing system 10 according to the embodiment of the present disclosure.
  • the information processing system 10 includes a CPU (Central Processing unit) 901, a ROM (Read Only Memory) 903, and a RAM (Random Access Memory) 905.
  • the information processing system 10 may also include a host bus 907, a bridge 909, an external bus 911, an interface 913, an input device 915, an output device 917, a storage device 919, a drive 921, a connection port 923, and a communication device 925.
  • the information processing system 10 may include an imaging device 933 and a sensor 935 as necessary.
  • the information processing system 10 may include a processing circuit called DSP (Digital Signal Processor) or ASIC (Application Specific Integrated Circuit) instead of or in addition to the CPU 901.
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • the CPU 901 functions as an arithmetic processing unit and a control unit, and controls all or part of the operation in the information processing system 10 according to various programs recorded in the ROM 903, the RAM 905, the storage device 919, or the removable recording medium 927.
  • the ROM 903 stores programs and calculation parameters used by the CPU 901.
  • the RAM 905 temporarily stores programs used in the execution of the CPU 901, parameters that change as appropriate during the execution, and the like.
  • the CPU 901, the ROM 903, and the RAM 905 are connected to each other by a host bus 907 configured by an internal bus such as a CPU bus. Further, the host bus 907 is connected to an external bus 911 such as a PCI (Peripheral Component Interconnect / Interface) bus via a bridge 909.
  • PCI Peripheral Component Interconnect / Interface
  • the input device 915 is a device operated by the user, such as a mouse, a keyboard, a touch panel, a button, a switch, and a lever.
  • the input device 915 may include a microphone that detects the user's voice.
  • the input device 915 may be, for example, a remote control device using infrared rays or other radio waves, or may be an external connection device 929 such as a mobile phone that supports the operation of the information processing system 10.
  • the input device 915 includes an input control circuit that generates an input signal based on information input by the user and outputs the input signal to the CPU 901. The user operates the input device 915 to input various data to the information processing system 10 and instruct processing operations.
  • An imaging device 933 which will be described later, can also function as an input device by imaging a user's hand movement, a user's finger, and the like. At this time, the pointing position may be determined according to the movement of the hand or the direction of the finger.
  • the output device 917 is a device that can notify the user of the acquired information visually or audibly.
  • the output device 917 is, for example, a display device such as an LCD (Liquid Crystal Display), a PDP (Plasma Display Panel), an organic EL (Electro-Luminescence) display, a projector, an audio output device such as a hologram display device, a speaker and headphones, As well as a printer device.
  • the output device 917 outputs the result obtained by the processing of the information processing system 10 as a video such as text or an image, or outputs it as a voice such as voice or sound.
  • the output device 917 may include a light or the like to brighten the surroundings.
  • the storage device 919 is a data storage device configured as an example of a storage unit of the information processing system 10.
  • the storage device 919 includes, for example, a magnetic storage device such as an HDD (Hard Disk Drive), a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the storage device 919 stores programs executed by the CPU 901, various data, various data acquired from the outside, and the like.
  • the drive 921 is a reader / writer for a removable recording medium 927 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and is built in or externally attached to the information processing system 10.
  • the drive 921 reads information recorded on the attached removable recording medium 927 and outputs the information to the RAM 905.
  • the drive 921 writes a record in the attached removable recording medium 927.
  • the connection port 923 is a port for directly connecting a device to the information processing system 10.
  • the connection port 923 can be, for example, a USB (Universal Serial Bus) port, an IEEE 1394 port, a SCSI (Small Computer System Interface) port, or the like.
  • the connection port 923 may be an RS-232C port, an optical audio terminal, an HDMI (registered trademark) (High-Definition Multimedia Interface) port, or the like.
  • Various data can be exchanged between the information processing system 10 and the external connection device 929 by connecting the external connection device 929 to the connection port 923.
  • the communication device 925 is a communication interface configured with, for example, a communication device for connecting to the communication network 931.
  • the communication device 925 can be, for example, a communication card for wired or wireless LAN (Local Area Network), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 925 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), or a modem for various communication.
  • the communication device 925 transmits and receives signals and the like using a predetermined protocol such as TCP / IP with the Internet and other communication devices, for example.
  • the communication network 931 connected to the communication device 925 is a wired or wireless network, such as the Internet, a home LAN, infrared communication, radio wave communication, or satellite communication.
  • the imaging device 933 uses various members such as an imaging element such as a CCD (Charge Coupled Device) or CMOS (Complementary Metal Oxide Semiconductor), and a lens for controlling the imaging of a subject image on the imaging element. It is an apparatus that images a real space and generates a captured image.
  • the imaging device 933 may capture a still image or may capture a moving image.
  • the sensor 935 is various sensors such as an acceleration sensor, a gyro sensor, a geomagnetic sensor, an optical sensor, and a sound sensor.
  • the sensor 935 obtains information related to the state of the information processing system 10 such as the posture of the information processing system 10, and information related to the surrounding environment of the information processing system 10 such as brightness and noise around the information processing system 10. To do.
  • the sensor 935 may include a GPS sensor that receives a GPS (Global Positioning System) signal and measures the latitude, longitude, and altitude of the apparatus.
  • GPS Global Positioning System
  • Each component described above may be configured using a general-purpose member, or may be configured by hardware specialized for the function of each component. Such a configuration can be appropriately changed according to the technical level at the time of implementation.
  • the determination unit 144 that determines the user utterance volume based on the input voice and the display unit 130 are controlled so that the display object Sb is displayed on the display unit 130.
  • Display control unit 146, and display control unit 146 causes display unit 130 to display a first moving object that moves toward display object Sb when the user's utterance volume exceeds the voice recognizable volume.
  • An information processing apparatus 140 is provided.
  • the user it is possible to make the user know whether or not an utterance is made at a volume that allows voice recognition. For example, when voice recognition is not correctly performed, the user can grasp how to change the utterance. Further, if the user's utterance changes based on the result, it is expected that the success rate of the speech recognition is improved.
  • the display form by the display unit 130 is not limited to the above-described example.
  • the display unit 130 may be a display provided in a wearable terminal (for example, a watch, glasses, etc.) other than the head mounted display.
  • the display unit 130 may be a display provided in an in-vehicle navigation system.
  • the display unit 130 may be a display used in the healthcare field.
  • the display control unit 146 generates display control information for causing the display unit 130 to display the display content, and outputs the generated display control information to the display unit 130, so that the display content is displayed on the display unit 130. In this way, the display unit 130 can be controlled.
  • the contents of the display control information may be changed as appropriate according to the system configuration.
  • the program for realizing the information processing apparatus 140 may be a web application.
  • the display control information may be realized by a markup language such as HTML (HyperText Markup Language), SGML (Standard Generalized Markup Language), XML (Extensible Markup Language), or the like.
  • the position of each component is not particularly limited as long as the operation of the information processing system 10 described above is realized.
  • the image input unit 110, the operation input unit 115, the voice input unit 120, the display unit 130, and the information processing device 140 may be provided in different devices connected via a network.
  • the information processing apparatus 140 corresponds to a server such as a web server or a cloud server, for example, and the image input unit 110, the operation input unit 115, the voice input unit 120, and the display unit 130 are connected to the server. It may correspond to a client connected via
  • a determination unit for determining a user utterance volume based on an input voice A display control unit that controls the display unit such that a display object is displayed by the display unit, The display control unit causes the display unit to display a first moving object that moves toward the display object when the user utterance volume exceeds a voice recognizable volume.
  • Information processing device (2) The determination unit determines the sound source direction of the uttered voice by the user, The display control unit causes the display unit to display the first moving object based on a sound source direction of the uttered voice by the user.
  • the information processing apparatus includes a voice recognition unit that acquires a recognition character string by performing voice recognition on an input voice from a sound source direction of the voice spoken by the user.
  • the display control unit displays the recognition character string on the display unit.
  • the determination unit determines a noise volume based on the input voice,
  • the display control unit causes the display unit to display a second moving object different from the first moving object when the noise volume exceeds the voice recognizable volume;
  • the information processing apparatus according to any one of (1) to (4).
  • the determination unit determines a noise source direction,
  • the display control unit causes the display unit to display the second moving object based on the noise source direction.
  • the second moving object moves so that movement to the display object is blocked;
  • the display control unit controls a parameter related to the first moving object based on predetermined information corresponding to the input voice;
  • the parameter relating to the first moving object includes at least one of a size, a shape, a color, and a moving speed of the first moving object.
  • the predetermined information corresponding to the input voice is the user utterance volume, the frequency of the input voice, the acquisition speed of the recognized character string, the feature amount extracted from the input voice, and the user identified from the input voice, Including at least one The information processing apparatus according to (8) or (9).
  • the determination unit determines the sound source direction of the uttered voice by the user based on the arrival direction of the voice input at a volume level exceeding the threshold.
  • the determination unit determines the sound source direction of the speech voice by the user based on the arrival direction of the voice input at the maximum volume.
  • the determination unit determines a sound source direction of the uttered voice by the user based on a direction from a fingertip to a finger base; The information processing apparatus according to (2).
  • the determination unit sets a prescribed value for the voice recognizable volume.
  • the determination unit sets a volume according to an average value of the noise volume or a volume according to the noise volume as the sound recognizable volume.
  • the information processing apparatus according to (6).
  • the display control unit displays the display object on the display unit when an object corresponding to the display object is recognized from a captured image; The information processing apparatus according to any one of (1) to (15).
  • the display control unit displays the first moving object that moves toward the display object with an expression that moves from the front to the back. Display on the display, The information processing apparatus according to any one of (1) to (16).
  • the display control unit displays a virtual object on the display unit, and displays a predetermined object included in the virtual object on the display unit as the display object.
  • the information processing apparatus according to any one of (1) to (17). (19) Determining the user utterance volume based on the input voice; Controlling the display unit such that a display object is displayed by the display unit, Including displaying a first moving object that moves toward the display object on the display unit when the user utterance volume exceeds a voice recognizable volume. Information processing method.
  • Computer A determination unit for determining a user utterance volume based on an input voice; A display control unit that controls the display unit such that a display object is displayed by the display unit, The display control unit causes the display unit to display a first moving object that moves toward the display object when the user utterance volume exceeds a voice recognizable volume.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

 音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能な技術を提供する。 入力音声に基づいてユーザ発話音量を判定する判定部と、表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させる、情報処理装置が提供される。

Description

情報処理装置、情報処理方法およびプログラム
 本開示は、情報処理装置、情報処理方法およびプログラムに関する。
 近年、ユーザによって発せられた音声を入力音声として受け付け、入力音声に対して音声認識を行うことによって入力音声から文字列を認識する技術が存在する。例えば、入力音声に対して音声認識を行うモードが開始されたことをユーザに把握させる技術が開示されている(例えば、特許文献1参照)。
特開2013-25605号公報
 しかし、音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能な技術が提供されることが望まれる。
 本開示によれば、入力音声に基づいてユーザ発話音量を判定する判定部と、表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させる、情報処理装置が提供される。
 本開示によれば、入力音声に基づいてユーザ発話音量を判定することと、表示オブジェクトが表示部によって表示されるように前記表示部を制御することと、を含み、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させることを含む、情報処理方法が提供される。
 本開示によれば、コンピュータを、入力音声に基づいてユーザ発話音量を判定する判定部と、表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させる、情報処理装置として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の実施形態に係る情報処理システムの構成例を示す図である。 同実施形態に係る情報処理システムの機能構成例を示すブロック図である。 表示部によって表示される画面の例を示す図である。 第1の動きオブジェクトの表示開始を説明するための図である。 認識可能音量について説明するための図である。 認識可能音量について説明するための図である。 認識可能音量について説明するための図である。 表示部によって表示される画面の他の例を示す図である。 第2の動きオブジェクトの表示開始を説明するための図である 情報処理システムの動作の流れの例を示すフローチャートである。 情報処理システムの動作の流れの例を示すフローチャートである。 表示部による表示形態の変形例1を示す図である。 表示部による表示形態の変形例2を示す図である。 表示部による表示形態の変形例3を示す図である。 表示部による表示形態の変形例4を示す図である。 表示部による表示形態の変形例5を示す図である。 情報処理システムのハードウェア構成例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットまたは数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
 なお、説明は以下の順序で行うものとする。
 1.本開示の実施形態
  1.1.システム構成例
  1.2.機能構成例
  1.3.第1の動きオブジェクトの表示
  1.4.認識可能音量の設定
  1.5.第2の動きオブジェクトの表示
  1.6.動作例
  1.7.表示形態の変形例
  1.8.ハードウェア構成例
 2.むすび
 <1.本開示の実施形態>
 [1.1.システム構成例]
 まず、図面を参照しながら本開示の実施形態に係る情報処理システム10の構成例について説明する。図1は、本開示の実施形態に係る情報処理システム10の構成例を示す図である。図1に示したように、本開示の実施形態に係る情報処理システム10は、画像入力部110と、操作入力部115と、音声入力部120と、表示部130とを備える。情報処理システム10は、ユーザU(以下、単に「ユーザ」とも言う。)によって発せられた音声に対して音声認識を行うことが可能である。
 画像入力部110は、画像を入力する機能を有する。図1に示した例では、画像入力部110は、テーブルTblに埋め込まれた2つのカメラを含んでいる。しかし、画像入力部110に含まれるカメラの数は1以上であれば特に限定されない。かかる場合、画像入力部110に含まれる1以上のカメラそれぞれが設けられる位置も特に限定されない。また、1以上のカメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。
 操作入力部115は、ユーザUの操作を入力する機能を有する。図1に示した例では、操作入力部115は、テーブルTblの上方に存在する天井から吊り下げられた1つのカメラを含んでいる。しかし、操作入力部115に含まれるカメラが設けられる位置は特に限定されない。また、カメラには、単眼カメラが含まれてもよいし、ステレオカメラが含まれてもよい。また、操作入力部115はユーザUの操作を入力する機能を有していればカメラでなくてもよく、例えば、タッチパネルであってもよいし、ハードウェアボタンであってもよい。
 表示部130は、テーブルTblに画面を表示する機能を有する。図1に示した例では、表示部130は、テーブルTblの上方に天井から吊り下げられている。しかし、表示部130が設けられる位置は特に限定されない。また、典型的には、表示部130は、テーブルTblの天面に画面を投影することが可能なプロジェクタであってよいが、画面を表示する機能を有すれば、他の形態のディスプレイであってもよい。
 なお、本明細書では、テーブルTblの天面が画面の表示面となる場合を主に説明するが、画面の表示面は、テーブルTblの天面以外であってもよい。例えば、画面の表示面は、壁であってもよいし、建物であってもよいし、床面であってもよいし、地面であってもよいし、天井であってもよいし、他の場所にある面であってもよい。また、表示部130が表示面を有する場合には、画面の表示面は、表示部130が有する表示面であってもよい。
 音声入力部120は、音声を入力する機能を有する。図1に示した例では、音声入力部120は、テーブルTblの上方に存在する3つのマイクとテーブルTblの上面に存在する3つのマイクとの合計6つのマイクを含んでいる。しかし、音声入力部120に含まれるマイクの数は1以上であれば特に限定されない。かかる場合、音声入力部120に含まれる1以上のマイクそれぞれが設けられる位置も特に限定されない。ただし、音声入力部120が、複数のマイクを含んでいれば、複数のマイクそれぞれに入力された音声に基づいて音源方向が推定され得る。また、音声入力部120が指向性を有するマイクを含んでいれば、指向性を有するマイクに入力された音声に基づいて音源方向が推定され得る。
 以上、本開示の実施形態に係る情報処理システム10の構成例について説明した。
 [1.2.機能構成例]
 続いて、本開示の実施形態に係る情報処理システム10の機能構成例について説明する。図2は、本開示の実施形態に係る情報処理システム10の機能構成例を示すブロック図である。図2に示したように、本開示の実施形態に係る情報処理システム10は、画像入力部110と、操作入力部115と、音声入力部120と、表示部130と、情報処理装置140(以下、「制御部140」とも言う。)と、を備える。
 情報処理装置140は、情報処理システム10の各部の制御を実行する。例えば、情報処理装置140は、表示部130から出力する情報を生成する。また、例えば、情報処理装置140は、画像入力部110、操作入力部115および音声入力部120それぞれが入力した情報を、表示部130から出力する情報に反映させる。図2に示したように、情報処理装置140は、入力画像取得部141と、入力音声取得部142と、操作検出部143と、判定部144と、音声認識部145と、表示制御部146とを備える。これらの各機能ブロックについての詳細は、後に説明する。
 なお、情報処理装置140は、例えば、CPU(Central Processing Unit;中央演算処理装置)などで構成されていてもよい。情報処理装置140がCPUなどといった処理装置によって構成される場合、かかる処理装置は、電子回路によって構成され得る。
 以上、本開示の実施形態に係る情報処理システム10の機能構成例について説明した。
 [1.3.第1の動きオブジェクトの表示]
 まず、音声認識開始オブジェクト(不図示)を選択する操作が操作検出部143によって検出されると、音声認識部145によって入力音声に対する音声認識が開始される。図3は、表示部130によって表示される画面の例を示す図である。図3を参照すると、表示制御部146は、音声認識キャンセル操作オブジェクトBu1と音声認識終了操作オブジェクトBu2と表示オブジェクトSbとを表示させている。音声認識キャンセル操作オブジェクトBu1は、音声認識を取り消す操作の入力を受け付けるためのオブジェクトである。音声認識終了操作オブジェクトBu2は、音声認識を終了する操作の入力を受け付けるためのオブジェクトである。
 表示オブジェクトSbは、ユーザに視認可能なオブジェクトであれば特に限定されない。例えば、表示オブジェクトSbは、静止しているオブジェクトであってもよいし、動きのあるオブジェクトであってもよい。音声認識が開始されると、判定部144は、入力音声に基づいてユーザUによる発話音量を判定する。ここで、ユーザ発話音量の判定手法は特に限定されない。例えば、判定部144は、ユーザによる発話音声の音源方向Duを推定し、ユーザによる発話音声の音源方向Duから入力される音量をユーザ発話音量として判定してよい。なお、ユーザによる発話音声の音源方向Duの推定手法も特に限定されない。
 例えば、判定部144は、音声入力部120によって閾値を超える大きさの音量で入力された音声の到来方向をユーザによる発話音声の音源方向Duとして推定してもよい。また、判定部144は、閾値を超える大きさの音量で入力された音声の到来方向が複数あった場合には、複数の到来方向のうち最初に閾値を超える大きさの音量で入力された音声の到来方向をユーザによる発話音声の音源方向Duとして推定してもよいし、複数の到来方向のうち音声による音声認識開始オブジェクト(不図示)を選択する操作を行ったユーザの指方向(例えば、指先から指の根元への方向)に一致または類似する1の到来方向をユーザによる発話音声の音源方向Duとして推定してもよい。類似範囲はあらかじめ定められていてよい。また、指方向は入力画像を解析することによって取得されてよい。
 また、例えば、判定部144は、音声入力部120によって最も大きな音量で入力された音声の到来方向をユーザによる発話音声の音源方向Duとして推定してもよい。あるいは、判定部144は、音声認識開始オブジェクト(不図示)を選択する操作を行ったユーザの指方向に一致または類似する1の到来方向をユーザによる発話音声の音源方向Duとして推定してもよい。このとき、判定部144は、ユーザによる発話音声の音源方向以外の方向から音声入力部120に入力された音声をノイズとして判定し、ユーザによる発話音声の音源方向Du以外の方向から音声入力部120に入力された音量をノイズ音量として判定してよい。
 そして、表示制御部146は、音声認識部145による音声認識が可能な音量(以下、「認識可能音量」とも言う。)をユーザ発話音量が超えている場合に、表示オブジェクトSbに向かって移動する第1の動きオブジェクトMuを表示部130に表示させればよい。そうすれば、音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能となる。また、表示制御部146は、ユーザによる発話音声の音源方向Duに基づいて第1の動きオブジェクトMuを表示部130に表示させてもよい。そうすれば、自分自身の発話音量が音声認識可能な音量を超えているか否かをユーザにより確実に把握させることが可能となる。
 具体的には、表示制御部146は、ユーザによる発話音声の音源方向Duとは逆向きに第1の動きオブジェクトMuを表示オブジェクトSbに向かって移動させるとよい。図3に示した例では、ユーザの近隣に次々と出現した円形状のオブジェクトが、ユーザによる発話音声の音源方向Duとは逆向きに移動し、表示オブジェクトSbに到達すると消失する場合を想定しているが、第1の動きオブジェクトMuの動きは、かかる例に限定されない。例えば、表示制御部146は、入力音声に応じた所定の情報に基づいて第1の動きオブジェクトMuに関するパラメータを制御してよい。このときに用いられる入力音声は、ユーザによる発話音声の音源方向からの入力音声であるとよい。例えば、第1の動きオブジェクトに関するパラメータは、第1の動きオブジェクトMuのサイズ、形状、色および移動速度のうち、少なくともいずれか一つを含んでもよい。
 また、入力音声に応じた所定の情報は、ユーザ発話音量、入力音声の周波数、認識文字列の取得速度、入力音声から抽出される特徴量および入力音声から識別されるユーザのうち、少なくともいずれか一つを含んでもよい。例えば、表示制御部146は、認識文字列の取得速度が高くなるほど、第1の動きオブジェクトMuの移動速度を高くしてもよい。また、表示制御部146は、認識文字列の取得速度が所定の速度を超えた場合には、第1の動きオブジェクトMuに所定の動き(例えば、表示オブジェクトSbに弾かれるような動き)を与えることによって音声認識が困難な状況をユーザに把握させてもよい。
 なお、音声認識部145は、ユーザによる発話音声の音源方向からの入力音声に対して音声認識を行うことにより認識文字列を取得するのがよい。そうすれば、音声入力部120によって入力された音声に対して直接的に音声認識が行われる場合と比較して、ノイズの少ない音声に対して音声認識が行われるため、音声認識の精度が向上することが期待される。また、表示制御部146は、認識文字列を表示部130に表示させるのがよい。そうすれば、音声認識によって得られた認識文字列をユーザに把握させることが可能となる。
 第1の動きオブジェクトMuの表示開始についてさらに説明する。図4は、第1の動きオブジェクトMuの表示開始を説明するための図である。図4に示すように、ノイズ音量およびユーザ発話音量が時間とともに変化した場合を想定する。図4に示したように、表示制御部146は、ユーザ発話音量が認識可能音量V_ableを超えた時点(あるいは、ユーザ発話音量が認識可能音量V_ableと等しくなった時点)において、第1の動きオブジェクトMuを表示部130に表示させ始めてよい。
 [1.4.認識可能音量の設定]
 続いて、認識可能音量について詳細に説明する。上記した認識可能音量は、常に一定とは限らずにノイズ音量に基づいて変化することが考えられる。図5~図7は、認識可能音量について説明するための図である。例えば、図5に示すように、ノイズ音量平均値N_aveが所定の下限値(以下、「ノイズ音量下限値」とも言う。)N_minを下回る場合、認識可能音量V_ableは変化しないと考えられる。そこで、判定部144は、ノイズ音量平均値N_aveがノイズ音量下限値N_minを下回る場合、認識可能音量V_ableに規定値V_able_minを設定してよい。なお、ノイズ音量平均値N_aveの代わりにノイズ音量自体が用いられてもよい。
 一方、例えば、図6に示すように、ノイズ音量平均値N_aveがノイズ音量下限値N_minを上回る場合、認識可能音量V_ableはノイズ音量平均値N_aveに応じて変化すると考えられる。そこで、判定部144は、ノイズ音量平均値N_aveがノイズ音量下限値N_minを上回る場合、認識可能音量V_ableに、ノイズ音量平均値N_aveに応じた音量(図6に示した例では、ノイズ音量平均値N_aveをV_ratio倍して得られる値)を設定してよい。なお、ノイズ音量平均値N_aveの代わりにノイズ音量自体が用いられてもよい。
 図5および図6に示した例に基づいて、ノイズ音量平均値N_aveと認識可能音量V_ableとの関係を図示すると、図7に示す通りとなる。図7を参照すると、ノイズ音量平均値N_aveがノイズ音量下限値N_minを下回る場合には、認識可能音量V_ableに規定値V_able_minが設定されるが、ノイズ音量平均値N_aveがノイズ音量下限値N_minを上回る場合には、認識可能音量V_ableにノイズ音量平均値N_aveをV_ratio倍して得られる値が設定されることが把握される。しかし、ノイズ音量平均値N_aveがノイズ音量下限値N_minを上回る場合における認識可能音量V_ableの変化は、線形的な変化でなくてもよい。
 なお、ノイズ音量平均値N_aveとノイズ音量下限値N_minとが等しい場合は、認識可能音量V_ableに規定値V_able_minが設定されてもよいし、認識可能音量V_ableに、ノイズ音量平均値N_aveに応じた音量が設定されてもよい。また、規定値V_able_min、ノイズ音量下限値N_min、V_ratioなどの値は、音声認識を行う製品の使用環境、ユースケースなどに応じて事前に設定されてもよいし、音声認識開始時などに行われるソフトウェアアップデートなどにより動的に更新されてもよい。
 [1.5.第2の動きオブジェクトの表示]
 上記のようにして第1の動きオブジェクトMuが表示されれば、音声認識が可能な音量で発話がなされていることをユーザに把握させることが可能となる。一方、音声認識が可能な音量で発話がなされていたとしても、ノイズによって音声認識が妨害される可能性もある。そこで、ノイズの存在をユーザに把握させることが有効である。図8は、表示部130によって表示される画面の他の例を示す図である。図8を参照すると、ノイズ音源Ns1、Ns2が存在している。ここでは、ノイズ音源が2つ存在する場合を説明するが、ノイズ音源の数は限定されない。
 なお、図8においては、ノイズ音源Ns1、Ns2の例として、ユーザUとは別の2人の人物が示されているが、ノイズ音源の種類は人物以外の生物であってもよいし、生物以外(例えば、人工物など)であってもよい。かかる状況において、判定部144は、入力音声に基づいてノイズ音量を判定する。ここで、ノイズ音量の判定手法は特に限定されない。例えば、判定部144は、ノイズ音源方向Dn1、Dn2を推定し、ノイズ音源方向Dn1、Dn2から入力される音量をノイズ音量として判定してよい。なお、ノイズ音源方向Dn1、Dn2の推定手法も特に限定されない。
 例えば、判定部144は、閾値を超える大きさの音量で入力された音声の到来方向が複数あった場合には、複数の到来方向のうち2番目以降に閾値を超える大きさの音量で入力された音声の到来方向をノイズ音源方向Dn1、Dn2として推定してもよい。あるいは、例えば、判定部144は、音声入力部120によって2番目以降に大きな音量で入力された音声の到来方向をノイズ音源方向Dn1、Dn2として推定してもよい。
 そして、表示制御部146は、ノイズ音量が音声認識可能音量を超えている場合に、第1の動きオブジェクトMuとは異なる第2の動きオブジェクトMn1、Mn2を表示部130に表示させてよい。そうすれば、認識可能音量を超える音量を発するノイズが存在するか否かをユーザUに把握させることが可能となる。また、表示制御部146は、ノイズ音源方向に基づいて第2の動きオブジェクトMn1、Mn2を表示部130に表示させてもよい。そうすれば、認識可能音量を超える音量を発するノイズ音源の方向をユーザに把握させることが可能となる。
 また、表示制御部146は、第2の動きオブジェクトMn1、Mn2を、表示オブジェクトSbへの移動がブロックされるように移動させてもよい。例えば、図8に示すように、表示制御部146は、第2の動きオブジェクトMn1、Mn2を、所定の範囲の外側には出ないように移動させてもよい。そうすれば、ユーザによる発話音声の音源方向からの入力音声に対して音声認識が行われている場合に、ノイズ音源方向Dn1、Dn2から発せられた音声に対する音声認識がなされていないことをより直感的にユーザに把握させることが可能となる。
 図9は、第2の動きオブジェクトMn1、Mn2の表示開始を説明するための図である。図9に示すように、ノイズ音源Ns1から発せられる第1のノイズ音量、ノイズ音源Ns2から発せられる第2のノイズ音量およびユーザUによる発話音量が時間とともに変化した場合を想定する。このとき、表示制御部146は、第1のノイズ音量が認識可能音量V_ableを超えた時点(あるいは、第1のノイズ音量が認識可能音量V_ableと等しくなった時点)において、第2の動きオブジェクトMn1を表示部130に表示させてよい。また、表示制御部146は、第2のノイズ音量が認識可能音量V_ableを超えた時点(あるいは、第2のノイズ音量が認識可能音量V_ableと等しくなった時点)において、第2の動きオブジェクトMn2を表示部130に表示させてよい。第1の動きオブジェクトMuの表示開始については既に説明した通りである。
 [1.6.動作例]
 続いて、本開示の実施形態に係る情報処理システム10の動作の流れについて説明する。図10Aおよび図10Bは、本開示の実施形態に係る情報処理システム10の動作の流れの例を示すフローチャートである。なお、図10Aおよび図10Bのフローチャートは、本開示の実施形態に係る情報処理システム10の動作の流れの例に過ぎないため、本開示の実施形態に係る情報処理システム10の動作の流れは、図10Aおよび図10Bのフローチャートに示された例に限定されない。
 まず、入力画像取得部141は、画像入力部110によって入力された入力画像を取得する(S11)。また、入力音声取得部142は、音声入力部120によって入力された入力音声を取得する(S12)。続いて、情報処理装置140は、入力画像および入力音声に基づいてユーザ発話音声の音源方向を特定不可能である場合には(S13において「No」)、S11およびS12に動作を移行させるが、入力画像および入力音声に基づいてユーザ発話音声の音源方向を特定可能である場合には(S13において「Yes」)、S14に動作を移行させる。
 続いて、判定部144は、ユーザ発話音声の音源方向とユーザ発話音量とを判定し(S14)、ノイズ音源の方向とノイズ音量とを判定する(S15)。続いて、判定部144は、ノイズ音量がノイズ音量下限値N_minを上回る場合(S16において「No」)、認識可能音量V_ableにノイズ音量平均値N_aveをV_ratio倍して得られる値を設定して(S17)、S19に動作を移行させる。一方、判定部144は、ノイズ音量がノイズ音量下限値N_minを下回る場合(S16において「Yes」)、認識可能音量V_ableに規定値V_able_minを設定して(S18)、S19に動作を移行させる。
 続いて、情報処理装置140は、ユーザ発話音量が認識可能音量V_ableを上回る場合(S19において「No」)、S24に動作を移行させる。一方、音声認識部145は、ユーザ発話音量が認識可能音量V_ableを上回る場合(S19において「Yes」)、入力音声から音声認識を行う。このとき、音声認識部145は、ユーザによる発話音声の音源方向からの入力音声に対して音声認識を行うのがよい。
 続いて、表示制御部146は、ユーザ発話音声の音源方向に応じた第1の動きオブジェクトMuを表示部130に表示させる(S21)。そして、表示制御部146は、認識可能音量V_ableを上回るノイズ音量を発するノイズ音源が存在する場合には(S22において「Yes」)、ノイズ音源の方向に応じた第2の動きオブジェクトを表示部130に表示させ(S23)、動作をS13に移行させる。一方、情報処理装置140は、認識可能音量V_ableを上回るノイズ音量を発するノイズ音源が存在しない場合には(S22において「No」)、S24に動作を移行させる。S24に動作が移行されると、情報処理装置140は、次時間単位の入力画像および入力音声を入力画像取得部141および入力音声取得部142に取得させ(S24)、動作をS13に移行させる。
 [1.7.表示形態の変形例]
 上記においては、表示部130がテーブルTblの天面に画面を投影することが可能なプロジェクタである例について説明した。しかし、表示部130による表示形態は、かかる例に限定されない。以下では、表示部130による表示形態の変形例について説明する。図11は、表示部130による表示形態の変形例1を示す図である。図11に示すように、情報処理システム10が携帯端末である場合に、表示部130は、携帯端末に備わっていてもよい。携帯端末の種類は特に限定されず、タブレット端末であってもよいし、スマートフォンであってもよいし、携帯電話であってもよい。
 また、図12は、表示部130による表示形態の変形例2を示す図である。図12に示すように、情報処理システム10がテレビジョン受像機を含んでいる場合に、表示部130は、テレビジョン受像機に備わっていてもよい。このとき、図12に示すように、表示制御部146は、ユーザUによる発話音声の音源方向に基づいて第1の動きオブジェクトMuを表示部130に表示させ、ノイズ音源Nsの方向に基づいて第2の動きオブジェクトMnを表示部130に表示させてもよい。
 図13は、表示部130による表示形態の変形例3を示す図である。図13に示すように、表示部130は、ヘッドマウントディスプレイであってもよい。かかる場合、図13に示すように、表示制御部146は、ヘッドマウントディスプレイが有するカメラによる撮像画像から表示オブジェクトSbに対応する物体Obを認識した場合に、表示オブジェクトSbを表示部130に表示させてもよい。例えば、表示制御部146は、物体Obの3次元位置および姿勢を認識し、認識した3次元位置および姿勢に従って表示オブジェクトSbをAR(augmented reality)空間に配置してよい。
 第1の動きオブジェクトMuも、物体Obの3次元位置に基づいて移動されてよい。例えば、表示制御部146は、ユーザ発話音量が音声認識可能音量を超えている場合に、物体Obの3次元位置に向けて第1の動きオブジェクトMuをAR空間において移動させることによって、第1の動きオブジェクトMuが手前から奥に移動するように表示してもよい。なお、図13に示した例では、ユーザUの口がユーザによる発話音声の音源方向として推定されているため、ユーザの口の近隣から第1の動きオブジェクトMuが出現し、表示オブジェクトSbに移動している。
 また、図13に示した例では、物体Obは照明器具であり、表示オブジェクトSbが表示されている状態で音声認識がなされると、情報処理装置140は、音声認識により得られた認識文字列に応じた動作(例えば、照明器具の電源ONとOFFとの間の切り替え)を物体Obに実行させることを想定している。しかし、物体Obは照明器具以外のいかなる物体であってよい。
 図14は、表示部130による表示形態の変形例4を示す図である。図14に示すように、情報処理システム10が3次元立体視ディスプレイを含んでいる場合に、表示部130は、3次元立体視ディスプレイに備わっていてもよい。かかる場合、図14に示すように、表示制御部146は、ユーザ発話音量が音声認識可能音量を超えている場合に、手前から奥に移動するような表現を伴って表示オブジェクトSbに向かって移動する第1の動きオブジェクトMuを表示させてもよい。手前から奥に移動するような表現は、ユーザUの左右眼の視差を利用することによって実現され得る。
 図14に示した例では、ユーザUに立体視用メガネLを着用させることによって手前から奥に移動するような表現を実現しているが、ユーザUに立体視用メガネLを着用させない裸眼立体視により手前から奥に移動するような表現を実現してもよい。例えば、図14に示すように、複数のオブジェクト(例えば、アプリケーションウィンドウなど)G1~G8が表示部130によって表示されている場合であっても、オブジェクトG1に表示されている表示オブジェクトSbの奥行きに第1の動きオブジェクトMuの移動先の奥行きを合わせることによって、オブジェクトG1において音声認識が利用されていることをユーザUに把握させやすくなる。
 図15は、表示部130による表示形態の変形例5を示す図である。図15に示すように、表示制御部146は、仮想オブジェクトVrを表示部130に表示させ、仮想オブジェクトVrに含まれる所定のオブジェクトを表示オブジェクトSbとして表示部130に表示させてもよい。図15に示した例では、仮想オブジェクトVrがゲームコントローラCrに対応しているが、仮想オブジェクトVrはゲームコントローラCr以外の物体に対応していてもよい。また、図15に示した例では、所定のオブジェクトがゲームコントローラCrに含まれるマイクMcに対応しているが、所定のオブジェクトは、マイクMcに限定されない。
 このようにして仮想オブジェクトVrおよび表示オブジェクトSbが表示されれば、ユーザUは、表示部130によって表示されている第1の動きオブジェクトMuの移動先を見ることによって、自らの発話音声がどこに入力されるのかを容易に把握することが可能となる。また、このようにして仮想オブジェクトVrおよび表示オブジェクトSbが表示されれば、誤った位置(例えば、表示部130の位置)に向けて発話を行ってしまうといったユーザUの行為を防止することが可能となる。
 [1.8.ハードウェア構成例]
 次に、図16を参照して、本開示の実施形態に係る情報処理システム10のハードウェア構成について説明する。図16は、本開示の実施形態に係る情報処理システム10のハードウェア構成例を示すブロック図である。
 図16に示すように、情報処理システム10は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、情報処理システム10は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。さらに、情報処理システム10は、必要に応じて、撮像装置933、およびセンサ935を含んでもよい。情報処理システム10は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理システム10内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
 入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置915は、ユーザの音声を検出するマイクを含んでもよい。入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理システム10の操作に対応した携帯電話などの外部接続機器929であってもよい。入力装置915は、ユーザが入力した情報に基づいて入力信号を生成してCPU901に出力する入力制御回路を含む。ユーザは、この入力装置915を操作することによって、情報処理システム10に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置933も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
 出力装置917は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置917は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro-Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置917は、情報処理システム10の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置917は、周囲を明るくするためライトなどを含んでもよい。
 ストレージ装置919は、情報処理システム10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
 ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、情報処理システム10に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
 接続ポート923は、機器を情報処理システム10に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、情報処理システム10と外部接続機器929との間で各種のデータが交換され得る。
 通信装置925は、例えば、通信ネットワーク931に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク931は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
 撮像装置933は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置933は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
 センサ935は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ935は、例えば情報処理システム10の筐体の姿勢など、情報処理システム10自体の状態に関する情報や、情報処理システム10の周辺の明るさや騒音など、情報処理システム10の周辺環境に関する情報を取得する。また、センサ935は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
 以上、情報処理システム10のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。
 <2.むすび>
 以上説明したように、本開示の実施形態によれば、入力音声に基づいてユーザ発話音量を判定する判定部144と、表示オブジェクトSbが表示部130によって表示されるように表示部130を制御する表示制御部146と、を備え、表示制御部146は、ユーザ発話音量が音声認識可能音量を超えている場合に、表示オブジェクトSbに向かって移動する第1の動きオブジェクトを表示部130に表示させる、情報処理装置140が提供される。
 かかる構成によれば、音声認識が可能な音量で発話がなされているか否かをユーザに把握させることが可能となる。例えば、音声認識が正しく行われない場合にユーザは、発話をどのように変化させればよいかを把握することが可能となる。また、その結果に基づいてユーザの発話が変化すれば、音声認識の成功率が向上することが期待される。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上記においては、表示部130による表示形態の変形例を説明したが、表示部130による表示形態は、上記した例に限定されない。例えば、表示部130は、ヘッドマウントディスプレイ以外のウェアラブル端末(例えば、時計、眼鏡など)に備わるディスプレイであってもよい。また、例えば、表示部130は、車載向けナビゲーションシステムに備わるディスプレイであってもよい。また、例えば、表示部130は、ヘルスケア分野において利用されるディスプレイであってもよい。
 また、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記した情報処理システム10が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
 また、表示制御部146は、表示部130に表示内容を表示させるための表示制御情報を生成し、生成した表示制御情報を表示部130に出力することで、当該表示内容が表示部130に表示されるように表示部130を制御することが可能である。かかる表示制御情報の内容はシステム構成にあわせて適宜変更されてよい。
 具体的な一例として、情報処理装置140を実現するためのプログラムは、ウェブアプリケーションであってもよい。かかる場合、表示制御情報は、HTML(HyperText Markup Language)、SGML(Standard Generalized Markup Language)、XML(Extensible Markup Language)などのマークアップ言語により実現されてもよい。
 なお、上述した情報処理システム10の動作が実現されれば、各構成の位置は特に限定されない。具体的な一例として、画像入力部110、操作入力部115および音声入力部120と表示部130と情報処理装置140とは、ネットワークを介して接続された互いに異なる装置に設けられてもよい。この場合には、情報処理装置140が、例えば、ウェブサーバやクラウドサーバのようなサーバに相当し、画像入力部110、操作入力部115および音声入力部120と表示部130とが当該サーバにネットワークを介して接続されたクライアントに相当し得る。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 入力音声に基づいてユーザ発話音量を判定する判定部と、
 表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、
 前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させる、
 情報処理装置。
(2)
 前記判定部は、ユーザによる発話音声の音源方向を判定し、
 前記表示制御部は、前記ユーザによる発話音声の音源方向に基づいて前記第1の動きオブジェクトを前記表示部に表示させる、
 前記(1)に記載の情報処理装置。
(3)
 前記情報処理装置は、前記ユーザによる発話音声の音源方向からの入力音声に対して音声認識を行うことにより認識文字列を取得する音声認識部を備える、
 前記(2)に記載の情報処理装置。
(4)
 前記表示制御部は、前記認識文字列を前記表示部に表示させる、
 前記(3)に記載の情報処理装置。
(5)
 前記判定部は、前記入力音声に基づいてノイズ音量を判定し、
 前記表示制御部は、前記ノイズ音量が前記音声認識可能音量を超えている場合に、前記第1の動きオブジェクトとは異なる第2の動きオブジェクトを前記表示部に表示させる、
 前記(1)~(4)のいずれか一項に記載の情報処理装置。
(6)
 前記判定部は、ノイズ音源方向を判定し、
 前記表示制御部は、前記ノイズ音源方向に基づいて前記第2の動きオブジェクトを前記表示部に表示させる、
 前記(5)に記載の情報処理装置。
(7)
 前記第2の動きオブジェクトは、前記表示オブジェクトへの移動がブロックされるように移動する、
 前記(6)に記載の情報処理装置。
(8)
 前記表示制御部は、前記入力音声に応じた所定の情報に基づいて前記第1の動きオブジェクトに関するパラメータを制御する、
 前記(1)~(7)のいずれか一項に記載の情報処理装置。
(9)
 前記第1の動きオブジェクトに関するパラメータは、前記第1の動きオブジェクトのサイズ、形状、色および移動速度のうち、少なくともいずれか一つを含む、
 前記(8)に記載の情報処理装置。
(10)
 前記入力音声に応じた所定の情報は、前記ユーザ発話音量、前記入力音声の周波数、認識文字列の取得速度、前記入力音声から抽出される特徴量および前記入力音声から識別されるユーザのうち、少なくともいずれか一つを含む、
 前記(8)または(9)に記載の情報処理装置。
(11)
 前記判定部は、閾値を超える大きさの音量で入力された音声の到来方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
 前記(2)に記載の情報処理装置。
(12)
 前記判定部は、最も大きな音量で入力された音声の到来方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
 前記(2)に記載の情報処理装置。
(13)
 前記判定部は、指先から指の根元への方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
 前記(2)に記載の情報処理装置。
(14)
 前記判定部は、前記ノイズ音量が下限値を下回る場合には、前記音声認識可能音量に規定値を設定する、
 前記(6)に記載の情報処理装置。
(15)
 前記判定部は、前記ノイズ音量が下限値を上回る場合には、前記音声認識可能音量に前記ノイズ音量の平均値に応じた音量または前記ノイズ音量に応じた音量を設定する、
 前記(6)に記載の情報処理装置。
(16)
 前記表示制御部は、前記表示オブジェクトに対応する物体を撮像画像から認識した場合に、前記表示オブジェクトを前記表示部に表示させる、
 前記(1)~(15)のいずれか一項に記載の情報処理装置。
(17)
 前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、手前から奥に移動するような表現を伴って前記表示オブジェクトに向かって移動する前記第1の動きオブジェクトを前記表示部に表示させる、
 前記(1)~(16)のいずれか一項に記載の情報処理装置。
(18)
 前記表示制御部は、仮想オブジェクトを前記表示部に表示させ、前記仮想オブジェクトに含まれる所定のオブジェクトを前記表示オブジェクトとして前記表示部に表示させる、
 前記(1)~(17)のいずれか一項に記載の情報処理装置。
(19)
 入力音声に基づいてユーザ発話音量を判定することと、
 表示オブジェクトが表示部によって表示されるように前記表示部を制御することと、を含み、
 前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させることを含む、
 情報処理方法。
(20)
 コンピュータを、
 入力音声に基づいてユーザ発話音量を判定する判定部と、
 表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、
 前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させる、
 情報処理装置として機能させるためのプログラム。
 10  情報処理システム
 110 画像入力部
 115 操作入力部
 120 音声入力部
 130 表示部
 140 情報処理装置(制御部)
 141 入力画像取得部
 142 入力音声取得部
 143 操作検出部
 144 判定部
 145 音声認識部
 146 表示制御部
 Mu  第1の動きオブジェクト
 Mn、Mn1、Mn2 第2の動きオブジェクト
 Ns、Ns2、Ns1 ノイズ音源
 Du  ユーザによる発話音声の音源方向
 Dn、Dn1、Dn2 ノイズ音源方向
 Sb  表示オブジェクト

Claims (20)

  1.  入力音声に基づいてユーザ発話音量を判定する判定部と、
     表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、
     前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させる、
     情報処理装置。
  2.  前記判定部は、ユーザによる発話音声の音源方向を判定し、
     前記表示制御部は、前記ユーザによる発話音声の音源方向に基づいて前記第1の動きオブジェクトを前記表示部に表示させる、
     請求項1に記載の情報処理装置。
  3.  前記情報処理装置は、前記ユーザによる発話音声の音源方向からの入力音声に対して音声認識を行うことにより認識文字列を取得する音声認識部を備える、
     請求項2に記載の情報処理装置。
  4.  前記表示制御部は、前記認識文字列を前記表示部に表示させる、
     請求項3に記載の情報処理装置。
  5.  前記判定部は、前記入力音声に基づいてノイズ音量を判定し、
     前記表示制御部は、前記ノイズ音量が前記音声認識可能音量を超えている場合に、前記第1の動きオブジェクトとは異なる第2の動きオブジェクトを前記表示部に表示させる、
     請求項1に記載の情報処理装置。
  6.  前記判定部は、ノイズ音源方向を判定し、
     前記表示制御部は、前記ノイズ音源方向に基づいて前記第2の動きオブジェクトを前記表示部に表示させる、
     請求項5に記載の情報処理装置。
  7.  前記第2の動きオブジェクトは、前記表示オブジェクトへの移動がブロックされるように移動する、
     請求項6に記載の情報処理装置。
  8.  前記表示制御部は、前記入力音声に応じた所定の情報に基づいて前記第1の動きオブジェクトに関するパラメータを制御する、
     請求項1に記載の情報処理装置。
  9.  前記第1の動きオブジェクトに関するパラメータは、前記第1の動きオブジェクトのサイズ、形状、色および移動速度のうち、少なくともいずれか一つを含む、
     請求項8に記載の情報処理装置。
  10.  前記入力音声に応じた所定の情報は、前記ユーザ発話音量、前記入力音声の周波数、認識文字列の取得速度、前記入力音声から抽出される特徴量および前記入力音声から識別されるユーザのうち、少なくともいずれか一つを含む、
     請求項8に記載の情報処理装置。
  11.  前記判定部は、閾値を超える大きさの音量で入力された音声の到来方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
     請求項2に記載の情報処理装置。
  12.  前記判定部は、最も大きな音量で入力された音声の到来方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
     請求項2に記載の情報処理装置。
  13.  前記判定部は、指先から指の根元への方向に基づいて前記ユーザによる発話音声の音源方向を判定する、
     請求項2に記載の情報処理装置。
  14.  前記判定部は、前記ノイズ音量が下限値を下回る場合には、前記音声認識可能音量に規定値を設定する、
     請求項6に記載の情報処理装置。
  15.  前記判定部は、前記ノイズ音量が下限値を上回る場合には、前記音声認識可能音量に前記ノイズ音量の平均値に応じた音量または前記ノイズ音量に応じた音量を設定する、
     請求項6に記載の情報処理装置。
  16.  前記表示制御部は、前記表示オブジェクトに対応する物体を撮像画像から認識した場合に、前記表示オブジェクトを前記表示部に表示させる、
     請求項1に記載の情報処理装置。
  17.  前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、手前から奥に移動するような表現を伴って前記表示オブジェクトに向かって移動する前記第1の動きオブジェクトを前記表示部に表示させる、
     請求項1に記載の情報処理装置。
  18.  前記表示制御部は、仮想オブジェクトを前記表示部に表示させ、前記仮想オブジェクトに含まれる所定のオブジェクトを前記表示オブジェクトとして前記表示部に表示させる、
     請求項1に記載の情報処理装置。
  19.  入力音声に基づいてユーザ発話音量を判定することと、
     表示オブジェクトが表示部によって表示されるように前記表示部を制御することと、を含み、
     前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させることを含む、
     情報処理方法。
  20.  コンピュータを、
     入力音声に基づいてユーザ発話音量を判定する判定部と、
     表示オブジェクトが表示部によって表示されるように前記表示部を制御する表示制御部と、を備え、
     前記表示制御部は、前記ユーザ発話音量が音声認識可能音量を超えている場合に、前記表示オブジェクトに向かって移動する第1の動きオブジェクトを前記表示部に表示させる、
     情報処理装置として機能させるためのプログラム。
PCT/JP2015/073488 2014-12-02 2015-08-21 情報処理装置、情報処理方法およびプログラム WO2016088410A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201580057995.8A CN107148614B (zh) 2014-12-02 2015-08-21 信息处理设备、信息处理方法和程序
US15/521,322 US10642575B2 (en) 2014-12-02 2015-08-21 Information processing device and method of information processing for notification of user speech received at speech recognizable volume levels
EP15866106.6A EP3229128A4 (en) 2014-12-02 2015-08-21 Information processing device, information processing method, and program
JP2016562324A JP6627775B2 (ja) 2014-12-02 2015-08-21 情報処理装置、情報処理方法およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-243906 2014-12-02
JP2014243906 2014-12-02

Publications (1)

Publication Number Publication Date
WO2016088410A1 true WO2016088410A1 (ja) 2016-06-09

Family

ID=56091368

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/073488 WO2016088410A1 (ja) 2014-12-02 2015-08-21 情報処理装置、情報処理方法およびプログラム

Country Status (5)

Country Link
US (1) US10642575B2 (ja)
EP (1) EP3229128A4 (ja)
JP (1) JP6627775B2 (ja)
CN (1) CN107148614B (ja)
WO (1) WO2016088410A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019146032A1 (ja) * 2018-01-25 2020-07-02 三菱電機株式会社 ジェスチャー操作装置およびジェスチャー操作方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7250547B2 (ja) * 2019-02-05 2023-04-03 本田技研工業株式会社 エージェントシステム、情報処理装置、情報処理方法、およびプログラム
JP7169921B2 (ja) * 2019-03-27 2022-11-11 本田技研工業株式会社 エージェント装置、エージェントシステム、エージェント装置の制御方法、およびプログラム
CN111265851B (zh) * 2020-02-05 2023-07-04 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN113934289A (zh) 2020-06-29 2022-01-14 北京字节跳动网络技术有限公司 数据处理方法、装置、可读介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11352995A (ja) * 1998-06-08 1999-12-24 Toshiba Tec Corp 音声認識装置
JP2000000377A (ja) * 1998-06-12 2000-01-07 Umbrella:Kk 音声入力式ヒューマンインタフェースに特徴を有するビデオゲーム機およびプログラム記録媒体
JP2001079265A (ja) * 1999-09-14 2001-03-27 Sega Corp ゲーム装置
JP2006227499A (ja) * 2005-02-21 2006-08-31 Toyota Motor Corp 音声認識装置
JP2007329702A (ja) * 2006-06-08 2007-12-20 Toyota Motor Corp 受音装置と音声認識装置とそれらを搭載している可動体
JP2011227199A (ja) * 2010-04-16 2011-11-10 Nec Casio Mobile Communications Ltd 雑音抑圧装置、雑音抑圧方法及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7096185B2 (en) * 2000-03-31 2006-08-22 United Video Properties, Inc. User speech interfaces for interactive media guidance applications
US7023498B2 (en) * 2001-11-19 2006-04-04 Matsushita Electric Industrial Co. Ltd. Remote-controlled apparatus, a remote control system, and a remote-controlled image-processing apparatus
US7260538B2 (en) * 2002-01-08 2007-08-21 Promptu Systems Corporation Method and apparatus for voice control of a television control device
JP2007142840A (ja) * 2005-11-18 2007-06-07 Canon Inc 情報処理装置及び情報処理方法
JP4887911B2 (ja) * 2006-05-31 2012-02-29 船井電機株式会社 電子機器
US8175885B2 (en) * 2007-07-23 2012-05-08 Verizon Patent And Licensing Inc. Controlling a set-top box via remote speech recognition
WO2012169679A1 (ko) 2011-06-10 2012-12-13 엘지전자 주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템
US9563265B2 (en) 2012-01-12 2017-02-07 Qualcomm Incorporated Augmented reality with sound and geometric analysis
US8793136B2 (en) 2012-02-17 2014-07-29 Lg Electronics Inc. Method and apparatus for smart voice recognition
US9020825B1 (en) * 2012-09-25 2015-04-28 Rawles Llc Voice gestures
CN104077105B (zh) * 2013-03-29 2018-04-27 联想(北京)有限公司 一种信息处理方法以及一种电子设备
JP2014203207A (ja) * 2013-04-03 2014-10-27 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11352995A (ja) * 1998-06-08 1999-12-24 Toshiba Tec Corp 音声認識装置
JP2000000377A (ja) * 1998-06-12 2000-01-07 Umbrella:Kk 音声入力式ヒューマンインタフェースに特徴を有するビデオゲーム機およびプログラム記録媒体
JP2001079265A (ja) * 1999-09-14 2001-03-27 Sega Corp ゲーム装置
JP2006227499A (ja) * 2005-02-21 2006-08-31 Toyota Motor Corp 音声認識装置
JP2007329702A (ja) * 2006-06-08 2007-12-20 Toyota Motor Corp 受音装置と音声認識装置とそれらを搭載している可動体
JP2011227199A (ja) * 2010-04-16 2011-11-10 Nec Casio Mobile Communications Ltd 雑音抑圧装置、雑音抑圧方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3229128A4 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019146032A1 (ja) * 2018-01-25 2020-07-02 三菱電機株式会社 ジェスチャー操作装置およびジェスチャー操作方法

Also Published As

Publication number Publication date
EP3229128A4 (en) 2018-05-30
US20180150279A1 (en) 2018-05-31
US10642575B2 (en) 2020-05-05
CN107148614B (zh) 2020-09-08
JPWO2016088410A1 (ja) 2017-09-14
CN107148614A (zh) 2017-09-08
JP6627775B2 (ja) 2020-01-08
EP3229128A1 (en) 2017-10-11

Similar Documents

Publication Publication Date Title
US10546582B2 (en) Information processing device, method of information processing, and program
JP6729555B2 (ja) 情報処理システムおよび情報処理方法
JP6627775B2 (ja) 情報処理装置、情報処理方法およびプログラム
US20190019512A1 (en) Information processing device, method of information processing, and program
US11373650B2 (en) Information processing device and information processing method
JP6750697B2 (ja) 情報処理装置、情報処理方法及びプログラム
US20200018926A1 (en) Information processing apparatus, information processing method, and program
JP2016109726A (ja) 情報処理装置、情報処理方法およびプログラム
WO2018139036A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP6575518B2 (ja) 表示制御装置、表示制御方法およびプログラム
US20180063283A1 (en) Information processing apparatus, information processing method, and program
WO2019021566A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2016156877A (ja) 情報処理装置、情報処理方法およびプログラム
US20200342229A1 (en) Information processing device, information processing method, and program
US20200380733A1 (en) Information processing device, information processing method, and program
WO2019054037A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2016180778A (ja) 情報処理システムおよび情報処理方法
WO2019187593A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2016170584A (ja) 情報処理装置、情報処理方法およびプログラム
US10855639B2 (en) Information processing apparatus and information processing method for selection of a target user
WO2019082520A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2019026392A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15866106

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016562324

Country of ref document: JP

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2015866106

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 15521322

Country of ref document: US