WO2020031486A1 - 情報処理装置、情報処理方法、プログラム及び情報処理システム - Google Patents

情報処理装置、情報処理方法、プログラム及び情報処理システム Download PDF

Info

Publication number
WO2020031486A1
WO2020031486A1 PCT/JP2019/022523 JP2019022523W WO2020031486A1 WO 2020031486 A1 WO2020031486 A1 WO 2020031486A1 JP 2019022523 W JP2019022523 W JP 2019022523W WO 2020031486 A1 WO2020031486 A1 WO 2020031486A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
unit
output
information processing
information
Prior art date
Application number
PCT/JP2019/022523
Other languages
English (en)
French (fr)
Inventor
慧 新田
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to DE112019003962.8T priority Critical patent/DE112019003962T5/de
Priority to US17/250,521 priority patent/US11785411B2/en
Publication of WO2020031486A1 publication Critical patent/WO2020031486A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present technology relates to an information processing device, an information processing method, a program, and an information processing system related to a sound image localization process.
  • Patent Document 1 describes performing sound image localization processing using a head-related transfer function in a headphone, a head-mounted display, or the like.
  • the head-related transfer function depends on the shape of the user U's head, the shape of the pinna, the shape of the external auditory meatus, and the like, and is a function that differs for each user U. For this reason, when a sound output device such as a headphone or a head-mounted display is used, a head-related transfer function of a user U wearing a sound processing device is obtained.
  • the head-related transfer function is measured at the time of initial setting for use of the sound output device. Normally, measurement is performed by listening to sounds from a large number of, for example, about 40 sound sources in a three-dimensional sound space while the user U is wearing the sound output device, and pointing in a direction in which each sound source can hear the sounds. Is done.
  • the mounting displacement may occur due to the wearing state at the time of the head related transfer function measurement.
  • the position of the virtual sound source recognized by the user is changed. It may not be the first position. In such a case, the output sound may be perceived as a sound from a virtual sound source position that is unnatural to the user.
  • an object of the present technology is to provide an information processing apparatus, an information processing method, a program, and an information processing system that can easily perform calibration of a sound image localization process.
  • an information processing device includes an output processing unit, a recognition position acquisition unit, and a comparison unit.
  • the output processing unit generates a sound output from a virtual sound source at a first position in a space around the user using a head transfer function of the user measured in advance.
  • the recognition position acquisition unit acquires information on a second position in the space recognized by the user who has listened to the voice as the position of the virtual sound source.
  • the comparison unit compares the first position with the second position.
  • the output processing unit controls a position of a virtual sound source of a sound output to the user based on a comparison result by the comparison unit.
  • the output processing unit uses the head-related transfer function to generate a plurality of sounds output from the virtual sound sources at the plurality of first positions having different coordinate positions from each other, and the recognition position acquisition unit includes: The user who has listened to the plurality of sounds may acquire information on the plurality of second positions recognized as the position of the virtual sound source for each sound.
  • the virtual sound source may be a moving sound source. Thereby, the accuracy of the calibration is improved. Further, the time required for calibration can be reduced.
  • An output parameter calculation unit configured to calculate an output parameter of a voice output to the user based on a comparison result by the comparison unit, wherein the output processing unit calculates an output parameter calculated by the output parameter calculation unit;
  • the position of the virtual sound source of the sound output to the user may be controlled according to the parameter.
  • the output parameter calculation unit may calculate the output parameter so as to correct a shift between the first position and the second position.
  • the sound controlled by the output processing unit may be supplied to the sound output unit of the sound output device which is worn by the user and has a sound output unit located near the ear of the user.
  • the sound output device includes a sensor unit that detects information about the user and the surroundings of the user, and the recognition position acquisition unit acquires information on the second position using sensor information from the sensor unit. You may.
  • the sensor unit includes a first image capturing unit that captures an image around the user, and the recognition position acquiring unit captures an image of the user pointing at the second position captured by the first image capturing unit.
  • the information on the second position may be obtained using an image. As described above, the information on the second position can be acquired using the captured image of the area around the user.
  • the sensor unit includes a second image capturing unit that captures an image of the user's eyes, and the recognition position acquiring unit determines whether the user captured by the second image capturing unit gazes at the second position.
  • the information on the second position may be obtained using a captured image.
  • the apparatus further includes a posture acquisition unit that acquires posture information of the sound output device using sensor information from the sensor unit, and executes control of a position of a virtual sound source of sound based on the comparison result based on the posture information. May be determined.
  • the presence / absence of the misalignment of the sound output device is detected from the posture information of the sound output device. Whether or not to execute a series of processes related to the application process may be determined.
  • the recognition position acquisition unit may acquire the information of the second position by using a captured image of the user pointing to the second position, which is captured by an external sensor different from the sound output device. Good. As described above, the information of the second position may be acquired using the image around the user including the user captured by the external sensor.
  • the recognition position acquisition unit may acquire the information on the second position using a captured image including a device held by the user captured by the external sensor.
  • the information on the second position can be obtained by detecting the region of the device shown in the captured image captured by the external sensor.
  • the recognition position acquisition unit may acquire the information on the second position using a position measurement result of a device including a position measurement unit held by the user.
  • the output parameter calculation unit may calculate the output parameter based on a result of selecting whether the virtual sound source selected by the user is set to the first position or the second position.
  • the user can select whether to use the sound before calibration or the sound after calibration.
  • an information processing method uses a head-related transfer function of a user that is measured in advance and is output from a virtual sound source at a first position in a space around the user. And generating information on a second position in the space recognized by the user who has heard the sound as the position of the virtual sound source, and comparing the first position with the second position. And controlling the position of the virtual sound source of the sound output to the user based on the comparison result.
  • a program includes a sound output from a virtual sound source at a first position in a space around the user using a head-related transfer function of the user measured in advance. Generating the information, a step of obtaining information on a second position in the space recognized by the user as a position of the virtual sound source by the user who has listened to the voice, and a step of obtaining the first position and the second position.
  • the information processing device is caused to execute a process including a comparing step and a step of controlling a position of a virtual sound source of a sound output to the user based on the comparison result.
  • an information processing system includes an output processing unit, a recognition position acquisition unit, a comparison unit, and a sound output unit.
  • the output processing unit generates a sound output from a virtual sound source at a first position in a space around the user using a head transfer function of the user measured in advance.
  • the recognition position acquisition unit acquires information on a second position in the space recognized by the user who has listened to the voice as the position of the virtual sound source.
  • the comparison unit compares the first position with the second position.
  • the sound output unit outputs the sound controlled by the output processing unit to the user.
  • the output processing unit controls a position of a virtual sound source of a sound output to the user based on a comparison result by the comparison unit.
  • FIG. 1 is a diagram for describing an overview of an information processing device according to a first embodiment of the present technology.
  • FIG. 1 is a block diagram illustrating an example of a configuration of an information processing system and an information processing apparatus according to a first embodiment.
  • FIG. 3 is a diagram (part 1) illustrating a calibration method of a sound image localization process of the information processing apparatus.
  • FIG. 9 is a diagram (part 2) illustrating a calibration method of the sound image localization process of the information processing device. It is a flowchart explaining the calibration method of the sound image localization process of the said information processing apparatus.
  • FIG. 3 is a diagram illustrating a position of a sound source in a three-dimensional sound space.
  • FIG. 1 is a diagram illustrating an outline of an information processing apparatus.
  • the information processing apparatus is realized by, for example, a glasses-type head mounted display (HMD) 1 mounted on the head of the user U.
  • the display unit 5 corresponding to the spectacle lens portion located in front of the user U when worn may be a see-through type or a non-see-through type.
  • the HMD 1 can present the display object in front of the line of sight of the user U by displaying the display object on the display unit 5.
  • the HMD examples include a see-through HMD, a video see-through HMD, and a retinal projection HMD.
  • the display image control unit of the HMD can display an image in which the image of the virtual object is superimposed on the optical image of the real object located in the real space based on AR (Augmented Reality) technology. Is controlled.
  • the information processing apparatus is a headband-type HMD (a type that is worn with a band that goes around the entire circumference of the head.
  • the information processing apparatus includes a band that passes through the crown as well as the temporal region), and a helmet.
  • An HMD of the type (the visor portion of the helmet corresponds to the display) may be used.
  • FIGS. 3 and 4 are diagrams illustrating a calibration method of the sound image localization processing of the HMD 1.
  • FIG. 3 is a diagram illustrating a calibration method of the sound image localization processing of the HMD 1.
  • FIG. 3 is a diagram illustrating a state in which the user U is wearing the HMD 1 and listening to the sound output from the virtual sound source in the three-dimensional sound space V.
  • FIG. 4 is a diagram illustrating a state in which the user U wearing the HMD 1 and listening to the sound output from the virtual sound source points to the position of the recognized virtual sound source 12 recognized as the sound source in the three-dimensional sound space V. It is.
  • the presentation of the position of the recognized virtual sound source 12 by the user U will be described using an example in which the user U points the position of the recognized virtual sound source 12 with his / her arm and finger.
  • the three-dimensional sound space V is a virtual space recognized as a space around the user U who is a listener.
  • the HMD 1 as a sound output device includes a speaker 6 as a sound output unit described later.
  • a speaker 6 as a sound output unit described later.
  • the output sound is output via the speaker 6.
  • the user U may use the virtual sound source located at the first position P1. It recognizes the sound source position of the sound output from 11 as the first position P1. On the other hand, if there is a displacement or the accuracy of the head-related transfer function measurement is insufficient, it is not recognized that the virtual sound source position of the sound output to the user U at the time of re-attachment is at the first position P1. There are cases.
  • the user U When there is a dislocation, for example, as shown in FIG. 4, the user U who has heard the sound from the virtual sound source 11 at the first position P1 moves the sound source to a second position P2 different from the first position P1. Recognize that there is. The user U points the recognized virtual sound source 12 at the second position P2 recognized as a sound source with a finger.
  • the sound image localization processing of the sound output to the user U is calibrated based on a comparison result between the second position recognized as the sound source by the user U and the first position. Specifically, when the user U listens, the position of the virtual sound source is corrected so that the user U recognizes the sound as output from the virtual sound source at the first position P1. Details will be described later.
  • FIG. 2 is a block diagram illustrating an example of a configuration of the information processing system and the HMD.
  • the information processing system 10 includes a control unit 4, a sensor unit 2, and a speaker 6 as a sound output unit.
  • the sensor unit 2 and the speaker 6 are mounted on the HMD 1 as a sound output device.
  • the speaker 6 is located near the user U's ear when the user U wears the HMD 1.
  • the control unit 4 may be provided in the HMD, or may be provided in another device such as a cloud server or a portable terminal configured to be able to communicate with the HMD.
  • a cloud server or a portable terminal configured to be able to communicate with the HMD.
  • the control unit 4 When the control unit 4 is placed in a device different from the HMD, the device becomes an information processing device.
  • the HMD 1 is a sound output device, which is an information processing device that performs a series of processes related to the calibration of the sound image localization process.
  • the HMD 1 includes a sensor unit 2, an operation input unit 3, a control unit 4, a display unit 5, a speaker 6, a communication unit 7, and a storage unit 8.
  • the sensor unit 2 has a function of acquiring the user U and information around the user U.
  • the sensor unit 2 has various sensors.
  • the sensor unit 2 includes an outward camera 20 as a first imaging unit, an inward camera 21 as a second imaging unit, a microphone 22, a gyro sensor 23, an acceleration sensor 24, and a direction sensor 25. And a position measuring unit 26 and a biological sensor 27. Sensor information detected by each sensor is output to the control unit 4.
  • the outward camera 20 and the inward camera 21 are obtained by a lens system including an imaging lens, an aperture, a zoom lens, a focus lens, and the like, a drive system that causes the lens system to perform a focus operation and a zoom operation, and a lens system.
  • the solid-state imaging device array may be realized by, for example, a CCD (Charge Coupled Device) sensor array or a CMOS (Complementary Metal Oxide Semiconductor) sensor array.
  • the outward camera 20 captures an image around the user U.
  • the inward camera 21 images the eyes of the user U.
  • a plurality of outward cameras 20 and a plurality of inward cameras 21 are provided. Since a plurality of outward cameras 20 are provided, a distance image can be obtained from parallax information.
  • the microphone 22 collects the voice of the user U and the surrounding environmental sound, and outputs the collected voice to the control unit 4 as voice data.
  • the gyro sensor 23 is realized by, for example, a three-axis gyro sensor and detects an angular velocity (rotational speed).
  • the acceleration sensor 24 is realized by, for example, a three-axis acceleration sensor, and detects acceleration during movement.
  • the azimuth sensor 25 is realized by, for example, a three-axis geomagnetic sensor (compass) and detects an absolute direction (azimuth).
  • the position positioning unit 26 has a function of detecting the current position of the HMD 1 based on a signal obtained from the outside via the communication unit 7 described below.
  • the position positioning unit 26 is realized by a GPS (Global Position System) positioning unit, receives a radio wave from a GPS satellite, detects the position where the HMD 1 is located, and sends the detected position information to the control unit 4. Output.
  • GPS Global Position System
  • the position positioning unit 26 detects a position by transmitting / receiving to / from, for example, Wi-Fi (registered trademark), Bluetooth (registered trademark), a mobile phone, a smartphone, or the like, or short-range communication, in addition to GPS. Is also good.
  • Wi-Fi registered trademark
  • Bluetooth registered trademark
  • a mobile phone a smartphone, or the like
  • short-range communication in addition to GPS. Is also good.
  • the biological sensor 27 acquires the biological information of the user U.
  • a temperature sensor capable of measuring a body temperature a heart rate sensor capable of measuring a heart rate, a sweat sensor capable of measuring a sweat amount, and the like are provided.
  • the operation input unit 3 is realized by an operation member having a physical structure such as a switch, a button, or a lever.
  • the display unit 5 is realized by, for example, a lens unit (an example of a transmission type display unit) that performs display using hologram optical technology, a liquid crystal display device, an OLED (Organic Light Emitting Diode) device, or the like. Further, the display unit 5 may be of a transmission type, a semi-transmission type, or a non-transmission type.
  • the speaker 6 outputs sound under the control of the control unit 4.
  • the communication unit 7 is a communication module for transmitting and receiving data to and from another device by wire / wireless.
  • the communication unit 7 performs wireless communication with an external device directly or via a network access point by a method such as a wired LAN (Local Area Network), a wireless LAN, Wi-Fi, infrared communication, Bluetooth, short distance / contactless communication, or the like. I do.
  • the storage unit 8 stores a program for the control unit 4 to execute each function.
  • the program stored in the storage unit 8 controls the sound output to the user from the virtual sound source at the first position in the space around the user using the user's head-related transfer function measured in advance.
  • the storage unit 8 stores in advance head-related transfer functions of a plurality of sound source positions of the user U.
  • the head related transfer function is measured in advance for the user U using the HMD1.
  • the storage unit 8 stores video content and audio content as content information.
  • the audio content includes sound image data.
  • the sound image data includes information defining in which position in the space the virtual sound source is set.
  • the sound image data includes information in which first positions whose coordinate positions are different from each other are associated with data relating to sound output from a virtual sound source at the first position.
  • the coordinates of the first position P1 can be said to be the output coordinates of the audio content.
  • the coordinates of the second position P2 can be regarded as perceived coordinates of the user.
  • the control unit 4 controls processing related to generation of sound from a virtual sound source to be output to the user U. More specifically, the control unit 4 determines the position (first position) of the virtual sound source presented by the information processing system 10 and the position (second position) of the virtual sound source recognized by the user U, which are caused by the mounting displacement of the HMD 1 or the like. The processing related to the calibration of the sound image localization processing is controlled so as to correct the deviation from the position.
  • the control unit 4 includes a sensor information acquisition unit 41, a content information acquisition unit 42, a user HRTF (Head-Related Transfer Function) information acquisition unit 43, an output parameter calculation unit 44, and an output processing unit 45. And a posture acquisition unit 46, a position acquisition unit 47, an image analysis unit 48, a user recognition position acquisition unit 49, and a comparison unit 50.
  • the content information acquisition unit 42 acquires the video content and the audio content from the storage unit 8. Further, the content information acquisition unit 42 may acquire digital content such as video content and audio content input via the communication unit 7. Hereinafter, description of the video data generation processing will be omitted.
  • the sensor information acquisition unit 41 acquires various types of sensor information sensed by the sensors of the sensor unit 2.
  • the posture acquiring unit 46 acquires the posture of the HMD 1 and thus the posture of the head of the user U using the sensor information acquired by the sensor information acquiring unit 41.
  • the posture acquisition unit 46 includes a peripheral image captured by the outward camera 20, gyro information acquired by the gyro sensor 23, acceleration information acquired by the acceleration sensor 24, and an orientation acquired by the orientation sensor 25. By analyzing at least one of the information, the posture such as the direction and the inclination of the HMD 1 is recognized.
  • the position acquisition unit 47 uses the sensor information acquired by the sensor information acquisition unit 41 to acquire the position information of the user U, more specifically, the position information of the HMD 1 measured by the position measurement unit 26 (the position information of the user U). ) To get.
  • the image analysis unit 48 analyzes the captured image which is the sensor information acquired by the sensor information acquisition unit 41.
  • the image analysis unit 48 analyzes a captured image of the periphery captured by the outward camera 20 and detects a hand area of the user U by a known hand area detection technique. Further, the image analysis unit 48 analyzes a peripheral image captured by the outward camera 20 and acquires distance information of the hand region and a planar position of the hand region.
  • the image analysis unit 48 specifies the line of sight of the user U from the captured image of the user's eyes captured by the inward camera 21.
  • the infrared light in the cornea is irradiated.
  • the reflection position and the position of the pupil are specified, and the line of sight of the user U is specified from the positional relationship.
  • the method of detecting the line of sight is not limited to this, and for example, a general method such as a technology in which the left and right eyes are photographed with an inward camera and the line of sight is specified based on the positional relationship between the inner eye and the iris may be employed.
  • the user HRTF information acquisition unit 43 acquires the head related transfer function of the user U stored in the storage unit 8 in advance.
  • the output parameter calculation unit 44 is at the first position P1 in the stereophonic sound space V using the audio content acquired by the content information acquisition unit 42 and the head-related transfer function acquired by the user HRTF information acquisition unit 43. The output parameters of the sound output from the virtual sound source 11 to the user U are calculated.
  • the output parameter calculation unit 44 uses the audio content acquired by the content information acquisition unit 42, the head-related transfer function acquired by the user HRTF information acquisition unit 43, and a comparison result by a comparison unit 50 described later, Calculate the output parameters of the audio to be output.
  • the output parameter calculation unit 44 performs the calibration if the deviation amount (offset value) between the first position P1 and the second position P2 calculated by the comparison unit 50 is equal to or larger than the threshold value.
  • an output parameter (hereinafter, also referred to as a corrected output parameter) is calculated so as to correct the displacement.
  • the output parameter calculation unit 44 uses the audio content and the head-related transfer function to perform the first position P1 The output parameters of the sound output from the virtual sound source 11 are calculated.
  • the output processing unit 45 generates a sound to be output to the user U according to the output parameter calculated by the output parameter calculation unit 44.
  • the sound generated by the output processing unit 45 is output to the user U via the speaker 6.
  • the user recognition position acquisition unit 49 acquires relative position information between the HMD 1 and the hand region of the user U from the distance information of the hand region of the user U and the planar position of the hand region acquired by the image analysis unit 48.
  • the user recognition position acquisition unit 49 acquires the spherical coordinates of the hand region from the relative position information between the HMD 1 and the hand region of the user U and the position information of the HMD 1 acquired by the position acquisition unit 47.
  • the spherical coordinates of the hand area include information on the second position P2, and more specifically, information on the direction of the second position P2 where the recognized virtual sound source 12 is viewed from the HMD1 (user U).
  • the comparing unit 50 includes a first position P1 where the virtual sound source 11 presented by the information processing system 10 is located, and a second position P2 where the recognized virtual sound source 12 recognized by the user U acquired by the user recognition position acquiring unit 49 is located. Are compared to calculate a shift amount (offset value) between the two.
  • the three-dimensional acoustic space R is a space around a user U who is a listener, and a sound source S exists.
  • the position of the sound source S is expressed using a moving radius r, a declination ⁇ , and ⁇ in a spherical coordinate system whose origin is the position of the user U.
  • the position of the user is exactly the midpoint of a line segment connecting the left and right ears of the user U when the user U faces the front.
  • the moving radius r is a distance from the midpoint to the position of the sound source S. Is the angle between the direction of the front of the user U and the direction of the sound source S in the horizontal plane.
  • the declination ⁇ is an angle between a horizontal plane including the position of the user U and the direction of the sound source S in a vertical plane.
  • a sound wave reaching the eardrum of the user U (hereinafter also referred to as a listening sound)
  • a sound wave emitted from the sound source S (hereinafter also referred to as an original sound) due to reflection and diffraction at the head and ears of the user U. ) Is emphasized or attenuated.
  • a head-related transfer function expresses a change from the original sound to the listening sound at this time as a transfer function.
  • the brain which is the sensory center of the user U, recognizes, as an empirical rule, the relationship between the spherical coordinates (r, ⁇ , ⁇ ) of the position of the sound source S and the head-related transfer functions. Therefore, by previously obtaining the head-related transfer functions of the user U at the sound sources at a plurality of mutually different coordinate positions, it is possible to output the sound from the virtual sound source toward the user U using the head-related transfer coefficients. .
  • the storage unit 8 stores a head-related transfer function of the user U measured in advance for each sound source at a plurality of different spherical coordinates (r, ⁇ , ⁇ ) in the actual acoustic space.
  • the output of the audio content in the HMD 1 is performed using a head-related transfer function measured in advance stored in the storage unit 8.
  • the spherical coordinates of the first position P1 of the virtual sound source 11 of the sound output using the head-related transfer function measured in advance are represented as (r 1 , ⁇ 1 , ⁇ 1 ).
  • the spherical coordinates of the second position P2 where the recognition virtual sound source 12 is located are represented as (r 2 , ⁇ 2 , ⁇ 2 ).
  • the sound from the virtual sound source 11 is output based on the information stored in the storage unit 8, and the information on the spherical coordinates (r 1 , ⁇ 1 , ⁇ 1 ) of the first position P1 is stored in the storage unit 8. ing.
  • the spherical coordinates of the hand region of the user U acquired by the user recognition position acquisition unit 49 include information on the direction of the second position P2 of the recognized virtual sound source 12 as viewed from the HMD1 (user U).
  • the declination ⁇ 2 and the declination ⁇ 2 of the spherical coordinates indicating the second position P2 where the recognition virtual sound source 12 is located are equal.
  • the declination ⁇ 2 and the declination ⁇ 2 of the spherical coordinates indicating the second position P where the recognized virtual sound source 12 is located are obtained from the spherical coordinates of the hand region of the user U acquired by the user recognition position acquiring unit 49. Can be.
  • FIG. 7 is a diagram for explaining calculation of a shift amount between the first position and the second position.
  • the deviation amount (offset value) between the first position P1 and the second position P2 calculated by the comparison unit 50 does not include the deviation amount in the moving radius r, and A deviation in two angular coordinate systems, a deviation in ⁇ and a deviation in declination ⁇ , is included.
  • the output parameter calculation unit 44 calculates a corrected output parameter such that a deviation of at least one of the angular coordinate systems of the declination ⁇ and the declination ⁇ is corrected.
  • the output processing unit 45 generates a sound to be output according to the calculated correction output parameter.
  • the position of the virtual sound source of the output sound is controlled based on the comparison result by the comparison unit 50, and the output sound is calibrated.
  • the offset value is lower than the threshold, no calibration is performed.
  • FIG. 5 is a flowchart of a series of processes relating to calibration. This will be described below with reference to FIGS. 3 and 4 according to the flow of FIG.
  • the user U recognizes that the position of the virtual sound source is shifted, and can select execution of calibration.
  • the processing related to the calibration starts.
  • the content information acquisition unit 42 acquires audio content from the storage unit 8 (S1).
  • the audio content includes sound image data.
  • the head transfer function of the user U measured in advance is acquired as the user information from the storage unit 8 by the user HRTF information acquisition unit 43 (S2).
  • the output parameters of the virtual sound source 11 at the first position P1 in the three-dimensional sound space V around the user U are calculated by the output parameter calculation unit 44 using the sound image data and the head-related transfer functions.
  • the output processing unit 45 generates a sound to be output according to the calculated output parameter.
  • the generated sound is output to the speaker 6 (S3) and output to the user U.
  • the user U listens to the sound output to the user U.
  • the user U who listens to the output voice receives a voice from the virtual sound source 11 at the first position P1. Is output.
  • FIG. 4 shows an example in which the sound is recognized as a sound from a virtual sound source located at a position different from the first position P1.
  • the user U raises his arm and points at the position of the recognized virtual sound source 12 which is recognized as the sound source of the heard voice.
  • the second position P2 where the recognized virtual sound source 12 is located is located in the direction indicated by the user U.
  • the image analysis unit 48 uses the captured image in which the periphery of the user U including the hand of the user U captured by the outward camera 20 is projected, and uses the distance information of the hand region of the user U and the hand region on the captured image.
  • the plane position is obtained. Further, the position information of the HMD 1 is obtained by the position obtaining unit 47.
  • the relative position information between the HMD 1 and the hand area of the user U is obtained from the distance information of the hand area of the user U and the planar position of the hand area by the user recognition position acquisition unit 49.
  • the user-recognized position acquisition unit 49 acquires the spherical coordinates of the hand region from the relative position information between the HMD 1 and the hand region of the user U and the position information of the HMD 1 acquired by the position acquisition unit 47 (S4). .
  • the spherical coordinates of this hand area include information on the direction of the second position P2 where the recognized virtual sound source 12 is located as viewed from the HMD1 (user U), and are information on the user's recognized position.
  • the comparison unit 50 compares the first position with the second position, and calculates a shift amount (hereinafter, sometimes referred to as an offset value) between the first position and the second position. . Based on whether the offset value is equal to or greater than the threshold value, it is determined whether the first position is displaced from the second position, in other words, the output coordinates of the virtual sound source 11 output by the HMD 1 and that the user U is a virtual sound source. It is determined whether or not the perceived coordinates of the position are shifted (S5). In the calculation of the offset value, the offset value at each of the argument ⁇ and the argument ⁇ indicating the direction viewed from the user U is calculated.
  • a shift amount hereinafter, sometimes referred to as an offset value
  • step S6 the output parameter calculator 44 calculates a corrected output parameter based on the comparison result by the comparator 50. Specifically, the correction output parameters are calculated so as to correct the deviations in the argument ⁇ and the argument ⁇ , respectively.
  • the output processing unit 45 generates a sound in accordance with the finally calculated corrected output parameter and outputs the sound from the speaker 6 to the user U.
  • the virtual sound source at the first position moves continuously.
  • the user U who has listened to the continuously moving virtual sound source follows the position recognized as the position of the sound source while pointing the finger, thereby obtaining a continuous linear second position.
  • the virtual sound source is a fixed virtual sound source fixed to a certain point, and the first position and the second position are set.
  • the position is point-like.
  • the virtual sound source is a sound source that moves on a certain line, and the first position and the second position are linear.
  • the position of the virtual sound source recognized by the user using the sensor information of the sensor unit mounted on the HMD when the user feels a positional deviation of stereophonic sound, the position of the virtual sound source recognized by the user using the sensor information of the sensor unit mounted on the HMD.
  • the information of the (second position) is acquired, and the deviation between the position (first position) presented by the system and the recognition position (second position) recognized by the user is calculated, and this deviation is corrected. Therefore, the calibration of the sound image localization process can be simply performed without measuring the head related transfer function again.
  • the hand region detection result is used when acquiring the second position information.
  • the present invention is not limited to this.
  • a user holds a device such as a controller having a light-emitting portion or the like functioning as a tracking marker in a hand, points the device at a position where the device is recognized as a sound source, and detects the position of the tracking marker of the device. , The information of the second position may be obtained.
  • the analysis result of the captured image captured by the outward camera 20 of the HMD 1 is used when acquiring the information of the second position.
  • a user other than the HMD 1 and an area around the user can be captured.
  • the analysis result of the captured image captured by the external observation camera may be used.
  • FIG. 8 is a diagram illustrating a state in which the user U wears the HMD 1, listens to a sound output from the virtual sound source, and points to a position recognized by the user U as the sound source.
  • the user U is holding a hand controller 15 as a device having a tracking marker in his hand.
  • the external observation cameras 13 and 14 for imaging the space around the user U are provided above the user U, for example.
  • the external observation cameras 13 and 14 are external sensors that acquire a user and information about the user as a captured image.
  • the sound from the virtual sound source 11 at the first position P1 in the space around the user U which has been subjected to the sound image localization processing using the head transfer function of the user U measured in advance. Is output from the speaker 6 of the HMD 1 to the user U.
  • the user U listens to the output voice, and turns the hand controller 15 held in his hand to the recognized virtual sound source 12 at the second position P2 recognized as the position of the sound source.
  • the state of the user U including the hand controller 15 is imaged by the external observation cameras 13 and 14.
  • the captured image is acquired by the sensor information acquisition unit 41 as in the first embodiment.
  • the image analysis unit 48 detects the tracking marker using the captured image captured by the external observation cameras 13 and 14 and captured by the hand controller 15, thereby detecting the position information of the hand controller 15, in other words, the hand. Is obtained. Further, the image analysis unit 48 acquires the position information of the HMD 1 using the images captured by the external observation cameras 13 and 14.
  • the relative position information between the HMD 1 and the hand controller 15 is acquired by the user-recognized position acquiring unit 49 from the position information of the hand controller 15 and the position information of the HMD 1 acquired by the image analyzing unit 48.
  • the user-recognized position acquisition unit 49 acquires the spherical coordinates of the hand region from the relative position information between the HMD 1 and the hand region of the user U and the position information of the HMD 1 acquired by the position acquisition unit 47.
  • the spherical coordinates of the hand area include information on the second position P2, and more specifically, information on the direction of the second position P2 where the recognized virtual sound source 12 is viewed from the HMD1 (user U).
  • the information on the second position P2 may be acquired using the hand controller having the tracking marker and the external observation camera.
  • the hand region of the user U is detected using the images captured by the external observation cameras 13 and 14, and the position of the second position is detected. Information can also be obtained.
  • a device such as a hand controller or a remote controller that includes a position positioning unit and can be held by the user U is used, and the position of the hand is determined using the positioning result of the position positioning unit of the device. Information may be obtained.
  • the positioning result of the position positioning unit provided in the device is acquired by the sensor information acquiring unit 41.
  • the user-recognized position acquisition unit 49 sets the relative position information between the device and the HMD1, in other words, the device based on the positioning result of the position positioning unit provided in the device and the positioning result of the position positioning unit 26 provided in the HMD1.
  • the relative position information between the hand to be gripped and the HMD 1 is acquired.
  • the information of the second position P2 may be obtained using the relative position information.
  • position information of the hand of the user U gripping the device by inertial navigation may be acquired by using a detection result of the acceleration sensor.
  • ⁇ Third embodiment> when acquiring the information of the second position P2, the captured image captured by the outward camera 20 is used. However, the second position P2 is determined by using the captured image captured by the inward camera 21. The information of P2 may be acquired.
  • the user's line of sight can be specified from the image of the user's eyes captured by the inward camera 21. That is, by specifying the line of sight of the user U using the captured image of the state of the user U gazing at the second position P2, the recognized virtual sound source 12 viewed from the HMD1 (user U) as the information of the second position P2. It is also possible to obtain information on the direction of a certain second position P2.
  • the user U does not need to indicate the position of the recognized virtual sound source 12 with a finger, and does not need to use a device such as a remote control or a hand controller that can be held by the hand used when detecting the position of the hand. .
  • the user U who has listened to the sound output from the virtual sound source at the first position recognizes that the sound source is the sound source, obtains the information of the second position indicated by the finger, and obtains the first position and the first position.
  • the shift amount of the second position has been calculated, the present invention is not limited to this.
  • other embodiments will be described.
  • FIG. 9 shows a state in which the user U wears the HMD 1 and listens to the sound output from the virtual sound source and looks at a position where the sound is recognized as a sound source.
  • the object 16 is an object fixed in the three-dimensional sound space V, and may be a real object or a virtual object.
  • the user U recognizes that the virtual sound source 51 is located at the position of the object 16 at the first position P1.
  • the sound output from the virtual sound source 51 which should originally be at the position of the object 16, is output from the recognition virtual sound source 52 at the second position P2.
  • the voice is recognized by the user U as voice.
  • the user U listens to the voice and adjusts his / her gaze to the recognized virtual sound source 52 recognized as the sound source. Thereafter, the user U moves his / her line of sight to the object 16.
  • the direction of the line of sight of the user U is specified by the image analysis unit 48 using the image captured by the inward camera 21, and the trajectory of the line of sight movement can be calculated.
  • a deviation amount (offset value) between the first position and the second position is calculated from the change in the direction of the line of sight of the user U specified by the image analysis unit 48. Then, similarly to the above-described embodiment, the output parameter is calculated so as to correct the shift amount, and the sound is generated according to the calculated output parameter.
  • the posture information of the posture acquisition unit 46 detects not only the detection result by the outward camera 20 but also, for example, that the HMD 1 is tilted, that is, the mounting displacement has occurred, based on the detection result of the acceleration sensor 24. obtain.
  • the detection of the occurrence of the mounting displacement of the HMD 1 based on the posture information of the posture acquiring unit 46 triggers the calibration process to be automatically started, or the calibration for the user U is started. The user may be prompted to make a selection.
  • the trigger may be that the direction of the head of the user U detected by the posture information of the posture acquisition unit 46 does not match the position of the virtual sound source presented by the information processing system 10.
  • the detection that the orientation of the head of the user U does not match the position of the virtual sound source is a trigger, and the calibration process is automatically started. May be configured to prompt the user to select to start calibration.
  • the configuration may be such that when the inclination or the direction of the head of the user U is detected, the calibration process is automatically performed as needed.
  • the user U after the calibration process, the user U may be configured to be able to select whether to generate audio according to output parameters before calibration or to generate audio according to output parameters after calibration. .
  • a screen for selecting whether to use the audio before the calibration processing or the audio after the processing may be displayed on the display unit 5.
  • the user U can select which output parameter to use with the operation input unit 3 while viewing the screen.
  • Embodiments of the present technology are not limited to the above-described embodiments, and various modifications can be made without departing from the gist of the present technology.
  • AR display which is an extended expression for the real world
  • VR display using a virtual expression (Virtual ⁇ Reality ⁇ expression, VR expression) different from extension for the real world
  • the present invention can also be applied to an MR (Mixed Reality) display combining a virtual world and a real world that are artificially created by CG or the like.
  • a device having an image captured by the outward camera 20, an image captured by the inward camera 21, an image captured by the external observation cameras 13 and 14, and a position positioning unit configured to be held by a user An example in which the information of the second position is obtained using the captured image and the like including the position positioning information from the user and the device having the tracking marker and configured to be grippable by the user has been described. The information of the second position may be obtained.
  • the information processing system includes the control unit that executes a series of processes related to the calibration of the sound image localization process, the sensor unit, and the sound output unit.
  • an HMD capable of outputting not only audio but also video has been described as an example of a sound output device including a sound output unit. What is necessary is just to provide an output part.
  • the sound output unit is located near the user's ear when the user wears the sound output device.
  • the sound output device may be realized by a wearable device such as a headphone type without a display as a display unit, or a neckphone type (neck-hung type including a case with or without a display).
  • a wearable device such as a headphone type without a display as a display unit, or a neckphone type (neck-hung type including a case with or without a display).
  • the sensor unit is typically provided in the sound output device, but a part of the sensor unit may be provided in a device different from the sound output device.
  • an external observation camera as an external sensor for acquiring information about the user and the surroundings of the user may be provided separately from the sound output device.
  • the sensor unit does not need to include all of the various sensors included in the sensor unit 2 described in the above embodiment, and position information of a position (second position) recognized as a sound source by a user who has listened to voice; Any sensor configuration may be used as long as it can acquire the HMD position information (user position information) and the HMD 1 posture information.
  • the control unit that executes a series of processes related to the calibration may be provided in the sound output device, or may be provided in another device such as a cloud server or a mobile terminal that can communicate with the sound output device.
  • An output processing unit configured to generate a sound output from a virtual sound source at a first position in a space around the user using a head transfer function of the user measured in advance;
  • a recognition position acquisition unit configured to acquire information on a second position in the space recognized by the user as the position of the virtual sound source by listening to the voice;
  • a comparing unit that compares the first position with the second position, The information processing device, wherein the output processing unit controls a position of a virtual sound source of a sound output to the user based on a comparison result by the comparison unit.
  • the output processing unit uses the head-related transfer function to control a plurality of sounds output from the virtual sound sources at the plurality of first positions having different coordinate positions from each other,
  • the information processing device wherein the recognition position acquisition unit acquires information on the plurality of second positions recognized by the user who has listened to the plurality of sounds as the position of the virtual sound source for each sound.
  • An output parameter calculating unit that calculates an output parameter of a sound output to the user based on a comparison result by the comparing unit.
  • the information processing device wherein the output processing unit controls a position of a virtual sound source of a sound output to the user according to an output parameter calculated by the output parameter calculation unit.
  • the information processing apparatus includes a sensor unit that detects information around the user and the user, The information processing device, wherein the recognition position acquisition unit acquires information on the second position using sensor information from the sensor unit.
  • the information processing apparatus includes a first imaging unit that images around the user, The information processing apparatus, wherein the recognition position acquisition unit acquires information on the second position using a captured image of the user pointing to the second position, which is captured by the first imaging unit.
  • the information processing apparatus includes a second imaging unit that images the eyes of the user, The information processing device, wherein the recognition position acquisition unit acquires information on the second position using a captured image of the user gazing at the second position, which is captured by the second imaging unit.
  • the information processing apparatus according to any one of (7) to (9), It further includes a posture acquisition unit that acquires posture information of the sound output device using sensor information from the sensor unit, An information processing apparatus for determining whether or not to execute control of a position of a virtual sound source of a sound based on the comparison result based on the posture information.
  • the information processing apparatus according to any one of (6) to (10), The recognition position acquisition unit acquires information on the second position using a captured image of the user pointing to the second position, which is captured by an external sensor different from the sound output device. apparatus.
  • the information processing apparatus according to any one of (6) to (12), The information processing device, wherein the recognized position obtaining unit obtains information on the second position using a position positioning result of a device including a position positioning unit held by the user.
  • An output processing unit configured to generate a sound output from a virtual sound source at a first position in a space around the user using a head transfer function of the user measured in advance;
  • a recognition position acquisition unit configured to acquire information on a second position in the space recognized by the user as the position of the virtual sound source by listening to the voice;
  • a comparing unit that compares the first position with the second position;
  • a sound output unit that outputs the sound controlled by the output processing unit to the user.
  • Head-mounted display information processing device, sound output device
  • Sensor part 6 Speaker (sound output part)
  • Information processing system 11
  • Virtual sound source at first position 12 Recognized virtual sound source (virtual sound source at second position) 13, 14 ... external observation camera (external sensor)
  • Hand controller (equipment) 20 ... outward camera (first imaging unit) 21 ... inward camera (second imaging unit)
  • output parameter calculation unit 45
  • output processing unit 49
  • user recognition position acquisition unit recognition position acquisition unit
  • U user
  • stereophonic space space around user

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】簡易的に音像定位処理のキャリブレーションを行うことができる情報処理装置、情報処理方法、プログラム、及び情報処理システムを提供する。 【解決手段】情報処理装置は、出力処理部と、認識位置取得部と、比較部と、を具備する。上記出力処理部は、予め測定されたユーザの頭部伝達関数を用いて上記ユーザの周りの空間の第1の位置にある仮想音源から出力される音声を生成する。上記認識位置取得部は、上記音声を聴取した上記ユーザが上記仮想音源の位置として認識した上記空間の第2の位置の情報を取得する。上記比較部は、上記第1の位置と上記第2の位置とを比較する。上記出力処理部は、上記比較部による比較結果に基づき上記ユーザに向けて出力される音声の仮想音源の位置を制御する。

Description

情報処理装置、情報処理方法、プログラム及び情報処理システム
 本技術は、音像定位処理に係る情報処理装置、情報処理方法、プログラム、及び情報処理システムに関する。
 特許文献1には、ヘッドホンやヘッドマウントディスプレイ等で頭部伝達関数を用いて音像定位処理を行うことが記載されている。
 頭部伝達関数は、ユーザUの頭部の形状、耳介の形状、外耳道形状等に依存し、ユーザUによって異なる関数である。そのため、ヘッドホンやヘッドマウントディスプレイ等の音出力装置の使用に際し、音声処理装置を装着するユーザUの頭部伝達関数を求めることが行われている。
 頭部伝達関数の測定は、音出力装置の使用の初期設定時に行われる。通常、ユーザUが音出力装置を装着した状態で、立体音響空間内で多数、例えば40個程度の音源からの音声をそれぞれ聴取し、それぞれの音源で音声が聞こえてくる方向を指し示すことによって測定は行われる。
特開2010-56589号公報
 頭部伝達関数の測定後、ユーザが音出力装置を取り外し、再度装着した際に、頭部伝達関数測定時の装着状態からみて装着ずれが生じるときがある。このような装着ずれが生じると、測定された頭部伝達関数を基に出力される第1の位置にある仮想音源からの音声をユーザが聴取したときに、ユーザが認識した仮想音源の位置が第1の位置でない場合がある。このような場合、出力された音声が、ユーザにとって不自然な仮想音源位置からの音声として知覚されることがある。
 このような不具合を防止するために、再度、40個程度の音源を聞いて頭部伝達関数を測定しなおすこともできるが、時間と手間がかかってしまう。
 以上のような事情に鑑み、本技術の目的は、簡易的に音像定位処理のキャリブレーションを行うことができる情報処理装置、情報処理方法、プログラム、及び情報処理システムを提供することにある。
 上記目的を達成するため、本技術の一形態に係る情報処理装置は、出力処理部と、認識位置取得部と、比較部と、を具備する。
 上記出力処理部は、予め測定されたユーザの頭部伝達関数を用いて上記ユーザの周りの空間の第1の位置にある仮想音源から出力される音声を生成する。
 上記認識位置取得部は、上記音声を聴取した上記ユーザが上記仮想音源の位置として認識した上記空間の第2の位置の情報を取得する。
 上記比較部は、上記第1の位置と上記第2の位置とを比較する。
 上記出力処理部は、上記比較部による比較結果に基づき上記ユーザに向けて出力される音声の仮想音源の位置を制御する。
 このような構成によれば、第1の位置と第2の位置との比較結果に基づき出力される音声の仮想音源の位置が制御されるので、再度頭部伝達関数を測定しなおすことなく、簡易に音像定位処理のキャリブレーションを行うことができる。
 上記出力処理部は、上記頭部伝達関数を用いて、互いに座標位置が異なる複数の上記第1の位置にある仮想音源それぞれから出力される複数の音声を生成し、上記認識位置取得部は、上記複数の音声を聴取した上記ユーザが、音声毎に上記仮想音源の位置として認識した複数の上記第2の位置の情報を取得してもよい。
 これにより、キャリブレーションの精度が向上する。
 上記仮想音源は移動音源であってもよい。
 これにより、キャリブレーションの精度が向上する。また、キャリブレーションに要する時間を短縮することができる。
 上記比較部による比較結果に基づいて、上記ユーザに向けて出力される音声の出力パラメータを算出する出力パラメータ計算部を更に具備し、上記出力処理部は、上記出力パラメータ計算部により算出される出力パラメータに従って上記ユーザに向けて出力される音声の仮想音源の位置を制御してもよい。
 上記出力パラメータ計算部は、上記第1の位置と上記第2の位置とのずれを補正するように上記出力パラメータを算出してもよい。
 上記出力処理部により制御される音声は、上記ユーザに装着され、上記ユーザの耳近傍に音出力部が位置する音出力装置の上記音出力部に供給されてもよい。
 これにより、ユーザにより頭部伝達関数測定時の装着位置とずれて音出力装置が装着されても、簡易なキャリブレーションが可能なので、再度、頭部伝達関数を測定しなおすことなく、ユーザにとって自然な仮想音源位置からの音声をユーザに提供することができる。
 上記音出力装置は、上記ユーザ及び上記ユーザの周りの情報を検出するセンサ部を備え、上記認識位置取得部は、上記センサ部からのセンサ情報を用いて上記第2の位置の情報を取得してもよい。
 上記センサ部は、上記ユーザの周りを撮像する第1の撮像部を含み、上記認識位置取得部は、上記第1の撮像部により撮像される上記ユーザが上記第2の位置を指し示す様子の撮像画像を用いて上記第2の位置の情報を取得してもよい。
 このようにユーザの周りが撮像された撮像画像を用いて第2の位置の情報を取得することができる。
 上記センサ部は、上記ユーザの目を撮像する第2の撮像部を含み、上記認識位置取得部は、上記第2の撮像部により撮像される上記ユーザが上記第2の位置を注視する様子の撮像画像を用いて上記第2の位置の情報を取得してもよい。
 このような構成によれば、第2の撮像部により撮像される撮像画像からユーザが第2の位置を注視する視線方向を取得し、当該視線方向から第2の位置の情報を得ることができる。
 上記センサ部からのセンサ情報を用いて上記音出力装置の姿勢情報を取得する姿勢取得部を更に具備し、上記姿勢情報を基に、上記比較結果に基づく音声の仮想音源の位置の制御の実行の有無が決定されてもよい。
 このように、音出力装置の姿勢情報から音出力装置の装着ずれの有無が検出され、この検出結果に基づいて、比較結果に基づく音声の仮想音源の位置の制御の実行の有無、すなわち、キャリブレーション処理に係る一連の処理の実行の有無が決定されてもよい。
 上記認識位置取得部は、上記音出力装置とは別の外部センサで撮像される上記ユーザが上記第2の位置を指し示す様子の撮像画像を用いて上記第2の位置の情報を取得してもよい。
 このように、外部センサにより撮像されたユーザを含むユーザの周りの撮像画像を用いて第2の位置の情報を取得してもよい。
 上記認識位置取得部は、上記外部センサにより撮像される上記ユーザにより把持される機器を含む撮像画像を用いて上記第2の位置の情報を取得してもよい。
 このような構成によれば、外部センサにより撮像される撮像画像に映しだされる機器の領域を検出することにより第2の位置の情報を取得することができる。
 上記認識位置取得部は、上記ユーザにより把持される位置測位部を備える機器の位置測位結果を用いて上記第2の位置の情報を取得してもよい。
 上記出力パラメータ計算部は、上記ユーザにより選択される上記仮想音源を上記第1の位置とするか上記第2の位置とするかの選択結果を基に、上記出力パラメータを算出してもよい。
 このような構成によれば、ユーザはキャリブレーション前の音声とするかキャリブレーション後の音声とするかを選択することができる。
 上記目的を達成するため、本技術の一形態に係る情報処理方法は、予め測定されたユーザの頭部伝達関数を用いて上記ユーザの周りの空間の第1の位置にある仮想音源から出力される音声を生成し、上記音声を聴取した上記ユーザが上記仮想音源の位置として認識した上記空間の第2の位置の情報を取得し、上記第1の位置と上記第2の位置とを比較し、上記比較結果に基づき上記ユーザに向けて出力される音声の仮想音源の位置を制御する。
 上記目的を達成するため、本技術の一形態に係るプログラムは、予め測定されたユーザの頭部伝達関数を用いて上記ユーザの周りの空間の第1の位置にある仮想音源から出力される音声を生成するステップと、上記音声を聴取した上記ユーザが上記仮想音源の位置として認識した上記空間の第2の位置の情報を取得するステップと、上記第1の位置と上記第2の位置とを比較するステップと、上記比較結果に基づき上記ユーザに向けて出力される音声の仮想音源の位置を制御するステップを含む処理を情報処理装置に実行させる。
 上記目的を達成するため、本技術の一形態に係る情報処理システムは、出力処理部と、認識位置取得部と、比較部と、音出力部とを具備する。
 上記出力処理部は、予め測定されたユーザの頭部伝達関数を用いて上記ユーザの周りの空間の第1の位置にある仮想音源から出力される音声を生成する。
 上記認識位置取得部は、上記音声を聴取した上記ユーザが上記仮想音源の位置として認識した上記空間の第2の位置の情報を取得する。
 上記比較部は、上記第1の位置と上記第2の位置とを比較する。
 上記音出力部は、上記出力処理部によって制御された音声を上記ユーザに向けて出力する。
 上記出力処理部は、上記比較部による比較結果に基づき上記ユーザに向けて出力される音声の仮想音源の位置を制御する。
 以上のように、本技術によれば、簡易的に音像定位処理のキャリブレーションを行うことが可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の第1の実施形態に係る情報処理装置の概要を説明するための図である。 第1の実施形態に係る情報処理システム及び上記情報処理装置の構成の一例を示すブロック図である。 上記情報処理装置の音像定位処理のキャリブレーション方法を説明する図(その1)である。 上記情報処理装置の音像定位処理のキャリブレーション方法を説明する図(その2)である。 上記情報処理装置の音像定位処理のキャリブレーション方法を説明するフロー図である。 立体音響空間における音源の位置について説明する図である。 上記情報処理装置の音像定位処理のキャリブレーション方法を説明する図であって、第1の位置と第2の位置とのずれ量の算出を説明するための図である。 第3の実施形態に係る情報処理装置の音像定位処理のキャリブレーション方法を説明する図である。 第4の実施形態に係る情報処理装置の音像定位処理のキャリブレーション方法を説明する図である。
<第1の実施形態>
(概要)
 図1を参照して本技術の一実施形態に係る情報処理装置の概要について説明する。図1は、情報処理装置の概要を説明する図である。
 図1に示すように、本実施形態による情報処理装置は、例えばユーザUの頭部に装着されるメガネ型のヘッドマウントディスプレイ(HMD:Head Mounted Display)1により実現される。装着時にユーザUの眼前に位置するメガネレンズ部分に相当する表示部5は、シースルータイプ又は非シースルータイプであってもよい。
 HMD1は、表示部5に表示オブジェクトを表示することで、ユーザUの視線の前方に表示オブジェクトを提示することができる。
 HMDの一例としては、例えば、シースルー型HMD、ビデオシースルー型HMD、及び網膜投射型HMDが挙げられる。これらのHMDでは、HMDの表示画像制御部により、AR(Augmented Reality:拡張現実)技術に基づき、実空間に位置する実オブジェクトの光学像に対して仮想オブジェクトの画像が重畳された画像が表示可能に制御される。
 尚、情報処理装置の形状は図1に示す例に限定されない。例えば、情報処理装置は、ヘッドバンド型(頭部の全周を回るバンドで装着されるタイプ。また、側頭部だけでなく頭頂部を通るバンドを備える場合もある。)のHMDや、ヘルメットタイプ(ヘルメットのバイザー部分がディスプレイに相当する。)のHMDであってもよい。
 図3及び図4を用いて本実施形態における音像定位処理のキャリブレーション方法の概要について説明する。
 図3及び図4は、HMD1の音像定位処理のキャリブレーション方法を説明する図である。
 図3は、立体音響空間V内で、ユーザUが、HMD1を装着し、仮想音源から出力される音声を聴取している様子を示す図である。
 図4は、立体音響空間V内で、HMD1を装着し、仮想音源から出力される音声を聴取したユーザUが、音源として認識している認識仮想音源12の位置を指し示している様子を示す図である。
 本実施形態では、ユーザUによる認識仮想音源12の位置の提示は、ユーザUが腕を挙げて指で認識仮想音源12の位置を指し示す例をあげて説明する。
 立体音響空間Vは、聴取者であるユーザUの周りの空間として認識される仮想的な空間である。
 音出力装置としてのHMD1には後述する音出力部としてのスピーカ6が備えられている。本実施形態では、図3に示すように、予め測定されているユーザUの頭部伝達関数を用いて音像定位処理が施された立体音響空間Vの第1の位置P1にある仮想音源11から出力される音声がスピーカ6を介して出力される。
 ここで、頭部伝達関数測定時のHMD1の装着位置と、ユーザUがHMD1を再度装着しなおした時の装着位置とがずれていない場合、ユーザUは、第1の位置P1にある仮想音源11から出力される音声の音源位置を第1の位置P1と認識する。
 一方、装着ずれがある場合や頭部伝達関数測定の精度が不十分であった場合、再装着時にユーザUに向けて出力される音声の仮想音源位置が第1の位置P1にあると認識されない場合がある。
 装着ずれがある場合、例えば、図4に示すように、第1の位置P1にある仮想音源11からの音声を聴取したユーザUは、第1の位置P1とは異なる第2の位置P2に音源があると認識する。ユーザUは、音源であると認識した第2の位置P2にある認識仮想音源12を指で指し示す。
 HMD1では、ユーザUにより音源であると認識された第2の位置と、第1の位置との比較結果を基に、ユーザUに向けて出力される音声の音像定位処理がキャリブレーションされる。具体的には、ユーザUが聴取したときに、ユーザUにより第1の位置P1にある仮想音源から出力される音声として認識されるように、仮想音源の位置が補正される。詳細については、後述する。
(情報処理システムの構成)
 図2は情報処理システム及びHMDの構成の一例を示すブロック図である。
 情報処理システム10は、制御部4と、センサ部2と、音出力部としてのスピーカ6とを含む。
 本実施形態においては、センサ部2とスピーカ6は音出力装置としてのHMD1に搭載されている。スピーカ6は、HMD1をユーザUが装着した際に、ユーザUの耳近傍に位置する。
 制御部4は、HMDが備えていてもよいし、HMDと通信可能に構成されるクラウドサーバや携帯端末といった他の装置が備えていてもよい。HMDとは異なる装置に制御部4がおかれる場合、当該装置が情報処理装置となる。
 本実施形態においては、制御部4がHMD1に搭載されている例をあげ、以下、HMD1について図2を用いて詳細に説明する。本実施形態では、HMD1は、音出力装置であって、音像定位処理のキャリブレーションに係る一連の処理を行う情報処理装置である。
(HMDの構成)
 図2に示すように、HMD1は、センサ部2と、操作入力部3と、制御部4と、表示部5と、スピーカ6と、通信部7と、記憶部8と、を備える。
 センサ部2は、ユーザU及びユーザUの周囲の情報を取得する機能を有する。
 センサ部2は各種センサを有する。例えば、センサ部2は、第1の撮像部としての外向きカメラ20と、第2の撮像部としての内向きカメラ21と、マイク22と、ジャイロセンサ23と、加速度センサ24と、方位センサ25と、位置測位部26と、生体センサ27を有する。各センサで検出されるセンサ情報は制御部4に出力される。
 外向きカメラ20及び内向きカメラ21は、撮像レンズ、絞り、ズームレンズ、及びフォーカスレンズ等により構成されるレンズ系、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等を各々有する。固体撮像素子アレイは、例えばCCD(Charge Coupled Device)センサアレイや、CMOS(Complementary Metal Oxide Semiconductor)センサアレイにより実現されてもよい。
 外向きカメラ20は、ユーザUの周辺を撮像する。
 内向きカメラ21は、ユーザUの目を撮像する。
 本実施形態では、外向きカメラ20及び内向きカメラ21は、それぞれ複数設けられている。外向きカメラ20が複数設けられていることにより、視差情報により距離画像を得ることができる。
 マイク22は、ユーザUの音声や周囲の環境音を集音し、音声データとして制御部4に出力する。
 ジャイロセンサ23は、例えば3軸ジャイロセンサにより実現され、角速度(回転速度)を検出する。
 加速度センサ24は、例えば3軸加速度センサにより実現され、移動時の加速度を検出する。
 方位センサ25は、例えば3軸地磁気センサ(コンパス)により実現され、絶対方向(方位)を検出する。
 位置測位部26は、後述する通信部7を介して外部から取得した信号に基づいてHMD1の現在位置を検出する機能を有する。例えば、位置測位部26は、GPS(Global Position System)測位部により実現され、GPS衛星からの電波を受信して、HMD1が存在している位置を検知し、検知した位置情報を制御部4に出力する。
 また、位置測位部26は、GPSの他、例えばWi-Fi(登録商標)、Bluetooth(登録商標)、携帯電話、スマートフォン等との送受信、又は近距離通信等により位置を検知するものであってもよい。
 生体センサ27は、ユーザUの生体情報を取得する。例えば、生体センサ27として、体温を測定可能な温度センサ、心拍数を測定可能な心拍センサ、発汗量を測定可能な発汗センサ等が設けられる。
 操作入力部3は、スイッチ、ボタン、またはレバー等の物理的な構造を有する操作部材により実現される。
 表示部5は、例えばホログラム光学技術を用いて表示を行うレンズ部(透過型表示部の一例)、液晶ディスプレイ装置、OLED(Organic Light Emitting Diode)装置等により実現される。また、表示部5は、透過型、半透過型、または非透過型であってもよい。
 スピーカ6は、制御部4の制御に従って、音声を出力する。
 通信部7は、有線/無線により他の装置との間でデータの送受信を行うための通信モジュールである。通信部7は、例えば有線LAN(Local Area Network)、無線LAN、Wi-Fi、赤外線通信、Bluetooth、近距離/非接触通信等の方式で、外部装置と直接またはネットワークアクセスポイントを介して無線通信する。
 記憶部8は、制御部4が各機能を実行するためのプログラムを格納する。
 記憶部8に記憶されるプログラムは、予め測定されたユーザの頭部伝達関数を用いてユーザの周りの空間の第1の位置にある仮想音源からユーザに向けて出力される音声を制御するステップと、音声を聴取したユーザが仮想音源の位置として認識した空間の第2の位置の情報を取得するステップと、第1の位置と第2の位置とを比較するステップと、比較結果に基づきユーザに向けて出力される音声の仮想音源の位置を制御するステップを含む処理を、情報処理装置であるHMD1に実行させるためのものである。
 記憶部8は、ユーザUの複数の音源位置の頭部伝達関数を予め記憶する。頭部伝達関数は、HMD1を使用するユーザUについて、予め測定されたものである。
 記憶部8は、コンテンツ情報として映像コンテンツ及び音声コンテンツを記憶する。音声コンテンツには音像データが含まれる。
 音像データには、空間のどの位置に仮想音源を設定するかが定義された情報が含まれる。音像データには、相互に座標位置が異なる第1の位置と、当該第1の位置にある仮想音源から出力される音声に係るデータとが対応づけられた情報が含まれる。
 第1の位置P1の座標は、音声コンテンツの出力座標といえる。第2の位置P2の座標はユーザの知覚座標といえる。
 制御部4は、ユーザUに向けて出力する仮想音源からの音声の生成に係る処理を制御する。より具体的には、制御部4は、HMD1の装着ずれ等によって生じる、情報処理システム10が提示する仮想音源の位置(第1の位置)とユーザUが認識する仮想音源の位置(第2の位置)とのずれを補正するように、音像定位処理のキャリブレーションに係る処理を制御する。
 制御部4は、センサ情報取得部41と、コンテンツ情報取得部42と、ユーザHRTF(Head-Related Transfer Function、頭部伝達関数)情報取得部43と、出力パラメータ計算部44と、出力処理部45と、姿勢取得部46と、位置取得部47と、画像解析部48と、ユーザ認識位置取得部49と、比較部50と、を有する。
 コンテンツ情報取得部42は、記憶部8より映像コンテンツ及び音声コンテンツを取得する。また、コンテンツ情報取得部42は、通信部7を介して入力される映像コンテンツ、音声コンテンツ等のデジタルコンテンツを取得してもよい。以下、映像データの生成処理については説明を省略する。
 センサ情報取得部41は、センサ部2のセンサによりセンシングされた各種センサ情報を取得する。
 姿勢取得部46は、センサ情報取得部41により取得されたセンサ情報を用いて、HMD1の姿勢、ひいては、ユーザUの頭部の姿勢を取得する。
 例えば、姿勢取得部46は、外向きカメラ20により撮像された周辺の撮像画像、ジャイロセンサ23により取得されたジャイロ情報、加速度センサ24により取得された加速度情報、および方位センサ25により取得された方位情報の少なくともいずれかを解析して、HMD1の向きや傾きといった姿勢を認識する。
 位置取得部47は、センサ情報取得部41により取得されたセンサ情報を用いて、ユーザUの位置情報、より詳細には、位置測位部26により測位されたHMD1の位置情報(ユーザUの位置情報)を取得する。
 画像解析部48は、センサ情報取得部41により取得されたセンサ情報である撮像画像を解析する。画像解析部48は、外向きカメラ20により撮像される周辺の撮像画像を解析し、周知の手領域検出技術によりユーザUの手領域を検出する。更に、画像解析部48は、外向きカメラ20により撮像される周辺の撮像画像を解析して、手領域の距離情報及び手領域の平面位置を取得する。
 画像解析部48は、内向きカメラ21により撮像されるユーザの目の撮像画像からユーザUの視線を特定する。
 例えば、図示しない赤外線LEDからユーザUの左右の目それぞれに赤外線を照射し、内向きカメラ21でユーザUの左右の目それぞれを撮像し、その撮像画像を画像解析することによって、赤外線の角膜における反射位置と瞳孔の位置とを特定し、その位置関係からユーザUの視線を特定する。
 尚、視線を検出する手法はこれに限らず、例えば内向きカメラで左右の目を撮影し、そのうち目頭と虹彩の位置関係から視線を特定する技術など一般的な手法を採用してもよい。
 ユーザHRTF情報取得部43は、記憶部8に予め記憶されているユーザUの頭部伝達関数を取得する。
 出力パラメータ計算部44は、コンテンツ情報取得部42で取得された音声コンテンツと、ユーザHRTF情報取得部43で取得された頭部伝達関数を用いて、立体音響空間Vの第1の位置P1にある仮想音源11からユーザUに向けて出力される音声の出力パラメータを計算する。
 また、出力パラメータ計算部44は、コンテンツ情報取得部42で取得された音声コンテンツと、ユーザHRTF情報取得部43で取得された頭部伝達関数と、後述する比較部50による比較結果を用いて、出力する音声の出力パラメータを算出する。
 詳細には、出力パラメータ計算部44は、比較部50により算出される第1の位置P1と第2の位置P2とのずれ量(オフセット値)が閾値以上であれば、キャリブレーションを行うために、音声コンテンツと、頭部伝達関数と、オフセット値を用いて、位置ずれを補正するように出力パラメータ(以下、補正出力パラメータともいう。)を算出する。
 一方、第1の位置と第2の位置とのずれ量が閾値より低い場合、キャリブレーションは行わず、出力パラメータ計算部44は、音声コンテンツと頭部伝達関数を用いて、第1の位置P1にある仮想音源11から出力される音声の出力パラメータを算出する。
 出力処理部45は、出力パラメータ計算部44により算出される出力パラメータに従って、ユーザUに向けて出力される音声を生成する。出力処理部45で生成される音声はスピーカ6を介してユーザUに向けて出力される。
 ユーザ認識位置取得部49は、画像解析部48で取得されるユーザUの手領域の距離情報及び手領域の平面位置から、HMD1とユーザUの手領域との相対位置情報を取得する。
 更に、ユーザ認識位置取得部49は、HMD1とユーザUの手領域との相対位置情報と、位置取得部47で取得されるHMD1の位置情報とから、手領域の球座標を取得する。この手領域の球座標は、第2の位置P2の情報を含み、詳細にはHMD1(ユーザU)からみた認識仮想音源12のある第2の位置P2の方向の情報を含む。
 比較部50は、情報処理システム10が提示した仮想音源11のある第1の位置P1と、ユーザ認識位置取得部49で取得したユーザUが認識した認識仮想音源12のある第2の位置P2とを比較し、両者のずれ量(オフセット値)を算出する。
 ここで、図6を用いて立体音響空間における音源について説明する。
 図6に示すように、立体音響空間Rは、聴取者であるユーザUの周りの空間であり、音源Sが存在する。音源Sの位置は、ユーザUの位置を原点とする球座標系において、動径r、偏角θ、φを用いて表現する。
 ユーザの位置は、正確には、ユーザUが正面の方向を向いたときのユーザの左右の耳を結ぶ線分の中点である。動径rは、この中点から音源Sの位置までの距離である。偏角θは、水平面内で、ユーザUの正面の方向と音源Sの方向とがなす角である。偏角φは、垂直面内で、ユーザUの位置を含む水平面と音源Sの方向とがなす角である。
 ここで、ユーザUの鼓膜に到達する音波(以下、聴取音ともいう)では、ユーザUの頭部や耳での反射及び回折のために、音源Sから放射される音波(以下、原音ともいう)の特定の周波数成分が強調されたり減衰したりする。このときの原音から聴取音への変化を伝達関数として表現したものが頭部伝達関数(HRTF)である。
 ユーザUの感覚中枢である脳は、音源Sの位置の球座標(r、θ、φ)と頭部伝達関数との関係を、経験則として認識している。
 従って、ユーザUの、複数の互いに異なる座標位置にある音源での頭部伝達関数を予め求めることにより、頭部伝達係数を用いてユーザUに向けて仮想音源からの音声を出力することができる。
 記憶部8には、実際の音響空間にある複数の互いに異なる球座標(r、θ、φ)にある音源毎に予め測定されたユーザUの頭部伝達関数が記憶される。
 HMD1での音声コンテンツの出力は、記憶部8に記憶されている予め測定された頭部伝達関数を用いて行われる。
 本実施形態において、予め測定された頭部伝達関数を用いて出力される音声の仮想音源11のある第1の位置P1の球座標を(r、θ、φ)と表す。また、認識仮想音源12のある第2の位置P2の球座標を(r、θ、φ)と表す。
 仮想音源11からの音声は、記憶部8に記憶されている情報を基に出力され、第1の位置P1の球座標(r、θ、φ)の情報は記憶部8に記憶されている。
 上述の通り、ユーザ認識位置取得部49により取得されるユーザUの手領域の球座標は、HMD1(ユーザU)からみた認識仮想音源12のある第2の位置P2の方向の情報を含む。
 すなわち、ユーザUが正面を向いたときのユーザUの左右の耳を結ぶ線分の中点を原点としたときのユーザUの手領域の位置を示す球座標の偏角θ、偏角φは、認識仮想音源12のある第2の位置P2を示す球座標の偏角θ、偏角φと等しい。
 従って、ユーザ認識位置取得部49により取得されるユーザUの手領域の球座標から、認識仮想音源12のある第2の位置Pを示す球座標の偏角θ、偏角φを求めることができる。
 図7は、第1の位置と第2の位置とのずれ量の算出を説明する図である。
 図7に示すように、上述した比較部50で算出される第1の位置P1と第2の位置P2とのずれ量(オフセット値)には、動径rにおけるずれ量は含まれず、偏角θにおけるずれと偏角φにおけるずれとの2つの角度座標系におけるずれが含まれる。
 出力パラメータ計算部44では、オフセット値が閾値以上の場合、偏角θ、偏角φの角度座標系のうち少なくとも一方の座標のずれが補正されるように補正出力パラメータが算出される。出力処理部45では、算出された補正出力パラメータに従って出力される音声が生成される。このように、出力処理部45では、比較部50による比較結果に基づき、出力される音声の仮想音源の位置が制御され、出力される音声のキャリブレーションが行われる。
 一方、オフセット値が閾値よりも低い場合、キャリブレーションは行われない。
 (情報処理方法)
 次に、キャリブレーションに係る情報処理方法について、図5を用いて説明する。
 図5は、キャリブレーションに係る一連の処理のフロー図である。図5のフローに従って、図3及び図4を用いて以下に説明する。
 本実施形態では、ユーザUが、仮想音源の位置がずれていると認識し、キャリブレーションの実行の選択ができるものとする。ユーザUによりキャリブレーションの実行が選択されると、キャリブレーションに係る処理がスタートする。
 図5に示すように、まず、コンテンツ情報取得部42により、記憶部8から音声コンテンツが取得される(S1)。音声コンテンツには、音像データが含まれる。
 次に、ユーザHRTF情報取得部43により、記憶部8から、ユーザ情報として、予め測定されたユーザUの頭部伝達関数が取得される(S2)。
 次に、出力パラメータ計算部44により、音像データと頭部伝達関数を用いて、ユーザUの周りの立体音響空間Vの第1の位置P1にある仮想音源11の出力パラメータが算出される。出力処理部45により、算出された出力パラメータに従って出力される音声が生成される。
 図3に示すように、生成された音声は、スピーカ6に出力され(S3)、ユーザUに向けて出力される。ユーザUは、ユーザUに向けて出力された音声を聴取する。
 ここで、頭部伝達関数取得時のHMD1の装着位置とずれがなくHMD1が装着されている場合、出力された音声を聴取するユーザUには、第1の位置P1にある仮想音源11から音声が出力されていると認識される。
 一方、装着ずれがある場合は、ユーザUには、第1の位置P1と異なる位置にある仮想音源からの音声として認識される。図4は、第1の位置P1と異なる位置にある仮想音源からの音声として認識される例を示す。
 図4に示すように、ユーザUは、聴取した音声の音源であると認識した認識仮想音源12の位置を、腕をあげ指で指し示す。ユーザUによって指し示された方向に、認識仮想音源12のある第2の位置P2が位置する。
 画像解析部48により、外向きカメラ20によって撮像されるユーザUの手を含むユーザUの周囲が映し出された撮像画像を用いて、ユーザUの手領域の距離情報及び撮像画像上の手領域の平面位置が取得される。
 また、位置取得部47により、HMD1の位置情報が取得される。
 ユーザ認識位置取得部49により、ユーザUの手領域の距離情報及び手領域の平面位置から、HMD1とユーザUの手領域との相対位置情報が取得される。
 更に、ユーザ認識位置取得部49により、HMD1とユーザUの手領域との相対位置情報と、位置取得部47で取得されるHMD1の位置情報から、手領域の球座標が取得される(S4)。
 この手領域の球座標は、HMD1(ユーザU)からみた認識仮想音源12のある第2の位置P2の方向の情報を含み、ユーザの認識位置の情報である。
 次に、比較部50により、第1の位置と第2の位置とが比較され、第1の位置と第2の位置とのずれ量(以下、オフセット値という場合がある。)が算出される。オフセット値が閾値以上か否かにより、第1の位置と第2の位置がずれているか否か、換言すると、HMD1が出力した仮想音源11の出力座標と、ユーザUが仮想音源であると認識した位置の知覚座標とがずれているか否かが判定される(S5)。オフセット値の算出では、ユーザUからみた方向を示す偏角θ、偏角φそれぞれでのオフセット値が算出される。
 S5でオフセット値が閾値より低い場合、ずれていないと判定され(No)、キャリブレーションに係る一連の処理は終了する。
 S5で、オフセット値が閾値以上である場合、ずれていると判定され(Yes)、S6に進む。
 S6では、比較部50による比較結果を基に、出力パラメータ計算部44により、補正出力パラメータが算出される。具体的には、偏角θ及び偏角φにおけるずれをそれぞれ補正するように、補正出力パラメータが算出される。
 S5でずれていると判定されると、第1の位置の座標位置を変えてS1~S6の処理が繰り返され、異なる座標位置毎に、第2の位置の算出と補正出力パラメータの算出が行われる。
 そして、相互に座標位置が異なる複数の第1の位置毎に求めた複数の補正出力パラメータを基に、ユーザUに向けて出力される音声の最終的な補正出力パラメータが算出される。
 その後、出力処理部45により、最終的に算出された補正出力パラメータに従って音声が生成されスピーカ6からユーザUに向けて出力される。
 このような、予め測定された頭部伝達関数を用いて第1の位置にある仮想音源を聴取したユーザUが音源の位置であると認識した認識仮想音源のある第2の位置の情報が取得され、第1の位置と第2の位置との比較結果を基に補正出力パラメータが算出される、という一連の処理は1回以上行われればよく、回数が多いほどキャリブレーションの精度が向上する。
 尚、ここでは、仮想音源のある第1の位置の座標位置を異ならせてS1~S6の処理を複数回行う例をあげたが、第1の位置にある仮想音源を移動音源としてもよい。
 この場合、第1の位置にある仮想音源は連続的に移動することになる。この連続的に移動する仮想音源を聴取したユーザUが、音源の位置であると認識した位置を、指を指しながら追うことにより、連続した線状の第2の位置が取得される。
 仮想音源のある第1の位置の座標位置を異ならせてS1~S6の処理を複数回行う例では、仮想音源はある一点に固定された固定の仮想音源で、第1の位置及び第2の位置は点状である。これに対し、移動音源の例では、仮想音源はある線上で移動する音源で、第1の位置及び第2の位置は線状となる。
 このように移動音源とすることにより、一度に、複数の第2の位置情報を得ることができ、処理時間を短縮することができる。
 以上のように、本実施形態の情報処理システムにおいては、ユーザが立体音響の定位のずれを感じた際に、HMDに搭載されるセンサ部のセンサ情報を用いてユーザが認識した仮想音源の位置(第2の位置)の情報が取得され、システム側が提示した位置(第1の位置)とユーザが認識した認識位置(第2の位置)のずれが算出され、このずれが補正される。したがって、再度、頭部伝達関数を測定しなおすことなく、簡易的に音像定位処理のキャリブレーションを行うことが可能となる。
 以下で説明する各実施形態について、第1の実施形態と同様の構成については同様の符号を付し、説明を省略する場合があり、異なる構成について主に説明する。
<第2の実施形態>
 上述の実施形態においては、第2の位置の情報取得に際し、手領域の検出結果を用いたが、これに限定されない。例えばユーザが、トラッキング用のマーカとして機能する発光部等を有するコントローラ等の機器を手に把持し、この機器を音源と認識する位置に向け、この機器のトラッキング用のマーカの位置を検出することにより、第2の位置の情報を取得してもよい。
 また、上述の実施形態では、第2の位置の情報取得に際し、HMD1の外向きカメラ20で撮像される撮像画像の解析結果を用いたが、HMD1以外のユーザ及び当該ユーザの周りを撮像可能な外部観測カメラで撮像される撮像画像の解析結果を用いてもよい。
 以下、図8を用いて、本実施形態における第2の位置の情報を取得する様子を説明する。
 図8は、ユーザUが、HMD1を装着し、仮想音源から出力される音声を聴取し、ユーザUが音源として認識している位置を指し示している様子を示す図である。
 図8において、ユーザUはトラッキング用のマーカを有する機器としてのハンドコントローラ15を手に把持している。ユーザUの周囲の空間を撮像する外部観測カメラ13、14は、例えばユーザUの頭上に設けられている。尚、ここでは、便宜的に外部観測カメラを2台設置する例をあげたが、台数はこれに限定されない。外部観測カメラ13、14は、ユーザ及び当該ユーザの周りの情報を撮像画像として取得する外部センサである。
 図8に示すように、予め測定されているユーザUの頭部伝達関数を用いて音像定位処理が施された、ユーザUの周りの空間の第1の位置P1にある仮想音源11からの音声がHMD1のスピーカ6からユーザUにむけて出力される。
 ユーザUは、出力された音声を聴取し、音源の位置として認識した第2の位置P2にある認識仮想音源12に、手に把持しているハンドコントローラ15を向ける。外部観測カメラ13及び14により、ハンドコントローラ15を含むユーザUの様子が撮像される。撮像された撮像画像は、第1の実施形態と同様に、センサ情報取得部41により取得される。
 画像解析部48により、外部観測カメラ13及び14により撮像された、ハンドコントローラ15が写し出されている撮像画像を用いトラッキング用のマーカが検出されることにより、ハンドコントローラ15の位置情報、換言すると手の位置情報が取得される。更に、画像解析部48により、外部観測カメラ13及び14により撮像された撮像画像を用いてHMD1の位置情報が取得される。
 ユーザ認識位置取得部49により、画像解析部48で取得されたハンドコントローラ15の位置情報とHMD1の位置情報とから、HMD1とハンドコントローラ15との相対位置情報が取得される。
 更に、ユーザ認識位置取得部49により、HMD1とユーザUの手領域との相対位置情報と、位置取得部47で取得されるHMD1の位置情報とから、手領域の球座標が取得される。この手領域の球座標は、第2の位置P2の情報を含み、詳細にはHMD1(ユーザU)からみた認識仮想音源12のある第2の位置P2の方向の情報を含む。
 以上のように、トラッキング用のマーカを有するハンドコントローラと外部観測カメラを用いて第2の位置P2の情報を取得してもよい。
 また、トラッキング用のマーカを有するハンドコントローラやリモコンといった機器を用いることなく、外部観測カメラ13及び14により撮像される撮像画像を用いて、ユーザUの手領域を検出し、第2の位置の位置情報を取得することもできる。
 また、トラッキング用のマーカを有する機器以外に、位置測位部を備え、ユーザUが把持可能に構成されるハンドコントローラやリモコンといった機器を用い、機器の位置測位部の測位結果を用いて手の位置情報を取得してもよい。
 この場合、機器に備えられる位置測位部の測位結果はセンサ情報取得部41により取得される。そして、ユーザ認識位置取得部49により、機器に備えられる位置測位部の測位結果と、HMD1に備えられる位置測位部26による測位結果に基づいて、機器とHMD1との相対位置情報、換言すると機器を把持する手とHMD1との相対位置情報が取得される。この相対位置情報を用いて第2の位置P2の情報を取得してもよい。
 このようなHMD1に搭載される位置測位部26とユーザが把持可能な機器に搭載される位置測位部のそれぞれの位置測位結果を用いる場合、外向きカメラや外部観察カメラ等で撮像された撮像画像を用いることなく、第2の位置P2の情報を得ることができる。
 また、ユーザUにより把持可能に構成され、加速度センサを備える機器を用い、加速度センサの検出結果を用いて慣性航法で機器を把持するユーザUの手の位置情報を取得してもよい。
<第3の実施形態>
 第1の実施形態では、第2の位置P2の情報の取得に際し、外向きカメラ20により撮像される撮像画像を用いたが、内向きカメラ21により撮像される撮像画像を用いて第2の位置P2の情報を取得してもよい。
 上述の通り、内向きカメラ21により撮像されるユーザの目の撮像画像からユーザの視線を特定することができる。すなわち、第2の位置P2を注視するユーザUの様子の撮像画像を用いてユーザUの視線を特定することにより、第2の位置P2の情報として、HMD1(ユーザU)からみた認識仮想音源12がある第2の位置P2の方向の情報を得ることもできる。
 本実施形態では、ユーザUが認識仮想音源12の位置を指で指し示す必要がなく、また、手の位置を検出する際に用いられる手に把持可能なリモコンやハンドコントローラといった機器を用いる必要がない。
<第4の実施形態>
 上述の実施形態では、第1の位置にある仮想音源から出力した音声を聴取したユーザUが音源であると認識して指で指し示した第2の位置の情報を取得し、第1の位置と第2の位置のずれ量を算出していたが、これに限定されない。以下に他の形態について説明する。
 図9は、ユーザUが、HMD1を装着し、仮想音源から出力される音声を聴取し音源として認識している位置を見ている状態から、目標としてのオブジェクト16がある位置まで視線を移動させている様子を示す図である。オブジェクト16は、立体音響空間Vに固定されたオブジェクトであり、実物体であっても仮想物体であってもよい。
 HMD1の装着ずれがない場合、ユーザUにより第1の位置P1にあるオブジェクト16の位置に仮想音源51があると認識される。
 図9に示す例では、HMD1の装着ずれがあるため、本来、オブジェクト16の位置にあるはずの仮想音源51から出力される音声は、第2の位置P2にある認識仮想音源52から出力される音声であるとユーザUには認識される。
 ユーザUは、音声を聴取し、音源であると認識した認識仮想音源52に視線をあわせる。その後、ユーザUは、オブジェクト16まで視線を移動する。
 ユーザUの視線の方向は、内向きカメラ21により撮像される撮像画像を用いて画像解析部48により特定され、視線の移動の軌跡を算出することができる。
 画像解析部48により特定されたユーザUの視線の方向の変化から、第1の位置と第2の位置とのずれ量(オフセット値)が算出される。そして、上述の実施形態と同様に、ずれ量を補正するように出力パラメータが算出され、算出された出力パラメータに従って音声が生成される。
<第5の実施形態>
 上述の実施形態においては、ユーザUの選択によりキャリブレーション処理が開始される例をあげたが、姿勢取得部46による姿勢情報の検知結果がトリガーとなって、キャリブレーション処理が自動的に開始される、或いは、ユーザUに対してキャリブレーションを開始する選択をするよう促すように構成されてもよい。
 姿勢取得部46の姿勢情報により、外向きカメラ20による検出結果だけでなく、例えば、加速度センサ24の検出結果を基に、HMD1が傾いている、すなわち、装着ずれが生じていることが検知され得る。
 姿勢取得部46の姿勢情報によりHMD1の装着ずれが生じていることが検知されることがトリガーとなって、キャリブレーション処理が自動的に開始される、或いは、ユーザUに対してキャリブレーションを開始する選択をするように促すようにしてもよい。
 また、姿勢取得部46の姿勢情報により検知されるユーザUの頭部の向きと、情報処理システム10が提示している仮想音源の位置とが一致しないことがトリガーとなってもよい。
 すなわち、ある仮想音源から出力された音声を聴取するユーザUの頭部の向きと、情報処理システム10が提示している仮想音源の位置とが一致しない場合、装着ずれが生じていると想定される。
 このような場合、ユーザUの頭部の向きと仮想音源の位置とが一致しないことが検知されることがトリガーとなって、キャリブレーション処理が自動的に開始される、或いは、ユーザUに対してキャリブレーションを開始する選択をするよう促すように構成されてもよい。
 また、ユーザUの頭部の傾きや向きのずれが検知された場合、随時自動的にキャリブレーション処理を行うように構成してもよい。
 以上のように、姿勢取得部46で取得される姿勢情報を基に、比較部での比較結果に基づく音声の仮想音源の位置の制御の実行の有無、すなわち、キャリブレーション処理に係る一連の処理の実行の有無が決定されてもよい。
<第6の実施形態>
 上述の各実施形態において、キャリブレーション処理後、キャリブレーション前の出力パラメータに従って音声を生成するか、キャリブレーション後の出力パラメータに従って音声を生成するかを、ユーザUによって選択可能に構成してもよい。
 例えば、キャリブレーション処理後の出力パラメータに従って生成された音声よりも、キャリブレーション処理前の出力パラメータに従って生成された音声の方が、ユーザにとって違和感がない場合もあり得る。
 そこで、キャリブレーション処理後に、キャリブレーション処理前の音声とするか処理後の音声とするかを選択するための画面を表示部5に表示するようにしてもよい。ユーザUはその画面を見ながら、操作入力部3によりどちらの出力パラメータとするかを選択することができる。
<その他の実施形態>
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、上述の実施形態においては、現実世界に対する拡張表現であるAR表示を例にあげたが、現実世界に対する拡張とは異なる仮想的な表現(Virtual Reality 表現、VR表現)を用いたVR表示、CGなどで人工的につくられる仮想世界と現実世界を組み合わせたMR(Mixed Reality)表示にも適用できる。
 また、上述の各実施形態において、外向きカメラ20の撮像画像、内向きカメラ21の撮像画像、外部観測カメラ13及び14の撮像画像、位置測位部を有しユーザが把持可能に構成される機器からの位置測位情報、トラッキング用のマーカを有しユーザが把持可能に構成される機器を含む撮像画像等を用いて、第2の位置の情報を取得する例をあげたが、これらを組み合わせて第2の位置の情報を取得してもよい。
 また、上述した通り、本技術に係る情報処理システムは、音像定位処理のキャリブレーションに係る一連の処理を実行する制御部と、センサ部と、音出力部と、を備える。
 上述の実施形態では、音出力部を備える音出力装置として、音声の他、映像も出力可能なHMDを例にあげたが、音出力装置は少なくともユーザに対して音声を出力するスピーカ等の音出力部を備えていればよい。音出力部は、音出力装置をユーザが装着したときに、ユーザの耳近傍に位置する。
 例えば、音出力装置は、表示部としてのディスプレイのないヘッドホン型や、ネックフォン型(首掛けタイプ。ディスプレイがある場合又はない場合を含む。)等のウェアラブル装置により実現されてもよい。
 センサ部は、典型的には音出力装置が具備するが、センサ部の一部が、音出力装置とは別の装置に設けられていてもよい。例えば、上述の第2の実施形態のように、ユーザ及びユーザの周りの情報を取得する外部センサとしての外部観測カメラを、音出力装置とは別に設けてもよい。
 センサ部は、上述の実施形態で挙げたセンサ部2が備える各種のセンサ全てを備えていなくてもよく、音声を聴取したユーザが音源として認識した位置(第2の位置)の位置情報と、HMDの位置情報(ユーザの位置情報)と、HMD1の姿勢情報とを取得可能なセンサ構成であればよい。
 キャリブレーションに係る一連の処理を実行する制御部は、音出力装置が備えていても良いし、音出力装置と通信可能なクラウドサーバや携帯端末等の他の装置が備えていてもよい。
 なお、本技術は以下のような構成もとることができる。
(1)
 予め測定されたユーザの頭部伝達関数を用いて上記ユーザの周りの空間の第1の位置にある仮想音源から出力される音声を生成する出力処理部と、
 上記音声を聴取した上記ユーザが上記仮想音源の位置として認識した上記空間の第2の位置の情報を取得する認識位置取得部と、
 上記第1の位置と上記第2の位置とを比較する比較部と
 を具備し、
 上記出力処理部は、上記比較部による比較結果に基づき上記ユーザに向けて出力される音声の仮想音源の位置を制御する
 情報処理装置。
(2)
 上記(1)に記載の情報処理装置であって、
 上記出力処理部は、上記頭部伝達関数を用いて、互いに座標位置が異なる複数の上記第1の位置にある仮想音源それぞれから出力される複数の音声を制御し、
 上記認識位置取得部は、上記複数の音声を聴取した上記ユーザが、音声毎に上記仮想音源の位置として認識した複数の上記第2の位置の情報を取得する
 情報処理装置。
(3)
 上記(1)に記載の情報処理装置であって、
 上記仮想音源は移動音源である
 情報処理装置。
(4)
 上記(1)から(3)のいずれか1つに記載の情報処理装置であって、
 上記比較部による比較結果に基づいて、上記ユーザに向けて出力される音声の出力パラメータを算出する出力パラメータ計算部
 を更に具備し、
 上記出力処理部は、上記出力パラメータ計算部により算出される出力パラメータに従って上記ユーザに向けて出力される音声の仮想音源の位置を制御する
 情報処理装置。
(5)
 上記(4)に記載の情報処理装置であって、
 上記出力パラメータ計算部は、上記第1の位置と上記第2の位置とのずれを補正するように上記出力パラメータを算出する
 情報処理装置。
(6)
 上記(5)に記載の情報処理装置であって、
 上記出力処理部により制御される音声は、上記ユーザに装着され、上記ユーザの耳近傍に音出力部が位置する音出力装置の上記音出力部に供給される
 情報処理装置。
(7)
 上記(6)に記載の情報処理装置であって、
 上記音出力装置は、上記ユーザ及び上記ユーザの周りの情報を検出するセンサ部を備え、
 上記認識位置取得部は、上記センサ部からのセンサ情報を用いて上記第2の位置の情報を取得する
 情報処理装置。
(8)
 上記(7)に記載の情報処理装置であって、
 上記センサ部は、上記ユーザの周りを撮像する第1の撮像部を含み、
 上記認識位置取得部は、上記第1の撮像部により撮像される上記ユーザが上記第2の位置を指し示す様子の撮像画像を用いて上記第2の位置の情報を取得する
 情報処理装置。
(9)
 上記(7)又は(8)に記載の情報処理装置であって、
 上記センサ部は、上記ユーザの目を撮像する第2の撮像部を含み、
 上記認識位置取得部は、上記第2の撮像部により撮像される上記ユーザが上記第2の位置を注視する様子の撮像画像を用いて上記第2の位置の情報を取得する
 情報処理装置。
(10)
 上記(7)から(9)のいずれか1つに記載の情報処理装置であって、
 上記センサ部からのセンサ情報を用いて上記音出力装置の姿勢情報を取得する姿勢取得部を更に具備し、
 上記姿勢情報を基に、上記比較結果に基づく音声の仮想音源の位置の制御の実行の有無が決定される
 情報処理装置。
(11)
 上記(6)から(10)のいずれか1つに記載の情報処理装置であって、
 上記認識位置取得部は、上記音出力装置とは別の外部センサで撮像される上記ユーザが上記第2の位置を指し示す様子の撮像画像を用いて上記第2の位置の情報を取得する
 情報処理装置。
(12)
 上記(11)に記載の情報処理装置であって、
 上記認識位置取得部は、上記外部センサにより撮像される上記ユーザにより把持される機器を含む撮像画像を用いて上記第2の位置の情報を取得する
 情報処理装置。
(13)
 上記(6)から(12)のいずれか1つに記載の情報処理装置であって、
 上記認識位置取得部は、上記ユーザにより把持される位置測位部を備える機器の位置測位結果を用いて上記第2の位置の情報を取得する
 情報処理装置。
(14)
 上記(1)から(13)のいずれか1つに記載の情報処理装置であって、
 上記出力パラメータ計算部は、上記ユーザにより選択される上記仮想音源を上記第1の位置とするか上記第2の位置とするかの選択結果を基に、上記出力パラメータを算出する
 情報処理装置。
(15)
 予め測定されたユーザの頭部伝達関数を用いて上記ユーザの周りの空間の第1の位置にある仮想音源から出力される音声を生成し、
 上記音声を聴取した上記ユーザが上記仮想音源の位置として認識した上記空間の第2の位置の情報を取得し、
 上記第1の位置と上記第2の位置とを比較し、
 上記比較結果に基づき上記ユーザに向けて出力される音声の仮想音源の位置を制御する
 情報処理方法。
(16)
 予め測定されたユーザの頭部伝達関数を用いて上記ユーザの周りの空間の第1の位置にある仮想音源から出力される音声を生成するステップと、
 上記音声を聴取した上記ユーザが上記仮想音源の位置として認識した上記空間の第2の位置の情報を取得するステップと、
 上記第1の位置と上記第2の位置とを比較するステップと、
 上記比較結果に基づき上記ユーザに向けて出力される音声の仮想音源の位置を制御するステップ
 を含む処理を情報処理装置に実行させるためのプログラム。
(17)
 予め測定されたユーザの頭部伝達関数を用いて上記ユーザの周りの空間の第1の位置にある仮想音源から出力される音声を生成する出力処理部と、
 上記音声を聴取した上記ユーザが上記仮想音源の位置として認識した上記空間の第2の位置の情報を取得する認識位置取得部と、
 上記第1の位置と上記第2の位置とを比較する比較部と、
 上記出力処理部によって制御された音声を上記ユーザに向けて出力する音出力部と
 を具備し、
 上記出力処理部は、上記比較部による比較結果に基づき上記ユーザに向けて出力される音声の仮想音源の位置を制御する
 情報処理システム。
 1…ヘッドマウントディスプレイ(情報処理装置、音出力装置)
 2…センサ部
 6…スピーカ(音出力部)
 10…情報処理システム
 11…第1の位置にある仮想音源
 12…認識仮想音源(第2の位置にある仮想音源)
 13、14…外部観測カメラ(外部センサ)
 15…ハンドコントローラ(機器)
 20…外向きカメラ(第1の撮像部)
 21…内向きカメラ(第2の撮像部)
 44…出力パラメータ計算部
 45…出力処理部
 49…ユーザ認識位置取得部(認識位置取得部)
 50…比較部
 P1…第1の位置
 P2…第2の位置
 U…ユーザ
 V…立体音響空間(ユーザの周りの空間)

Claims (17)

  1.  予め測定されたユーザの頭部伝達関数を用いて前記ユーザの周りの空間の第1の位置にある仮想音源から出力される音声を生成する出力処理部と、
     前記音声を聴取した前記ユーザが前記仮想音源の位置として認識した前記空間の第2の位置の情報を取得する認識位置取得部と、
     前記第1の位置と前記第2の位置とを比較する比較部と
     を具備し、
     前記出力処理部は、前記比較部による比較結果に基づき前記ユーザに向けて出力される音声の仮想音源の位置を制御する
     情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記出力処理部は、前記頭部伝達関数を用いて、互いに座標位置が異なる複数の前記第1の位置にある仮想音源それぞれから出力される複数の音声を生成し、
     前記認識位置取得部は、前記複数の音声を聴取した前記ユーザが、音声毎に前記仮想音源の位置として認識した複数の前記第2の位置の情報を取得する
     情報処理装置。
  3.  請求項1に記載の情報処理装置であって、
     前記仮想音源は移動音源である
     情報処理装置。
  4.  請求項2又は請求項3に記載の情報処理装置であって、
     前記比較部による比較結果に基づいて、前記ユーザに向けて出力される音声の出力パラメータを算出する出力パラメータ計算部
     を更に具備し、
     前記出力処理部は、前記出力パラメータ計算部により算出される出力パラメータに従って前記ユーザに向けて出力される音声の仮想音源の位置を制御する
     情報処理装置。
  5.  請求項4に記載の情報処理装置であって、
     前記出力パラメータ計算部は、前記第1の位置と前記第2の位置とのずれを補正するように前記出力パラメータを算出する
     情報処理装置。
  6.  請求項5に記載の情報処理装置であって、
     前記出力処理部により制御される音声は、前記ユーザに装着され、前記ユーザの耳近傍に音出力部が位置する音出力装置の前記音出力部に供給される
     情報処理装置。
  7.  請求項6に記載の情報処理装置であって、
     前記音出力装置は、前記ユーザ及び前記ユーザの周りの情報を検出するセンサ部を備え、
     前記認識位置取得部は、前記センサ部からのセンサ情報を用いて前記第2の位置の情報を取得する
     情報処理装置。
  8.  請求項7に記載の情報処理装置であって、
     前記センサ部は、前記ユーザの周りを撮像する第1の撮像部を含み、
     前記認識位置取得部は、前記第1の撮像部により撮像される前記ユーザが前記第2の位置を指し示す様子の撮像画像を用いて前記第2の位置の情報を取得する
     情報処理装置。
  9.  請求項7に記載の情報処理装置であって、
     前記センサ部は、前記ユーザの目を撮像する第2の撮像部を含み、
     前記認識位置取得部は、前記第2の撮像部により撮像される前記ユーザが前記第2の位置を注視する様子の撮像画像を用いて前記第2の位置の情報を取得する
     情報処理装置。
  10.  請求項7に記載の情報処理装置であって、
     前記センサ部からのセンサ情報を用いて前記音出力装置の姿勢情報を取得する姿勢取得部を更に具備し、
     前記姿勢情報を基に、前記比較結果に基づく音声の仮想音源の位置の制御の実行の有無が決定される
     情報処理装置。
  11.  請求項6に記載の情報処理装置であって、
     前記認識位置取得部は、前記音出力装置とは別の外部センサで撮像される前記ユーザが前記第2の位置を指し示す様子の撮像画像を用いて前記第2の位置の情報を取得する
     情報処理装置。
  12.  請求項11に記載の情報処理装置であって、
     前記認識位置取得部は、前記外部センサにより撮像される前記ユーザにより把持される機器を含む撮像画像を用いて前記第2の位置の情報を取得する
     情報処理装置。
  13.  請求項6に記載の情報処理装置であって、
     前記認識位置取得部は、前記ユーザにより把持される位置測位部を備える機器の位置測位結果を用いて前記第2の位置の情報を取得する
     情報処理装置。
  14.  請求項7に記載の情報処理装置であって、
     前記出力パラメータ計算部は、前記ユーザにより選択される前記仮想音源を前記第1の位置とするか前記第2の位置とするかの選択結果を基に、前記出力パラメータを算出する
     情報処理装置。
  15.  予め測定されたユーザの頭部伝達関数を用いて前記ユーザの周りの空間の第1の位置にある仮想音源から出力される音声を生成し、
     前記音声を聴取した前記ユーザが前記仮想音源の位置として認識した前記空間の第2の位置の情報を取得し、
     前記第1の位置と前記第2の位置とを比較し、
     前記比較結果に基づき前記ユーザに向けて出力される音声の仮想音源の位置を制御する
     情報処理方法。
  16.  予め測定されたユーザの頭部伝達関数を用いて前記ユーザの周りの空間の第1の位置にある仮想音源から出力される音声を生成するステップと、
     前記音声を聴取した前記ユーザが前記仮想音源の位置として認識した前記空間の第2の位置の情報を取得するステップと、
     前記第1の位置と前記第2の位置とを比較するステップと、
     前記比較結果に基づき前記ユーザに向けて出力される音声の仮想音源の位置を制御するステップ
     を含む処理を情報処理装置に実行させるためのプログラム。
  17.  予め測定されたユーザの頭部伝達関数を用いて前記ユーザの周りの空間の第1の位置にある仮想音源から出力される音声を生成する出力処理部と、
     前記音声を聴取した前記ユーザが前記仮想音源の位置として認識した前記空間の第2の位置の情報を取得する認識位置取得部と、
     前記第1の位置と前記第2の位置とを比較する比較部と、
     前記出力処理部によって生成された音声を前記ユーザに向けて出力する音出力部と
     を具備し、
     前記出力処理部は、前記比較部による比較結果に基づき前記ユーザに向けて出力される音声の仮想音源の位置を制御する
     情報処理システム。
PCT/JP2019/022523 2018-08-08 2019-06-06 情報処理装置、情報処理方法、プログラム及び情報処理システム WO2020031486A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE112019003962.8T DE112019003962T5 (de) 2018-08-08 2019-06-06 Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren, programm und informationsverarbeitungssystem
US17/250,521 US11785411B2 (en) 2018-08-08 2019-06-06 Information processing apparatus, information processing method, and information processing system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018149365 2018-08-08
JP2018-149365 2018-08-08

Publications (1)

Publication Number Publication Date
WO2020031486A1 true WO2020031486A1 (ja) 2020-02-13

Family

ID=69414689

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/022523 WO2020031486A1 (ja) 2018-08-08 2019-06-06 情報処理装置、情報処理方法、プログラム及び情報処理システム

Country Status (3)

Country Link
US (1) US11785411B2 (ja)
DE (1) DE112019003962T5 (ja)
WO (1) WO2020031486A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023074852A1 (ja) * 2021-10-29 2023-05-04 株式会社Nttドコモ 情報処理装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022153776A (ja) * 2021-03-30 2022-10-13 セイコーエプソン株式会社 装着型画像表示装置
DE102023002174B3 (de) 2023-05-30 2024-05-08 Mercedes-Benz Group AG Verfahren zum Kalibrieren eines fahrzeugintegrierten binauralen 3D-Audiosystems und Fahrzeug

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014116722A (ja) * 2012-12-07 2014-06-26 Sony Corp 機能制御装置およびプログラム
WO2017029793A1 (ja) * 2015-08-20 2017-02-23 株式会社Jvcケンウッド 頭外定位処理装置、及びフィルタ選択方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100831936B1 (ko) * 2006-06-15 2008-05-26 한국과학기술연구원 휴머노이드용 음원 위치 측정 장치
JP4735993B2 (ja) 2008-08-26 2011-07-27 ソニー株式会社 音声処理装置、音像定位位置調整方法、映像処理装置及び映像処理方法
JP6357884B2 (ja) * 2014-06-02 2018-07-18 ヤマハ株式会社 位置特定装置およびオーディオ装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014116722A (ja) * 2012-12-07 2014-06-26 Sony Corp 機能制御装置およびプログラム
WO2017029793A1 (ja) * 2015-08-20 2017-02-23 株式会社Jvcケンウッド 頭外定位処理装置、及びフィルタ選択方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023074852A1 (ja) * 2021-10-29 2023-05-04 株式会社Nttドコモ 情報処理装置

Also Published As

Publication number Publication date
DE112019003962T5 (de) 2021-05-06
US20210297805A1 (en) 2021-09-23
US11785411B2 (en) 2023-10-10

Similar Documents

Publication Publication Date Title
KR102626821B1 (ko) 고정-거리 가상 및 증강 현실 시스템들 및 방법들
KR101845350B1 (ko) 두부 장착형 표시 장치 및 두부 장착형 표시 장치의 제어 방법
US9384737B2 (en) Method and device for adjusting sound levels of sources based on sound source priority
US20170277257A1 (en) Gaze-based sound selection
KR102056221B1 (ko) 시선인식을 이용한 장치 연결 방법 및 장치
US11234096B2 (en) Individualization of head related transfer functions for presentation of audio content
US20170070730A1 (en) Imaging apparatus and imaging method
WO2020031486A1 (ja) 情報処理装置、情報処理方法、プログラム及び情報処理システム
US11487354B2 (en) Information processing apparatus, information processing method, and program
US11234092B2 (en) Remote inference of sound frequencies for determination of head-related transfer functions for a user of a headset
CN112313969A (zh) 基于监视到的针对音频内容的响应定制头部相关传递函数
US11409360B1 (en) Biologically-constrained drift correction of an inertial measurement unit
JP2022546161A (ja) 個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること
US11659043B1 (en) Systems and methods for predictively downloading volumetric data
US20230053497A1 (en) Systems and methods for performing eye-tracking
JP6638325B2 (ja) 表示装置、及び、表示装置の制御方法
JP2016090853A (ja) 表示装置、表示装置の制御方法、及び、プログラム
CN111566597A (zh) 信息处理设备、信息处理方法和程序
JP2019004471A (ja) 頭部装着型表示装置および頭部装着型表示装置の制御方法
US11815692B1 (en) Apparatus, system, and method for blocking light from eyecups
US20230308753A1 (en) Camera system for focusing on and tracking objects
WO2023249073A1 (ja) 情報処理装置、ディスプレイデバイス、情報処理方法、及びプログラム
US20220350141A1 (en) Head-mountable display apparatus and methods
WO2023031633A1 (en) Online calibration based on deformable body mechanics
TW202310618A (zh) 在穿戴裝置中使用嵌入式電極之眼睛追蹤

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19846562

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 19846562

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP