WO2022220182A1 - 情報処理方法、プログラム、及び情報処理システム - Google Patents

情報処理方法、プログラム、及び情報処理システム Download PDF

Info

Publication number
WO2022220182A1
WO2022220182A1 PCT/JP2022/017168 JP2022017168W WO2022220182A1 WO 2022220182 A1 WO2022220182 A1 WO 2022220182A1 JP 2022017168 W JP2022017168 W JP 2022017168W WO 2022220182 A1 WO2022220182 A1 WO 2022220182A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
virtual space
virtual
user
obstacle
Prior art date
Application number
PCT/JP2022/017168
Other languages
English (en)
French (fr)
Inventor
成悟 榎本
耕 水野
智一 石川
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to CN202280024886.6A priority Critical patent/CN117063489A/zh
Priority to JP2023514621A priority patent/JPWO2022220182A1/ja
Priority to EP22788107.5A priority patent/EP4325888A1/en
Publication of WO2022220182A1 publication Critical patent/WO2022220182A1/ja
Priority to US18/376,619 priority patent/US20240031757A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Definitions

  • the present disclosure relates to an information processing method, program, and information processing system for generating a virtual space for sound.
  • Patent Document 1 discloses a method and system for rendering audio on headphones with head tracking enabled.
  • An object of the present disclosure is to provide an information processing method and the like capable of reducing the processing time required to reproduce stereoscopic sound for the user to perceive.
  • An information processing method acquires space information representing the shape of a virtual space including a sound source object that emits a predetermined sound and obstacles.
  • the information processing method acquires position information representing the position and orientation of the user in the virtual space.
  • the information processing method determines a position of a virtual reflecting surface that reflects the predetermined sound in the virtual space based on the position and orientation of the user in the virtual space and the position of the obstacle.
  • a program according to one aspect of the present disclosure causes a computer to execute the information processing method.
  • an information processing system includes a spatial information acquisition section, a position information acquisition section, and a space generation section.
  • the spatial information acquisition unit acquires spatial information representing a shape of a virtual space including a sound source object that emits a predetermined sound and obstacles.
  • the position information acquisition unit acquires position information representing a user's position and orientation in the virtual space.
  • the space generation unit determines a position of a virtual reflecting surface that reflects the predetermined sound in the virtual space based on the position and orientation of the user in the virtual space and the position of the obstacle. Generate a virtual space of
  • FIG. 1 is a schematic diagram showing a usage example of a sound reproduction device according to an embodiment.
  • FIG. 2 is a block diagram showing the functional configuration of the sound reproducing device including the information processing system according to the embodiment.
  • FIG. 3 is an explanatory diagram of stereoscopic sound reproduction processing using the head impulse response according to the embodiment.
  • FIG. 4 is a schematic diagram showing an example of reflected sound according to the embodiment.
  • FIG. 5 is a schematic diagram showing an example of an indoor impulse response according to the embodiment.
  • FIG. 6 is a schematic diagram showing a first generation example of a virtual space for sound according to the embodiment.
  • FIG. 7 is a schematic diagram showing a second generation example of the virtual space for sound according to the embodiment.
  • FIG. 1 is a schematic diagram showing a usage example of a sound reproduction device according to an embodiment.
  • FIG. 2 is a block diagram showing the functional configuration of the sound reproducing device including the information processing system according to the embodiment.
  • FIG. 3 is an explanatory diagram of stere
  • FIG. 8 is a schematic diagram showing a third generation example of the virtual space for sound according to the embodiment.
  • FIG. 9 is a schematic diagram showing a fourth generation example of the virtual space for sound according to the embodiment.
  • FIG. 10 is a flowchart illustrating an operation example of the information processing system according to the embodiment.
  • FIG. 11 is a schematic diagram showing an example of an acoustic virtual space according to a modification of the embodiment.
  • a virtual three-dimensional space (hereinafter referred to as "virtual space"), by controlling the position of a sound image, which is a sound source object on the user's senses, it relates to sound reproduction for allowing the user to perceive stereoscopic sound.
  • a technique is known (see, for example, Patent Document 1). By localizing a sound image at a predetermined position in the virtual space, the user perceives the sound as if it were coming from a direction parallel to a straight line connecting the predetermined position and the user (that is, a predetermined direction). be able to.
  • VR virtual reality
  • the focus is on enabling the user to feel as if the user is moving in the virtual space, without the position of the virtual space following the movement of the user.
  • attempts have been made to enhance the sense of reality by incorporating auditory elements into visual elements.
  • methods for simulating acoustic characteristics in a virtual space with a relatively small amount of computation include methods based on geometric acoustic theory, such as the sound ray method or the virtual image method.
  • geometric acoustic theory such as the sound ray method or the virtual image method.
  • the present disclosure by reducing the processing load required to generate the room impulse response, it is possible to reduce the processing time required to reproduce stereoscopic sound for the user to perceive.
  • the purpose is to provide an information processing method and the like.
  • an information processing method acquires space information representing the shape of a virtual space including a sound source object that emits a predetermined sound and obstacles, and obtains the position and position of the user in the virtual space. Acquiring position information representing a direction, and determining a position of a virtual reflecting surface on which the predetermined sound is reflected in the virtual space based on the position and direction of the user in the virtual space and the position of the obstacle , to generate a virtual space for the sound.
  • the obstacle is converted to the virtual reflecting surface in the acoustic virtual space.
  • the processing load required to calculate the acoustic characteristics it is possible to reduce the processing time required to reproduce stereoscopic sound for the user to perceive.
  • the position of the virtual reflecting surface is determined based on whether the obstacle is in front of or behind the user in the virtual space.
  • the The position of the virtual reflecting surface along the depth direction with respect to the user in the virtual space is determined as the position of the obstacle.
  • the position of the virtual reflecting surface in the virtual space for sound is determined based on the position of the obstacle that the user can visually grasp.
  • the user when the obstacle is behind the user and on a straight line connecting the user and the sound source object, the user is used as a reference in the virtual space.
  • a position of the virtual reflective surface along the lateral direction is determined to the position of the obstacle.
  • the position of the virtual reflecting surface in the virtual space for sound is determined based on the position of the obstacle that can most affect the sound that the user can perceive, among the obstacles behind the user.
  • a geometric acoustic simulation using a virtual image method is used to generate a room impulse response for the sound source object, and the room impulse response and the head impulse response generated for the predetermined sound are generated. to generate a sound signal for perception by the user.
  • the reflectance of the predetermined sound on the virtual reflection surface is set to the reflectance of the predetermined sound on the obstacle positioned on the virtual reflection surface.
  • the reflectance of the predetermined sound on the virtual reflection surface is set.
  • a program according to one aspect of the present disclosure causes a computer to execute the above information processing method.
  • an information processing system includes a spatial information acquisition section, a position information acquisition section, and a space generation section.
  • the spatial information acquisition unit acquires spatial information representing a shape of a virtual space including a sound source object that emits a predetermined sound and obstacles.
  • the position information acquisition unit acquires position information representing a user's position and orientation in the virtual space.
  • the space generation unit determines a position of a virtual reflecting surface that reflects the predetermined sound in the virtual space based on the position and orientation of the user in the virtual space and the position of the obstacle. Generate a virtual space of
  • FIG. 1 is a schematic diagram showing a usage example of a sound reproduction device according to an embodiment.
  • a user U1 who uses the sound reproduction device 100 is shown.
  • the sound reproducing device 100 shown in FIG. 1 is used simultaneously with the stereoscopic video reproducing device 200.
  • the user U1 enhances the auditory presence of the image and enhances the visual presence of the sound. You can feel like you are there. For example, when an image (moving image) of a person having a conversation is displayed, even if the localization of the sound image of the conversation sound deviates from the person's mouth, the user U1 may are known to be perceived as conversational sounds. In this way, visual information may be used to correct the position of the sound image, and the sense of presence may be enhanced by combining the image and the sound.
  • the stereoscopic video playback device 200 is an image display device worn on the head of the user U1. Therefore, the stereoscopic video playback device 200 moves integrally with the head of the user U1.
  • the stereoscopic video playback device 200 is a glasses-type device that is supported by the ears and nose of the user U1.
  • the stereoscopic video playback device 200 changes the displayed image according to the movement of the head of the user U1, thereby making it appear that the user U1 is moving his/her head in the virtual space VS1 (see FIG. 4, etc.). . That is, when an object in the virtual space VS1 is positioned in front of the user U1, when the user U1 turns to the right, the object moves to the left of the user U1, and when the user U1 turns to the left, the object moves to the left of the user U1. Move to the right of the user. In this way, the stereoscopic video playback device 200 moves the virtual space VS1 in the direction opposite to the movement of the user U1 in response to the movement of the user U1.
  • the stereoscopic video playback device 200 displays two images with disparity in parallax between the left and right eyes of the user U1.
  • the user U1 can perceive the three-dimensional position of the object on the image based on the parallax shift of the displayed image.
  • the sound reproduction device 100 is a sound presentation device worn on the head of the user U1. Therefore, the sound reproducing device 100 moves integrally with the head of the user U1.
  • the sound reproduction device 100 in the embodiment is a so-called over-ear headphone type device.
  • the form of the sound reproduction device 100 is not particularly limited, and for example, it may be two earplug-type devices that are independently worn on the left and right ears of the user U1. The two devices communicate with each other to synchronously present sounds for the right and left ears.
  • the sound reproduction device 100 changes the sound to be presented according to the movement of the user U1's head, thereby making the user U1 perceive that the user U1 is moving his/her head within the virtual space VS1. Therefore, as described above, the sound reproduction device 100 moves the virtual space VS1 in the direction opposite to the movement of the user U1.
  • FIG. 2 is a block diagram showing the functional configuration of the sound reproducing device 100 including the information processing system 10 according to the embodiment.
  • the sound reproducing device 100 according to the embodiment includes a processing module 1, a communication module 2, a detector 3, and a driver 4.
  • the processing module 1 is an arithmetic device for performing various signal processing in the sound reproduction device 100.
  • the processing module 1 includes, for example, a processor and a memory, and the processor executes a program stored in the memory. and perform various functions.
  • the processing module 1 includes a spatial information acquisition unit 11, a position information acquisition unit 12, a space generation unit 13, an RIR generation unit 14, a sound information acquisition unit 15, a sound signal generation unit 16, an output unit 17, It functions as an information processing system 10 having Details of each functional unit of the information processing system 10 will be described below together with details of the configuration other than the processing module 1 .
  • the communication module 2 is an interface device for receiving input of sound information and input of spatial information to the sound reproduction device 100 .
  • the communication module 2 includes, for example, an antenna and a signal converter, and receives sound information and spatial information from an external device by wireless communication. More specifically, the communication module 2 uses an antenna to receive a radio signal indicating audio information converted into a format for wireless communication, and reconverts the radio signal into audio information using a signal converter. . As a result, the sound reproducing device 100 acquires sound information from an external device through wireless communication. Similarly, the communication module 2 uses an antenna to receive a radio signal indicating spatial information converted into a format for radio communication, and uses a signal converter to reconvert the radio signal into spatial information.
  • the sound reproduction device 100 acquires spatial information from an external device by wireless communication.
  • the sound information and spatial information acquired by the communication module 2 are acquired by the sound information acquiring section 15 and the spatial information acquiring section 11 of the processing module 1, respectively.
  • Communication between the sound reproduction device 100 and an external device may be performed by wired communication.
  • the sound information acquired by the sound reproduction device 100 is encoded in a predetermined format such as MPEG-H 3D Audio (ISO/IEC 23008-3).
  • the encoded sound information includes information about a predetermined sound reproduced by the sound reproduction device 100.
  • FIG. The predetermined sound referred to here is a sound emitted by the sound source object A1 (see FIG. 3, etc.) existing in the virtual space VS1, and may include, for example, natural environmental sounds, mechanical sounds, or sounds of animals including humans. Note that when a plurality of sound source objects A1 exist in the virtual space VS1, the sound reproduction device 100 acquires a plurality of sound information corresponding to the plurality of sound source objects A1.
  • the detector 3 is a device for detecting the movement speed of the head of the user U1.
  • the detector 3 is configured by combining various sensors used for motion detection, such as a gyro sensor or an acceleration sensor.
  • the detector 3 is built in the sound reproducing device 100, but for example, the detector 3 may be installed in an external device such as the stereoscopic video reproducing device 200 that operates in accordance with the movement of the head of the user U1, similarly to the sound reproducing device 100. may be incorporated in the device of In this case, detector 3 may not be included in sound reproduction device 100 .
  • the motion of the user U1 may be detected by using an external imaging device or the like as the detector 3 to capture an image of the movement of the user's U1 head and processing the captured image.
  • the detector 3 is, for example, integrally fixed to the housing of the sound reproduction device 100 and detects the speed of movement of the housing. After being worn by the user U1, the sound reproducing device 100 including the housing described above moves integrally with the head of the user U1, so the detector 3 detects the movement speed of the head of the user U1 as a result. can do.
  • the detector 3 may detect the amount of rotation about at least one of the three mutually orthogonal axes in the virtual space VS1 as the amount of movement of the head of the user U1. You may detect the displacement amount which makes at least one of the displacement directions. Further, the detector 3 may detect both the amount of rotation and the amount of displacement as the amount of movement of the head of the user U1.
  • the driver 4 has a driver for the right ear of the user U1 and a driver for the left ear of the user U1.
  • Each of the right ear driver and the left ear driver has, for example, a diaphragm and a driving mechanism such as a magnet or a voice coil.
  • the driver for the right ear operates the driving mechanism according to the sound signal for the right ear, and vibrates the diaphragm by the driving mechanism.
  • the driver for the left ear operates the driving mechanism according to the sound signal for the left ear, and causes the driving mechanism to vibrate the diaphragm. In this way, each driver generates a sound wave by vibrating the diaphragm according to the sound signal, and the sound wave propagates through the air or the like and is transmitted to the ear of the user U1, and the user U1 perceives the sound.
  • the spatial information acquisition unit 11 acquires spatial information representing the shape of the virtual space VS1 including the sound source object A1 that emits a predetermined sound and the obstacle B1 (see FIG. 6, etc.).
  • the obstacle B1 blocks the predetermined sound, reflects the predetermined sound, etc. until the predetermined sound emitted by the sound source object A1 reaches the user U1. It is an object that can affect various sounds.
  • Obstacles B1 may include stationary objects, animals such as humans, or moving objects such as machines. Also, when a plurality of sound source objects A1 exist in the virtual space VS1, for an arbitrary sound source object A1, other sound source objects A1 become obstacles B1.
  • the space information includes mesh information representing the shape of the virtual space VS1, the shape and position of the obstacle B1 existing in the virtual space VS1, and the shape and position of the sound source object A1 existing in the virtual space VS1.
  • the virtual space VS1 may be either a closed space or an open space, but is explained here as a closed space.
  • the space information also includes information representing the reflectance of structures that can reflect sound in the virtual space VS1, such as the floor, walls, or ceiling, and the reflectance of the obstacle B1 existing in the virtual space VS1. .
  • the reflectance is the energy ratio between the reflected sound and the incident sound, and is set for each sound frequency band. Of course, the reflectance may be set uniformly regardless of the frequency band of sound.
  • the mesh density of the virtual space VS1 may be smaller than the mesh density of the virtual space VS1 used in the stereoscopic video playback device 200.
  • a plane containing unevenness may be represented by a simple plane without unevenness, and the shape of an object existing in the virtual space VS1 may also be a sphere. It may be represented by a simple shape such as
  • the position information acquisition unit 12 acquires the movement speed of the user U1's head from the detector 3. More specifically, the position information acquisition unit 12 acquires the amount of movement of the user U1's head detected by the detector 3 per unit time as the movement speed. In this manner, the position information acquisition unit 12 acquires at least one of the rotation speed and displacement speed from the detector 3 .
  • the amount of movement of the user U1's head obtained here is used to determine the coordinates and orientation of the user U1 within the virtual space VS1. That is, the position information acquisition unit 12 acquires position information representing the position and orientation of the user U1 in the virtual space VS1.
  • the space generation unit 13 determines the position of the virtual reflecting surface on which the predetermined sound is reflected in the virtual space VS1.
  • a virtual space VS2 (see FIG. 6, etc.) is generated. That is, when the obstacle B1 exists in the virtual space VS1, the space generation unit 13 changes the position of the virtual reflecting surface in the virtual space VS1 according to the position of the obstacle B1. Create a virtual space VS2 for different sounds. Note that the space generator 13 does not change the position of the virtual reflecting surface in the virtual space VS1 when the obstacle B1 does not exist in the virtual space VS1. In this case, the virtual space VS2 for sound is the same as the virtual space VS1.
  • the position of the virtual reflection surface is determined based on whether the obstacle B1 is in front of or behind the user U1 in the virtual space VS1.
  • a specific example of generating the virtual space VS2 for sound will be described in detail later in [Example of generating virtual space for sound].
  • the RIR generation unit 14 generates a room impulse response for the sound source object A1 in the acoustic virtual space VS2 generated by the space generation unit 13 by geometric acoustic simulation using the virtual image method.
  • FIG. 3 is an explanatory diagram of stereoscopic sound reproduction processing using the head impulse response according to the embodiment.
  • the sound heard by the right ear of the user U1 is the sound generated by the driver 4 in response to the sound signal for the right ear.
  • the sound heard by the left ear of the user U1 is the sound generated by the driver 4 in response to the sound signal for the left ear.
  • the sound signal for the right ear is generated by convolving the head impulse response HRIRR and the room impulse response for the right ear with the predetermined sound emitted by the sound source object A1.
  • a sound signal for the left ear is generated by convolving a head impulse response HRIRL and a room impulse response for the left ear with a predetermined sound emitted by the sound source object A1.
  • the RIR generator 14 generates a room impulse response for the sound source object A1 by geometric acoustic simulation using the virtual image method.
  • FIG. 4 is a schematic diagram showing an example of reflected sound according to the embodiment.
  • the acoustic virtual space VS2 is a rectangular parallelepiped space.
  • the center of the head of the user U1 is the sound receiving point.
  • the acoustic virtual space VS2 is a space surrounded by four walls in plan view. These four walls respectively correspond to four virtual reflecting surfaces VS21 to VS24 in the acoustic virtual space VS2. That is, the virtual space VS2 for sound is surrounded by virtual reflecting surfaces VS21, VS22, VS23, and VS24 located in front, behind, left, and right of the user U1, respectively.
  • the room impulse response includes the direct sound SW1 arriving at the position of the user U1 when sound is emitted from the sound source object A1, the initial reflected sounds including the primary reflected sounds SW11 to SW14 on the virtual reflecting surfaces VS21 to VS24, and the reverberation.
  • the initial reflected sound includes only the primary reflected sound on each of the virtual reflection surfaces VS21 to VS24, but may include secondary reflected sound.
  • the primary reflected sounds SW11 to SW14 and the reverberation are expressed as direct sounds from the imaginary sound source objects A11 to A14, respectively. That is, the primary reflected sound SW11 is expressed as a direct sound from the imaginary sound source object A11, which is plane-symmetrical with the sound source object A1 with respect to the virtual reflection surface VS21. Also, the primary reflected sound SW12 is expressed as a direct sound from the imaginary sound source object A12, which is plane-symmetrical to the sound source object A1 with respect to the virtual reflection surface VS22.
  • the primary reflected sound SW13 is expressed as a direct sound from the imaginary sound source object A13, which is plane-symmetrical to the sound source object A1 with respect to the virtual reflection surface VS23.
  • the primary reflected sound SW14 is represented as a direct sound from the imaginary sound source object A14, which is plane-symmetrical to the sound source object A1 with respect to the virtual reflection surface VS24.
  • the energy of the primary reflected sounds SW11 to SW14 is reduced from the energy of the direct sound SW1 according to the reflectances on the virtual reflection surfaces VS21 to VS24, respectively.
  • the reflectance of the virtual reflecting surface whose position is changed according to the obstacle B1 among the virtual reflecting surfaces VS21 to VS24 is set to the reflectance of the obstacle B1. be done. That is, in the generation of the indoor impulse response by the RIR generator 14, the reflectance of the predetermined sound on the virtual reflecting surface is set to the reflectance of the predetermined sound on the obstacle B1 positioned on the virtual reflecting surface.
  • the reflectance at the obstacle B1 is appropriately set according to the material, size, or the like of the obstacle B1.
  • FIG. 5 is a schematic diagram showing an example of indoor impulse responses according to the embodiment.
  • the vertical axis represents sound energy, and the horizontal axis represents time.
  • the room impulse response IR1 is the room impulse response corresponding to the direct sound SW1.
  • indoor impulse responses IR11, IR12, IR13, and IR14 are indoor impulse responses corresponding to the primary reflected sounds SW11, SW12, SW13, and SW14, respectively.
  • the reverberation Re1 in FIG. 5 may be generated by an appropriate geometric acoustic simulation based on the virtual space VS1 instead of the virtual space VS2 for sound, or by signal processing for generating reverberant sound.
  • the sound information acquisition unit 15 acquires the sound information acquired by the communication module 2. Specifically, the sound information acquisition unit 15 decodes the encoded sound information acquired by the communication module 2, thereby acquiring sound information in a format used for processing in the subsequent sound signal generation unit 16. .
  • the sound signal generation unit 16 convolves the room impulse response and the head impulse response generated by the RIR generation unit 14 with the predetermined sound emitted by the sound source object A1 included in the sound information acquired by the sound information acquisition unit 15.
  • a sound signal is generated for perception by the user U1.
  • the sound signal generation unit 16 responds to the predetermined sound emitted by the sound source object A1 by generating the room impulse response from the sound source object A1 to the position of the user U1 (here, direct sound SW1 and A sound signal for the right ear is generated by convolving the temporary reflected sounds SW11 to SW14) with the head impulse response HRIRR for the right ear.
  • the sound signal generation unit 16 convolves the room impulse response generated by the RIR generation unit 14 and the head impulse response HRIRL for the left ear with the predetermined sound emitted by the sound source object A1 to generate the Generate a sound signal.
  • the head impulse response for the right ear and the head impulse response for the left ear for example, refer to what is stored in advance in the memory of the processing module 1, or read out from an external database and refer to it. is possible.
  • the output unit 17 outputs the sound signal generated by the sound signal generation unit 16 to the driver 4 . Specifically, the output unit 17 outputs the sound signal for the right ear generated by the sound signal generation unit 16 to the driver for the right ear of the driver 4 . The output unit 17 also outputs the left ear sound signal generated by the sound signal generation unit 16 to the left ear driver of the driver 4 .
  • FIG. 6 is a schematic diagram showing a first generation example of the acoustic virtual space VS2 according to the embodiment.
  • FIG. 7 is a schematic diagram showing a second generation example of the acoustic virtual space VS2 according to the embodiment.
  • FIG. 8 is a schematic diagram showing a third generation example of the acoustic virtual space VS2 according to the embodiment.
  • FIG. 9 is a schematic diagram showing a fourth generation example of the acoustic virtual space VS2 according to the embodiment. The examples shown in FIGS.
  • FIGS. 6 to 9 are described assuming that the virtual space VS1 is a rectangular parallelepiped space. Also, here, it is assumed that there is no reflection of sound on the floor and ceiling of the virtual space VS1. Also, in each of FIGS. 6 to 9, dashed lines passing through both ears of user U1 indicate the front and rear boundaries of user U1. Also, in each of FIGS. 6 to 9, it is assumed that the sound source object A1 exists in front of the user U1.
  • the virtual space VS1 is a space surrounded by four walls in plan view. These four walls respectively correspond to four virtual reflecting surfaces VS11 to VS14 in the virtual space VS1.
  • the virtual space VS1 is surrounded by virtual reflecting surfaces VS11, VS12, VS13, and VS14 located in front, behind, left, and right of the user U1, respectively.
  • two obstacles B11 and B12 exist in the virtual space VS1. Both of the two obstacles B11 and B12 exist behind the user U1.
  • One obstacle B11 of the two obstacles B11 and B12 connects the user U1 and the sound source object A1 (specifically, connects the center of the head of the user U1 and the center of the sound source object A1). It exists on the straight line L1, and the other obstacle B12 does not exist on the straight line L1.
  • the space generation unit 13 determines the position of the virtual reflection surface VS22 in the acoustic virtual space VS2 based on the position of the obstacle B11 existing on the straight line L1. That is, the space generation unit 13 passes through the obstacle B11 (specifically, the center of the obstacle B11) that is parallel to the virtual reflection surface VS12 located behind the user U1 and that exists on the straight line L1. The position is determined as the position of the virtual reflecting surface VS22 in the acoustic virtual space VS2. In other words, in the first generation example, when the space generation unit 13 generates the acoustic virtual space VS2, the obstacle B11 is behind the user U1 and is on the straight line L1 connecting the user U1 and the sound source object A1. , the position of the virtual reflecting surface VS22 along the lateral direction with respect to the user U1 in the virtual space VS1 is determined as the position of the obstacle B11.
  • the acoustic virtual space VS2 includes virtual reflecting surfaces VS21, VS23, and VS24 at the same positions as the virtual reflecting surfaces VS11, VS13, and VS14 in the virtual space VS1, and a position passing through the obstacle B11.
  • the space is surrounded by the virtual reflecting surface VS22 at .
  • the second generation example is common to the first generation example in that two obstacles B11 and B12 exist in the virtual space VS1.
  • the second generation example differs from the first generation example in that one obstacle B11 deviates from the straight line L1 and the other obstacle B12 exists on the straight line L1 due to the movement of the user U1. .
  • the space generation unit 13 generates an obstacle B12 (specifically, a center) is determined as the position of the virtual reflecting surface VS22 in the acoustic virtual space VS2. Therefore, in the second generation example, the acoustic virtual space VS2 includes virtual reflecting surfaces VS21, VS23, and VS24 at the same positions as the virtual reflecting surfaces VS11, VS13, and VS14 in the virtual space VS1, and a position passing through the obstacle B12. The space is surrounded by the virtual reflecting surface VS22 at .
  • Obstacle B11 exists in the virtual space VS1. Obstacle B11 exists in front of user U1 and does not exist between user U1 and sound source object A1.
  • the space generation unit 13 determines the position of the virtual reflecting surface VS23 in the acoustic virtual space VS2 based on the position of the obstacle B11 that exists in front of the user U1. That is, the space generation unit 13 detects an obstacle B11 (specifically, the center of the obstacle B11) that is parallel to the virtual reflection surface VS13 positioned to the left of the user U1 and that exists in front of the user U1. is determined as the position of the virtual reflecting surface VS23 in the acoustic virtual space VS2.
  • the obstacle B11 is in front of the user U1 in the virtual space VS1, and the obstacle B11 is located between the user U1 and the sound source object A1.
  • the position of the virtual reflecting surface VS23 along the depth direction with respect to the user U1 in the virtual space VS1 is determined as the position of the obstacle B11.
  • the acoustic virtual space VS2 includes virtual reflecting surfaces VS21, VS22, and VS24 at the same positions as the virtual reflecting surfaces VS11, VS12, and VS14 in the virtual space VS1, and a position passing through the obstacle B11.
  • the space is surrounded by the virtual reflecting surface VS23 at .
  • the space generation unit 13 exists in parallel with the virtual reflection surface VS14 located on the right side of the user U1 and in front of the user U1.
  • a position passing through the obstacle B11 (specifically, the center of the obstacle B11) is determined as the position of the virtual reflecting surface VS24 in the acoustic virtual space VS2.
  • the space generator 13 passes through the obstacle B1 closest to the user U1 among the multiple obstacles B1.
  • the position is determined as the position of the virtual reflecting surface in the virtual space VS2 for acoustics.
  • the fourth generation example is common to the second generation example in that two obstacles B11 and B12 exist in the virtual space VS1.
  • the fourth generation example differs from the second generation example in that one obstacle B11 exists in front of the user U1 because the orientation of the user U1 is different from that in the second generation example.
  • the space generation unit 13 creates an obstacle B11 (specifically, an obstacle B11) is determined as the position of the virtual reflecting surface VS23 in the acoustic virtual space VS2.
  • the space generation unit 13 passes through an obstacle B12 (specifically, the center of the obstacle B12) that is parallel to the virtual reflection surface VS12 located behind the user U1 and that exists on the straight line L1. The position is determined as the position of the virtual reflecting surface VS22 in the acoustic virtual space VS2.
  • the virtual space VS2 for sound includes virtual reflecting surfaces VS11 and VS14 at the same positions as the virtual reflecting surfaces VS11 and VS14 in the virtual space VS1, and virtual reflecting surfaces VS11 and VS14 at positions passing through the obstacle B11.
  • the space is surrounded by the surface VS23 and the virtual reflection surface VS22 located at a position passing through the obstacle B12.
  • the position passing through the center of the obstacle is determined as the position of the virtual reflecting surface. Any position may be used, and the position does not necessarily have to pass through the center of the obstacle.
  • FIG. 10 is a flow chart showing an operation example of the information processing system 10 according to the embodiment.
  • the spatial information acquisition section 11 acquires spatial information via the communication module 2 (S1).
  • the position information acquisition unit 12 acquires position information by acquiring the movement speed of the head of the user U1 from the detector 3 (S2). Steps S1 and S2 are not limited to this order, and may be executed in reverse order, or may be executed simultaneously in parallel.
  • the space generation unit 13 generates a virtual space VS2 for sound based on the acquired space information and position information (S3). Specifically, in step S3, based on the position and orientation of the user U1 in the virtual space VS1 and the position of the obstacle B1, by determining the position of the virtual reflecting surface that reflects the predetermined sound in the virtual space VS1, A virtual space VS2 for sound is generated.
  • the virtual reflecting surface in the virtual space VS2 for sound is determined by translating the virtual reflecting surface in the virtual space VS1 according to the position of the obstacle B1. do.
  • the RIR generation unit 14 generates a room impulse response for the sound source object A1 by geometric acoustic simulation using the virtual image method in the generated virtual space VS2 for sound (S4). Also, the sound information acquisition unit 15 acquires sound information via the communication module 2 (S5). Steps S4 and S5 are not limited to this order, and may be executed in reverse order, or may be executed simultaneously in parallel. Further, step S5 may be executed at the same time as the position information is acquired in step S2.
  • the sound signal generation unit 16 convolves the room impulse response and the head impulse response generated by the RIR generation unit 14 with the predetermined sound emitted by the sound source object A1 included in the sound information acquired by the sound information acquisition unit 15.
  • a sound signal is generated (S6).
  • the sound signal generation unit 16 convolves the room impulse response generated by the RIR generation unit 14 and the head impulse response HRIRR for the right ear with the predetermined sound emitted by the sound source object A1, thereby generating the sound for the right ear. to generate a sound signal.
  • the sound signal generation unit 16 convolves the room impulse response generated by the RIR generation unit 14 and the head impulse response HRIRL for the left ear with the predetermined sound emitted by the sound source object A1, thereby generating a sound for the left ear. Generate a signal.
  • the output unit 17 outputs the sound signal generated by the sound signal generation unit 16 to the driver 4 (S7). Specifically, the output unit 17 outputs the sound signal for the right ear and the sound signal for the left ear generated by the sound signal generation unit 16 to the driver for the right ear and the driver for the left ear of the driver 4, respectively. do.
  • steps S1 to S7 are repeated while the sound reproduction device 100 is operating. Thereby, the user U1 can perceive the predetermined sound emitted by the sound source object A1 in the virtual space VS1 as a three-dimensional sound in real time.
  • the information processing system 10 (information processing method) according to the embodiment will be described below in comparison with the information processing system of the comparative example.
  • the information processing system of the comparative example differs from the information processing system 10 according to the embodiment in that the space generation unit 13 is not provided, that is, the virtual space VS2 for sound is not generated.
  • the information processing system of the comparative example is used, a room impulse response for the sound source object A1 is generated in the virtual space VS1 by geometric acoustic simulation using the virtual image method. In this case, it is necessary to calculate not only the reflection of the predetermined sound on the virtual reflecting surface in the virtual space VS1, but also the reflection of the predetermined sound on the obstacle B1. tend to be large.
  • the position of the virtual reflecting surface is determined based on the position and orientation of the user U1 in the virtual space VS1 and the position of the obstacle B1.
  • a virtual space VS2 for sound is generated. Therefore, when the information processing system 10 according to the embodiment is used, the room impulse response for the sound source object A1 is generated in the acoustic virtual space VS2 by geometric acoustic simulation using the virtual image method. In this case, since the obstacle B1 has been transformed into a virtual reflecting surface of the virtual space VS2 for sound, an operation for determining whether the reflection of the predetermined sound from the obstacle B1 reaches the listener within the predetermined number of reflections.
  • the information processing system 10 has the advantage of being able to reduce the processing time required to reproduce stereoscopic sound for the user U1 to perceive.
  • the processing load can be small. Therefore, it is easy to generate room impulse responses in real time. Further, in the information processing system 10 according to the embodiment, since it is easy to generate the room impulse response in real time, it is easy to reproduce the three-dimensional sound in real time for the user to perceive based on the head impulse response. , has the advantage of
  • the RIR generator 14 when there are a plurality of (here, two) obstacles B1 on the virtual reflecting surface of the virtual space VS2 for sound, the RIR generator 14 generates a predetermined The sound reflectance may be set according to the distance between the multiple obstacles B1.
  • the reflectance of the predetermined sound on the virtual reflection surface is the distance d1 between the plurality of obstacles B1 (Fig. 11 ) may be set accordingly.
  • FIG. 11 is a schematic diagram showing an example of an acoustic virtual space VS2 according to a modification of the embodiment.
  • the virtual space VS2 for sound is the same as the virtual space VS2 for sound generated in the fourth generation example described above.
  • an obstacle B13 exists in the virtual space VS1 in addition to the obstacles B11 and B12.
  • the obstacle B13 is arranged side by side with the obstacle B12 with an interval d1 on the virtual reflecting surface VS22 in the virtual space VS2 for sound.
  • the RIR generator 14 sets the reflectance of the predetermined sound on the virtual reflection surface VS22 according to the distance d1 between the two obstacles B12 and B13.
  • the reflectance of the predetermined sound on the virtual reflecting surface is set in consideration of the distance d1 between the plurality of obstacles B1, for example, the reflectance of the sound in the frequency band whose wavelength is longer than the distance d1 can be reduced. As a result, the sound in the frequency band that is difficult to pass between the plurality of obstacles B1 can be reflected in the reflectance of the predetermined sound on the virtual reflecting surface.
  • the RIR generation unit 14 changes the reflectance of the virtual reflection surface in the acoustic virtual space VS2 according to the position of the obstacle B1.
  • the reflectance of the virtual reflecting surface before the change may be set.
  • the space generation unit 13 determines the position of the obstacle B1 existing behind the user U1 as the position of the virtual reflecting surface in the virtual space VS2 for sound
  • the virtual space VS1 is Assume that the space is open and there is no virtual wall behind the obstacle B1.
  • the space generation unit 13 may determine the virtual reflection surface at a position that is parallel to the boundary surface indicating the front and rear boundaries of the user U1 and passes through the obstacle B1.
  • the sound reproducing device described in the above embodiments may be realized as one device having all the components, or each function is assigned to a plurality of devices, and the plurality of devices cooperate with each other. It may be realized by In the latter case, an information processing device such as a smart phone, a tablet terminal, or a PC may be used as the device corresponding to the processing module.
  • an information processing device such as a smart phone, a tablet terminal, or a PC may be used as the device corresponding to the processing module.
  • the sound reproduction device of the present disclosure can be connected to a reproduction device having only a driver, and can be realized as a sound processing device that only outputs sound signals to the reproduction device.
  • the sound processing device may be implemented as hardware including a dedicated circuit, or as software for causing a general-purpose processor to execute specific processing.
  • processing executed by a specific processing unit may be executed by another processing unit.
  • order of multiple processes may be changed, and multiple processes may be executed in parallel.
  • each component may be realized by executing a software program suitable for each component.
  • Each component may be implemented by a program execution unit such as a CPU (Central Processing Unit) or processor reading and executing a software program recorded in a recording medium such as a hard disk or semiconductor memory.
  • a program execution unit such as a CPU (Central Processing Unit) or processor reading and executing a software program recorded in a recording medium such as a hard disk or semiconductor memory.
  • each component may be realized by hardware.
  • each component may be a circuit (or integrated circuit). These circuits may form one circuit as a whole, or may be separate circuits. These circuits may be general-purpose circuits or dedicated circuits.
  • general or specific aspects of the present disclosure may be realized by an apparatus, method, integrated circuit, computer program, or recording medium such as a computer-readable CD-ROM. Also, general or specific aspects of the present disclosure may be implemented in any combination of devices, methods, integrated circuits, computer programs and recording media.
  • the present disclosure may be implemented as an information processing method executed by a computer, or may be implemented as a program for causing a computer to execute the information processing method.
  • the present disclosure may be implemented as a computer-readable non-transitory recording medium on which such programs are recorded.
  • the present disclosure is useful for sound reproduction, such as allowing the user to perceive stereoscopic sound.
  • processing module 10 information processing system 100 sound reproduction device 11 spatial information acquisition unit 12 position information acquisition unit 13 space generation unit 14 RIR generation unit 15 sound information acquisition unit 16 sound signal generation unit 17 output unit 2 communication module 200 stereoscopic video reproduction device 3 detector 4 driver A1 source object A11, A12, A13, A14 imaginary source object B1, B11, B12, B13 obstacle HRIRL left ear head impulse response HRIRR right ear head impulse response IR1, IR11, IR12 , IR13, IR14 head impulse response L1 straight line Re1 reverberation SW1 direct sound SW11, SW12, SW13, SW14 primary reflected sound U1 user VS1 virtual space VS11, VS12, VS13, VS14 virtual reflection surface VS2 virtual space for sound VS21, VS22, VS23, VS24 virtual reflecting surface

Abstract

情報処理方法は、所定音を発する音源オブジェクト、及び障害物を含む仮想空間の形状を表す空間情報を取得し(S1)、仮想空間におけるユーザの位置及び向きを表す位置情報を取得し(S2)、仮想空間におけるユーザの位置及び向き、並びに障害物の位置に基づいて、仮想空間において所定音が反射する仮想反射面の位置を決定することで、音響用の仮想空間を生成する(S3)。

Description

情報処理方法、プログラム、及び情報処理システム
 本開示は、音響用の仮想空間を生成するための情報処理方法、プログラム、及び情報処理システムに関する。
 特許文献1には、頭部追跡が可能にされるようにしてヘッドフォン上で音声をレンダリングするための方法およびシステムが開示されている。
特開2019-146160号公報
 本開示は、ユーザに知覚させるための立体的な音を再生するのに要する処理時間を低減することができる情報処理方法等を提供することを目的とする。
 本開示の一態様に係る情報処理方法は、所定音を発する音源オブジェクト、及び障害物を含む仮想空間の形状を表す空間情報を取得する。前記情報処理方法は、前記仮想空間におけるユーザの位置及び向きを表す位置情報を取得する。前記情報処理方法は、前記仮想空間における前記ユーザの位置及び向き、並びに前記障害物の位置に基づいて、前記仮想空間において前記所定音が反射する仮想反射面の位置を決定することで、音響用の仮想空間を生成する。
 また、本開示の一態様に係るプログラムは、前記情報処理方法をコンピュータに実行させる。
 また、本開示の一態様に係る情報処理システムは、空間情報取得部と、位置情報取得部と、空間生成部と、を備える。前記空間情報取得部は、所定音を発する音源オブジェクト、及び障害物を含む仮想空間の形状を表す空間情報を取得する。前記位置情報取得部は、前記仮想空間におけるユーザの位置及び向きを表す位置情報を取得する。前記空間生成部は、前記仮想空間における前記ユーザの位置及び向き、並びに前記障害物の位置に基づいて、前記仮想空間において前記所定音が反射する仮想反射面の位置を決定することで、音響用の仮想空間を生成する。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 本開示によれば、ユーザに知覚させるための立体的な音を再生するのに要する処理時間を低減することができる、という利点がある。
図1は、実施の形態に係る音響再生装置の使用事例を示す概略図である。 図2は、実施の形態に係る情報処理システムを含む音響再生装置の機能構成を示すブロック図である。 図3は、実施の形態に係る頭部インパルス応答を用いた立体的な音の再生処理の説明図である。 図4は、実施の形態に係る反射音の一例を示す概略図である。 図5は、実施の形態に係る室内インパルス応答の一例を示す概略図である。 図6は、実施の形態に係る音響用の仮想空間の第1生成例を示す概略図である。 図7は、実施の形態に係る音響用の仮想空間の第2生成例を示す概略図である。 図8は、実施の形態に係る音響用の仮想空間の第3生成例を示す概略図である。 図9は、実施の形態に係る音響用の仮想空間の第4生成例を示す概略図である。 図10は、実施の形態に係る情報処理システムの動作例を示すフローチャートである。 図11は、実施の形態の変形例に係る音響用の仮想空間の一例を示す概略図である。
 (本開示の基礎となった知見)
 従来、仮想的な三次元空間(以下、仮想空間という)内で、ユーザの感覚上の音源オブジェクトである音像の位置を制御することにより、立体的な音をユーザに知覚させるための音響再生に関する技術が知られている(例えば、特許文献1参照)。仮想空間内における所定位置に音像を定位させることで、ユーザは、当該所定位置とユーザとを結ぶ直線に平行な方向(すなわち所定方向)から到来する音であるかのごとく、この音を知覚することができる。このように仮想空間内の所定位置に音像を定位させるには、例えば、収音された音に対して、立体的な音として知覚されるような両耳間での音の到来時間差、及び、両耳間での音のレベル差などを生じさせる計算処理が必要となる。
 また、近年、仮想現実(VR:Virtual Reality)に関する技術の開発が盛んに行われている。仮想現実では、ユーザの動きに対して仮想空間の位置が追従せず、あたかもユーザが仮想空間内を移動しているように体感できることが主眼に置かれている。特に、この仮想現実の技術において視覚的な要素に聴覚的な要素を取り入れることで、より臨場感を高めるといった試みが行われている。
 ところで、このような仮想空間での音響特性を模擬する際に、仮想空間の形状に応じた室内インパルス応答(Room Impulse Response:RIR)を用いることで、仮想空間における音源オブジェクトの実在感、及び仮想空間の現実感を向上することが考えられる。仮想空間での音響特性を忠実に再現する方法としては、例えば境界要素法(Boundary Element Method)、有限要素法(Finite Element Method)、又は時間領域有限差分法(Finite-Difference Time-Domain method)等の波動音響理論に基づく方法が挙げられる。しかしながら、これらの方法では、演算量が膨大となりがちであり、複雑な仮想空間の形状に対して、特に高音域での室内インパルス応答を生成することが難しい、という問題がある。
 一方、比較的小さい演算量で仮想空間での音響特性を模擬する方法としては、例えば音線法又は虚像法等の幾何音響理論に基づく方法が挙げられる。しかしながら、これらの方法であっても、仮想空間が例えば音源オブジェクトが移動したり、ユーザが移動したりする6DoF(Degree of Freedom)環境においては、当該仮想空間に基づいて室内インパルス応答を実時間(リアルタイム)に演算して生成することは難しい、という問題がある。そして、室内インパルス応答を実時間で生成することが難しいために、ユーザに知覚させるための立体的な音を実時間で再生することが難しい、という問題がある。
 本開示では、上記に鑑みて、室内インパルス応答を生成するのに要する処理負荷を低減することで、ユーザに知覚させるための立体的な音を再生するのに要する処理時間を低減することができる情報処理方法等を提供することを目的とする。
 より具体的には、本開示の一態様に係る情報処理方法は、所定音を発する音源オブジェクト、及び障害物を含む仮想空間の形状を表す空間情報を取得し、前記仮想空間におけるユーザの位置及び向きを表す位置情報を取得し、前記仮想空間における前記ユーザの位置及び向き、並びに前記障害物の位置に基づいて、前記仮想空間において前記所定音が反射する仮想反射面の位置を決定することで、音響用の仮想空間を生成する。
 これによれば、音響用の仮想空間における音響特性(実施の形態では、室内インパルス応答)を演算する際に、障害物が音響用の仮想空間の仮想反射面に変換されているので、障害物での所定音の反射が所定の反射回数内に受聴者に届くかどうかを判定する演算を行う必要がなくなる。このため、音響特性を演算するのに要する処理負荷を低減することができ、ユーザに知覚させるための立体的な音を再生するのに要する処理時間を低減することができる、という利点がある。
 また、例えば、前記音響用の仮想空間の生成では、前記仮想空間において前記障害物が前記ユーザの前方及び後方のいずれにあるかに基づいて、前記仮想反射面の位置を決定する。
 これによれば、障害物がユーザに知覚させるための立体的な音に及ぼす影響を、音響用の仮想空間における音響特性に反映しやすくなる、という利点がある。
 また、例えば、前記音響用の仮想空間の生成では、前記仮想空間において前記障害物が前記ユーザの前方にあり、かつ、前記障害物が前記ユーザと前記音源オブジェクトとの間に存在しない場合、前記仮想空間において前記ユーザを基準とした奥行き方向に沿った前記仮想反射面の位置を前記障害物の位置に決定する。
 これによれば、ユーザが視覚的に把握できる障害物の位置に基づいて音響用の仮想空間における仮想反射面の位置を決定するので、障害物がユーザに知覚させるための立体的な音に及ぼす影響を、音響用の仮想空間における音響特性に更に反映しやすくなる、という利点がある。
 また、例えば、前記音響用の仮想空間の生成では、前記障害物が前記ユーザの後方であって前記ユーザと前記音源オブジェクトとを結ぶ直線上にある場合、前記仮想空間において前記ユーザを基準とした横方向に沿った前記仮想反射面の位置を前記障害物の位置に決定する。
 これによれば、ユーザの後方にある障害物のうち、ユーザが知覚し得る音響に最も影響を及ぼし得る障害物の位置に基づいて音響用の仮想空間における仮想反射面の位置を決定するので、障害物がユーザに知覚させるための立体的な音に及ぼす影響を、音響用の仮想空間における音響特性に更に反映しやすくなる、という利点がある。
 また、例えば、生成した前記音響用の仮想空間において、虚像法を用いた幾何音響シミュレーションにより前記音源オブジェクトについての室内インパルス応答を生成し、前記所定音に生成した前記室内インパルス応答と頭部インパルス応答とを畳み込むことにより、前記ユーザに知覚させるための音信号を生成する。
 これによれば、波動音響理論に基づいて音響用の仮想空間での音響特性を演算する場合と比較して、音響特性を演算するための処理負荷が小さくて済む、という利点がある。
 また、例えば、前記室内インパルス応答の生成では、前記仮想反射面での前記所定音の反射率は、前記仮想反射面に位置する前記障害物での前記所定音の反射率に設定される。
 これによれば、障害物がユーザに知覚させるための立体的な音に及ぼす影響を、音響用の仮想空間における音響特性に更に反映しやすくなる、という利点がある。
 また、例えば、前記室内インパルス応答の生成では、前記仮想反射面に前記障害物が複数存在する場合、前記仮想反射面での前記所定音の反射率は、複数の前記障害物の間隔に応じて設定される。
 これによれば、例えば複数の障害物の間を通過しにくい周波数帯域の音を仮想反射面での所定音の反射率に反映することができ、障害物がユーザに知覚させるための立体的な音に及ぼす影響を、音響用の仮想空間における音響特性に更に反映しやすくなる、という利点がある。
 また、本開示の一態様に係るプログラムは、上記の情報処理方法をコンピュータに実行させる。
 これによれば、上記の情報処理方法と同様の効果を奏することができる、という利点がある。
 また、本開示の一態様に係る情報処理システムは、空間情報取得部と、位置情報取得部と、空間生成部と、を備える。前記空間情報取得部は、所定音を発する音源オブジェクト、及び障害物を含む仮想空間の形状を表す空間情報を取得する。前記位置情報取得部は、前記仮想空間におけるユーザの位置及び向きを表す位置情報を取得する。前記空間生成部は、前記仮想空間における前記ユーザの位置及び向き、並びに前記障害物の位置に基づいて、前記仮想空間において前記所定音が反射する仮想反射面の位置を決定することで、音響用の仮想空間を生成する。
 これによれば、上記の情報処理方法と同様の効果を奏することができる、という利点がある。
 さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又はコンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び記録媒体の任意な組み合わせで実現されてもよい。
 以下、実施の形態について、図面を参照しながら具体的に説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、又はステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、独立請求項に記載されていない構成要素については、任意の構成要素として説明される。なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付し、重複する説明は省略又は簡略化される場合がある。
 (実施の形態)
 [概要]
 まず、実施の形態に係る音響再生装置の概要について、図1を参照して説明する。図1は、実施の形態における音響再生装置の使用事例を示す概略図である。図1では、音響再生装置100を使用するユーザU1が示されている。
 図1に示す音響再生装置100は、立体映像再生装置200と同時に使用されている。ユーザU1は、立体的な画像及び立体的な音を同時に視聴することで、画像が聴覚的な臨場感を、音が視覚的な臨場感をそれぞれ高め合い、画像及び音が撮られた現場に居るかのように体感することができる。例えば、人が会話をする画像(動画像)が表示されている場合に、会話音の音像の定位が当該人の口元とずれている場合にも、ユーザU1が、当該人の口から発せられた会話音として知覚することが知られている。このように視覚情報によって、音像の位置が補正されるなど、画像と音とが併せられることで臨場感が高められることがある。
 立体映像再生装置200は、ユーザU1の頭部に装着される画像表示デバイスである。したがって、立体映像再生装置200は、ユーザU1の頭部と一体的に移動する。例えば、立体映像再生装置200は、ユーザU1の耳と鼻とで支持するメガネ型のデバイスである。
 立体映像再生装置200は、ユーザU1の頭部の動きに応じて表示する画像を変化させることで、ユーザU1が仮想空間VS1(図4等参照)内で頭部を動かしているように知覚させる。つまり、ユーザU1の正面に仮想空間VS1内の物体が位置しているときに、ユーザU1が右を向くと当該物体がユーザU1の左方向に移動し、ユーザU1が左を向くと当該物体がユーザの右方向に移動する。このように、立体映像再生装置200は、ユーザU1の動きに対して、仮想空間VS1をユーザU1の動きとは逆方向に移動させる。
 立体映像再生装置200は、ユーザU1の左右の目それぞれに視差分のずれが生じた2つの画像を表示する。ユーザU1は、表示される画像の視差分のずれに基づき、画像上の物体の三次元的な位置を知覚することができる。
 音響再生装置100は、ユーザU1の頭部に装着される音提示デバイスである。したがって、音響再生装置100は、ユーザU1の頭部と一体的に移動する。例えば、実施の形態における音響再生装置100は、いわゆるオーバーイヤーヘッドホン型のデバイスである。なお、音響再生装置100の形態に特に限定はなく、例えば、ユーザU1の左右の耳にそれぞれ独立して装着される2つの耳栓型のデバイスであってもよい。この2つのデバイスは、互いに通信することで、右耳用の音と左耳用の音とを同期して提示する。
 音響再生装置100は、ユーザU1の頭部の動きに応じて提示する音を変化させることで、ユーザU1が仮想空間VS1内で頭部を動かしているようにユーザU1に知覚させる。このため、上記したように、音響再生装置100は、ユーザU1の動きに対して仮想空間VS1をユーザの動きとは逆方向に移動させる。
 [構成]
 次に、実施の形態に係る音響再生装置100の構成について、図2を参照して説明する。図2は、実施の形態に係る情報処理システム10を含む音響再生装置100の機能構成を示すブロック図である。図2に示すように、実施の形態に係る音響再生装置100は、処理モジュール1と、通信モジュール2と、検知器3と、ドライバ4と、を備える。
 処理モジュール1は、音響再生装置100における各種の信号処理を行うための演算装置である、処理モジュール1は、例えば、プロセッサとメモリとを備え、メモリに記憶されたプログラムがプロセッサによって実行されることで、各種の機能を発揮する。
 処理モジュール1は、空間情報取得部11と、位置情報取得部12と、空間生成部13と、RIR生成部14と、音情報取得部15と、音信号生成部16と、出力部17と、を有する情報処理システム10として機能する。情報処理システム10が有する各機能部の詳細は、処理モジュール1以外の構成の詳細と併せて以下に説明する。
 通信モジュール2は、音響再生装置100への音情報の入力、及び空間情報の入力を受け付けるためのインタフェース装置である。通信モジュール2は、例えば、アンテナと信号変換器とを備え、無線通信により外部の装置から音情報及び空間情報を受信する。より詳しくは、通信モジュール2は、無線通信のための形式に変換された音情報を示す無線信号を、アンテナを用いて受波し、信号変換器により無線信号から音情報への再変換を行う。これにより、音響再生装置100は、外部の装置から無線通信により音情報を取得する。同様に、通信モジュール2は、無線通信のための形式に変換された空間情報を示す無線信号を、アンテナを用いて受波し、信号変換器により無線信号から空間情報への再変換を行う。これにより、音響再生装置100は、外部の装置から無線通信により空間情報を取得する。通信モジュール2によって取得された音情報及び空間情報は、それぞれ処理モジュール1の音情報取得部15及び空間情報取得部11によって取得される。なお、音響再生装置100と外部の装置との通信は、有線通信によって行われてもよい。
 音響再生装置100が取得する音情報は、例えば、MPEG-H 3D Audio(ISO/IEC 23008-3)等の所定の形式で符号化されている。一例として、符号化された音情報には、音響再生装置100によって再生される所定音についての情報が含まれる。ここでいう所定音は、仮想空間VS1に存在する音源オブジェクトA1(図3等参照)が発する音であって、例えば自然環境音、機械音、又は人を含む動物の音声等を含み得る。なお、仮想空間VS1に音源オブジェクトA1が複数存在する場合、音響再生装置100は、複数の音源オブジェクトA1にそれぞれ対応する複数の音情報を取得することになる。
 検知器3は、ユーザU1の頭部の動き速度を検知するための装置である。検知器3は、ジャイロセンサ、又は加速度センサ等の動きの検知に使用される各種のセンサを組み合わせて構成される。実施の形態では、検知器3は、音響再生装置100に内蔵されているが、例えば、音響再生装置100と同様にユーザU1の頭部の動きに応じて動作する立体映像再生装置200等、外部の装置に内蔵されていてもよい。この場合、検知器3は、音響再生装置100に含まれなくてもよい。また、検知器3として、外部の撮像装置などを用いて、ユーザU1の頭部の動きを撮像し、撮像された画像を処理することでユーザU1の動きを検知してもよい。
 検知器3は、例えば、音響再生装置100の筐体に一体的に固定され、筐体の動きの速度を検知する。上記の筐体を含む音響再生装置100は、ユーザU1が装着した後、ユーザU1の頭部と一体的に移動するため、検知器3は、結果としてユーザU1の頭部の動きの速度を検知することができる。
 検知器3は、例えば、ユーザU1の頭部の動きの量として、仮想空間VS1内で互いに直交する3軸の少なくとも一つを回転軸とする回転量を検知してもよいし、上記3軸の少なくとも一つを変位方向とする変位量を検知してもよい。また、検知器3は、ユーザU1の頭部の動きの量として、回転量及び変位量の両方を検知してもよい。
 ドライバ4は、ユーザU1の右耳用のドライバと、ユーザU1の左耳用のドライバと、を有する。右耳用のドライバ及び左耳用のドライバの各々は、例えば、振動板と、マグネット又はボイスコイル等の駆動機構とを有する。右耳用のドライバは、右耳用の音信号に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。また、左耳用のドライバは、左耳用の音信号に応じて駆動機構を動作させ、駆動機構によって振動板を振動させる。このようにして、各ドライバは、音信号に応じた振動板の振動により、音波を発生させ、音波が空気等を伝播してユーザU1の耳に伝達し、ユーザU1が音を知覚する。
 空間情報取得部11は、所定音を発する音源オブジェクトA1、及び障害物B1(図6等参照)を含む仮想空間VS1の形状を表す空間情報を取得する。ここで、障害物B1は、音源オブジェクトA1が発する所定音がユーザU1へと到達するまでの間において、所定音を遮ったり、所定音を反射したり等して、ユーザが知覚し得る立体的な音に影響を及ぼし得るオブジェクトである。障害物B1は、静止物体の他に、人等の動物、又は機械等の動体を含み得る。また、仮想空間VS1に複数の音源オブジェクトA1が存在する場合、任意の音源オブジェクトA1にとっては、他の音源オブジェクトA1は障害物B1となる。
 空間情報には、仮想空間VS1の形状、仮想空間VS1に存在する障害物B1の形状及び位置、並びに仮想空間VS1に存在する音源オブジェクトA1の形状及び位置をそれぞれ表すメッシュ情報が含まれる。仮想空間VS1は、閉空間又は開空間のいずれであってもよいが、ここでは閉空間として説明する。また、空間情報には、例えば床、壁、又は天井等の仮想空間VS1において音を反射し得る構造物の反射率、及び仮想空間VS1に存在する障害物B1の反射率を表す情報が含まれる。ここで、反射率は、反射音と入射音とのエネルギーの比であって、音の周波数帯域ごとに設定されている。もちろん、反射率は、音の周波数帯域に依らず、一律に設定されていてもよい。
 ここで、空間情報に含まれるメッシュ情報においては、仮想空間VS1のメッシュ密度は、立体映像再生装置200で用いられる仮想空間VS1のメッシュ密度よりも小さくてよい。例えば、空間情報取得部11で取得した空間情報に基づく仮想空間VS1においては、凹凸を含む平面が凹凸のない単純な平面で表されてもよいし、仮想空間VS1に存在するオブジェクトの形状も球体等の単純な形状で表されてもよい。
 位置情報取得部12は、検知器3からユーザU1の頭部の動き速度を取得する。より具体的には、位置情報取得部12は、単位時間あたりに検知器3が検知したユーザU1の頭部の動きの量を動きの速度として取得する。このようにして位置情報取得部12は、検知器3から回転速度及び変位速度の少なくとも一方を取得する。ここで取得されるユーザU1の頭部の動きの量は、仮想空間VS1内のユーザU1の座標及び向きを決定するために用いられる。つまり、位置情報取得部12は、仮想空間VS1におけるユーザU1の位置及び向きを表す位置情報を取得する。
 空間生成部13は、仮想空間VS1におけるユーザU1の位置及び向き、並びに障害物B1の位置に基づいて、仮想空間VS1において所定音が反射する仮想反射面の位置を決定することで、音響用の仮想空間VS2(図6等参照)を生成する。つまり、空間生成部13は、仮想空間VS1に障害物B1が存在する場合には、障害物B1の位置に応じて仮想空間VS1における仮想反射面の位置を変更することで、仮想空間VS1とは異なる音響用の仮想空間VS2を生成する。なお、空間生成部13は、仮想空間VS1に障害物B1が存在しない場合には、仮想空間VS1における仮想反射面の位置を変更しない。この場合、音響用の仮想空間VS2は、仮想空間VS1と同じになる。
 空間生成部13による音響用の仮想空間VS2の生成では、仮想空間VS1において障害物B1がユーザU1の前方及び後方のいずれにあるかに基づいて、仮想反射面の位置を決定する。音響用の仮想空間VS2の生成の具体例については、後述する[音響用の仮想空間の生成例]にて詳細に説明する。
 RIR生成部14は、空間生成部13で生成した音響用の仮想空間VS2において、虚像法を用いた幾何音響シミュレーションにより音源オブジェクトA1についての室内インパルス応答を生成する。
 ここで、図3に示すように、ユーザU1は、左右の耳で聴こえる音の音圧の差、時間差、及び位相差等により、音源オブジェクトA1の発する所定音を立体的な音として知覚することが可能である。図3は、実施の形態に係る頭部インパルス応答を用いた立体的な音の再生処理の説明図である。ユーザU1の右耳で聴こえる音は、右耳用の音信号に応じてドライバ4が発生する音である。また、ユーザU1の左耳で聴こえる音は、左耳用の音信号に応じてドライバ4が発生する音である。そして、右耳用の音信号は、音源オブジェクトA1の発する所定音に、右耳用の頭部インパルス応答HRIRRと室内インパルス応答とを畳み込むことにより生成される。また、左耳用の音信号は、音源オブジェクトA1の発する所定音に、左耳用の頭部インパルス応答HRIRLと室内インパルス応答とを畳み込むことにより生成される。
 RIR生成部14は、虚像法を用いた幾何音響シミュレーションにより音源オブジェクトA1についての室内インパルス応答を生成する。
 ここで、虚像法を用いた幾何音響シミュレーションによる音源オブジェクトA1についての室内インパルス応答の生成例について、図4を参照して説明する。図4は、実施の形態に係る反射音の一例を示す概略図である。図4に示す例では、音響用の仮想空間VS2が直方体状の空間であることとして説明する。また、図4に示す例では、ユーザU1の頭部の中心が受音点であることとして説明する。また、ここでは、音響用の仮想空間VS2の床及び天井での音の反射がないこととして説明する。
 図4に示すように、音響用の仮想空間VS2は、平面視で4つの壁に囲まれた空間である。これら4つの壁は、それぞれ音響用の仮想空間VS2における4つの仮想反射面VS21~VS24に相当する。すなわち、音響用の仮想空間VS2は、ユーザU1の前方、後方、左方、及び右方にそれぞれ位置する仮想反射面VS21、VS22、VS23、VS24により囲まれている。
 室内インパルス応答は、音源オブジェクトA1で音を発した場合に、ユーザU1の位置に到来する直接音SW1、各仮想反射面VS21~VS24での一次反射音SW11~SW14を含む初期反射音、及び残響により表される。ここでは、初期反射音は、各仮想反射面VS21~VS24での一次反射音のみを含んでいるが、二次反射音を含んでいてもよい。
 虚像法を用いた幾何音響シミュレーションでは、一次反射音SW11~SW14、及び残響は、それぞれ虚音源オブジェクトA11~A14からの直接音として表される。すなわち、一次反射音SW11は、仮想反射面VS21に対して音源オブジェクトA1と面対称である虚音源オブジェクトA11からの直接音として表される。また、一次反射音SW12は、仮想反射面VS22に対して音源オブジェクトA1と面対称である虚音源オブジェクトA12からの直接音として表される。また、一次反射音SW13は、仮想反射面VS23に対して音源オブジェクトA1と面対称である虚音源オブジェクトA13からの直接音として表される。また、一次反射音SW14は、仮想反射面VS24に対して音源オブジェクトA1と面対称である虚音源オブジェクトA14からの直接音として表される。
 一次反射音SW11~SW14のエネルギーは、それぞれ仮想反射面VS21~VS24での反射率に応じて、直接音SW1のエネルギーから減じられる。実施の形態では、仮想反射面VS21~VS24のうち、障害物B1に応じて位置が変更された仮想反射面に関しては、当該仮想反射面での反射率は、障害物B1での反射率に設定される。つまり、RIR生成部14による室内インパルス応答の生成では、仮想反射面での所定音の反射率は、仮想反射面に位置する障害物B1での所定音の反射率に設定される。障害物B1での反射率は、障害物B1の材質又は大きさ等により適宜設定される。
 図5は、実施の形態に係る室内インパルス応答の一例を示す概略図である。図5において、縦軸は音のエネルギー、横軸は時間を表している。図5において、室内インパルス応答IR1は、直接音SW1に対応する室内インパルス応答である。また、図5において、室内インパルス応答IR11、IR12、IR13、IR14は、それぞれ一次反射音SW11、SW12、SW13、SW14に対応する室内インパルス応答である。なお、図5における残響Re1は、音響用の仮想空間VS2ではなく、仮想空間VS1に基づく適宜の幾何音響シミュレーション、又は残響音を生成する信号処理により生成されてもよい。
 音情報取得部15は、通信モジュール2で取得した音情報を取得する。具体的には、音情報取得部15は、通信モジュール2が取得した符号化された音情報を復号することにより、後段の音信号生成部16での処理に用いられる形式で音情報を取得する。
 音信号生成部16は、音情報取得部15で取得した音情報に含まれる音源オブジェクトA1の発する所定音に、RIR生成部14で生成した室内インパルス応答と頭部インパルス応答とを畳み込むことにより、ユーザU1に知覚させるための音信号を生成する。具体的には、音信号生成部16は、音源オブジェクトA1が発する所定音に、RIR生成部14で生成した、音源オブジェクトA1からユーザU1の位置までの室内インパルス応答(ここでは直接音SW1、及び一時反射音SW11~SW14)と右耳用の頭部インパルス応答HRIRRとを畳込むことにより、右耳用の音信号を生成する。同様に、音信号生成部16は、音源オブジェクトA1が発する所定音に、RIR生成部14で生成した室内インパルス応答と左耳用の頭部インパルス応答HRIRLとを畳込むことにより、左耳用の音信号を生成する。なお、右耳用の頭部インパルス応答、及び左耳用の頭部インパルス応答は、例えば処理モジュール1のメモリにあらかじめ記憶されているものを参照するか、又は外部のデータベースから読み出して参照することが可能である。
 出力部17は、音信号生成部16で生成した音信号をドライバ4に出力する。具体的には、出力部17は、音信号生成部16で生成した右耳用の音信号を、ドライバ4の右耳用のドライバに出力する。また、出力部17は、音信号生成部16で生成した左耳用の音信号を、ドライバ4の左耳用のドライバに出力する。
 [音響用の仮想空間の生成例]
 以下、空間生成部13による音響用の仮想空間VS2の生成例について、図6~図9を参照して説明する。図6は、実施の形態に係る音響用の仮想空間VS2の第1生成例を示す概略図である。図7は、実施の形態に係る音響用の仮想空間VS2の第2生成例を示す概略図である。図8は、実施の形態に係る音響用の仮想空間VS2の第3生成例を示す概略図である。図9は、実施の形態に係る音響用の仮想空間VS2の第4生成例を示す概略図である。図6~図9の各々に示す例では、仮想空間VS1が直方体状の空間であることとして説明する。また、ここでは、仮想空間VS1の床及び天井での音の反射がないこととして説明する。また、図6~図9の各々において、ユーザU1の両耳を通る破線は、ユーザU1の前方及び後方の境界を示す。また、図6~図9の各々において、音源オブジェクトA1はユーザU1の前方に存在することとする。
 図6~図9の各々において、仮想空間VS1は、平面視で4つの壁に囲まれた空間である。これら4つの壁は、それぞれ仮想空間VS1における4つの仮想反射面VS11~VS14に相当する。すなわち、仮想空間VS1は、ユーザU1の前方、後方、左方、及び右方にそれぞれ位置する仮想反射面VS11、VS12、VS13、VS14により囲まれている。
 第1生成例では、図6に示すように、仮想空間VS1において2つの障害物B11、B12が存在している。2つの障害物B11、B12は、いずれもユーザU1の後方に存在している。そして、2つの障害物B11、B12のうち一方の障害物B11は、ユーザU1と音源オブジェクトA1とを結ぶ(具体的には、ユーザU1の頭部の中心と音源オブジェクトA1の中心とを結ぶ)直線L1上に存在し、他方の障害物B12は直線L1上に存在していない。
 第1生成例では、空間生成部13は、直線L1上に存在する障害物B11の位置に基づいて、音響用の仮想空間VS2における仮想反射面VS22の位置を決定する。すなわち、空間生成部13は、ユーザU1の後方に位置する仮想反射面VS12と平行であって、かつ、直線L1上に存在する障害物B11(具体的には、障害物B11の中心)を通る位置を、音響用の仮想空間VS2における仮想反射面VS22の位置として決定する。言い換えれば、第1生成例では、空間生成部13による音響用の仮想空間VS2の生成では、障害物B11がユーザU1の後方であってユーザU1と音源オブジェクトA1とを結ぶ直線L1上にある場合、仮想空間VS1においてユーザU1を基準とした横方向に沿った仮想反射面VS22の位置を障害物B11の位置に決定する。
 したがって、第1生成例では、音響用の仮想空間VS2は、仮想空間VS1における仮想反射面VS11、VS13、VS14とそれぞれ同じ位置にある仮想反射面VS21、VS23、VS24と、障害物B11を通る位置にある仮想反射面VS22とで囲まれる空間となる。
 第2生成例では、図7に示すように、仮想空間VS1において2つの障害物B11、B12が存在している点で、第1生成例と共通している。一方、第2生成例では、ユーザU1が移動することにより、一方の障害物B11が直線L1から外れ、他方の障害物B12が直線L1上に存在する点で、第1生成例と異なっている。
 第2生成例では、空間生成部13は、ユーザU1の後方に位置する仮想反射面VS12と平行であって、かつ、直線L1上に存在する障害物B12(具体的には、障害物B12の中心)を通る位置を、音響用の仮想空間VS2における仮想反射面VS22の位置として決定する。したがって、第2生成例では、音響用の仮想空間VS2は、仮想空間VS1における仮想反射面VS11、VS13、VS14とそれぞれ同じ位置にある仮想反射面VS21、VS23、VS24と、障害物B12を通る位置にある仮想反射面VS22とで囲まれる空間となる。
 第3生成例では、図8に示すように、仮想空間VS1において1つの障害物B11が存在している。そして、障害物B11は、ユーザU1の前方に存在しており、かつ、ユーザU1と音源オブジェクトA1との間に存在していない。
 第3生成例では、空間生成部13は、ユーザU1の前方に存在する障害物B11の位置に基づいて、音響用の仮想空間VS2における仮想反射面VS23の位置を決定する。すなわち、空間生成部13は、ユーザU1の左方に位置する仮想反射面VS13と平行であって、かつ、ユーザU1の前方に存在する障害物B11(具体的には、障害物B11の中心)を通る位置を、音響用の仮想空間VS2における仮想反射面VS23の位置として決定する。
 つまり、第3生成例では、空間生成部13による音響用の仮想空間VS2の生成では、仮想空間VS1において障害物B11がユーザU1の前方にあり、かつ、障害物B11がユーザU1と音源オブジェクトA1との間に存在しない場合、仮想空間VS1においてユーザU1を基準とした奥行き方向に沿った仮想反射面VS23の位置を障害物B11の位置に決定する。
 したがって、第3生成例では、音響用の仮想空間VS2は、仮想空間VS1における仮想反射面VS11、VS12、VS14とそれぞれ同じ位置にある仮想反射面VS21、VS22、VS24と、障害物B11を通る位置にある仮想反射面VS23とで囲まれる空間となる。
 なお、障害物B11が音源オブジェクトA1の右方に存在する場合、空間生成部13は、ユーザU1の右方に位置する仮想反射面VS14と平行であって、かつ、ユーザU1の前方に存在する障害物B11(具体的には、障害物B11の中心)を通る位置を、音響用の仮想空間VS2における仮想反射面VS24の位置として決定する。
 また、ユーザU1又は音源オブジェクトA1を基準として、左右方向の一方に複数の障害物B1が存在する場合、空間生成部13は、複数の障害物B1のうちユーザU1に最も近い障害物B1を通る位置を、音響用の仮想空間VS2における仮想反射面の位置として決定する。
 第4生成例では、図9に示すように、仮想空間VS1において2つの障害物B11、B12が存在している点で、第2生成例と共通している。一方、第4生成例では、ユーザU1の向きが第2生成例とは異なることにより、一方の障害物B11がユーザU1の前方に存在する点で、第2生成例と異なっている。
 第4生成例では、空間生成部13は、ユーザU1の右方に位置する仮想反射面VS13と平行であって、かつ、ユーザU1の前方に存在する障害物B11(具体的には、障害物B11の中心)を通る位置を、音響用の仮想空間VS2における仮想反射面VS23の位置として決定する。また、空間生成部13は、ユーザU1の後方に位置する仮想反射面VS12と平行であって、かつ、直線L1上に存在する障害物B12(具体的には、障害物B12の中心)を通る位置を、音響用の仮想空間VS2における仮想反射面VS22の位置として決定する。したがって、第4生成例では、音響用の仮想空間VS2は、仮想空間VS1における仮想反射面VS11、VS14とそれぞれ同じ位置にある仮想反射面VS11、VS14と、障害物B11を通る位置にある仮想反射面VS23と、障害物B12を通る位置にある仮想反射面VS22とで囲まれる空間となる。
 なお、上記仮想反射面の位置決定の説明において、障害物を通る位置の具体例として障害物の中心を通る位置を仮想反射面の位置として決定しているが、障害物を通る位置であればいずれの位置でもよく、必ずしも障害物の中心を通る位置でなくてもよい。
 [動作]
 以下、実施の形態に係る情報処理システム10の動作、つまり情報処理方法について図10を参照して説明する。図10は、実施の形態に係る情報処理システム10の動作例を示すフローチャートである。まず、音響再生装置100の動作が開始されると、空間情報取得部11は、通信モジュール2を介して空間情報を取得する(S1)。また、位置情報取得部12は、検知器3からユーザU1の頭部の動き速度を取得することにより、位置情報を取得する(S2)。ステップS1及びステップS2は、この順番に限らず、逆の順番で実行されてもよいし、並行して同時に実行されてもよい。
 次に、空間生成部13は、取得した空間情報及び位置情報に基づいて、音響用の仮想空間VS2を生成する(S3)。具体的には、ステップS3では、仮想空間VS1におけるユーザU1の位置及び向き、並びに障害物B1の位置に基づいて、仮想空間VS1において所定音が反射する仮想反射面の位置を決定することにより、音響用の仮想空間VS2を生成する。ここでは、仮想空間VS1に障害物B1が存在する場合、障害物B1の位置に応じて、仮想空間VS1における仮想反射面を平行移動することにより、音響用の仮想空間VS2における仮想反射面を決定する。
 次に、RIR生成部14は、生成した音響用の仮想空間VS2において、虚像法を用いた幾何音響シミュレーションにより音源オブジェクトA1についての室内インパルス応答を生成する(S4)。また、音情報取得部15は、通信モジュール2を介して音情報を取得する(S5)。ステップS4及びステップS5は、この順番に限らず、逆の順番で実行されてもよいし、並行して同時に実行されてもよい。また、ステップS5は、ステップS2にて位置情報を取得する際に、同時に実行されてもよい。
 次に、音信号生成部16は、音情報取得部15で取得した音情報に含まれる音源オブジェクトA1の発する所定音に、RIR生成部14で生成した室内インパルス応答と頭部インパルス応答とを畳み込むことにより、音信号を生成する(S6)。具体的には、音信号生成部16は、音源オブジェクトA1が発する所定音に、RIR生成部14で生成した室内インパルス応答と右耳用の頭部インパルス応答HRIRRとを畳み込むことにより、右耳用の音信号を生成する。また、音信号生成部16は、音源オブジェクトA1が発する所定音に、RIR生成部14で生成した室内インパルス応答と左耳用の頭部インパルス応答HRIRLとを畳込むことにより、左耳用の音信号を生成する。
 そして、出力部17は、音信号生成部16で生成した音信号をドライバ4に出力する(S7)。具体的には、出力部17は、音信号生成部16で生成した右耳用の音信号及び左耳用の音信号を、それぞれドライバ4の右耳用のドライバ及び左耳用のドライバに出力する。
 以降、音響再生装置100の動作中において、ステップS1~ステップS7が繰り返される。これにより、ユーザU1は、仮想空間VS1において音源オブジェクトA1が発する所定音を、立体的な音としてリアルタイムに知覚することが可能である。
 [利点]
 以下、実施の形態に係る情報処理システム10(情報処理方法)の利点について、比較例の情報処理システムとの比較を交えて説明する。比較例の情報処理システムは、空間生成部13を備えていない、つまり音響用の仮想空間VS2を生成していない点で、実施の形態に係る情報処理システム10と相違する。比較例の情報処理システムを用いた場合、仮想空間VS1において、虚像法を用いた幾何音響シミュレーションにより音源オブジェクトA1についての室内インパルス応答を生成することになる。この場合、仮想空間VS1における仮想反射面での所定音の反射のみならず、障害物B1での所定音の反射も含めて演算しなければならず、室内インパルス応答を生成するための処理負荷が大きくなりがちである。このため、比較例の情報処理システムでは、仮想空間VS1において音源オブジェクトA1が移動したり、ユーザU1が移動したり等する場合に、上記の処理負荷が大きいことから、室内インパルス応答を実時間で生成することが難しい。そして、比較例の情報処理システムでは、室内インパルス応答を実時間で生成することが難しいために、室内インパルス応答に基づいてユーザU1に知覚させるための立体的な音を実時間で再生することが難しい、という問題がある。
 これに対して、実施の形態に係る情報処理システム10(情報処理方法)では、仮想空間VS1におけるユーザU1の位置及び向き、並びに障害物B1の位置に基づいて仮想反射面の位置を決定することで、音響用の仮想空間VS2を生成している。このため、実施の形態に係る情報処理システム10を用いた場合、音響用の仮想空間VS2において、虚像法を用いた幾何音響シミュレーションにより音源オブジェクトA1についての室内インパルス応答を生成することになる。この場合、障害物B1は音響用の仮想空間VS2の仮想反射面に変換されているので、障害物B1での所定音の反射が所定の反射回数内に受聴者に届くかどうかを判定する演算をする必要がなく、比較例の情報処理システムと比較して、室内インパルス応答を生成するための処理負荷を低減することができる。このため、実施の形態に係る情報処理システム10では、ユーザU1に知覚させるための立体的な音を再生するのに要する処理時間を低減することができる、という利点がある。
 したがって、実施の形態に係る情報処理システム10(情報処理方法)では、仮想空間VS1において音源オブジェクトA1が移動したり、ユーザU1が移動したり等する場合でも、上記の処理負荷が小さくて済むことから、室内インパルス応答を実時間で生成しやすい。そして、実施の形態に係る情報処理システム10では、室内インパルス応答を実時間で生成しやすいために、頭部インパルス応答に基づいてユーザに知覚させるための立体的な音を実時間で再生しやすい、という利点がある。
 (その他の実施の形態)
 以上、実施の形態について説明したが、本開示は、上記の実施の形態に限定されるものではない。
 例えば、上記の実施の形態において、音響用の仮想空間VS2の仮想反射面に複数(ここでは、2つ)の障害物B1が存在する場合、RIR生成部14は、当該仮想反射面での所定音の反射率を、複数の障害物B1の間隔に応じて設定してもよい。つまり、RIR生成部14による室内インパルス応答の生成では、仮想反射面に障害物B1が複数存在する場合、仮想反射面での所定音の反射率は、複数の障害物B1の間隔d1(図11参照)に応じて設定されてもよい。
 図11は、実施の形態の変形例に係る音響用の仮想空間VS2の一例を示す概略図である。図11に示す例では、音響用の仮想空間VS2は、上記の第4生成例で生成される音響用の仮想空間VS2と同じである。一方、図11に示す例では、障害物B11、B12の他に更に障害物B13が仮想空間VS1に存在している。そして、障害物B13は、音響用の仮想空間VS2における仮想反射面VS22上において、障害物B12と間隔d1を空けて並んでいる。図11に示す例では、RIR生成部14は、仮想反射面VS22での所定音の反射率を、2つの障害物B12、B13の間隔d1に応じて設定する。
 このように複数の障害物B1の間隔d1を考慮して仮想反射面での所定音の反射率を設定すれば、例えば間隔d1よりも長い波長となる周波数帯域の音の反射率を小さくする等して、複数の障害物B1の間を通過しにくい周波数帯域の音を仮想反射面での所定音の反射率に反映することができる。
 例えば、上記の実施の形態において、RIR生成部14は、音響用の仮想空間VS2における仮想反射面での反射率を、障害物B1の位置に応じて仮想反射面の位置を変更した場合であっても、変更前の仮想反射面での反射率に設定してもよい。
 例えば、上記の実施の形態において、空間生成部13がユーザU1の後方に存在する障害物B1の位置を、音響用の仮想空間VS2における仮想反射面の位置と決定する場合に、仮想空間VS1が開空間であって障害物B1の後方に仮想壁が存在しない、と仮定する。この場合、空間生成部13は、ユーザU1の前方及び後方の境界を示す境界面と平行であって、障害物B1を通る位置に仮想反射面を決定すればよい。
 また、例えば、上記の実施の形態に説明した音響再生装置は、構成要素をすべて備える一つの装置として実現されてもよいし、複数の装置に各機能が割り振られ、この複数の装置が連携することで実現されてもよい。後者の場合には、処理モジュールに該当する装置として、スマートフォン、タブレット端末、又は、PCなどの情報処理装置が用いられてもよい。
 また、本開示の音響再生装置は、ドライバのみを備える再生装置に接続され、当該再生装置に対して音信号を出力するのみの音響処理装置として実現することもできる。この場合、音響処理装置は、専用の回路を備えるハードウェアとして実現してもよいし、汎用のプロセッサに特定の処理を実行させるためのソフトウェアとして実現してもよい。
 また、上記の実施の形態において、特定の処理部が実行する処理を別の処理部が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。
 また、上記の実施の形態において、各構成要素は、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPU(Central Processing Unit)又はプロセッサ等のプログラム実行部が、ハードディスク又は半導体メモリ等の記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。
 また、各構成要素は、ハードウェアによって実現されてもよい。例えば、各構成要素は、回路(又は集積回路)でもよい。これらの回路は、全体として1つの回路を構成してもよいし、それぞれ別々の回路でもよい。また、これらの回路は、それぞれ、汎用的な回路でもよいし、専用の回路でもよい。
 また、本開示の全般的又は具体的な態様は、装置、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROM等の記録媒体で実現されてもよい。また、本開示の全般的又は具体的な態様は、装置、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 例えば、本開示は、コンピュータによって実行される情報処理方法として実現されてもよいし、情報処理方法をコンピュータに実行させるためのプログラムとして実現されてもよい。本開示は、このようなプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体として実現されてもよい。
 その他、各実施の形態に対して当業者が思いつく各種変形を施して得られる形態、又は、本開示の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本開示に含まれる。
 本開示は、立体的な音をユーザに知覚させる等の音響再生の際に有用である。
 1 処理モジュール
 10 情報処理システム
 100 音響再生装置
 11 空間情報取得部
 12 位置情報取得部
 13 空間生成部
 14 RIR生成部
 15 音情報取得部
 16 音信号生成部
 17 出力部
 2 通信モジュール
 200 立体映像再生装置
 3 検知器
 4 ドライバ
 A1 音源オブジェクト
 A11、A12、A13、A14 虚音源オブジェクト
 B1、B11、B12、B13 障害物
 HRIRL 左耳用の頭部インパルス応答
 HRIRR 右耳用の頭部インパルス応答
 IR1、IR11、IR12、IR13、IR14 頭部インパルス応答
 L1 直線
 Re1 残響
 SW1 直接音
 SW11、SW12、SW13、SW14 一次反射音
 U1 ユーザ
 VS1 仮想空間
 VS11、VS12、VS13、VS14 仮想反射面
 VS2 音響用の仮想空間
 VS21、VS22、VS23、VS24 仮想反射面

Claims (9)

  1.  所定音を発する音源オブジェクト、及び障害物を含む仮想空間の形状を表す空間情報を取得し、
     前記仮想空間におけるユーザの位置及び向きを表す位置情報を取得し、
     前記仮想空間における前記ユーザの位置及び向き、並びに前記障害物の位置に基づいて、前記仮想空間において前記所定音が反射する仮想反射面の位置を決定することで、音響用の仮想空間を生成する、
     情報処理方法。
  2.  前記音響用の仮想空間の生成では、前記仮想空間において前記障害物が前記ユーザの前方及び後方のいずれにあるかに基づいて、前記仮想反射面の位置を決定する、
     請求項1に記載の情報処理方法。
  3.  前記音響用の仮想空間の生成では、前記仮想空間において前記障害物が前記ユーザの前方にあり、かつ、前記障害物が前記ユーザと前記音源オブジェクトとの間に存在しない場合、前記仮想空間において前記ユーザを基準とした奥行き方向に沿った前記仮想反射面の位置を前記障害物の位置に決定する、
     請求項2に記載の情報処理方法。
  4.  前記音響用の仮想空間の生成では、前記障害物が前記ユーザの後方であって前記ユーザと前記音源オブジェクトとを結ぶ直線上にある場合、前記仮想空間において前記ユーザを基準とした横方向に沿った前記仮想反射面の位置を前記障害物の位置に決定する、
     請求項2又は3に記載の情報処理方法。
  5.  生成した前記音響用の仮想空間において、虚像法を用いた幾何音響シミュレーションにより前記音源オブジェクトについての室内インパルス応答を生成し、
     前記所定音に生成した前記室内インパルス応答と頭部インパルス応答とを畳み込むことにより、前記ユーザに知覚させるための音信号を生成する、
     請求項1~3のいずれか1項に記載の情報処理方法。
  6.  前記室内インパルス応答の生成では、前記仮想反射面での前記所定音の反射率は、前記仮想反射面に位置する前記障害物での前記所定音の反射率に設定される、
     請求項5に記載の情報処理方法。
  7.  前記室内インパルス応答の生成では、前記仮想反射面に前記障害物が複数存在する場合、前記仮想反射面での前記所定音の反射率は、複数の前記障害物の間隔に応じて設定される、
     請求項5に記載の情報処理方法。
  8.  請求項1~3のいずれか1項に記載の情報処理方法をコンピュータに実行させる、
     プログラム。
  9.  所定音を発する音源オブジェクト、及び障害物を含む仮想空間の形状を表す空間情報を取得する空間情報取得部と、
     前記仮想空間におけるユーザの位置及び向きを表す位置情報を取得する位置情報取得部と、
     前記仮想空間における前記ユーザの位置及び向き、並びに前記障害物の位置に基づいて、前記仮想空間において前記所定音が反射する仮想反射面の位置を決定することで、音響用の仮想空間を生成する空間生成部と、を備える、
     情報処理システム。
PCT/JP2022/017168 2021-04-12 2022-04-06 情報処理方法、プログラム、及び情報処理システム WO2022220182A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202280024886.6A CN117063489A (zh) 2021-04-12 2022-04-06 信息处理方法、程序和信息处理系统
JP2023514621A JPWO2022220182A1 (ja) 2021-04-12 2022-04-06
EP22788107.5A EP4325888A1 (en) 2021-04-12 2022-04-06 Information processing method, program, and information processing system
US18/376,619 US20240031757A1 (en) 2021-04-12 2023-10-04 Information processing method, recording medium, and information processing system

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163173643P 2021-04-12 2021-04-12
US63/173,643 2021-04-12
JP2022041098 2022-03-16
JP2022-041098 2022-03-16

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/376,619 Continuation US20240031757A1 (en) 2021-04-12 2023-10-04 Information processing method, recording medium, and information processing system

Publications (1)

Publication Number Publication Date
WO2022220182A1 true WO2022220182A1 (ja) 2022-10-20

Family

ID=83639658

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/017168 WO2022220182A1 (ja) 2021-04-12 2022-04-06 情報処理方法、プログラム、及び情報処理システム

Country Status (4)

Country Link
US (1) US20240031757A1 (ja)
EP (1) EP4325888A1 (ja)
JP (1) JPWO2022220182A1 (ja)
WO (1) WO2022220182A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190180731A1 (en) * 2017-12-08 2019-06-13 Nokia Technologies Oy Apparatus and method for processing volumetric audio
JP2019146160A (ja) 2018-01-07 2019-08-29 クリエイティブ テクノロジー リミテッドCreative Technology Ltd 頭部追跡をともなうカスタマイズされた空間音声を生成するための方法
US20200037091A1 (en) * 2017-03-27 2020-01-30 Gaudio Lab, Inc. Audio signal processing method and device
WO2020197839A1 (en) * 2019-03-27 2020-10-01 Facebook Technologies, Llc Determination of acoustic parameters for a headset using a mapping server

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200037091A1 (en) * 2017-03-27 2020-01-30 Gaudio Lab, Inc. Audio signal processing method and device
US20190180731A1 (en) * 2017-12-08 2019-06-13 Nokia Technologies Oy Apparatus and method for processing volumetric audio
JP2019146160A (ja) 2018-01-07 2019-08-29 クリエイティブ テクノロジー リミテッドCreative Technology Ltd 頭部追跡をともなうカスタマイズされた空間音声を生成するための方法
WO2020197839A1 (en) * 2019-03-27 2020-10-01 Facebook Technologies, Llc Determination of acoustic parameters for a headset using a mapping server

Also Published As

Publication number Publication date
US20240031757A1 (en) 2024-01-25
JPWO2022220182A1 (ja) 2022-10-20
EP4325888A1 (en) 2024-02-21

Similar Documents

Publication Publication Date Title
CN112567768B (zh) 用于交互式音频环境的空间音频
US10425762B1 (en) Head-related impulse responses for area sound sources located in the near field
CN113170272B (zh) 近场音频渲染
WO2012028906A1 (en) Determining individualized head-related transfer functions
KR20210031796A (ko) 공간화 오디오를 갖는 가상 현실, 증강 현실 및 혼합 현실 시스템들
WO2021187147A1 (ja) 音響再生方法、プログラム、及び、音響再生システム
WO2022220182A1 (ja) 情報処理方法、プログラム、及び情報処理システム
US10735885B1 (en) Managing image audio sources in a virtual acoustic environment
CN117063489A (zh) 信息处理方法、程序和信息处理系统
WO2023199815A1 (ja) 音響処理方法、プログラム、及び音響処理システム
WO2023199817A1 (ja) 情報処理方法、情報処理装置、音響再生システム、及び、プログラム
WO2023199813A1 (ja) 音響処理方法、プログラム、及び音響処理システム
JP2023159690A (ja) 信号処理装置、信号処理装置の制御方法、及びプログラム
JP2024056580A (ja) 情報処理装置及びその制御方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22788107

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023514621

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 202280024886.6

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2022788107

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022788107

Country of ref document: EP

Effective date: 20231113