WO2023286513A1 - 音声生成装置、音声生成方法およびそのプログラム - Google Patents

音声生成装置、音声生成方法およびそのプログラム Download PDF

Info

Publication number
WO2023286513A1
WO2023286513A1 PCT/JP2022/023880 JP2022023880W WO2023286513A1 WO 2023286513 A1 WO2023286513 A1 WO 2023286513A1 JP 2022023880 W JP2022023880 W JP 2022023880W WO 2023286513 A1 WO2023286513 A1 WO 2023286513A1
Authority
WO
WIPO (PCT)
Prior art keywords
rotation
sound source
time
source data
sound
Prior art date
Application number
PCT/JP2022/023880
Other languages
English (en)
French (fr)
Inventor
俊良 齋藤
フォクストン ニコラス ウォード
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Publication of WO2023286513A1 publication Critical patent/WO2023286513A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/25Output arrangements for video game devices
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present disclosure relates to an apparatus, method and program for generating and correcting speech.
  • a head-mounted display (hereinafter sometimes referred to as HMD) connected to a game machine is worn on the head, and a game is played by operating a controller or the like while viewing the screen displayed on the HMD.
  • HMD head-mounted display
  • a typical stationary display connected to a game console extends the user's field of vision beyond the screen of the display, making it difficult to focus on the screen of the display and a lack of immersion in the game. . In this respect, when the user wears the head-mounted display, the user does not see anything other than the image displayed on the HMD.
  • the sense of immersion in the image will be further enhanced, and the operability of applications such as games will be improved.
  • the sound is generated in conjunction with the movement of the user's head.
  • the HMD is provided with a head tracking function and voice is generated in conjunction with the movement of the user's head, there is a latency between voice generation and output. Therefore, there may be a discrepancy between the orientation of the user's head assumed at the time of voice generation and the orientation of the user's head when the voice is actually output. The user may feel uncomfortable due to this voice lag.
  • the present disclosure has been made in view of these problems, and an object thereof is to provide a speech generation device and a speech generation method capable of providing corrected speech with reduced latency between speech generation and output. That's what it is.
  • a speech generation device includes an acquisition unit that acquires at least one of a position and rotation of a user's head, and at least one of the position and rotation acquired at a first time. Based on any of the above, a sound source data generation unit that generates sound source data representing the three-dimensional coordinates of a virtual sound source arranged in the virtual space, with the predetermined position of the user as the origin of the three-dimensional coordinate system of the virtual space.
  • Correction processing including at least one of translation and rotation of the virtual sound source in the virtual space on the sound source data at the first time based on the difference in at least one of the position and rotation.
  • a correction processing unit that performs the correction processing; and an audio generation unit that generates audio to be rendered using the sound source data on which the correction processing has been performed.
  • a speech generation device includes an acquisition unit that acquires at least one of a position and rotation of a user's head, and based on at least one of the position and rotation acquired at a first time, the a sound source data generation unit that generates sound source data that is ambisonics data in which a virtual sound source is represented by a spherical harmonic function in a virtual space centered on a predetermined position of the user; receiving the position and/or rotation updated at a later second time, and based on the difference of the position and/or rotation at the first time relative to the updated position and/or rotation a correction processing unit that performs correction processing including at least one of translation and rotation of the virtual sound source in the virtual space on the sound source data at the first time; and an audio generator that generates audio to be rendered using the generated sound source data.
  • a speech generation method includes the step of obtaining at least one of a position and rotation of a user's head; generating sound source data indicating the three-dimensional coordinates of a virtual sound source placed in the virtual space, with a predetermined position of the virtual space as the origin of the three-dimensional coordinate system; receiving the position and/or rotation updated at a second time; and based on a difference of the position and/or rotation at the first time with respect to the updated position and/or rotation.
  • a step of performing correction processing including at least one of translation and rotation of the virtual sound source in the virtual space on the sound source data at the first time; and generating audio to be rendered using the sound source data.
  • a speech generation method includes the step of obtaining at least one of a position and rotation of the user's head, and based on at least one of the position and rotation obtained at a first time, the generating sound source data, which is ambisonics data in which a virtual sound source is represented by a spherical harmonic function in a virtual space centered on a predetermined position of the user; and updating at a second time after the first time.
  • the first a step of performing correction processing including at least one of translation and rotation of the virtual sound source in the virtual space on the sound source data at the time, and using the sound source data subjected to the correction processing; and generating audio to be rendered with the .
  • a program is configured to set a predetermined position of the user as an origin of a three-dimensional coordinate system of the virtual space based on at least one of the position and the rotation acquired at a first time, and the virtual space generating sound source data indicating three-dimensional coordinates of a virtual sound source placed in the virtual sound source; and receiving at least one of the position and the rotation updated at a second time later than the first time. , based on the difference of at least one of the position and rotation at the first time with respect to the updated position and/or rotation, the sound source data at the first time in the virtual space performing correction processing including at least one of translation and rotation of a virtual sound source; and generating audio to be rendered using the sound source data on which the correction processing has been performed. It is a program to run.
  • a program includes the step of acquiring at least one of a position and rotation of a user's head; generating sound source data, which is ambisonics data in which a virtual sound source is represented by a spherical harmonic function in a virtual space centered at a predetermined position; receiving the position and/or the rotation; and determining the position and/or rotation at the first time based on the difference of the position and/or rotation at the first time with respect to the updated position and/or rotation. a step of performing correction processing on the sound source data including at least one of translation and rotation of the virtual sound source in the virtual space; and rendering using the sound source data subjected to the correction processing. and generating a sound to be played.
  • FIG. 1 is an external view of a head mounted display;
  • FIG. 1 is a functional configuration diagram of a head mounted display;
  • FIG. 1 is a configuration diagram of a speech generation system according to an embodiment;
  • FIG. 1 is a functional configuration diagram of a speech generation device according to an embodiment;
  • FIG. FIG. 4 is a diagram for explaining audio output from a head mounted display;
  • FIG. 10 is a sequence diagram of conventional sound generation processing without correction processing;
  • FIG. 4 is a sequence diagram of sound generation processing accompanied by correction processing according to the embodiment;
  • 6 is a flowchart of sound generation processing accompanied by correction processing according to the embodiment; It is a figure for demonstrating the sound correction process of 1st Embodiment. It is a figure for demonstrating the sound correction process of 2nd Embodiment.
  • FIG. 1 is an external view of the HMD 100.
  • the HMD 100 is a device that is worn on the user's head to view still images and moving images displayed on the display and to listen to sounds and music output from headphones.
  • User position information can be measured by a position sensor such as a GPS (Global Positioning System) built into or externally attached to the HMD 100 .
  • posture information such as the rotation angle and tilt of the head of the user wearing the HMD 100 can be measured by a posture sensor built into or externally attached to the HMD 100 .
  • the HMD 100 of this embodiment is an example of an audio providing device that provides audio to the user.
  • the audio providing device is not limited to the HMD, and may be headphones, a headset (headphones with a microphone), earphones, earrings, or the like.
  • FIG. 2 is a functional configuration diagram of the HMD 100 of this embodiment.
  • the control unit 10 is a main processor that processes and outputs signals such as image signals and sensor signals, commands and data.
  • the input interface 20 receives operation signals and setting signals from the touch panel and the touch panel controller, and supplies them to the control unit 10 .
  • the output interface 30 receives an image signal from the control unit 10 and displays it on the display.
  • the output interface 30 receives the audio signal from the control unit 10 and causes the speaker to output the audio.
  • the communication control unit 40 transmits data input from the control unit 10 to the outside via wired or wireless communication via the network adapter 42 or the antenna 44 .
  • the communication control unit 40 also receives data from the outside by wired or wireless communication via the network adapter 42 or the antenna 44 and outputs the data to the control unit 10 .
  • the storage unit 50 temporarily stores data, parameters, operation signals, and the like processed by the control unit 10 .
  • the GPS unit 60 receives position information from GPS satellites and supplies it to the control unit 10 according to the operation signal from the control unit 10 .
  • the wireless unit 62 receives position information from the wireless base station and supplies it to the control unit 10 according to an operation signal from the control unit 10 .
  • the orientation sensor 64 detects orientation information such as the rotation angle and tilt of the main body 110 of the HMD 100 .
  • the attitude sensor 64 is realized by appropriately combining a gyro sensor, an acceleration sensor, an angular acceleration sensor, and the like.
  • the external input/output terminal interface 70 is an interface for connecting peripheral devices such as a USB (Universal Serial Bus) controller.
  • the external memory 72 is an external memory such as flash memory.
  • the clock unit 80 sets time information according to the setting signal from the control unit 10 and supplies the time data to the control unit 10 .
  • FIG. 3 is a configuration diagram of the speech generation system of this embodiment.
  • a sound generation system 1 includes an HMD 100 and a rendering device 200 .
  • the HMD 100 is connected to the rendering device 200 via wireless communication or an interface for connecting peripheral devices such as USB.
  • the rendering device 200 of this embodiment is a game machine.
  • the rendering device 200 may also be connected to a server via a network. In that case, the server may provide the rendering device 200 with an online application such as a game in which multiple users can participate via a network.
  • the HMD 100 may be connected to a computer or mobile terminal instead of the rendering device 200 .
  • the rendering device 200 basically processes the content program, generates sound, and transmits it to the HMD 100 .
  • Content programs and data are read by a media drive (not shown) from a ROM medium (not shown) that records application software for content such as games and license information.
  • This ROM medium is a read-only recording medium such as an optical disc, magneto-optical disc, Blu-ray disc, or the like.
  • the rendering device 200 of one aspect generates content audio at a predetermined rate according to the position and posture of the head of the user wearing the HMD 100 .
  • FIG. 4 is a functional configuration diagram of the speech generation device 300 according to this embodiment.
  • the figure is a block diagram focusing on functions, and these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof.
  • the sound generation device 300 includes a position/rotation acquisition unit 301, a sensitivity adjustment unit 302, a sound source data generation unit 303, a correction processing unit 304, a sound generation unit 305, a sound provision unit 306, a storage unit 307, Prepare.
  • the audio generation device 300 is implemented in the rendering device 200 to which the HMD 100 is connected.
  • the functions of the correction processing unit 304 which will be described later, may be implemented on the HMD 100 side.
  • at least part of the functions of the sound generation device 300 may be implemented in a server connected to the rendering device 200 via a network.
  • the position/rotation acquisition unit 301 obtains the position and rotation of the head of the user wearing the HMD 100 based on the position information detected by the GPS unit 60 and the motion sensor of the HMD 100 and the orientation information detected by the orientation sensor 64 . get.
  • the position of the user's head may be obtained by detecting the movement of the HMD 100 with the camera of the rendering device 200 .
  • the position/rotation acquisition unit 301 of this embodiment is an example of an acquisition unit.
  • the position/rotation acquisition unit 301 acquires the position and rotation of the user's head based on the sensitivity instructed by the sensitivity adjustment unit 302 . For example, when the user turns his/her head, the posture sensor 64 detects a change in the angle of the user's head. is instructed to the position/rotation acquisition unit 301 to ignore .
  • a combination of at least one or more of a 3-axis geomagnetic sensor, a 3-axis acceleration sensor, and a 3-axis gyro (angular velocity) sensor may be used to detect forward/backward, left/right, and up/down movements of the user's head. . Further, the accuracy of head motion detection may be improved by combining the position information of the user's head.
  • the sound source data generation unit 303 arranges the sound object in the virtual space based on at least one of the position and rotation acquired at the first time, with the predetermined position of the user as the origin of the three-dimensional coordinate system of the virtual space. .
  • the sound source data generation unit 303 generates sound source data indicating three-dimensional coordinates of sound objects placed in the virtual space.
  • the sound object of this embodiment is an example of a virtual sound source.
  • the predetermined position of the user here can be the center of the user's head, but is not limited to this.
  • the predetermined position of the user, which is the origin of the three-dimensional coordinate system in the virtual space may be another part of the user such as the neck.
  • the sound source data generation unit 303 arranges one or more sound objects in the virtual space by reading the three-dimensional coordinates of the sound objects in the virtual space from the storage unit 307 according to the scene. Also, the sound source data generation unit 303 reads the sound waveform data of each sound object from the storage unit 307 according to the scene. The sound source data generation unit 303 supplies the sound source data and the voice waveform data to the correction processing unit 304 .
  • the correction processing unit 304 receives the updated position and rotation of the HMD 100 at a second time later than the first time from the position/rotation acquisition unit 301 .
  • the correction processing unit 304 performs parallel movement of the sound object in the virtual space with respect to the sound source data at the first time based on the difference between the updated position and rotation at the second time and the position and rotation at the first time. and perform correction processing including rotation. The details of this correction processing will be described later.
  • the correction processing unit 304 supplies the corrected sound source data and the sound waveform data to the sound generation unit 305 .
  • the audio generation unit 305 generates audio to be rendered in the virtual space using the corrected sound source data and audio waveform data. For example, the audio generation unit 305 performs binaural rendering based on the corrected sound source data and audio waveform data, thereby generating audio that can be heard by the user's left and right ears from each sound object. . For example, sound with a volume based on the sound waveform data is generated at a scale factor corresponding to the distance between the user and the sound object.
  • the audio providing unit 306 supplies the generated audio to the HMD 100. As a result, sound is output from the HMD 100 .
  • FIGS. 5(a) to 5(d) the sound that reaches the user's ears in the virtual space will be described. Audio output to the HMD 100 will be described.
  • FIG. 5A when the user U faces the sound object S in the virtual space, the sound from the sound object S reaches the user U from the front direction. At this time, as can be seen from the audio waveform data in FIG. 5(c), the user U's left ear L and right ear R receive audio with substantially the same volume and delay.
  • FIG. 5B when the user U faces right, the sound from the sound object S arrives from the left of the user. At this time, as can be seen from the sound waveform data of FIG. The volume at the left ear L is higher than the volume at R.
  • the voice since the voice is generated based on the state of FIG. 5A, the user U hears the voice of the waveform data of FIG. 5C before the user U changes direction. As a result, the user U may have a sense of discomfort due to the orientation shift due to the time difference. Similarly, not only the direction of the user U changes, but also when the user U moves (when the position changes), the user U may feel uncomfortable due to positional deviation before and after the movement.
  • a process of correcting the sound source data is performed in order to eliminate the sense of incongruity caused by the shift in orientation and position due to this time difference.
  • FIG. 6 is a sequence diagram illustrating conventional sound generation processing without correction processing.
  • the sound generation device 300 prepares assets such as placement of sound objects and generation of sound source data, and acquires the position p1 and rotation q1 of the HMD 100 at the first time t1. In parallel with the asset preparation, the process of rendering the audio at position p1 and rotation q1 at the first time t1 is performed. This audio rendering process requires a certain amount of processing time.
  • the sound generated by the sound generation device 300 is supplied to the HMD 100.
  • the HMD 100 and the sound generation device 300 are connected by wire or wirelessly, and it takes a certain transmission time to supply sound from the sound generation device 300 to the HMD 100 .
  • Network delay occurs when the audio generator 300 and the HMD 100 are connected via a network.
  • the HMD 100 acquires the sound generated by the sound generating device 300 and performs sound output processing. A delay occurs due to this output processing, and the sound is output from the speaker at time t'.
  • the rendering process, the audio transmission process, A certain amount of time is required for output processing, and a latency occurs as shown in FIG.
  • the user wearing the HMD 100 also moves or changes posture between the first time t1 at which the position and rotation of the HMD 100 are given for sound generation and the time t′ at which the sound is output to the HMD 100 .
  • FIG. 7 is a sequence diagram illustrating sound generation processing accompanied by correction processing according to this embodiment.
  • correction processing is performed on the generated sound source data.
  • This correction processing may be performed by either the HMD 100 or the sound generation device 300 . If the HMD 100 has sufficient processing performance, the correction process can be performed in the HMD 100. If not, the sound generation device 300 performs the correction process, and reproduces the sound generated based on the corrected sound source data. provided to the HMD 100.
  • the correction process information on the position p2 and the rotation q2 of the HMD 100 at the second time t2 is acquired, and sound source data is generated based on the position and rotation deviation of the HMD 100 between the first time t1 and the latest second time t2. is corrected.
  • the HMD 100 performs audio output processing based on the corrected sound source data, and outputs the audio from the speaker. As a result, the apparent latency is reduced to the difference between the second time t2 and the time t', as shown in FIG.
  • the sound generation unit 305 defines a three-dimensional coordinate system that serves as a reference for the position p and rotation q of the HMD 100.
  • This three-dimensional coordinate system may be an orthogonal coordinate system, and any direction of each axis may be selected.
  • the origin of the three-dimensional coordinate system is, for example, the center of the user's head, but it may be a point other than the center of the head. For example, at the start of an application such as a game, the user wearing the HMD 100 is asked to take a reference posture at a reference position, and the reference position p0 and the reference rotation q0 of the HMD 100 are acquired from the sensor information of the HMD 100 at that time.
  • a three-dimensional coordinate system may be defined by
  • FIG. 8 is a flowchart for explaining the sound generation processing S100 by the sound generation device 300.
  • FIG. 8 is a flowchart for explaining the sound generation processing S100 by the sound generation device 300.
  • step S101 the HMD 100 defines a reference three-dimensional coordinate system as initialization processing. This is the work of determining the position and rotation that serve as a reference for movement of the HMD 100 .
  • An initial position p0 and an initial rotation q0 are acquired from the sensor information of the HMD 100 at the position indicated by the user, and a three-dimensional coordinate system is defined with these values as the origin (0, 0, 0).
  • step S102 the HMD 100 acquires the position p1 and the rotation q1 of the HMD 100 at the first time t1 from the sensor information of the HMD 100.
  • the HMD 100 gives the position p1 and the rotation q1 at the first time t1 to the sound generator 300.
  • the sound generation device 300 generates sound source data indicating the three-dimensional coordinates of the sound object placed in the virtual space based on the position p1 and the rotation q1 at the first time t1.
  • the position/rotation acquisition unit 301 acquires the position p1 and the rotation q1 at the first time t1 from the HMD 100 , supplies them to the sound source data generation unit 303 , and stores them in the storage unit 307 .
  • the sound source data generation unit 303 reads from the storage unit 307 three-dimensional coordinate data and audio waveform data of each sound object according to the scene.
  • the sound source data generation unit 303 arranges the sound object in the virtual space so as to correspond to the position p1 and the rotation q1 based on the scene.
  • the sound source data generation unit 303 generates sound source data indicating the three-dimensional coordinates of each sound object in the virtual space at time t1, and supplies the sound source data and the sound waveform data to the correction processing unit 304.
  • the HMD 100 acquires the position p2 and the rotation q2 of the HMD 100 at the second time t2 from the sensor information of the HMD 100 in step S105.
  • the HMD 100 gives the position p2 and the rotation q2 at the second time t2 to the sound generator 300. Since the user wearing the HMD 100 moves and turns while the audio generation device 300 is preparing the asset, the position p2 and the rotation q2 of the HMD 100 at the second time t2 are different from those at the first time t1. It is slightly offset from position p1 and rotation q1.
  • step S107 the sound generation device 300 executes sound source data correction processing in order to absorb the positional and rotational deviations of the HMD 100 between the first time t1 and the second time t2.
  • the position/rotation acquiring unit 301 acquires the latest updated position p2 and rotation q2 at the second time t2 from the HMD 100 and supplies them to the correction processing unit 304 .
  • the correction processing unit 304 reads the position p1 and the rotation q1 of the HMD 100 at the first time t1 from the storage unit 307 .
  • Correction processing unit 304 calculates position difference p2-p1 and rotation difference q2-q1 of position p1 and rotation q1 at first time t1 with respect to updated position p2 and rotation q2 at second time t2.
  • the correction processing unit 304 corrects the sound source data by translating the three-dimensional coordinates of the sound object in the virtual space at the first time t1 by the position difference p2-p1 and rotating it by the rotation difference q2-q1. .
  • the correction processing unit 304 supplies the sound source data and the sound waveform data after correction to the sound providing unit 306 .
  • the correction processing by the correction processing unit 304 will be described in detail below using mathematical formulas.
  • Inputs given to the correction processing unit 304 are the sound source data generated for the position p1 and the rotation q1 of the HMD 100 at the first time t1, the position p1 and the rotation q1 used when generating the sound source data, and the latest This is the updated position p2 and rotation q2 of the HMD 100 at the second time t2.
  • the correction processing unit 304 performs the following correction processing on the sound source data at the position p1 and the rotation q1 at the first time t1.
  • the sensor can provide position and rotation information from the absolute reference of the HMD 100.
  • the GPS unit 60 and the orientation sensor 64 of the HMD 100 are used.
  • a motion controller (not shown) may also be used as a sensor.
  • the position p and rotation q change according to the movement of the user wearing the HMD 100 .
  • HMD 100 is a rigid body, not a point, but position p is defined as the position of a fixed point on HMD 100 . This fixed point is hereinafter referred to as the central point of the HMD 100 .
  • step S107 the sound generator 300 renders the sound to be output to the speaker of the HMD 100 using the corrected sound source data. Specifically, the sound generation unit 305 renders sounds that the user can hear from each of the left and right ears from each sound object, based on the sound source data and the sound waveform data after correction. The audio generator 305 supplies the rendered audio to the audio provider 306 .
  • the sound rendered from the sound object whose three-dimensional coordinates are translated and rotated in this manner is the sound rendered for the position p1 and rotation q1 at the first time t1 at the position p2 and rotation q2 at the second time t2.
  • Corresponds to the corrected audio rendered for By translating and rotating the three-dimensional coordinates of the sound object at the first time t1 using the position and rotation differences p2-p1 and q2-q1 at the first time t1 and the second time t2, asset preparation, etc. It is possible to render the sound corresponding to the position p2 and the rotation q2 at the second time t2 without performing the processing of . As a result, the amount of data to be processed can be reduced, rendering can be performed quickly, and the delay time when generating corrected audio can be reduced.
  • the audio providing unit 306 provides the HMD 100 with the rendered audio.
  • step S109 the corrected audio is output to the HMD 100.
  • the user can hear the sound corrected for the deviation of the position and rotation of the HMD 100 between the first time t1 and the second time t2, and the latency of the time difference between the first time t1 and the second time t2 is It is absorbed, and the user's "discomfort" is reduced.
  • the voice generation processing S100 returns to step S101, and the processing after that is repeated.
  • the sound output from the HMD 100 can be corrected in accordance with the movement of the head in this way, the latency for changes in the position and orientation of the user's head is reduced, and the relative position of the sound object to the user can be clearly identified. be able to comprehend. As a result, the sense of immersion in the virtual space can be enhanced.
  • real-time performance is an important factor when users interact with other users' characters in the game by changing their position and orientation in the virtual space using buttons on game controllers or touch screens on mobile devices. becomes. In such a case, it is beneficial to provide pseudo-real-time performance by correction processing.
  • data for one frame is read and audio is rendered, but data for multiple frames may be read and audio for multiple frames may be rendered.
  • the update frequency of audio is 21.2 ms, for example, 5.3 ms of audio is generated in one frame.
  • the user faces the front (0, 0, 1) for 21.2 ms from this state, the user hears the voice of the sound object from (2, 0, 0) after 21.2 ms.
  • the audio of the sound object can be heard from (0, 0, 2) in any of the four frames even though the user turns from right to front. .
  • the user hears speech from the front (0,0,2).
  • the latest position and rotation are obtained every frame (that is, every 5.3 ms), and the position and rotation are corrected for each frame based on the position and rotation at each frame.
  • the user can see the voice of the sound object from (0,0,2) ⁇ (1,0, ⁇ 3) ⁇ ( ⁇ 3,0,1) ⁇ (2,0,0) every 5.3 ms. becomes audible. This makes sounds from sound objects sound smoother.
  • the sound source data is corrected based on the positional and rotational differences, but the present invention is not limited to this.
  • the position/rotation acquisition unit 301 may acquire at least one of the position and rotation, and the correction processing unit 304 may perform correction processing of the sound source data based on the difference in at least one of the position and rotation.
  • the audio generation unit 305 generates audio to be rendered with the first frequency.
  • the correction processing unit 304 receives the updated position and rotation at the second time from the position/rotation obtaining unit 301 at a second frequency according to the sound processing granularity indicating the processing amount of sound data per unit time of the HMD 100 . .
  • the correction processing unit 304 generates the sound source data generated by the sound generation unit 305 and the corrected sound source data based on the plurality of updated positions and rotations received at a second frequency higher than the first frequency. Correction processing is executed multiple times for any of the data.
  • FIG. 9 is a diagram for explaining the audio correction processing of the first embodiment for comparison.
  • the sound generator 300 receives the position p1 and the rotation q1 of the HMD 100 at the first time t1, and starts generating sound source data.
  • Audio generation device 300 corrects the sound source data using latest position p2 and rotation q2 of HMD 100 at second time t2. Assuming that the HMD 100 has an audio processing granularity of 30 frames/second, the audio generation device 300 generates frames (audio) at 30 frames/second, performs correction processing, and provides the HMD 100 with the audio after correction. Note that the correction process may be performed on the HMD 100 side.
  • FIG. 10 is a diagram for explaining the sound correction processing of the second embodiment. While the audio processing granularity of rendering by the audio generation device 300 is 30 frames/second, the audio processing granularity of the HMD 100 is a high frame rate. For example, if the HMD 100 has an audio processing granularity of 60 frames/second, the second embodiment increases the frequency of correction processing according to the audio processing granularity of the HMD 100 .
  • the sound generator 300 performs the first correction process on the sound source data at the time t1 using the position p2 and the rotation q2 of the HMD 100 at the second time t2, and converts the corrected sound source data to The audio is output from the HMD 100 using this.
  • sound generation device 300 performs a second correction process on the same sound source data using position p3 and rotation q3 of HMD 100 at time t3, and outputs sound from HMD 100 using the sound source data after the second correction. Output.
  • the audio processing granularity of the audio generating device 300 is 30 frames/second, the corrected audio is output at 60 frames/second. In this way, by performing correction processing at a predetermined frequency, the granularity of audio processing can be increased or decreased.
  • a granularity conversion function can be provided.
  • the first correction process using the position p2 and the rotation q2 at the second time t2 and the position p3 and the rotation q3 at the time t3 are used.
  • a second correction process was performed.
  • the second correction process may be performed on the corrected sound source data generated by the first correction process.
  • sound source data generated based on the user's position and rotation at the time of voice generation is converted to the user's position and rotation at the time of voice output.
  • rotation By correcting using rotation, it is possible to absorb the time difference from the time of voice generation to the time of voice output, thereby reducing the apparent latency.
  • correction processing was performed on sound source data using sound objects having position coordinates, but the present invention is not limited to this.
  • correction processing is performed on sound source data using Ambisonics data.
  • the sound source data generation unit 303 generates, as sound source data, ambisonics data in which a virtual sound source is represented by a spherical harmonic function in virtual space based on the position and rotation acquired at the first time. . Specifically, the sound source data generation unit 303 reads the voice waveform data in the virtual space from the storage unit 307 in accordance with the scene, and applies a spherical harmonic function to the read voice waveform data to generate Ambisonics data. Generate. The sound source data generation unit 303 supplies the generated Ambisonics data to the correction processing unit 304 .
  • the correction processing unit 304 executes correction processing on the Ambisonics data by the method described above.
  • the details of the correction process are the same as those of the correction process of the first embodiment, so description thereof will be omitted.
  • the correction processing unit 304 supplies the Ambisonics data that has undergone the correction processing to the sound generation unit 305 .
  • the audio generation unit 305 renders audio using the Ambisonics data that has undergone the correction processing, and supplies the rendered audio to the audio providing unit 306 .
  • the audio providing unit 306 supplies the rendered audio to the HMD 100 so that the user can experience audio using Ambisonics via the HMD 100 .
  • the present disclosure relates to an apparatus, method and program for generating and correcting speech.
  • 1 speech generation system 10 control unit, 20 input interface, 30 output interface, 32 backlight, 40 communication control unit, 42 network adapter, 44 antenna, 50 storage unit, 60 GPS unit, 62 wireless unit, 64 attitude sensor, 70 External input/output terminal interface, 72 External memory, 80 Clock unit, 100 Head mounted display, 200 Rendering device, 300 Sound generation device, 301 Position/rotation acquisition unit 301, 302 Sensitivity adjustment unit, 303 Sound source data generation unit, 304 Correction processing section, 305 speech generation section, 306 speech provision section, 307 storage section.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

本開示の音声生成装置300は、ユーザの頭部の位置及び回転を取得する取得部301と、第1時刻において取得した位置及び回転に基づいて所定の位置を仮想空間の三次元座標系の原点として音源データを生成する音源データ生成部303と、第1時刻よりも後の第2時刻の位置及び回転に対する第1時刻における位置及び回転の差分に基づいて第1時刻における音源データに対して仮想空間内での仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行する補正処理部304と、補正処理が実行された音源データを用いてレンダリングされるべき音声を生成する音声生成部305と、を備える。

Description

音声生成装置、音声生成方法およびそのプログラム
 本開示は、音声を生成し補正する装置、方法およびプログラムに関する。
 ゲーム機に接続されたヘッドマウントディスプレイ(以下、HMDという場合がある)を頭部に装着して、HMDに表示された画面を見ながら、コントローラなどを操作してゲームプレイすることが行われている。ゲーム機に接続された通常の据え置き型のディスプレイでは、ディスプレイの画面の外側にもユーザの視野範囲が広がっているため、ディスプレイの画面に集中できなかったり、ゲームへの没入感に欠けることがある。その点、ヘッドマウントディスプレイを装着すると、HMDに表示される映像以外はユーザは見ないため、映像世界への没入感が高まり、ゲームのエンタテインメント性を一層高める効果がある。
 また、HMDを装着したユーザが頭部を回転させると、360度の仮想空間が表示されるようにすると、さらに映像への没入感が高まり、ゲームなどのアプリケーションの操作性も向上する。このとき、ユーザの頭部の動きと連動して音声を生成される。
 このようにHMDにヘッドトラッキング機能をもたせて、ユーザの頭部の動きと連動して音声を生成した場合、音声の生成から出力までの間にレイテンシがある。そのため、音声生成時に前提としたユーザの頭部の向きと、音声を実際に出力した時点でのユーザの頭部の向きとの間でずれが発生する場合がある。この音声のずれにより、ユーザが違和感を持つことがある。
 本開示はこうした課題に鑑みてなされたものであり、その目的は、音声の生成から出力までの間のレイテンシを低減した補正音声を提供することが可能な音声生成装置および音声生成方法を提供することにある。
 上記課題を解決するために、本開示のある態様の音声生成装置は、ユーザの頭部の位置及び回転の少なくともいずれかを取得する取得部と、第1時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を仮想空間の三次元座標系の原点として、前記仮想空間に配置された仮想的な音源の三次元座標を示す音源データを生成する音源データ生成部と、前記取得部から前記第1時刻よりも後の第2時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取り、前記更新された位置及び回転の少なくともいずれかに対する前記第1時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第1時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行する補正処理部と、前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成する音声生成部と、を備える。
 本開示の他の態様の音声生成装置は、ユーザの頭部の位置及び回転の少なくともいずれかを取得する取得部と、第1時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を中心とした仮想空間において球面調和関数によって仮想的な音源が表されるアンビソニックスデータである音源データを生成する音源データ生成部と、前記取得部から前記第1時刻よりも後の第2時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取り、前記更新された位置及び回転の少なくともいずれかに対する前記第1時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第1時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行する補正処理部と、前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成する音声生成部と、を備える。
 本開示の他の態様の音声生成方法は、ユーザの頭部の位置及び回転の少なくともいずれかを取得するステップと、第1時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を仮想空間の三次元座標系の原点として、前記仮想空間に配置された仮想的な音源の三次元座標を示す音源データを生成するステップと、前記第1時刻よりも後の第2時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、前記更新された位置及び回転の少なくともいずれかに対する前記第1時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第1時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、を含む。
 本開示のさらに他の態様の音声生成方法は、ユーザの頭部の位置及び回転の少なくともいずれかを取得するステップと、第1時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を中心とした仮想空間において球面調和関数によって仮想的な音源が表されるアンビソニックスデータである音源データを生成するステップと、前記第1時刻よりも後の第2時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、前記更新された位置及び回転の少なくともいずれかに対する前記第1時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第1時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、を含む。
 本開示のさらに他の態様のプログラムは、第1時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を仮想空間の三次元座標系の原点として、前記仮想空間に配置された仮想的な音源の三次元座標を示す音源データを生成するステップと、前記第1時刻よりも後の第2時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、前記更新された位置及び回転の少なくともいずれかに対する前記第1時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第1時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、をコンピュータに実行させるためのプログラムである。
 本開示のさらに他の態様のプログラムは、ユーザの頭部の位置及び回転の少なくともいずれかを取得するステップと、第1時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を中心とした仮想空間において球面調和関数によって仮想的な音源が表されるアンビソニックスデータである音源データを生成するステップと、前記第1時刻よりも後の第2時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、前記更新された位置及び回転の少なくともいずれかに対する前記第1時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第1時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、をコンピュータに実行させるためのプログラムである。
 なお、以上の構成要素の任意の組合せ、本開示の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本開示の態様として有効である。
 本開示によれば、音声の生成から表示までの間のレイテンシを低減した補正音声を提供することができる。
ヘッドマウントディスプレイの外観図である。 ヘッドマウントディスプレイの機能構成図である。 実施形態に係る音声生成システムの構成図である。 実施形態に係る音声生成装置の機能構成図である。 ヘッドマウントディスプレイで出力される音声を説明するための図である。 補正処理を行わない従来の音声生成処理のシーケンス図である。 実施形態の補正処理を伴う音声生成処理のシーケンス図である。 実施形態の補正処理を伴う音声生成処理のフローチャートである。 第1実施形態の音声補正処理を説明するための図である。 第2実施形態の音声補正処理を説明するための図である。
(第1の実施形態)
 図1は、HMD100の外観図である。HMD100は、ユーザの頭部に装着してディスプレイに表示される静止画や動画などを鑑賞し、ヘッドホンから出力される音声や音楽などを聴くための装置である。HMD100に内蔵または外付けされたGPS(Global Positioning System)などの位置センサによりユーザの位置情報を計測することができる。また、HMD100に内蔵または外付けされた姿勢センサによりHMD100を装着したユーザの頭部の回転角や傾きといった姿勢情報を計測することができる。
 本実施形態のHMD100は、ユーザに音声を提供する音声提供装置の一例である。しかし、音声提供装置は、HMDに限らず、ヘッドフォン、ヘッドセット(マイクつきヘッドフォン)、イヤホン、イヤリングなどであってもよい。
 図2は、本実施形態のHMD100の機能構成図である。制御部10は、画像信号、センサ信号などの信号や、命令やデータを処理して出力するメインプロセッサである。入力インタフェース20は、タッチパネルおよびタッチパネルコントローラから操作信号や設定信号を受け付け、制御部10に供給する。出力インタフェース30は、制御部10から画像信号を受け取り、ディスプレイに表示させる。出力インタフェース30は、制御部10から音声信号を受け取り、スピーカに音声出力させる。
 通信制御部40は、ネットワークアダプタ42またはアンテナ44を介して、有線または無線通信により、制御部10から入力されるデータを外部に送信する。通信制御部40は、また、ネットワークアダプタ42またはアンテナ44を介して、有線または無線通信により、外部からデータを受信し、制御部10に出力する。
 記憶部50は、制御部10が処理するデータやパラメータ、操作信号などを一時的に記憶する。
 GPSユニット60は、制御部10からの操作信号にしたがって、GPS衛星から位置情報を受信して制御部10に供給する。無線ユニット62は、制御部10からの操作信号にしたがって、無線基地局から位置情報を受信して制御部10に供給する。
 姿勢センサ64は、HMD100の本体部110の回転角や傾きなどの姿勢情報を検出する。姿勢センサ64は、ジャイロセンサ、加速度センサ、角加速度センサなどを適宜組み合わせて実現される。
 外部入出力端子インタフェース70は、USB(Universal Serial Bus)コントローラなどの周辺機器を接続するためのインタフェースである。外部メモリ72は、フラッシュメモリなどの外部メモリである。
 時計部80は、制御部10からの設定信号によって時間情報を設定し、時間データを制御部10に供給する。
 図3は、本実施形態の音声生成システムの構成図である。音声生成システム1は、HMD100と、レンダリング装置200と、を含む。HMD100は、無線通信またはUSBなどの周辺機器を接続するインタフェースでレンダリング装置200に接続される。本実施形態のレンダリング装置200はゲーム機である。レンダリング装置200は、さらにネットワークを介してサーバに接続されてもよい。その場合、サーバは、複数のユーザがネットワークを介して参加できるゲームなどのオンラインアプリケーションをレンダリング装置200に提供してもよい。HMD100は、レンダリング装置200の代わりに、コンピュータや携帯端末に接続されてもよい。
 レンダリング装置200は基本的に、コンテンツのプログラムを処理し、音声を生成してHMD100に送信する。コンテンツのプログラムやデータは、ゲームなどのコンテンツのアプリケーションソフトウェア、およびライセンス情報を記録したROM媒体(不図示)からメディアドライブ(不図示)によって読み出される。このROM媒体は、光ディスクや光磁気ディスク、ブルーレイディスクなどの読出専用の記録メディアである。ある態様のレンダリング装置200は、HMD100を装着したユーザの頭部の位置や姿勢に応じたコンテンツの音声を所定のレートで生成する。
 図4は、本実施形態に係る音声生成装置300の機能構成図である。同図は機能に着目したブロック図を描いており、これらの機能ブロックはハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現することができる。
 音声生成装置300は、位置・回転取得部301と、感度調整部302と、音源データ生成部303と、補正処理部304と、音声生成部305と、音声提供部306と、記憶部307と、を備える。本実施形態では、音声生成装置300は、HMD100が接続されたレンダリング装置200に実装される。しかし、これに限定されず、音声生成装置300の少なくとも一部の機能をHMD100の制御部10に実装してもよい。特に後述の補正処理部304の機能をHMD100側に実装してもよい。あるいは、音声生成装置300の少なくとも一部の機能を、ネットワークを介してレンダリング装置200に接続されたサーバに実装してもよい。
 位置・回転取得部301は、HMD100のGPSユニット60やモーションセンサにより検知される位置情報と姿勢センサ64により検知される姿勢情報とに基づいて、HMD100を装着したユーザの頭部の位置および回転を取得する。ユーザの頭部の位置は、レンダリング装置200のカメラによりHMD100の動きを検出することにより取得されてもよい。本実施形態の位置・回転取得部301は、取得部の一例である。
 位置・回転取得部301は、感度調整部302から指示された感度にもとづいて、ユーザの頭部の位置および回転を取得する。たとえば、ユーザが頭を回すと、姿勢センサ64によりユーザの頭部の角度の変化が検出されるが、感度調整部302は、角度の変化が所定の値を超えるまでは検出された角度の変化を無視するように位置・回転取得部301に指示する。
 モーションセンサとして、3軸地磁気センサ、3軸加速度センサおよび3軸ジャイロ(角速度)センサの少なくとも1つ以上の組み合わせを用いて、ユーザの頭部の前後、左右、上下の動きを検出してもよい。また、ユーザの頭部の位置情報を組み合わせて頭部の動き検出の精度を向上させてもよい。
 音源データ生成部303は、第1時刻において取得した位置及び回転の少なくともいずれかに基づいて、ユーザの所定の位置を仮想空間の三次元座標系の原点として、サウンドオブジェクトを仮想空間内に配置する。音源データ生成部303は、仮想空間に配置されたサウンドオブジェクトの三次元座標を示す音源データを生成する。本実施形態のサウンドオブジェクトは仮想的な音源の一例である。ここでのユーザの所定の位置は、ユーザの頭部の中心とすることができるが、これに限定されない。仮想空間の三次元座標系の原点となるユーザの所定の位置は、ユーザの首などの他の部位の箇所であってもよい。例えば、音源データ生成部303は、シーンに応じて記憶部307から仮想空間におけるサウンドオブジェクトの三次元座標を読み出すことにより、1つ又は複数のサウンドオブジェクトを仮想空間内に配置する。また、音源データ生成部303は、シーンに応じて各サウンドオブジェクトの音声波形データを記憶部307から読み出す。音源データ生成部303は、音源データ及び音声波形データを補正処理部304に与える。
 補正処理部304は、位置・回転取得部301から第1時刻よりも後の第2時刻において更新されたHMD100の位置および回転を受け取る。補正処理部304は、第2時刻での更新された位置および回転に対する第1時刻での位置および回転の差分に基づいて第1時刻における音源データに対して仮想空間内でのサウンドオブジェクトの平行移動及び回転を含む補正処理を実行する。この補正処理の詳細については後述する。補正処理部304は、補正処理が実行された音源データ及び音声波形データを音声生成部305に与える。
 音声生成部305は、補正処理が実行された音源データ及び音声波形データを用いて仮想空間においてレンダリングされるべき音声を生成する。例えば、音声生成部305は、補正処理が実行された音源データ及び音声波形データに基づいてバイノーラルレンダリングを実行することにより、各サウンドオブジェクトからユーザの左耳及び右耳の各々に聞こえる音声を生成する。例えば、音声波形データに基づく音量の音声がユーザとサウンドオブジェクトとの間の距離に応じた倍率で生成される。
 音声提供部306は、生成した音声をHMD100に供給する。その結果、HMD100から音声が出力される。
 図5(a)~図5(d)を用いて、仮想空間内でユーザの両耳に届く音声について説明する。HMD100に出力される音声を説明する。図5(a)に示すように、仮想空間において、ユーザUがサウンドオブジェクトSに対して正対している場合、サウンドオブジェクトSからの音声はユーザUの正面方向から届く。このとき、図5(c)の音声の波形データからわかるように、ユーザUの左耳L及び右耳Rにはほぼ同じ音量及び遅延の音声が到達する。一方で、図5(b)に示すように、ユーザUが右方を向いている場合、サウンドオブジェクトSからの音声はユーザの左方向から届く。このとき、図5(d)の音声の波形データからわかるように、ユーザUの右耳Rでの音声の遅延よりも左耳Lでの音声の遅延の方が小さく、またユーザUの右耳Rでの音量よりも左耳Lでの音量の方が大きくなる。
 音声を補正しない場合について説明する。図5(a)のユーザUがサウンドオブジェクトSに対して正対している状態から21.2msかけて頭を回して図5(b)のユーザUが右方を向いた場合を考える。この場合、図5(a)の状態での図5(c)の波形データの音声が生成される。その結果、音声生成装置300における音声の更新頻度が21.2msの場合、上記正対している状態から21.2msの間、図5(c)の波形データの音声がユーザUの左耳Lおよび右耳Rに届く。ここで、ユーザUが頭を右方に回すことによりサウンドオブジェクトSに対するユーザUの向きが変わるため、本来であれば向きの変化に応じてサウンドオブジェクトSからの音声の聞こえ方が変わるはずである。しかし、音声は図5(a)の状態を基に生成されているため、ユーザUにはユーザUの向きが変わる前の図5(c)の波形データの音声が聞こえることになる。その結果、ユーザUが時間差による向きのずれに起因する違和感を持つ場合がある。同様に、ユーザUの向きの変化だけでなくユーザUが移動した場合(位置が変化した場合)にも、移動前後の位置のずれによりユーザUが違和感を持つ場合がある。
 本実施形態では、この時間差による向きや位置のずれに起因する違和感を解消するために音源データを補正する処理を行う。まず比較のために、図6を参照して、補正処理を行わない従来の音声生成処理を説明し、その後、図7を参照して本実施形態の補正処理を説明する。
 図6は、補正処理を行わない従来の音声生成処理を説明するシーケンス図である。
 音声生成装置300は、サウンドオブジェクトの配置や音源データの生成などのアセットの準備を行い、第1時刻t1におけるHMD100の位置p1および回転q1を取得する。アセット準備と並行して、第1時刻t1における位置p1および回転q1での音声をレンダリングする処理が行われる。この音声レンダリング処理は、一定の処理時間を要する。
 音声生成装置300が生成した音声はHMD100に供給される。HMD100と音声生成装置300は、有線又は無線で接続されており、音声生成装置300からHMD100への音声の供給には一定の伝送時間を要する。音声生成装置300とHMD100がネットワークを介して接続されている場合は、ネットワーク遅延が発生する。
 HMD100は、音声生成装置300が生成した音声を取得して、音声の出力処理を行う。この出力処理のために遅延が発生し、音声が時刻t’においてスピーカから出力される。
 このように、第1時刻t1においてHMD100の位置p1および回転q1を音声生成装置300に提供してから、時刻t’においてHMD100のスピーカから音声が出力されるまでに、レンダリング処理、音声伝送処理、出力処理に一定の時間を要し、図6に示すようにレイテンシが発生する。音声生成のためにHMD100の位置および回転を与えた第1時刻t1と、HMD100に音声が出力される時刻t’の間にも、HMD100を装着したユーザは移動したり、姿勢を変えている。その結果、ユーザは時間差分Δt=t’-t1だけ過去のHMD100の位置および回転における音声を聞くことになり、出力されている音声が前提とする位置および回転と、現在の位置および回転とのずれのゆえに、ユーザは違和感を持つ場合がある。
 図7は、本実施形態の補正処理を伴う音声生成処理を説明するシーケンス図である。
 音声生成装置300がHMD100から第1時刻t1における位置p1および回転q1を取得して、アセット準備を行うところまでは、図6の従来の音声生成処理と同じである。本実施形態では、音声生成装置300が音声レンダリングを開始する第2時刻t2において、生成された音源データに対して補正処理を行う。この補正処理はHMD100、音声生成装置300のどちらで行われてもよい。HMD100が十分な処理性能をもっている場合はHMD100において補正処理を行うことができるが、そうではない場合は、音声生成装置300が補正処理を行い、補正後の音源データに基づいて生成された音声をHMD100に提供する。
 補正処理では、第2時刻t2におけるHMD100の位置p2および回転q2の情報が取得され、第1時刻t1と最新の第2時刻t2の間でのHMD100の位置および回転のずれに基づいて、音源データが補正される。HMD100は補正された音源データに基づく音声の出力処理を実行し、音声をスピーカから出力する。これにより、みかけ上のレイテンシは、図7に示すように第2時刻t2と時刻t’の差に低減される。
 以下、本実施形態の補正処理を詳述するが、まず前提となる技術事項を説明する。
 音声生成部305は、HMD100の位置pおよび回転qの基準となる三次元座標系を定める。この三次元座標系は、直交座標系であればよく、各軸をどの方向に選んでもよい。三次元座標系の原点は例えばユーザの頭部の中心であるが、頭部の中心以外の点であってもよい。たとえば、ゲームなどのアプリケーションの開始時に、HMD100を装着したユーザに基準となる位置で基準となる姿勢を取ってもらい、そのときのHMD100のセンサ情報からHMD100の基準位置p0および基準回転q0を取得して三次元座標系が定められてもよい。
 次に、本実施の形態の音声生成装置300によってHMD100に出力される音声を生成する手順の概略を説明する。
 図8は、音声生成装置300による音声生成処理S100を説明するフローチャートである。
 ステップS101で、HMD100は、初期化処理として、基準となる三次元座標系を定める。これは、HMD100の動きの基準となる位置と回転を決める作業である。ユーザの指示した位置でHMD100のセンサ情報から初期位置p0および初期回転q0を取得し、その値を原点(0,0,0)として三次元座標系を定める。
 ステップS102で、HMD100は、HMD100のセンサ情報から、第1時刻t1におけるHMD100の位置p1および回転q1を取得する。
 ステップS103で、HMD100は、第1時刻t1における位置p1および回転q1を音声生成装置300に与える。
 ステップS104で、音声生成装置300は、第1時刻t1における位置p1および回転q1に基づいて、仮想空間に配置されたサウンドオブジェクトの三次元座標を示す音源データを生成する。具体的には、位置・回転取得部301は、HMD100から第1時刻t1における位置p1および回転q1を取得して音源データ生成部303に供給するとともに記憶部307に記憶させる。音源データ生成部303は、シーンに応じた各サウンドオブジェクトの三次元座標データ及び音声波形データを記憶部307から読み出す。音源データ生成部303は、シーンに基づいて位置p1および回転q1に対応するように仮想空間内にサウンドオブジェクトを配置する。音源データ生成部303は、時刻t1での仮想空間における各サウンドオブジェクトの三次元座標を示す音源データを生成し、音源データ及び音声波形データを補正処理部304に供給する。
 音声生成装置300による第1時刻t1における音源データの生成が完了した後、ステップS105で、HMD100は、HMD100のセンサ情報から、第2時刻t2におけるHMD100の位置p2および回転q2を取得する。
 ステップS106で、HMD100は、第2時刻t2における位置p2および回転q2を音声生成装置300に与える。音声生成装置300がアセットを準備している間も、HMD100を装着したユーザは、移動したり向きを変えたりするため、HMD100の第2時刻t2における位置p2および回転q2は、第1時刻t1における位置p1および回転q1とは少しずれている。
 ステップS107で、音声生成装置300は、第1時刻t1と第2時刻t2との間のHMD100の位置および回転のずれを吸収するために、音源データの補正処理を実行する。具体的には、位置・回転取得部301は、HMD100から最新の第2時刻t2における更新された位置p2および回転q2を取得して補正処理部304に供給する。補正処理部304は、さらに、HMD100の第1時刻t1における位置p1および回転q1を記憶部307から読み出す。補正処理部304は、最新の第2時刻t2における更新された位置p2および回転q2に対する第1時刻t1における位置p1および回転q1の位置の差分p2-p1および回転の差分q2-q1を算出する。補正処理部304は、第1時刻t1における仮想空間内のサウンドオブジェクトの三次元座標を位置の差分p2-p1だけ平行移動させるとともに回転の差分q2-q1だけ回転させることにより、音源データを補正する。補正処理部304は、補正後の音源データ及び音声波形データを音声提供部306に供給する。
 音源データを補正して各サウンドオブジェクトの三次元座標を最新の位置及び回転に合わせて調整することにより、第1時刻t1と第2時刻t2の間にHMD100の位置および回転がずれても、その時間差によるずれを吸収することができる。
 以下、補正処理部304による補正処理について数式を用いて詳細に説明する。補正処理部304に与えられる入力は、第1時刻t1におけるHMD100の位置p1および回転q1に対して生成された音源データ、この音源データを生成する際に用いられた位置p1および回転q1、最新の第2時刻t2におけるHMD100の更新された位置p2および回転q2である。補正処理部304は、第1時刻t1における位置p1および回転q1における音源データに対して、以下の補正処理を実行する。
 前提として、HMD100の絶対的な基準からの位置および回転の情報をセンサが提供できるものとする。センサとして、HMD100のGPSユニット60および姿勢センサ64が用いられる。またセンサとしてモーションコントローラ(不図示)が用いられてもよい。HMD100を装着したユーザの動きに応じて位置pおよび回転qは変化する。HMD100は、剛体であり、点ではないが、位置pはHMD100上の固定された一点の位置として定義する。以下、この固定された一点をHMD100の中心点と呼ぶ。
 第1時刻t1でのHMD100の位置をp=(x,y,z)とし、第1時刻t1と第2時刻t2との間のHMD100の位置の差分をp’=(t,t,t)とした場合、サウンドオブジェクトの平行移動後の三次元座標は次式から求められる。
Figure JPOXMLDOC01-appb-M000001
 また、第1時刻t1と第2時刻t2との間のHMD100の回転の差分をq’=(q,q,q,q)とした場合、サウンドオブジェクトの回転後の三次元座標は次式から求められる。
Figure JPOXMLDOC01-appb-M000002
 クォータニオンqを用いたコンピュータグラフィックスに関する3次元回転などの計算方法については「3D-CGプログラマーのためのクォータニオン入門」(工学社、2004年1月)に記載されている。
 ステップS107で、音声生成装置300は、補正後の音源データを用いてHMD100のスピーカに出力すべき音声をレンダリングする。具体的には、音声生成部305は、補正後の音源データ及び音声波形データに基づいて、各サウンドオブジェクトからユーザの左右の耳毎に聞こえる音声をレンダリングする。音声生成部305は、レンダリングした音声を音声提供部306に供給する。
 このように三次元座標が平行移動および回転されたサウンドオブジェクトからレンダリングされる音声は、第1時刻t1の位置p1および回転q1に対してレンダリングされた音声を第2時刻t2の位置p2および回転q2に対してレンダリングされた音声に補正したものに対応する。第1時刻t1と第2時刻t2での位置及び回転の差分p2-p1及びq2-q1を用いて第1時刻t1でのサウンドオブジェクトの三次元座標を平行移動及び回転することにより、アセット準備等の処理を実施せずに第2時刻t2の位置p2および回転q2に対応する音声をレンダリングすることが可能となる。その結果、データの処理量が少なくなって迅速なレンダリングが可能となり、補正後の音声を生成する際の遅延時間を低減することが可能となる。
 ステップS108で、音声提供部306は、レンダリングされた音声をHMD100に与える。
 ステップS109で、HMD100に補正後の音声が出力される。ユーザには、第1時刻t1と第2時刻t2の間にHMD100の位置および回転がずれた分を補正した音声が聞こえるようになり、第1時刻t1と第2時刻t2の時間差分のレイテンシが吸収され、ユーザの「違和感」が軽減される。その後、音声生成処理S100はステップS101に戻って、それ以降の処理が繰り返される。
 このように頭部の動きに応じてHMD100から出力される音声を補正できるため、ユーザの頭部の位置及び向きの変化に対するレイテンシが小さくなり、ユーザに対するサウンドオブジェクトの相対的な位置をより明確に把握できるようになる。その結果、仮想空間に対する没入感を高めることができる。
 特にゲームアプリケーションにおいて、ユーザがゲームコントローラのボタンや携帯端末のタッチスクリーンなどを使って仮想空間内の位置および方向を変え、ゲーム中の他のユーザのキャラクタとインタラクションする場合、リアルタイム性が重要な要素となる。このような場合、補正処理により擬似的にリアルタイム性をもたせることは有益である。
(変形例)
 以下、変形例を説明する。
 実施形態では、1フレーム分のデータを読み出して音声をレンダリングしたが、複数フレーム分のデータを読み出して複数フレームの音声をレンダリングしてもよい。例えば、4フレーム分のデータが読み出された場合を考える。音声の更新頻度は例えば21.2msであるものとすると、1フレームで5.3ms分の音声が生成されることになる。ユーザが真右(左右,高さ,奥行)=(1,0,0)を向いた状態で、サウンドオブジェクトが(0,0,2)に配置された場合、ユーザには(0,0,2)からサウンドオブジェクトの音声が聞こえる。この状態からユーザが21.2msかけて正面(0,0,1)を向くと、21.2ms後にユーザには(2,0,0)からサウンドオブジェクトの音声が聞こえる。ここで、仮に上述の補正処理を実行しない場合、ユーザが真右から正面に向きを変えているにも関わらず、4フレームのいずれについても(0,0,2)からサウンドオブジェクトの音声が聞こえる。その結果、21.2msの間、ユーザには正面(0,0,2)から音声が聞こえることになる。
 一方で、本変形例では、フレーム毎に(すなわち5.3ms毎に)最新の位置および回転が取得され、各フレームでの位置および回転に基づいて各フレームについて位置および回転が補正される。その結果、ユーザには5.3ms毎に、(0,0,2)→(1,0,√3)→(√3,0,1)→(2,0,0)からサウンドオブジェクトの音声が聞こえるようになる。これにより、サウンドオブジェクトからの音声がよりスムーズに聞こえるようになる。
 第1実施形態では、位置及び回転の各差分に基づいて音源データの補正処理が実行されたが、これに限定されない。位置・回転取得部301は位置及び回転の少なくともいずれかを取得し、補正処理部304は位置及び回転の少なくともいずれかの差分に基づいて音源データの補正処理を実行してもよい。
(第2実施形態)
 以下、本開示の第2実施形態を説明する。第2実施形態の説明では、第1実施形態と重複する説明を適宜省略し、第1実施形態と相違する構成について重点的に説明する。
 第2実施形態では、音声生成部305は、第1の頻度でレンダリングされるべき音声を生成する。補正処理部304は、HMD100の単位時間当たりの音声データの処理量を示す音声処理粒度に合わせた第2の頻度で位置・回転取得部301から第2時刻での更新された位置及び回転を受け取る。補正処理部304は、第1の頻度よりも高い第2の頻度で受け取った複数の更新された位置及び回転に基づいて、音声生成部305により生成された音源データ及び補正処理が実行された音源データのいずれかに対して補正処理を複数回実行する。
 図9および図10を参照して、第2実施形態の補正処理を説明する。図9は、比較のため、第1実施形態の音声補正処理を説明する図である。図9に示すように、音声生成装置300は、第1時刻t1でHMD100の位置p1および回転q1を受け取り、音源データの生成を開始する。音声生成装置300は、第2時刻t2でHMD100の最新の位置p2および回転q2を用いて音源データを補正処理する。HMD100の音声処理粒度が30フレーム/秒であるとすると、音声生成装置300は、30フレーム/秒でフレーム(音声)を生成し、補正処理を行い、HMD100に補正後の音声を提供する。なお、補正処理はHMD100側で行われてもよい。
 図10は、第2実施形態の音声補正処理を説明する図である。音声生成装置300によるレンダリングの音声処理粒度が30フレーム/秒であるのに対して、HMD100の音声処理粒度が高フレームレートである。たとえばHMD100の音声処理粒度が60フレーム/秒である場合、第2実施形態ではHMD100の音声処理粒度に合わせて補正処理の頻度を上げる。
 図10に示すように、音声生成装置300は、第2時刻t2におけるHMD100の位置p2および回転q2を用いて時刻t1における音源データに対して1回目の補正処理を行い、補正後の音源データを用いて音声をHMD100から出力する。その後、音声生成装置300は、時刻t3におけるHMD100の位置p3および回転q3を用いて同じ音源データに対して2回目の補正処理を行い、2回目の補正後の音源データを用いて音声をHMD100から出力する。これにより、音声生成装置300の音声処理粒度が30フレーム/秒であっても、補正後の音声が60フレーム/秒で出力される。このように、所定の頻度で補正処理を行うことにより、音声処理粒度を上げたり、下げたりすることができ、特に音声生成装置300とHMD100との音声処理粒度が異なる場合に、システムに音声処理粒度変換の機能をもたせることができる。
 図10の説明では、音声生成装置300が生成した同じ音源データに対して、第2時刻t2における位置p2および回転q2を用いた1回目の補正処理と、時刻t3における位置p3および回転q3を用いた2回目の補正処理を行った。別の方法として、2回目の補正処理は、1回目の補正処理によって生成される補正後の音源データに対して行ってもよい。
 以上説明したように、第1の実施の形態および第2の実施の形態によれば、音声生成時点のユーザの位置及び回転を前提に生成された音源データを、音声出力時点のユーザの位置および回転を用いて補正することにより、音声生成時点から音声出力時点までの時間差分を吸収して、見かけ上のレイテンシを軽減することができる。
(第3実施形態)
 以下、本開示の第3実施形態を説明する。第2実施形態の説明では、第1実施形態と重複する説明を適宜省略し、第1実施形態と相違する構成について重点的に説明する。
 第1実施形態では、位置座標を有するサウンドオブジェクトを用いた音源データに対して補正処理が実行されたが、これに限定されない。第3実施形態では、アンビソニックスデータを用いた音源データに対して補正処理が実行される。
 第3実施形態では、音源データ生成部303は、第1時刻において取得した位置及び回転に基づいて、仮想空間において球面調和関数によって仮想的な音源が表されるアンビソニックスデータを音源データとして生成する。具体的には、音源データ生成部303は、シーンに応じて記憶部307から仮想空間における音声波形データを読み出し、読み出した音声波形データに対して球面調和関数を適用することにより、アンビソニックスデータを生成する。音源データ生成部303は、生成したアンビソニックスデータを補正処理部304に供給する。
 補正処理部304は、上述した手法により、アンビソニックスデータに対して補正処理を実行する。補正処理の詳細については、第1実施形態の補正処理と同様であるため、その説明を省略する。補正処理部304は、補正処理を実行したアンビソニックスデータを音声生成部305に供給する。音声生成部305は、補正処理を実行したアンビソニックスデータを用いて音声をレンダリングし、音声提供部306に供給する。音声提供部306は、レンダリングされた音声をHMD100に供給することにより、ユーザはHMD100を介してアンビソニックスを利用した音声を体験することが可能となる。
 以上、本開示を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本開示の範囲にあることは当業者に理解されるところである。そのような変形例を説明する。
 本開示は、音声を生成し補正する装置、方法およびプログラムに関する。
 1 音声生成システム、 10 制御部、 20 入力インタフェース、 30 出力インタフェース、 32 バックライト、 40 通信制御部、 42 ネットワークアダプタ、 44 アンテナ、 50 記憶部、 60 GPSユニット、 62 無線ユニット、 64 姿勢センサ、 70 外部入出力端子インタフェース、 72 外部メモリ、 80 時計部、 100 ヘッドマウントディスプレイ、200 レンダリング装置、 300 音声生成装置、 301 位置・回転取得部301、 302 感度調整部、 303 音源データ生成部、 304 補正処理部、305 音声生成部、 306 音声提供部、 307 記憶部。

Claims (8)

  1.  ユーザの頭部の位置及び回転の少なくともいずれかを取得する取得部と、
     第1時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を仮想空間の三次元座標系の原点として、前記仮想空間に配置された仮想的な音源の三次元座標を示す音源データを生成する音源データ生成部と、
     前記取得部から前記第1時刻よりも後の第2時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取り、前記更新された位置及び回転の少なくともいずれかに対する前記第1時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第1時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行する補正処理部と、
     前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成する音声生成部と、
     を備える、音声生成装置。
  2.  前記補正処理部は、前記仮想空間内に配置された複数の前記仮想的な音源の各々についての前記差分に基づいて前記複数の仮想的な音源の各々の前記平行移動及び回転の少なくともいずれかを含む前記補正処理を実行する、請求項1に記載の音声生成装置。
  3.  ユーザの頭部の位置及び回転の少なくともいずれかを取得する取得部と、
     第1時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を中心とした仮想空間において球面調和関数によって仮想的な音源が表されるアンビソニックスデータである音源データを生成する音源データ生成部と、
     前記取得部から前記第1時刻よりも後の第2時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取り、前記更新された位置及び回転の少なくともいずれかに対する前記第1時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第1時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行する補正処理部と、
     前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成する音声生成部と、
     を備える、音声生成装置。
  4.  前記音声生成部は、第1の頻度で前記レンダリングされるべき音声を生成し、
     前記補正処理部は、前記ユーザに前記補正した音声を提供する音声提供装置の音声処理粒度に合わせた第2の頻度で前記取得部から前記更新された位置及び回転を受け取り、前記第1の頻度よりも高い前記第2の頻度で受け取った複数の前記更新された位置及び回転に基づいて、前記音源データ及び前記補正処理が実行された音源データのいずれかに対して前記補正処理を複数回実行する、請求項1から3のいずれか1項に記載の音声生成装置。
  5.  ユーザの頭部の位置及び回転の少なくともいずれかを取得するステップと、
     第1時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を仮想空間の三次元座標系の原点として、前記仮想空間に配置された仮想的な音源の三次元座標を示す音源データを生成するステップと、
     前記第1時刻よりも後の第2時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、
     前記更新された位置及び回転の少なくともいずれかに対する前記第1時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第1時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、
     前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、
     を含む、音声生成方法。
  6.  ユーザの頭部の位置及び回転の少なくともいずれかを取得するステップと、
     第1時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を仮想空間の三次元座標系の原点として、前記仮想空間に配置された仮想的な音源の三次元座標を示す音源データを生成するステップと、
     前記第1時刻よりも後の第2時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、
     前記更新された位置及び回転の少なくともいずれかに対する前記第1時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第1時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、
     前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、
     をコンピュータに実行させるためのプログラム。
  7.  ユーザの頭部の位置及び回転の少なくともいずれかを取得するステップと、
     第1時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を中心とした仮想空間において球面調和関数によって仮想的な音源が表されるアンビソニックスデータである音源データを生成するステップと、
     前記第1時刻よりも後の第2時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、
     前記更新された位置及び回転の少なくともいずれかに対する前記第1時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第1時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、
     前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、
     を含む、音声生成方法。
  8.  ユーザの頭部の位置及び回転の少なくともいずれかを取得するステップと、
     第1時刻において取得した前記位置及び回転の少なくともいずれかに基づいて、前記ユーザの所定の位置を中心とした仮想空間において球面調和関数によって仮想的な音源が表されるアンビソニックスデータである音源データを生成するステップと、
     前記第1時刻よりも後の第2時刻において更新された前記位置及び前記回転の少なくともいずれかを受け取るステップと、
     前記更新された位置及び回転の少なくともいずれかに対する前記第1時刻における前記位置及び回転の少なくともいずれかの差分に基づいて、前記第1時刻における前記音源データに対して前記仮想空間内での前記仮想的な音源の平行移動及び回転の少なくとも何れかを含む補正処理を実行するステップと、
     前記補正処理が実行された前記音源データを用いてレンダリングされるべき音声を生成するステップと、
     をコンピュータに実行させるためのプログラム。
PCT/JP2022/023880 2021-07-16 2022-06-15 音声生成装置、音声生成方法およびそのプログラム WO2023286513A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021118176A JP2023013768A (ja) 2021-07-16 2021-07-16 音声生成装置、音声生成方法およびそのプログラム
JP2021-118176 2021-07-16

Publications (1)

Publication Number Publication Date
WO2023286513A1 true WO2023286513A1 (ja) 2023-01-19

Family

ID=84919253

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/023880 WO2023286513A1 (ja) 2021-07-16 2022-06-15 音声生成装置、音声生成方法およびそのプログラム

Country Status (2)

Country Link
JP (1) JP2023013768A (ja)
WO (1) WO2023286513A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020524420A (ja) * 2017-06-15 2020-08-13 ドルビー・インターナショナル・アーベー コンピュータ媒介式の現実アプリケーションにおける送信器と受信器との間の通信を最適化する方法、装置およびシステム
WO2021106613A1 (ja) * 2019-11-29 2021-06-03 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020524420A (ja) * 2017-06-15 2020-08-13 ドルビー・インターナショナル・アーベー コンピュータ媒介式の現実アプリケーションにおける送信器と受信器との間の通信を最適化する方法、装置およびシステム
WO2021106613A1 (ja) * 2019-11-29 2021-06-03 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
JP2023013768A (ja) 2023-01-26

Similar Documents

Publication Publication Date Title
US11592668B2 (en) Image generation apparatus and image generation method using frequency lower than display frame rate
EP3584539B1 (en) Acoustic navigation method
CN107071605B (zh) 智能3d耳机
US20150163473A1 (en) Image generating device and image generating method
JP6821795B2 (ja) 空間化オーディオを用いた仮想現実、拡張現実、および複合現実システム
JP7317024B2 (ja) 画像生成装置および画像生成方法
WO2016002657A1 (ja) 画像生成装置および画像生成方法
JP2022529202A (ja) ヘッドセットのユーザについての頭部伝達関数の決定のための音周波数のリモート推論
JP2021522720A (ja) ユーザに再生するためのオーディオ信号をレンダリングするための装置および方法
US20200125312A1 (en) Image generating apparatus and image generating method
WO2020031486A1 (ja) 情報処理装置、情報処理方法、プログラム及び情報処理システム
KR101963244B1 (ko) 현실 음향을 반영한 증강 현실 3차원 음향 구현 시스템 및 프로그램
WO2023286513A1 (ja) 音声生成装置、音声生成方法およびそのプログラム
CN109791436B (zh) 用于提供虚拟场景的装置及方法
JP7405083B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2022034091A (ja) 三次元データ再生装置
WO2019073925A1 (ja) 画像生成装置および画像生成方法
JP2024019911A (ja) ヘッドマウントディスプレイおよび画像表示方法
US10659905B1 (en) Method, system, and processing device for correcting energy distributions of audio signal
JP6499805B2 (ja) 映像表示装置および映像表示方法
WO2023058162A1 (ja) 音声拡張現実オブジェクト再生装置及び音声拡張現実オブジェクト再生方法
CN117897687A (zh) 基于用户电信号的音频调整
CN112558302A (zh) 一种用于确定眼镜姿态的智能眼镜及其信号处理方法
CN116764195A (zh) 基于虚拟现实vr的音频控制方法、装置、电子设备及介质
CN115002607A (zh) 音源位置确定方法、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22841857

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18577874

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE