WO2020189263A1 - 音響処理装置、音響処理方法、および音響処理プログラム - Google Patents

音響処理装置、音響処理方法、および音響処理プログラム Download PDF

Info

Publication number
WO2020189263A1
WO2020189263A1 PCT/JP2020/008997 JP2020008997W WO2020189263A1 WO 2020189263 A1 WO2020189263 A1 WO 2020189263A1 JP 2020008997 W JP2020008997 W JP 2020008997W WO 2020189263 A1 WO2020189263 A1 WO 2020189263A1
Authority
WO
WIPO (PCT)
Prior art keywords
acoustic
user
content
location
sound
Prior art date
Application number
PCT/JP2020/008997
Other languages
English (en)
French (fr)
Inventor
亨 中川
越 沖本
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/438,358 priority Critical patent/US20220312143A1/en
Priority to EP20774002.8A priority patent/EP3944638A4/en
Priority to KR1020217027495A priority patent/KR20210138006A/ko
Priority to JP2021507164A priority patent/JPWO2020189263A1/ja
Priority to CN202080017766.4A priority patent/CN113519171A/zh
Publication of WO2020189263A1 publication Critical patent/WO2020189263A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Definitions

  • the present disclosure relates to an acoustic processing device, an acoustic processing method, and an acoustic processing program.
  • Patent Document 1 There is a sound field sound collector that virtually reproduces the sound field at the sound collection location by driving the speaker with a drive signal generated from the sound field signals collected by multiple microphones using the wave surface synthesis method (for example).
  • Patent Document 1 There is a sound field sound collector that virtually reproduces the sound field at the sound collection location by driving the speaker with a drive signal generated from the sound field signals collected by multiple microphones using the wave surface synthesis method (for example).
  • the present disclosure proposes an acoustic processing device, an acoustic processing method, and an acoustic processing program that can enhance the sense of presence given to the listener of acoustics.
  • the sound processing device has an acquisition unit, a storage unit, and a processing unit.
  • the acquisition unit acquires location information regarding the location seen by the user listening to the acoustic content.
  • the storage unit stores acoustic information regarding acoustics at the location.
  • the processing unit converts the acoustic characteristics of the acoustic content into the acoustic characteristics according to the location and reproduces the sound field.
  • FIG. 1 is an explanatory diagram showing an outline of acoustic processing by the acoustic processing device 1 according to the present disclosure.
  • the sound processing device 1 reproduces the sound field of the recording place by converting the acoustic characteristics of the acoustic contents such as a movie, a live music, a promotional video of a music, a TV program, and a music into the acoustic characteristics of the recording place. It is a device that reproduces the sound field with.
  • the sound processing device 1 may not be able to give a sufficient sense of presence to the listener of the sound content only by reproducing the sound field of the recording place. Specifically, when the measurement location where the acoustic characteristics of the acoustic content are measured and the reproduction location of the acoustic content match, the acoustic processing device 1 presents the listener as if he / she is there. It can give a feeling, but otherwise the sense of presence is halved.
  • the sound processing device 1 provides a user who watches a movie at home with the acoustic content of a movie converted into acoustic characteristics that reproduce the reverberation characteristics and reverberation characteristics of a movie theater, the user's location is at home. Therefore, it is difficult to give the user the feeling of being in a movie theater.
  • the sound processing device 1 uses, for example, a technology such as virtual reality (hereinafter referred to as VR: Virtual Reality) to reproduce the measurement place where the acoustic information of the acoustic content is measured, and then the measurement place.
  • VR virtual reality
  • the sound field reproduces the acoustic content that reproduces the acoustic characteristics of.
  • the sound processing device in addition to the movie image content D1, the movie sound content D2, and the movie theater sound information D3, the VR spherical image D4 in the movie theater is provided. Is stored (step S01).
  • the sound information D3 of the movie theater includes various parameters related to the sound characteristics of the movie theater.
  • the sound processing device 1 acquires a request for providing movie content from a user terminal 11 such as a smartphone carried by user U
  • the movie video content D1 and the movie are sent to the user terminal 11 of user U.
  • the acoustic content D2 is transmitted and provided.
  • the sound processing device 1 converts the acoustic characteristics of the sound content D2 of the movie into the sound characteristics of the movie theater based on the sound information D3 of the movie theater, and further, the user together with the VR all-sky image D4 in the movie theater. It is provided to the terminal 11 (step S02).
  • the VR all-sky image D4 of the movie theater includes an image of the screen installed in the movie theater and an image of the surrounding environment of the screen including the audience seats and the walls and ceiling of the movie theater.
  • the sound processing device 1 adds information indicating that the position of the screen in the VR spherical image D4 in the movie hall is the display position of the movie image content D1 to the movie image content D1, and the user terminal 11 To provide to.
  • the sound processing device 1 displays, for example, the VR spherical image D4 in the movie hall on the head-mounted display 12 worn by the user U, and displays the movie image content D1 on the screen in the VR spherical image D4. It can be displayed (step S03).
  • the sound processing device 1 can reproduce the sound field of the sound content D2 of the video content D1 in which the sound characteristics are converted into the sound characteristics in the movie hall by the earphone 13 worn by the user U (step S04).
  • the sound processing device 1 allows the user U to visually recognize not only the video content D1 of the movie projected on the screen but also the surrounding environment of the screen such as the audience seats, walls, and ceiling of the movie theater, and the user U uses the sound content D2. You can tell U.
  • the sound processing device 1 can give the user U who watches the video content of the movie at home, for example, a sense of reality as if he / she is watching a movie in a movie theater.
  • the VR all-sky image D4 in the movie hall is displayed on the head-mounted display 12, but the sound processing device 1 replaces the VR all-sky image D4 in the movie hall with 3DCG (Dimensional) that reproduces the movie hall.
  • 3DCG Human Graphics
  • FIG. 2 is a block diagram showing an example of the configuration of the sound processing device 1 according to the present disclosure.
  • the sound processing device 1 includes a communication unit 2, a storage unit 3, and a control unit 4.
  • the communication unit 2 is realized by, for example, a NIC (Network Interface Card) or the like.
  • the communication unit 2 is connected to the user terminal 11, the acoustic information creation device 100, and the creator terminal 101 by wire or wirelessly via a communication network N such as the Internet so that information can be communicated with each other.
  • a communication network N such as the Internet
  • the acoustic information creating device 100 is a device that creates acoustic information 34, which will be described later. Further, the creator terminal 101 is a terminal device used by the creator who creates the acoustic content 32 provided to the user U by the acoustic processing device 1.
  • the storage unit 3 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • the storage unit 3 stores video content 31, acoustic content 32, VR video information 33, acoustic information 34, and the like.
  • the video content 31 is a plurality of video data such as a movie, a live music, a promotional video of a musical piece, and a TV program, and is content data provided to the user terminal 11 by the sound processing device 1.
  • the acoustic content 32 is a plurality of audio data such as a movie, a live music, a promotional video of a musical piece, a TV program, and a musical piece, and is the content data provided to the user terminal 11 by the sound processing device 1.
  • the VR video information 33 includes a plurality of VR spherical images captured at various locations.
  • FIG. 3 is an explanatory diagram of a method for creating a VR spherical image according to the present disclosure.
  • a 360 ° camera 102 is installed at each place where the acoustic content 32 is played, and the 360 ° camera 102 is used to move the 360 ° camera 102 back and forth, up, down, left and right.
  • a VR spherical image Vr is captured.
  • a movie theater in which one screen is installed is taken as an example, but in the present disclosure, the VR spherical image of a movie theater having four screens on the front, left and right sides, and the bottom is shown. It is also possible to create a spherical image Vr.
  • the sound processing device 1 displays the video content 31 on one of the four screens on the front side, and displays the surrounding environment of the movie theater on the other three screens. This also makes it possible for the sound processing device 1 to improve the sense of presence given to the user.
  • the acoustic information 34 includes a plurality of information regarding the acoustic at each place where the acoustic content 32 is reproduced in the sound field.
  • FIG. 4 is an explanatory diagram showing an example of the acoustic information 34 according to the present disclosure.
  • the acoustic information 34 is provided for each user who provides the video content 31 and the acoustic content 32 by the audio processing device 1.
  • the acoustic information 34 is information in which a user ID, a user's head related transfer function (hereinafter, referred to as HRTF: Head Related Transfer Function), a location, a VR image, and an acoustic parameter are associated with each other.
  • HRTF Head Related Transfer Function
  • the user ID is identification information for identifying each user.
  • the HRTF is function information unique to each user that mathematically represents how the sound reaches the user's ear from the sound source.
  • a method of measuring the HRTF will be described with reference to FIGS. 5 and 6.
  • FIG. 5 and 6 are explanatory views of the HRTF measurement method according to the present disclosure.
  • the HRTF included in the sound information D3 of the movie theater described with reference to FIG. 1 as shown in FIG. 5, the user U is asked to wear the ear microphone 14 in the audience seat of the movie theater Mt.
  • the test signal Ts is output from the speaker SP of the movie theater.
  • the acoustic information creation device 100 includes a voice signal SL collected by the ear microphone 14 mounted on the left ear of the user U and a voice signal collected by the ear microphone 14 mounted on the right ear of the user U. Get SR and.
  • the acoustic information creating device 100 derives the HRTF of the user U based on the temporal deviation of the two acquired audio signals SL and SR, the deviation of the signal level (intensity), the difference in sound, and the like. In this way, the acoustic information creating device 100 can derive an accurate HRTF of the user U by actually measuring the test signal Ts heard by the user U.
  • the HRTF differs depending on the place (environment) where the user U listens to the test signal Ts. Therefore, for example, when there are a plurality of images of a place that the user wants to see while listening to the acoustic content 32, it is necessary to have the user come to each place, measure the HRTF, and derive it. It will be a burden.
  • the acoustic information creation device 100 can also derive the HRTF of the user U at a plurality of locations while reducing the burden on the user U.
  • the audio signal collected by the ear microphone 14 attached to the ear of the user U has a time in which the sound wave characteristic depends on the user U in the first predetermined time portion, and thereafter. There are times when the sound wave characteristics are location dependent.
  • the acoustic information creation device 100 has the user U come to one place, collects the test signal Ts by the ear microphone 14, and acquires the audio signal waveform of the time portion depending on the user U. To do. After that, the acoustic information creating device 100 installs the dummy doll DM equipped with the ear microphone 14 at a plurality of places desired by the user U, and acquires the voice signal waveform of the time portion where the sound wave characteristics depend on the place.
  • the acoustic information creating device 100 synthesizes the audio signal waveform of the time portion depending on the user U and the audio signal waveform of the time portion depending on the location acquired by using the dummy doll at a plurality of locations. , The HRTF of the user U at each location is derived based on the synthesized signal.
  • the acoustic information creation device 100 can derive the HRTFs of the user U at a plurality of places desired by the user U while reducing the burden on the user U, although the accuracy is slightly lower than that in the case of actual measurement.
  • the acoustic information creating device 100 may, for example, have the user U take a picture of his / her ear and transmit the image data, and estimate and derive the HRTF of the user U based on the image data of the ear. it can. In such a case, the acoustic information creation device 100 uses a learning model machine-learned to output the HRTF corresponding to the ear when the image data including the image of the ear is input, and the HRTF of the user U is used. Is derived.
  • the acoustic information creation device 100 can estimate and derive the user's HRTF without having the user U come to the place where the HRTF is measured, so that the burden on the user U required for the HRTF measurement is increased. It can be further reduced.
  • the location included in the acoustic information 34 is identification information for the user U registered in advance to identify a location desired to be viewed while listening to the acoustic content 32.
  • the VR image is identification information for identifying the VR spherical image corresponding to the place included in the acoustic information 34.
  • the acoustic parameters are associated with numerical values indicating reverberation characteristics such as reverberation time and reverberation characteristics such as reflection coefficient of sound waves for each of a plurality of sound output positions at each location.
  • the acoustic information creating device 100 measures the actual acoustics at each location and derives acoustic parameters based on the collected acoustics. As a result, the acoustic information creating device 100 can derive accurate acoustic parameters according to the actual location.
  • the data of each item is conceptually described as “A01” or “B01”, but in reality, the data of each item includes specific data corresponding to each item. Is remembered.
  • the acoustic information creating device 100 transmits the created acoustic information 34 to the acoustic processing device 1.
  • the sound processing device 1 stores the sound information 34 received from the sound information creating device 100 in the storage unit 3.
  • the acoustic processing device 1 has the same functions and configurations as the acoustic information creating device 100, and the acoustic information 34 is created by the own device.
  • the device may be configured to be stored in the storage unit 3.
  • the control unit 4 includes, for example, a microcomputer having a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), an input / output port, and various circuits.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the control unit 4 has an acquisition unit 41 and a processing unit that function by executing various programs (corresponding to an example of the sound processing program according to the embodiment) stored in the ROM by the CPU using the RAM as a work area. 42, and a providing unit 43 are provided.
  • the acquisition unit 41, the processing unit 42, and the providing unit 43 included in the control unit 4 are composed of hardware such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array). Good.
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • the acquisition unit 41, the processing unit 42, and the providing unit 43 each realize or execute the actions of information processing described below.
  • the internal configuration of the control unit 4 is not limited to the configuration shown in FIG. 2, and may be another configuration as long as it is a configuration for performing information processing described later.
  • the acquisition unit 41 acquires, for example, a request for providing the video content 31 and the acoustic content 32 from the user U. Further, when the acquisition unit 41 acquires the request for providing the video content 31 and the acoustic content 32 from the user U, the acquisition unit 41 acquires the information about the place seen by the user listening to the acoustic content 32 from the user terminal 11.
  • the acquisition unit 41 acquires the request for providing the movie video content D1 and the movie sound content D2 from the user terminal 11, and acquires the information indicating the movie theater as the location information from the user terminal 11, the acquisition unit 41 obtains the information indicating the movie theater from the user terminal 11.
  • the acquired information is output to the processing unit 42.
  • the processing unit 42 corresponds to the acoustic characteristics of the acoustic content 32 with the location information acquired from the user terminal 11 based on the acoustic information 34. It is converted into acoustic characteristics according to the location and output to the providing unit 43.
  • the processing unit 42 applies the HRTF of the user U for each user U to convert the acoustic characteristics of the acoustic content 32.
  • the processing unit 42 can convert the acoustic characteristics of the acoustic content 32 so as to have the optimum acoustic characteristics for the user U.
  • the processing unit 42 outputs the information acquired from the user terminal 11 to the providing unit 43 together with the acoustic content 32 after the acoustic characteristic conversion.
  • the providing unit 43 transmits the acoustic content 32 input from the processing unit 42, the VR spherical image of the location corresponding to the location information, and the video content 31 requested to be provided by the user to the user terminal 11.
  • the sound processing device 1 provides the user U not only with the movie video content D1 projected on the screen but also with the surrounding environment of the screen such as the audience seats of the movie theater, the walls, and the ceiling. It can be visually recognized.
  • the sound processing device 1 can simultaneously allow the user to listen to the sound content D2 of the movie converted into the sound characteristics of the movie theater. Therefore, for example, the sound processing device 1 can give the user U who watches the video content of the movie at home a sense of reality as if he / she is watching a movie in a movie theater.
  • the acquisition unit 41 acquires the request for providing the video content 31 and the acoustic content 32 from the user terminal 11 has been described, but the acquisition unit 41 is combined with the request for providing the acoustic content 32 from the user terminal 11. In some cases, an image of the location of the user U may be acquired.
  • the processing unit 42 converts the acoustic characteristics of the acoustic content 32 according to the location of the user U, transmits the converted acoustic content 32 to the user terminal 11 by the providing unit 43, and reproduces the sound field by the user terminal 11. Let me. An operation example of the sound processing device 1 will be described later with reference to FIGS. 7 and 8.
  • the acquisition unit 41 may acquire the acoustic information 34 of the acoustic content 32 and the request for providing the VR spherical image of the place where the acoustic content 32 is reproduced in the sound field from the creator who created the acoustic content 32.
  • An operation example of the sound processing device 1 in such a case will be described later with reference to FIG.
  • FIGS. 7 to 10 are explanatory views of an operation example of the sound processing device 1 according to the present disclosure.
  • the acquisition unit 41 of the sound processing device 1 captures, for example, the location (here, the vehicle interior of the vehicle C) imaged by the user terminal 11 when the user U is in the vehicle C.
  • the image Pic1 and the request for providing the acoustic content 32 may be acquired.
  • the sound processing device 1 predicts the acoustic characteristics of the location from the image Pic1 of the location, converts the acoustic characteristics of the acoustic content 32 into the predicted acoustic characteristics, and reproduces the sound field by the user terminal 11.
  • the processing unit 42 of the sound processing device 1 determines the location of the user U as the space inside the vehicle interior of the vehicle C by recognizing the image Pic1 as an image.
  • the processing unit 42 estimates the length L in the front-rear direction, the length W in the lateral direction, and the length H in the height direction from the image Pic1 to predict the size of the space in the vehicle interior. Based on the size of the space inside the vehicle, the acoustic characteristics such as the reverberation characteristics and the reverberation characteristics of the space inside the vehicle are predicted.
  • the processing unit 42 converts the acoustic characteristics of the acoustic content 32 into the predicted acoustic characteristics.
  • the virtual speaker SpC is arranged at the front center position in the vehicle interior, and is located at a position 30 ° to the left and right from the center. Place virtual speakers SpL and SpR.
  • the processing unit 42 converts the acoustic characteristics of the acoustic content 32 so that it sounds as if the sound is output from the three virtual speakers PcC, SpL, and SpR, outputs the sound to the providing unit 43, and is output by the providing unit 43.
  • the acoustic content 32 is transmitted to the user terminal 11.
  • the sound processing device 1 can give the user U a sense of realism as if the user U is listening to the sound content 32 with a high-quality car audio, for example, when the user U listens to the sound content 32 with an earphone. it can.
  • the acquisition unit 41 requests the provision of the image Pic2 whose location is captured by the user U and the video content 31 and the acoustic content 32. May get.
  • the acquisition unit 41 acquires, for example, information indicating that the user U has selected a predetermined area A (here, an area surrounding the television Tv) including the visual field center of the user U from the image Pic2. In some cases.
  • the processing unit 42 arranges virtual speakers Sp1, Sp2, Sp3, Sp4, Sp5, Sp6, which are the sound output positions of the acoustic content 32, so as to surround the predetermined area A. Then, the processing unit 42 converts the acoustic characteristics of the acoustic content 32 and outputs the sound to the providing unit 43 so that the sound is output from the virtual speakers Sp1, Sp2, Sp3, Sp4, Sp5, and Sp6.
  • the providing unit 43 transmits the video content 31 requested to be provided by the user U and the acoustic content 32 whose acoustic characteristics have been converted by the processing unit 42 to the user terminal 11, displays the video content 31 and sounds of the acoustic content 32. Let the place be regenerated.
  • the sound processing device 1 seems to be listening to the sound content 32 with the high-quality audio device while displaying the video content 31 on the TV Tv.
  • a sense of realism can be given to the user U.
  • the sound processing device 1 can also display the augmented reality (AR: Augmented Reality) images Ca, Cc, and Cd of the characters appearing in the work Vd around the user by the head-mounted display Cb.
  • AR Augmented Reality
  • the sound processing device 1 can further improve the sense of presence given to the user U.
  • the acquisition unit 41 can also acquire the position information of the user U, which is positioned by the GPS (Global Positioning System) included in the user terminal 11, for example.
  • GPS Global Positioning System
  • the processing unit 42 predicts the user's location from the user's position information acquired by the acquisition unit, converts the acoustic characteristics of the acoustic content 32 into the predicted acoustic characteristics of the location, and reproduces the sound field. As a result, the processing unit 42 can convert the acoustic characteristics of the acoustic content 32 into acoustic characteristics according to the exact location of the user U positioned by GPS.
  • the acquisition unit 41 can also acquire an image selected from images previously captured by the user U from the user terminal 11 or an image viewed by the user U via the communication network N.
  • the processing unit 42 predicts the acoustic characteristics of the place reflected in the image acquired by the acquisition unit 41, converts the acoustic characteristics of the acoustic content into the predicted acoustic characteristics, and reproduces the sound field.
  • the sound processing device 1 gives the user U a sense of realism as if he / she is listening to the sound content 32 at a place of memories that the user U visited in the past or a favorite place reflected in the image viewed in the past. Can be given.
  • the processing unit 42 changes the number of virtual speakers to be arranged as the sound output position of the acoustic content 32 and the sound output characteristics of the virtual speakers according to the size of the space where the user U is predicted from the image. To do. For example, the processing unit 42 increases the number of virtual speakers to be arranged as the predicted space becomes wider.
  • the processing unit 42 arranges a virtual speaker having sound output characteristics such that the acoustic content 32 can be heard from a direction of 360 °, for example, a surround speaker. ..
  • the sound processing device 1 can cause the user terminal 11 to reproduce the optimum sound field according to the size of the location of the user U.
  • the acquisition unit 41 may acquire, for example, a request for providing the acoustic information 34 of the acoustic content 32 and the VR spherical image of the place where the acoustic content 32 is reproduced in the sound field from the creator who created the acoustic content 32. is there.
  • the processing unit 42 of the sound processing device 1 uses the sound content 32, the sound information 34, and the VR video information 33 requested to be provided to the creator terminal 101 by the providing unit 43 by the creator CR. To send to the creator terminal 101.
  • the creator CR can change the acoustic information 34 based on his / her own creation intention while watching the VR spherical image Vr of the movie theater included in the VR image information 33, for example.
  • the creator CR currently has acoustic information 34 that sounds like virtual speakers Sp are arranged on both sides of a movie theater screen, and virtual speakers Sp are arranged at positions further away from both sides of the screen. It can be changed to the acoustic information 34 that sounds like it is.
  • the creator CR can be changed to acoustic information 34, which sounds like a new virtual speaker SpU is arranged on the screen and a new virtual speaker SpD is arranged under the screen, for example.
  • the creator CR listens to the acoustic content 32 to which its own HRTF is applied and changes the acoustic information 34.
  • the creator CR transmits the changed acoustic information 34a, the acoustic content 32a, and the VR video information 33 from the creator terminal 101 to the audio processing device 1.
  • the sound processing device 1 stores the sound information 34a received from the creator terminal 101, the sound content 32a, and the VR video information 33 in the storage unit 3.
  • the acoustic processing device 1 can reproduce the acoustic content 32a in the sound field with the acoustic characteristics reflecting the creation intention of the creator CR when the acoustic content 32a is provided to the user U next time.
  • the sound processing device 1 can reproduce the sound field of the acoustic content 32a having the optimum acoustic characteristics for the user U by providing the user U with the acoustic content 32a to which the HRTF of the user U is applied.
  • FIGS. 11 to 13 are flowcharts showing an example of the processing executed by the control unit 4 of the sound processing device 1 according to the present disclosure.
  • control unit 4 of the sound processing device 1 acquires a request for providing content including sound and video from the user U of the user terminal 11, the control unit 4 executes the process shown in FIG. Specifically, when the control unit 4 acquires the content provision request from the user U, the control unit 4 first acquires the content and location information desired by the user U from the user U (step S101).
  • control unit 4 converts the acoustic characteristics of the acoustic content corresponding to the content desired by the user into the acoustic characteristics corresponding to the acoustic characteristics corresponding to the location information (step S102). After that, the control unit 4 provides the user U with the video content, the acoustic content whose acoustic characteristics are converted, and the VR spherical image to be visually recognized by the user U when the acoustic content and the video content are reproduced, and the sound field. It is regenerated (step S103), and the process is terminated.
  • control unit 4 executes the process shown in FIG. 12 when the user requests the provision of acoustic content and the image of the user's whereabouts captured by the user is acquired. Specifically, when the control unit 4 acquires the content provision request and the captured image from the user U, the control unit 4 first predicts the acoustic characteristics of the space reflected in the captured image (step S201).
  • control unit 4 converts the acoustic characteristics of the acoustic content corresponding to the content desired by the user U into the acoustic characteristics of the space predicted in step S201 (step S202). After that, the control unit 4 provides the user U with acoustic content whose acoustic characteristics have been converted to reproduce the sound field (step S203), and ends the process.
  • control unit 4 performs a process of arranging the sound output position of the acoustic content so as to surround the predetermined area A, and the sound content to the user U. I will provide a.
  • control unit 4 changes the number of sound output positions and the sound output characteristics of the acoustic content to be arranged according to the size of the predetermined area A selected by the user, and provides the acoustic content to the user U. ..
  • control unit 4 predicts and predicts the acoustic characteristics of the space reflected in the captured image even when the user U requests the provision of contents including sound and video and the captured image showing the user's whereabouts. It is possible to provide the user U with acoustic content converted into acoustic characteristics.
  • control unit 4 executes the process shown in FIG. 13 when, for example, the acoustic information of the acoustic content and the request for providing the place where the acoustic content is reproduced in the sound field are acquired from the creator CR of the acoustic content.
  • control unit 4 when the control unit 4 acquires the request for providing the acoustic information and the location from the creator CR, the control unit 4 first determines the location where the acoustic information and the acoustic content corresponding to the acoustic information are reproduced in the sound field to the creator CR.
  • the VR spherical image is provided (step S301).
  • control unit 4 determines whether or not the changed acoustic information has been acquired from the creator CR (step S302). Then, when the control unit 4 determines that the acoustic information has not been acquired from the creator CR (steps S302, No), the control unit 4 repeats the determination process of step S302 until the acoustic information is acquired.
  • step S302, Yes when it is determined that the acoustic information has been acquired from the creator CR (step S302, Yes), the control unit 4 stores the acquired acoustic characteristics in association with the VR spherical image provided to the creator CR (step S302, Yes). Step S303), the process is terminated.
  • the present technology can also have the following configurations.
  • An acquisition unit that acquires location information about the location seen by the user listening to the acoustic content
  • a storage unit that stores acoustic information related to acoustics at the location
  • An acoustic processing device having a processing unit that converts the acoustic characteristics of the acoustic content into acoustic characteristics according to the location based on the acoustic information and reproduces the sound field.
  • the storage unit Memorize the virtual reality spherical image of the above location, The processing unit The acoustic processing device according to (1), wherein the user visually recognizes the virtual reality spherical image during sound field reproduction of the acoustic content.
  • the storage unit The virtual reality spherical image including the screen on which the image content corresponding to the acoustic content is displayed at the place and the image of the surrounding environment of the screen is stored.
  • the processing unit The sound processing device according to (2), wherein the video content is displayed on the screen in the virtual reality spherical image.
  • the storage unit The virtual reality spherical image including the four screens on which the image content corresponding to the acoustic content is displayed at the location is stored.
  • the processing unit The video content is displayed on one of the four screens in the virtual reality spherical image, and the image of the surrounding environment of the place is displayed on the other three screens (2).
  • the acquisition unit An image of the whereabouts imaged by the user is acquired,
  • the processing unit The acoustic processing device according to (1) above, wherein the acoustic characteristics of the location are predicted from the image of the location, the acoustic characteristics of the acoustic content are converted into the predicted acoustic characteristics, and the sound field is reproduced.
  • the processing unit The acoustic processing apparatus according to (5) above, which predicts the acoustic characteristics of the space based on the size of the space of the location predicted from the image of the location.
  • the processing unit The acoustic processing apparatus according to (6) above, which predicts reverberation characteristics and reverberation characteristics in the space.
  • the processing unit The sound processing apparatus according to (6), wherein the number of sound output positions and the sound output characteristics of the acoustic content to be arranged are changed according to the size of the space of the location predicted from the image of the location. (9) The processing unit When a predetermined area including the center of the visual field of the user is selected from the image of the location by the user, the sound output position of the acoustic content is arranged so as to surround the predetermined area. Any of the above (5) to (8). The sound processing device described in Crab. (10) The acquisition unit An image selected from images previously captured by the user or an image viewed by the user via a communication network is acquired.
  • the processing unit The acoustic processing apparatus according to (1), wherein the acoustic characteristics of a place reflected in the image are predicted, the acoustic characteristics of the acoustic content are converted into the predicted acoustic characteristics, and the sound field is reproduced.
  • the acquisition unit Acquire the position information of the user, which is positioned by GPS (Global Positioning System),
  • the processing unit The acoustic processing apparatus according to (1), wherein the user's location is predicted from the user's position information, the acoustic characteristics of the acoustic content are converted into the predicted acoustic characteristics of the location, and the sound field is reproduced.
  • a providing unit that provides the acoustic content, the virtual reality spherical image of the place where the acoustic content is reproduced in the sound field, and the acoustic information to the creator of the acoustic content.
  • the acquisition unit Acquires the acoustic information changed by the creator,
  • the storage unit The acoustic content provided to the creator and the virtual reality all-sky image of the place where the acoustic content is reproduced in the sound field are stored in association with the acoustic information changed by the creator in (2).
  • the described acoustic processing device is described.
  • the storage unit The acoustic processing apparatus according to any one of (1) to (12) above, which stores the acoustic information generated based on the acoustic measured at the location.
  • the storage unit Memorize the user's head-related transfer function
  • the processing unit The acoustic processing device according to any one of (1) to (13), wherein the acoustic characteristics of the acoustic content are converted by applying the head-related transfer function of the user for each user.
  • the storage unit The sound processing device according to (14), which stores the head-related transfer function derived based on the sound recorded by the ear microphone worn by the user.
  • the storage unit Based on the sound of time recorded by the user-mounted ear microphone and the sound wave characteristics depend on the user, and the sound of time recorded by the ear microphone mounted on the doll and the sound wave characteristics depend on the location.
  • the acoustic processing apparatus according to (14) above which stores the head-related transfer function derived from the above.
  • the storage unit The acoustic processing device according to (14), which stores the head-related transfer function derived based on the image of the user's ear.
  • a computer-executed sound processing method The acquisition process to acquire location information about the location seen by the user listening to the acoustic content, A storage process for storing acoustic information about acoustics at the location, An acoustic processing method including a processing step of converting the acoustic characteristics of the acoustic content into acoustic characteristics according to the location based on the acoustic information and reproducing the sound field.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本開示に係る音響処理装置(1)は、取得部(41)と、記憶部(3)と、処理部(42)とを有する。取得部(41)は、音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する。記憶部(3)は、場所における音響に関する音響情報(34)を記憶する。処理部(42)は、音響情報(34)に基づいて音響コンテンツの音響特性を場所に応じた音響特性に変換して音場再生させる。

Description

音響処理装置、音響処理方法、および音響処理プログラム
 本開示は、音響処理装置、音響処理方法、および音響処理プログラムに関する。
 複数のマイクロホンで集音した音場の信号から波面合成法を用いて生成する駆動信号によってスピーカを駆動し、仮想的に集音場所の音場を再現する音場集音生成装置がある(例えば、特許文献1参照)。
特開2015-171111号公報
 しかしながら、音場を再現するだけでは、音響の聞き手に十分な臨場感を与えることができない場合がある。そこで、本開示では、音響の聞き手に与える臨場感を高めることができる音響処理装置、音響処理方法、および音響処理プログラムを提案する。
 本開示に係る音響処理装置は、取得部と、記憶部と、処理部とを有する。取得部は、音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する。記憶部は、前記場所における音響に関する音響情報を記憶する。処理部は、前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる。
本開示に係る音響処理装置による音響処理の概要を示す説明図である。 本開示に係る音響処理装置の構成の一例を示すブロック図である。 本開示に係るVR全天球映像の作成方法の説明図である。 本開示に係る音響情報の一例を示す説明図である。 本開示に係るHRTFの計測方法の説明図である。 本開示に係るHRTFの計測方法の説明図である。 本開示に係る音響処理装置の動作例の説明図である。 本開示に係る音響処理装置の動作例の説明図である。 本開示に係る音響処理装置の動作例の説明図である。 本開示に係る音響処理装置の動作例の説明図である。 本開示に係る音響処理装置の制御部が実行する処理の一例を示すフローチャートである。 本開示に係る音響処理装置の制御部が実行する処理の一例を示すフローチャートである。 本開示に係る音響処理装置の制御部が実行する処理の一例を示すフローチャートである。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
(1.音響処理の概要)
 図1は、本開示に係る音響処理装置1による音響処理の概要を示す説明図である。音響処理装置1は、例えば、映画、音楽ライブ、楽曲のプロモーションビデオ、テレビ番組、および楽曲等の音響コンテンツの音響特性を録音場所の音響特性に変換することによって録音場所の音場を再現した状態で音場再生させる装置である。
 ここで、音響処理装置1は、録音場所の音場を再現するだけでは、音響コンテンツの聞き手に十分な臨場感を与えることができない場合がある。具体的には、音響処理装置1は、音響コンテンツの音響特性が測定された測定場所と、音響コンテンツの再生場所とが一致している場合には、聞き手にまるでその場にいるかのような臨場感を与えることができるが、そうでない場合には臨場感が半減する。
 例えば、音響処理装置1は、自宅で映画を視聴するユーザへ映画館の残響特性や反響特性等を再現した音響特性に変換した映画の音響コンテンツを提供しても、ユーザの居場所が自宅であるため、映画館にいるかのような感覚をユーザに与えることは困難である。
 そこで、音響処理装置1は、例えば、仮想現実(以下、VR:Virtual Realityと記載する)等の技術を利用して、音響コンテンツの音響情報が測定された測定場所を再現した上で、測定場所の音響特性を再現した音響コンテンツを音場再生させる。
 例えば、図1に示すように、音響処理装置1は、予め映画の映像コンテンツD1と、映画の音響コンテンツD2と、映画館の音響情報D3とに加えて、映画館内のVR全天球映像D4を記憶する(ステップS01)。映画館の音響情報D3には、映画館内の音響特性に関する種々のパラメータが含まれる。
 そして、音響処理装置1は、例えば、ユーザUが携帯するスマートフォン等のユーザ端末11から映画のコンテンツの提供要求を取得した場合に、ユーザUのユーザ端末11へ映画の映像コンテンツD1と、映画の音響コンテンツD2とを送信して提供する。
 このとき、音響処理装置1は、映画館の音響情報D3に基づいて、映画の音響コンテンツD2の音響特性を映画館の音響特性に変換し、さらに、映画館内のVR全天球映像D4と共にユーザ端末11へ提供する(ステップS02)。
 映画館のVR全天球映像D4には、映画館に設置されたスクリーンの画像と、観客席や映画館の壁および天井等が含まれるスクリーンの周囲環境の画像とが含まれている。音響処理装置1は、映画の映像コンテンツD1に対して、映画館内のVR全天球映像D4におけるスクリーンの位置を映画の映像コンテンツD1の表示位置とすることを示す情報を付加してユーザ端末11へ提供する。
 これにより、音響処理装置1は、例えば、ユーザUが装着するヘッドマウントディスプレイ12に映画館内のVR全天球映像D4を表示させ、VR全天球映像D4内のスクリーンに映画の映像コンテンツD1を表示させることができる(ステップS03)。
 同時に、音響処理装置1は、例えば、ユーザUが装着するイヤホン13によって、音響特性を映画館内の音響特性に変換した映像コンテンツD1の音響コンテンツD2を音場再生することができる(ステップS04)。
 このように、音響処理装置1は、スクリーンに映し出される映画の映像コンテンツD1だけではなく、映画館の客席や壁および天井等といったスクリーンの周囲環境までユーザUに視認させながら、音響コンテンツD2をユーザUに聞かせることができる。
 これにより、音響処理装置1は、例えば、自宅で映画の映像コンテンツを視聴するユーザUに対して、まるで映画館で映画を見ているかのような臨場感を与えることができる。ここでは、映画館内のVR全天球映像D4をヘッドマウントディスプレイ12に表示させたが、音響処理装置1は、映画館内のVR全天球映像D4に代えて、映画館内を再現した3DCG(Dimensional Computer Graphics)映像を表示させてもよい。なお、図1を参照して説明した音響処理装置1の動作は一例である。音響処理装置1の他の動作例については、図7~図10を参照して後述する。
(2.音響処理装置の構成)
 次に、図2を参照し、音響処理装置1の構成の一例について説明する。図2は、本開示に係る音響処理装置1の構成の一例を示すブロック図である。図2に示すように、音響処理装置1は、通信部2と、記憶部3と、制御部4とを備える。
 通信部2は、例えば、NIC(Network Interface Card)等によって実現される。通信部2は、例えば、インターネット等の通信ネットワークNを介して有線又は無線によって、ユーザ端末11、音響情報作成装置100、およびクリエータ端末101と情報通信可能に接続される。
 音響情報作成装置100は、後述する音響情報34を作成する装置である。また、クリエータ端末101は、音響処理装置1によってユーザUに提供される音響コンテンツ32を作成するクリエータが使用する端末装置である。
 記憶部3は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。かかる記憶部3は、映像コンテンツ31、音響コンテンツ32、VR映像情報33、および音響情報34等を記憶する。
 映像コンテンツ31は、映画、音楽ライブ、楽曲のプロモーションビデオ、およびテレビ番組等の複数の映像データであり、音響処理装置1によってユーザ端末11へ提供されるコンテンツデータである。
 音響コンテンツ32は、映画、音楽ライブ、楽曲のプロモーションビデオ、テレビ番組、および楽曲等の複数の音声データであり、音響処理装置1によってユーザ端末11へ提供されるコンテンツデータである。
 VR映像情報33は、種々の場所で撮像された複数のVR全天球映像を含む。ここで、図3を参照し、VR全天球映像の作成方法の一例について説明する。図3は、本開示に係るVR全天球映像の作成方法の説明図である。
 図3に示すように、VR全天球映像を作成する場合には、音響コンテンツ32が再生される各場所に、360°カメラ102を設置し、360°カメラ102によって、その場所の前後上下左右全方位の画像を撮像することによって、VR全天球映像Vrを撮像する。
 これにより、例えば、映画館に360°カメラ102を設置して撮像を行うことにより、図1に示した映画館のスクリーンと、映画館の客席や壁および天井等といったスクリーンの周囲環境の画像とを含むVR全天球映像Vrを作成することができる。
 なお、図1に示す例では、1面のスクリーンが設置される映画館を例に挙げたが、本開示では、正面、左右両側面、および底面の4面スクリーンがある映画館のVR全天球映像Vrを作成することもできる。
 かかる場合、音響処理装置1は、4面のスクリーンのうち、正面の1面のスクリーンに映像コンテンツ31を表示させ、他の3面のスクリーンに映画館の周囲環境を表示させる。これによっても、音響処理装置1は、ユーザに与える臨場感を向上させることができる。
 図2へ戻り、音響情報34について説明する。音響情報34は、音響コンテンツ32が音場再生される各場所における音響に関する複数の情報を含む。ここで、図4を参照し、音響情報34の一例について説明する。図4は、本開示に係る音響情報34の一例を示す説明図である。
 図4に示すように、音響情報34は、音響処理装置1によって映像コンテンツ31や音響コンテンツ32を提供するユーザ毎に設けられる。音響情報34は、ユーザIDと、ユーザの頭部伝達関数(以下、HRTF:Head Related Transfer Functionと記載する)と、場所と、VR映像と、音響パラメータとが対応付けられた情報である。
 ユーザIDは、各ユーザを識別するための識別情報である。HRTFは、音源からユーザの耳への音の届き方を数学的に表した各ユーザ固有の関数情報である。ここで、図5および図6を参照し、HRTFの計測方法について説明する。
 図5および図6は、本開示に係るHRTFの計測方法の説明図である。例えば、図1を参照して説明した映画館の音響情報D3に含まれるHRTFを計測する場合、図5に示すように、ユーザUに映画館Mtの客席でイヤマイクロホン14を装着してもらい、映画館のスピーカSPから試験信号Tsを出音させる。
 そして、音響情報作成装置100は、ユーザUの左耳に装着されたイヤマイクロホン14によって集音された音声信号SLと、ユーザUの右耳に装着されたイヤマイクロホン14によって集音された音声信号SRとを取得する。
 そして、音響情報作成装置100は、取得した2つの音声信号SL,SRの時間的なズレ、信号レベル(強度)のズレ、響きの違い等に基づいて、ユーザUのHRTFを導出する。このように、音響情報作成装置100は、ユーザUによって聞かれる試験信号Tsを実測することによって、ユーザUの正確なHRTFを導出することができる。
 なお、HRTFは、ユーザUが試験信号Tsを聴く場所(環境)によって異なる。このため、例えば、ユーザが音響コンテンツ32を聴きながら見たい場所の映像が複数ある場合には、ユーザに各場所に来てもらい、HRTFを計測して導出する必要があり、かかる作業はユーザにとって負担となる。
 このため、音響情報作成装置100は、ユーザUの負担を軽減しつつ、複数の場所でのユーザUのHRTFを導出することもできる。例えば、図6に示すように、ユーザUの耳に装着されたイヤマイクロホン14によって集音される音声信号は、始めの所定時間部分に音波特性がユーザUに依存する時間があり、それ以降に音波特性が場所に依存する時間がある。
 このため、音響情報作成装置100は、例えば、1箇所の場所へユーザUに来てもらい、イヤマイクロホン14によって試験信号Tsを集音し、ユーザUに依存する時間の部分の音声信号波形を取得する。その後、音響情報作成装置100は、イヤマイクロホン14を装着させたダミー人形DMをユーザUが望む複数の場所に設置して、音波特性が場所に依存する時間の部分の音声信号波形を取得する。
 そして、音響情報作成装置100は、ユーザUに依存する時間の部分の音声信号波形と、複数の場所でダミー人形を使用して取得した場所に依存する時間の部分の音声信号波形とを合成し、合成信号に基づいて、各場所におけるユーザUのHRTFを導出する。
 これにより、音響情報作成装置100は、実測する場合に比べて精度が若干下がるが、ユーザUの負担を軽減しつつ、ユーザUが望む複数の場所におけるユーザUのHRTFを導出することができる。
 また、音響情報作成装置100は、例えば、ユーザUに自身の耳の写真を撮像して画像データを送信してもらい、耳の画像データに基づいてユーザUのHRTFを推定して導出することもできる。かかる場合、音響情報作成装置100は、耳の映像を含む画像データが入力された場合に、その耳に対応するHRTFを出力するように機械学習された学習モデルを使用して、ユーザUのHRTFを導出する。
 これにより、音響情報作成装置100は、ユーザUにHRTFを測定する場所へ来てもらわなくても、ユーザのHRTFを推定して導出することができるので、HRTFの計測に要するユーザUの負担をさらに軽減することができる。
 図3へ戻り、音響情報34の説明を続ける。音響情報34に含まれる場所は、事前に登録されたユーザUが音響コンテンツ32を聴きながら見たい場所を識別するための識別情報である。VR映像は、音響情報34に含まれる場所に対応するVR全天球映像を識別するための識別情報である。
 音響パラメータは、各場所における複数の出音位置毎に、残響時間等の残響特性や、音波の反射係数等の反響特性を示す数値が対応付けられる。音響情報作成装置100は、各場所で実際の音響を測定し、収集した音響に基づいて音響パラメータを導出する。これにより、音響情報作成装置100は、実際の場所に即した正確な音響パラメータを導出することができる。なお、図4では、各項目のデータを「A01」や「B01」のように概念的に記載しているが、実際には、各項目のデータには、各項目に対応した具体的なデータが記憶される。
 音響情報作成装置100は、作成した音響情報34を音響処理装置1へ送信する。音響処理装置1は、音響情報作成装置100から受信する音響情報34を記憶部3に記憶させる。なお、ここでは、音響情報作成装置100が音響情報34を作成する場合について説明したが、音響処理装置1が音響情報作成装置100と同様の機能および構成を備え、自装置によって音響情報34を作成して記憶部3に記憶させる構成であってもよい。
 図2へ戻り、制御部4について説明する。制御部4は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、入出力ポートなどを有するマイクロコンピュータや各種の回路を含む。
 制御部4は、CPUがROMに記憶された各種プログラム(実施形態に係る音響処理プログラムの一例に相当)を、RAMを作業領域として使用して実行することにより機能する取得部41と、処理部42、と提供部43とを備える。
 なお、制御部4が備える取得部41、処理部42、提供部43は、それぞれ一部または全部がASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等のハードウェアで構成されてもよい。
 取得部41、処理部42、提供部43は、それぞれ以下に説明する情報処理の作用を実現または実行する。なお、制御部4の内部構成は、図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
 取得部41は、例えば、ユーザUから映像コンテンツ31および音響コンテンツ32の提供要求を取得する。また、取得部41は、ユーザUから映像コンテンツ31および音響コンテンツ32の提供要求を取得した場合に、音響コンテンツ32を聴くユーザによって見られる場所に関する情報をユーザ端末11から取得する。
 例えば、取得部41は、ユーザ端末11から映画の映像コンテンツD1および映画の音響コンテンツD2の提供要求を取得し、ユーザ端末11から場所情報として映画館を示す情報を取得した場合、ユーザ端末11から取得した情報を処理部42へ出力する。
 処理部42は、ユーザ端末11から取得された情報が取得部41から入力された場合に、音響情報34に基づいて、音響コンテンツ32の音響特性をユーザ端末11から取得された場所情報に対応する場所に応じた音響特性に変換して提供部43へ出力する。
 このとき、処理部42は、ユーザU毎に、ユーザUのHRTFを適用して、音響コンテンツ32の音響特性を変換する。これにより、処理部42は、ユーザUにとって最適な音響特性となるように、音響コンテンツ32の音響特性を変換することができる。処理部42は、音響特性変換後の音響コンテンツ32と合わせて、ユーザ端末11から取得された情報を提供部43へ出力する。
 提供部43は、処理部42から入力される音響コンテンツ32と、場所情報に対応する場所のVR全天球映像と、ユーザによって提供要求された映像コンテンツ31とをユーザ端末11へ送信する。
 これにより、音響処理装置1は、例えば、図1に示したように、スクリーンに映し出される映画の映像コンテンツD1だけではなく、映画館の客席や壁および天井等といったスクリーンの周囲環境までユーザUに視認させることができる。
 そして、音響処理装置1は、同時に、映画館の音響特性に変換した映画の音響コンテンツD2をユーザに聴かせることができる。したがって、音響処理装置1は、例えば、自宅で映画の映像コンテンツを視聴するユーザUに対して、まるで映画館で映画を見ているかのような臨場感を与えることができる。
 なお、ここまでは、取得部41がユーザ端末11から映像コンテンツ31および音響コンテンツ32の提供要求を取得する場合について説明したが、取得部41は、ユーザ端末11から音響コンテンツ32の提供要求と合わせて、ユーザUの居場所の画像を取得する場合がある。
 かかる場合、処理部42は、ユーザUの居場所に応じて音響コンテンツ32の音響特性を変換し、変換後の音響コンテンツ32を提供部43によってユーザ端末11へ送信し、ユーザ端末11によって音場再生させる。かかる音響処理装置1の動作例については、図7および図8を参照して後述する。
 また、取得部41は、音響コンテンツ32を作成したクリエータから音響コンテンツ32の音響情報34、および音響コンテンツ32が音場再生される場所のVR全天球映像の提供要求を取得する場合がある。かかる場合の音響処理装置1の動作例については、図10を参照して後述する。
(3.音響処理装置の動作例)
 次に、図7~図10を参照し、音響処理装置1の動作例について説明する。図7~図10は、本開示に係る音響処理装置1の動作例の説明図である。
 図7に示すように、音響処理装置1の取得部41は、例えば、ユーザUが車両C内に居るときに、ユーザ端末11によって撮像された居場所(ここでは、車両Cの車室内)が撮像された画像Pic1と、音響コンテンツ32の提供要求とを取得する場合がある。
 かかる場合、音響処理装置1は、居場所の画像Pic1から居場所の音響特性を予測し、音響コンテンツ32の音響特性を予測した音響特性に変換してユーザ端末11によって音場再生させる。例えば、音響処理装置1の処理部42は、画像Pic1を画像認識することによって、ユーザUの居場所を車両Cの車室内の空間と判定する。
 その後、処理部42は、画像Pic1から車室内の前後方向の長さL、横方向の長さW、および高さ方向の長さHを推定して車室内の空間の広さを予測し、車室内の空間の広さに基づいて、車室内の空間の反響特性および残響特性等の音響特性を予測する。
 続いて、処理部42は、音響コンテンツ32の音響特性を予測した音響特性に変換し、例えば、車室内の前方中央位置に仮想スピーカSpCを配置し、中央から左右にそれぞれ30°離れた位置に仮想スピーカSpL,SpRを配置する。
 そして、処理部42は、3つの仮想スピーカPcC,SpL,SpRから出音されているように聞こえるように、音響コンテンツ32の音響特性を変換して、提供部43へ出力し、提供部43によってユーザ端末11へ音響コンテンツ32を送信させる。
 これにより、音響処理装置1は、例えば、ユーザUがイヤホンで音響コンテンツ32を聴く場合に、高音質なカーオーディオで音響コンテンツ32を聴いているかのような、臨場感をユーザUに与えることができる。
 また、図8に示すように、取得部41は、ユーザUが自宅のリビングルームにいるときに、ユーザUによって居場所が撮像された画像Pic2と、映像コンテンツ31および音響コンテンツ32の提供要求とを取得する場合がある。
 また、このとき、取得部41は、例えば、ユーザUによって、画像Pic2からユーザUの視野中心を含む所定領域A(ここでは、テレビTvを囲む領域)が選択されたことを示す情報を取得する場合がある。
 かかる場合、処理部42は、所定領域Aを囲むように、音響コンテンツ32の出音位置となる仮想スピーカSp1,Sp2,Sp3,Sp4,Sp5,Sp6を配置する。そして、処理部42は、仮想スピーカSp1,Sp2,Sp3,Sp4,Sp5,Sp6から出音されているように聞こえるように、音響コンテンツ32の音響特性を変換して、提供部43へ出力する。
 提供部43は、ユーザUによって提供要求された映像コンテンツ31と、処理部42によって音響特性が変換された音響コンテンツ32とをユーザ端末11へ送信し、映像コンテンツ31の表示および音響コンテンツ32の音場再生を行わせる。
 これにより、音響処理装置1は、ユーザUがイヤホンで音響コンテンツ32を聴く場合に、テレビTvで映像コンテンツ31を表示中に、高音質なオーディオ装置で音響コンテンツ32を聴いているかのような、臨場感をユーザUに与えることができる。
 また、このとき、例えば、図9に示すように、ユーザUがテレビTvでアニメーションの作品Vdを視聴している場合がある。かかる場合、音響処理装置1は、作品Vdに登場するキャラクタの拡張現実(AR:Augmented Reality)画像Ca,Cc,CdをヘッドマウントディスプレイCbによって、ユーザの周囲に表示させることもできる。これにより、音響処理装置1は、ユーザUに与える臨場感をさらに向上させることができる。
 なお、ここでは、ユーザUによって撮像された画像からユーザの居場所を予測したが、これは一例である。取得部41は、例えば、ユーザ端末11が備えるGPS(Global Positioning System)によって測位されるユーザUの位置情報を取得することもできる。
 この場合、処理部42は、取得部によって取得されるユーザの位置情報からユーザの居場所を予測し、音響コンテンツ32の音響特性を予測した居場所の音響特性に変換して音場再生させる。これにより、処理部42は、音響コンテンツ32の音響特性を、GPSによって測位されたユーザUの正確な居場所に応じた音響特性に変換することができる。
 また、取得部41は、ユーザ端末11からユーザUによって過去に撮像された画像から選択された画像、または通信ネットワークNを介してユーザUによって閲覧された画像を取得することもできる。
 この場合、処理部42は、取得部41によって取得された画像に写る場所の音響特性を予測し、音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる。これにより、音響処理装置1は、例えば、ユーザUが過去に訪れた思い出の場所や、過去に閲覧した画像に写るお気に入りの場所で音響コンテンツ32を聴いているかのような臨場感をユーザUに与えることができる。
 また、処理部42は、画像から予測するユーザUが居る場所の空間の広さに応じて、音響コンテンツ32の出音位置となる仮想スピーカを配置する数、および仮想スピーカの出音特性を変更する。例えば、処理部42は、予測する空間の広さが広くなるほど、配置する仮想スピーカの数を増加させる。
 また、処理部42は、予測する空間の広さがさらに広くなる場合には、例えば、サラウンドスピーカのように、360°の方向から音響コンテンツ32が聴こえるような出音特性の仮想スピーカを配置する。これにより、音響処理装置1は、ユーザ端末11によってユーザUの居場所の広さに応じた最適な音場再生を行わせることができる。
 また、取得部41は、例えば、音響コンテンツ32を作成したクリエータから音響コンテンツ32の音響情報34、および音響コンテンツ32が音場再生される場所のVR全天球映像の提供要求を取得する場合がある。
 かかる場合、図10に示すように、音響処理装置1の処理部42は、提供部43によってクリエータ端末101へ提供要求された音響コンテンツ32、音響情報34、およびVR映像情報33をクリエータCRが使用するクリエータ端末101へ送信させる。
 これにより、クリエータCRは、例えば、VR映像情報33に含まれる映画館のVR全天球映像Vrを見ながら、自身の作成意図に基づいて音響情報34を変更することができる。例えば、クリエータCRは、現状では、映画館のスクリーンの両脇に仮想スピーカSpが配置されているように聞こえる音響情報34を、スクリーンの両脇から更に離れた位置に仮想スピーカSpが配置されているように聞こえる音響情報34に変更することができる。
 さらに、クリエータCRは、例えば、スクリーンの上に新たな仮想スピーカSpUが配置され、スクリーンの下に新たな仮想スピーカSpDが配置されているように聞こえる音響情報34に変更することができる。このとき、クリエータCRは、自身のHRTFを適用した音響コンテンツ32を聴いて音響情報34を変更する。
 そして、クリエータCRは、変更した音響情報34aと、音響コンテンツ32aと、VR映像情報33とをクリエータ端末101から音響処理装置1へ送信する。音響処理装置1は、クリエータ端末101から受信する音響情報34aと、音響コンテンツ32aと、VR映像情報33とを記憶部3に記憶させる。
 これにより、音響処理装置1は、次回、音響コンテンツ32aをユーザUへ提供する場合に、クリエータCRの作成意図が反映された音響特性で音響コンテンツ32aを音場再生させることができる。このとき、音響処理装置1は、ユーザUのHRTFを適用した音響コンテンツ32aをユーザUへ提供することによって、ユーザUにとって最適な音響特性の音響コンテンツ32aを音場再生させることができる。
(4.音響処理装置が実行する処理)
 次に、図11~図13を参照し、音響処理装置1の制御部4が実行する処理の一例について説明する。図11~図13は、本開示に係る音響処理装置1の制御部4が実行する処理の一例を示すフローチャートである。
 音響処理装置1の制御部4は、ユーザ端末11のユーザUから音響および映像を含むコンテンツの提供要求を取得した場合に、図11に示す処理を実行する。具体的には、制御部4は、ユーザUからコンテンツの提供要求を取得すると、まず、ユーザUからユーザUが所望するコンテンツおよび場所情報を取得する(ステップS101)。
 続いて、制御部4は、ユーザが所望するコンテンツに対応する音響コンテンツの音響特性を場所情報に対応する音響特性に応じた音響特性に変換する(ステップS102)。その後、制御部4は、ユーザUへ映像コンテンツと、音響特性を変換した音響コンテンツと、音響コンテンツおよび映像コンテンツが再生されるときにユーザUに視認させるVR全天球映像を提供して音場再生させ(ステップS103)、処理を終了する。
 また、制御部4は、ユーザから音響コンテンツの提供要求と、ユーザによって撮像さえたユーザの居場所が写った画像とを取得した場合に、図12に示す処理を実行する。具体的には、制御部4は、ユーザUからコンテンツの提供要求と撮像画像とを取得すると、まず、撮像画像に写る空間の音響特性を予測する(ステップS201)。
 続いて、制御部4は、ユーザUが所望するコンテンツに対応する音響コンテンツの音響特性をステップS201で予測した空間の音響特性に変換する(ステップS202)。その後、制御部4は、ユーザUへ音響特性を変換した音響コンテンツを提供して音場再生させ(ステップS203)、処理を終了する。
 また、制御部4は、ユーザによって撮像画像における所定領域Aが選択されている場合には、所定領域Aを囲むように音響コンテンツの出音位置を配置する処理を行って、ユーザUへ音響コンテンツを提供する。
 このとき、制御部4は、ユーザによって選択される所定領域Aの広さに応じて、配置する音響コンテンツの出音位置の数および出音特性を変更して、ユーザUへ音響コンテンツを提供する。
 なお、制御部4は、ユーザUから音響および映像を含むコンテンツの提供要求と、ユーザの居場所が写った撮像画像を取得した場合にも、撮像画像に写る空間の音響特性を予測し、予測した音響特性に変換した音響コンテンツをユーザUへ提供することができる。
 また、制御部4は、例えば、音響コンテンツのクリエータCRから音響コンテンツの音響情報と、音響コンテンツを音場再生する場所の提供要求を取得した場合に、図13に示す処理を実行する。
 具体的には、制御部4は、クリエータCRから音響情報と場所の提供要求を取得した場合に、まず、クリエータCRへ音響情報と、音響情報に対応する音響コンテンツが音場再生される場所のVR全天球映像を提供する(ステップS301)。
 続いて、制御部4は、クリエータCRから変更された音響情報を取得したか否かを判定する(ステップS302)。そして、制御部4は、クリエータCRから音響情報を取得していないと判定した場合(ステップS302,No)、音響情報を取得するまでステップS302の判定処理を繰り返す。
 そして、制御部4は、クリエータCRから音響情報を取得したと判定した場合(ステップS302,Yes)、取得した音響特性と、クリエータCRへ提供したVR全天球映像とを対応付けて記憶し(ステップS303)、処理を終了する。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得部と、
 前記場所における音響に関する音響情報を記憶する記憶部と、
 前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理部と
 を有する音響処理装置。
(2)
 前記記憶部は、
 前記場所の仮想現実全天球映像を記憶し、
 前記処理部は、
 前記音響コンテンツの音場再生中に前記仮想現実全天球映像をユーザに視認させる
 前記(1)に記載の音響処理装置。
(3)
 前記記憶部は、
 前記場所において前記音響コンテンツに対応する映像コンテンツが表示されるスクリーンと、前記スクリーンの周囲環境の画像とを含む前記仮想現実全天球映像を記憶し、
 前記処理部は、
 前記仮想現実全天球映像中の前記スクリーンに前記映像コンテンツを表示させる
 前記(2)に記載の音響処理装置。
(4)
 前記記憶部は、
 前記場所において前記音響コンテンツに対応する映像コンテンツが表示される4面のスクリーンを含む前記仮想現実全天球映像を記憶し、
 前記処理部は、
 前記仮想現実全天球映像中の前記4面のスクリーンのうちの1面のスクリーンに前記映像コンテンツを表示させ、他の3面のスクリーンに前記場所の周囲環境の画像を表示させる
 前記(2)に記載の音響処理装置。
(5)
 前記取得部は、
 前記ユーザによって撮像された居場所の画像を取得し、
 前記処理部は、
 前記居場所の画像から前記居場所の音響特性を予測し、前記音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる
 前記(1)に記載の音響処理装置。
(6)
 前記処理部は、
 前記居場所の画像から予測する前記居場所の空間の広さに基づいて前記空間の音響特性を予測する
 前記(5)に記載の音響処理装置。
(7)
 前記処理部は、
 前記空間における残響特性および反響特性を予測する
 前記(6)に記載の音響処理装置。
(8)
 前記処理部は、
 前記居場所の画像から予測する前記居場所の空間の広さに応じて配置する前記音響コンテンツの出音位置の数および出音特性を変更する
 前記(6)に記載の音響処理装置。
(9)
 前記処理部は、
 前記ユーザによって前記居場所の画像から前記ユーザの視野中心を含む所定領域が選択される場合、前記所定領域を囲むように前記音響コンテンツの出音位置を配置する
 前記(5)~(8)のいずれかに記載の音響処理装置。
(10)
 前記取得部は、
 前記ユーザによって過去に撮像された画像から選択された画像または通信ネットワークを介して前記ユーザによって閲覧された画像を取得し、
 前記処理部は、
 前記画像に写る場所の音響特性を予測し、前記音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる
 前記(1)に記載の音響処理装置。
(11)
 前記取得部は、
 GPS(Global Positioning System)によって測位される前記ユーザの位置情報を取得し、
 前記処理部は、
 前記ユーザの位置情報から前記ユーザの居場所を予測し、前記音響コンテンツの音響特性を予測した居場所の音響特性に変換して音場再生させる
 前記(1)に記載の音響処理装置。
(12)
 前記音響コンテンツのクリエータへ前記音響コンテンツと、前記音響コンテンツが音場再生される場所の前記仮想現実全天球映像および前記音響情報とを提供する提供部
 をさらに備え、
 前記取得部は、
 前記クリエータによって変更された前記音響情報を取得し、
 前記記憶部は、
 前記クリエータへ提供された前記音響コンテンツおよび前記音響コンテンツが音場再生される場所の仮想現実全天球映像と、前記クリエータによって変更された前記音響情報とを対応つけて記憶する
 前記(2)に記載の音響処理装置。
(13)
 前記記憶部は、
 前記場所において測定された音響に基づいて生成された前記音響情報を記憶する
 前記(1)~(12)のいずれかに記載の音響処理装置。
(14)
 前記記憶部は、
 前記ユーザの頭部伝達関数を記憶し、
 前記処理部は、
 前記ユーザ毎に、前記ユーザの頭部伝達関数を適用して前記音響コンテンツの音響特性を変換する
 前記(1)~(13)のいずれかに記載の音響処理装置。
(15)
 前記記憶部は、
 前記ユーザに装着されたイヤマイクロホンによって録音された音響に基づいて導出された前記頭部伝達関数を記憶する
 前記(14)に記載の音響処理装置。
(16)
 前記記憶部は、
 前記ユーザに装着されたイヤマイクロホンによって録音され、音波特性が前記ユーザに依存する時間の音響と、人形に装着されたイヤマイクロホンによって録音され、音波特性が前記場所に依存する時間の音響とに基づいて導出された前記頭部伝達関数を記憶する
 前記(14)に記載の音響処理装置。
(17)
 前記記憶部は、
 前記ユーザの耳の画像に基づいて導出される前記頭部伝達関数を記憶する
 前記(14)に記載の音響処理装置。
(18)
 コンピュータが実行する音響処理方法であって、
 音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得工程と、
 前記場所における音響に関する音響情報を記憶する記憶工程と、
 前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理工程と
 を含む音響処理方法。
(19)
 音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得手順と、
 前記場所における音響に関する音響情報を記憶する記憶手順と、
 前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理手順と
 をコンピュータに実行させる音響処理プログラム。
 1 音響処理装置
 2 通信部
 3 記憶部
 31 映像コンテンツ
 32 音響コンテンツ
 33 VR映像情報
 34 音響情報
 4 制御部
 41 取得部
 42 処理部
 43 提供部

Claims (19)

  1.  音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得部と、
     前記場所における音響に関する音響情報を記憶する記憶部と、
     前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理部と
     を有する音響処理装置。
  2.  前記記憶部は、
     前記場所の仮想現実全天球映像を記憶し、
     前記処理部は、
     前記音響コンテンツの音場再生中に前記仮想現実全天球映像をユーザに視認させる
     請求項1に記載の音響処理装置。
  3.  前記記憶部は、
     前記場所において前記音響コンテンツに対応する映像コンテンツが表示されるスクリーンと、前記スクリーンの周囲環境の画像とを含む前記仮想現実全天球映像を記憶し、
     前記処理部は、
     前記仮想現実全天球映像中の前記スクリーンに前記映像コンテンツを表示させる
     請求項2に記載の音響処理装置。
  4.  前記記憶部は、
     前記場所において前記音響コンテンツに対応する映像コンテンツが表示される4面のスクリーンを含む前記仮想現実全天球映像を記憶し、
     前記処理部は、
     前記仮想現実全天球映像中の前記4面のスクリーンのうちの1面のスクリーンに前記映像コンテンツを表示させ、他の3面のスクリーンに前記場所の周囲環境の画像を表示させる
     請求項2に記載の音響処理装置。
  5.  前記取得部は、
     前記ユーザによって撮像された居場所の画像を取得し、
     前記処理部は、
     前記居場所の画像から前記居場所の音響特性を予測し、前記音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる
     請求項1に記載の音響処理装置。
  6.  前記処理部は、
     前記居場所の画像から予測する前記居場所の空間の広さに基づいて前記空間の音響特性を予測する
     請求項5に記載の音響処理装置。
  7.  前記処理部は、
     前記空間における残響特性および反響特性を予測する
     請求項6に記載の音響処理装置。
  8.  前記処理部は、
     前記居場所の画像から予測する前記居場所の空間の広さに応じて配置する前記音響コンテンツの出音位置の数および出音特性を変更する
     請求項6に記載の音響処理装置。
  9.  前記処理部は、
     前記ユーザによって前記居場所の画像から前記ユーザの視野中心を含む所定領域が選択される場合、前記所定領域を囲むように前記音響コンテンツの出音位置を配置する
     請求項5に記載の音響処理装置。
  10.  前記取得部は、
     前記ユーザによって過去に撮像された画像から選択された画像または通信ネットワークを介して前記ユーザによって閲覧された画像を取得し、
     前記処理部は、
     前記画像に写る場所の音響特性を予測し、前記音響コンテンツの音響特性を予測した音響特性に変換して音場再生させる
     請求項1に記載の音響処理装置。
  11.  前記取得部は、
     GPS(Global Positioning System)によって測位される前記ユーザの位置情報を取得し、
     前記処理部は、
     前記ユーザの位置情報から前記ユーザの居場所を予測し、前記音響コンテンツの音響特性を予測した居場所の音響特性に変換して音場再生させる
     請求項1に記載の音響処理装置。
  12.  前記音響コンテンツのクリエータへ前記音響コンテンツと、前記音響コンテンツが音場再生される場所の前記仮想現実全天球映像および前記音響情報とを提供する提供部
     をさらに備え、
     前記取得部は、
     前記クリエータによって変更された前記音響情報を取得し、
     前記記憶部は、
     前記クリエータへ提供された前記音響コンテンツおよび前記音響コンテンツが音場再生される場所の前記仮想現実全天球映像と、前記クリエータによって変更された前記音響情報とを対応付けて記憶する
     請求項2に記載の音響処理装置。
  13.  前記記憶部は、
     前記場所において測定された音響に基づいて生成された前記音響情報を記憶する
     請求項1に記載の音響処理装置。
  14.  前記記憶部は、
     前記ユーザの頭部伝達関数を記憶し、
     前記処理部は、
     前記ユーザ毎に、前記ユーザの頭部伝達関数を適用して前記音響コンテンツの音響特性を変換する
     請求項1に記載の音響処理装置。
  15.  前記記憶部は、
     前記ユーザに装着されたイヤマイクロホンによって録音された音響に基づいて導出された前記頭部伝達関数を記憶する
     請求項14に記載の音響処理装置。
  16.  前記記憶部は、
     前記ユーザに装着されたイヤマイクロホンによって録音され、音波特性が前記ユーザに依存する時間の音響と、人形に装着されたイヤマイクロホンによって録音され、音波特性が前記場所に依存する時間の音響とに基づいて導出された前記頭部伝達関数を記憶する
     請求項14に記載の音響処理装置。
  17.  前記記憶部は、
     前記ユーザの耳の画像に基づいて導出される前記頭部伝達関数を記憶する
     請求項14に記載の音響処理装置。
  18.  コンピュータが実行する音響処理方法であって、
     音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得工程と、
     前記場所における音響に関する音響情報を記憶する記憶工程と、
     前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理工程と
     を含む音響処理方法。
  19.  音響コンテンツを聴くユーザに見られる場所に関する場所情報を取得する取得手順と、
     前記場所における音響に関する音響情報を記憶する記憶手順と、
     前記音響情報に基づいて前記音響コンテンツの音響特性を前記場所に応じた音響特性に変換して音場再生させる処理手順と
     をコンピュータに実行させる音響処理プログラム。
PCT/JP2020/008997 2019-03-19 2020-03-03 音響処理装置、音響処理方法、および音響処理プログラム WO2020189263A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US17/438,358 US20220312143A1 (en) 2019-03-19 2020-03-03 Acoustic processing apparatus, acoustic processing method, and acoustic processing program
EP20774002.8A EP3944638A4 (en) 2019-03-19 2020-03-03 ACOUSTIC TREATMENT DEVICE, ACOUSTIC TREATMENT METHOD, AND ACOUSTIC TREATMENT PROGRAM
KR1020217027495A KR20210138006A (ko) 2019-03-19 2020-03-03 음향 처리 장치, 음향 처리 방법, 및 음향 처리 프로그램
JP2021507164A JPWO2020189263A1 (ja) 2019-03-19 2020-03-03
CN202080017766.4A CN113519171A (zh) 2019-03-19 2020-03-03 声音处理装置、声音处理方法和声音处理程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019051931 2019-03-19
JP2019-051931 2019-03-19

Publications (1)

Publication Number Publication Date
WO2020189263A1 true WO2020189263A1 (ja) 2020-09-24

Family

ID=72520227

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/008997 WO2020189263A1 (ja) 2019-03-19 2020-03-03 音響処理装置、音響処理方法、および音響処理プログラム

Country Status (6)

Country Link
US (1) US20220312143A1 (ja)
EP (1) EP3944638A4 (ja)
JP (1) JPWO2020189263A1 (ja)
KR (1) KR20210138006A (ja)
CN (1) CN113519171A (ja)
WO (1) WO2020189263A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4203502A4 (en) 2020-11-16 2024-03-06 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE AND ITS CONTROL METHOD
CN114286278B (zh) * 2021-12-27 2024-03-15 北京百度网讯科技有限公司 音频数据处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015171111A (ja) 2014-03-11 2015-09-28 日本電信電話株式会社 音場収音再生装置、システム、方法及びプログラム
US9396588B1 (en) * 2015-06-30 2016-07-19 Ariadne's Thread (Usa), Inc. (Dba Immerex) Virtual reality virtual theater system
JP2017175458A (ja) * 2016-03-24 2017-09-28 ヤマハ株式会社 撮像装置保持器具
WO2018110269A1 (ja) * 2016-12-12 2018-06-21 ソニー株式会社 Hrtf測定方法、hrtf測定装置、およびプログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006009004A1 (ja) * 2004-07-15 2006-01-26 Pioneer Corporation 音響再生システム
KR20060022968A (ko) * 2004-09-08 2006-03-13 삼성전자주식회사 음향재생장치 및 음향재생방법
US7792674B2 (en) * 2007-03-30 2010-09-07 Smith Micro Software, Inc. System and method for providing virtual spatial sound with an audio visual player
JP2014093697A (ja) * 2012-11-05 2014-05-19 Yamaha Corp 音響再生システム
KR20140129654A (ko) * 2013-04-30 2014-11-07 인텔렉추얼디스커버리 주식회사 헤드 마운트 디스플레이 및 이를 이용한 오디오 콘텐츠 제공 방법
US20150254340A1 (en) * 2014-03-10 2015-09-10 JamKazam, Inc. Capability Scoring Server And Related Methods For Interactive Music Systems
DE102014210215A1 (de) * 2014-05-28 2015-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Ermittlung und Nutzung hörraumoptimierter Übertragungsfunktionen
US9997199B2 (en) * 2014-12-05 2018-06-12 Warner Bros. Entertainment Inc. Immersive virtual reality production and playback for storytelling content
CN108605193B (zh) * 2016-02-01 2021-03-16 索尼公司 声音输出设备、声音输出方法、计算机可读存储介质和声音系统
KR20220062684A (ko) * 2016-05-25 2022-05-17 워너 브로스. 엔터테인먼트 인크. 3d 오디오 포지셔닝을 이용하는 가상 또는 증강 현실 프레젠테이션을 생성하기 위한 방법 및 장치
US20170347219A1 (en) * 2016-05-27 2017-11-30 VideoStitch Inc. Selective audio reproduction
US10154365B2 (en) * 2016-09-27 2018-12-11 Intel Corporation Head-related transfer function measurement and application
US10848899B2 (en) * 2016-10-13 2020-11-24 Philip Scott Lyren Binaural sound in visual entertainment media
KR102277438B1 (ko) * 2016-10-21 2021-07-14 삼성전자주식회사 단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치
US11503423B2 (en) * 2018-10-25 2022-11-15 Creative Technology Ltd Systems and methods for modifying room characteristics for spatial audio rendering over headphones

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015171111A (ja) 2014-03-11 2015-09-28 日本電信電話株式会社 音場収音再生装置、システム、方法及びプログラム
US9396588B1 (en) * 2015-06-30 2016-07-19 Ariadne's Thread (Usa), Inc. (Dba Immerex) Virtual reality virtual theater system
JP2017175458A (ja) * 2016-03-24 2017-09-28 ヤマハ株式会社 撮像装置保持器具
WO2018110269A1 (ja) * 2016-12-12 2018-06-21 ソニー株式会社 Hrtf測定方法、hrtf測定装置、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3944638A4

Also Published As

Publication number Publication date
US20220312143A1 (en) 2022-09-29
EP3944638A1 (en) 2022-01-26
CN113519171A (zh) 2021-10-19
EP3944638A4 (en) 2022-09-07
KR20210138006A (ko) 2021-11-18
JPWO2020189263A1 (ja) 2020-09-24

Similar Documents

Publication Publication Date Title
US11770671B2 (en) Spatial audio for interactive audio environments
Hong et al. Quality assessment of acoustic environment reproduction methods for cinematic virtual reality in soundscape applications
JP7270820B2 (ja) 空間化オーディオを用いた複合現実システム
US10924875B2 (en) Augmented reality platform for navigable, immersive audio experience
US11582556B2 (en) Audio apparatus and method of audio processing for rendering audio elements of an audio scene
WO2020189263A1 (ja) 音響処理装置、音響処理方法、および音響処理プログラム
WO2023085186A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
RU2815621C1 (ru) Аудиоустройство и способ обработки аудио
RU2823573C1 (ru) Аудиоустройство и способ обработки аудио
RU2815366C2 (ru) Аудиоустройство и способ обработки аудио
WO2024084920A1 (ja) 音響処理方法、音響処理装置、及び、プログラム
RU2798414C2 (ru) Аудиоустройство и способ обработки аудио
WO2023173285A1 (zh) 音频处理方法、装置、电子设备及计算机可读存储介质
JP7493411B2 (ja) バイノーラル再生装置およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20774002

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021507164

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020774002

Country of ref document: EP

Effective date: 20211019