WO2023013154A1 - 音響処理装置、音響処理方法、音響処理プログラムおよび音響処理システム - Google Patents

音響処理装置、音響処理方法、音響処理プログラムおよび音響処理システム Download PDF

Info

Publication number
WO2023013154A1
WO2023013154A1 PCT/JP2022/013689 JP2022013689W WO2023013154A1 WO 2023013154 A1 WO2023013154 A1 WO 2023013154A1 JP 2022013689 W JP2022013689 W JP 2022013689W WO 2023013154 A1 WO2023013154 A1 WO 2023013154A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
space
speaker
processing device
unit
Prior art date
Application number
PCT/JP2022/013689
Other languages
English (en)
French (fr)
Inventor
俊哉 海鋒
将 本田
哲郎 池田
義和 大浦
由紀子 海野
由紀 安藤
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to JP2023539636A priority Critical patent/JPWO2023013154A1/ja
Priority to KR1020247002548A priority patent/KR20240039120A/ko
Priority to CN202280053165.8A priority patent/CN117769845A/zh
Publication of WO2023013154A1 publication Critical patent/WO2023013154A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present disclosure relates to an acoustic processing device, an acoustic processing method, an acoustic processing program, and an acoustic processing system that perform sound field processing during content reproduction.
  • stereophonic sound 3D audio
  • 3D audio stereophonic sound
  • stereophonic sound in order to further enhance the viewer's sense of presence, it is necessary to understand the spatial shape such as the viewer's position, the environment of the playback equipment, and the distance to the ceiling and walls. That is, in order to realize stereophonic sound, it is desirable to comprehensively use information such as the position of the viewer in the space, the number and arrangement of speakers, and the reflected sound from the walls and ceiling for correction.
  • the present disclosure proposes an acoustic processing device, an acoustic processing method, an acoustic processing program, and an acoustic processing system that allow the user to experience content in a more realistic sound field.
  • an acoustic processing device includes an acquisition unit that acquires a recommended environment defined for each content, including an ideal arrangement of speakers in a space where the content is reproduced. a position of a viewer in the space, the number and arrangement of speakers, and a measurement unit that measures the shape of the space; and a correction unit that corrects the sound of the content emitted from speakers located in the space to the sound emitted from ideally arranged virtual speakers in the recommended environment.
  • FIG. 2 is a diagram (1) for explaining speaker placement according to a recommended environment
  • FIG. 11B is a diagram (2) for explaining the speaker arrangement according to the recommended environment
  • FIG. 13 is a diagram (3) for explaining speaker placement according to the recommended environment
  • FIG. 4 is a diagram (1) for explaining acoustic processing according to the embodiment
  • FIG. 2 is a diagram (2) for explaining acoustic processing according to the embodiment
  • FIG. 3 is a diagram (3) for explaining acoustic processing according to the embodiment
  • FIG. 4 is a diagram (4) for explaining acoustic processing according to the embodiment
  • FIG. 11 is a diagram (1) for explaining measurement processing according to the embodiment
  • FIG. 2B is a diagram (2) for explaining the measurement process according to the embodiment
  • 4 is a flowchart (1) showing the flow of processing according to the embodiment
  • 10 is a flowchart (2) showing the flow of processing according to the embodiment
  • 3 is a flowchart (3) showing the flow of processing according to the embodiment
  • 2 is a hardware configuration diagram showing an example of a computer that implements the functions of the sound processing device;
  • FIG. 11 is a diagram (1) for explaining measurement processing according to the embodiment
  • FIG. 2B is a diagram (2) for explaining the measurement process according to the embodiment
  • 4 is a flowchart (1) showing the flow of processing according to the embodiment
  • 10 is a flowchart (2) showing the flow of processing according to the embodiment
  • 3 is a flowchart (3) showing the flow of processing according to the embodiment
  • Embodiment 1-1 Overview of Acoustic Processing According to Embodiment 1-2. Configuration of Acoustic Processing Apparatus According to Embodiment 1-3. Configuration of speaker according to embodiment 1-4. Procedure of processing according to embodiment 1-5. Modified example according to the embodiment 2. Other embodiments 3. Effects of the sound processing device according to the present disclosure4. Hardware configuration
  • FIG. 1 is a diagram showing an outline of acoustic processing according to an embodiment. Specifically, FIG. 1 shows components of an acoustic processing system 1 that executes acoustic processing according to the embodiment.
  • the sound processing system 1 includes a sound processing device 100, a speaker 200A, a speaker 200B, a speaker 200C, and a speaker 200D.
  • the sound processing system 1 outputs an audio signal to a user 50 who is a viewer, and corrects the output audio signal.
  • the sound processing device 100 is an example of an information processing device that executes sound processing according to the present disclosure. Specifically, the sound processing device 100 controls audio signals output from the speaker 200A, the speaker 200B, the speaker 200C, and the speaker 200D. For example, the sound processing device 100 reproduces content such as movies and music, and controls to output audio included in the content from the speaker 200A or the like. Note that, when the content includes video, the sound processing device 100 may control the video to be output from the display 300 . Further, although the details will be described later, the sound processing device 100 includes various sensors and the like for measuring the positions of the user 50, the speaker 200A, and the like.
  • the speaker 200A, the speaker 200B, the speaker 200C, and the speaker 200D are audio output devices that output audio signals.
  • the speaker 200A, the speaker 200B, the speaker 200C, and the speaker 200D are collectively referred to as the "speaker 200" when there is no need to distinguish between them.
  • the speaker 200 is wirelessly connected to the sound processing device 100, receives an audio signal, and receives control related to measurement processing, which will be described later.
  • Each device in FIG. 1 conceptually shows the function of the sound processing system 1, and can take various forms depending on the embodiment.
  • the sound processing device 100 may be composed of two or more devices having different functions, which will be described later.
  • the number of speakers 200 included in the sound processing system 1 does not necessarily have to be four.
  • the sound processing system 1 is realized by combining the sound processing device 100, which is a control unit that performs audio signal processing, and the speaker 200 wirelessly connected to the sound processing device 100. It is a wireless audio speaker system.
  • the sound processing system 1 provides the user 50 with so-called stereophonic sound (3D audio), which enhances the sense of presence during content reproduction by producing sounds from above or behind the viewer.
  • the so-called surround speakers in the planar direction but also the so-called height speakers in the height direction (hereinafter collectively referred to as "ceiling speakers”) are recorded.
  • ceiling speakers In order to appropriately reproduce such content, it is necessary to correctly arrange flat speakers and ceiling speakers around the position of the viewer.
  • the correct placement is, for example, a recommended placement of speaker positions defined by technical standards for stereophonic sound. According to this standard, in order to realize stereophonic sound, it is required to arrange a plurality of speakers so as to surround the viewer, but it is practically difficult to install a large number of speakers in ordinary homes.
  • the sound processing system 1 acquires a recommended environment defined for each content, including the ideal placement of speakers in the space where the content is played, and , the number and placement of loudspeakers, and the shape of the space. Further, based on the measured information, the sound processing system 1 arranges the content sound, which is the sound observed at the viewer's position and emitted from the speaker located in the space, in an ideal arrangement in the recommended environment. It corrects to the sound emitted from the virtual speaker.
  • the sound processing system 1 measures the position of the viewer in the real space, the arrangement of the speakers, etc., and based on this information, approximates the sound emitted from the temporary speakers installed in the recommended environment. , correcting real-world speech.
  • the user 50 can experience realistic stereophonic sound without arranging a large number of speakers as specified in the recommended environment.
  • the user 50 can realize stereophonic sound without any trouble such as installing a microphone at the viewing position and performing initial settings.
  • FIG. 2 is a diagram (1) for explaining the speaker arrangement according to the recommended environment.
  • FIG. 2 shows an example of speaker arrangement recommended for viewing 3D audio content in which stereophonic sound is recorded.
  • FIG. 2 shows an example of a recommended environment defined by Dolby Atmos (registered trademark).
  • a center speaker 10A in front a left front speaker 10B in front left, a right front speaker 10C in front right, a left surround speaker 10D in rear left, and a right front speaker 10E in rear right.
  • a left top front speaker 10F is located in front of the upper left
  • a right top front speaker 10G is located in front of the upper right
  • a left top rear speaker 10H is located in the rear of the upper left
  • a right top rear speaker is located in the rear of the upper right.
  • 10I are arranged respectively.
  • a subwoofer for bass may be added.
  • FIG. 2 is also referred to as a "5.1.4" channel environment, as it results in five speakers in the horizontal direction, a subwoofer, and four speakers in the ceiling.
  • environments such as “7.1.4" and “5.1.2” can be used as the recommended environment.
  • the sound processing device 100 acquires information such as the number and arrangement of speakers as shown in FIG. 2 and the distance from the user 50 (viewing position) as information related to the recommended environment for content reproduction.
  • the sound processing device 100 may acquire the recommended environment from metadata included in the content when reproducing the content, or the recommended environment may be installed in advance by the administrator of the sound processing device 100 or the user 50 .
  • the sound processing device 100 may acquire the recommended environment from metadata included in the content when reproducing the content, or the recommended environment may be installed in advance by the administrator of the sound processing device 100 or the user 50 .
  • the speakers that realize the ideal arrangement in the recommended environment as shown in FIG.
  • the number of flat speakers (speakers installed at approximately the same height as the user 50) and ceiling speakers installed, the distance and angle from the user 50, and the angles between the temporary speakers 10 and distance are specified.
  • FIG. 3 is a diagram (2) for explaining the speaker arrangement according to the recommended environment.
  • the left top front speaker 10F and the right top front speaker 10G are stipulated to be installed at an angle of approximately 45 degrees from the front of the user 50 respectively. It is also stipulated that the left top rear speaker 10H and the right top rear speaker 10I are installed at an angle of about 135 degrees from the front of the user 50 respectively.
  • FIG. 4 is a diagram (3) for explaining the speaker arrangement according to the recommended environment.
  • FIG. 4 shows a cross-sectional view corresponding to the arrangement shown in FIG.
  • the left top front speaker 10F (the same applies to the right top front speaker 10G, not shown) is installed at an angle of approximately 45 degrees diagonally upward from directly in front of the user 50. is defined.
  • the left top rear speaker 10H (the same applies to the right top rear speaker 10I not shown) is stipulated to be installed at an angle of about 135 degrees obliquely rearward from the front of the user 50 .
  • the recommended environment shown in FIGS. 2 to 4 is an example, and the number and arrangement of speakers, the installation distance to the user 50, etc., for example, according to the stereophonic standard, the content production company's regulations, etc. For each content It is assumed that there are various different recommended environments for
  • the sound processing device 100 outputs from the speakers 200 actually installed in a reproduction environment different from the recommended environment, as if the temporary speakers 10 were placed according to the recommended environment. corrects the sound that First, the sound processing device 100 acquires a recommended environment indicating the arrangement of the temporary speakers 10 shown in FIGS. 2 to 4, etc., prior to correction processing. After that, the sound processing device 100 corrects the sound output from the speaker 200 installed in the actual space based on the recommended environment. Such processing will be described with reference to FIG. 5 and subsequent figures.
  • FIG. 5 is a diagram (1) for explaining acoustic processing according to the embodiment. As shown in FIG. 5, in the space where the user 50 is located, the speaker 200A, the speaker 200B, the speaker 200C, and the speaker 200D are installed in an arrangement different from the recommended environment.
  • the sound processing device 100 measures the arrangement of the speaker 200, the location of the user 50, and the like.
  • the sound processing device 100 measures the position of each speaker 200 using the wireless transmission/reception function (specifically, wireless module and antenna) of the speaker 200 .
  • the sound processing device 100 receives the signals emitted by each speaker 200 with a plurality of antennas, and detects the phase difference of the signals to estimate the direction of the transmitting side (speaker 200).
  • AoA Angle of Arrival
  • the sound processing device 100 transmits a signal while switching a plurality of antennas provided in the sound processing device 100, and the phase difference received by each speaker 200 is used to determine the angle (that is, the arrangement when viewed from the sound processing device 100). ) may be used (AoD (Angle of Departure)).
  • the sound processing device 100 may use a wireless communication device such as a smartphone held by the user 50.
  • the sound processing device 100 causes a smartphone to transmit sound via a dedicated application or the like, receives the sound with the sound processing device 100 and the speaker 200, and measures the position of the user 50 based on the arrival time of the sound.
  • the sound processing device 100 may measure the position of the smartphone using the above-described AoA method or the like, and estimate the measured position of the smartphone as the location of the user 50 .
  • the sound processing device 100 may detect a smartphone existing in space using radio waves such as Bluetooth, or may receive registration of a smartphone or the like to be used from the user 50 in advance.
  • the sound processing device 100 uses a depth sensor such as a ToF (Time of Flight) sensor, an image sensor equipped with an AI chip that has undergone pre-learning for recognizing a human face, etc.
  • the position of speaker 200 may be measured.
  • the acoustic processing device 100 measures the spatial shape.
  • the sound processing device 100 measures the spatial shape by transmitting a measurement signal from the speaker 200 .
  • FIG. 6 is a diagram (2) for explaining acoustic processing according to the embodiment.
  • the speaker 200 has a horizontal unit 251 that outputs sound horizontally to the user 50, and a ceiling unit 252 that outputs sound toward the ceiling. That is, the speaker 200 according to the embodiment is configured to emit different sounds in two directions. The speaker 200 reflects the sound emitted from the ceiling unit 252 on the ceiling 20, so that the user 50 can feel as if the sound was emitted from the virtual speaker 260 substituting for the ceiling speaker.
  • the speaker 200 can also measure the shape of the space using the measurement signal output from the unit 252 for the ceiling.
  • a method is called FMCW (Frequency Modulated Continuous Wave) or the like.
  • FMCW Frequency Modulated Continuous Wave
  • Such a method is a method in which a sound whose frequency changes linearly with time is output from the speaker 200, a reflected wave is detected by a microphone provided in the speaker 200, and the distance to the ceiling is obtained from the frequency difference (beat frequency). .
  • the speaker 200 transmits a measurement signal toward the ceiling 20 when the acoustic processing device 100 requests measurement of the spatial shape. Then, the speaker 200 measures the distance to the ceiling by observing the reflected sound of the measurement signal with the provided microphone. Since the sound processing device 100 knows the number and arrangement of the speakers 200, it acquires the information about the shape of the space where the speakers 200 are installed by acquiring the ceiling height information transmitted from the speakers 200. be able to.
  • the sound processing device 100 acquires map information of the space where the user 50 is located using techniques such as SLAM (Simultaneous Localization and Mapping) using depth sensors and image sensors, and estimates the shape of the space from this information.
  • SLAM Simultaneous Localization and Mapping
  • the spatial shape may include information indicating the characteristics of the space.
  • the sound pressure and sound quality of the reflected sound may change depending on the materials of the walls and ceiling of the space.
  • the sound processing device 100 may receive input of information on the material of the room manually by the user 50, or may estimate the material of the room by irradiating the space with measurement signals.
  • the sound processing device 100 can obtain the number and arrangement of the speakers 200 located in the space, the location of the user 50, the shape of the space, etc. through the measurement process. Based on these pieces of information, the sound processing device 100 performs sound field correction processing. This point will be described with reference to FIG. FIG. 7 is a diagram (3) for explaining acoustic processing according to the embodiment.
  • the recommended environment for playing back 3D audio content is defined, but in the embodiment, the user 50 can only place four speakers: speaker 200A, speaker 200B, speaker 200C, and speaker 200D. and However, even if the ideal arrangement as shown in the figure cannot be realized, if the user 50 can feel that the sound is being produced with the recommended speaker arrangement through the audio signal correction processing, then the 3D audio with a sense of realism can be realized. It can be said that content reproduction can be realized.
  • the sound processing device 100 performs such sound processing using four speakers 200 installed in a real space.
  • FIG. 8 is a diagram (4) for explaining acoustic processing according to the embodiment.
  • FIG. 8 shows a situation in which a new virtual speaker 260E appears using three sound sources, the speaker 200A, the speaker 200B, and the virtual speaker 260B using reflection from the ceiling.
  • sound processing device 100 uses speakers 200 or reflected sound sources that can actually be arranged, synthesizes sound based on their positional relationship, and generates a monopole sound source at the position of virtual speaker 260E. Generate a wavefront.
  • Such wave-field synthesis can be realized, for example, by the method described in Patent Document 2 mentioned above.
  • the sound processing device 100 uses the technique of "Synthesis Monopoles (Monopole Synthesis)" described in Patent Document 2, and uses the four speakers 200 and the four speaker units 252 of the speakers 200 for the ceiling. It can synthesize reflected sound sources and form a synthesized sound field based on the recommended environment.
  • the sound processing device 100 acquires the recommended environment defined for each content, including the ideal placement of speakers in the space where the content is reproduced. Also, the sound processing device 100 measures the positions of viewers in the space, the number and arrangement of speakers, and the shape of the space. Then, based on the measured information, the sound processing device 100 ideally arranges the sound of the content, which is the sound observed at the position of the user 50 and emitted from the speaker 200 located in the space, in the recommended environment. The sound emitted from the temporary speaker 10 is corrected.
  • the sound processing device 100 can experience 3D audio content with the same sense of realism as in the recommended environment even if the speaker arrangement is different from that in the recommended environment.
  • the virtual speaker 260E can be formed farther from the user 50 than the actually installed speaker 200 and the reflected sound source. For this reason, the sound processing device 100 forms the virtual speaker 260E at a position where it cannot be installed due to room size restrictions, reproduces sound within a distance recommended by content such as a movie, or creates a sound field space. It can make you feel bigger.
  • FIG. 9 is a diagram showing a configuration example of the sound processing device 100 according to the embodiment.
  • the sound processing device 100 has a communication unit 110, a storage unit 120, a control unit 130, and a sensor 140.
  • the sound processing device 100 includes an input unit (for example, a touch display, buttons, etc.) that receives various operations from an administrator who manages the sound processing device 100, the user 50, etc., and a display unit for displaying various information (for example, , liquid crystal display, etc.).
  • the communication unit 110 is implemented by, for example, a NIC (Network Interface Card), a network interface controller, or the like.
  • the communication unit 110 is connected to the network N by wire or wirelessly, and transmits/receives information to/from the speaker 200 or the like via the network N.
  • the network N is realized by a wireless communication standard or method such as Bluetooth (registered trademark), the Internet, Wi-Fi (registered trademark), UWB (Ultra Wide Band), LPWA (Low Power Wide Area), or the like.
  • the sensor 140 is a functional unit for detecting various information.
  • the sensors 140 include, for example, a ToF sensor 141, an image sensor 142, and a microphone 143.
  • the ToF sensor 141 is a depth sensor that measures the distance to an object located in space.
  • the image sensor 142 is a pixel sensor that records the space captured by a camera or the like as pixel information (still image or moving image).
  • the image sensor 142 may include an AI chip pre-learned for image recognition of a human face, the shape of a speaker, and the like. In this case, the image sensor 142 can detect the user 50 and the speaker 200 by image recognition while taking an image of the space with the camera.
  • the microphone 143 is a sound sensor that collects the sound output by the speaker 200 and the sound uttered by the user 50 .
  • the sensor 140 may include a touch sensor that detects that the sound processing device 100 has been touched by the user, or a sensor that detects the current position of the sound processing device 100 .
  • the sensor 140 receives radio waves transmitted from GPS (Global Positioning System) satellites, and detects position information (for example, latitude and longitude) indicating the current position of the sound processing device 100 based on the received radio waves. good too.
  • GPS Global Positioning System
  • the senor 140 may include a radio wave sensor that detects radio waves emitted by the smartphone or the speaker 200, an electromagnetic wave sensor that detects electromagnetic waves, or the like (antenna). Moreover, the sensor 140 may detect the environment in which the sound processing device 100 is placed. Specifically, the sensor 140 may include an illuminance sensor that detects the illuminance around the sound processing device 100, a humidity sensor that detects the humidity around the sound processing device 100, and the like.
  • the senor 140 does not necessarily have to be provided inside the acoustic processing device 100 .
  • the sensor 140 may be installed outside the sound processing device 100 as long as it can transmit sensed information to the sound processing device 100 using communication or the like.
  • the storage unit 120 is implemented by, for example, a semiconductor memory device such as RAM (Random Access Memory) or flash memory, or a storage device such as a hard disk or optical disk.
  • Storage unit 120 has speaker information storage unit 121 and measurement result storage unit 122 .
  • each storage unit will be described in order with reference to FIGS. 10 and 11.
  • FIG. 10 a semiconductor memory device such as RAM (Random Access Memory) or flash memory, or a storage device such as a hard disk or optical disk.
  • FIG. 10 is a diagram showing an example of the speaker information storage unit 121 according to the embodiment.
  • the speaker information storage unit 121 has items such as "speaker ID” and "acoustic characteristics". 10 and 11, the information stored in the storage unit 120 may be conceptually indicated as "A01", but in reality, each piece of information described later is stored in the storage unit 120.
  • FIG. 10 is a diagram showing an example of the speaker information storage unit 121 according to the embodiment.
  • the speaker information storage unit 121 has items such as "speaker ID" and "acoustic characteristics”. 10 and 11
  • the information stored in the storage unit 120 may be conceptually indicated as "A01", but in reality, each piece of information described later is stored in the storage unit 120.
  • Sound processing device 100 may receive information about the acoustic characteristics from a speaker manufacturer or the like via the network N, or may output a measurement signal from the speaker and measure it with a microphone included in the sound processing device 100. may be used to obtain acoustic properties.
  • FIG. 11 is a diagram illustrating an example of a measurement result storage unit according to the embodiment.
  • the measurement result storage unit 122 has items such as "measurement result ID”, "user location information”, and “speaker arrangement information”. “Measurement result ID” indicates identification information for identifying the measurement result.
  • the measurement result ID may include the date and time of measurement, location information indicating the location of the space where the measurement was performed, and the like.
  • “User location information” indicates the measured location of the user.
  • “Speaker placement information” indicates the measured speaker placement and number.
  • the user position information and speaker arrangement information may be stored in any format.
  • user position information and speaker placement information may be stored as objects placed in space based on SLAM.
  • the user position information and the speaker arrangement information may be stored as coordinate information centering on the position of the sound processing device 100, distance information, and the like. That is, the user position information and the speaker arrangement information may be in any format as long as the information allows the sound processing device 100 to identify the positions of the user 50 and the speaker 200 in space.
  • the control unit 130 executes a program (for example, a sound processing program according to the present disclosure) stored inside the sound processing device 100 by, for example, a CPU (Central Processing Unit), MPU (Micro Processing Unit), GPU (Graphics Processing Unit), etc. ) is executed using RAM (Random Access Memory) or the like as a work area. Also, the control unit 130 is a controller, and may be realized by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • control unit 130 has an acquisition unit 131, a measurement unit 132, and a correction unit 133.
  • the acquisition unit 131 acquires various types of information. For example, the acquisition unit 131 acquires a recommended environment defined for each content, including the ideal arrangement of speakers in the space where the content is reproduced.
  • the obtaining unit 131 may obtain the recommended environment specified for the content from the metadata included in the content. Further, the acquisition unit 131 may acquire a recommended environment suitable for each content by accepting input from the user 50 .
  • the measurement unit 132 measures the position of the user 50 in the space, the number and arrangement of the speakers 200, and the shape of the space.
  • the measurement unit 132 measures the relative positions of the sound processing device 100 and the plurality of speakers 200 using radio waves transmitted or received by a plurality of speakers located in the space, thereby determining the position of the speakers located in the space. Measure the number and placement of
  • FIG. 12 is a diagram (1) for explaining the measurement process according to the embodiment.
  • FIG. 12 shows a situation in which a radio wave transmitted by a radio wave transmitter 60 (Transmitter) is received by a receiver 70 (Receiver) having multiple antennas.
  • the sender 60 is the sound processing device 100 and the receiver 70 is the speaker 200 .
  • the sound processing device 100 transmits radio waves from the antenna 61 and detects the phase difference of the signals received by the plurality of antennas 71, 72, and 73 provided in the speaker 200, thereby determining the relative angle ⁇ can be estimated.
  • the sound processing device 100 measures the position of the speaker 200 based on the estimated angle ⁇ .
  • Such a technique is called AoA or the like.
  • FIG. 13 is a diagram (2) for explaining the measurement process according to the embodiment.
  • the example shown in FIG. 13 shows a situation in which the receiver 70 receives the radio waves transmitted by the radio wave sender 60 from multiple antennas.
  • the sender 60 is the sound processing device 100 and the receiver 70 is the speaker 200 .
  • the sound processing device 100 transmits signals while switching between a plurality of antennas 65, 66, and 67, and from the phase difference when each speaker 200 receives radio waves with the antenna 75, the reception side and the transmission side are selected.
  • Estimate the relative angle ⁇ of The sound processing device 100 measures the position of the speaker 200 based on the estimated angle ⁇ .
  • Such a technique is called AoD or the like.
  • the processing shown in FIGS. 12 and 13 is an example of measurement, and the measurement unit 132 may use other techniques.
  • the measurement unit 132 uses the ToF sensor 141 that detects objects in the space to measure at least one of the position of the user 50 in the space, the number and arrangement of the speakers 200, and the shape of the space. good too.
  • the measurement unit 132 may measure the position of the user 50 or the speaker 200 located in the space by recognizing the image of the user 50 or the speaker 200 using the image sensor 142 provided in the sound processing device 100 .
  • the measurement unit 132 may measure the position of the user 50 or the speaker 200 located in the space by recognizing the image of the user 50 or the speaker 200 using an image sensor provided in the external device. For example, the measurement unit 132 may use an image sensor included in the speaker 200 or the display 300, a USB camera connected to the display 300, or the like. Specifically, the measurement unit 132 acquires an image captured by the speaker 200 or the display 300, identifies and tracks the user 50 or the speaker 200 by image analysis, and thereby measures the positions of the user 50 or the speaker 200. FIG. Moreover, the measurement unit 132 may measure the shape of the space where the user 50 is located, the acoustic characteristics of the space based on the materials of the walls and the ceiling, and the like based on such image recognition.
  • the speaker 200 or the display 300 converts the position and spatial shape of the user 50 obtained by the analysis into abstract data (metadata),
  • the converted data may be transmitted to the sound processing device 100 via a video/audio connection cable such as HDMI (registered trademark) or a wireless system such as Wi-Fi.
  • the measurement unit 132 may also measure the position of the user 50 in space using radio waves transmitted or received by the smartphone carried by the user 50 . That is, the measurement unit 132 measures the position of the user 50 using the smartphone by estimating the position of the smartphone using the AoA or AoD method described above. If there are a plurality of viewers in the same space in addition to the user 50, the measurement unit 132 can measure all the viewers by sequentially measuring them. In addition, the measurement unit 132 outputs a measurement signal (audible sound or ultrasonic wave) from a device possessed by each of the user 50 and other viewers, and detects the position of the user 50 by detecting it with the microphone 143. may be measured.
  • a measurement signal audible sound or ultrasonic wave
  • the measurement unit 132 measures the distance to the ceiling of the space based on the reflected sound of the sound emitted from the ceiling unit 252 of the speaker 200 located in the space as the spatial shape of the space. For example, the measurement unit 132 controls the speaker 200 to output the measurement signal as shown in FIG. Measure the distance to
  • the measurement unit 132 generates map information based on an image captured by the image sensor 142 or an external device such as a smartphone or the speaker 200, and based on the generated map information, the self position of the sound processing device 100, the user At least one of the location of 50, the number and placement of speakers 200, and the shape of the space may be measured. That is, the measurement unit 132 may create space shape data in which the speaker 200 is arranged by using a technique related to SLAM, and measure the arrangement of the user 50 and the speaker 200 located in that space.
  • the measurement unit 132 may continuously measure the position of the user 50 in the space, the number and arrangement of speakers, and the shape of the space. For example, the measuring unit 132 continuously measures the position of the user 50 at the timing when the content is stopped, or at the timing at regular intervals after the power of the sound processing device 100 is turned on. In this case, the correcting unit 133 uses the information continuously measured by the measuring unit 132 to correct the sound of the content emitted from the speaker 200 located in the space. As a result, even if the arrangement of the speakers 200 is changed by the user 50 who cleaned the room, the measurement unit 132 can continuously measure and grasp the change, so that the user 50 can be aware of the change. Appropriate acoustic correction can be performed without
  • the correction unit 133 Based on the information measured by the measurement unit 132, the correction unit 133 adjusts the content sound, which is the sound observed at the position of the user 50 and emitted from the speaker 200 located in the space, to an ideal environment in the recommended environment. The sound emitted from the arranged temporary speaker 10 is corrected.
  • the correction unit 133 synthesizes sound waveforms emitted from a plurality of speakers 200 to generate virtual speakers 200. The sound is corrected to sound emitted from the temporary speaker 10. - ⁇
  • the correction unit 133 may receive input from the user 50 and reflect such information in the correction.
  • the correction unit 133 provides information measured by the measurement unit 132 to the smartphone used by the user 50 .
  • the correction unit 133 accepts a change of information on the smartphone application from the user 50 who viewed the information displayed on the smartphone application.
  • the correction unit 133 corrects the sound of the content based on at least one of the position of the user 50 in the space, the number and arrangement of the speakers 200, and the shape of the space corrected on the smartphone by the user 50. do.
  • the correction unit 133 can perform correction based on the position information finely adjusted by the user 50 who grasps the actual situation, and thus can perform correction more accurately in accordance with the recommended environment.
  • the correction unit 133 may further correct the content sound based on the correction made by the user 50 with respect to the content sound corrected by the correction unit 133 .
  • the user 50 wishes to change the frequency to be emphasized or adjust the arrival time (delay) of the audio output from the speaker 200. sometimes.
  • the correction unit 133 receives such information and corrects the voice to meet the request of the user 50 . Thereby, the correcting unit 133 can form a sound field more preferred by the user 50 .
  • the correcting unit 133 may correct the sound of the content based on the behavior pattern of the user 50 or the arrangement pattern of the speakers 200 learned based on the information measured by the measuring unit 132 .
  • the correction unit 133 acquires the position information of the user 50 and the position information of the speaker 200 continuously tracked by the measurement unit 132 . Further, the correction unit 133 acquires correction information of the sound field adjusted by the user 50 . Then, the correcting unit 133 can provide the optimum sound field desired by the user 50 by learning those histories with artificial intelligence (AI).
  • AI artificial intelligence
  • the correction unit 133 uses both the constant monitoring of the sound of the reproduced content with the microphone 143 and the continuous learning process by AI, and makes various proposals to the user 50 through a smartphone application or the like. you can go For example, the correction unit 133 may suggest to the user 50 that the direction of the speaker 200 be slightly rotated or the installation position be slightly changed so as to bring the sound field closer to that which is presumed to be preferred by the user 50. . Further, the correction unit 133 may predict the position where the user 50 is supposed to be next based on the history of tracking the position of the user 50, and perform sound field correction according to the predicted position. As a result, the correction unit 133 can perform appropriate correction according to the location after the movement immediately after the user 50 moves.
  • the acoustic processing performed by the control unit 130 is implemented by, for example, implementation by a manufacturer that produces the acoustic processing device 100 and the speaker 200.
  • the audio processing may be implemented by incorporating it into a software module provided for content. There is also a form in which it is installed in the sound processing device 100 or the speaker 200 and used.
  • FIG. 14 is a diagram showing a configuration example of the speaker 200 according to the embodiment.
  • the speaker 200 has a communication section 210, a storage section 220, and a control section 230.
  • the communication unit 210 is implemented by, for example, a NIC, a network interface controller, or the like.
  • the communication unit 210 is connected to the network N by wire or wirelessly, and transmits and receives information to and from the sound processing device 100 and the like via the network N.
  • the storage unit 220 is implemented, for example, by a semiconductor memory device such as a RAM or flash memory, or a storage device such as a hard disk or optical disk.
  • the storage unit 220 stores the measurement results when, for example, the spatial shape is measured under the control of the sound processing device 100 or the position of the user 50 is measured.
  • the control unit 230 is realized, for example, by executing a program stored inside the speaker 200 using a RAM or the like as a work area by a CPU, MPU, GPU, or the like. Also, the control unit 230 is a controller, and may be implemented by an integrated circuit such as an ASIC or FPGA, for example.
  • control unit 230 has an input unit 231, an output control unit 232, and a transmission unit 233.
  • the input unit 231 receives inputs such as audio signals corrected by the sound processing device 100 and control signals from the sound processing device 100 .
  • the output control unit 232 controls processing for outputting audio signals and the like from the output unit 250 .
  • the output control unit 232 controls to output the audio signal corrected by the sound processing device 100 from the output unit 250 .
  • the output control section 232 controls to output the measurement signal from the output section 250 under the control of the sound processing device 100 .
  • the transmission unit 233 transmits various types of information. For example, when the transmission unit 233 is controlled by the sound processing device 100 to execute measurement processing, the transmission unit 233 transmits the measurement result to the sound processing device 100 .
  • the sensor 240 is a functional unit for detecting various information.
  • Sensor 240 includes, for example, microphone 241 .
  • the microphone 241 detects voice. For example, the microphone 241 detects the reflected sound of the measurement signal output from the output section 250 .
  • speaker 200 may include various sensors other than those shown in FIG.
  • speaker 200 may include a ToF sensor or image sensor for detecting user 50 or other speakers 200 .
  • the output unit 250 outputs an audio signal under the control of the output control unit 232. That is, the output unit 250 is a speaker unit that emits sound.
  • the output section 250 includes a horizontal unit 251 and a ceiling unit 252 . Note that the speaker 200 may include more units than the horizontal unit 251 and the ceiling unit 252 .
  • FIG. 15 is a flowchart (1) showing the flow of processing according to the embodiment.
  • the sound processing device 100 determines whether or not a measurement operation has been received, for example, from the user 50 (step S101). If the measurement operation has not been received (step S101; No), the sound processing device 100 waits until the measurement operation is received.
  • step S101 when the measurement operation is accepted (step S101; Yes), the sound processing device 100 measures the arrangement of the speakers 200 installed in the space (step S102). After that, the sound processing device 100 measures the position of the user 50 (step S103).
  • the sound processing device 100 determines whether or not the user 50 has obtained the content to be reproduced (step S104). If the content is not acquired, the sound processing device 100 waits until the content is acquired (step S104; No).
  • step S104 when the content is acquired (step S104; Yes), the sound processing device 100 acquires the recommended environment corresponding to the content (step S105). The sound processing device 100 starts playing the content (step S106).
  • the sound processing device 100 corrects the audio signal of the reproduced content as if it were being reproduced in the recommended environment for the content (step S107).
  • the sound processing device 100 determines whether or not the reproduction of the content has ended, for example, according to the operation of the user 50 (step S108). If the reproduction of the content has not ended (step S108; No), the sound processing device 100 continues the reproduction of the content.
  • step S108 when the reproduction of the content has ended (step S108; Yes), the sound processing device 100 determines whether a predetermined time has passed (step S109). If the predetermined time has not passed (step S109; No), the sound processing device 100 waits until the predetermined time has passed.
  • step S109 the sound processing device 100 measures the arrangement of the speakers 200 again (step S102). That is, the sound processing device 100 tracks the positions of the speaker 200 and the user 50 at predetermined time intervals, so that even when the content is reproduced next time, the sound processing device 100 can perform correction based on the appropriate position information. can be done.
  • FIG. 16 is a flowchart (2) showing the flow of processing according to the embodiment.
  • the sound processing device 100 when measuring the positions and the number of speakers 200 in step S102, transmits a position measurement command to each speaker 200 (step S201).
  • a command is, for example, a control signal indicating to start measurement.
  • the sound processing device 100 measures the placement of each speaker 200 (step S202). Such processing may be performed by the sound processing device 100 itself using the ToF sensor 141, or may be performed by the speaker 200 or an image sensor included in the smartphone or the like held by the user 50. good too.
  • the sound processing device 100 measures the distance from each speaker 200 to the ceiling (step S203).
  • the distance to the ceiling may be acquired by causing the speaker 200 to execute a measurement method using reflection of a measurement signal emitted by the speaker 200, or by the sound processing device 100 itself using the ToF sensor 141 or the like. good too.
  • the sound processing device 100 acquires measurement results from each speaker 200 (step S204). Then, the sound processing device 100 stores the measurement result in the measurement result storage unit 122 (step S205).
  • FIG. 17 is a flowchart (3) showing the flow of processing according to the embodiment.
  • the sound processing device 100 uses a terminal device used by the user 50 (a smart phone, a wearable such as a smart watch or smart glasses worn by the user 50). device) (step S301).
  • a terminal device used by the user 50 a smart phone, a wearable such as a smart watch or smart glasses worn by the user 50. device
  • the sound processing device 100 measures the position of the terminal device using any of the methods described above (step S302). Such processing may be executed by the terminal device using an image sensor provided in the terminal device, or may be executed by the sound processing device 100 itself using the ToF sensor 141 or the like.
  • the sound processing device 100 acquires the measurement result from the terminal device (step S303). Then, the sound processing device 100 stores the measurement result in the measurement result storage unit 122 (step S304).
  • the sound processing system 1 has shown an example including the sound processing device 100 and the four speakers 200 . However, the sound processing system 1 may have a different configuration.
  • the sound processing system 1 may have a configuration in which a plurality of speakers having different functions and sound characteristics are combined as long as they can be connected to the sound processing device 100 through communication. That is, the sound processing system 1 may include an existing speaker owned by the user 50 or a speaker of another company different from the speaker 200 . In this case, the sound processing device 100 may emit sound measurement signals or the like as described above to acquire the sound characteristics of these speakers.
  • the speaker 200 does not necessarily have to have the horizontal unit 251 and the ceiling unit 252 .
  • the sound processing device 100 uses the ToF sensor 141, the image sensor 142, etc. instead of the speaker 200 to measure the spatial shape such as the distance from the speaker 200 to the ceiling. good too.
  • the display 300 or the like equipped with a camera may measure the spatial shape such as the distance from the speaker 200 to the ceiling.
  • the sound processing system 1 may include a shoulder-mounted speaker, headphones with an open structure that allow external sounds to be heard, bone conduction headphones that have a structure that does not cover the ears, and the like.
  • the sound processing device 100 may measure the head-related transfer function (HRTF) of the user 50 as a characteristic incorporated in the output device worn by the user 50 .
  • HRTF head-related transfer function
  • the sound processing device 100 treats these output devices worn by the user 50 as one speaker, and performs waveform synthesis with sounds output from other speakers.
  • the sound processing device 100 acquires the head-related transfer function of the user 50 and corrects the sound of the speaker arranged near the user 50 based on the head-related transfer function of the user 50 .
  • the sound processing device 100 can generate a sound field by combining nearby speakers with clear sound field localization and other speakers arranged in the space, thereby providing the user 50 with a higher sense of realism. can be experienced.
  • each component of each device illustrated is functionally conceptual and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution and integration of each device is not limited to the one shown in the figure, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • the measuring section 132 and the correcting section 133 may be integrated.
  • the sound processing device according to the present disclosure includes an acquisition unit (the acquisition unit 131 in the embodiment), a measurement unit (the measurement unit 132 in the embodiment), and a correction unit ( In the embodiment, a correction unit 133) is provided.
  • the acquisition unit acquires a recommended environment defined for each content, including an ideal arrangement of speakers in a space where the content is reproduced.
  • the measurement unit measures the position of a viewer (user 50 in the embodiment) in the space, the number and arrangement of speakers (speakers 200 in the embodiment), and the shape of the space.
  • the correction unit Based on the information measured by the measurement unit, the correction unit arranges the content sound, which is the sound observed at the viewer's position and emitted from the speaker located in the space, in an ideal arrangement in the recommended environment. It corrects to the sound emitted from the virtual speaker (in the embodiment, the temporary speaker 10).
  • the sound processing device corrects the sound after measuring the user position etc. even if the physical speakers are not arranged according to the recommended environment when viewing 3D audio content etc. , the audio can be delivered to the viewer as if it were placed in the recommended environment. As a result, the sound processing device can experience the content in a more realistic sound field.
  • the measurement unit measures relative positions of the sound processing device and the plurality of speakers using radio waves transmitted or received by the plurality of speakers located in the space, thereby determining the position of the speakers located in the space. Measure number and placement.
  • the sound processing device can measure the position of the speaker quickly and accurately by measuring the position based on the radio waves between the sound processing device and the speaker.
  • the measurement unit measures at least one of the positions of viewers in the space, the number and arrangement of speakers, and the shape of the space, using a depth sensor that detects objects in the space.
  • the sound processing device can accurately grasp the distance to the speaker and the shape of the space by using the depth sensor, so accurate measurement and correction processing can be performed.
  • the measurement unit recognizes the image of the viewer or the speaker using an image sensor provided in the sound processing device or the external device (speaker 200, display 300, smartphone, etc. in the embodiment). Measure the position of the speaker.
  • the sound processing device performs measurement using the camera (image sensor) provided in the TV, speaker, etc., so that the position of the speaker, etc. can be measured accurately.
  • the measurement unit measures the position of the viewer in space using radio waves transmitted or received by the terminal device (smartphone, wearable device, etc. in the embodiment) carried by the viewer.
  • the sound processing device can accurately measure the position of the viewer by determining the position using the terminal device even if the viewer cannot be captured by an image sensor or the like. .
  • the measurement unit determines the spatial shape of the space based on the reflected sound of the sound emitted from the sound irradiating unit (ceiling unit 252 in the embodiment) provided with the speaker located in the space. measure the distance between the sound irradiating unit and the sound irradiating unit.
  • the sound processing device uses the reflected sound output from the speaker to measure the shape of the space, making it possible to quickly measure the shape of the space without complicated processing such as image recognition.
  • the measurement unit continuously measures the positions of viewers in the space, the number and arrangement of speakers, and the shape of the space.
  • the correction unit uses the information continuously measured by the measurement unit to correct the sound of the content emitted from the speaker located in the space.
  • the sound processing device can adjust the sound according to the situation, for example, even if the speaker is moved or the user moves for some reason. Optimal correction can be performed.
  • the acquisition unit acquires the recommended environment specified for the content from the metadata included in the content.
  • the sound processing device acquires the recommended environment according to the content, and can perform correction processing in accordance with the recommended environment required for each content.
  • the acquisition unit acquires the head-related transfer function of the viewer.
  • the correction unit corrects the sound of a speaker arranged near the viewer based on the head-related transfer function of the viewer.
  • the sound processing device can provide the viewer with a more realistic sound field experience by performing corrections incorporating open-type headphones etc. as part of the system.
  • the measurement unit generates map information based on an image captured by an image sensor provided in the sound processing device or an external device, and based on the generated map information, the sound processing device's self position, the viewer's position, At least one of the number and placement of speakers and the shape of the space is measured.
  • the sound processing device can perform sound correction including obstacles such as the positions of pillars and walls in the space by performing measurements using map information.
  • the correction unit provides the information measured by the measurement unit to the terminal device used by the viewer, and the position of the viewer and the number of speakers in the space corrected on the terminal device by the viewer. correcting the audio of the content based on at least one of the arrangement and spatial geometry;
  • the sound processing device provides the measured situation via the application of the terminal device, etc., and accepts more detailed positional corrections from the viewer, making it possible to perform more accurate corrections.
  • the correcting unit further corrects the audio of the content based on the correction made by the viewer with respect to the audio of the content corrected by the correcting unit.
  • the sound processing device accepts a request from the viewer for the corrected sound, and can correct the sound to the user's preference, such as the emphasized parts of the frequency and the state of the delay.
  • the correction unit corrects the sound of the content based on the viewer's behavior pattern or the speaker arrangement pattern learned based on the information measured by the measurement unit.
  • the sound processing device learns the situation in which the viewer and the speaker are moved, thereby optimizing the sound to the position where the viewer is likely to be, and estimating the position of the speaker after being moved. You can correct the sound field according to the situation on the spot, such as correcting the sound by
  • FIG. 18 is a hardware configuration diagram showing an example of a computer 1000 that implements the functions of the sound processing device 100.
  • the computer 1000 has a CPU 1100 , a RAM 1200 , a ROM (Read Only Memory) 1300 , a HDD (Hard Disk Drive) 1400 , a communication interface 1500 and an input/output interface 1600 .
  • Each part of computer 1000 is connected by bus 1050 .
  • the CPU 1100 operates based on programs stored in the ROM 1300 or HDD 1400 and controls each section. For example, the CPU 1100 loads programs stored in the ROM 1300 or HDD 1400 into the RAM 1200 and executes processes corresponding to various programs.
  • the ROM 1300 stores a boot program such as BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, and programs dependent on the hardware of the computer 1000.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records programs executed by the CPU 1100 and data used by such programs.
  • the HDD 1400 is a recording medium that records the sound processing program according to the present disclosure, which is an example of the program data 1450 .
  • a communication interface 1500 is an interface for connecting the computer 1000 to an external network 1550 (for example, the Internet).
  • CPU 1100 receives data from another device via communication interface 1500, and transmits data generated by CPU 1100 to another device.
  • the input/output interface 1600 is an interface for connecting the input/output device 1650 and the computer 1000 .
  • the CPU 1100 receives data from input devices such as a keyboard and mouse via the input/output interface 1600 .
  • the CPU 1100 also transmits data to an output device such as a display, speaker, or printer via the input/output interface 1600 .
  • the input/output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium.
  • Media include, for example, optical recording media such as DVD (Digital Versatile Disc) and PD (Phase change rewritable disk), magneto-optical recording media such as MO (Magneto-Optical disk), tape media, magnetic recording media, semiconductor memories, etc. is.
  • the CPU 1100 of the computer 1000 implements the functions of the control unit 130 and the like by executing the sound processing program loaded on the RAM 1200.
  • the HDD 1400 also stores the sound processing program according to the present disclosure and the data in the storage unit 120 .
  • CPU 1100 reads and executes program data 1450 from HDD 1400 , as another example, these programs may be obtained from another device via external network 1550 .
  • the present technology can also take the following configuration.
  • an acquisition unit that acquires a recommended environment defined for each content, including an ideal arrangement of speakers in a space where the content is played; a measuring unit that measures the positions of viewers in the space, the number and arrangement of speakers, and the shape of the space; Based on the information measured by the measuring unit, the sound observed at the position of the viewer, which is the sound of the content emitted from the speaker located in the space, is arranged ideally in the recommended environment.
  • a sound processing device comprising: (2) The measurement unit By measuring the relative positions of the sound processing device and the plurality of speakers using radio waves transmitted or received by the plurality of speakers located in the space, the number and arrangement of the speakers located in the space can be determined. Measure, The acoustic processing device according to (1) above. (3) The measurement unit Using a depth sensor that detects objects located in the space, measure at least one of the position of the viewer located in the space, the number and arrangement of speakers, and the shape of the space. The acoustic processing device according to (1) or (2).
  • the measurement unit By recognizing the image of the viewer or the speaker using an image sensor provided in the sound processing device or the external device, the position of the viewer or the speaker located in the space is measured.
  • the acoustic processing device according to any one of (1) to (3).
  • the measurement unit measuring the position of the viewer in the space by using radio waves emitted or received by a terminal device carried by the viewer;
  • the acoustic processing device according to any one of (1) to (4) above.
  • the measurement unit As the spatial shape of the space, the distance to the ceiling of the space is measured based on the reflected sound of the sound emitted from the sound emitting unit provided with the speaker located in the space.
  • the acoustic processing device according to any one of (1) to (5).
  • the measurement unit Continuously measure the positions of viewers in the space, the number and arrangement of speakers, and the shape of the space,
  • the correction unit is Correcting the sound of the content emitted from a speaker located in the space using the information continuously measured by the measurement unit;
  • the acoustic processing device according to any one of (1) to (6).
  • the acquisition unit obtaining a recommended environment specified for the content from metadata included in the content;
  • the acquisition unit obtaining a head-related transfer function of the viewer;
  • the correction unit is correcting the sound of the speaker placed near the viewer based on the head-related transfer function of the viewer;
  • the acoustic processing device according to any one of (1) to (8).
  • the measurement unit Map information is generated based on an image captured by an image sensor provided in the sound processing device or an external device, and based on the generated map information, the self position of the sound processing device, the position of the viewer, and the number of speakers measuring at least one of and placement and spatial geometry;
  • the acoustic processing device according to any one of (1) to (9).
  • the correction unit is The information measured by the measuring unit is provided to the terminal device used by the viewer, and the position of the viewer located in the space corrected on the terminal device by the viewer, the number and arrangement of speakers, and correcting the audio of the content based on at least one of the spatial shapes;
  • the acoustic processing device according to any one of (1) to (10).
  • the correction unit is further correcting the audio of the content based on the correction made by the viewer with respect to the audio of the content corrected by the correcting unit;
  • the acoustic processing device according to any one of (1) to (11).
  • the correction unit is Correcting the sound of the content based on the behavior pattern of the viewer or the arrangement pattern of the speakers learned based on the information measured by the measurement unit;
  • the sound processing device according to claim 1.
  • the computer Acquiring the recommended environment specified for each content, including the ideal placement of speakers in the space where the content is played, Measure the position of the viewer in the space, the number and arrangement of speakers, and the shape of the space, Based on the measured information, the sound observed at the position of the viewer, which is the sound of the content emitted from the speaker located in the space, is generated from ideally arranged virtual speakers in the recommended environment.
  • Acoustic processing method including (15) the computer, an acquisition unit that acquires a recommended environment defined for each content, including an ideal arrangement of speakers in a space where the content is played; a measuring unit that measures the positions of viewers in the space, the number and arrangement of speakers, and the shape of the space; Based on the information measured by the measuring unit, the sound observed at the position of the viewer, which is the sound of the content emitted from the speaker located in the space, is arranged ideally in the recommended environment.
  • a sound processing system including a sound processing device and a speaker
  • the sound processing device is an acquisition unit that acquires a recommended environment defined for each content, including an ideal arrangement of speakers in a space where the content is played; a measuring unit that measures the positions of viewers in the space, the number and arrangement of the speakers, and the shape of the space; Based on the information measured by the measuring unit, the sound observed at the position of the viewer, which is the sound of the content emitted from the speaker located in the space, is arranged ideally in the recommended environment.
  • the speaker is an audio irradiating unit that irradiates an audio signal toward a predetermined location in the space; an observation unit that observes the reflected sound of the audio signal emitted by the audio emission unit; The measurement unit measuring the shape of the space based on the time from when the audio signal is emitted by the audio emitting unit to when the reflected sound is observed by the observing unit; sound processing system.
  • sound processing system 10 temporary speaker 50 user 100 sound processing device 110 communication unit 120 storage unit 121 speaker information storage unit 122 measurement result storage unit 130 control unit 131 acquisition unit 132 measurement unit 133 correction unit 140 sensor 200 speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

音響処理装置(100)は、コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部(131)と、前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する測定部(132)と、前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部(133)と、を備える。

Description

音響処理装置、音響処理方法、音響処理プログラムおよび音響処理システム
 本開示は、コンテンツ再生時の音場処理を行う音響処理装置、音響処理方法、音響処理プログラムおよび音響処理システムに関する。
 映画やオーディオコンテンツでは、視聴者の頭上や背後などから音声を発することでコンテンツ再生時の臨場感を高める、いわゆる立体音響(3Dオーディオ)が採用されることがある。
 立体音響の実現のためには、視聴者を取り囲むように複数のスピーカを配置することが理想であるが、一般家庭に多数のスピーカを設置することは現実的に難しい。この課題を解決する技術として、視聴位置にマイクを設置し、集音した音に基づいて信号処理を行うことで、理想のスピーカの配置でなくとも疑似的に立体音響を実現する技術が知られている(例えば、特許文献1)。また、複数のスピーカから出力される波形を合成することで、疑似的な1つの仮想スピーカから発せられた音のように認識させる技術が知られている(例えば、特許文献2)。
特許第6737959号公報 米国特許第9749769号明細書
 しかしながら、立体音響において、より視聴者の臨場感を高めるためには、視聴者の位置、再生機器の環境、天井や壁までの距離などの空間形状の把握を伴うことが求められる。すなわち、立体音響の実現のためには、空間において視聴者が所在する位置、スピーカの数や配置、壁や天井からの反射音などの情報を総合的に用いて補正することが望ましい。
 そこで、本開示では、コンテンツをより臨場感のある音場で体感させることができる音響処理装置、音響処理方法、音響処理プログラムおよび音響処理システムを提案する。
 上記の課題を解決するために、本開示に係る一形態の音響処理装置は、コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部と、前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する測定部と、前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部と、を備える。
実施形態に係る音響処理の概要を示す図である。 推奨環境に係るスピーカ配置を説明するための図(1)である。 推奨環境に係るスピーカ配置を説明するための図(2)である。 推奨環境に係るスピーカ配置を説明するための図(3)である。 実施形態に係る音響処理を説明するための図(1)である。 実施形態に係る音響処理を説明するための図(2)である。 実施形態に係る音響処理を説明するための図(3)である。 実施形態に係る音響処理を説明するための図(4)である。 実施形態に係る音響処理装置の構成例を示す図である。 実施形態に係るスピーカ情報記憶部の一例を示す図である。 実施形態に係る測定結果記憶部の一例を示す図である。 実施形態に係る測定処理を説明するための図(1)である。 実施形態に係る測定処理を説明するための図(2)である。 実施形態に係るスピーカの構成例を示す図である。 実施形態に係る処理の流れを示すフローチャート(1)である。 実施形態に係る処理の流れを示すフローチャート(2)である。 実施形態に係る処理の流れを示すフローチャート(3)である。 音響処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 以下に示す項目順序に従って本開示を説明する。
  1.実施形態
   1-1.実施形態に係る音響処理の概要
   1-2.実施形態に係る音響処理装置の構成
   1-3.実施形態に係るスピーカの構成
   1-4.実施形態に係る処理の手順
   1-5.実施形態に係る変形例
  2.その他の実施形態
  3.本開示に係る音響処理装置の効果
  4.ハードウェア構成
(1.実施形態)
(1-1.実施形態に係る音響処理の概要)
 図1を用いて、本開示の実施形態に係る音響処理の一例を説明する。図1は、実施形態に係る音響処理の概要を示す図である。具体的には、図1には、実施形態に係る音響処理を実行する音響処理システム1の構成要素を示す。
 図1に示すように、音響処理システム1は、音響処理装置100と、スピーカ200Aと、スピーカ200Bと、スピーカ200Cと、スピーカ200Dと、を含む。音響処理システム1は、音声信号を視聴者であるユーザ50に出力したり、出力する音声信号を補正したりする。
 音響処理装置100は、本開示に係る音響処理を実行する情報処理装置の一例である。具体的には、音響処理装置100は、スピーカ200Aと、スピーカ200Bと、スピーカ200Cと、スピーカ200Dとが出力する音声信号を制御する。例えば、音響処理装置100は、映画や音楽等のコンテンツを再生し、コンテンツが含む音声をスピーカ200A等から出力させるよう制御する。なお、音響処理装置100は、コンテンツが映像を含む場合、映像をディスプレイ300から出力するよう制御してもよい。また、詳細は後述するが、音響処理装置100は、ユーザ50やスピーカ200A等の位置を測定するための各種センサ等を備える。
 スピーカ200Aと、スピーカ200Bと、スピーカ200Cと、スピーカ200Dとは、音声信号を出力する音声出力装置である。以下の説明では、スピーカ200Aと、スピーカ200Bと、スピーカ200Cと、スピーカ200Dとを区別する必要のない場合、「スピーカ200」と総称する。スピーカ200は、音響処理装置100と無線接続され、音声信号を受信したり、後述する測定処理に関する制御を受ける。
 なお、図1における各々の装置は、音響処理システム1における機能を概念的に示すものであり、実施形態によって様々な態様をとりうる。例えば、音響処理装置100は、後述する機能ごとに異なる2台以上の装置で構成されてもよい。また、音響処理システム1に含まれるスピーカ200は、必ずしも4台でなくてもよい。
 上記のように、図1に示す例において、音響処理システム1は、音声信号処理を行うコントロールユニットである音響処理装置100と、音響処理装置100に無線接続されるスピーカ200の組み合わせで実現されるワイヤレスオーディオスピーカシステムである。音響処理システム1は、視聴者の頭上や背後などから音声を発することでコンテンツ再生時の臨場感を高める、いわゆる立体音響(3Dオーディオ)をユーザ50に提供する。
 ところで、立体音響を収納したコンテンツには、平面方向のいわゆるサラウンドスピーカだけではなく、高さ方向のいわゆるハイトスピーカ(以下では「天井スピーカ」と総称する)の配置を想定した音声信号が収録される。このようなコンテンツを適切に再生するには、視聴者の位置を中心に、平面スピーカや天井スピーカが正しく配置されることを要する。正しい配置とは、例えば、立体音響の技術規格等で規定された、スピーカ位置の推奨配置である。かかる規格によれば、立体音響の実現のためには、視聴者を取り囲むように複数のスピーカを配置することが求められるが、一般家庭に多数のスピーカを設置することは現実的に難しい。
 そこで、規格に沿った配置でなくともそれに近い音場再現をおこなうために、初期設定時に視聴位置にマイクを設置し、そこで集音した音声に基づいて信号処理を行う技術が存在する。このような技術によれば、規格に沿った正しい配置から音声が聞こえるように音場補正がなされる。また、このような技術によれば、天井スピーカが設置できない場合、天井に音を反射させて天井スピーカを代用する手法や、信号処理技術(バーチャライザ等と称される)を用いて擬似的に天井スピーカの音を視聴者に感じさせるよう、音声が補正される。しかしながら、より正しく補正するためには、視聴者やスピーカの位置を定常的に測定し、部屋の形状や特性を把握し、仮に部屋のスペースが限られている場合なども含めて、それらの情報を総合的に用いて補正することが望ましい。
 これに関して、実施形態に係る音響処理システム1は、コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得するとともに、空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する。さらに、音響処理システム1は、測定された情報に基づいて、視聴者の位置において観測される音声であって、空間に所在するスピーカから発せられるコンテンツの音声を、推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する。
 このように、音響処理システム1は、現実空間に所在する視聴者の位置やスピーカの配置等を測定するとともに、かかる情報に基づいて、推奨環境に設置された仮スピーカから発せられた音声に近づくよう、現実の音声を補正する。かかる構成により、ユーザ50は、推奨環境に規定されるような多数のスピーカを配置することなく、臨場感のある立体音響を体験することができる。また、かかる手法によれば、ユーザ50は、視聴位置にマイクを設置して初期設定を行うなどの手間を要せずに、負担なく立体音響を実現することができる。
 以上、図1を用いて、音響処理システム1の構成および概要を示した。次に、図2以下を用いて、本開示に係る音響処理を具体的に説明する。
 図2は、推奨環境に係るスピーカ配置を説明するための図(1)である。図2には、立体音響に係る音声が記録された3Dオーディオコンテンツを視聴する場合に推奨されるスピーカ配置の一例を示している。具体的には、図2には、ドルビーアトモス(登録商標(Dolby Atmos))で規定される推奨環境の一例を示している。
 図2の例では、ユーザ50を中心として、前方正面にセンタースピーカ10A、左前方に左フロントスピーカ10B、右前方に右フロントスピーカ10C、左後方に左サラウンドスピーカ10D、右後方に右フロントスピーカ10Eがそれぞれ配置される。また、ユーザ50の頭上、すなわち天井スピーカとして、左上部前方に左トップフロントスピーカ10F、右上部前方に右トップフロントスピーカ10G、左上部後方に左トップリアスピーカ10H、右上部後方に右トップリアスピーカ10Iがそれぞれ配置される。なお、図2での図示は省略するが、推奨環境では、このほかに低音用のサブウーファが追加される場合もある。図2の例の配置では、水平方向に5つのスピーカ、サブウーファ、天井に4つのスピーカとなるため、「5.1.4」チャンネルの環境とも称される。このほか、推奨環境としては、「7.1.4」や、「5.1.2」などの環境もとりうる。
 音響処理装置100は、図2に示すようなスピーカの数や配置、ユーザ50(視聴位置)からの距離などの情報を、コンテンツ再生における推奨環境に係る情報として取得する。例えば、音響処理装置100は、コンテンツ再生時にコンテンツに含まれるメタデータから推奨環境を取得してもよいし、予め音響処理装置100の管理者やユーザ50によって推奨環境がインストールされていてもよい。なお、以下では、図2に示したような推奨環境における理想的な配置を実現したスピーカの各々を区別する必要のない場合、「仮スピーカ10」と総称する。
 図2に示すように、推奨環境では、平面スピーカ(ユーザ50と略同一の高さに設置されるスピーカ)と天井スピーカの設置数や、ユーザ50からの距離や角度、仮スピーカ10同士の角度や距離などが規定される。
 次に、図3を用いて、天井スピーカに関する仮スピーカ10の平面配置について説明する。図3は、推奨環境に係るスピーカ配置を説明するための図(2)である。
 例えば、図3に示すように、推奨環境においては、左トップフロントスピーカ10Fおよび右トップフロントスピーカ10Gは、ユーザ50の真正面からそれぞれ約45度の角度に設置されることが規定される。また、左トップリアスピーカ10Hおよび右トップリアスピーカ10Iは、ユーザ50の真正面からそれぞれ約135度の角度に設置されることが規定される。
 次に、図4を用いて、天井スピーカに関する仮スピーカ10の設置高さについて説明する。図4は、推奨環境に係るスピーカ配置を説明するための図(3)である。図4は、図3に示した配置に対応する断面図を示す。
 例えば、図4に示すように、推奨環境においては、左トップフロントスピーカ10F(図示しない右トップフロントスピーカ10Gも同様)は、ユーザ50の真正面から斜め上方向約45度の角度に設置されることが規定される。また、左トップリアスピーカ10H(図示しない右トップリアスピーカ10Iも同様)は、ユーザ50の真正面から斜め後ろ方向約135度の角度に設置されることが規定される。また、ユーザ50を中心点としたとき、左トップフロントスピーカ10Fと左トップリアスピーカ10Hとは、約90度の角度に設置されることが推奨される。なお、図2乃至図4で示した推奨環境は一例であり、スピーカの数や配置、ユーザ50までの設置距離など、例えば、立体音響の規格やコンテンツ制作会社の規定等に応じて、コンテンツごとに様々に異なる推奨環境が存在するものとする。
 上述のように、実施形態に係る音響処理装置100は、推奨環境とは異なる再生環境において、推奨環境とおりに仮スピーカ10が置かれているかのように、現実に設置されたスピーカ200から出力される音声を補正する。まず、音響処理装置100は、補正処理に先立ち、図2乃至図4に示した仮スピーカ10の配置等を示す推奨環境を取得する。その後、音響処理装置100は、推奨環境に基づいて、実際の空間に設置されるスピーカ200から出力される音声を補正する。かかる処理について、図5以下を用いて説明する。
 図5は、実施形態に係る音響処理を説明するための図(1)である。図5に示すように、ユーザ50が所在する空間では、スピーカ200Aと、スピーカ200Bと、スピーカ200Cと、スピーカ200Dとが、推奨環境とは異なる配置で設置されているものとする。
 推奨環境には、仮スピーカ10の数や配置、各々の仮スピーカ10からユーザ50までの距離等が規定されていることから、補正処理を行うためには、スピーカ200の配置やユーザ50の所在位置等を把握する必要がある。そこで、音響処理装置100は、スピーカ200の配置やユーザ50の所在位置等を測定する。
 一例として、音響処理装置100は、スピーカ200が備える無線送受信機能(具体的には、無線モジュールとアンテナ)を利用して、各々のスピーカ200の位置を測定する。詳細は後述するが、音響処理装置100は、各々のスピーカ200が発信した信号を複数のアンテナで受信し、その信号の位相差を検出することで送信側(スピーカ200)の方向を推測する手法(AoA(Angle of Arrival))を採りうる。あるいは、音響処理装置100は、音響処理装置100が備える複数のアンテナを切り替えながら信号の送信をおこない、各々のスピーカ200が受信した位相差から角度(すなわち、音響処理装置100から見た際の配置)を推測する手法(AoD(Angle of Departure))を用いてもよい。
 また、音響処理装置100は、ユーザ50の位置を測定する場合に、ユーザ50が保持するスマートフォン等の無線通信機器を利用してもよい。例えば、音響処理装置100は、専用のアプリ等を介してスマートフォンから音声を発信させ、かかる音声を音響処理装置100およびスピーカ200で受信し、その到達時刻に基づいて、ユーザ50の位置を測定してもよい。あるいは、音響処理装置100は、上記のAoA等の手法でスマートフォンの位置を測定し、測定したスマートフォンの位置をユーザ50の所在位置と推定してもよい。なお、音響処理装置100は、Bluetooth等の電波を用いて空間上に存在するスマートフォンを検出してもよいし、予めユーザ50から使用するスマートフォン等の登録を受け付けてもよい。
 あるいは、音響処理装置100は、ToF(Time of Flight)センサ等の深度センサや、人間の顔を認識するための事前学習を済ませたAIチップを備えるイメージセンサ等を利用して、ユーザ50や各スピーカ200の位置を測定してもよい。
 続いて、音響処理装置100は、空間形状を測定する。例えば、音響処理装置100は、スピーカ200から測定用信号を発信させることで、空間形状を測定する。この点について、図6を用いて説明する。図6は、実施形態に係る音響処理を説明するための図(2)である。
 図6に示すように、スピーカ200は、ユーザ50に対して水平方向に音を出力する水平ユニット251のほかに、天井に向けて音を出力する天井向けユニット252を有する。すなわち、実施形態に係るスピーカ200は、2方向に別々の音を発することのできる構成となっている。スピーカ200は、天井向けユニット252から発せられる音を天井20で反射させることで、天井スピーカの代用となる仮想スピーカ260から音が発せられたようにユーザ50に感じさせることができる。
 また、スピーカ200は、天井向けユニット252から出力する測定用信号を利用して、空間形状を測定することもできる。かかる手法は、FMCW(Frequency Modulated Continuous Wave)等と称される。かかる手法は、時間とともに線形に周波数が変化する音をスピーカ200から出力し、スピーカ200が備えるマイクロホンで反射波を検出して、その周波数差(ビート周波数)から天井までの距離を求める手法である。
 具体的には、スピーカ200は、空間形状の測定を音響処理装置100から要求された場合、測定用信号を天井20に向けて発信する。そして、スピーカ200は、備えたマイクロホンで測定用信号の反射音を観測することで、天井までの距離を測定する。音響処理装置100は、スピーカ200の数と配置は把握しているため、スピーカ200から送信される天井の高さ情報を取得することで、スピーカ200が設置された空間形状に係る情報を取得することができる。
 なお、音響処理装置100は、深度センサやイメージセンサを利用したSLAM(Simultaneous Localization and Mapping)等の技術を利用してユーザ50が所在する空間の地図情報を取得し、かかる情報から空間形状を推定してもよい。
 また、空間形状には、空間の特性を示す情報が含まれてもよい。例えば、空間の壁や天井の材質によって、反射音の音圧や音質が変化する場合がある。例えば、音響処理装置100は、ユーザ50によって手動で部屋の材質に関する情報の入力を受け付けてもよいし、空間に測定用信号を照射して部屋の材質を推定してもよい。
 以上のように、音響処理装置100は、測定処理を経て、空間に所在するスピーカ200の数や配置、ユーザ50の所在位置、空間形状等を得ることができる。これらの情報に基づいて、音響処理装置100は、音場の補正処理を行う。この点について、図7を用いて説明する。図7は、実施形態に係る音響処理を説明するための図(3)である。
 上述のように、3Dオーディオコンテンツを再生する際の推奨環境が規定されているが、実施形態では、ユーザ50は、スピーカ200A、スピーカ200B、スピーカ200C、スピーカ200Dという4つしか配置できない状況であるとする。しかしながら、図で示したような理想的な配置を実現できない場合でも、音声信号補正処理により、推奨されるスピーカ配置で音が鳴っているようにユーザ50が感じることができれば、臨場感ある3Dオーディオコンテンツの再生が実現できるといえる。音響処理装置100は、現実の空間に設置された4つのスピーカ200を用いて、かかる音響処理を行う。
 この点について、図8を用いて説明する。図8は、実施形態に係る音響処理を説明するための図(4)である。
 図8の例では、スピーカ200Aと、スピーカ200Bと、天井の反射を利用した仮想スピーカ260Bという3つの音源を用いて、新たな仮想スピーカ260Eを出現させる状況を示す。具体的には、音響処理装置100は、現実に配置可能なスピーカ200もしくは反射音源を利用し、それらの位置関係に基づいて音声を合成し、仮想スピーカ260Eの位置にモノポール(monopole)音源の波面を生成する。かかる波面合成は、例えば、上述した特許文献2に記載の手法により実現可能である。具体的には、音響処理装置100は、特許文献2に記載の「Synthesis Monopoles(Monopole Synthesis)」の手法を用いることで、4つのスピーカ200、および、スピーカ200の天井向けユニット252が作る4つの反射音源を合成し、推奨環境に基づく合成音場を形成することができる。
 以上、図1乃至図8に示したように、音響処理装置100は、コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する。また、音響処理装置100は、空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する。そして、音響処理装置100は、測定された情報に基づいて、ユーザ50の位置において観測される音声であって、空間に所在するスピーカ200から発せられるコンテンツの音声を、推奨環境における理想的に配置された仮スピーカ10から発せられる音声に補正する。
 これにより、ユーザ50は、図7に示したような推奨環境とは異なるスピーカ配置であっても、図2に示した推奨環境に配置された仮スピーカ10から出力された音を視聴しているかのように感じることができる。すなわち、音響処理装置100は、推奨環境とは異なるスピーカ配置であっても、3Dオーディオコンテンツを推奨環境と同様の臨場感で体感させることができる。
 また、実施形態に係る音響処理によれば、実際に設置されたスピーカ200や反射音源よりも、ユーザ50から見て遠くに仮想スピーカ260Eを形成することができる。このため、音響処理装置100は、部屋の大きさの制約で設置できないような位置に仮想スピーカ260Eを形成し、映画等のコンテンツが推奨した距離間で音声を再生したり、音場空間をより大きく感じさせたりすることができる。
(1-2.実施形態に係る音響処理装置の構成)
 次に、音響処理装置100の構成について説明する。図9は、実施形態に係る音響処理装置100の構成例を示す図である。
 図9に示すように、音響処理装置100は、通信部110と、記憶部120と、制御部130と、センサ140とを有する。なお、音響処理装置100は、音響処理装置100を管理する管理者やユーザ50等から各種操作を受け付ける入力部(例えば、タッチディスプレイやボタン等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
 通信部110は、例えば、NIC(Network Interface Card)やネットワークインタフェイスコントローラ(Network Interface Controller)等によって実現される。通信部110は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、スピーカ200等と情報の送受信を行う。ネットワークNは、例えば、Bluetooth(登録商標)、インターネット、Wi-Fi(登録商標)、UWB(Ultra Wide Band)、LPWA(Low Power Wide Area)等の無線通信規格もしくは方式で実現される。
 センサ140は、各種情報を検知するための機能部である。センサ140は、例えば、ToFセンサ141や、イメージセンサ142や、マイクロホン143を含む。
 ToFセンサ141は、空間に所在するオブジェクトまでの距離を測定する深度センサである。
 イメージセンサ142は、カメラ等で撮像された空間を画素情報(静止画もしくは動画)で記録する画素センサである。なお、イメージセンサ142は、人間の顔やスピーカの形状などを画像認識するために事前学習されたAIチップを同梱していてもよい。この場合、イメージセンサ142は、カメラで空間を撮像しながら、ユーザ50やスピーカ200を画像認識により検出することができる。
 マイクロホン143は、スピーカ200が出力した音声やユーザ50が発話した音声を集音する音声センサである。
 また、センサ140は、ユーザが音響処理装置100に触れたことを検知するタッチセンサや、音響処理装置100の現在位置を検知するセンサを含んでもよい。例えば、センサ140は、GPS(Global Positioning System)衛星から送出される電波を受信し、受信した電波に基づいて音響処理装置100の現在位置を示す位置情報(例えば、緯度及び経度)を検知してもよい。
 また、センサ140は、スマートフォンやスピーカ200が発する電波を検知する電波センサや、電磁波を検知する電磁波センサ等(アンテナ)を含んでもよい。また、センサ140は、音響処理装置100が置かれた環境を検知してもよい。具体的には、センサ140は、音響処理装置100の周囲の照度を検知する照度センサや、音響処理装置100の周囲の湿度を検知する湿度センサ等を含んでもよい。
 また、センサ140は、必ずしも音響処理装置100の内部に備えられなくてもよい。例えば、センサ140は、通信等を用いてセンシングした情報を音響処理装置100に送信することが可能であれば、音響処理装置100の外部に設置されてもよい。
 記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、スピーカ情報記憶部121と、測定結果記憶部122とを有する。以下、各記憶部について、図10および図11を用いて、順に説明する。
 図10は、実施形態に係るスピーカ情報記憶部121の一例を示す図である。図10に示すように、スピーカ情報記憶部121は、「スピーカID」、「音響特性」といった項目を有する。なお、図10および図11では、記憶部120に格納される情報を「A01」のように概念的に示す場合があるが、実際には、後述する各情報が記憶部120に記憶される。
 「スピーカID」は、スピーカを識別するための識別情報である。「音響特性」は、スピーカごとの音響特性を示す。例えば、音響特性には、音声出力値や周波数特性、ユニットの数や向き、ユニットの能率やレスポンスの速度(音声信号入力から出力までの時間)等の情報が含まれてもよい。音響処理装置100は、ネットワークNを経由したスピーカメーカ等から音響特性に係る情報をしてもよいし、スピーカから測定用信号を出力させて音響処理装置100が備えるマイクロホンで測定するなどの手法を用いて、音響特性を取得してもよい。
 次に、測定結果記憶部122について説明する。図11は、実施形態に係る測定結果記憶部の一例を示す図である。
 図11に示した例では、測定結果記憶部122は、「測定結果ID」、「ユーザ位置情報」、「スピーカ配置情報」といった項目を有する。「測定結果ID」は、測定結果を識別する識別情報を示す。測定結果IDには、測定日時や、測定した空間の場所を示す位置情報等が含まれてもよい。
 「ユーザ位置情報」は、測定されたユーザの位置を示す。「スピーカ配置情報」は、測定されたスピーカの配置や数を示す。なお、ユーザ位置情報やスピーカ配置情報は、どのような形式で記憶されてもよい。例えば、ユーザ位置情報やスピーカ配置情報は、SLAMに基づいて、空間に配置されたオブジェクトとして記憶されてもよい。また、ユーザ位置情報やスピーカ配置情報は、音響処理装置100の位置を中心とした座標情報や距離情報などで記憶されてもよい。すなわち、ユーザ位置情報やスピーカ配置情報は、音響処理装置100が空間上でユーザ50やスピーカ200の位置を特定できる情報であれば、いずれの形式であるかを問わない。
 図9に戻って説明を続ける。制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等によって、音響処理装置100内部に記憶されたプログラム(例えば、本開示に係る音響処理プログラム)がRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
 図9に示すように、制御部130は、取得部131と、測定部132と、補正部133とを有する。
 取得部131は、各種情報を取得する。例えば、取得部131は、コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する。
 取得部131は、映画や3Dオーディオ等のコンテンツをネットワークN経由で取得した場合、当該コンテンツに含まれるメタデータから、コンテンツに規定された推奨環境を取得してもよい。また、取得部131は、ユーザ50による入力を受け付けることで、コンテンツごとに適した推奨環境を取得してもよい。
 測定部132は、空間に所在するユーザ50の位置、スピーカ200の数と配置、および、空間形状を測定する。
 例えば、測定部132は、空間に所在する複数のスピーカが発信もしくは受信する電波を利用して、音響処理装置100および複数のスピーカ200の相対的な位置を測定することにより、空間に所在するスピーカの数および配置を測定する。
 この点について、図12および図13を用いて説明する。図12は、実施形態に係る測定処理を説明するための図(1)である。
 図12に示す例では、電波の送信者60(Transmitter)が送信した電波を、複数のアンテナを有する受信者70(Receiver)が受信する状況を示す。例えば、送信者60が音響処理装置100であり、受信者70がスピーカ200である。音響処理装置100は、アンテナ61から電波を送信し、スピーカ200が備える複数のアンテナ71、アンテナ72、アンテナ73において受信された信号の位相差を検出することで、受信側および送信側の相対的な角度θを推測することができる。音響処理装置100は、推測した角度θに基づいて、スピーカ200の位置を測定する。かかる手法は、AoA等と称される。
 次に、図13を用いて、他の例を説明する。図13は、図13は、実施形態に係る測定処理を説明するための図(2)である。
 図13に示す例では、電波の送信者60が複数のアンテナから送信した電波を、受信者70が受信する状況を示す。例えば、送信者60が音響処理装置100であり、受信者70がスピーカ200である。音響処理装置100は、アンテナ65、アンテナ66、アンテナ67という複数のアンテナを切り替えながら信号の送信をおこない、各々のスピーカ200がアンテナ75で電波を受信した際の位相差から、受信側および送信側の相対的な角度θを推測する。音響処理装置100は、推測した角度θに基づいて、スピーカ200の位置を測定する。かかる手法は、AoD等と称される。
 図12および図13で示した処理は、測定の一例であり、測定部132は、他の手法を用いてもよい。例えば、測定部132は、空間に所在する物体を検知するToFセンサ141を用いて、空間に所在するユーザ50の位置、スピーカ200の数と配置、および、空間形状の少なくとも一つを測定してもよい。
 また、測定部132は、音響処理装置100が備えるイメージセンサ142を用いてユーザ50もしくはスピーカ200を画像認識することにより、空間に所在するユーザ50もしくはスピーカ200の位置を測定してもよい。
 また、測定部132は、外部装置が備えるイメージセンサを利用して、ユーザ50もしくはスピーカ200を画像認識することにより、空間に所在するユーザ50もしくはスピーカ200の位置を測定してもよい。例えば、測定部132は、スピーカ200やディスプレイ300が備えるイメージセンサや、ディスプレイ300に接続されたUSBカメラ等を利用してもよい。具体的には、測定部132は、スピーカ200やディスプレイ300が撮影した画像を取得し、画像解析によってユーザ50やスピーカ200を特定およびトラッキングすることで、ユーザ50やスピーカ200の位置を測定する。また、測定部132は、かかる画像認識に基づいて、ユーザ50が所在する空間の形状や、壁や天井の材質などに基づく空間の音響特性等を測定してもよい。なお、スピーカ200やディスプレイ300等によって画像解析がおこなわれた場合には、スピーカ200やディスプレイ300は、解析により得られたユーザ50の位置や空間形状等を抽象データ(メタデータ)に変換し、HDMI(登録商標)等のビデオ・オーディオ接続ケーブルや、Wi-Fiなどの無線システム経由で音響処理装置100に変換したデータを伝達してもよい。
 また、測定部132は、ユーザ50が携帯するスマートフォンが発信もしくは受信する電波を利用して、空間に所在するユーザ50の位置を測定してもよい。すなわち、測定部132は、上述したAoAやAoDの手法を用いてスマートフォンの位置を推測することで、当該スマートフォンを利用するユーザ50の位置を測定する。なお、ユーザ50のほかに、同空間に視聴者が複数いる場合、測定部132は、視聴者全員に対して順次測定を行うことで、全員分の測定が可能である。また、測定部132は、ユーザ50や他の視聴者の各々が持つデバイスから測定用信号(可聴音もしくは超音波)を出力させ、それをマイクロホン143で検知することで、ユーザ50等の位置を測定してもよい。
 また、測定部132は、空間の空間形状として、空間に所在するスピーカ200が備えた天井向けユニット252から発せられた音の反射音に基づいて、空間の天井までの距離を測定する。例えば、測定部132は、図6に示したように、スピーカ200が測定用信号を出力するよう制御し、スピーカ200が発した測定用信号をスピーカ200が受信するまでの時間に基づいて、天井までの距離を測定する。
 また、測定部132は、イメージセンサ142もしくはスマートフォンやスピーカ200等の外部装置によって撮像される画像に基づいて地図情報を生成し、生成した地図情報に基づいて、音響処理装置100の自己位置、ユーザ50の位置、スピーカ200の数と配置、および、空間形状の少なくとも一つを測定してもよい。すなわち、測定部132は、SLAMに係る技術を利用することで、スピーカ200が配置された空間形状データを作成し、その空間上に所在するユーザ50やスピーカ200の配置を測定してもよい。
 なお、測定部132は、空間に所在するユーザ50の位置、スピーカの数と配置、および、空間形状を継続的に測定してもよい。例えば、測定部132は、コンテンツが停止されたタイミングや、音響処理装置100に電源が投入されたから一定時間ごとのタイミングなどに、ユーザ50の位置測定などを継続的に行う。この場合、補正部133は、測定部132によって継続的に測定された情報を用いて、空間に所在するスピーカ200から発せられるコンテンツの音声を補正する。これにより、測定部132は、例えば部屋を掃除したユーザ50によってスピーカ200の配置が変更された場合などであっても、継続的に測定してその変化を捉えることができるので、ユーザ50が意識することなく、適切な音響補正を行うことができる。
 補正部133は、測定部132によって測定された情報に基づいて、ユーザ50の位置において観測される音声であって、空間に所在するスピーカ200から発せられるコンテンツの音声を、推奨環境における理想的に配置された仮スピーカ10から発せられる音声に補正する。
 例えば、補正部133は、図7および図8を用いて説明したように、複数のスピーカ200から発せられる音声波形を合成することで、仮想的なスピーカを形成する手法を用いて、スピーカ200の音声を仮スピーカ10から発せられる音声に補正する。
 また、補正部133は、ユーザ50による入力を受け付け、かかる情報を補正に反映してもよい。例えば、補正部133は、測定部132によって測定された情報をユーザ50が利用するスマートフォンに提供する。そして、補正部133は、スマートフォンのアプリ上で表示される情報を見たユーザ50から、スマートフォンのアプリ上で情報の変更を受け付ける。例えば、補正部133は、ユーザ50によってスマートフォン上で補正された、空間に所在するユーザ50の位置、スピーカ200の数と配置、および、空間形状の少なくとも一つに基づいて、コンテンツの音声を補正する。これにより、補正部133は、実際の状況を把握したユーザ50により微調整された位置情報に基づいて補正を行うことができるため、より正確に推奨環境に即した補正を行うことができる。
 さらに、補正部133は、補正部133によって補正されたコンテンツの音声に対して、ユーザ50によって行われた補正に基づいて、さらにコンテンツの音声を補正してもよい。例えば、ユーザ50は、補正部133によって補正されたコンテンツの音声を視聴したのち、強調する周波数を変更したり、スピーカ200から出力される音声の到達時間(ディレイ)を調整したりすることを所望する場合がある。補正部133は、かかる情報を受け付け、ユーザ50の要求に対応した音声に補正する。これにより、補正部133は、よりユーザ50の好む音場を形成することができる。
 また、補正部133は、測定部132によって測定された情報に基づいて学習されたユーザ50の行動パターンもしくはスピーカ200の配置パターンに基づいて、コンテンツの音声を補正してもよい。
 例えば、補正部133は、測定部132が継続してトラッキングしたユーザ50の位置情報やスピーカ200の位置情報を取得する。また、補正部133は、ユーザ50によって調整された音場の補正情報を取得する。そして、補正部133は、それらの履歴を人工知能(AI)で学習することにより、よりユーザ50が望む最適な音場の提供が可能となる。
 さらに、補正部133は、再生されるコンテンツの音声をマイクロホン143で常にモニタすることと、AIでの学習処理を継続して行うことを併用し、スマートフォンアプリ等を通して、ユーザ50に種々の提案を行ってもよい。例えば、補正部133は、よりユーザ50が好むと推測される音場に近づけるよう、スピーカ200の向きを少し回転させたり、設置位置を少し変更したりといったことをユーザ50に提案してもよい。また、補正部133は、ユーザ50の位置をトラッキングした履歴に基づいて、次にユーザ50が所在すると想定される位置を予測し、予測した位置に合わせた音場補正を行ってもよい。これにより、補正部133は、ユーザ50が移動した直後に、その移動後の場所に合わせた適切な補正を行うことができる。
 なお、制御部130が行う音響処理は、例えば、音響処理装置100やスピーカ200を制作するメーカが実装することで実現されるが、そのほかにも、コンテンツのために提供されるソフトウェアモジュールに組み込んでおき、それを音響処理装置100やスピーカ200に実装して利用する、という形式もありうる。
(1-3.実施形態に係るスピーカの構成)
 次に、スピーカ200の構成について説明する。図14は、実施形態に係るスピーカ200の構成例を示す図である。
 図14に示すように、スピーカ200は、通信部210と、記憶部220と、制御部230とを有する。
 通信部210は、例えば、NICやネットワークインタフェイスコントローラ等によって実現される。通信部210は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、音響処理装置100等と情報の送受信を行う。
 記憶部220は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部220は、例えば、音響処理装置100の制御によって空間形状を測定した場合や、ユーザ50の位置を測定した場合などに、その測定結果を記憶する。
 制御部230は、例えば、CPUやMPU、GPU等によって、スピーカ200内部に記憶されたプログラムがRAM等を作業領域として実行されることにより実現される。また、制御部230は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。
 図14に示すように、制御部230は、入力部231と、出力制御部232と、送信部233とを有する。
 入力部231は、音響処理装置100によって補正された音声信号や、音響処理装置100による制御信号等の入力を受け付ける。
 出力制御部232は、音声信号等を出力部250から出力する処理を制御する。例えば、出力制御部232は、音響処理装置100によって補正された音声信号を出力部250から出力するよう制御する。また、出力制御部232は、音響処理装置100による制御に従い、測定用信号を出力部250から出力するよう制御する。
 送信部233は、各種情報を送信する。例えば、送信部233は、音響処理装置100から測定処理を実行するよう制御された場合に、その測定結果を音響処理装置100に送信する。
 センサ240は、各種情報を検知するための機能部である。センサ240は、例えば、マイクロホン241を含む。
 マイクロホン241は、音声を検知する。例えば、マイクロホン241は、出力部250から出力された測定用信号の反射音を検知する。
 なお、スピーカ200は、図14に示した以外の各種センサを備えてもよい。例えば、スピーカ200は、ユーザ50や他のスピーカ200を検出するためのToFセンサやイメージセンサを備えてもよい。
 出力部250は、出力制御部232の制御に従い、音声信号を出力する。すなわち、出力部250は、音声を発するスピーカユニットである。出力部250は、水平ユニット251および天井向けユニット252を含む。なお、スピーカ200は、水平ユニット251および天井向けユニット252以外にも、より多くのユニットを備えてもよい。
(1-4.実施形態に係る処理の手順)
 次に、図15乃至図17を用いて、実施形態に係る処理の手順について説明する。まず、図15を用いて、実施形態に係る音響処理の全体の手順について説明する。図15は、実施形態に係る処理の流れを示すフローチャート(1)である。
 図15に示すように、音響処理装置100は、例えばユーザ50から、測定操作を受け付けたか否かを判定する(ステップS101)。測定操作を受け付けていない場合(ステップS101;No)、音響処理装置100は、測定操作を受け付けるまで待機する。
 一方、測定操作を受け付けた場合(ステップS101;Yes)、音響処理装置100は、空間に設置されたスピーカ200の配置を測定する(ステップS102)。その後、音響処理装置100は、ユーザ50の位置を測定する(ステップS103)。
 続いて、音響処理装置100は、ユーザ50が再生しようとするコンテンツを取得したか否かを判定する(ステップS104)。コンテンツを取得しない場合、音響処理装置100は、コンテンツを取得するまで待機する(ステップS104;No)。
 一方、コンテンツを取得した場合(ステップS104;Yes)、音響処理装置100は、当該コンテンツに対応する推奨環境を取得する(ステップS105)。音響処理装置100は、コンテンツの再生を開始する(ステップS106)。
 このとき、音響処理装置100は、当該コンテンツの推奨環境において再生されているかのように、再生したコンテンツの音声信号を補正する(ステップS107)。
 その後、音響処理装置100は、例えばユーザ50の操作にしたがって、コンテンツの再生を終了したか否かを判定する(ステップS108)。コンテンツの再生を終了していない場合(ステップS108;No)、音響処理装置100は、コンテンツの再生を継続する。
 一方、コンテンツの再生が終了した場合(ステップS108;Yes)、音響処理装置100は、所定時間が経過したかを判定する(ステップS109)。所定時間が経過していない場合(ステップS109;No)、音響処理装置100は、所定時間が経過するまで待機する。
 一方、所定時間が経過した場合(ステップS109;Yes)、音響処理装置100は、再びスピーカ200の配置を測定する(ステップS102)。すなわち、音響処理装置100は、予め設定された所定時間ごとにスピーカ200やユーザ50の位置をトラッキングすることで、次にコンテンツが再生された場合も、適切な位置情報に基づいて補正を行うことができる。
 次に、図16を用いて、スピーカ200に係る測定処理の手順について説明する。図16は、実施形態に係る処理の流れを示すフローチャート(2)である。
 図16に示すように、ステップS102においてスピーカ200の位置や数を測定する場合、音響処理装置100は、各スピーカ200に位置測定のコマンドを送信する(ステップS201)。コマンドとは、例えば、測定を開始する旨を示す制御信号である。
 また、音響処理装置100は、各スピーカ200の配置を測定する(ステップS202)。かかる処理は、ToFセンサ141を用いて音響処理装置100自身が実行してもよいし、スピーカ200や、ユーザ50が保持するスマートフォン等が備えるイメージセンサを利用し、スピーカ200やスマートフォンに実行させてもよい。
 続いて、音響処理装置100は、各スピーカ200から天井までの距離を測定する(ステップS203)。天井までの距離は、スピーカ200が発する測定用信号の反射を利用する測定手法をスピーカ200に実行させて取得してもよいし、ToFセンサ141等を用いて音響処理装置100自身が実行してもよい。
 その後、音響処理装置100は、各スピーカ200から測定結果を取得する(ステップS204)。そして、音響処理装置100は、測定結果を測定結果記憶部122に格納する(ステップS205)。
 次に、図17を用いて、ユーザ50に係る測定処理の手順について説明する。図17は、実施形態に係る処理の流れを示すフローチャート(3)である。
 図17に示すように、ステップS103においてユーザ50の位置を測定する場合、音響処理装置100は、ユーザ50が利用する端末装置(スマートフォンや、ユーザ50が身に着けるスマートウォッチやスマートグラス等のウェアラブルデバイスであってもよい)と接続する(ステップS301)。
 続けて、音響処理装置100は、上述した任意の手法を用いて、端末装置の位置を測定する(ステップS302)。かかる処理は、端末装置が備えるイメージセンサを利用し、端末装置に実行させてもよいし、ToFセンサ141等を用いて音響処理装置100自身が実行してもよい。
 その後、音響処理装置100は、端末装置から測定結果を取得する(ステップS303)。そして、音響処理装置100は、測定結果を測定結果記憶部122に格納する(ステップS304)。
(1-5.実施形態に係る変形例)
 上記各実施形態では、音響処理システム1は、音響処理装置100と、4つのスピーカ200とを含む例を示した。しかし、音響処理システム1は、これと異なる構成であってもよい。
 例えば、音響処理システム1は、音響処理装置100と通信で接続可能であれば、異なる機能や音響特性を有する複数のスピーカを組み合わせた構成であってもよい。すなわち、音響処理システム1は、ユーザ50が有している既存のスピーカや、スピーカ200とは異なる他社のスピーカ等を含んでもよい。この場合、音響処理装置100は、上述のように音響測定信号等を発し、これらのスピーカの音響特性を取得するようにしてもよい。
 また、スピーカ200は、必ずしも水平ユニット251と天井向けユニット252とを有する構成でなくてもよい。スピーカ200が天井向けユニット252を備えない場合、音響処理装置100は、スピーカ200に代わり、ToFセンサ141やイメージセンサ142等を用いて、スピーカ200から天井までの距離等の空間形状を測定してもよい。また、音響処理装置100に代わり、カメラを備えたディスプレイ300等が、スピーカ200から天井までの距離等の空間形状を測定してもよい。
 また、音響処理システム1は、肩掛けスピーカや、外音を聴くことができるオープン構造のヘッドホンや、耳を塞がない構造を有する骨伝導ヘッドホンなどを含んでもよい。この場合、音響処理装置100は、これらユーザ50に装着される出力装置に組み込む特性として、ユーザ50の頭部伝達関数(HRTF、Head-Related Transfer Function)を測定してもよい。この場合、音響処理装置100は、これらユーザ50に装着される出力装置を一つのスピーカとして取り扱い、他のスピーカから出力される音声と波形合成する。
 すなわち、音響処理装置100は、ユーザ50の頭部伝達関数を取得し、ユーザ50の近傍に配置されるスピーカの音声をユーザ50の頭部伝達関数に基づいて補正する。これにより、音響処理装置100は、音場定位が明確な近傍のスピーカと、その空間に配置された他のスピーカとを組み合わせて音場を生成することができるので、より高い臨場感をユーザ50に体感させることができる。
(2.その他の実施形態)
 上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。
 また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、測定部132と補正部133とは統合されてもよい。
 また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
 また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
(3.本開示に係る音響処理装置の効果)
 上述のように、本開示に係る音響処理装置(実施形態では音響処理装置100)は、取得部(実施形態では取得部131)と、測定部(実施形態では測定部132)と、補正部(実施形態では補正部133)とを備える。取得部は、コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する。測定部は、空間に所在する視聴者(実施形態ではユーザ50)の位置、スピーカ(実施形態ではスピーカ200)の数と配置、および、空間形状を測定する。補正部は、測定部によって測定された情報に基づいて、視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられるコンテンツの音声を、推奨環境における理想的に配置された仮想スピーカ(実施形態では仮スピーカ10)から発せられる音声に補正する。
 このように、本開示に係る音響処理装置は、3Dオーディオコンテンツ等を視聴する際の推奨環境の通りに物理的なスピーカが配置されなくとも、ユーザ位置等を測定したのちに音声を補正することで、推奨環境に配置されたように音声を視聴者に届けることができる。これにより、音響処理装置は、コンテンツをより臨場感のある音場で体感させることができる。
 また、測定部は、空間に所在する複数のスピーカが発信もしくは受信する電波を利用して、音響処理装置および当該複数のスピーカの相対的な位置を測定することにより、当該空間に所在するスピーカの数および配置を測定する。
 このように、音響処理装置は、音響処理装置とスピーカとの間の電波に基づいて位置を測定することで、高速かつ正確にスピーカの位置を測定することができる。
 また、測定部は、空間に所在する物体を検知する深度センサを用いて、空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つを測定する。
 このように、音響処理装置は、深度センサを用いることで、スピーカまでの距離や空間形状を的確に把握できるので、正確な測定や補正処理を行うことができる。
 また、測定部は、音響処理装置もしくは外部装置(実施形態ではスピーカ200やディスプレイ300、スマートフォン等)が備えるイメージセンサを用いて視聴者もしくはスピーカを画像認識することにより、空間に所在する視聴者もしくはスピーカの位置を測定する。
 このように、音響処理装置は、テレビやスピーカ等が備えるカメラ(イメージセンサ)を利用して測定を行うことで、他のセンサ等で測定が困難な状況下であっても、スピーカの位置等を正確に測定することができる。
 また、測定部は、視聴者が携帯する端末装置(実施形態ではスマートフォンやウェアラブルデバイス等)が発信もしくは受信する電波を利用して、空間に所在する視聴者の位置を測定する。
 このように、音響処理装置は、端末装置を用いて位置を判定することで、イメージセンサ等で視聴者を捉えることができない場合であっても、視聴者の位置を正確に測定することができる。
 また、測定部は、当該空間の空間形状として、空間に所在するスピーカが備えた音声照射部(実施形態では天井向けユニット252)から発せられた音の反射音に基づいて、当該空間の天井までの距離を測定する。
 このように、音響処理装置は、スピーカから出力する反射音を利用して空間形状を測定することで、画像認識等の複雑な処理を介することなく、迅速に空間形状を測定することができる。
 また、測定部は、空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を継続的に測定する。補正部は、測定部によって継続的に測定された情報を用いて、空間に所在するスピーカから発せられるコンテンツの音声を補正する。
 このように、音響処理装置は、視聴者やスピーカの位置をトラッキングすることで、例えば、何らかの事情でスピーカが移動させられたり、ユーザが移動したりした場合であっても、その状態に合わせた最適な補正を行うことができる。
 また、取得部は、コンテンツに含まれるメタデータから、当該コンテンツに規定された推奨環境を取得する。
 このように、音響処理装置は、コンテンツに合わせて推奨環境を取得することで、当該コンテンツごとに要求される推奨環境に即した補正処理を行うことができる。
 また、取得部は、視聴者の頭部伝達関数を取得する。補正部は、視聴者の近傍に配置されるスピーカの音声を当該視聴者の頭部伝達関数に基づいて補正する。
 このように、音響処理装置は、オープン型のヘッドホン等をシステムの一部として組み込んだ補正を行うことで、より臨場感のある音場体験を視聴者に提供できる。
 また、測定部は、音響処理装置が備えるイメージセンサもしくは外部装置によって撮像される画像に基づいて地図情報を生成し、生成した地図情報に基づいて、音響処理装置の自己位置、視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つを測定する。
 このように、音響処理装置は、地図情報を利用して測定を行うことで、空間上の柱や壁の位置など、障害物も含めた音響補正ができる。
 また、補正部は、測定部によって測定された情報を視聴者が利用する端末装置に提供するとともに、当該視聴者によって当該端末装置上で補正された空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つに基づいて、コンテンツの音声を補正する。
 このように、音響処理装置は、測定した状況を端末装置のアプリ等を介して提供し、視聴者からさらに細かい位置の修正等を受け付けることで、より正確な補正を行うことができる。
 また、補正部は、補正部によって補正されたコンテンツの音声に対して、視聴者によって行われた補正に基づいて、さらにコンテンツの音声を補正する。
 このように、音響処理装置は、補正した音に対して視聴者からの要求を受け付けることで、周波数の強調箇所やディレイの状況など、よりユーザ好みの音に補正することができる。
 また、補正部は、測定部によって測定された情報に基づいて学習された視聴者の行動パターンもしくはスピーカの配置パターンに基づいて、コンテンツの音声を補正する。
 このように、音響処理装置は、視聴者やスピーカが移動させられる状況を学習することで、視聴者が所在しそうな位置に音声を最適化させたり、移動させられた後のスピーカの位置を推測して音声を補正したりといった、その場の状況に合わせた音場補正ができる。
(4.ハードウェア構成)
 上述してきた各実施形態に係る音響処理装置100等の情報機器は、例えば図18に示すような構成のコンピュータ1000によって実現される。以下、本開示に係る音響処理装置100を例に挙げて説明する。図18は、音響処理装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る音響処理プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が実施形態に係る音響処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた音響処理プログラムを実行することにより、制御部130等の機能を実現する。また、HDD1400には、本開示に係る音響処理プログラムや、記憶部120内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部と、
 前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する測定部と、
 前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部と、
 を備える音響処理装置。
(2)
 前記測定部は、
 前記空間に所在する複数のスピーカが発信もしくは受信する電波を利用して、前記音響処理装置および当該複数のスピーカの相対的な位置を測定することにより、当該空間に所在するスピーカの数および配置を測定する、
 前記(1)に記載の音響処理装置。
(3)
 前記測定部は、
 前記空間に所在する物体を検知する深度センサを用いて、前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つを測定する、
 前記(1)または(2)に記載の音響処理装置。
(4)
 前記測定部は、
 前記音響処理装置もしくは外部装置が備えるイメージセンサを用いて前記視聴者もしくは前記スピーカを画像認識することにより、前記空間に所在する視聴者もしくはスピーカの位置を測定する、
 前記(1)~(3)のいずれかに記載の音響処理装置。
(5)
 前記測定部は、
 前記視聴者が携帯する端末装置が発信もしくは受信する電波を利用して、前記空間に所在する視聴者の位置を測定する、
 前記(1)~(4)のいずれかに記載の音響処理装置。
(6)
 前記測定部は、
 当該空間の空間形状として、前記空間に所在するスピーカが備えた音声照射部から発せられた音の反射音に基づいて、当該空間の天井までの距離を測定する、
 前記(1)~(5)のいずれかに記載の音響処理装置。
(7)
 前記測定部は、
 前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を継続的に測定し、
 前記補正部は、
 前記測定部によって継続的に測定された情報を用いて、前記空間に所在するスピーカから発せられる前記コンテンツの音声を補正する、
 前記(1)~(6)のいずれかに記載の音響処理装置。
(8)
 前記取得部は、
 前記コンテンツに含まれるメタデータから、当該コンテンツに規定された推奨環境を取得する、
 前記(1)~(7)のいずれかに記載の音響処理装置。
(9)
 前記取得部は、
 前記視聴者の頭部伝達関数を取得し、
 前記補正部は、
 前記視聴者の近傍に配置される前記スピーカの音声を当該視聴者の頭部伝達関数に基づいて補正する、
 前記(1)~(8)のいずれかに記載の音響処理装置。
(10)
 前記測定部は、
 前記音響処理装置が備えるイメージセンサもしくは外部装置によって撮像される画像に基づいて地図情報を生成し、生成した地図情報に基づいて、前記音響処理装置の自己位置、前記視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つを測定する、
 前記(1)~(9)のいずれかに記載の音響処理装置。
(11)
 前記補正部は、
 前記測定部によって測定された情報を前記視聴者が利用する端末装置に提供するとともに、当該視聴者によって当該端末装置上で補正された前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つに基づいて、前記コンテンツの音声を補正する、
 前記(1)~(10)のいずれかに記載の音響処理装置。
(12)
 前記補正部は、
 前記補正部によって補正された前記コンテンツの音声に対して、前記視聴者によって行われた補正に基づいて、さらに前記コンテンツの音声を補正する、
 前記(1)~(11)のいずれかに記載の音響処理装置。
(13)
 前記補正部は、
 前記測定部によって測定された情報に基づいて学習された前記視聴者の行動パターンもしくは前記スピーカの配置パターンに基づいて、前記コンテンツの音声を補正する、
 請求項1に記載の音響処理装置。
 前記(1)~(12)のいずれかに記載の音響処理装置。
(14)
 コンピュータが、
 コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得し、
 前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定し、
 前記測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する、
 ことを含む音響処理方法。
(15)
 コンピュータを、
 コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部と、
 前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する測定部と、
 前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部と、
 として機能させるための音響処理プログラム。
(16)
 音響処理装置とスピーカとを含む音響処理システムであって、
 前記音響処理装置は、
 コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部と、
 前記空間に所在する視聴者の位置、前記スピーカの数と配置、および、空間形状を測定する測定部と、
 前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部と、を備え、
 前記スピーカは、
 前記空間の所定箇所に向けて音声信号を照射する音声照射部と、
 前記音声照射部によって照射された音声信号の反射音を観測する観測部と、を備え、
 前記測定部は、
 前記音声照射部によって音声信号が照射されたときから、前記観測部によって反射音が観測されるまでの時間に基づいて、前記空間形状を測定する、
 音響処理システム。
 1 音響処理システム
 10 仮スピーカ
 50 ユーザ
 100 音響処理装置
 110 通信部
 120 記憶部
 121 スピーカ情報記憶部
 122 測定結果記憶部
 130 制御部
 131 取得部
 132 測定部
 133 補正部
 140 センサ
 200 スピーカ

Claims (16)

  1.  コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部と、
     前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する測定部と、
     前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部と、
     を備える音響処理装置。
  2.  前記測定部は、
     前記空間に所在する複数のスピーカが発信もしくは受信する電波を利用して、前記音響処理装置および当該複数のスピーカの相対的な位置を測定することにより、当該空間に所在するスピーカの数および配置を測定する、
     請求項1に記載の音響処理装置。
  3.  前記測定部は、
     前記空間に所在する物体を検知する深度センサを用いて、前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つを測定する、
     請求項1に記載の音響処理装置。
  4.  前記測定部は、
     前記音響処理装置もしくは外部装置が備えるイメージセンサを用いて前記視聴者もしくは前記スピーカを画像認識することにより、前記空間に所在する視聴者もしくはスピーカの位置を測定する、
     請求項1に記載の音響処理装置。
  5.  前記測定部は、
     前記視聴者が携帯する端末装置が発信もしくは受信する電波を利用して、前記空間に所在する視聴者の位置を測定する、
     請求項1に記載の音響処理装置。
  6.  前記測定部は、
     当該空間の空間形状として、前記空間に所在するスピーカが備えた音声照射部から発せられた音の反射音に基づいて、当該空間の天井までの距離を測定する、
     請求項1に記載の音響処理装置。
  7.  前記測定部は、
     前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を継続的に測定し、
     前記補正部は、
     前記測定部によって継続的に測定された情報を用いて、前記空間に所在するスピーカから発せられる前記コンテンツの音声を補正する、
     請求項1に記載の音響処理装置。
  8.  前記取得部は、
     前記コンテンツに含まれるメタデータから、当該コンテンツに規定された推奨環境を取得する、
     請求項1に記載の音響処理装置。
  9.  前記取得部は、
     前記視聴者の頭部伝達関数を取得し、
     前記補正部は、
     前記視聴者の近傍に配置される前記スピーカの音声を当該視聴者の頭部伝達関数に基づいて補正する、
     請求項1に記載の音響処理装置。
  10.  前記測定部は、
     前記音響処理装置が備えるイメージセンサもしくは外部装置によって撮像される画像に基づいて地図情報を生成し、生成した地図情報に基づいて、前記音響処理装置の自己位置、前記視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つを測定する、
     請求項1に記載の音響処理装置。
  11.  前記補正部は、
     前記測定部によって測定された情報を前記視聴者が利用する端末装置に提供するとともに、当該視聴者によって当該端末装置上で補正された前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状の少なくとも一つに基づいて、前記コンテンツの音声を補正する、
     請求項1に記載の音響処理装置。
  12.  前記補正部は、
     前記補正部によって補正された前記コンテンツの音声に対して、前記視聴者によって行われた補正に基づいて、さらに前記コンテンツの音声を補正する、
     請求項1に記載の音響処理装置。
  13.  前記補正部は、
     前記測定部によって測定された情報に基づいて学習された前記視聴者の行動パターンもしくは前記スピーカの配置パターンに基づいて、前記コンテンツの音声を補正する、
     請求項1に記載の音響処理装置。
  14.  コンピュータが、
     コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得し、
     前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定し、
     前記測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する、
     ことを含む音響処理方法。
  15.  コンピュータを、
     コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部と、
     前記空間に所在する視聴者の位置、スピーカの数と配置、および、空間形状を測定する測定部と、
     前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部と、
     として機能させるための音響処理プログラム。
  16.  音響処理装置とスピーカとを含む音響処理システムであって、
     前記音響処理装置は、
     コンテンツが再生される空間におけるスピーカの理想的な配置を含む、コンテンツごとに規定された推奨環境を取得する取得部と、
     前記空間に所在する視聴者の位置、前記スピーカの数と配置、および、空間形状を測定する測定部と、
     前記測定部によって測定された情報に基づいて、前記視聴者の位置において観測される音声であって、当該空間に所在するスピーカから発せられる前記コンテンツの音声を、前記推奨環境における理想的に配置された仮想スピーカから発せられる音声に補正する補正部と、を備え、
     前記スピーカは、
     前記空間の所定箇所に向けて音声信号を照射する音声照射部と、
     前記音声照射部によって照射された音声信号の反射音を観測する観測部と、を備え、
     前記測定部は、
     前記音声照射部によって音声信号が照射されたときから、前記観測部によって反射音が観測されるまでの時間に基づいて、前記空間形状を測定する、
     音響処理システム。
PCT/JP2022/013689 2021-08-06 2022-03-23 音響処理装置、音響処理方法、音響処理プログラムおよび音響処理システム WO2023013154A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2023539636A JPWO2023013154A1 (ja) 2021-08-06 2022-03-23
KR1020247002548A KR20240039120A (ko) 2021-08-06 2022-03-23 음향 처리 장치, 음향 처리 방법, 음향 처리 프로그램 및 음향 처리 시스템
CN202280053165.8A CN117769845A (zh) 2021-08-06 2022-03-23 声学处理设备、声学处理方法、声学处理程序和声学处理系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-129716 2021-08-06
JP2021129716 2021-08-06

Publications (1)

Publication Number Publication Date
WO2023013154A1 true WO2023013154A1 (ja) 2023-02-09

Family

ID=85155631

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/013689 WO2023013154A1 (ja) 2021-08-06 2022-03-23 音響処理装置、音響処理方法、音響処理プログラムおよび音響処理システム

Country Status (4)

Country Link
JP (1) JPWO2023013154A1 (ja)
KR (1) KR20240039120A (ja)
CN (1) CN117769845A (ja)
WO (1) WO2023013154A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007068000A (ja) * 2005-09-01 2007-03-15 Toshio Saito 音場再生装置および音場再生装置用リモコン
JP2007142875A (ja) * 2005-11-18 2007-06-07 Sony Corp 音響特性補正装置
WO2017110882A1 (ja) * 2015-12-21 2017-06-29 シャープ株式会社 スピーカの配置位置提示装置
WO2021002191A1 (ja) * 2019-07-01 2021-01-07 ピクシーダストテクノロジーズ株式会社 オーディオコントローラ、オーディオシステム、プログラム、及び、複数の指向性スピーカの制御方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9749769B2 (en) 2014-07-30 2017-08-29 Sony Corporation Method, device and system
US10255032B2 (en) 2016-12-13 2019-04-09 EVA Automation, Inc. Wireless coordination of audio sources

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007068000A (ja) * 2005-09-01 2007-03-15 Toshio Saito 音場再生装置および音場再生装置用リモコン
JP2007142875A (ja) * 2005-11-18 2007-06-07 Sony Corp 音響特性補正装置
WO2017110882A1 (ja) * 2015-12-21 2017-06-29 シャープ株式会社 スピーカの配置位置提示装置
WO2021002191A1 (ja) * 2019-07-01 2021-01-07 ピクシーダストテクノロジーズ株式会社 オーディオコントローラ、オーディオシステム、プログラム、及び、複数の指向性スピーカの制御方法

Also Published As

Publication number Publication date
KR20240039120A (ko) 2024-03-26
JPWO2023013154A1 (ja) 2023-02-09
CN117769845A (zh) 2024-03-26

Similar Documents

Publication Publication Date Title
JP6987189B2 (ja) 音声ソースの無線調整
US11770671B2 (en) Spatial audio for interactive audio environments
JP6455686B2 (ja) 分散型無線スピーカシステム
WO2018149275A1 (zh) 调整音箱输出的音频的方法和装置
CN109791193B (zh) 环绕声系统中扬声器位置的自动发现和定位
US9955279B2 (en) Systems and methods of calibrating earphones
EP2926570B1 (en) Image generation for collaborative sound systems
US7123731B2 (en) System and method for optimization of three-dimensional audio
GB2543276A (en) Distributed audio capture and mixing
CN105325014A (zh) 基于用户跟踪的声场调节
AU2001239516A1 (en) System and method for optimization of three-dimensional audio
TWI596954B (zh) 自動調整向上揚聲器發聲方向的系統、音訊輸出裝置及其方法
US10299064B2 (en) Surround sound techniques for highly-directional speakers
US9826332B2 (en) Centralized wireless speaker system
WO2020189263A1 (ja) 音響処理装置、音響処理方法、および音響処理プログラム
WO2023013154A1 (ja) 音響処理装置、音響処理方法、音響処理プログラムおよび音響処理システム
KR102609084B1 (ko) 전자장치, 그 제어방법 및 기록매체
WO2023085186A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US20240089688A1 (en) Processing of audio data
WO2023025695A1 (en) Method of calculating an audio calibration profile
CN115280799A (zh) 利用不可见扬声器实现虚拟音效的系统和方法
CN116193196A (zh) 虚拟环绕声渲染方法、装置、设备及存储介质
KR20200020050A (ko) 스피커 장치 및 그 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22852583

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023539636

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 202280053165.8

Country of ref document: CN