WO2019244315A1 - 出力制御装置、出力制御システム、および出力制御方法 - Google Patents

出力制御装置、出力制御システム、および出力制御方法 Download PDF

Info

Publication number
WO2019244315A1
WO2019244315A1 PCT/JP2018/023705 JP2018023705W WO2019244315A1 WO 2019244315 A1 WO2019244315 A1 WO 2019244315A1 JP 2018023705 W JP2018023705 W JP 2018023705W WO 2019244315 A1 WO2019244315 A1 WO 2019244315A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
output
correction coefficient
output control
real object
Prior art date
Application number
PCT/JP2018/023705
Other languages
English (en)
French (fr)
Inventor
守央 宇佐美
真一 本多
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to US17/251,656 priority Critical patent/US11337024B2/en
Priority to PCT/JP2018/023705 priority patent/WO2019244315A1/ja
Publication of WO2019244315A1 publication Critical patent/WO2019244315A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • G06V10/147Details of sensors, e.g. sensor lenses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Definitions

  • the present invention relates to an output control device, an output control system, and an output control method for controlling the output of a substance propagating in space.
  • the sound perceived by the listener includes not only the direct sound from the speaker but also the reflected sound from the surface of a real object such as a surrounding wall or furniture. For this reason, depending on the listening environment, it is conceivable that the sound changes and the sound is heard or the presence is impaired.
  • FIG. 1 is a diagram for explaining changes in sound characteristics when reflection from a wall is considered.
  • the figure schematically shows a state in which the sound source 200 and the two walls 202a and 202b are overlooked. Even if the same sound is emitted from the sound source 200, the sound waveform at the sound receiving point 204 differs depending on the difference between the wall 202a and the wall 202b. Specifically, as the wall 202b is closer to the sound source 200 or the sound receiving point 204, the amplitude of the reflected sound is larger and the time difference from the direct sound is smaller.
  • the comfort perceived by the person in the space is the same as that of materials that propagate in the space, such as air emitted from the air conditioner and light generated from the lighting lamps. Can often be impaired. Also for these substances, it is not easy to measure the comfort by some method every time the state of the surrounding objects changes, and to adjust the output amount and output mode accordingly.
  • the present invention has been made in view of such a problem, and an object of the present invention is to provide a technique capable of maintaining a substance that propagates in a space such as sound in a good state even when a surrounding state changes. is there.
  • This output control device is an output control device that controls the output of sound, and represents a spatial information acquisition unit that acquires a position and a normal line of a real object in space based on a captured image, and represents a sound state at a predetermined position.
  • a correction coefficient obtaining unit that obtains a correction coefficient for adjusting a sound output based on the rate of change of the parameter due to reflection on the real object based on the position and the normal line based on the change rate, And an output unit for adjusting sound output using the coefficient.
  • the output control system includes an imaging device that captures an image of a space, and an output control device that controls output of sound.
  • the output control device is configured to determine a position and a normal of a real object in the space based on an image captured by the imaging device.
  • a spatial information acquisition unit that acquires the ratio of a change in the parameter representing the state of the sound at a predetermined position due to reflection on the real object, based on the position and the normal, and based on the ratio of the change, It is characterized by including a correction coefficient acquisition unit that acquires a correction coefficient for adjusting the output, and an output unit that adjusts the sound output using the correction coefficient.
  • This output control method is a step in which an output control device that controls the output of sound acquires a captured image by an imaging device, a step of acquiring the position and normal of a real object in space based on the captured image, A step of obtaining a correction coefficient for adjusting a sound output based on the rate of change of the parameter representing the state of the sound due to reflection on the real object based on the position and the normal line, and Adjusting the sound output using the correction coefficient and outputting the adjusted sound.
  • This output control device is an output control device that controls the output of a propagating substance that propagates in space, and a spatial information acquisition unit that acquires the position and normal of a real object in space based on a captured image, and at a predetermined position. Based on the position and the normal, the rate of change of the parameter representing the state of the propagating substance due to reflection on the real object is obtained, and based on the rate of change, a correction coefficient for adjusting the output of the propagating substance is obtained.
  • a correction coefficient acquisition unit and an output unit that adjusts the output of the propagation material using the correction coefficient.
  • the “propagating substance” is not limited in type as long as it is a substance that propagates in space, such as sound, air, light, smoke, fragrance, and liquid, and may be “fluid”. Therefore, the “output control device” may be any of a device that generates any of these substances in space, a device connected to the device, a device built in the device, and the like. For example, it may be incorporated in, or connected to, a music reproducing device, a moving image reproducing device, an amplifier, a speaker, an air conditioner, a blower, a lighting device, a smoke generating device, an aroma diffuser, a chiller, or the like.
  • the “parameter representing the state” and the “output” to be adjusted may also vary depending on the propagation material and the control mechanism.
  • the “parameter” may be any of energy, volume, illuminance, flow rate, flow velocity, pressure, and the like of the propagation material.
  • “Output” may be any of signal level, voltage, current, pressure, flow rate, discharge amount, and the like.
  • the substance propagating in the space can be kept in a good state.
  • FIG. 1 is a diagram illustrating a configuration example of a sound control system according to the present embodiment.
  • FIG. 2 is a diagram illustrating an internal circuit configuration of an output control device according to the present embodiment.
  • FIG. 2 is a diagram illustrating a configuration of a functional block of an output control device according to the present embodiment.
  • FIG. 2 is a diagram illustrating a configuration example of an imaging element that can be introduced into the imaging device of the present embodiment.
  • FIG. 6 is a diagram comparing the change in the degree of polarization with respect to the incident angle between light reflected specularly and light reflected diffusely.
  • FIG. 1 is a diagram illustrating a configuration example of a sound control system according to the present embodiment.
  • FIG. 2 is a diagram illustrating an internal circuit configuration of an output control device according to the present embodiment.
  • FIG. 2 is a diagram illustrating a configuration of a functional block of an output control device according to the present embodiment.
  • FIG. 2 is a diagram illustrating a configuration example of an imaging
  • FIG. 4 is a diagram schematically illustrating how sound propagates when sound from left and right speakers is reflected by a uniform surface in the present embodiment.
  • FIG. 8 is a diagram schematically illustrating how sound propagates when the inclination of the reflection surface changes from the state of FIG. 7.
  • 5 is a flowchart illustrating a processing procedure in which the output control device according to the present embodiment controls sound according to the state of a real object.
  • the type of the control target is not limited as long as it is a substance that propagates in space such as sound, air, and light.
  • an output control device and an output control system for controlling an acoustic output will be described.
  • FIG. 2 shows a configuration example of the output control system according to the present embodiment.
  • the output control system includes an imaging device 12 for photographing a space including the listener 6 and the furniture 8, an output control device 10 for controlling sound output, and speakers 16a and 16b for outputting sound.
  • the output control system may further include an input device that receives an operation on the output control device 10 from a user.
  • the output control device 10 may further be capable of communicating with an external device such as a server by connecting to a network such as the Internet.
  • the output control device 10, the imaging device 12, and the speakers 16a and 16b may be connected by a wired cable, or may be wirelessly connected by a wireless LAN (Local Area Network) or the like. Further, the output control device 10 and the imaging device 12, or the imaging device 12 and the speakers 16a and 16b may be combined to form an integrated device. In any case, the external shapes of the output control device 10, the imaging device 12, and the speakers 16a and 16b are not limited to those illustrated. The number of speakers is not limited to two.
  • the imaging device 12 captures an image of the listening space including the listener 6 and the furniture 8.
  • Furniture 8 is merely an example of a real object existing in a space, and is not essential to the present embodiment.
  • the shape, size, position, posture, and the like are not limited, and may be a wall or ceiling of a room, or a tree or an outer wall of a building if outdoors.
  • the number of listeners 6 is not limited to one.
  • the output control device 10 reproduces audio data such as music selected by the listener 6 and outputs the audio data from the speakers 16a and 16b. At this time, the output control device 10 specifies the position and orientation of the real object existing in the space such as the furniture 8 in addition to the listener 8 using the image captured by the imaging device 12. Then, the volume of the speakers 16a and 16b is adjusted in consideration of the reflected sound on the surface of the real object.
  • the sound reaching the listener 6 from the left and right speakers 16a and 16b includes the direct sound Sb only, while the former includes the direct sound Sa and the reflected sound Sa ′ from the furniture 8. If the left and right sounds should be heard at the same volume, the volume of the speaker 16a should be lowered or the volume of the speaker 16b should be raised. Therefore, for example, the output control device 10 sets the speaker 16a or the speaker 16b by estimating the increase rate of the volume recognized by the listener 6 of the sound Sa + Sa ′ including the reflected sound on the basis of only the direct sound Sa. Adjust the volume.
  • the reference is not limited to the case of only the direct sound, but may be a sound including a reflected sound from a wall or the like in a standard environment without the furniture 8 or the like.
  • the set sound volume is adjusted based on the rate of increase or decrease of the sound volume due to the change in the number, position, and attitude of the real object from the reference state, so that the sound can be heard similarly regardless of such a change.
  • the output control device 10 may have a function of processing various contents such as an electronic game and a moving image, in addition to controlling the sound to be output. Alternatively, the output control device 10 may be a part of a device that performs such various types of information processing.
  • the type of “sound” to be controlled by the output control device 10 is not limited as long as it is a sound such as music, sound effects, and voices of humans and animals.
  • the output control system may include a display device for displaying an image of the content.
  • the image captured by the imaging device 12 may be used to generate such a display image.
  • the speakers 16a and 16b output the audio electric signal output from the output control device 10 as a sound wave.
  • the speakers 16a and 16b may be general speakers such as an active speaker having an amplifier for amplifying an electric signal or a passive speaker without an amplifier.
  • FIG. 3 shows an internal circuit configuration of the output control device 10.
  • the output control device 10 includes a CPU (Central Processing Unit) 22, a GPU (Graphics Processing Unit) 24, and a main memory 26. These components are interconnected via a bus 28.
  • An input / output interface 30 is further connected to the bus 28.
  • the input / output interface 30 transmits data to a peripheral device interface such as USB or IEEE1394, a communication unit 32 including a wired or wireless LAN network interface, a storage unit 34 such as a hard disk drive or a nonvolatile memory, and a display device (not shown).
  • An audio processing unit 42 for processing an audio signal is connected.
  • the CPU 22 controls the entire output control device 10 by executing the operating system stored in the storage unit 34.
  • the CPU 22 executes various programs read from the removable recording medium and loaded into the main memory 26 or downloaded via the communication unit 32.
  • the GPU 24 performs various image processing according to a request from the CPU 22.
  • the main memory 26 is constituted by a RAM (Random Access Memory) and stores programs and data necessary for processing.
  • the sound processing unit 42 generates a sound electric signal in accordance with a request from the CPU 22, and outputs the signal to the speakers 16a and 16b.
  • FIG. 4 shows the configuration of functional blocks of the output control device 10.
  • Each of the functional blocks shown in FIG. 4 can be realized in terms of hardware by the configuration of the CPU, GPU, various types of memory, data bus, and the like shown in FIG. 3, and in terms of software, loaded into a memory from a recording medium. It is realized by a program that performs various functions such as a data input function, a data holding function, an arithmetic function, an image processing function, and a sound processing function. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by only hardware, only software, or a combination thereof, and the present invention is not limited to any of them.
  • the output control device 10 includes a captured image acquisition unit 50 that acquires data of a captured image from the imaging device 12, a spatial information acquisition unit 54 that acquires information of a real object such as a listener or furniture using the captured image, And an audio data storage unit 58 for storing audio data to be reproduced, and an output unit 60 for outputting audio electric signals to the speakers 16a and 16b.
  • the captured image acquisition unit 50 is realized by the input unit 38, the CPU 22, and the like in FIG. 3 and acquires data of a captured image from the imaging device 12.
  • the reflected sound on the surface of the real object is considered in order to optimize the sound reaching the listener 8.
  • the captured image acquisition unit 50 acquires a captured image from which the position and orientation of the real object can be acquired.
  • a polarization camera is used as the imaging device 12 to obtain polarized images in a plurality of directions, a normal to the subject surface can be obtained.
  • an imaging device 12 having a structure in which a polarizer layer is provided above a general element structure such as a CMOS image sensor can be used.
  • a polarizing plate capable of changing the principal axis angle may be provided on the front surface of the lens of a general natural light camera prepared as the imaging device 12.
  • the imaging device 12 is a multi-lens camera and the captured image acquisition unit 50 acquires data of images captured from different viewpoints, the position of the subject in a three-dimensional space can be obtained.
  • at least one of the multi-lens cameras may be used as a polarization camera to acquire captured images from multiple viewpoints including a polarization image.
  • the data of the images captured from a plurality of viewpoints may be sequentially acquired while moving one polarization camera prepared as the imaging device 12.
  • a sensor system that irradiates a space with reference light such as infrared light and detects the reflected light may be introduced.
  • the captured image acquisition unit 50 may acquire data of a depth image obtained inside the imaging device 12 and representing the distance to the subject on an image plane.
  • a method of detecting the distance to the subject based on the time from the irradiation of the reference light to the detection of the reflected light is known as TOF (Time @ Of @ Flight).
  • the space information acquisition unit 54 is realized by the CPU 22, the GPU 24, and the like, and acquires information on a real object existing in space using data of a captured image. More specifically, the spatial information obtaining unit 54 includes a normal obtaining unit 64 that obtains a normal of the surface of the real object, a position obtaining unit 66 that obtains a position of the real object in a three-dimensional space, and a sound absorption of a sound of the real object. Includes a sound absorption coefficient acquisition unit 68 for acquiring a coefficient.
  • the normal line obtaining unit 64 obtains a normal line using the polarized images in a plurality of directions as described above. It is generally known to use the fact that the behavior of the polarization intensity with respect to the azimuth depends on the angle of reflection of light from the subject, and to determine the normal to the subject surface based on the change in the brightness of the polarized image with respect to the change in the angle of the polarizer. Has been.
  • the position acquisition unit 66 obtains the distance from the imaging surface to the real object using stereo images taken from two viewpoints with known distances, and converts the distance into position coordinates in a three-dimensional space. Get the position of the surface.
  • a method of calculating the distance to an object based on the principle of triangulation based on the parallax of the image of the same object in a stereo image is also generally known.
  • a polarization image captured from a plurality of viewpoints can be acquired, the same normal is obtained in each camera coordinate system by the normal acquisition unit 64. Therefore, based on the positional relationship between the viewpoints, the actual The distance to the body surface can be obtained.
  • a multi-view camera may be used for photographing from a plurality of viewpoints, or a single camera capable of moving the viewpoint may be used.
  • the position acquisition unit 66 can obtain position coordinates in a three-dimensional space by coordinate conversion using the depth image acquired by the captured image acquisition unit 50.
  • the normal obtaining unit 64 may obtain the normal based on the distribution of the position of the object surface obtained by the position obtaining unit 66.
  • the position obtaining unit 66 may interpolate the distance to the real object obtained discretely using the normal distribution obtained by the normal obtaining unit 64.
  • the normal line obtaining unit 64 and the position obtaining unit 66 may mutually use information obtained from each other. In any case, the position and orientation of the real object in the three-dimensional space are obtained by the functions of the normal line obtaining unit 64 and the position obtaining unit 66.
  • the type of information used as the basis is not limited as long as the sound absorption coefficient acquisition unit 68 can finally estimate the sound absorption coefficient of the real object.
  • materials such as metal, wood, plastic, and cloth are estimated based on the color, luminance, degree of polarization, and the like in the captured image, and the sound absorption coefficient of those materials is specified.
  • a technique for estimating a material from a ratio of a reflection component such as diffuse reflection or specular reflection using a polarization image has been conventionally studied.
  • the analysis result when analyzing a polarization image to obtain a normal to the surface of a real object, the analysis result can be used for material estimation.
  • the sound absorption coefficient acquisition unit 68 internally stores a database in which, for each material assumed as a real object, parameters such as a color and a degree of polarization obtained from the photographed image and sound absorption coefficients, and a separately obtained parameter. The sound absorption coefficient is obtained based on the value of.
  • the sound absorption coefficient acquisition unit 68 may acquire the sound absorption coefficient from information other than the captured image.
  • the image of the real object specified by the normal line obtaining unit 64 or the position obtaining unit 66 may be displayed on a display device (not shown) so that the listener can input the material.
  • the sound absorption coefficient is acquired by referring to the database. Note that a default value may be used as the sound absorption coefficient, in which case the processing of the sound absorption coefficient acquisition unit 68 can be omitted.
  • the correction coefficient acquisition unit 56 is implemented by the CPU 22, the main memory 26, and the like, calculates the energy or sound pressure of the sound reaching the listener, including the reflected sound, based on the position and orientation of the surface of the real object, and calculates each of the speakers 16a and 16b.
  • the correction coefficient of the audio signal to be output to is determined. As described with reference to FIG. 2, qualitatively, when the reflected sound reaches a-fold energy due to the reflected sound, the correction coefficient for the signal level is determined to be 1 / a. The determined correction coefficient is notified to the output unit 60.
  • the correction coefficient may be determined for each speaker from the viewpoint of balance as described above. For example, when the sound from a certain speaker has a-times energy due to the reflected sound, it is conceivable to balance the sound by making the sound from other speakers a-times as well. If this is generalized, and the sound from each speaker has energy twice as large as a, b, c,..., Correction of each speaker is performed by setting the least common multiple of a, b, c,.
  • the coefficients may be T / a, T / b, T / c,...
  • the output unit 60 is realized by the sound processing unit 42, reproduces data determined by a user operation or the like among the audio data stored in the audio data storage unit 58, and outputs the electric signal to the speakers 16a and 16b.
  • the output unit 60 internally holds the correction coefficient 62 determined by the correction coefficient acquisition unit 56, and adjusts the signal level output to each of the speakers 16a and 16b by multiplying it.
  • the correction coefficient acquisition unit 56 acquires the correction coefficient, the output unit 60 can maintain an appropriate state thereafter by using the correction coefficient.
  • the correction coefficient acquisition unit 56 may perform processing at predetermined time intervals, for example, to update the correction coefficients.
  • the output unit 60 uses the correction coefficient that is updated as needed to adjust the signal level, so that, for example, even if a state change occurs in the real space in the middle of the music, a change in how the sound is heard can be suppressed.
  • the function of adjusting the signal level using the correction coefficient may be provided in the speakers 16a and 16b.
  • the output unit 60 outputs the audio electric signal and the correction coefficient to each of the speakers 16a and 16b.
  • the signal level that is, the volume may be adjusted by the user using an input device (not shown). Regardless of whether the operation is performed by a user or automatically adjusted in consideration of a reflected sound, a circuit configuration mounted on a general audio device can be applied to the volume adjustment, and thus a specific description is omitted.
  • the audio data to be processed by the output unit 60 is not limited to the audio data stored in the audio data storage unit 58, and may be stream data acquired from a server via a network.
  • FIG. 5 shows an example of the structure of an imaging device that can be introduced into the imaging device 12 of the present embodiment.
  • FIG. 1 schematically shows the functional structure of the element cross section, and detailed structures such as an interlayer insulating film and wiring are omitted.
  • the imaging device 110 includes a microlens layer 112, a wire grid polarizer layer 114, a color filter layer 116, and a light detection layer 118.
  • the wire grid type polarizer layer 114 includes a polarizer in which a plurality of linear conductor members are arranged in a stripe pattern at intervals smaller than the wavelength of incident light. When the light condensed by the microlens layer 112 is incident on the wire grid polarizer layer 114, the polarization component in the direction parallel to the polarizer line is reflected, and only the vertical polarization component is transmitted.
  • the light detection layer 118 has a semiconductor device structure such as a general CCD (Charge Coupled Device) image sensor or a CMOS (Complementary Metal Oxide Semiconductor) image sensor.
  • the wire grid polarizer layer 114 includes an arrangement of polarizers in which the principal axis angle differs in units of reading electric charges in the light detection layer 118, that is, in units of pixels or larger units. On the right side of the figure, the polarizer array 120 when the wire grid polarizer layer 114 is viewed from above is illustrated.
  • polarizers having four main axis angles are arranged in four regions 122a, 122b, 122c, and 122d in two rows and two columns.
  • polarizers on diagonal lines have their principal axis angles orthogonal to each other, and adjacent polarizers have a difference of 45 °. That is, polarizers having four main axis angles of 45 ° are provided.
  • Each polarizer transmits a polarized light component in a direction orthogonal to the direction of the wire.
  • polarization information in four directions at 45 ° intervals can be obtained in each region corresponding to the four regions 122a, 122b, 122c, and 122d.
  • a predetermined number of such polarizer arrays having four main axis angles are further arrayed in the vertical and horizontal directions, and peripheral circuits for controlling the timing of charge reading are connected, so that the four types of polarization information are converted into two-dimensional data. It is possible to realize an image sensor that simultaneously acquires images.
  • a color filter layer 116 is provided between the wire grid polarizer layer 114 and the light detection layer 118.
  • the color filter layer 116 includes, for example, an array of filters that transmit red, green, and blue light, respectively, corresponding to each pixel. Accordingly, polarization information can be obtained for each color according to the combination of the principal axis angle of the polarizer in the wire grid polarizer layer 114 located above and below and the color of the filter in the color filter layer 116. That is, since polarization information of the same direction and the same color is discretely obtained on the image plane, a polarization image of each direction and each color can be obtained by appropriately interpolating the polarization information.
  • a non-polarized color image By calculating polarized images of the same color, a non-polarized color image can be reproduced.
  • An image acquisition technique using a wire grid polarizer is also disclosed in, for example, JP-A-2012-80065.
  • the element structure of the imaging device 12 in the present embodiment is not limited to the illustrated one.
  • the color filter layer 116 can be omitted if a color image is not needed for other purposes.
  • the polarizer is not limited to the wire grid type, and may be any of practically used polarizers such as a linear dichroic polarizer.
  • the luminance of light observed through the polarizer changes with respect to the principal axis angle ⁇ pol of the polarizer as in the following equation.
  • I max and I min are the maximum and minimum values of the observed luminance, respectively, and ⁇ is the polarization phase. If to shaft angle theta pol four types as described above were obtained polarization image, the brightness I of pixels at the same position will satisfy the formula 1 for each spindle angle theta pol. Therefore, I max , I min , and ⁇ can be obtained by approximating a curve passing through the coordinates (I, ⁇ pol ) to a cosine function using the least square method or the like. Using I max and I min thus obtained, the degree of polarization ⁇ is obtained by the following equation.
  • the normal to the surface of the object can be represented by an azimuth angle ⁇ representing the angle of the light incident surface (in the case of diffuse reflection, an emission surface) and a zenith angle ⁇ representing the angle on the surface.
  • the spectrum of the reflected light is represented by a linear sum of the spectra of the specular reflection and the diffuse reflection.
  • the specular reflection is light that is specularly reflected on the surface of the object
  • the diffuse reflection is light that is scattered by pigment particles forming the object.
  • the above azimuth angle ⁇ is a principal axis angle that gives the minimum luminance I min in Equation 1 for specular reflection, and a principal axis angle that gives the maximum luminance I max in Equation 1 for diffuse reflection.
  • the zenith angle ⁇ has the following relationship with the degree of polarization ⁇ s for specular reflection and the degree of polarization ⁇ d for diffuse reflection.
  • n is the refractive index of the object.
  • the zenith angle ⁇ can be obtained by substituting the degree of polarization ⁇ obtained by Equation 2 into either ⁇ s or ⁇ d of Equation 3. With the azimuth angle ⁇ and the zenith angle ⁇ thus obtained, the normal vector (p x , py , p z ) is obtained as follows.
  • the normal vector of the object shown in the pixel is obtained from the relationship between the luminance I represented by each pixel of the polarization image and the principal axis angle ⁇ pol of the polarizer, and the normal vector distribution can be obtained as the entire image.
  • the observed light includes the specular reflection component and the diffuse reflection component, and the calculation method of the normal vector differs depending on the component. Therefore, preferably, an appropriate model is selected from specular reflection and diffuse reflection using the information on the material acquired by the sound absorption coefficient acquisition unit 68.
  • a model to be applied may be selected using or the degree of polarization ⁇ .
  • FIG. 6 compares the change in the degree of polarization with respect to the angle of incidence between specularly reflected light and diffusely reflected light.
  • the refractive index n of the object to be reflected is assumed to be 1.4 and 1.6.
  • the specular reflection light shown in (a) has a remarkably large degree of polarization over most of the incident angle range. That is, an image of a subject made of a material in which specular reflection becomes dominant has a high possibility of appearing with a high degree of polarization.
  • a normal vector is obtained by applying the model assuming specular reflection.
  • the sound absorption coefficient acquisition unit 68 may specify the material by solving an inverse problem of a rendering equation generally used in computer graphics drawing.
  • the material of the real object may be specified from the viewpoint of how the light from the light source should be reflected on the object surface in order to obtain the luminance observed as the captured image.
  • the sound absorption coefficient acquisition unit 68 derives the reflection characteristics on the surface of the real object based on the positional relationship of the real object and the luminance represented by each pixel of the captured image, and specifies a material from which such reflection characteristics can be obtained.
  • the brightness distribution of the reflected light from the object surface is calculated by arranging an object for which reflection characteristics are set in the world coordinate system and setting the light source and the camera coordinate system. At this time, the luminance L (r, ⁇ ) of light emitted in the direction ⁇ at the point r on the object surface is determined by the following rendering equation.
  • Le (r, ⁇ ) is the luminance of light emitted from the object itself at the point r.
  • f r (r, ⁇ , ⁇ i) are bi-directional reflectance distribution function representing the reflection characteristic of the light at point r: a (BRDF Bidirectional reflection distribution function), the luminance L i of the incident light in the incident direction omega i It represents the ratio of the luminance L (r, ⁇ ) of the reflected light in the direction ⁇ to (r, ⁇ i ). This function depends on the material.
  • is the angle between the direction of the normal to the object surface at point r and the light reflection direction ⁇
  • S i is the range of the light incident direction ⁇ i at point r.
  • the luminance L (r, ⁇ ), and thus the luminance of the image on the captured image representing the point r, is determined by the positional relationship between the normal at the point r, the light source and the imaging surface, and the material of the object.
  • any parameter included in the right side can be obtained.
  • This method is called inverse rendering as the inverse problem of graphics rendering. Since the function fr is actually a four-dimensional function including the azimuth angle and the zenith angle of the incident light and the reflected light even if the material of the object is uniform, various models are necessary to express the function simply. Proposed. (For example, "Inverse Rendering: Restoring Optical Information from Images", Yoichi Sato, http://www.mtl.tu-tokyo.ac.jp/ ⁇ katsu-t/ssii05-ysato.pdf).
  • a material model in which a material assumed as a real object is associated with a function fr or data (reflection characteristics) obtained by approximating the function fr with a predetermined model is generated in advance. Store it internally. By taking advance objects of different materials, it may acquire the alternate parameter of the function f r as the actual value data of the reflection characteristic for each material.
  • the sound absorption coefficient obtaining unit 68 obtains the reflection characteristic by solving Equation 5 in reverse from the information obtained by the normal line obtaining unit 64 and the position obtaining unit 66 and the brightness value of the image in the captured image, and uses the index as an index to obtain a material model. See At this time, the position of the light source may be assumed or may be estimated from a captured image.
  • the most suitable material as the material of the real object that is the source of the image.
  • an appropriate model is selected according to the environment of the actually assumed subject space, the processing performance of the output control device 10, and the like. I do. If the object for specifying the material is other than the light-emitting body, the first term on the right side of Equation 5 can be omitted.
  • those images when acquiring polarized images in four directions to acquire the normal of the real object, those images may be used for inverse rendering. That is, as described above, actual images of the reflection characteristics are acquired for each material and each polarization direction by previously capturing polarized images of objects of various materials. Then, from the values of the luminance of the polarized light in the four directions, the corresponding reflection characteristics are obtained by Expression 5, and the material most suitable for the four reflection characteristics is selected.
  • a material having the shortest distance in a four-dimensional space constituted by the reflection characteristics is selected.
  • the polarization luminance may be obtained for each direction by Equation 5 using the four reflection characteristics associated with the material, and the material closest to the actual polarization image may be selected.
  • the material can be obtained with higher accuracy from the viewpoint of the ratio of the polarized light component.
  • a material other than the model represented by Expression 5 may be applied to estimate the material based on the same principle.
  • the ratio between the diffuse reflection component and the specular reflection component included in the reflected light is stored in association with a candidate material.
  • the spectrum of the reflected light is a linear sum of the reflected components, assuming the ratio of the reflected component of each material candidate, the polarization with respect to the azimuth based on the position of the light source, the subject, and the position and orientation of the imaging surface. Get the change in brightness. The result may be compared with the change in the polarization luminance obtained from Equation 1 using the actual polarization image, and the material having the smallest difference may be specified as the true material.
  • FIG. 7 schematically shows the sound propagation when the sounds from the left and right speakers 16a and 16b are reflected on a uniform surface. For example, this is the case where a wall 132 having a large area exists behind the listener 130. In the figure, such a space is represented by an overhead view. Even if other walls or real objects are present, if the effect of the reflected sound is negligible and the sound absorption rate is high, the correction coefficient acquisition unit 56 compares it with each threshold value. In this case, it may be excluded from the calculation of the reflected sound.
  • speakers 16a and 16b are arranged on the left and right in front of the listener 130.
  • the imaging device 12 the listener 130, speakers 16a, 16b, and by taking an image of the wall 132 enters the field of view, the positional relationship in their 3-dimensional space, and normal n a wall 132, the n b Prove.
  • all positional relationships can be specified based on the viewpoint of the imaging device 12, so that only the listener 130 and the wall 132 need to be imaged. Examples of such a case include a case where the imaging device 12 and the speakers 16a and 16b are fixed at a known interval, and a case where a device in which these are integrally provided is introduced.
  • the listener 130 receives not only the direct sound from the speakers 16a and 16b, but also the reflected sound from the wall 132. That is, in the illustrated example, the mirror image sound sources 136a and 136b are generated by the wall 132, so that there are substantially four sound sources.
  • the energy R of the sound arriving at the listener 130 becomes the energy Si of each sound ray (i is 1 ⁇ i ⁇ N). (Natural number) can be expressed as follows.
  • Equation 6 it is understood that the energy of the sound reaching the listener 130 greatly changes depending on the presence or absence of a reflector such as the wall 132. Therefore, if the case where the wall 132 is so far away that its reflected sound can be ignored is taken as the “reference state”, the correction coefficient K in the state shown in the figure is calculated, for example, as follows.
  • S 1 and S 2 are the energies of the direct sounds from the speakers 16a and 16b
  • S 3 and S 4 are the energies of the reflected sounds.
  • the attenuation rate of the energy of the sound before reaching the listener 130 for the direct sound and the reflected sound is proportional to the distance from the sound source.
  • the reflected sound is further proportional to the sound absorption coefficient at the reflecting surface.
  • FIG. 8 schematically shows how sound propagates when the inclination of the reflection surface changes from the state shown in FIG. For example, this corresponds to a case where furniture is arranged diagonally in front of the wall 132.
  • the incident angle ⁇ 2 of the reflected sound becomes larger than the incident angle ⁇ 1 in the state of FIG. .
  • the distance r b from the mirror image sound source 142a to the listener 130 shorter than r a as follows. r b ⁇ D / sin ( ⁇ 2 ) ⁇ r a
  • the angle of incidence decreases, the distance from the mirror image sound source to the listener 130 increases.
  • the attenuation rate of sound energy is proportional to the distance from the sound source. Therefore, in the case of FIG. 8, the sound from the speaker 16a is heard louder than in FIG. Further, the attenuation rate is also proportional to the sound absorption coefficient of the reflection surface 140. That is, if the energy at the sound source is A, the distance from the mirror image sound source to the listener 130 is r, the sound absorption coefficient on the reflecting surface is ⁇ , and the incident angle on the reflecting surface is ⁇ , the energy S r of the reflected sound is as follows: Can be expressed.
  • the reflectance ⁇ is strictly dependent on the incident angle ⁇ of the reflected sound. Therefore, by preparing the characteristics as a function from the material of the reflection surface, ⁇ may be strictly derived based on the incident angle ⁇ .
  • the incident angle ⁇ of the reflected sound is known because the positional relationship between the normal line of the real object and the speaker and the listener is known. As a result, the energy of the sound reaching the listener can be obtained as a ratio to the energy A at the sound source.
  • a correction coefficient can be obtained by a similar calculation at a concert hall or the like.
  • the calculation as illustrated in each section may be performed by setting the receiving vertices one by one by dividing the seats and speakers into a plurality of ranges.
  • FIG. 9 is a flowchart illustrating a processing procedure in which the output control device 10 according to the present embodiment controls sound according to the state of a real object. This flowchart is started after the imaging device 12 captures an image of the listening space or during a period in which capturing is performed at a predetermined rate. Typically, as described above, since the listener also exists in the subject space, the sound arriving at that position is calculated and used for adjustment, but in some cases, the listening point is virtually set in a space where there is no listener. May be set.
  • ⁇ Circle around (4) ⁇ Data about the position and orientation of the real object in the “reference state” in which the sound is not corrected or the default value is used as the correction coefficient is stored in the correction coefficient acquisition unit 56. For example, a case where only the direct sound reaches the listener is set as a reference state, and the correction coefficient is set to 1. Alternatively, the default value of the correction coefficient is derived using the state of the real space at the start of using the output control device 10 as a reference state. These correction coefficients are recorded as initial values of the correction coefficient 62 in the output unit 60.
  • the photographed image acquiring unit 50 acquires data of a photographed image such as a polarized image in a plurality of directions from the imaging device 12 (S10).
  • the spatial information acquisition unit 54 acquires the position of the real object such as furniture or the listener, the normal vector of the surface, and the sound absorption coefficient using the captured image as described above (S12).
  • the listener is not considered as the reflection surface, the acquisition of the normal and the sound absorption coefficient can be omitted.
  • the positions of the speakers 16a and 16b may be obtained in the same manner from the captured image, or the positional relationship with the imaging device 12 may be obtained in advance.
  • the correction coefficient acquisition unit 56 checks whether or not the reflection surface has changed from the “reference state” (S14). When the case where there is no reflective surface is set as the reference state, the occurrence of the reflective surface is detected as a change. If the reference state includes a reflecting surface, a change in the position or orientation of the same reflecting surface or the occurrence of another reflecting surface is detected as a change. When there is a change in the reflection surface (Y in S14), the correction coefficient acquisition unit 56 calculates the energy of the sound reaching the listener in consideration of the reflected sound, and updates the correction coefficient 62 (S16).
  • the correction coefficient is left as it is (N in S14).
  • the confirmation in S14 is performed for all the speakers 16a and 16b, and the correction coefficient is updated for each speaker as needed (N in S18, S14, S16).
  • N in S18, S14, S16 the effect of the sound from the speaker 160 b distant therefrom may be ignored. Therefore, the confirmation in S14 is performed for each speaker in consideration of such an influence range. Therefore, for example, a threshold value is provided for the distance from the speaker, and only a change in the reflection surface within that range is detected.
  • the output unit 60 reproduces the audio signal, adjusts the signal level using the set correction coefficient 62, and adjusts the speaker 16a. , 16b (S20).
  • the processing from S10 to S18 may be performed only once as the initial processing, and when sound is generated at another timing, only the processing in S20 may be performed. Alternatively, by performing the processing from S10 to S18 at a predetermined rate, for example, even in the middle of a song or a moving image, adjustment may be made so as to correspond to a change in space as needed.
  • the position and the normal of the surrounding real object are acquired, and the audio signal is adjusted in consideration of the reflected sound. That is, a change in how to hear due to a change in the real space from the reference state is obtained from the configuration of the space, and the signal level is corrected in a direction to suppress the change.
  • the reference state is, for example, a state assumed in sound field optimization.
  • a correction coefficient can be set for each speaker.
  • advanced adjustments such as optimizing the balance as a whole by independently controlling each of the speakers regardless of the number of speakers.
  • the position and the normal line of the real object are obtained by using a captured image of a polarization camera or the like. Thus, even if the real object moves or changes its posture during operation, it can be immediately reflected in the acoustic adjustment.
  • the material of the real object can be estimated together with the normal line, so that accurate adjustment considering the sound absorption coefficient can be efficiently performed. Furthermore, since the information on the incident angle of the reflected sound that is derived can be used for strictly specifying the sound absorption coefficient, the accuracy of the adjustment can be efficiently improved.
  • the case where the control target is sound is mainly described, but as described above, air, light, smoke, scent, liquid, and the like propagate in a space, and the presence and posture of a real object in the space.
  • the same can be applied to any substance in which the direction and intensity of propagation change according to the change in That is, the position and orientation of the real object are recognized by photographing the space, and the energy and the supply amount of these substances at the supply source are adjusted by calculating the influence of the reflection there.
  • the substance is discharged outside the space, the amount of suction at the time of discharge may be adjusted.
  • only local effects such as a listener may be calculated and adjusted, or effects may be calculated at a plurality of locations dispersed in space and adjusted based on a distribution such as equalization. You may.
  • the propagation of sound energy is calculated using a relatively simple model in order to immediately optimize the signal level.
  • a strict calculation using a fluid model or the like may be performed.
  • a strict calculation is performed in advance for a plurality of patterns of the position and orientation of the assumed real object, and in operation, the correction coefficient is determined by referring to a calculation result close to the actual situation obtained from the captured image. May be acquired.
  • the normal and the position of the real object can be accurately acquired, if applied to the technology of reflecting and listening to the sound from the directional speaker as described in Patent Literature 1, The optimum reflection position can be determined accurately. In this case, instead of adjusting the signal level, the direction of the directional speaker is adjusted.
  • the present invention is applicable to various output control devices such as an audio control device, an audio device, a content reproduction device, an air conditioner, and a lighting control device, and a system including any of them.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Vascular Medicine (AREA)
  • Stereophonic System (AREA)

Abstract

出力制御装置10の撮影画像取得部50は、撮像装置12から偏光画像などの撮影画像を取得する。空間情報取得部54は、空間における実物体表面の法線、位置、および表面での吸音率を取得する。補正係数取得部56は、受聴者へ到達する音のエネルギーを、実物体における反射音を含めて計算し、それに基づき音声信号のレベルに与える補正係数を取得する。出力部60は補正係数62を用いて音声信号を調整したうえスピーカー16a、16bに出力する。

Description

出力制御装置、出力制御システム、および出力制御方法
 本発明は、空間を伝搬する物質の出力を制御する出力制御装置、出力制御システム、および出力制御方法に関する。
 近年、音響技術の進歩により、多チャンネルで記録された音楽や動画の音声などを複数のスピーカーを用いて再生することで臨場感を与えるサラウンドシステムが普及している。また、指向性を有する音を室内の面に反射させることにより、当該面から音が発生しているように感じさせ、ゲームや仮想現実などコンテンツの臨場感を高める技術も提案されている(例えば特許文献1参照)。
WO 2016/084736 A1公報
 臨場感のある高品質な音を聴かせるため一般には、スピーカーの個数や配置、各スピーカーでの音量や周波数帯のバランスなどに様々な工夫が施される。一方、受聴者が感じる音にはスピーカーからの直接音に加え、周囲にある壁や家具など実物体表面での反射音も含まれる。このため受聴環境によっては、音が変化して聴こえたり臨場感が損なわれてしまったりすることが考えられる。
 図1は壁からの反射を考慮したときの音の特性の変化を説明するための図である。同図は音源200と、2通りの壁202a、202bを俯瞰した状態を模式的に示している。音源200から同じ音が発せられても、壁202aと壁202bの違いによって、受音点204での音の波形が異なる。具体的には壁202bのように、壁が音源200や受音点204に近いほど、反射音の振幅が大きく、直接音との時間差が小さくなる。
 このような波形の差が、人が感じる音量の差として表れる。そのため例えば受音点204近傍にマイクロホンを配置し、インパルス応答を測定することにより音の伝達特性を取得して、音源200からの音響を最適化することが考えられる。しかしながらこの場合、マイクロホンを用いた比較的大規模なキャリブレーションが必要となり、各ユーザが自室などで実施するには不向きである。また家具などを移動させる都度そのようなキャリブレーションを行うのは手間がかかる。
 音によらず、エアーコンディショナーから送出される空気や、照明灯から生じる光など、空間中を伝搬する物質であれば同様に、空間内にいる人が感じる快適性が、周囲の物での反射により損なわれることが往々にしてあり得る。これらの物質についても、周囲の物の状態が変化する都度、快適性を何らかの手法で計測し、それに応じて出力量や出力態様を調整することは容易ではない。
 本発明はこうした課題に鑑みてなされたものであり、その目的は、周囲の状態が変化しても、音など空間中を伝搬する物質を良好な状態に保つことのできる技術を提供することにある。
 本発明のある態様は出力制御装置に関する。この出力制御装置は、音の出力を制御する出力制御装置であって、撮影画像に基づき空間における実物体の位置および法線を取得する空間情報取得部と、所定の位置における音の状態を表すパラメータの、実物体における反射による変化の割合を、位置および法線に基づき求めたうえ、当該変化の割合に基づき、音の出力を調整するための補正係数を取得する補正係数取得部と、補正係数を用いて音の出力を調整する出力部と、を備えたことを特徴とする。
 本発明の別の態様は出力制御システムに関する。この出力制御システムは、空間を撮影する撮像装置と、音の出力を制御する出力制御装置と、を備え、出力制御装置は、撮像装置が撮影した画像に基づき空間における実物体の位置および法線を取得する空間情報取得部と、所定の位置における音の状態を表すパラメータの、実物体における反射による変化の割合を、位置および法線に基づき求めたうえ、当該変化の割合に基づき、音の出力を調整するための補正係数を取得する補正係数取得部と、補正係数を用いて音の出力を調整する出力部と、を備えたことを特徴とする。
 本発明のさらに別の態様は出力制御方法に関する。この出力制御方法は音の出力を制御する出力制御装置が、撮像装置による撮影画像を取得するステップと、撮影画像に基づき空間における実物体の位置および法線を取得するステップと、所定の位置における音の状態を表すパラメータの、実物体における反射による変化の割合を、位置および法線に基づき求めたうえ、当該変化の割合に基づき、音の出力を調整するための補正係数を取得するステップと、補正係数を用いて音の出力を調整して出力するステップと、を含むことを特徴とする。
 本発明のさらに別の態様は出力制御装置に関する。この出力制御装置は、空間を伝搬する伝搬物質の出力を制御する出力制御装置であって、撮影画像に基づき空間における実物体の位置および法線を取得する空間情報取得部と、所定の位置における伝搬物質の状態を表すパラメータの、実物体における反射による変化の割合を、位置および法線に基づき求めたうえ、当該変化の割合に基づき、伝搬物質の出力を調整するための補正係数を取得する補正係数取得部と、補正係数を用いて前記伝搬物質の出力を調整する出力部と、を備えたことを特徴とする。
 ここで「伝搬物質」は、音、空気、光、煙、香り、液体など、空間を伝搬する物質であればその種類は限定されず、「流体」であってもよい。そのため「出力制御装置」は、それらのいずれかの物質を空間に発生させる装置そのもの、当該装置と接続された装置、それらの装置に内蔵された装置、などのいずれでもよい。例えば音楽再生装置、動画再生装置、アンプ、スピーカー、エアーコンディショナー、送風機、照明、発煙装置、アロマディフューザー、チラーなどに内蔵されてもよく、それらに接続されてもよい。
 また「状態を表すパラメータ」、および調整される「出力」も、伝搬物質や制御機構によって様々であってよい。例えば「パラメータ」は、伝搬物質のエネルギー、音量、照度、流量、流速、圧力などのいずれでもよい。「出力」は、信号レベル、電圧、電流、圧力、流量、吐出量などのいずれでもよい。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置などの間で変換したものもまた、本発明の態様として有効である。
 本発明によると、周囲の状態が変化しても、空間中を伝搬する物質を良好な状態に保つことができる。
壁からの反射を考慮したときの音の特性の変化を説明するための図である。 本実施の形態における音響制御システムの構成例を示す図である。 本実施の形態における出力制御装置の内部回路構成を示す図である。 本実施の形態における出力制御装置の機能ブロックの構成を示す図である。 本実施の形態の撮像装置に導入できる撮像素子の構造例を示す図である。 入射角に対する偏光度の変化を、鏡面反射した光と拡散反射した光で比較した図である。 本実施の形態において、左右のスピーカーからの音が均一な面で反射する場合の、音の伝搬の様子を模式的に示す図である。 図7の状態から反射面の傾きが変化した場合の、音の伝搬の様子を模式的に示す図である。 本実施の形態における出力制御装置が、実物体の状態に応じて音響を制御する処理手順を示すフローチャートである。
 本実施の形態は、音、空気、光など空間中を伝搬する物質であれば制御対象の種類は限定されない。以後、代表的な例として、音響出力を制御する出力制御装置および出力制御システムについて説明する。
 図2は、本実施の形態における出力制御システムの構成例を示している。この出力制御システムは、受聴者6や家具8などを含む空間を撮影する撮像装置12、音響の出力を制御する出力制御装置10、および音響を出力するスピーカー16a、16bを含む。出力制御システムにはさらに、出力制御装置10に対する操作をユーザから受け付ける入力装置が含まれていてよい。出力制御装置10はさらに、インターネットなどのネットワークに接続することでサーバなど外部の装置と通信可能としてもよい。
 出力制御装置10と撮像装置12およびスピーカー16a、16bとは、有線ケーブルで接続されてよく、また無線LAN(Local Area Network)などにより無線接続されてもよい。また出力制御装置10と撮像装置12、撮像装置12とスピーカー16a、16bなどを組み合わせて一体的な装置としてもよい。いずれにしろ出力制御装置10、撮像装置12、スピーカー16a、16bの外観形状は図示するものに限らない。またスピーカーは2つに限らない。
 撮像装置12は、受聴者6や家具8などを含む受聴空間の画像を撮影する。なお家具8は空間に存在する実物体の一例に過ぎず本実施の形態に必須のものではない。またその形状、大きさ、位置、姿勢などを限定する趣旨ではなく、部屋の壁や天井などでもよいし、屋外であれば木や建物の外壁などでもよい。また受聴者6は1人に限らない。
 出力制御装置10は、受聴者6が選択した音楽などの音声データを再生し、スピーカー16a、16bから出力させる。この際、出力制御装置10は、撮像装置12が撮影した画像を用いて、受聴者8のほか家具8など空間に存在する実物体の位置や姿勢を特定する。そして当該実物体表面での反射音を考慮してスピーカー16a、16bにおける音量を調整する。
 図示する例では、左右のスピーカー16a、16bから受聴者6へ到達する音は、後者が直接音Sbのみであるのに対し、前者は直接音Saと家具8での反射音Sa’を含む。仮に左右の音を同じ音量で聴かせたければ、スピーカー16aの音量を下げるか、スピーカー16bの音量を上げればよいことになる。したがって出力制御装置10は例えば、直接音Saのみの場合を基準として、反射音を含めた音Sa+Sa’の、受聴者6が認識する音量の増加割合を見積もることで、スピーカー16aまたはスピーカー16bの設定音量を調整する。
 なお基準は直接音のみの場合に限らず、家具8などがない標準的な環境で壁などでの反射音を含めた音としてもよい。いずれにしろ基準状態からの、実物体の数、位置、姿勢の変化による音量の増減の割合に基づき設定音量を調整することにより、そのような変化によらず同様に音が聴こえるようにする。なお出力制御装置10は出力する音響を制御する以外に、電子ゲームや動画など各種コンテンツを処理する機能を有していてよい。あるいは出力制御装置10を、そのような各種情報処理を実施する装置の一部としてもよい。
 したがって出力制御装置10が制御対象とする「音響」は、音楽、効果音、人や動物の声など、音であればその種類は限定されない。また出力制御システムには、コンテンツの画像を表示させる表示装置を含めてもよい。撮像装置12が撮影した画像は、そのような表示画像を生成するのに用いてもよい。スピーカー16a、16bは、出力制御装置10から出力された音声の電気信号を音波として出力する。スピーカー16a、16bは、電気信号を増幅させるアンプを内蔵するアクティブスピーカーや、アンプのないパッシブスピーカーなど一般的なものでよい。
 図3は出力制御装置10の内部回路構成を示している。出力制御装置10は、CPU(Central Processing Unit)22、GPU(Graphics Processing Unit)24、メインメモリ26を含む。これらの各部は、バス28を介して相互に接続されている。バス28にはさらに入出力インターフェース30が接続されている。入出力インターフェース30には、USBやIEEE1394などの周辺機器インターフェースや、有線又は無線LANのネットワークインターフェースからなる通信部32、ハードディスクドライブや不揮発性メモリなどの記憶部34、図示しない表示装置などへデータを出力する出力部36、撮像装置12や図示しない入力装置からデータを入力する入力部38、磁気ディスク、光ディスクまたは半導体メモリなどのリムーバブル記録媒体を駆動する記録媒体駆動部40、スピーカー16a、16bへの音声信号を処理する音響処理部42が接続される。
 CPU22は、記憶部34に記憶されているオペレーティングシステムを実行することにより出力制御装置10の全体を制御する。CPU22はまた、リムーバブル記録媒体から読み出されてメインメモリ26にロードされた、あるいは通信部32を介してダウンロードされた各種プログラムを実行する。GPU24は、CPU22からの要求に従って各種画像処理を実施する。メインメモリ26はRAM(Random Access Memory)により構成され、処理に必要なプログラムやデータを記憶する。音響処理部42はCPU22からの要求に従い音声の電気信号を生成し、スピーカー16a、16bに出力する。
 図4は、出力制御装置10の機能ブロックの構成を示している。図4に示す各機能ブロックは、ハードウェア的には、図3に示したCPU、GPU、各種メモリ、データバスなどの構成で実現でき、ソフトウェア的には、記録媒体などからメモリにロードした、データ入力機能、データ保持機能、演算機能、画像処理機能、音響処理機能などの諸機能を発揮するプログラムで実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
 出力制御装置10は、撮像装置12から撮影画像のデータを取得する撮影画像取得部50、撮影画像を利用して受聴者や家具などの実物体の情報を取得する空間情報取得部54、実物体での反射を考慮して音量を調整する補正係数取得部56、再生すべき音声データを格納する音声データ記憶部58、および音声の電気信号をスピーカー16a、16bへ出力する出力部60を含む。
 撮影画像取得部50は図3の入力部38、CPU22などで実現され、撮影画像のデータを撮像装置12から取得する。上述のとおり本実施の形態では、受聴者8へ到達する音響を適正化するために実物体表面での反射音を考慮する。このため撮影画像取得部50は、実物体の位置および姿勢を取得できるような撮影画像を取得する。例えば撮像装置12を偏光カメラとすることで複数方位の偏光画像を取得すれば、被写体表面の法線を得ることができる。この場合、後述するように、CMOSイメージセンサなど一般的な素子構造の上層に偏光子層を設けた構造を有する撮像装置12を利用できる。
 あるいは撮像装置12として準備した一般的な自然光のカメラのレンズ前面に、主軸角度を変化させることのできる偏光板を設けてもよい。一方、撮像装置12を多眼カメラとし、撮影画像取得部50が異なる視点から撮影された画像のデータを取得することで、3次元空間での被写体の位置を得ることができる。この場合、多眼カメラの少なくとも1つを偏光カメラとして、偏光画像を含む多視点からの撮影画像を取得してもよい。
 撮像装置12として準備した1つの偏光カメラを移動させつつ複数の視点から撮影された画像のデータを順次取得してもよい。あるいは撮像装置12の一部として、赤外線などの参照光を空間に照射し、その反射光を検出するセンサシステムを導入してもよい。この場合、撮影画像取得部50は、撮像装置12の内部で得られた、被写体までの距離を画像平面に表したデプス画像のデータを取得してもよい。参照光の照射から反射光の検出までの時間に基づき被写体までの距離を検出する手法は、TOF(Time Of Flight)として知られている。
 空間情報取得部54はCPU22、GPU24などで実現され、撮影画像のデータを用いて空間に存在する実物体の情報を取得する。より詳細には空間情報取得部54は、実物体表面の法線を取得する法線取得部64、実物体の3次元空間での位置を取得する位置取得部66、実物体が有する音の吸音率を取得する吸音率取得部68を含む。
 実物体の法線や3次元での位置を求める手法は、取得する撮影画像の種類によって様々に考えられる。代表的な例として、法線取得部64は上述のとおり複数方位の偏光画像を用いて法線を求める。偏光強度の方位に対する振る舞いが被写体からの光の反射角度に依存することを利用して、偏光子の角度変化に対する偏光画像の輝度の変化に基づき被写体表面の法線を求める手法は一般的に知られている。また位置取得部66は例えば、距離が既知の2視点から撮影されたステレオ画像を用いて撮像面から実物体までの距離を求め、それを3次元空間での位置座標に変換することで実物体表面の位置を取得する。
 ステレオ画像における同じ物体の像の視差に基づき三角測量の原理で物体までの距離を求める手法も一般的に知られている。複数視点から撮影された偏光画像を取得できる場合は、法線取得部64により同じ法線が各カメラ座標系で得られるため、視点同士の位置関係に基づいて、当該法線が得られた実物体表面までの距離を取得できる。いずれにしろ複数視点からの撮影には多眼カメラを用いてもよいし、視点の移動が可能な1つのカメラを用いてもよい。
 なお撮像装置12がTOFによりデプス画像を生成する場合、位置取得部66は、撮影画像取得部50が取得したデプス画像を用いて3次元空間での位置座標を座標変換により求めることができる。また法線取得部64は、位置取得部66が取得した物体表面の位置の分布に基づき法線を求めてもよい。あるいは位置取得部66は、離散的に求めた実物体までの距離を、法線取得部64が求めた法線分布を用いて補間してもよい。このように法線取得部64と位置取得部66は互いに得た情報を相補完的に利用してもよい。いずれにしろ法線取得部64と位置取得部66の機能により、3次元空間における実物体の位置および姿勢が求められる。
 吸音率取得部68は、最終的に実物体の吸音率を推定できれば、その根拠として用いる情報の種類は限定されない。例えば、撮影画像における色や輝度、偏光度などに基づき金属、木材、プラスチック、布などの材質を推定したうえ、それらの材質が有する吸音率を特定する。特に偏光画像を用いて、拡散反射や鏡面反射などの反射成分の割合から材質を推定する手法は従来、研究が進んでいる。本実施の形態で実物体表面の法線を求めるために偏光画像を解析する場合、その解析結果を材質推定に流用できる。吸音率取得部68は、実物体として想定される材質ごとに、その撮影画像から得られる色や偏光度などのパラメータと吸音率とを対応づけたデータベースを内部で保持し、別途得られたパラメータの値に基づき吸音率を取得する。
 あるいは吸音率取得部68は、撮影画像以外の情報から吸音率を取得してもよい。例えば法線取得部64や位置取得部66により特定された実物体の像を、図示しない表示装置に表示させ、受聴者がその材質を入力できるようにしてもよい。この場合もデータベースを参照して吸音率を取得する。なお吸音率としてデフォルト値を用いてもよく、その場合は吸音率取得部68の処理を省略できる。
 補正係数取得部56はCPU22、メインメモリ26などで実現され、実物体表面の位置や姿勢に基づき、反射音を含め受聴者へ到達する音のエネルギーまたは音圧を計算し、各スピーカー16a、16bに出力する音声信号の補正係数を決定する。図2で説明したように定性的には、基準とする状態に対し、反射音によってa倍のエネルギーが到達する場合、信号レベルに対する補正係数を1/aと決定する。決定した補正係数は出力部60に通知する。
 なお複数のスピーカーを用いる場合は、上述のとおりバランスの観点から補正係数をスピーカーごとに決定してもよい。例えばあるスピーカーからの音が、反射音によってa倍のエネルギーとなる場合、他のスピーカーからの音もa倍とすることでバランスをとることが考えられる。これを一般化して、各スピーカーからの音が、それぞれa、b、c、・・・倍のエネルギーとなる場合、a、b、c、・・・の最小公倍数をTとして、各スピーカーの補正係数をT/a、T/b、T/c、・・・としてもよい。
 出力部60は音響処理部42で実現され、音声データ記憶部58に格納された音声データのうち、ユーザ操作などにより決定したデータを再生し、その電気信号をスピーカー16a、16bに出力する。ここで出力部60は、補正係数取得部56が決定した補正係数62を内部で保持し、それを乗算することで各スピーカー16a、16bに出力する信号レベルを調整する。空間において実物体の数、位置、姿勢が固定の場合、補正係数取得部56が補正係数を一度取得すれば、出力部60は以降、それを用いることにより適切な状態を維持できる。
 人の増減があるなど実物体の数、位置、姿勢が可変の場合、補正係数取得部56は、例えば所定の時間間隔で処理を実施し、補正係数を更新するようにしてもよい。出力部60が、随時更新される補正係数を信号レベルの調整に用いることにより、例えば曲の途中で実空間に状態変化が生じても、聴こえ方の変化を抑えることができる。なお補正係数による信号レベルの調整機能は、スピーカー16a、16bに設けてもよい。
 この場合、出力部60は、音声の電気信号と補正係数を各スピーカー16a、16bに出力する。信号レベルすなわち音量は当然、図示しない入力装置によってユーザが調整できるようにしてよい。ユーザ操作か、反射音を考慮した自動的な調整かに関わらず、音量調整には一般的なオーディオ装置に実装されている回路構成を適用できるため、具体的な説明は省略する。なお出力部60が処理対象とする音声データは、音声データ記憶部58に格納されたものに限らず、ネットワークを介してサーバから取得したストリームデータなどでもよい。
 図5は本実施の形態の撮像装置12に導入できる撮像素子の構造例を示している。なお同図は素子断面の機能的な構造を模式的に示しており、層間絶縁膜や配線などの詳細な構造は省略している。撮像素子110はマイクロレンズ層112、ワイヤグリッド型偏光子層114、カラーフィルター層116、および光検出層118を含む。ワイヤグリッド型偏光子層114は、複数の線状の導体部材を入射光の波長より小さい間隔でストライプ状に配列させた偏光子を含む。マイクロレンズ層112により集光された光がワイヤグリッド型偏光子層114に入射すると、偏光子のラインと平行な方位の偏光成分は反射され、垂直な偏光成分のみが透過する。
 透過した偏光成分を光検出層118で検出することにより偏光画像が取得される。光検出層118は一般的なCCD(Charge Coupled Device)イメージセンサやCMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどの半導体素子構造を有する。ワイヤグリッド型偏光子層114は、光検出層118における電荷の読み取り単位、すなわち画素単位、あるいはそれより大きな単位で主軸角度が異なるような偏光子の配列を含む。同図右側には、ワイヤグリッド型偏光子層114を上面から見たときの偏光子配列120を例示している。
 同図において網掛けされたラインが偏光子を構成する導体(ワイヤ)である。なお点線の矩形はそれぞれ一主軸角度の偏光子の領域を表しており、点線自体は実際に形成されるものではない。図示する例では、4通りの主軸角度の偏光子が2行2列の4つの領域122a、122b、122c、122dに配置されている。図中、対角線上にある偏光子はその主軸角度が直交しており、隣り合う偏光子は45°の差を有する。すなわち45°おきの4つの主軸角度の偏光子を設けている。
 各偏光子はワイヤの方向に直交する方向の偏光成分を透過する。これにより、下に設けた光検出層118においては、4つの領域122a、122b、122c、122dに対応する各領域で、45°おきの4方位の偏光情報を得ることができる。このような4つの主軸角度の偏光子配列をさらに縦方向、横方向に所定数、配列させ、電荷読み出しのタイミングを制御する周辺回路を接続することにより、4種類の偏光情報を2次元データとして同時に取得するイメージセンサを実現できる。
 同図に示す撮像素子110では、ワイヤグリッド型偏光子層114と光検出層118の間にカラーフィルター層116を設けている。カラーフィルター層116は、例えば各画素に対応させて赤、緑、青の光をそれぞれ透過するフィルタの配列を含む。これにより、上下に位置するワイヤグリッド型偏光子層114における偏光子の主軸角度とカラーフィルター層116におけるフィルタの色の組み合わせに応じて、偏光情報が色別に得られる。すなわち同一方位かつ同一色の偏光情報が画像平面上で離散的に得られるため、それを適宜補間することにより、方位ごとおよび色ごとの偏光画像が得られる。
 また同一色の偏光画像どうしを演算することにより、無偏光のカラー画像を再現することもできる。ワイヤグリッド型偏光子を用いた画像取得技術については、例えば特開2012-80065号公報などにも開示されている。ただし本実施の形態における撮像装置12の素子構造は図示するものに限らない。例えば本実施の形態において実物体の状態情報は偏光輝度画像を用いて取得できるため、その他の用途でカラー画像が必要なければカラーフィルター層116を省略することもできる。また偏光子はワイヤグリッド型に限らず、線二色性偏光子など実用化されているもののいずれでもよい。
 偏光画像を利用して被写体の様々な情報を取得する技術は従来、研究が進められている。被写体表面の法線ベクトルを求める方法についても、例えば、Gary Atkinson and Edwin R. Hancock, "Recovery of Surface Orientation from Diffuse Polarization", IEEE Transactions on Image Processing, June 2006, 15(6), pp.1653-1664、特開2009-58533号公報などに開示されており、本実施の形態ではそれを適用してよい。以下、概要を説明する。
 まず偏光子を介して観察される光の輝度は、偏光子の主軸角度θpolに対し次の式のように変化する。
Figure JPOXMLDOC01-appb-M000001
 ここでImax、Iminはそれぞれ、観測輝度の最大値、最小値であり、φは偏光位相である。上述のとおり4通りの主軸角度θpolに対し偏光画像を取得した場合、同じ位置にある画素の輝度Iは、各主軸角度θpolに対し式1を満たすことになる。したがって、それらの座標(I,θpol)を通る曲線を、最小二乗法等を用いて余弦関数に近似することにより、Imax、Imin、φを求めることができる。そのように求めたImax、Iminを用いて、次の式により偏光度ρが求められる。
Figure JPOXMLDOC01-appb-M000002
 対象物表面の法線は、光の入射面(拡散反射の場合は出射面)の角度を表す方位角αと、当該面上での角度を表す天頂角θで表現できる。また二色性反射モデルによれば、反射光のスペクトルは、鏡面反射と拡散反射のスペクトルの線形和で表される。ここで鏡面反射は物体の表面で正反射する光であり、拡散反射は物体を構成する色素粒子により散乱された光である。上述の方位角αは、鏡面反射の場合は式1において最小輝度Iminを与える主軸角度であり、拡散反射の場合は式1において最大輝度Imaxを与える主軸角度である。
 天頂角θは、鏡面反射の場合の偏光度ρ、拡散反射の場合の偏光度ρと、それぞれ次のような関係にある。
Figure JPOXMLDOC01-appb-M000003
 ここでnは対象物の屈折率である。式2で得られる偏光度ρを式3のρ、ρのどちらかに代入することにより天頂角θが得られる。こうして得られた方位角α、天頂角θにより、法線ベクトル(p,p,p)は次のように得られる。
Figure JPOXMLDOC01-appb-M000004
 このように偏光画像の各画素が表す輝度Iと偏光子の主軸角度θpolとの関係から当該画素に写る対象物の法線ベクトルが求められ、像全体として法線ベクトル分布を得ることができる。ただし上述のとおり、観測された光には鏡面反射成分と拡散反射成分が含まれ、それによって法線ベクトルの算出手法が異なる。そのため好適には、吸音率取得部68が取得した材質の情報を利用して、鏡面反射と拡散反射のうち適切なモデルを選択する。
 あるいは偏光度ρを利用して適用するモデルを選択してもよい。図6は、入射角に対する偏光度の変化を、鏡面反射した光と拡散反射した光で比較している。なお反射する物体の屈折率nは1.4および1.6としている。(b)に示す拡散反射光と比較し、(a)に示す鏡面反射光は、入射角の大部分の範囲において偏光度が格段に大きい。すなわち鏡面反射が支配的となるような材質の被写体の像は、偏光度が高く表れる可能性が高い。この特性を利用し、例えば偏光度ρが所定のしきい値以上の領域は鏡面反射を仮定してそのモデルを適用することにより法線ベクトルを求める。
 一方、吸音率取得部68は、コンピュータグラフィクス描画において一般的に利用されるレンダリング方程式の逆問題を解くことにより材質を特定してもよい。つまり撮影画像として観測された輝度が得られるために、光源からの光が物体表面でどのように反射しているべきか、という観点から実物体の材質を特定してもよい。この場合、吸音率取得部68は、実物体の位置関係と撮影画像の各画素が表す輝度に基づき実物体表面での反射特性を導出し、そのような反射特性が得られる材質を特定する。
 一般的なコンピュータグラフィクスでは、ワールド座標系において、反射特性が設定されたオブジェクトを配置し、光源とカメラ座標系を設定することにより、オブジェクト表面からの反射光の輝度分布を計算する。このとき、次のレンダリング方程式によって、オブジェクト表面上の点rにおいて方向ωへ放射される光の輝度L(r,ω)を求める。
Figure JPOXMLDOC01-appb-M000005
 ここでL(r,ω)は点rにおいてオブジェクト自体が発する光の輝度である。f(r,ω,ω)は、点rにおける光の反射特性を表す双方向性反射率分布関数(BRDF:Bidirectional reflection distribution function)であり、入射方向ωの入射光の輝度L(r,ω)に対する、方向ωへの反射光の輝度L(r,ω)の比率を表す。この関数は材質に依存する。またΘは、点rにおけるオブジェクト表面の法線の方向と光の反射方向ωとがなす角、Sは点rにおける光の入射方向ωの範囲である。結果として輝度L(r,ω)、ひいては点rを表す撮影画像上の像の輝度は、点rにおける法線と、光源および撮像面との位置関係、およびオブジェクトの材質によって決定される。
 式5の関係を利用し、撮影画像が表す像の輝度値を左辺に与えれば、右辺に含まれるいずれかのパラメータを求めることができる。この手法は、グラフィクス描画の逆問題としてインバースレンダリングと呼ばれる。関数fは実際には、物体の材質を均一としても、入射光および反射光それぞれの方位角および天頂角を含む4次元の関数であるため、それを簡潔に表現するために様々なモデルが提案されている。(例えば“インバースレンダリング:画像からの光学情報の復元”,佐藤洋一, http://www.mtl.t.u-tokyo.ac.jp/~katsu-t/ssii05-ysato.pdf参照)。
 本実施の形態では、実物体として想定される材質と、関数fあるいはそれを所定のモデルで近似したデータ(反射特性)とを対応づけた材質モデルを事前に生成し、吸音率取得部68内部に格納しておく。あらかじめ様々な材質の物体を撮影することで、材質ごとに関数fの代替パラメータを反射特性の実値データとして取得してもよい。吸音率取得部68は、法線取得部64および位置取得部66が求めた情報と撮影画像における像の輝度値から、式5を逆に解くことにより反射特性を求め、それをインデックスとして材質モデルを参照する。この際、光源の位置は仮定してもよいし撮影画像から推定してもよい。
 そして最も適合する材質を、像の元となる実物体の材質として選択する。上述のとおりレンダリング方程式を簡略化するためのモデルとして様々なものが提案されているため、実際に想定される被写空間の環境や出力制御装置10の処理性能などに応じて適切なモデルを選択する。なお材質を特定する対象を発光体以外とすれば、式5右辺の第1項は省略できる。
 また本実施の形態で実物体の法線を取得するために4方位の偏光画像を取得する場合、インバースレンダリングにそれらの画像を利用してもよい。すなわち上述のように、あらかじめ様々な材質の物体の偏光画像を撮影することで、材質ごと、および偏光方位ごとに反射特性の実値データを取得しておく。そして4方位の偏光の輝度の値から、それぞれに対応する反射特性を式5により求め、4つの反射特性に最も適合する材質を選択する。
 例えば当該反射特性で構成される4次元空間において最も距離が近い材質を選択する。あるいは先に材質を仮定して、それに対応づけられた4つの反射特性を用いて式5により偏光輝度を各方位について求め、実際の偏光画像に最も近い材質を選択してもよい。いずれにしろ4方位の偏光の輝度を利用することにより、偏光成分の割合の観点からより高い精度で材質を求められる。
 また式5で表されるモデル以外のモデルを適用して、同様の原理により材質を推定してもよい。例えば材質モデルとして、反射光に含まれる拡散反射成分と鏡面反射成分の割合を、候補となる材質に対応づけて格納しておく。上述のとおり反射光のスペクトルはそれらの反射成分の線形和であるため、各材質候補の反射成分の割合を仮定したうえ、光源の位置や被写体、撮像面の位置および姿勢に基づき、方位に対する偏光輝度の変化を取得する。その結果を、実際の偏光画像を用いて式1から取得した偏光輝度の変化と比較し、差分が最も小さくなる材質を、真の材質として特定してもよい。
 次に補正係数取得部56が、各スピーカー16a、16bに与える音声信号の補正係数を決定する手法の例を説明する。図7は、左右のスピーカー16a、16bからの音が均一な面で反射する場合の、音の伝搬の様子を模式的に示している。例えば受聴者130の背後に広い面積の壁132が存在する場合がこれにあたる。同図ではそのような空間を俯瞰図で表している。なお他の壁や実物体が存在していても、反射音の影響が無視できるほど遠方にある場合や吸音率が高い場合、補正係数取得部56はそれを各しきい値と比較するなどして判定することで、反射音の計算から除外してよい。
 図示する空間において、受聴者130の前方の左右にスピーカー16a、16bが配置されている。撮像装置12によって、受聴者130、スピーカー16a、16b、および壁132が視野に入る画像を撮影することにより、それらの3次元空間での位置関係、および壁132の法線n、nが判明する。なお撮像装置12に対するスピーカー16a、16bの位置があらかじめ判明している場合は、撮像装置12の視点を基準として全ての位置関係を特定できるため、受聴者130と壁132のみを撮影すればよい。このような場合として、撮像装置12とスピーカー16a、16bを既知の間隔で固定とする場合や、それらを一体的に設けた装置を導入する場合などが挙げられる。
 上述のとおり受聴者130には、スピーカー16a、16bからの直接音のほか、壁132からの反射音も到達する。すなわち図示する例では、壁132により鏡像音源136a、136bが発生することにより音源が実質4つとなる。スピーカーの数を限定せず、鏡像音源を含めた音源の数をNとして一般化すると、受聴者130に到来する音のエネルギーRは、各音線のエネルギーSi(iは1≦i≦Nなる自然数)を用いて次のように表せる。
Figure JPOXMLDOC01-appb-M000006
 ここでは演算を単純化して、各スピーカー16a、16bとその鏡像音源136a、136bで音にずれがないとする。式6によればまず、壁132のような反射物の有無によっても、受聴者130へ到達する音のエネルギーが大きく変化することがわかる。したがって仮に壁132が、その反射音が無視できるほど遠方にある場合を「基準状態」とした場合、図示する状態での補正係数Kを例えば次のように算出する。
Figure JPOXMLDOC01-appb-M000007
 ここでS、Sはスピーカー16a、16bからの直接音のエネルギー、S、Sはそれらの反射音のエネルギーである。この補正係数Kを、スピーカー16a、16bへ出力する音声の信号レベルに共通の補正係数とすることで、壁132があっても、およそ基準状態と同じ音量で音が聴こえることになる。ただしスピーカーによって異なるチャネルの音を出力する場合、上記補正係数では音のバランスが変化してしまうことが考えられる。したがって好適には、スピーカー単位で基準状態からの変化の割合を計算することにより、スピーカーごとに補正係数を導出する。以後は、図7の状態を「基準状態」として、スピーカー16aに対する補正係数を求める場合について説明する。
 補正係数を求めるには、受聴者130へ到達するまでの音のエネルギーの減衰率を、直接音と反射音について求める必要がある。エネルギーの減衰率は、音源からの距離に比例する。また反射音ではさらに、反射面での吸音率に比例する。図7の状態において、スピーカー16aから受聴者130までの距離をD、受聴者130に到達する反射音の、壁132における入射角をθ1とすると、鏡像音源136aから受聴者130までの距離rは次のように近似できる。
 r≒D/sin(θ1)
 図8は、図7の状態から反射面の傾きが変化した場合の、音の伝搬の様子を模式的に示している。例えば壁132の前に、斜めに家具を配置した場合がこれにあたる。この例では、スピーカー16aと受聴者130を結ぶ線との角度が小さい新たな反射面140が形成されたことにより、反射音の入射角θ2は、図7の状態での入射角θ1より大きくなる。結果として、スピーカー16aと受聴者130の位置関係が同じであっても、鏡像音源142aから受聴者130までの距離rは、次のようにrより短くなる。
 r≒D/sin(θ2)<r
逆に入射角が小さくなれば、鏡像音源から受聴者130までの距離は長くなる。
 上述のとおり音のエネルギーの減衰率は音源からの距離に比例する。したがって図8のケースでは、図7と比較しスピーカー16aからの音が大きく聴こえる。また、減衰率は反射面140における吸音率にも比例する。すなわち音源でのエネルギーをA、鏡像音源から受聴者130までの距離をr、反射面における吸音率をα、反射面への入射角をθとすると、反射音のエネルギーSは次のように表せる。
Figure JPOXMLDOC01-appb-M000008
 一方、スピーカー16aからの直接音S=A/Dであるから、反射音を含め受聴者130に到達する音のエネルギーStotalは次のようになる。
Figure JPOXMLDOC01-appb-M000009
 なお反射率αは、厳密には反射音の入射角θに依存する。したがって反射面の材質からその特性を関数として準備しておくことで、αを入射角θに基づき厳密に導出してもよい。いずれにしろ本実施の形態において、実物体の法線と、スピーカーおよび受聴者との位置関係が判明していることにより、反射音の入射角θが既知となる。結果として、受聴者へ到達する音のエネルギーを、音源でのエネルギーAに対する割合として求めることができる。
 図7の状態を基準状態として、図8の状態におけるスピーカー16aの補正係数Kは次のように求められる。
Figure JPOXMLDOC01-appb-M000010
 同様の計算を、スピーカー16bについても実施することで、スピーカーごとに補正係数を求める。なお図7、8の例は反射面を1つとしていたが、反射面が2つ以上であっても、式8を用いて全ての反射音のエネルギーを求めれば、受聴者へ到達する音のエネルギーを同様に求めることができ、ひいては補正係数Kを容易に導出できる。
 また、図示する例は比較的小規模な空間であったが、コンサート会場などでも同様の計算で補正係数を求められる。この場合、例えば観客全体を塊として反射音のエネルギーを計算したり、受頂点を客席の中央としたりすることが考えられる。あるいは客席およびスピーカーを複数範囲に区切って受頂点を1つずつ設定することにより、区画ごとに図示したような計算を実施してもよい。
 次に、これまで述べた構成によって実現できる出力制御装置の動作について説明する。図9は本実施の形態における出力制御装置10が、実物体の状態に応じて音響を制御する処理手順を示すフローチャートである。このフローチャートは、撮像装置12が受聴空間を撮影した後、または所定のレートで撮影している期間に開始される。典型的には上述のとおり、被写空間には受聴者も存在することで、その位置に到達する音を計算し調整に用いるが、場合によっては受聴者のいない空間において仮想的に受聴点を設定してもよい。
 また、音響を補正しない、あるいは補正係数としてデフォルト値を用いる「基準状態」における実物体の位置や姿勢についてのデータを、補正係数取得部56に格納しておく。例えば直接音のみが受聴者に到達する場合を基準状態とし補正係数を1としておく。あるいは出力制御装置10の使用開始時における実空間の状態を基準状態として補正係数のデフォルト値を導出しておく。これらの補正係数は、出力部60における補正係数62の初期値として記録しておく。
 そして撮影画像取得部50は、複数方位の偏光画像などの撮影画像のデータを撮像装置12から取得する(S10)。次に空間情報取得部54は撮影画像を用いて、家具や受聴者などの実物体の位置、表面の法線ベクトルおよび吸音率を上述のとおり取得する(S12)。受聴者を反射面として考慮しない場合、その法線や吸音率の取得を省略できる。また、スピーカー16a、16bの位置は撮影画像から同様に取得してもよいし、撮像装置12との位置関係をあらかじめ取得しておいてもよい。
 続いて補正係数取得部56は、「基準状態」から反射面に変化があるか否かを確認する(S14)。反射面のない場合を基準状態として設定している場合は、反射面が発生したことを変化として検出する。基準状態に反射面が含まれている場合は、同じ反射面の位置や姿勢が変化したことや、別の反射面が発生したことを変化として検出する。反射面に変化がある場合(S14のY)、補正係数取得部56は、そこでの反射音を考慮して受聴者へ到達する音のエネルギーを計算し、補正係数62を更新する(S16)。
 反射面に変化がなければ補正係数はそのままとする(S14のN)。S14の確認を、全てのスピーカー16a、16bについて行い、必要に応じてスピーカーごとに補正係数を更新する(S18のN、S14、S16)。図8で示した例のように、空間に新たな反射面140が生じても、そこから離れたスピーカー160bからの音については影響を無視できる場合がある。したがってS14の確認は、そのような影響の及ぶ範囲を考慮してスピーカーごとに実施する。そのため例えばスピーカーからの距離にしきい値を設け、その範囲内の反射面の変化のみを検出する。
 必要に応じた補正係数の更新を全てのスピーカーについて実施したら(S18のY)、出力部60は、音声信号を再生するとともに、設定された補正係数62を用いて信号レベルを調整したうえスピーカー16a、16bに出力する(S20)。S10からS18の処理は、初期処理として一度のみ行い、別のタイミングで音響を発生させる場合はS20の処理のみ実施してもよい。あるいはS10からS18の処理を、所定のレートで実施することにより、例えば曲や動画の途中であっても、空間の変化に随時対応するように調整してもよい。
 以上述べた本実施の形態によれば、スピーカーからの音響を制御する装置において、周囲の実物体の位置および法線を取得し、その反射音を考慮して音声信号を調整する。すなわち基準状態からの実空間の変化に起因する、聴こえ方の変化を空間の構成から求め、当該変化を抑える方向に信号レベルを補正する。ここで基準状態は例えば、音場の最適化において想定した状態とする。これにより、マイクロホンで実測した音を解析して調整するなどの手間をかけずに、状高い頑健性で最適な受聴環境を提供できる。
 また、実空間の幾何学的な見地により、スピーカーごとの音を正確に分離した計算ができるため、補正係数をスピーカーごとに設定できる。結果として、スピーカーの数によらず、それぞれを独立に制御して全体としてのバランスを最適化するといった高度な調整を高効率に実現できる。また実物体の位置や法線を偏光カメラなどの撮影画像を利用して求める。これにより、運用時に実物体が移動したり姿勢が変化したりしても、音響調整に即時に反映させることができる。
 また偏光画像を用いることにより、法線とともに実物体の材質を推定できるため、吸音率を加味した正確な調整を効率的に行える。さらに、導出される反射音の入射角の情報を、吸音率の厳密な特定にも利用できるため、効率的に調整の精度を向上させることができる。
 以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
 例えば本実施の形態では主に、制御対象が音である場合を説明したが、上述したように空気、光、煙、香り、液体など空間中を伝搬し、当該空間における実物体の存在や姿勢の変化によって伝搬の方向や強さが変化する物質であれば同様に適用できる。すなわち空間を撮影することにより実物体の位置や姿勢を認識し、そこでの反射による影響を計算することにより、それらの物質の供給源でのエネルギーや供給量等を調整する。あるいは空間外へ排出する物質であれば、排出時の吸引量を調整してもよい。これらの態様では、受聴者のように局所における影響のみを計算して調整してもよいし、空間中に分散させた複数の箇所で影響を計算し、均一化させるなど分布に基づく調整を行ってもよい。
 これにより、例えば部屋や設備の設計段階で最適化したそれらの物質の状態を、空間の大きさ、家具や人の増減などの状況変化によらず容易に維持することができる。また本実施の形態では、信号レベルを即時に最適化するため、音のエネルギーの伝搬を比較的簡易なモデルで計算したが、場合によっては流体モデルなどによる厳密な計算を行ってもよい。あるいは想定される実物体の位置や姿勢の複数のパターンに対しあらかじめ厳密な計算を実施しておき、運用時には、撮影画像から得られた実際の状況に近い計算結果を参照することで補正係数を取得してもよい。
 また本実施の形態では、実物体の法線や位置を正確に取得できるため、特許文献1に記載されるような、指向性スピーカーからの音を反射させて聴かせる技術に適用すれば、より正確に最適な反射位置を求めることができる。この場合、信号レベルを調整する代わりに、指向性スピーカーの方向を調整することになる。
 8 オブジェクト、 10 情報処理装置、 12 撮像装置、 16a スピーカー、 23 CPU、 24 GPU、 26 メインメモリ、 42 音響処理部、 50 撮影画像取得部、 54 空間情報取得部、 56 補正係数取得部、 58 音声データ記憶部、 60 出力部、 62 補正係数、 64 法線取得部、 66 位置取得部、 68 吸音率取得部。
 以上のように本発明は、音響制御装置、オーディオ装置、コンテンツ再生装置、エアーコンディショナー、照明制御装置など各種出力制御装置や、それらのいずれかを含むシステムなどに利用可能である。

Claims (13)

  1.  音の出力を制御する出力制御装置であって、
     撮影画像に基づき空間における実物体の位置および法線を取得する空間情報取得部と、
     所定の位置における音の状態を表すパラメータの、前記実物体における反射による変化の割合を、前記位置および法線に基づき求めたうえ、当該変化の割合に基づき、音の出力を調整するための補正係数を取得する補正係数取得部と、
     前記補正係数を用いて音の出力を調整する出力部と、
     を備えたことを特徴とする出力制御装置。
  2.  前記補正係数取得部は、受聴者の位置における音のエネルギーの前記変化の割合を求めることにより、音声信号のレベルに対する前記補正係数を取得し、
     前記出力部は、前記補正係数を用いてレベルを調整した音声信号をスピーカーに出力することを特徴とする請求項1に記載の出力制御装置。
  3.  前記補正係数取得部は、複数のスピーカーのそれぞれに対し前記補正係数を取得し、
     前記出力部は、前記スピーカーごとに音声信号のレベルを調整して出力することを特徴とする請求項2に記載の出力制御装置。
  4.  前記補正係数取得部は、1つのスピーカーからの音の反射による前記エネルギーの変化の割合に基づき、同じスピーカーの音声信号のレベルに対する補正係数を取得することを特徴とする請求項2または3に記載の出力制御装置。
  5.  前記補正係数取得部は、1つのスピーカーからの音の反射による前記エネルギーの変化の割合に基づき、他のスピーカーの音声信号のレベルに対する補正係数を取得することを特徴とする請求項2または3に記載の出力制御装置。
  6.  前記空間情報取得部は、複数方位の偏光画像に基づき、前記実物体の法線を取得することを特徴とする請求項1から5のいずれかに記載の出力制御装置。
  7.  前記空間情報取得部はさらに、前記実物体の材質を前記撮影画像またはユーザによる入力に基づき取得し、
     前記補正係数取得部は、前記実物体での反射における前記材質の影響を、前記パラメータの変化の割合の計算に含めることを特徴とする請求項1から6のいずれかに記載の出力制御装置。
  8.  前記空間情報取得部はさらに、前記実物体の材質を前記偏光画像に基づき推定することにより音の吸収率を取得し、
     前記補正係数取得部は、音の経路長と前記実物体での音の吸収率に基づき、反射音のエネルギーを求めることを特徴とする請求項6に記載の出力制御装置。
  9.  前記補正係数取得部は、前記実物体での音の吸収率を、前記位置および法線から求められる前記実物体での音の入射角に基づき取得することを特徴とする請求項8に記載の出力制御装置。
  10.  空間を撮影する撮像装置と、
     音の出力を制御する出力制御装置と、
     を備え、
     前記出力制御装置は、
     前記撮像装置が撮影した画像に基づき前記空間における実物体の位置および法線を取得する空間情報取得部と、
     所定の位置における音の状態を表すパラメータの、前記実物体における反射による変化の割合を、前記位置および法線に基づき求めたうえ、当該変化の割合に基づき、音の出力を調整するための補正係数を取得する補正係数取得部と、
     前記補正係数を用いて音の出力を調整する出力部と、
     を備えたことを特徴とする出力制御システム。
  11.  音の出力を制御する出力制御装置が、
     撮像装置による空間の撮影画像を取得するステップと、
     前記撮影画像に基づき前記空間における実物体の位置および法線を取得するステップと、
     所定の位置における音の状態を表すパラメータの、前記実物体における反射による変化の割合を、前記位置および法線に基づき求めたうえ、当該変化の割合に基づき、音の出力を調整するための補正係数を取得するステップと、
     前記補正係数を用いて音の出力を調整して出力するステップと、
     を含むことを特徴とする出力制御方法。
  12.  音の出力を制御するコンピュータに、
     撮影画像に基づき空間における実物体の位置および法線を取得する機能と、
     所定の位置における音の状態を表すパラメータの、前記実物体における反射による変化の割合を、前記位置および法線に基づき求めたうえ、当該変化の割合に基づき、音の出力を調整するための補正係数を取得する機能と、
     前記補正係数を用いて音の出力を調整する機能と、
     を実現させることを特徴とするコンピュータプログラム。
  13.  空間を伝搬する伝搬物質の出力を制御する出力制御装置であって、
     撮影画像に基づき空間における実物体の位置および法線を取得する空間情報取得部と、
     所定の位置における前記伝搬物質の状態を表すパラメータの、前記実物体における反射による変化の割合を、前記位置および法線に基づき求めたうえ、当該変化の割合に基づき、前記伝搬物質の出力を調整するための補正係数を取得する補正係数取得部と、
     前記補正係数を用いて前記伝搬物質の出力を調整する出力部と、
     を備えたことを特徴とする出力制御装置。
PCT/JP2018/023705 2018-06-21 2018-06-21 出力制御装置、出力制御システム、および出力制御方法 WO2019244315A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/251,656 US11337024B2 (en) 2018-06-21 2018-06-21 Output control device, output control system, and output control method
PCT/JP2018/023705 WO2019244315A1 (ja) 2018-06-21 2018-06-21 出力制御装置、出力制御システム、および出力制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/023705 WO2019244315A1 (ja) 2018-06-21 2018-06-21 出力制御装置、出力制御システム、および出力制御方法

Publications (1)

Publication Number Publication Date
WO2019244315A1 true WO2019244315A1 (ja) 2019-12-26

Family

ID=68982800

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/023705 WO2019244315A1 (ja) 2018-06-21 2018-06-21 出力制御装置、出力制御システム、および出力制御方法

Country Status (2)

Country Link
US (1) US11337024B2 (ja)
WO (1) WO2019244315A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7032837B1 (ja) * 2021-06-18 2022-03-09 シンメトリー・ディメンションズ・インク 音波伝播シミュレーションシステム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017135194A1 (ja) * 2016-02-05 2017-08-10 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置、情報処理システム、制御方法およびプログラム
JP2017163432A (ja) * 2016-03-10 2017-09-14 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4019095B2 (ja) * 2005-12-28 2007-12-05 株式会社コナミデジタルエンタテインメント 音声処理装置、音声処理方法、ならびに、プログラム
JP4317583B2 (ja) 2007-08-07 2009-08-19 パナソニック株式会社 法線情報生成装置および法線情報生成方法
JP5682437B2 (ja) 2010-09-07 2015-03-11 ソニー株式会社 固体撮像素子、固体撮像装置、撮像機器、及び、偏光素子の製造方法
US10057706B2 (en) 2014-11-26 2018-08-21 Sony Interactive Entertainment Inc. Information processing device, information processing system, control method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017135194A1 (ja) * 2016-02-05 2017-08-10 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置、情報処理システム、制御方法およびプログラム
JP2017163432A (ja) * 2016-03-10 2017-09-14 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7032837B1 (ja) * 2021-06-18 2022-03-09 シンメトリー・ディメンションズ・インク 音波伝播シミュレーションシステム

Also Published As

Publication number Publication date
US20210258710A1 (en) 2021-08-19
US11337024B2 (en) 2022-05-17

Similar Documents

Publication Publication Date Title
US11082791B2 (en) Head-related impulse responses for area sound sources located in the near field
US11823472B2 (en) Arrangement for producing head related transfer function filters
US11663778B2 (en) Method and system for generating an image of a subject from a viewpoint of a virtual camera for a head-mountable display
US9544706B1 (en) Customized head-related transfer functions
US10602298B2 (en) Directional propagation
US9706292B2 (en) Audio camera using microphone arrays for real time capture of audio images and method for jointly processing the audio images with video images
WO2019246159A1 (en) Spatial audio for interactive audio environments
JP6798491B2 (ja) 情報処理装置および方法、並びにプログラム
US10959038B2 (en) Audio system for artificial reality environment
JP2022538511A (ja) レガシーオーディオビジュアルメディアからの空間化された仮想音響シーンの決定
JP7194271B2 (ja) 近接場オーディオレンダリング
US11651762B2 (en) Reverberation gain normalization
EP3595337A1 (en) Audio apparatus and method of audio processing
US20220167109A1 (en) Apparatus, method, sound system
Kyriakakis et al. Signal processing, acoustics, and psychoacoustics for high quality desktop audio
WO2019244315A1 (ja) 出力制御装置、出力制御システム、および出力制御方法
KR20180113072A (ko) 음향 구현 장치 및 방법
CN113504890A (zh) 基于ToF相机的扬声器组件的控制方法、装置、设备和介质
KR20230027273A (ko) 확산 반향 신호를 생성하기 위한 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18923267

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18923267

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP