WO2019216414A1 - 音響プログラム、音響装置、および音響システム - Google Patents
音響プログラム、音響装置、および音響システム Download PDFInfo
- Publication number
- WO2019216414A1 WO2019216414A1 PCT/JP2019/018746 JP2019018746W WO2019216414A1 WO 2019216414 A1 WO2019216414 A1 WO 2019216414A1 JP 2019018746 W JP2019018746 W JP 2019018746W WO 2019216414 A1 WO2019216414 A1 WO 2019216414A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- acoustic
- sound
- image
- sound field
- program
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1781—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
- G10K11/17821—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
- G10K11/17823—Reference signals, e.g. ambient acoustic environment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1785—Methods, e.g. algorithms; Devices
- G10K11/17853—Methods, e.g. algorithms; Devices of the filter
- G10K11/17854—Methods, e.g. algorithms; Devices of the filter the filter being an adaptive filter
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/178—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
- G10K11/1787—General system configurations
- G10K11/17873—General system configurations using a reference signal without an error signal, e.g. pure feedforward
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/08—Arrangements for producing a reverberation or echo sound
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/10—Applications
- G10K2210/128—Vehicles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/30—Means
- G10K2210/301—Computational
- G10K2210/3023—Estimation of noise, e.g. on error signals
- G10K2210/30231—Sources, e.g. identifying noisy processes or components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/30—Means
- G10K2210/301—Computational
- G10K2210/3025—Determination of spectrum characteristics, e.g. FFT
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/30—Means
- G10K2210/301—Computational
- G10K2210/3028—Filtering, e.g. Kalman filters or special analogue or digital filters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K2210/00—Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
- G10K2210/30—Means
- G10K2210/301—Computational
- G10K2210/3038—Neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
Definitions
- the present invention relates to an acoustic program, an acoustic device, and an acoustic system.
- a reverberant sound peculiar to a recording field (hereinafter referred to as reverberation) is applied by applying a filter process so that the sound can be heard naturally (hereinafter also referred to as a sense of presence).
- a filter process so that the sound can be heard naturally
- An acoustic system that three-dimensionally reproduces the acoustic characteristics (for example, see Patent Documents 1 to 4) has been studied.
- the present invention provides an acoustic program, an acoustic device, and an acoustic system that easily reproduce a three-dimensional sound field model from 2D image data. It is another object of the present invention to provide an acoustic program, an acoustic device, and an acoustic system that can easily obtain an acoustic filter of unknown image data whose parameters are unknown.
- An acoustic program according to the present invention is an acoustic program for associating a spatial acoustic filter coefficient for three-dimensional reproduction of a sound field with an unknown image, and a plurality of spatial acoustic filter coefficients corresponding to one sample image in advance. It is characterized in that a parameter is obtained and a sound field model of the structure represented in the sample image is learned.
- a sound field model is easily reproduced from 2D image data. Furthermore, the present invention can easily obtain an acoustic filter for unknown image data whose parameters are unknown.
- the acoustic system of this embodiment it is a schematic diagram explaining how a sound field and video data constructed by a cloud server are superimposed on a real space by an AR head mounted display.
- An acoustic device 100 shown in FIG. 1 is configured by connecting an imaging device 2, a sound collection device 3, and a storage device 4 to a calculation unit 101 mainly composed of a computer.
- the calculation unit 101 is a spatial acoustic filter coefficient (hereinafter simply referred to as a coefficient) for three-dimensionally reproducing a sound field of an unknown image (hereinafter also referred to as an unknown image) whose parameter (feature amount) is unknown. )
- the calculation unit 101 obtains a plurality of parameters related to the spatial acoustic filter coefficient corresponding to one sample image in advance.
- the calculating part 101 learns each sound field model of the structure represented by the some sample image. Learning is performed using tens to thousands of sample images and spatial acoustic filter coefficients corresponding to the respective sample images.
- the acoustic device 100 When the acoustic device 100 functions as an encoder, it learns by deep learning (described later). The acoustic device 100 learns a neural network 300 (described later) in order to estimate a feature amount from, for example, a spatial acoustic filter characteristic 400e (described later).
- the acoustic device 100 functions as a decoder that performs acoustic filter generation decoding processing and acoustic processing.
- the imaging device 2 is mainly configured by an information device such as a camera.
- the imaging device 2 collects a 2D (two-dimensional planar image, hereinafter simply referred to as 2D) sample image of an internal space of a building, for example, a concert hall or a lecture hall.
- the sample image is not limited to a still image, and a moving image may be used. That is, the imaging device 2 captures an image of a structure such as a building that becomes a sound field, and outputs the image as image data to the calculation unit 101. Further, the imaging device 2 may output a sample image captured in advance to the calculation unit 101 as image data.
- the sound collecting device 3 is mainly configured by a microphone or the like. When collecting the acoustic data of the sample image, the sound collecting device 3 is arranged to be at the same position as the audience in the audience seat such as a concert hall, and collects the sound generated by the structure.
- the sound collecting device 3 includes a sound from a structure generated by sound generated by any of the existing FIR (finite impulse response), FFT (fast Fourier transform), or IIR (infinite impulse response) method, or other methods. Collect reverberation.
- the angle of view / structure may be determined.
- the field angle / structure discrimination for example, floor recognition, wall recognition, ceiling recognition, and the like are performed. And, if you recognize at least three of the six surfaces of the indoor wall imaged in a three-dimensional space, or if you estimate the depth from the image and see a depth difference greater than a certain value Only the parameters may be estimated.
- the angle-of-view / structure discrimination may be performed using a discriminator that has learned a neural network using a large number of images that have been determined whether or not parameter estimation is possible by a skilled acoustic engineer. Note that acoustic data collected in advance may be input to the sound collecting device 3 and collected by associating with the sample image.
- the storage device 4 is configured by a memory or a hard disk drive.
- the storage device 4 holds and can read and write a sound field model composed of the generated spatial acoustic filter coefficients of the acoustic filter.
- imaging device 2 and the sound collection device 3 are examples that constitute the acoustic device 100 and are not essential components.
- the calculation unit 101 executes an acoustic program.
- the acoustic program may be incorporated in the calculation unit 101 in advance, or may be configured to be read. Further, for example, the cloud server 104 (see FIG. 7) on the cloud, which will be described later, may be provided with the calculation unit 101 so that part or all of the acoustic program is executed by the cloud server 104.
- the acoustic program indicates an acoustic estimation program and an acoustic synthesis program (hereinafter, a program including at least one of the acoustic estimation program and the acoustic synthesis program is referred to as an acoustic program).
- the acoustic program of the present embodiment obtains a plurality of parameters related to the spatial acoustic filter coefficient corresponding to the sample image that is the predetermined indoor space data in order to reproduce the sound field in three dimensions, and is represented in the sample image. Learn sound field models of structures.
- the sound program constructs a sound field model using the sample images held in the storage device 4. That is, the acoustic program uses a spatial acoustic filter coefficient based on the constructed sound field model for an unknown image actually captured by the imaging device 2 from the sound field model of the sample image learned in advance and whose parameters are unknown. Is estimated. Then, the acoustic program multiplies the acoustic data input from the sound collector 3 by the reverberation data of the sound field model that approximates the state of being played with the structure of the sample image.
- FIGS. 2A and 2B are schematic diagrams showing how a plurality of sound field video data and corresponding acoustic data are related during learning.
- the vertical axis represents volume (dB)
- the horizontal axis represents frequency (Hz) and time (Sec).
- the reverberation sound of the structure represented in each sample image is divided into 10 sound ranges every 200 hz and sampled as an octave band. It can be seen that the spatial acoustic filter characteristics (inclinations until 60 dB decrease from the initial value) 400a to 400d sampled every 200 hz are slightly different corresponding to the structures of the sample images a to d.
- the feature points of the sample image include that it is easy to absorb a high frequency material, and that the reverberation affects the depth of the space and the presence or absence of openings such as doorways and windows.
- step S ⁇ b> 1 shown in FIG. 3 a sample image is taken by the imaging device 2.
- the reverberation sound of the actual structure is collected by the sound collecting device 3 and measured.
- the measurement method uses a time extended pulse in which the impulse is extended in time to increase the energy, that is, TSP (Time Stretched Pulse).
- step S2 in order to stabilize the parameter estimation of the image sent from the imaging device 2, the angle of view / structure is determined.
- the spatial acoustic filter coefficient (parameter) is estimated by the calculation unit 201 for the sample image.
- the generation of the spatial acoustic filter coefficient is performed by any of the existing FIR (finite impulse response), FFT (fast Fourier transform), or IIR (infinite impulse response) method (see FIG. 1).
- step S4 the CG image is superimposed on the unknown image in the actual indoor space.
- a CG image on the stage side of a concert hall or the like which is a CG image created corresponding to the sample image, is superimposed on an unknown image in the actual indoor space.
- step S ⁇ b> 5 the spatial acoustic filter process is executed by the calculation unit 201 to generate an acoustic filter.
- the generated acoustic filter is stored in the storage device 4 together with the corresponding sample image data, and used for learning by deep learning, which will be described later.
- step S6 sound output from the calculation unit 101 may be performed on a sound output device such as a speaker (not shown), and sound generated by the generated sound field model may be confirmed by hearing.
- the acoustic device 100 ends the processing by outputting sound.
- the acoustic program is executed by the calculation unit 101.
- the acoustic program associates a spatial acoustic filter coefficient for reproducing the sound field in three dimensions with an unknown image.
- a plurality of parameters relating to spatial acoustic filter coefficients corresponding to one sample image are obtained in advance, and the sound field model of the structure represented in the sample image is learned. For this reason, even if the internal space of the building, for example, the information inside the concert hall, the auditorium, etc., is only a 2D unknown sample image, a corresponding sound field model can be easily constructed and reproduced.
- the acoustic device 100 of the acoustic system of the present embodiment has been described with reference to constructing a sound field model corresponding to the sample image input from the imaging device 2 to the calculation unit 101.
- the present invention is not limited thereto, and for example, sample image data captured in advance at another location may be input to the acoustic device 100.
- a plurality of parameters related to the spatial acoustic filter coefficients are obtained in correspondence with the sample image that has been input data, and the sound field model of the structure represented in the sample image is constructed by the calculation unit 101.
- an acoustic filter corresponding to another structure stored in the storage device 4 is learned by deep learning, which will be described later, so that the reverberation sound of the actual structure is obtained.
- a sound field model composed of spatial acoustic filter coefficients approximating to can be calculated.
- FIG. 4 is a block diagram illustrating the configuration of the acoustic device 200 of the acoustic system.
- the acoustic device 100 shown in FIG. 1 and the acoustic device 200 shown in FIG. 4 are individually configured.
- the present invention is not limited to this.
- an acoustic device of this acoustic system is configured by one arithmetic unit 101 or 201, and a construction by learning a sound field model with one acoustic program, and an acoustic using the sound field model. May be executed.
- portions overlapping with the acoustic device 100 are denoted by the same reference numerals, description thereof is omitted, and portions different from the acoustic device 100 are mainly described.
- sound source data and reproduction sound data stored in the storage device 6 are input to the acoustic filter processing of the acoustic device 200.
- the playback device 5 is connected to the calculation unit 201.
- the acoustic device 200 functions as a decoder by executing the acoustic program.
- the decoder estimates a spatial acoustic filter coefficient related to an unknown image whose parameter is unknown using a sound field model of a sample image learned in advance.
- the playback device 5 functions as a sound output device.
- the sound output device has a function of outputting the added sound by multiplying the reverberation characteristics by making the input sound correspond to the input image based on the constructed sound field model.
- Other configurations are the same as or equivalent to those of the acoustic device 100, and thus description thereof is omitted.
- FIG. 5 is a schematic diagram showing a state of spatial acoustic filter coefficient estimation using a deep learning method convoluted in multiple stages executed by the arithmetic unit 201.
- deep learning second from the left in FIG. 5
- multiplication is performed in a situation where four outputs (parameters) are output with four inputs.
- the weight of is changed by feedback. That is, when learning, if the difference (loss function) from the correct data is large, the parameters of the rear weighting factor are updated by back propagation. By repeating this process, for example, when the influence of the depth on the reverberation is large, the weighting factor is increased.
- branches that are not used are generated when the weighting coefficient is 0, and the accuracy by feedback is improved.
- an output for estimating an acoustic filter which will be described later, four outputs (parameters) are directly output as vector operations with four inputs.
- the calculation unit 201 of the present embodiment uses the neural network 300 (second from the left in FIG. 5) to calculate the spatial acoustic filter characteristics (third from the left in FIG. 5) of the unknown image e (the left end in the figure). A spatial acoustic filter coefficient associated with the accumulated image is calculated.
- the neural network 300 is folded in multiple stages so that determination and feedback are repeated.
- the determination output to the right side by the input from the left side in FIG. 5 and the hoodback returning to the subsequent stage are repeated a plurality of times, in this embodiment, in four stages, and the spatial acoustic filter characteristics are parameterized. Is calculated as
- a spatial acoustic filter coefficient that approximates the sample image can be estimated as a related spatial acoustic filter coefficient.
- the unknown image e is not in the pre-learned sample image, even if it is a spatial acoustic filter coefficient that is not in the spatial acoustic filter coefficient of the learned sample image, it is related to the unknown image e.
- a spatial acoustic filter coefficient to be estimated it can be estimated.
- another feature of deep learning is that different spatial acoustic filter coefficients other than the spatial acoustic filter coefficients of the learned sample image are obtained as outputs.
- the sound input together with the unknown image e is added by multiplying the reverberation characteristic 500e (right end in the figure) obtained from the estimated spatial acoustic filter characteristic 400e,
- the sound corresponding to the unknown image e here, the sound mainly multiplied by the reverberation characteristic that appears most prominently is output.
- step S ⁇ b> 10
- an unknown image is taken by the imaging device 2.
- step S11 image data of an unknown image is transmitted to the server.
- the calculation unit 101 and the storage device 4 in FIG. 1 are used as the server.
- the present invention is not limited to this, and the cloud server 104 shown in FIG. 7 may be used.
- step S12 spatial acoustic filter coefficients corresponding to the unknown image are estimated.
- the generation of the spatial acoustic filter coefficient is performed by any one of existing FIR, FFT, IIR, or other methods (see FIG. 4).
- step S13 the CG image is superimposed on the actual indoor space image.
- a CG image on the stage side of a concert hall or the like which is a CG image created corresponding to the sample image, is superimposed on the image of the actual indoor space. For this reason, the user can appreciate video and sound on the stage side of a concert hall or the like while staying in a room at home which is an actual indoor space.
- an AR (Augmented Reality) head mounted display 105 may be used to superimpose the image on an actual indoor space.
- a spatial acoustic filter process is executed to generate an acoustic filter.
- the generated acoustic filter is stored in the storage device 4 or the cloud server 104 on the cloud.
- an acoustic program is constructed, and image data and acoustic data can be collected from a plurality of imaging devices connected to the cloud. For this reason, the quantity of image data and sound data can be increased, and the precision of learning and estimation can be improved.
- step S15 the calculation unit 201 outputs sound to the playback device 5 including a speaker or the like.
- the decoder process ends with the output of the sound.
- the acoustic filter is a spatial acoustic of the sample image closest to the unknown image e among the learned sample images.
- a spatial acoustic filter coefficient suitable as the spatial acoustic filter coefficient of the unknown image e can be estimated further than the filter coefficient. For this reason, the spatial acoustic filter coefficient of the unknown image e can be estimated with a higher degree of coincidence than the degree of coincidence obtained by simply increasing the number of learned sample images.
- FIG. 7 shows a state in which video data is superimposed on the real space by the AR head mounted display 105 as one of the sound output devices based on the sound field constructed by the cloud server 104.
- an audiovisual effect as if a performer is performing in the concert hall can be obtained.
- the imaging device 106 is provided in the AR head mounted display 105, the real space that the user P is viewing and the image projected on the visor can be superimposed, and the position of the performer appearing in the image can be accommodated. 3D sound can be output from the headphones.
- a part or all of the acoustic system can be entrusted to the cloud server 104 of cloud computing (a usage mode in which computer resources are provided in the form of services via the Internet or the like).
- image data and acoustic data can be collected from a large number of information terminals including the plurality of imaging devices 2 connected to the cloud server 104 via the Internet.
- Other configurations and operational effects are the same as or equivalent to those of the embodiment, and thus the description thereof is omitted.
- the neural network 300 that performs deep learning is trained by combining the sample image and the parameters of the reverberant sound.
- the characteristic of a sound field can be estimated from a 2D image like a skilled engineer.
- a sound field model can be easily reproduced from 2D image data. For this reason, the processing load of the computer or the cloud server 104 can be reduced compared with the case where a 3D model is used.
- FIG. 8 is a block diagram when the sound system of the present embodiment is applied to a hearing aid.
- hearing aids have a problem that it takes time and effort because the sound including the sound quality is manually adjusted.
- the user can adjust the sound using a smartphone application or the like.
- pinna due to the influence of diffraction and reflection by the external ear and external auditory canal (mainly referred to as pinna), there is a useless frequency even if emphasized, and it is difficult for the user to adjust individually.
- relative frequency balance is important for natural tone reproduction. For example, if only some frequencies are emphasized, it becomes unnatural.
- acoustic filter parameter estimation is performed from an image of the outer ear using an acoustic program provided in the smartphone 600 or the like.
- one or more frequencies of interference notch frequency, that is, a frequency that becomes a node at an assumed eardrum position
- amplitude (gain) and frequency width (bandwidth) are estimated from an image of the pinna.
- one or more frequencies that resonate peak frequency, that is, a frequency that becomes an antinode at an assumed eardrum position
- amplitude (gain) and frequency width are estimated from the image of the pinna.
- the generated coefficient FIR, FFT, or IIR is sent to the hearing aid body 700.
- the hearing aid main body 700 performs acoustic filter processing on the sound picked up by the microphone 800 that is a sound collector.
- the sound after the acoustic filter processing whose volume is adjusted is reproduced as a sound that is easy to hear by the reproduction processing unit 900 such as an earphone.
- FIG. 9 is a flowchart when the sound system of this embodiment is applied to a hearing aid.
- step S20 the auricle is photographed by a camera such as the smartphone 600, and an image of the auricle is acquired.
- step S21 the effects of ear reflection and diffraction are estimated from the image. That is, interference frequencies that affect the ear shape are blocked.
- the filter coefficient for obtaining a relative frequency filter that affects the ear shape for reproduction of a natural tone color is estimated and generated. Then, the filter coefficient that transmits the frequency band in which the ease of hearing efficiently changes by emphasizing and blocks the inefficient frequency band in which the ease of hearing is difficult to change is generated.
- step S22 the filter coefficient generated from the smartphone 600 to the hearing aid main body 700 is transmitted.
- the volume of a desired frequency band can be increased or decreased by using at least one of interference, resonance frequency, amplitude, and frequency width.
- step S23 the overall volume is adjusted.
- step S24 the sound picked up by the microphone 800 is filtered and output, and the process ends.
- FIG. 10 is a block diagram illustrating a case where the sound system of this embodiment is applied to dubbing.
- the language of video content such as movies and dramas
- content excluding dialogue is imported and dubbed in the importing country.
- the effect processing of the dubbed language is performed by a local sound engineer.
- One of the effects processing is adding reverberation. This reverberation adding work depends on the skill of the sound engineer. In addition, the work process is complicated and enormous.
- a recording device 1103 for inputting voice-over sound and an authoring device 1104 for reading and writing a storage medium such as a DVD or Blu-ray (registered trademark) are connected to the arithmetic unit 1101.
- the calculation unit 1101 is provided with a filter coefficient generation unit 1102 that performs reverberation parameter estimation as an acoustic program.
- FIG. 11 is a flowchart when the sound system of this embodiment is applied to dubbing.
- step S30 an image from a recording device, which is a movie scene, is input to the calculation unit 1101.
- the scene may be a still image or a moving image.
- step S31 the filter coefficient generation unit 1102 generates a spatial acoustic filter coefficient that is one of the filter coefficients matching the scene of the movie.
- step S32 the calculation unit 1101 transmits the reverberation coefficient generated to the sound mixing tool.
- step S ⁇ b> 33 dubbing sound is recorded using the recording device 1103.
- step S34 after the dubbing voice is mixed and volume-adjusted by applying a spatial acoustic filter coefficient, the authored data is written to the storage medium using the authoring device 1104 to be in a reproducible format, and the process ends. .
- FIG. 12 is a block diagram illustrating a case where the sound system of this embodiment is applied to reverberation processing.
- An acoustic system 1200 illustrated in FIG. 12 is a voice recognition device that recognizes a voice collected by a microphone 800 using a voice recognition processing unit 1210 and performs a response or a switch operation of a home appliance.
- reverberation processing is one of the important issues. For example, there is a method of removing reflected sound and reverberation sound in a direction where there is no speaker by estimating the direction of the speaker with a plurality of microphones and adjusting the directivity of the microphone. However, this method requires a large number of microphones and is not efficient.
- a method for estimating reverberation characteristics from a microphone input is also known. With this method, it is difficult to estimate reverberation when there is no sound or when the volume is low, and reverberation cannot be estimated unless there is a large input from the microphone.
- FIG. 13 shows information processing when the acoustic system is applied to reverberation processing.
- step S40 room reverberation parameters are estimated from the image data sent to the calculation unit 1201, and dereverberation filter coefficients are generated.
- step S42 the voice of the speaker is input from the microphone 800.
- step S43 the sound picked up by the microphone 800 is filtered by the calculation unit 1201 applying a dereverberation filter.
- step S44 the voice recognition processing unit 1210 performs voice recognition, performs a response or performs a switch operation on the home appliance, and ends the process.
- the acoustic system 1200 of this embodiment estimates reverberation characteristics from an image. Thereby, the reverberation of an audio
- FIGS. 14 to 16 show an application of the acoustic system of the present embodiment to noise canceling.
- a signal processing method called active noise canceling that outputs a signal having a phase opposite to that at a certain point (control point) and cancels the noise.
- noise is collected by the reference microphone, and the output from the speaker is controlled to have an opposite phase until the noise reaches the control point.
- the anti-phase filter is realized by limiting the frequency band required for canceling, assuming the situation where it is used in a train or an airplane.
- FIG. 14 is a block diagram for explaining a case where the acoustic system is applied to noise canceling.
- a plurality of microphones 800 and a plurality of speakers 1320 are connected to the calculation unit 1310.
- the calculation unit 1310 includes a noise determination unit 1310n that determines a noise source, a frequency characteristic estimation unit 1310a that estimates / classifies noise frequency characteristic parameters, and a propagation pattern characteristic estimation unit 1310b that estimates / classifies noise propagation patterns.
- a plurality of filter coefficients are generated using the noise frequency characteristic parameter and the noise propagation pattern. The plurality of generated filter coefficients are output as noise cancellation signals from the plurality of speakers 1320.
- FIG. 15 shows what is applied to noise canceling of a moving object.
- a filter coefficient that takes into account the position information of the moving object generating noise is generated using the noise position information unit 1310 c.
- the generated filter coefficients are obtained by taking into account the noise source position, frequency characteristics (bandwidth), and propagation characteristics depending on the vibration pattern of the noise source.
- the propagation characteristic is at least one of a spherical wave of a point sound source and a plane wave of a line sound source or a surface sound source.
- noise cancellation signals are output from the plurality of speakers 1320.
- Other configurations are the same as those in FIG.
- FIG. 16 is a flowchart illustrating an example of noise canceling information processing.
- a noise source is imaged by the plurality of imaging devices 2 in step S50.
- the calculation unit 1310 (1410) "determines whether or not the noise source is to be eliminated. If it is determined in step S51 that the noise source is to be eliminated (yes in step S51), the process proceeds to the next step S52. If it is determined that the noise source is not to be eliminated (no in step S51), the process proceeds to step S52. Returning to S ⁇ b> 50, shooting is continued with the plurality of imaging devices 2.
- step S53 a plurality of filter coefficients are generated using the noise frequency characteristic parameter, the noise propagation pattern, and the position information of the noise source as necessary.
- the image data may be a moving image.
- the spatial acoustic filter coefficient is estimated using a difference between the moving image frame and the background image or the previous frame.
- step S54 noise canceling is performed on the inputs of the plurality of noise reference microphones 800, and the input is output from the plurality of speakers 1320, and the process is terminated.
- the situation and phenomenon to be noise-cancelled are recognized from the image and determined. Then, a plurality of filter coefficients are generated using the noise frequency characteristic parameter, the noise propagation pattern, and the position information of the noise source as necessary. For this reason, the accuracy of noise canceling can be further improved.
- the image since the image uses light as a medium, it can be captured at high speed, and the generation of filter coefficients can be started faster than the sound speed at which the microphone 800 captures sound. For this reason, the amount of calculation can be increased and the real-time property can be further improved. Further, when there is no noise source, a signal for noise cancellation is not output from the speaker 1320. Therefore, there is no useless calculation processing. Furthermore, since an unintended signal is not output from the speaker 1320, the risk that the canceling wave adversely affects the surroundings can be reduced. Other configurations and operational effects are the same as or equivalent to those of the embodiment, and thus the description thereof is omitted.
- the acoustic program, the acoustic device, the acoustic system, and the image generation program according to the present embodiment have been described in detail above, but the present invention is not limited to these embodiments, and does not depart from the spirit of the present invention. Needless to say, it can be changed as appropriate.
- the calculation unit 101 of the present embodiment is provided in a computer constituting the system, but is not limited thereto.
- the calculation unit 101 may be provided in the cloud server 104 as shown in FIG.
- the neural network 300 may be provided in the cloud server 104 independently of the computing unit 101 of the computer.
- the neural network 300 that performs deep learning is not limited to being convoluted in multiple stages as in the embodiment.
- any artificial intelligence or program may be used as long as a sound field model can be learned and estimated by combining sample images and reverberant sound parameters.
- the acoustic device 100 as an encoder and the acoustic device 200 as a decoder are individually provided.
- the present invention is not limited to this, and the acoustic device 100 and the acoustic device 200 are integrally provided to be shared.
- One arithmetic unit may function as an encoder and a decoder.
- the imaging device 2, the sound collection device 3, the storage device 4, and the playback device 5 connected to the calculation units 101 and 201 of the acoustic devices 100 and 200 are not limited to the embodiment, and particularly image data and acoustic data.
- a device capable of inputting / outputting any information such as a device capable of inputting by connecting, may be connected.
- the measurement method for measuring the reverberation sound of a structure also uses TSP (Time Stretched). Pulse).
- TSP Time Stretched. Pulse
- a measurement method that measures the reverberation sound of any sound such as a measurement method using other impulses, a measurement method using M-sequence, white noise, or pink noise, may be used.
- the reverberation sound of the structure represented in each sample image is sampled every 200 hz.
- sampling may be performed in any unit such as every octave or every 1/3 octave.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Stereophonic System (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
2Dの画像データから簡易に音場モデルが再現される。さらに、パラメータが不明な未知の画像データの音響フィルタを容易に得られる。音響システムの制御部を構成する音響装置100は、主にコンピュータで構成される演算部101に、撮像装置2と、集音装置3と、記憶装置4とを接続して構成されている。演算部101は、未知の画像に音場を立体的に再現するための空間音響フィルタ係数を関連させるエンコーダとして機能する。また、音響装置100とは、別体で構成可能なデコーダは、演算部101にさらに再生装置が接続される。そして、再生装置からは、未知の画像に対応する空間音響フィルタ特性から得られる残響音が付加されて、2Dの画像に対応する音響が出力される。
Description
本発明は、音響プログラム、音響装置、および音響システムに関する。
従来、音響技術の分野において、実際にその場にいるような自然な聞こえ方(以下、臨場感とも記す)となるように、フィルタ処理を施して録音場に特有の残響音(以下、残響とも記す)等の音響特性を立体的に再現する音響システムが研究されている(たとえば、特許文献1~4等参照)。
近年、3D空間モデルを用いて音の反射を計算することで音響特性を記録し、音場を再生する際のフィルタ特性として利用しようとする試みがある。
しかしながら、このようなものでは、3D空間モデルを用いて音の反射を計算する必要がある。
特に、室内空間では、部屋の構造により各所で異なる反射特性が残響音として大きく影響する。このため、音線法等によって音場を可聴化 (auralization)しようとすると、2Dの画像から3Dモデルを詳細に復元(3D Reconstruction)する処理等が必要となる。したがって音場モデルの計算の情報量が増大して、膨大な演算を行わなければならなかった。
一方、熟練した建築音響の技術者、録音技師などの長年音響に携わる者は、部屋の構造を見て、音響特性を把握できるケースがある。
しかしながら、このようなものでは、3D空間モデルを用いて音の反射を計算する必要がある。
特に、室内空間では、部屋の構造により各所で異なる反射特性が残響音として大きく影響する。このため、音線法等によって音場を可聴化 (auralization)しようとすると、2Dの画像から3Dモデルを詳細に復元(3D Reconstruction)する処理等が必要となる。したがって音場モデルの計算の情報量が増大して、膨大な演算を行わなければならなかった。
一方、熟練した建築音響の技術者、録音技師などの長年音響に携わる者は、部屋の構造を見て、音響特性を把握できるケースがある。
そこで、本発明は、2Dの画像データから簡易に立体的な音場モデルを再現する音響プログラム、音響装置、および音響システムを提供する。さらに本発明は、パラメータが不明な未知の画像データの音響フィルタを容易に得られる音響プログラム、音響装置、および音響システムを提供することを課題としている。
本発明に係る音響プログラムは、未知の画像に音場を立体的に再現するための空間音響フィルタ係数を関連させる音響プログラムであって、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータを求めて、サンプル画像に表された構造物の音場モデルを学習させることを特徴としている。
本発明によれば、2Dの画像データから簡易に音場モデルが再現される。さらに本発明は、パラメータが不明な未知の画像データの音響フィルタを容易に得られる。
本発明の実施形態について、図面を参照して詳細に示す。説明において、同一の要素には同一の番号を付し、重複する説明は省略する。
<エンコーダ>
図1に示す音響装置100は、主にコンピュータで構成される演算部101に、撮像装置2と、集音装置3と、記憶装置4とを接続して構成されている。
このうち、演算部101は、パラメータ(特徴量)が不明な未知の画像(以下、未知の画像とも記す)の音場を立体的に再現するための空間音響フィルタ係数(以下、単に係数ともいう)を関連させるエンコーダとして機能する。
すなわち、演算部101は、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータを求める。そして、演算部101は、複数のサンプル画像に表された構造物のそれぞれの音場モデルを学習する。学習は、数十~数千のサンプル画像と、これらのそれぞれのサンプル画像に対応する空間音響フィルタ係数を用いて行われる。
図1に示す音響装置100は、主にコンピュータで構成される演算部101に、撮像装置2と、集音装置3と、記憶装置4とを接続して構成されている。
このうち、演算部101は、パラメータ(特徴量)が不明な未知の画像(以下、未知の画像とも記す)の音場を立体的に再現するための空間音響フィルタ係数(以下、単に係数ともいう)を関連させるエンコーダとして機能する。
すなわち、演算部101は、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータを求める。そして、演算部101は、複数のサンプル画像に表された構造物のそれぞれの音場モデルを学習する。学習は、数十~数千のサンプル画像と、これらのそれぞれのサンプル画像に対応する空間音響フィルタ係数を用いて行われる。
音響装置100は、エンコーダとして機能する場合、ディープラーニングによる学習を行う(後記)。音響装置100は、例えば空間音響フィルタ特性400e(後記)から特徴量を推定するためにニューラルネットワーク300(後記)を学習する。
また、音響装置100は、音響フィルタ生成のデコード処理や音響処理を行うデコーダとして機能する。
撮像装置2は、カメラ等の情報機器により主に構成されている。撮像装置2は、建築物の内部空間、たとえばコンサートホールや講堂等の2D(二次元平面画像、以下単に2Dと記す)のサンプル画像を収集する。サンプル画像は、静止画に限らず、動画を用いてもよい。すなわち、撮像装置2は、音場となる建物等の構造物を撮像して、画像データとして演算部101に出力する。また、撮像装置2は、予め撮像されたサンプル画像を画像データとして演算部101に出力するようにしてもよい。
集音装置3は、マイク等によって主に構成されている。サンプル画像の音響データを収集する際には、集音装置3は、コンサートホール等の客席で、聴衆と同じ位置となるように配置され、構造物で発生した音を集音する。
そして、集音装置3には、既存のFIR(有限インパルス応答)、FFT(高速フーリエ変換)、またはIIR(無限インパルス応答)の何れかの方式若しくは他の方式で発生した音による構造物からの反響音を集音する。
ここで、撮像装置2から送られてくる画像のパラメータ推定を安定させるため、画角・構造判別を行ってもよい。
そして、集音装置3には、既存のFIR(有限インパルス応答)、FFT(高速フーリエ変換)、またはIIR(無限インパルス応答)の何れかの方式若しくは他の方式で発生した音による構造物からの反響音を集音する。
ここで、撮像装置2から送られてくる画像のパラメータ推定を安定させるため、画角・構造判別を行ってもよい。
すなわち、同じコンサートホールの画像であっても、一部の壁や床が拡大された画像では、正しくパラメータ推定することが困難である。
例えば、床が拡大された画像であった場合、これがコンサートホールの画像なのか、狭い部屋の床であるか判別が困難であり、学習画像にコンサートホールの床の拡大図があった場合、たとえ入力が狭い部屋の床であったとしても、誤ってコンサートホールのようなパラメータが推定されてしまう可能性がある。
例えば、床が拡大された画像であった場合、これがコンサートホールの画像なのか、狭い部屋の床であるか判別が困難であり、学習画像にコンサートホールの床の拡大図があった場合、たとえ入力が狭い部屋の床であったとしても、誤ってコンサートホールのようなパラメータが推定されてしまう可能性がある。
そこで、画角・構造判別の一例として、例えば床認識、壁認識、天井認識などを行う。そして、三次元空間で撮影された室内壁の六面のうち、少なくとも三面の面を認識した場合とするか、あるいは、画像から深度推定を行い、一定値以上の深度の差分が見られた場合のみ、パラメータ推定するものとしてもよい。
あるいは、熟練の音響技術者がパラメータ推定について可能か否かを判別した大量の画像を用いてニューラルネットワークを学習させた判別器を用いて、画角・構造判別を行ってもよい。
なお、サンプル画像と関連付けることにより、予め集音された音響データを集音装置3に入力して収集するようにしてもよい。
あるいは、熟練の音響技術者がパラメータ推定について可能か否かを判別した大量の画像を用いてニューラルネットワークを学習させた判別器を用いて、画角・構造判別を行ってもよい。
なお、サンプル画像と関連付けることにより、予め集音された音響データを集音装置3に入力して収集するようにしてもよい。
記憶装置4は、メモリ若しくはハードディスクドライブによって構成されている。記憶装置4は、生成された音響フィルタの空間音響フィルタ係数からなる音場モデルを保持して読み書き可能としている。
なお、撮像装置2および集音装置3は、音響装置100を構成する一例であって、必須の構成要素ではない。
演算部101は、音響プログラムを実行する。音響プログラムは、予め演算部101に組込まれていてもよいし、読み込まれるように構成されていてもよい。また、たとえば、後述するクラウド上のクラウドサーバ104(図7参照)に、演算部101を設けて音響プログラムの一部または全部をクラウドサーバ104で実行するようにしてもよい。音響プログラムは、音響推定プログラムおよび音響合成プログラムを示す(以下、音響推定プログラムまたは音響合成プログラムのうち少なくとも何れか一方を含むものを、音響プログラムと記す。)。
本実施形態の音響プログラムは、音場を立体的に再現するために、既定の室内空間データであるサンプル画像に対応する空間音響フィルタ係数に関連する複数のパラメータを求めて、サンプル画像に表された構造物の音場モデルを学習する。
また、音響プログラムは、記憶装置4に保持されているサンプル画像を用いて音場モデルを構築する。
すなわち、音響プログラムは、予め学習されたサンプル画像の音場モデルから、実際に撮像装置2で撮像されて、パラメータが不明な未知の画像について、構築された音場モデルに基づいて空間音響フィルタ係数を推定する。
そして、音響プログラムは、集音装置3から入力された音響データに、サンプル画像の構造物で演奏等されている状態に近似した音場モデルの残響データを掛け合わせて付加する。
すなわち、音響プログラムは、予め学習されたサンプル画像の音場モデルから、実際に撮像装置2で撮像されて、パラメータが不明な未知の画像について、構築された音場モデルに基づいて空間音響フィルタ係数を推定する。
そして、音響プログラムは、集音装置3から入力された音響データに、サンプル画像の構造物で演奏等されている状態に近似した音場モデルの残響データを掛け合わせて付加する。
図2A-Bは、学習の際、音場の映像データと対応する音響データとを複数、関連させる様子を示した模式図である。この図2のグラフでは、縦軸に音量(dB)、横軸に周波数(Hz)および時間(Sec)がそれぞれ設定されている。
本実施形態の音響装置100では、各サンプル画像に表される構造物の反響音がオクターブバンドとして200hzごとに10個の音域に区分されてサンプリングされる。
200hzごとにサンプリングされた空間音響フィルタ特性(初期値から60dB低下するまでの傾き)400a~400dは、サンプル画像a~dの構造物に対応して少しずつ相違していることがわかる。
そして、これらの相違点は、後述するディープラーニングによる学習と推定の際に、構造物によって特性が異なることに着目して、関連付けられる。たとえば、サンプル画像の特徴点として、材質が高い周波数は吸収し易い点や、残響に空間の奥行き寸法や、出入口や窓等の開口部の有無等が影響するといった点等が挙げられる。
本実施形態の音響装置100では、各サンプル画像に表される構造物の反響音がオクターブバンドとして200hzごとに10個の音域に区分されてサンプリングされる。
200hzごとにサンプリングされた空間音響フィルタ特性(初期値から60dB低下するまでの傾き)400a~400dは、サンプル画像a~dの構造物に対応して少しずつ相違していることがわかる。
そして、これらの相違点は、後述するディープラーニングによる学習と推定の際に、構造物によって特性が異なることに着目して、関連付けられる。たとえば、サンプル画像の特徴点として、材質が高い周波数は吸収し易い点や、残響に空間の奥行き寸法や、出入口や窓等の開口部の有無等が影響するといった点等が挙げられる。
<音場モデルの構築>
次に、音響装置100のエンコーダ処理/デコーダ処理について、図2Bおよび図3に示すデコーダ処理のフローチャートに沿って説明する。
この音響装置100では、音場モデルの構築の処理が下記のように実行される。
図3に示すステップS1では、撮像装置2にて、サンプル画像が撮影される。
これと同時に、実際の構造物の反響音が集音装置3によって集音されて測定される。測定方法は、インパルスを時間的に引き延ばしてエネルギを大きくした時間引き延ばしパルス、すなわち、TSP(Time Stretched Pulse)を用いる。
次に、音響装置100のエンコーダ処理/デコーダ処理について、図2Bおよび図3に示すデコーダ処理のフローチャートに沿って説明する。
この音響装置100では、音場モデルの構築の処理が下記のように実行される。
図3に示すステップS1では、撮像装置2にて、サンプル画像が撮影される。
これと同時に、実際の構造物の反響音が集音装置3によって集音されて測定される。測定方法は、インパルスを時間的に引き延ばしてエネルギを大きくした時間引き延ばしパルス、すなわち、TSP(Time Stretched Pulse)を用いる。
ステップS2では、撮像装置2から送られてくる画像のパラメータ推定を安定させるため、画角・構造判別を行う。
ステップS3では、サンプル画像に対して、空間音響フィルタ係数(パラメータ)が演算部201にて推定される。空間音響フィルタ係数の生成は、既存のFIR(有限インパルス応答)、FFT(高速フーリエ変換)、またはIIR(無限インパルス応答)の何れかの方式で行われる(図1参照)。
ステップS3では、サンプル画像に対して、空間音響フィルタ係数(パラメータ)が演算部201にて推定される。空間音響フィルタ係数の生成は、既存のFIR(有限インパルス応答)、FFT(高速フーリエ変換)、またはIIR(無限インパルス応答)の何れかの方式で行われる(図1参照)。
ステップS4では、CG画像が実際の室内空間の未知の画像に重畳される。ここでは、実際の室内空間の未知の画像に、サンプル画像に対応して作成されたCG画像であるコンサートホール等の舞台側のCG画像が重畳される。
ステップS5では、空間音響フィルタ処理が演算部201にて実行されて、音響フィルタが生成される。生成された音響フィルタは、対応するサンプル画像のデータとともに記憶装置4に蓄積されて、後述するディープラーニングによる学習に用いられる。
ステップS5では、空間音響フィルタ処理が演算部201にて実行されて、音響フィルタが生成される。生成された音響フィルタは、対応するサンプル画像のデータとともに記憶装置4に蓄積されて、後述するディープラーニングによる学習に用いられる。
そして、ステップS6では、図示しないスピーカ等の音響出力機器へ演算部101から音響出力が実施されて、生成された音場モデルによる音響を聴覚で確認してもよい。音響装置100は、音響の出力により処理を終了する。
このように構成された実施形態の音響装置100では、演算部101で音響プログラムが実行される。音響プログラムは、音場を立体的に再現するための空間音響フィルタ係数を未知の画像に関連させる。
本実施形態では、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータが求められて、サンプル画像に表された構造物の音場モデルが学習されている。
このため、建築物の内部空間、たとえばコンサートホールや講堂等の内部の情報が、2Dの未知のサンプル画像のみであっても、簡易に対応する音場モデルを構築して再現できる。
本実施形態では、予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータが求められて、サンプル画像に表された構造物の音場モデルが学習されている。
このため、建築物の内部空間、たとえばコンサートホールや講堂等の内部の情報が、2Dの未知のサンプル画像のみであっても、簡易に対応する音場モデルを構築して再現できる。
本実施形態の音響システムの音響装置100では、撮像装置2から演算部101に入力されるサンプル画像に対応させて、音場モデルを構築するものを示して説明してきた。
しかしながら、特にこれに限らず、たとえば、予め他の場所で撮像されたサンプル画像のデータを音響装置100に入力してもよい。この場合、データ入力されたサンプル画像に対応して、空間音響フィルタ係数に関する複数のパラメータを求めて、サンプル画像に表された構造物の音場モデルを演算部101で構築する。
また、実際の構造物の反響音を測定しない場合は、記憶装置4に蓄積された他の構造物に対応させた音響フィルタを、後述するディープラーニングで学習させて、実際の構造物の反響音に近似する空間音響フィルタ係数からなる音場モデルを演算することができる。
しかしながら、特にこれに限らず、たとえば、予め他の場所で撮像されたサンプル画像のデータを音響装置100に入力してもよい。この場合、データ入力されたサンプル画像に対応して、空間音響フィルタ係数に関する複数のパラメータを求めて、サンプル画像に表された構造物の音場モデルを演算部101で構築する。
また、実際の構造物の反響音を測定しない場合は、記憶装置4に蓄積された他の構造物に対応させた音響フィルタを、後述するディープラーニングで学習させて、実際の構造物の反響音に近似する空間音響フィルタ係数からなる音場モデルを演算することができる。
<デコーダ>
図4は、音響システムの音響装置200の構成を説明するブロック図である。本実施形態では、図1に示す音響装置100と図4に示す音響装置200とを個別に構成している。しかしながら、特にこれに限らず、たとえば一つの演算部101または201によって、この音響システムの音響装置を構成して、一つの音響プログラムで音場モデルの学習による構築と、音場モデルを用いた音響の再生とを実行するようにしてもよい。
図4は、音響システムの音響装置200の構成を説明するブロック図である。本実施形態では、図1に示す音響装置100と図4に示す音響装置200とを個別に構成している。しかしながら、特にこれに限らず、たとえば一つの演算部101または201によって、この音響システムの音響装置を構成して、一つの音響プログラムで音場モデルの学習による構築と、音場モデルを用いた音響の再生とを実行するようにしてもよい。
本実施形態では、音響装置100と重複する部分は、同一符号を付して説明を省略し、音響装置100と相違する部分を中心に説明する。
図4に示すように、音響装置200の音響フィルタ処理には、記憶装置6に記憶された音源データや再生音データが入力される。音響装置200は、演算部201に再生装置5が接続されている。
そして、音響装置200は、音響プログラムを実行することによりデコーダとして機能する。デコーダは、予め学習されたサンプル画像の音場モデルを用いて、パラメータが不
明な未知の画像に関する空間音響フィルタ係数を推定する。
再生装置5は、音響出力装置として機能する。音響出力装置は、主に構築された音場モデルに基づいて、入力した音響を入力された画像に対応させて、残響特性を掛合わせて付加された音響を出力する機能を有する。他の構成は、音響装置100と同一乃至均等であるので説明を省略する。
図4に示すように、音響装置200の音響フィルタ処理には、記憶装置6に記憶された音源データや再生音データが入力される。音響装置200は、演算部201に再生装置5が接続されている。
そして、音響装置200は、音響プログラムを実行することによりデコーダとして機能する。デコーダは、予め学習されたサンプル画像の音場モデルを用いて、パラメータが不
明な未知の画像に関する空間音響フィルタ係数を推定する。
再生装置5は、音響出力装置として機能する。音響出力装置は、主に構築された音場モデルに基づいて、入力した音響を入力された画像に対応させて、残響特性を掛合わせて付加された音響を出力する機能を有する。他の構成は、音響装置100と同一乃至均等であるので説明を省略する。
<ディープラーニング>
図5は、演算部201で実行される多数段に畳み込まれたディープラーニングの手法を用いた空間音響フィルタ係数の推定の様子を示す模式図である。
具体的には、音場モデルを構築するために図5に示すディープラーニング(図5中左から2番目)を用いる場合、4つの入力で4つの出力(パラメータ)が出力される状況では、乗算の重みをフィードバックにより変えている。
すなわち、学習の際、正解データとの差分(損失関数)が大きい場合、逆伝搬により後ろの重み係数のパラメータを更新する。この繰り返しにより、たとえば、奥行きが残響に与える影響が大きい場合、重み係数を増大させる。
また、天井の相違が少ないとする場合は、重み係数が0となると使われない枝が生じ、フィードバックによる精度を向上させる。
一方、後述する音響フィルタを推定する出力の場合では、4つの入力でそのまま、4つの出力(パラメータ)がベクトルの演算として出力される。
図5は、演算部201で実行される多数段に畳み込まれたディープラーニングの手法を用いた空間音響フィルタ係数の推定の様子を示す模式図である。
具体的には、音場モデルを構築するために図5に示すディープラーニング(図5中左から2番目)を用いる場合、4つの入力で4つの出力(パラメータ)が出力される状況では、乗算の重みをフィードバックにより変えている。
すなわち、学習の際、正解データとの差分(損失関数)が大きい場合、逆伝搬により後ろの重み係数のパラメータを更新する。この繰り返しにより、たとえば、奥行きが残響に与える影響が大きい場合、重み係数を増大させる。
また、天井の相違が少ないとする場合は、重み係数が0となると使われない枝が生じ、フィードバックによる精度を向上させる。
一方、後述する音響フィルタを推定する出力の場合では、4つの入力でそのまま、4つの出力(パラメータ)がベクトルの演算として出力される。
本実施形態の演算部201は、ニューラルネットワーク300(図5中左から2番目)を用いて、未知の画像e(図中左端)の空間音響フィルタ特性(図5中左から3番目)を、蓄積された画像と関連する空間音響フィルタ係数を演算する。
ニューラルネットワーク300は、ディープラーニングを行うため、判断とフィードバックとが繰り返されるように多数段に畳み込まれている。ニューラルネットワーク300では、図5中左側からの入力により右側に向けて出力される判断と、後段に戻るフードバックとが複数回、本実施形態では、四段繰り返されて、空間音響フィルタ特性がパラメータとして演算される。
ニューラルネットワーク300は、ディープラーニングを行うため、判断とフィードバックとが繰り返されるように多数段に畳み込まれている。ニューラルネットワーク300では、図5中左側からの入力により右側に向けて出力される判断と、後段に戻るフードバックとが複数回、本実施形態では、四段繰り返されて、空間音響フィルタ特性がパラメータとして演算される。
ディープラーニングでは、未知の画像として完全に一致するサンプル画像が予め学習されている場合には、このサンプル画像と同じ空間音響フィルタ係数を関連する空間音響フィルタ係数として推定する。
また、ディープラーニングでは、未知の画像eが予め学習されているサンプル画像にない場合には、このサンプル画像と近似する空間音響フィルタ係数を関連する空間音響フィルタ係数として推定することができる。
また、ディープラーニングでは、未知の画像eが予め学習されているサンプル画像にない場合には、このサンプル画像と近似する空間音響フィルタ係数を関連する空間音響フィルタ係数として推定することができる。
さらに、ディープラーニングでは、未知の画像eが予め学習されているサンプル画像にない場合、学習されたサンプル画像の空間音響フィルタ係数にはない空間音響フィルタ係数であっても、未知の画像eに関連する空間音響フィルタ係数として、推定することができる。
このように、学習されたサンプル画像の空間音響フィルタ係数以外の異なる空間音響フィルタ係数が出力として得られることも、ディープラーニングの特徴の一つである。
そして、本実施形態の音響システムでは、未知の画像eとともに入力された音響は、この推定された空間音響フィルタ特性400eから得られる残響特性500e(図中右端)を掛け合わせて付加することにより、未知の画像eに対応する音響、ここでは、最も顕著に表れる残響特性を主として掛け合わされた音響が出力される。
このように、学習されたサンプル画像の空間音響フィルタ係数以外の異なる空間音響フィルタ係数が出力として得られることも、ディープラーニングの特徴の一つである。
そして、本実施形態の音響システムでは、未知の画像eとともに入力された音響は、この推定された空間音響フィルタ特性400eから得られる残響特性500e(図中右端)を掛け合わせて付加することにより、未知の画像eに対応する音響、ここでは、最も顕著に表れる残響特性を主として掛け合わされた音響が出力される。
<音響フィルタの推定>
次に、音響装置200のデコーダ処理について、図6に示すフローチャートに沿って説明する。図6は、クラウドを用いた場合のデコーダの応用フローチャートである。
音響装置200で処理を開始する。まず、ステップS10では、撮像装置2にて、未知の画像が撮影される。
次に、音響装置200のデコーダ処理について、図6に示すフローチャートに沿って説明する。図6は、クラウドを用いた場合のデコーダの応用フローチャートである。
音響装置200で処理を開始する。まず、ステップS10では、撮像装置2にて、未知の画像が撮影される。
ステップS11では、未知の画像の画像データがサーバに送信される。本実施形態では、サーバとして、図1の演算部101および記憶装置4を用いている。しかしながら、特にこれに限らず、図7に示すクラウドサーバ104であってもよい。
ステップS12では、未知の画像に対応する空間音響フィルタ係数が推定される。空間音響フィルタ係数の生成は、既存のFIR、FFT、またはIIRの何れか若しくは他の方式で行われる(図4参照)。
ステップS13では、CG画像が実際の室内空間の画像に重畳される。ここでは、実際の室内空間の画像に、サンプル画像に対応して作成されたCG画像であるコンサートホール等の舞台側のCG画像が重畳される。このため、ユーザは、実際の室内空間である自宅の部屋に居ながら、コンサートホール等の舞台側の映像および音響を観賞できる。
また、後述する図7のCG画 のように、AR(Augmented Reality:拡張現実)ヘッドマウントディスプレイ105を用いて実際の室内空間の画像に重畳させてもよい。
ステップS13では、CG画像が実際の室内空間の画像に重畳される。ここでは、実際の室内空間の画像に、サンプル画像に対応して作成されたCG画像であるコンサートホール等の舞台側のCG画像が重畳される。このため、ユーザは、実際の室内空間である自宅の部屋に居ながら、コンサートホール等の舞台側の映像および音響を観賞できる。
また、後述する図7のCG画 のように、AR(Augmented Reality:拡張現実)ヘッドマウントディスプレイ105を用いて実際の室内空間の画像に重畳させてもよい。
ステップS14では、空間音響フィルタ処理が実行されて、音響フィルタが生成される。生成された音響フィルタは、記憶装置4または、クラウド上のクラウドサーバ104に蓄積される。クラウドサーバ104では、音響プログラムが構築され、クラウドに接続された複数の撮像装置から画像データおよび音響データを収集することができる。
このため、画像データおよび音響データの数量を増大させて、学習および推定の精度を向上させることができる。
このため、画像データおよび音響データの数量を増大させて、学習および推定の精度を向上させることができる。
ステップS15では、演算部201がスピーカ等により構成される再生装置5に音響を出力する。音響の出力によりデコーダ処理は、終了する。
このように構成された実施形態の音響装置200では、パラメータが不明な未知の画像であっても、画像データに対応する音響フィルタを容易に得られる。
しかも、音響フィルタは、演算部201のディープラーニングにより、未知の画像eが予め学習されているサンプル画像にない場合、学習されたサンプル画像のうち、もっとも未知の画像eに近いサンプル画像の空間音響フィルタ係数よりもさらに、未知の画像eの空間音響フィルタ係数として、ふさわしい空間音響フィルタ係数を、推定することができる。
このため、単なる学習したサンプル画像の数量を増大させることにより得られる一致度よりも高い一致度で未知の画像eの空間音響フィルタ係数を推定することができる。
このように構成された実施形態の音響装置200では、パラメータが不明な未知の画像であっても、画像データに対応する音響フィルタを容易に得られる。
しかも、音響フィルタは、演算部201のディープラーニングにより、未知の画像eが予め学習されているサンプル画像にない場合、学習されたサンプル画像のうち、もっとも未知の画像eに近いサンプル画像の空間音響フィルタ係数よりもさらに、未知の画像eの空間音響フィルタ係数として、ふさわしい空間音響フィルタ係数を、推定することができる。
このため、単なる学習したサンプル画像の数量を増大させることにより得られる一致度よりも高い一致度で未知の画像eの空間音響フィルタ係数を推定することができる。
<クラウドコンピューティングおよびARへの応用>
図7は、クラウドサーバ104により構築される音場に基づいて映像データを、音響出力装置の一つとしてのARヘッドマウントディスプレイ105によって、現実空間に重畳させる様子を示している。
図7は、クラウドサーバ104により構築される音場に基づいて映像データを、音響出力装置の一つとしてのARヘッドマウントディスプレイ105によって、現実空間に重畳させる様子を示している。
たとえば、コンサートホールの映像データを現実空間に重畳させることにより、演奏者がコンサートホール内で演奏しているかのような視聴覚効果が得られる。
さらに、ARヘッドマウントディスプレイ105に撮像装置106を設ければ、ユーザPが見ている現実の空間とバイザーに投影される画像とを重畳させることが出来、画像で登場した演奏者の位置に対応した立体的な音響をヘッドホンから出力することもできる。
さらに、ARヘッドマウントディスプレイ105に撮像装置106を設ければ、ユーザPが見ている現実の空間とバイザーに投影される画像とを重畳させることが出来、画像で登場した演奏者の位置に対応した立体的な音響をヘッドホンから出力することもできる。
また、クラウドコンピューティング(cloud computing:インターネットなどを経由し
て、コンピュータ資源をサービスの形で提供する利用形態)のクラウドサーバ104に音響システムの一部または全部を委ねることができる。
この場合、インターネットを介してクラウドサーバ104に接続された複数の撮像装置2を含む多数の情報端末から、画像データおよび音響データを収集できる。
このため、構造物のサンプル画像に対応する音響データの数量を増大させることが可能となり、残響音等の学習および推定の時間を短縮して、未知の画像に対応させる空間音響フィルタ係数の精度を向上させることができる。
他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。
て、コンピュータ資源をサービスの形で提供する利用形態)のクラウドサーバ104に音響システムの一部または全部を委ねることができる。
この場合、インターネットを介してクラウドサーバ104に接続された複数の撮像装置2を含む多数の情報端末から、画像データおよび音響データを収集できる。
このため、構造物のサンプル画像に対応する音響データの数量を増大させることが可能となり、残響音等の学習および推定の時間を短縮して、未知の画像に対応させる空間音響フィルタ係数の精度を向上させることができる。
他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。
上述してきたように、本実施形態の音響プログラム、音響装置、および音響システムでは、サンプル画像と残響音のパラメータとを組み合せて、ディープラーニングを行うニューラルネットワーク300で学習させる。これにより、熟練した技術者のように2Dの画像から音場の特性を推定することができる。
また、2Dの画像データから簡易に音場モデルが再現される。このため、3Dモデルを用いる場合に比べて、コンピュータまたはクラウドサーバ104の処理負荷を減少させることができる。
<補聴器への応用>
図8は、本実施形態の音響システムを補聴器に応用する場合のブロック図である。
従来、補聴器は、音質を含む音の調整を人手で行っていたため、手間がかかるといった問題があった。
また、集音器の場合は、スマートフォンのアプリケーションなどを用いて使用者が音を調整できる。
しかしながら、外耳や外耳道(主に耳介とも記す)による回折や反射の影響で、強調しても無駄な周波数があり、使用者が個人で調整することは困難であった。
さらに、自然な音色再現には、相対的な周波数のバランスが重要である。たとえば一部の周波数のみを強調してしまうと不自然になってしまう、といった問題もあった。
図8は、本実施形態の音響システムを補聴器に応用する場合のブロック図である。
従来、補聴器は、音質を含む音の調整を人手で行っていたため、手間がかかるといった問題があった。
また、集音器の場合は、スマートフォンのアプリケーションなどを用いて使用者が音を調整できる。
しかしながら、外耳や外耳道(主に耳介とも記す)による回折や反射の影響で、強調しても無駄な周波数があり、使用者が個人で調整することは困難であった。
さらに、自然な音色再現には、相対的な周波数のバランスが重要である。たとえば一部の周波数のみを強調してしまうと不自然になってしまう、といった問題もあった。
図8に示すように、スマートフォン600などに設けられた音響プログラムを用いて、外耳の映像から音響フィルタパラメータ推定を行う。
たとえば、耳介の画像から、干渉する周波数(ノッチ周波数、つまり、想定される鼓膜位置で節となる周波数)、振幅(ゲイン)、および周波数の幅(バンド幅)を1つ以上推定する。
または、耳介の画像から、共鳴する周波数(ピーク周波数、つまり、想定される鼓膜位置で腹となる周波数)、振幅(ゲイン)、及び周波数の幅(バンド幅)を1つ以上推定する。
生成された係数FIR、FFT、またはIIRは、補聴器本体700に送られる。そして、補聴器本体700は、集音装置であるマイク800で拾われた音を、音響フィルタ処理する。
音量が調整された音響フィルタ処理後の音は、イヤホン等の再生処理部900により、聞き易い音となり再生される。
たとえば、耳介の画像から、干渉する周波数(ノッチ周波数、つまり、想定される鼓膜位置で節となる周波数)、振幅(ゲイン)、および周波数の幅(バンド幅)を1つ以上推定する。
または、耳介の画像から、共鳴する周波数(ピーク周波数、つまり、想定される鼓膜位置で腹となる周波数)、振幅(ゲイン)、及び周波数の幅(バンド幅)を1つ以上推定する。
生成された係数FIR、FFT、またはIIRは、補聴器本体700に送られる。そして、補聴器本体700は、集音装置であるマイク800で拾われた音を、音響フィルタ処理する。
音量が調整された音響フィルタ処理後の音は、イヤホン等の再生処理部900により、聞き易い音となり再生される。
図9は、本実施形態の音響システムを補聴器に応用した場合のフローチャートである。
まず、ステップS20で処理が開始されると、ステップS20では、スマートフォン600などのカメラで耳介が撮影されて、耳介の画像が取得される。
ステップS21では、画像から耳の反射や回折の影響を推定する。すなわち、耳形状に影響する干渉周波数を阻止する。あるいは、自然な音色の再現の為の耳形状に影響する相対的な周波数フィルタが得られるフィルタ係数を推定して生成する。
そして、強調することにより効率的に聞き易さが変化する周波数帯域を透過し、聞き易さが変化しにくい非効率的な周波数帯を阻止するフィルタ係数を生成する。
ステップS22では、スマートフォン600から補聴器本体700に生成されたフィルタ係数を送信する。
音響フィルタ処理では、干渉または共鳴する周波数、振幅および周波数の幅の少なくとも何れかを用いて、所望の周波数帯域の音量を増減することができる。
ステップS23では、全体の音量が調整される。
そして、ステップS24では、マイク800で拾われた音にフィルタをかけて出力して、処理を終了する。
まず、ステップS20で処理が開始されると、ステップS20では、スマートフォン600などのカメラで耳介が撮影されて、耳介の画像が取得される。
ステップS21では、画像から耳の反射や回折の影響を推定する。すなわち、耳形状に影響する干渉周波数を阻止する。あるいは、自然な音色の再現の為の耳形状に影響する相対的な周波数フィルタが得られるフィルタ係数を推定して生成する。
そして、強調することにより効率的に聞き易さが変化する周波数帯域を透過し、聞き易さが変化しにくい非効率的な周波数帯を阻止するフィルタ係数を生成する。
ステップS22では、スマートフォン600から補聴器本体700に生成されたフィルタ係数を送信する。
音響フィルタ処理では、干渉または共鳴する周波数、振幅および周波数の幅の少なくとも何れかを用いて、所望の周波数帯域の音量を増減することができる。
ステップS23では、全体の音量が調整される。
そして、ステップS24では、マイク800で拾われた音にフィルタをかけて出力して、処理を終了する。
このように、スマートフォン600側で聞き易くなる音域の調整が行える。したがって、補聴器は、調整が簡便になる。また、非効率的な周波数帯には、無駄な音エネルギを用いない。このため、ダイナミックレンジを大きくして、所望の音量を得ることができる。 さらに、一部の周波数のみを強調してしまうことが無くなり、自然な音色再現性を保ったまま、音量調整が可能となる。
他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。
他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。
〈吹替えへの応用〉
図10は、本実施形態の音響システムを吹替えに応用する場合を説明するブロック図である。 一般に、映画、ドラマなどの映像コンテンツの言語の吹替えを行う場合、台詞を除いたコンテンツを輸入し、輸入国で吹替えている。
吹替えの際、吹替えられる言語のエフェクト処理は、現地のサウンドエンジニアによって行われる。
エフェクト処理の一つとして残響を付加する作業がある。この残響付加作業は、サウンドエンジニアの技量に左右される。また、作業工程も煩雑で膨大なものとなるといった問題があった。
図10は、本実施形態の音響システムを吹替えに応用する場合を説明するブロック図である。 一般に、映画、ドラマなどの映像コンテンツの言語の吹替えを行う場合、台詞を除いたコンテンツを輸入し、輸入国で吹替えている。
吹替えの際、吹替えられる言語のエフェクト処理は、現地のサウンドエンジニアによって行われる。
エフェクト処理の一つとして残響を付加する作業がある。この残響付加作業は、サウンドエンジニアの技量に左右される。また、作業工程も煩雑で膨大なものとなるといった問題があった。
図10に示す音響装置1100は、演算部1101に、吹替え音声を入力する記録装置1103と,DVD,Blu-ray(登録商標)等の記憶媒体をフォーマットとして読書きを行うオーサリング装置1104とが接続されている。
また、演算部1101には、音響プログラムとして残響パラメータ推定を行うフィルタ係数生成部1102が設けられている。
また、演算部1101には、音響プログラムとして残響パラメータ推定を行うフィルタ係数生成部1102が設けられている。
図11は、本実施形態の音響システムを吹替えに応用した場合のフローチャートである。
まず、処理を開始すると、ステップS30は、映画の場面である記録装置からの画像が演算部1101に入力される。場面は、静止画であっても動画であってもよい。
ステップS31では、フィルタ係数生成部1102が映画の場面に合致するフィルタ係数の一つである空間音響フィルタ係数を生成する。
ステップS32では、演算部1101がサウンドミキシングツールに生成された残響係数を送信する。
ステップS33では、記録装置1103を用いて吹替え音声の録音が行われる。
ステップS34では、吹替え音声に空間音響フィルタ係数をかけてミキシングおよび音量調整された後、オーサリング装置1104を用いてオーサリングされたデータが記憶媒体に書込まれて、再生可能な形式となり処理が終了する。
まず、処理を開始すると、ステップS30は、映画の場面である記録装置からの画像が演算部1101に入力される。場面は、静止画であっても動画であってもよい。
ステップS31では、フィルタ係数生成部1102が映画の場面に合致するフィルタ係数の一つである空間音響フィルタ係数を生成する。
ステップS32では、演算部1101がサウンドミキシングツールに生成された残響係数を送信する。
ステップS33では、記録装置1103を用いて吹替え音声の録音が行われる。
ステップS34では、吹替え音声に空間音響フィルタ係数をかけてミキシングおよび音量調整された後、オーサリング装置1104を用いてオーサリングされたデータが記憶媒体に書込まれて、再生可能な形式となり処理が終了する。
このように、本実施形態の吹替えでは、映画、ドラマのなどのコンテンツの場面に合わせて、吹替えた音声に周囲の環境にあった自然な残響を付加することができる。
このため、サウンドエンジニアの作業工程が減少し、労力を削減できる。
このため、サウンドエンジニアの作業工程が減少し、労力を削減できる。
〈残響除去への応用〉
図12は、本実施形態の音響システムを残響処理に応用する場合を説明するブロック図である。
図12に示す音響システム1200は、マイク800で集音された音声を音声認識処理部1210で認識して、受け答えまたは、家電製品のスイッチ操作を行う音声認識機器である。
音声認識機器の音声認識率を向上させるため、残響処理は重要な課題の一つである。たとえば、複数のマイクで話者の方向を推定して、マイクの指向性を調整することで話者がいない方向の反射音や残響音を除去する方法がある。
しかしながら、この方法では、マイクの数量を多数用意しなければならず、効率的ではなかった。
図12は、本実施形態の音響システムを残響処理に応用する場合を説明するブロック図である。
図12に示す音響システム1200は、マイク800で集音された音声を音声認識処理部1210で認識して、受け答えまたは、家電製品のスイッチ操作を行う音声認識機器である。
音声認識機器の音声認識率を向上させるため、残響処理は重要な課題の一つである。たとえば、複数のマイクで話者の方向を推定して、マイクの指向性を調整することで話者がいない方向の反射音や残響音を除去する方法がある。
しかしながら、この方法では、マイクの数量を多数用意しなければならず、効率的ではなかった。
また、マイク入力から残響特性を推定する方法も知られている。
この方法では、無音時や小音量の際には、残響を推定することが困難であり、マイクから大きな入力がなければ残響を推定することができない。
この方法では、無音時や小音量の際には、残響を推定することが困難であり、マイクから大きな入力がなければ残響を推定することができない。
図12に示す本実施形態の音響システム1200は、演算部1201に撮像装置2からの画像データが入力するように構成されている。
次に、この音響システム1200の演算処理に沿って作用効果を説明する。
図13に示すフローチャートは、音響システムを残響処理に応用した場合の情報処理を示すものである。
まず、処理を開始すると、ステップS40で、撮像装置2(図12参照)を用いて部屋の画像を撮影する。
ステップS41では、演算部1201に送られた画像データから、部屋の残響パラメータを推定し、残響除去フィルタ係数を生成する。
ステップS42では、マイク800から話者の音声が入力される。
ステップS43では、マイク800で拾われた音声を演算部1201が残響除去フィルタをかけることによりフィルタ処理する。
ステップS44では、音声認識処理部1210が音声認識を行い、受け答えまたは、家電製品のスイッチ操作等を行い、処理を終了する。
図13に示すフローチャートは、音響システムを残響処理に応用した場合の情報処理を示すものである。
まず、処理を開始すると、ステップS40で、撮像装置2(図12参照)を用いて部屋の画像を撮影する。
ステップS41では、演算部1201に送られた画像データから、部屋の残響パラメータを推定し、残響除去フィルタ係数を生成する。
ステップS42では、マイク800から話者の音声が入力される。
ステップS43では、マイク800で拾われた音声を演算部1201が残響除去フィルタをかけることによりフィルタ処理する。
ステップS44では、音声認識処理部1210が音声認識を行い、受け答えまたは、家電製品のスイッチ操作等を行い、処理を終了する。
本実施形態の音響システム1200は、画像から残響特性を推定する。これにより、音声の残響を除去できる。したがって、音声認識機器の音声認識の精度を向上させることができる。
〈ノイズキャンセリングへの応用〉
図14~図16は、本実施形態の音響システムをノイズキャンセリングに応用するものを示している。
従来から、騒音をあるポイント(制御点)で逆位相となる信号を出力し、騒音を打消すアクティブノイズキャンセリングという信号処理方法が知られている。
このようなものでは、参照マイクで騒音を集音し、騒音が制御点に到達するまでにスピーカからの出力を逆位相となるように制御する。
しかしながら、この方法では、高い周波数ほど波長が短く、逆位相で打消すのが困難である。このため、電車内や飛行機内など利用される状況を想定して、打消すために必要とされる周波数帯域に制限して逆位相フィルタを実現している。
図14~図16は、本実施形態の音響システムをノイズキャンセリングに応用するものを示している。
従来から、騒音をあるポイント(制御点)で逆位相となる信号を出力し、騒音を打消すアクティブノイズキャンセリングという信号処理方法が知られている。
このようなものでは、参照マイクで騒音を集音し、騒音が制御点に到達するまでにスピーカからの出力を逆位相となるように制御する。
しかしながら、この方法では、高い周波数ほど波長が短く、逆位相で打消すのが困難である。このため、電車内や飛行機内など利用される状況を想定して、打消すために必要とされる周波数帯域に制限して逆位相フィルタを実現している。
また、ヘッドホンやイヤホンには無い空間的にノイズを打消す場合には、次のような問題もある。
たとえば、空間的にノイズを打消すためには、騒音源の位置、周波数特性(帯域)、騒音源の振動パターンによる伝搬特性を加味する必要がある。ここで、伝搬特性としては、点音源の球面波、線音源や面音源などの平面波等により異なることが知られている。
つまり、一種類の騒音削減は可能でも、様々な騒音に対応しようとすると、騒音の入力から、このようなパターンを推定する必要がある。このため、即時性が重要とされるアクティブノイズキャンセリングでは、大きな遅延を起こし、所望の消音性能を発揮できない虞があった。
また、騒音源がない場合は、ノイズを打消すキャンセル信号を出力すべきではない。しかしながら、騒音源を音で認識させるには、実際に音が参照信号を伝播してマイク入力する必要があり、大きな遅延の原因となっていた。
たとえば、空間的にノイズを打消すためには、騒音源の位置、周波数特性(帯域)、騒音源の振動パターンによる伝搬特性を加味する必要がある。ここで、伝搬特性としては、点音源の球面波、線音源や面音源などの平面波等により異なることが知られている。
つまり、一種類の騒音削減は可能でも、様々な騒音に対応しようとすると、騒音の入力から、このようなパターンを推定する必要がある。このため、即時性が重要とされるアクティブノイズキャンセリングでは、大きな遅延を起こし、所望の消音性能を発揮できない虞があった。
また、騒音源がない場合は、ノイズを打消すキャンセル信号を出力すべきではない。しかしながら、騒音源を音で認識させるには、実際に音が参照信号を伝播してマイク入力する必要があり、大きな遅延の原因となっていた。
図14は、音響システムをノイズキャンセリングに応用した場合を説明するブロック図である。
このようなものでは、演算部1310に、複数個のマイク800と、複数個のスピーカ1320とが接続されている。
また、演算部1310は、ノイズ源を判定するノイズ判定部1310nと、ノイズ周波数特性のパラメータを推定/分類する周波数特性推定部1310aと、ノイズの伝搬パターンを推定/分類する伝搬パターン特性推定部1310bとを備える。そして、ノイズ周波数特性のパラメータと、ノイズの伝搬パターンとを用いて、フィルタ係数を複数、生成する。生成された複数のフィルタ係数は、複数のスピーカ1320からノイズキャンセル信号として出力される。
このようなものでは、演算部1310に、複数個のマイク800と、複数個のスピーカ1320とが接続されている。
また、演算部1310は、ノイズ源を判定するノイズ判定部1310nと、ノイズ周波数特性のパラメータを推定/分類する周波数特性推定部1310aと、ノイズの伝搬パターンを推定/分類する伝搬パターン特性推定部1310bとを備える。そして、ノイズ周波数特性のパラメータと、ノイズの伝搬パターンとを用いて、フィルタ係数を複数、生成する。生成された複数のフィルタ係数は、複数のスピーカ1320からノイズキャンセル信号として出力される。
図15は、移動物体のノイズキャンセリングに応用するものを示している。図15では、図14の処理に加えて更に、ノイズ位置情報部1310cを用いてノイズを発生させている移動物体の位置情報を考慮したフィルタ係数を生成する。
このため、騒音源の位置、周波数特性(帯域)、騒音源の振動パターンによる伝搬特性が加味されて、生成された複数のフィルタ係数となる。伝搬特性は、点音源の球面波、線音源や面音源などの平面波のうち、少なくとも何れか一つである。そして、フィルタ係数に基づいて、複数のスピーカ1320からノイズキャンセル信号が出力される。
他の構成は、図14と同様である。
このため、騒音源の位置、周波数特性(帯域)、騒音源の振動パターンによる伝搬特性が加味されて、生成された複数のフィルタ係数となる。伝搬特性は、点音源の球面波、線音源や面音源などの平面波のうち、少なくとも何れか一つである。そして、フィルタ係数に基づいて、複数のスピーカ1320からノイズキャンセル信号が出力される。
他の構成は、図14と同様である。
図16は、ノイズキャンセリングの情報処理の一例を示すフローチャート図である。
まず、処理を開始すると、ステップS50では、複数の撮像装置2でノイズ源が撮影される。
ステップS51で、演算部1310(1410)」は、消すべきノイズ源か否かを判定する。ステップS51で、消すべきノイズ源であると判定された場合(ステップS51でyes)は、次のステップS52に進み、消すべきノイズ源ではないと判定された場合(ステップS51でno)は、ステップS50に戻り、複数の撮像装置2で撮影を続ける。
まず、処理を開始すると、ステップS50では、複数の撮像装置2でノイズ源が撮影される。
ステップS51で、演算部1310(1410)」は、消すべきノイズ源か否かを判定する。ステップS51で、消すべきノイズ源であると判定された場合(ステップS51でyes)は、次のステップS52に進み、消すべきノイズ源ではないと判定された場合(ステップS51でno)は、ステップS50に戻り、複数の撮像装置2で撮影を続ける。
ステップS53では、ノイズ周波数特性のパラメータと、ノイズの伝搬パターンと、必要に応じてノイズ源の位置情報を用いて、フィルタ係数を複数、生成する。この際、画像データは、動画であってもよい。そして、動画のフレームと、背景画像または前フレームとの差分を用いて、前記空間音響フィルタ係数を推定する。
ステップS54では、複数のノイズ参照用のマイク800の入力にノイズキャンセリングをかけて、複数のスピーカ1320から出力し、処理を終了する。
ステップS54では、複数のノイズ参照用のマイク800の入力にノイズキャンセリングをかけて、複数のスピーカ1320から出力し、処理を終了する。
このように、本実施形態では、画像からノイズキャンセリングの対象となる状況および現象を認識して、判定する。そして、ノイズ周波数特性のパラメータと、ノイズの伝搬パターンと、必要に応じてノイズ源の位置情報を用いて、フィルタ係数が複数、生成される。
このため、さらに、ノイズキャンセリングの精度を向上させることができる。
このため、さらに、ノイズキャンセリングの精度を向上させることができる。
すなわち、画像は、光を媒体とするため、高速で捉えられ、マイク800で音を捉える音速より早く、フィルタ係数の生成を開始することができる。
このため、演算量を増大させて、リアルタイム性をより向上させることができる。
また、騒音源がない場合は、ノイズキャンセリングを行う信号がスピーカ1320から出力されない。したがって無駄な演算処理がない。さらに、意図せぬ信号がスピーカ1320から出力されないため、キャンセリング波が周囲に悪影響を及ぼすリスクを減少させることができる。 他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。
このため、演算量を増大させて、リアルタイム性をより向上させることができる。
また、騒音源がない場合は、ノイズキャンセリングを行う信号がスピーカ1320から出力されない。したがって無駄な演算処理がない。さらに、意図せぬ信号がスピーカ1320から出力されないため、キャンセリング波が周囲に悪影響を及ぼすリスクを減少させることができる。 他の構成、および作用効果については、実施形態と同一乃至均等であるので説明を省略する。
以上、本実施形態に係る音響プログラム、音響装置、および音響システムおよび画像生成プログラムについて詳述してきたが、本発明はこれらの実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更可能であることは言うまでもない。
たとえば、本実施形態の演算部101は、システムを構成するコンピュータに設けられているが特にこれに限らない。たとえば、演算部101を図7に示すようなクラウドサーバ104に設けてもよい。
また、コンピュータの演算部101と独立させてクラウドサーバ104にニューラルネットワーク300を設けてもよい。さらに、ディープラーニングを行うニューラルネットワーク300についても、特に実施形態のような多数段に畳み込まれるものに限らない。
たとえば、サンプル画像と残響音のパラメータとを組み合せて、音場モデルの学習と推定が行えるものであれば、どのような人工知能やプログラムを用いてもよい。
また、コンピュータの演算部101と独立させてクラウドサーバ104にニューラルネットワーク300を設けてもよい。さらに、ディープラーニングを行うニューラルネットワーク300についても、特に実施形態のような多数段に畳み込まれるものに限らない。
たとえば、サンプル画像と残響音のパラメータとを組み合せて、音場モデルの学習と推定が行えるものであれば、どのような人工知能やプログラムを用いてもよい。
そして、本実施形態では、エンコーダとしての音響装置100と、デコーダとしての音響装置200とを個別に設けているが特にこれに限らず、音響装置100および音響装置200を一体に設けて、共通の一つの演算部がエンコーダとデコーダとして機能するようにしてもよい。
さらに、音響装置100,200の演算部101,201に接続される撮像装置2、集音装置3、記憶装置4、および再生装置5についても、特に実施形態に限らず、特に画像データや音響データを接続により入力可能なデバイス等、どのような情報の入出力が行える装置が接続されていてもよい。
さらに、音響装置100,200の演算部101,201に接続される撮像装置2、集音装置3、記憶装置4、および再生装置5についても、特に実施形態に限らず、特に画像データや音響データを接続により入力可能なデバイス等、どのような情報の入出力が行える装置が接続されていてもよい。
さらに、構造物の反響音を測定する測定方法についても、TSP(Time Stretched
Pulse)に限らない。たとえば、他のインパルスを用いた測定方法や、M系列、ホワイトノイズ、ピンクノイズを用いる測定方法等、どのような音の反響音を測定する測定方法であってもよい。
Pulse)に限らない。たとえば、他のインパルスを用いた測定方法や、M系列、ホワイトノイズ、ピンクノイズを用いる測定方法等、どのような音の反響音を測定する測定方法であってもよい。
また、本実施形態の音響装置100では、各サンプル画像に表される構造物の反響音が200hzごとにサンプリングされている。しかしながら特にこれに限らず、1オクターブ毎、1/3オクターブ毎等、どのような単位でサンプリングしてもよい。
2 撮像装置
3 集音装置
4 記憶装置
5 再生装置(音響出力装置)
100,200 音響装置
101,201 演算部
104 クラウドサーバ
300 ニューラルネットワーク
3 集音装置
4 記憶装置
5 再生装置(音響出力装置)
100,200 音響装置
101,201 演算部
104 クラウドサーバ
300 ニューラルネットワーク
Claims (16)
- 未知の画像に音場を立体的に再現するための空間音響フィルタ係数を関連させる音響プログラムであって、
予め一つのサンプル画像に対応する空間音響フィルタ係数に関する複数のパラメータを求めて、前記サンプル画像に表された構造物の音場モデルを学習することを特徴とする音響プログラム。 - 一つないし複数の画像に対応する空間音響フィルタ係数に関する一つないし複数のパラメータを学習するプログラム。
- 音場を立体的に再現するための音響プログラムであって、予め一つないし複数の画像から空間音響フィルタ係数に関する一つないし複数のパラメータを推定するように学習された情報を用いて、未知の画像に対する空間音響フィルタ係数に関するパラメータを推定するプログラム。
- 未知の画像に音場を立体的に再現するための空間音響フィルタ係数を関連させる音響プログラムであって、
予め学習されたサンプル画像の音場モデルを用いて、パラメータが不明な未知の画像に関する前記空間音響フィルタ係数を推定することを特徴とする音響プログラム。 - 音場を立体的に再現するための空間音響フィルタ係数を画像に関連させて、構築された音場モデルに基づいて、パラメータが不明な画像の音場を再生する音響プログラムであって、
予め一つのサンプル画像に、対応する空間音響フィルタ係数に関する複数のパラメータを求めることで、前記サンプル画像に表された構造物の音場モデルを学習させ、
前記音場モデルを用いて、パラメータが不明な未知の画像について、前記空間音響フィルタ係数を推定することを特徴とする音響プログラム。 - 多数段に畳み込まれるニューラルネットワークで構造物の音場モデルの学習と、空間音響フィルタ係数の推定とを行うことを特徴とする請求項1~5のうち何れか一項記載の音響プログラム。
- 音場となる構造物を撮像して画像データを形成する、または、撮像された画像データを収集する撮像装置と、
前記構造物で発生した音を集音し、または、集音された音響データを収集する集音装置と、
前記撮像装置で撮像されたサンプル画像について、前記集音装置で集音された音響データをパラメータとする空間音響フィルタ係数を用いて音場モデルを構築する演算装置と、を備えることを特徴とする請求項1または請求項2に記載の音響プログラムを用いる音響装置。 - 音場となる構造物を撮像して画像データを形成する、または、撮像された画像データを収集する撮像装置と、
演算装置とを備え、
前記演算装置は、未知の画像について、予め学習されたサンプル画像の音場モデルを用いて空間音響フィルタ係数を推定することを特徴とする請求項3または請求項4に記載の音響プログラムを用いる音響装置。 - 音場となる構造物を撮像し、または、撮像された画像データを収集する撮像装置と、
前記構造物で発生した音を集音しまたは集音された音響データを収集する集音装置と、
前記撮像装置で撮像されたサンプル画像について、前記集音装置で集音された音響データをパラメータとする空間音響フィルタ係数を用いて音場モデルを構築する演算装置と、を備え、
前記演算装置は、未知の画像について、予め学習されたサンプル画像の音場モデルを用いて空間音響フィルタ係数を推定することを特徴とする音響プログラムを用いる音響装置。 - 前記未知の画像は、耳介または外耳道のうち少なくとも何れかの画像であり、前記演算装置は、前記画像から、空間音響フィルタ係数を推定することを特徴とする請求項8~9のうち何れか一項に記載の音響装置。
- 前記演算装置は、前記画像データおよび音響データまたは前記画像データが入力すると、該画像データに関連する前記空間音響フィルタ係数を推定して、該空間音響フィルタ係数から得られる残響特性を付加した音響を出力することを特徴とする請求項7~9のうち何れか一項に記載の音響装置。
- 前記音響データは、映像コンテンツの吹替え音声であることを特徴とする請求項11に記載の音響装置。
- 前記残響特性が付加された音響を出力する音響出力装置をさらに備えることを特徴とする請求項11に記載の音響装置を有する音響システム。
- 前記画像データは、動画の画像データであり、前記動画のフレームと、前記フレームにおける背景画像または現フレームと前フレームとの差分を用いて、前記空間音響フィルタ係数を推定することを特徴とする請求項11に記載の音響装置。
- 音響プログラムをクラウド上に構築して、該クラウドに接続された複数の撮像装置から画像データおよび音響データを収集することを特徴とする請求項1~5のうち何れか一項に記載の音響プログラムを備える音響システム。
- 多数段に畳み込まれるニューラルネットワークで構造物の音場モデルの学習と、空間音響フィルタ係数の推定とを行う音響プログラムを、クラウド上に構築し、該クラウドに接続された複数の撮像装置から画像データおよび音響データを収集することを特徴とする請求項1~5のうち何れか一項に記載の音響プログラムを備える音響システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19800558.9A EP3799035A4 (en) | 2018-05-11 | 2019-05-10 | ACOUSTIC PROGRAM, ACOUSTIC DEVICE AND ACOUSTIC SYSTEM |
JP2020518358A JP7352291B2 (ja) | 2018-05-11 | 2019-05-10 | 音響装置 |
US17/054,462 US11317233B2 (en) | 2018-05-11 | 2019-05-10 | Acoustic program, acoustic device, and acoustic system |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-092622 | 2018-05-11 | ||
JP2018092622 | 2018-05-11 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019216414A1 true WO2019216414A1 (ja) | 2019-11-14 |
Family
ID=68467438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/018746 WO2019216414A1 (ja) | 2018-05-11 | 2019-05-10 | 音響プログラム、音響装置、および音響システム |
Country Status (4)
Country | Link |
---|---|
US (1) | US11317233B2 (ja) |
EP (1) | EP3799035A4 (ja) |
JP (1) | JP7352291B2 (ja) |
WO (1) | WO2019216414A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022045228A (ja) * | 2020-09-08 | 2022-03-18 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
WO2022167720A1 (en) * | 2021-02-05 | 2022-08-11 | Nokia Technologies Oy | Apparatus, methods and computer programs for enabling audio rendering |
WO2023033109A1 (ja) * | 2021-09-03 | 2023-03-09 | 株式会社Gatari | 情報処理システム、情報処理方法および情報処理プログラム |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022514325A (ja) * | 2018-12-21 | 2022-02-10 | ジーエヌ ヒアリング エー/エス | 聴覚デバイスにおけるソース分離及び関連する方法 |
US20230298357A1 (en) * | 2020-05-19 | 2023-09-21 | Sony Group Corporation | Information processing device and information processing method |
CN117744196A (zh) * | 2020-10-13 | 2024-03-22 | 弗莱瑞尔公司 | 通过自动分析传感器数据生成物理结构和环境的测量结果 |
US20230173387A1 (en) * | 2021-12-03 | 2023-06-08 | Sony Interactive Entertainment Inc. | Systems and methods for training a model to determine a type of environment surrounding a user |
CN116489572B (zh) * | 2022-01-14 | 2024-09-06 | 华为技术有限公司 | 一种电子设备控制方法、装置及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006060610A (ja) | 2004-08-20 | 2006-03-02 | Yamaha Corp | 音声再生装置及び音声再生装置の音声ビーム反射位置補正方法 |
JP2008178000A (ja) | 2007-01-22 | 2008-07-31 | Yamaha Corp | 音響発生装置 |
JP2015061277A (ja) * | 2013-09-20 | 2015-03-30 | 日本放送協会 | 残響付加装置 |
JP2015060181A (ja) * | 2013-09-20 | 2015-03-30 | 日本放送協会 | 残響付加装置 |
JP2017050843A (ja) | 2015-09-01 | 2017-03-09 | パナソニックIpマネジメント株式会社 | 信号処理方法およびスピーカシステム |
JP2017175503A (ja) | 2016-03-25 | 2017-09-28 | パイオニア株式会社 | 音響装置及び音響補正プログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6996244B1 (en) * | 1998-08-06 | 2006-02-07 | Vulcan Patents Llc | Estimation of head-related transfer functions for spatial sound representative |
FR2858403B1 (fr) * | 2003-07-31 | 2005-11-18 | Remy Henri Denis Bruno | Systeme et procede de determination d'une representation d'un champ acoustique |
US20120113224A1 (en) * | 2010-11-09 | 2012-05-10 | Andy Nguyen | Determining Loudspeaker Layout Using Visual Markers |
CN103491397B (zh) * | 2013-09-25 | 2017-04-26 | 歌尔股份有限公司 | 一种实现自适应环绕声的方法和系统 |
US9226090B1 (en) * | 2014-06-23 | 2015-12-29 | Glen A. Norris | Sound localization for an electronic call |
US9820047B2 (en) | 2015-09-01 | 2017-11-14 | Panasonic Intellectual Property Management Co., Ltd. | Signal processing method and speaker system |
US20170270406A1 (en) * | 2016-03-18 | 2017-09-21 | Qualcomm Incorporated | Cloud-based processing using local device provided sensor data and labels |
KR102151682B1 (ko) * | 2016-03-23 | 2020-09-04 | 구글 엘엘씨 | 다중채널 음성 인식을 위한 적응성 오디오 강화 |
US10440497B2 (en) * | 2017-11-17 | 2019-10-08 | Intel Corporation | Multi-modal dereverbaration in far-field audio systems |
-
2019
- 2019-05-10 US US17/054,462 patent/US11317233B2/en active Active
- 2019-05-10 WO PCT/JP2019/018746 patent/WO2019216414A1/ja unknown
- 2019-05-10 JP JP2020518358A patent/JP7352291B2/ja active Active
- 2019-05-10 EP EP19800558.9A patent/EP3799035A4/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006060610A (ja) | 2004-08-20 | 2006-03-02 | Yamaha Corp | 音声再生装置及び音声再生装置の音声ビーム反射位置補正方法 |
JP2008178000A (ja) | 2007-01-22 | 2008-07-31 | Yamaha Corp | 音響発生装置 |
JP2015061277A (ja) * | 2013-09-20 | 2015-03-30 | 日本放送協会 | 残響付加装置 |
JP2015060181A (ja) * | 2013-09-20 | 2015-03-30 | 日本放送協会 | 残響付加装置 |
JP2017050843A (ja) | 2015-09-01 | 2017-03-09 | パナソニックIpマネジメント株式会社 | 信号処理方法およびスピーカシステム |
JP2017175503A (ja) | 2016-03-25 | 2017-09-28 | パイオニア株式会社 | 音響装置及び音響補正プログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022045228A (ja) * | 2020-09-08 | 2022-03-18 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
JP7395446B2 (ja) | 2020-09-08 | 2023-12-11 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
US11978441B2 (en) | 2020-09-08 | 2024-05-07 | Kabushiki Kaisha Toshiba | Speech recognition apparatus, method and non-transitory computer-readable storage medium |
WO2022167720A1 (en) * | 2021-02-05 | 2022-08-11 | Nokia Technologies Oy | Apparatus, methods and computer programs for enabling audio rendering |
WO2023033109A1 (ja) * | 2021-09-03 | 2023-03-09 | 株式会社Gatari | 情報処理システム、情報処理方法および情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3799035A4 (en) | 2022-04-13 |
US11317233B2 (en) | 2022-04-26 |
JP7352291B2 (ja) | 2023-09-28 |
EP3799035A1 (en) | 2021-03-31 |
JPWO2019216414A1 (ja) | 2021-05-27 |
US20210058731A1 (en) | 2021-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019216414A1 (ja) | 音響プログラム、音響装置、および音響システム | |
KR100964353B1 (ko) | 오디오 데이터를 처리하기 위한 방법 및 이에 따른 사운드수집 장치 | |
US9552840B2 (en) | Three-dimensional sound capturing and reproducing with multi-microphones | |
JP5611970B2 (ja) | オーディオ信号を変換するためのコンバータ及び方法 | |
JP4508295B2 (ja) | 収音及び再生システム | |
JP5533248B2 (ja) | 音声信号処理装置および音声信号処理方法 | |
KR101086308B1 (ko) | 음장 재생용 유닛의 제어 방법 및 장치 | |
US11122381B2 (en) | Spatial audio signal processing | |
JP2012509632A5 (ja) | オーディオ信号を変換するためのコンバータ及び方法 | |
US10979846B2 (en) | Audio signal rendering | |
JP2006517072A (ja) | マルチチャネル信号を用いて再生部を制御する方法および装置 | |
Otani et al. | Binaural Ambisonics: Its optimization and applications for auralization | |
JP2005157278A (ja) | 全周囲音場創生装置、全周囲音場創生方法、及び全周囲音場創生プログラム | |
JP6970366B2 (ja) | 音像再現装置、音像再現方法及び音像再現プログラム | |
WO2021212287A1 (zh) | 音频信号处理方法、音频处理装置及录音设备 | |
Palenda et al. | Setup for choir recordings in virtual churches | |
WO2018066376A1 (ja) | 信号処理装置および方法、並びにプログラム | |
JP6774912B2 (ja) | 音像生成装置 | |
JP2022034267A (ja) | バイノーラル再生装置およびプログラム | |
JP2009139615A (ja) | 音響再生装置、音響再生方法、音響再生プログラム、及び音響再生システム | |
Meng | Impulse response measurement and spatio-temporal response acquisition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19800558 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020518358 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2019800558 Country of ref document: EP Effective date: 20201211 |