WO2021261385A1 - 音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラム - Google Patents

音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラム Download PDF

Info

Publication number
WO2021261385A1
WO2021261385A1 PCT/JP2021/023134 JP2021023134W WO2021261385A1 WO 2021261385 A1 WO2021261385 A1 WO 2021261385A1 JP 2021023134 W JP2021023134 W JP 2021023134W WO 2021261385 A1 WO2021261385 A1 WO 2021261385A1
Authority
WO
WIPO (PCT)
Prior art keywords
acoustic
reproduced
acoustic signal
sound
environmental
Prior art date
Application number
PCT/JP2021/023134
Other languages
English (en)
French (fr)
Inventor
正之 西口
Original Assignee
公立大学法人秋田県立大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 公立大学法人秋田県立大学 filed Critical 公立大学法人秋田県立大学
Publication of WO2021261385A1 publication Critical patent/WO2021261385A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present invention particularly relates to an acoustic reproduction device, a noise canceling headphone device, an acoustic reproduction method, and an acoustic processing program.
  • Patent Document 1 describes an example of an acoustic signal coding technique utilizing an auditory masking effect.
  • a threshold value for bit allocation of the masking effect hereinafter referred to as a masking threshold value
  • the present invention has been made in view of such a situation, and an object of the present invention is to solve the above-mentioned problems.
  • the acoustic reproduction device of the present invention is controlled by an acoustic control unit that controls one of a group consisting of spatial arrangement, frequency arrangement, and the size of each frequency component of the reproduced acoustic signal related to the content to be reproduced, and the acoustic control unit. It is characterized by including a reproduction unit for reproducing the reproduced acoustic signal.
  • the noise canceling headphone device of the present invention has an environmental sound acquisition unit that acquires an external environmental sound signal, and a spatial arrangement, a frequency arrangement, and each frequency component of the environmental sound signal acquired by the environmental sound acquisition unit.
  • the acoustics are calculated according to the acoustic calculation unit that calculates one type of group consisting of the size of the above, the spatial arrangement of the reproduced acoustic signal regarding the content to be reproduced, the frequency arrangement, and the type of the group consisting of the size of each frequency component. It includes an acoustic control unit that controls the environmental acoustic signal calculated by the calculation unit, and a reproduction unit that reproduces the reproduced acoustic signal while performing noise canceling by the environmental acoustic signal controlled by the acoustic control unit. It is characterized by that.
  • the acoustic reproduction method of the present invention is an acoustic reproduction method executed by an acoustic reproduction apparatus, and is a spatial arrangement, a frequency arrangement, and each frequency of a reproduced acoustic signal and / or an external environmental acoustic signal relating to the content to be reproduced. It is characterized by controlling a kind of a group consisting of the magnitudes of components and reproducing the controlled reproduced acoustic signal and / or an external environmental acoustic signal.
  • the acoustic signal processing program of the present invention is an acoustic signal processing program executed by an acoustic reproduction device, and is a reproduced acoustic signal relating to a content to be reproduced by the acoustic control unit of the acoustic reproduction apparatus, and / or an external environmental sound.
  • the reproduced acoustic signal controlled by the acoustic control unit and / or the external environmental acoustics by controlling a kind of a group consisting of the spatial arrangement, the frequency arrangement, and the magnitude of each frequency component of the signal. It is characterized by reproducing a signal.
  • the present invention by controlling a kind of a group consisting of the spatial arrangement, the frequency arrangement, and the size of each frequency component of the reproduced acoustic signal of the content, and reproducing this controlled reproduced acoustic signal, it becomes clear. It is possible to provide an acoustic reproduction device capable of reproducing the sound.
  • the sound reproduction device 1 is a device that reproduces an acoustic signal of contents that are data such as video, audio, and characters.
  • the sound reproduction device 1 is, for example, a noise canceling headphone having an external sound capture function, a wireless connection headphone, a virtual multi-channel headphone, a device of a movie theater or a public viewing venue, a dedicated decoder and a head tracking sensor.
  • VR Virtual Reality
  • AR Algmented Reality
  • HMD Head-Mounted Display
  • dedicated game machines home TVs, smartphones (SmartPhone), and other home appliances.
  • the acoustic reproduction device 1 includes an environmental sound acquisition unit 10, an acoustic calculation unit 20, an acoustic control unit 30, and a reproduction unit 40 as control configurations.
  • the environmental sound acquisition unit 10 acquires an external environmental acoustic signal.
  • the environmental sound acquisition unit 10 is a microphone of various types, an A / D converter, or the like that acquires environmental sounds in a plurality of directions around the listener and outputs each as an environmental acoustic signal.
  • the environmental sound acquisition unit 10 describes an example of acquiring environmental acoustic signals near the ears of the listener L (left) and R (right).
  • the acoustic calculation unit 20 calculates a kind of group consisting of the spatial arrangement, the frequency arrangement, and the size of each frequency component of the environmental acoustic signal acquired by the environmental sound acquisition unit 10. Specifically, the acoustic calculation unit 20 may calculate the masking threshold value of the spatial masking effect by the environmental acoustic signal. The acoustic calculation unit 20 can calculate frequency masking by acquiring or converting an environmental acoustic signal that has been collected and stored in the storage unit.
  • the acoustic calculation unit 20 uses the symmetry of the spatial masking effect with respect to the frontal plane to calculate the masking threshold value without distinguishing the front and back of the environmental acoustic signal from the listener's point of view. You may.
  • the acoustic control unit 30 controls one of a group consisting of the spatial arrangement of the reproduced acoustic signal, the frequency arrangement, and the size of each frequency component.
  • the reproduced acoustic signal is an acoustic signal related to the content to be reproduced.
  • the reproduced acoustic signal may be, for example, an audio signal that can be heard by the listener by decoding digital data based on the information contained in the content and reproducing the digital data by the reproduction unit 40. More specifically, the acoustic control unit 30 may control one of a group consisting of the spatial arrangement, the frequency arrangement, and each frequency component of the reproduced acoustic signal so as not to fall below the masking threshold value due to the environmental acoustic signal.
  • the acoustic control unit 30 can control in a direction in which the overlap with the masking threshold value indicating the spatial masking effect becomes small. At this time, the acoustic control unit 30 can also control the reproduced acoustic signal without distinguishing the front and back of the environmental acoustic signal from the listener's point of view by utilizing the symmetry of the spatial masking effect with respect to the frontal plane. .. This control without distinguishing between the front and back may be executed using the masking threshold value calculated without distinguishing between the front and back as described above.
  • the acoustic control unit 30 is an environmental sound calculated by the acoustic calculation unit 20 according to a kind of group consisting of the spatial arrangement, the frequency arrangement, and the size of each frequency component of the reproduced acoustic signal regarding the content to be reproduced.
  • One of a group consisting of the spatial arrangement of signals, the frequency arrangement, and the magnitude of each frequency component may be controlled.
  • the reproduction unit 40 reproduces the reproduced acoustic signal controlled by the acoustic control unit 30.
  • the playback unit 40 is, for example, a D / A converter, an amplifier, a speaker equipped with an electromagnetic driver for headphones or earphones and a diaphragm (hereinafter referred to as “speaker or the like”), an ear pad or earpiece worn by a listener, or the like. It is equipped with.
  • the reproduction unit 40 can convert a digital reproduced acoustic signal as it is as a digital signal or convert it into an analog audio signal by a D / A converter, output it from a speaker or the like, and make it heard by a listener.
  • the playback unit 40 may separately output the audio signal to headphones, earphones, or the like worn by the listener. Further, the reproduction unit 40 may reproduce the reproduced acoustic signal by encoding it and outputting it as an audio file or streaming audio.
  • the sound reproduction device 1 includes, for example, various circuits such as an ASIC (Application Specific Processor, a processor for a specific application), a DSP (Digital Signal Processor), a CPU (Central Processing Unit, a central processing unit), and an MPU (Micro Processing). Unit), GPU (Graphics Processing Unit) and other control calculation units are included.
  • ASIC Application Specific Processor
  • DSP Digital Signal Processor
  • CPU Central Processing Unit
  • MPU Micro Processing
  • GPU Graphics Processing Unit
  • the sound reproduction device 1 is a storage such as a semiconductor memory such as a ROM (ReadOnlyMemory) and a RAM (RandomAccessMemory), a magnetic recording medium such as an HDD (HardDiskDrive), and an optical recording medium. It may include a part.
  • the ROM may include a flash memory and other writable and writable recording media.
  • an SSD Solid State Drive
  • the control program and various contents according to the embodiment of the present invention may be stored in this storage unit. Of these, the control program is a program for realizing each functional configuration and each method including the acoustic signal processing program of the present embodiment.
  • This control program includes an embedded program such as firmware, an OS (Operating System), and application software (Application Software, hereinafter simply referred to as "application”).
  • contents include, for example, movie and music data, audible books, voice-synthesizable electronic book data, television and radio broadcast data, various voice data related to operation instructions for car navigation and various home appliances, and others. It may be data that can be output by voice. Alternatively, it is also possible to use voice call data of a mobile phone, a transceiver, or the like or synthetic voice data of a text in a messenger as content.
  • These contents may be downloaded and acquired as a file or a data block transmitted by wire or wirelessly, or may be acquired step by step by streaming or the like.
  • the sound reproduction device 1 includes a display unit such as a liquid crystal display or an organic EL display, an input unit such as a pointing device such as a button, a keyboard, a mouse or a touch panel, and an interface unit for connecting to various devices wirelessly or by wire. May be provided.
  • the interface unit may include an interface such as a flash memory medium such as a micro SD (registered trademark) card or a USB (Universal Serial Bus) memory, and an interface such as a LAN board, a wireless LAN board, serial, or parallel. ..
  • the sound reproduction device 1 is executed by the control unit mainly using various programs stored in the storage means, thereby realizing each method according to the embodiment of the present invention by using hardware resources. Can be done.
  • a part or any combination of the above-mentioned configurations may be configured in terms of hardware or circuit by IC, programmable logic, FPGA (Field-Programmable Gate Array) or the like.
  • the acoustic calculation unit 20 of the acoustic reproduction device 1 performs the environmental acoustic signal acquisition process.
  • the environmental sound acquisition unit 10 acquires an external environmental acoustic signal.
  • the environmental sound acquisition unit 10 is, for example, a microphone or the like that captures left and right external sounds at a predetermined distance, and is a signal of the L (left) channel (hereinafter referred to as “L signal”) and a signal of the R (right) channel (hereinafter, referred to as “L signal”).
  • L signal left
  • R right channel
  • the external environmental sound of "R signal” is taken in, and each A / D-converted signal is stored in the storage unit as audio data.
  • Step S102 the sound calculation unit 20 performs the environmental sound calculation process.
  • the acoustic calculation unit 20 calculates a kind of group consisting of the spatial arrangement, the frequency arrangement, and the size of each frequency component of the environmental acoustic signal acquired by the environmental sound acquisition unit 10. At this time, the acoustic calculation unit 20 calculates the masking threshold value of the spatial masking effect by the environmental acoustic signal.
  • the masking effect in hearing is an effect that makes it difficult for one sound to be heard due to the presence of another sound.
  • the sound that interferes with hearing is referred to as “masker”, and the sound that interferes with hearing is referred to as “muskellunge”.
  • the masking effect is roughly classified into frequency masking (simultaneous masking) and time masking (temporal masking). Frequency masking is masking that occurs when the masker and muskellunge overlap in time, and time masking is masking that occurs when they are separated in time.
  • FIG. 3A is a graph of an example of the range and masking threshold of the spectrum (muskellunge) masked by a certain spectrum (pure tone) included in a certain signal as a masker. ..
  • the masking thresholds Ma and Mb corresponding to the signals a and b are shown, respectively. In this way, the muskellunge threshold also rises in the vicinity of the frequency of the masker in which the signal component does not exist.
  • the frequency range in which the threshold rises is not symmetrical with respect to the masker's frequency, and the higher the muskellunge's frequency with respect to the masker, the easier it is to mask the sound with a lower frequency. Therefore, aurally, a situation arises in which the masker has not only the frequency of the masker but also components spread on both sides thereof. Frequencies where the energy of the signal spectrum is less than the masking threshold do not contribute to sound perception.
  • the range below the masking thresholds Ma and Mb filled in FIG. 3A is a portion masked by frequency masking and not perceived. In this example, the signal c becomes hard to hear due to the masking threshold value Ma of the signal a.
  • FIG. 3B will explain the masking threshold value corresponding to the spatial masking effect of hearing.
  • the binaural sound-collected audio signal and the spatially sampled audio signal as used in the present embodiment have a large correlation between signals existing spatially close to each other, and a part having similar waveforms and a part having no similar waveform are mixed. it is conceivable that. From a masking point of view, masking information in each channel or direction may be available in spatially sampled signals. Therefore, in the present embodiment, "spatial masking" in which the masking effect is extended to the spatial region is used for the analysis of the spatially sampled signal.
  • the front axis represents the direction of the sound source expected from the listener (spatial angular direction of the signal), the horizontal axis represents the frequency, and the vertical axis represents the energy (amplitude) of the signal.
  • the area inside the quadrangular pyramid at the foot of the masker's signal represents the area that is likely to be masked by this signal.
  • the dimension of the direction is added and the dimension is increased by one.
  • the spatial direction includes an azimuth angle and an elevation angle.
  • the masking thresholds Ta and Tb are three-dimensional. That is, masking is applied even in the spatial direction, and a signal to be masked is generated.
  • Such spatial masking is masking related to the central auditory system in which binaural information interacts.
  • the acoustic calculation unit 20 cuts out the audio data of the external environmental acoustic signal acquired by the environmental sound acquisition unit 10, converts it from the time domain to the frequency domain signal by DFT, MDCT, etc., and uses it as an acoustic signal. Store in the storage. Specifically, the acoustic calculation unit 20 cuts out the audio signals of each channel of the L signal and the R signal into a window (frame) of about several microseconds to several tens of milliseconds, and DFT (discrete Fourier transformation).
  • the acoustic calculation unit 20 outputs this frame as an acoustic signal (frequency component) of each channel. That is, the environmental acoustic signal of the present embodiment is a signal in the frequency domain.
  • the acoustic calculation unit 20 performs frequency analysis with a bandpass filter or the like, divides the band into signals of each subband component (hereinafter, referred to as “subband signal”), and converts them into signals in the frequency domain. May be good.
  • the acoustic calculation unit 20 can analyze the results of division into signals in these frequency domains in time series and determine whether the environmental acoustic signal is a tone signal or a noise signal.
  • the acoustic calculation unit 20 calculates the masking threshold value in the frequency domain corresponding to the spatial masking effect of the auditory sense from the acoustic signal of each channel.
  • the calculation of the masking threshold value itself in this frequency domain can be realized by, for example, the method described in Non-Patent Document 1. More detailed calculation method will be described.
  • the acoustic calculation unit 20 convolves a masking threshold value calculation formula (Spreading Function, hereinafter referred to as “SF”) in a Bark spectrum as described in Patent Document 1. Then, the acoustic calculation unit 20 calculates the Spread masking threshold M spread using the SFM (Spectral Flatness Measure) and the adjustment coefficient.
  • SFM Specific Flatness Measure
  • the acoustic calculation unit 20 calculates a temporary threshold value T by returning the Spread masking threshold value M spread to the region of the Bark spectrum by deconvolution.
  • the acoustic calculation unit 20 divides the tentative threshold value T by the number of DFT and MDCT spectra corresponding to each Bark index, and then compares the tentative threshold value with the absolute threshold value.
  • the threshold T is converted into the final threshold M final for frequency masking.
  • the acoustic calculation unit 20 further calculates a masking threshold value corresponding to the spatial masking effect of the auditory sense from the threshold value M final in this frequency region.
  • the acoustic calculation unit 20 calculates and uses an estimated value of the arrival direction of the signal of each frequency component as the direction information of the acoustic signal. Specifically, the acoustic calculation unit 20 calculates the arrival direction of each frequency component as seen by the listener. At this time, the sound calculation unit 20 may take the ratio of the intensities of the L channel and the R channel. From the ratio of the intensities, it is possible to estimate the arrival direction of the signal of each frequency component. Alternatively, the sound calculation unit 20 may use the audio signal itself, which is the full-band signal of the external environmental sound acquired by the environmental sound acquisition unit 10, or the left channel signal and the right channel of each subband signal band-divided by the bandpass filter.
  • the mutual correlation of the signals of may be calculated for each subband. For each of these subband signals, it is possible to determine the time shift ⁇ that maximizes the cross-correlation and estimate the arrival direction of each subband signal from that value.
  • these estimated arrival directions are simply referred to as "arrival directions of environmental sounds”.
  • the acoustic calculation unit 20 calculates the path difference D (unit: meter, m) between the L channel and the R channel of the environmental acoustic signal by the following equation (1).
  • Lh indicates the distance between the left and right microphones of the environmental sound acquisition unit 10.
  • the time shift ⁇ can be calculated by the following equation (2).
  • the sound calculation unit 20 estimates the arrival direction of the environmental sound from the relationship between the ITD (Interaural Time Difference) of the signal of each frequency in the HRTF (Head-Related Transfer Function) and the arrival direction. Is also good.
  • the sound calculation unit 20 may refer to what is stored in the storage unit as a database for the relationship between the ITD and the arrival direction.
  • L signal the data of the frame obtained by sampling the R signal at the sampling period sp, respectively X L (n), and X R (n).
  • each subband signal obtained by dividing X L (n) into M bands by a bandpass filter or the like is referred to as X L1 (n), X L2 (n), ..., X LM (n).
  • each subband signal obtained by dividing X R (n) into bands is referred to as X R1 (n), X R2 (n), ..., X RM (n).
  • X R1 (n) X R1 (n)
  • X R2 (n) X R2 (n)
  • X RM (n) X RM (n)
  • FDBM Frequency Domain Binaural Model
  • Non-Patent Documents 2 and 3 may be used as an algorithm for estimating the sound source arrival direction.
  • the acoustic calculation unit 20 calculates the masking threshold T, which is a three-dimensional quadrangular pyramid in the acoustic space composed of the spatial direction, the frequency direction, and the amplitude (magnitude) direction. More specifically, the acoustic calculation unit 20 uses the symmetry of the spatial masking effect with respect to the frontal plane in the calculation of the spatial masking effect to distinguish the front and back of the environmental acoustic signal from the listener's point of view. It is possible to calculate the masking threshold value. Further, the sound calculation unit 20 sets the masking threshold value so that the channel and / or the object is located in the front of the channel and / or the sound source object which is located in the rear position with respect to the listener. Spatial masking effect may be calculated.
  • T is the weight multiplied by the masking threshold in the frequency domain of each channel signal
  • is the orientation of the masker
  • is a constant controlled by the frequency of the masker
  • is the tone property of the masker signal.
  • x indicates the desired direction or the muskey direction.
  • max is a function that returns the maximum value in the argument.
  • f (x) in this equation (5) for example, a linear function such as a triangular wave shown in the following equation (6) can be used.
  • x can use the direction for obtaining the frequency characteristic of the masking threshold value or theEUlunge direction. This orientation corresponds to the direction of the beamforming of the microphone, the direction of the reproduced acoustic signal, and the like.
  • f (x) other functions such as, for example, a function calculated from actual masker and muskey experimental results can be used.
  • the acoustic calculation unit 20 changes the masking threshold value by changing the degree of mutual influence of the signals of the respective channels depending on whether the signals of the L channel and the R channel are tone-like signals or noise-like signals. It may be calculated corresponding to the spatial masking effect.
  • Step S103 the acoustic control unit 30 performs acoustic control processing.
  • the acoustic control unit 30 controls one of a group consisting of the spatial arrangement, the frequency arrangement, and the size of each frequency component of the reproduced acoustic signal regarding the content to be reproduced. Specifically, the acoustic control unit 30 controls one of a group consisting of the spatial arrangement, the frequency arrangement, and each frequency component of the reproduced acoustic signal according to the calculation result by the acoustic calculation unit 20.
  • the acoustic control unit 30 first, similarly to the above-mentioned environmental acoustic calculation processing, the arrival direction of each frequency component, subband signal, or all-band signal of the reproduced acoustic signal (hereinafter, simply "reproduced sound”).
  • the direction of arrival of "." Is calculated.
  • each frequency component after frequency analysis of the left channel and right channel signals of the reproduced acoustic signal by DFT, MDCT, etc., the ratio of the intensity of each frequency component is taken, and the signal of each frequency component arrives. Estimate the direction.
  • the acoustic control unit 30 may calculate the time shift ⁇ 'that maximizes the cross-correlation between the left and right channels of the full-band signal or the sub-band signal.
  • the calculation of this time shift ⁇ ' is based on the same calculation as that calculated by the equations (1) to (4) with the time shift ⁇ in the above-mentioned environmental acoustic calculation process, and each subband signal or all-band signal from ⁇ '. It is possible to estimate the direction of arrival of.
  • the acoustic control unit 30 can estimate the arrival direction of each subband signal or all-band signal by acquiring the sound source object of the content and acquiring the direction information included in the sound source object.
  • This sound source object is, for example, an acoustic signal of a content to which position information is attached.
  • the sound source object may be, for example, a microphone output signal for recording each musical instrument of an orchestra, a sampled voice signal used in a game, a synthetic voice, or the like converted into an acoustic signal in the frequency domain. good.
  • the acoustic control unit 30 has a masking threshold T of a three-dimensional quadrangular pyramid in an acoustic space composed of a spatial direction, a frequency direction, and an amplitude (magnitude) direction of the reproduced acoustic signal, similarly to the above-mentioned environmental acoustic calculation process. Is calculated.
  • This masking threshold T can be calculated based on the above-mentioned analysis of each frequency component, full-band signal or sub-band signal.
  • the acoustic control unit 30 controls one of a group consisting of the spatial arrangement, the frequency arrangement, and the magnitude of each frequency component of the reproduced acoustic signal so as not to fall below the masking threshold value due to the environmental acoustic signal.
  • This control can be performed on one of the above groups or any combination.
  • the acoustic control unit 30 can control the reproduced acoustic signal in a direction in which the overlap with the masking threshold value indicating the spatial masking effect of the environmental acoustic signal becomes small.
  • the acoustic control unit 30 has a case where the arrival direction of the reproduced sound is close to the arrival direction of the environmental sound and the frequency components also overlap, that is, with respect to the masking threshold value Te of the environmental sound E in FIG. 5 (a). If the amplitude (magnitude) of the reproduced sound P is not sufficiently large, the direction of the sound source as seen from the listener of the reproduced sound P is shifted as shown in FIG. 5 (b).
  • the spatial angular direction of the reproduced acoustic signal is moved in a direction in which the overlap with the masking threshold value Te is reduced, and the relative magnitude of the reproduced sound P is controlled to be sufficiently large with respect to the masking threshold value Te. ..
  • the acoustic control unit 30 can move the direction of arrival of the reproduced sound of the reproduced acoustic signal and reflect it in the HRTF of the reproduction process described later. As a result, the overlap between the masking threshold value Te and the masking threshold value Tp is reduced.
  • the acoustic control unit 30 It is possible to control the arrival direction of the reproduced sound in a direction in which the overlap with the masking threshold value Te becomes smaller. That is, the acoustic control unit 30 can control the reproduced acoustic signal without distinguishing the front and back of the environmental acoustic signal from the listener's point of view by utilizing the symmetry of the spatial masking effect with respect to the frontal plane. If the magnitude of the reproduced sound P is known, the acoustic control unit 30 can perform appropriate control without necessarily calculating the masking threshold value Tp.
  • the acoustic control unit 30 performs processing in all bands at once, when the difference between the arrival direction of the environmental sound and the arrival direction of the reproduced sound is ⁇ ° or less, the difference is more than ⁇ °.
  • the direction of arrival of the reproduced sound may be shifted so that the value is greater than or equal to ⁇ °.
  • the acoustic control unit 30 can also control the spatial arrangement for each frequency component or subband signal. That is, when processing is performed for each value of the frequency spectrum such as DFT and MDCT, that is, for each frequency bin (bin) or for each band-divided subband signal, the arrival direction of these environmental sounds and the arrival direction of the reproduced sound are determined. In comparison, if there is an arrival direction of b ° or less, the following processing can be performed.
  • the frequency of all bands of the reproduced sound is such that the difference in the arrival direction of that band is c ° or more, which is larger than b °.
  • the direction of arrival of the reproduced sound may be equally shifted for the bin or subband signal.
  • the reproduced sound is reproduced in the band so that the difference in the arrival direction in the band is c ° or more. You may shift the direction of arrival of.
  • the acoustic control unit 30 may calculate the difference in the arrival direction and the shift direction by using the symmetry with respect to the frontal plane Fh. That is, the angles of line symmetry with respect to the frontal plane Fh such as 50 ° and 130 ° may be shifted after being determined to be in the same direction. Further, as for the movement of the entire band, frequency bin, or subband signal of the reproduced acoustic signal, the acoustic control unit 30 adjusts the balance and / or phase difference of the magnitudes of the L signal and the R signal to reproduce the reproduced acoustic signal. It is possible to control the direction of arrival of sound (direction of sound source).
  • Example of frequency arrangement control A specific example of controlling the frequency arrangement of the reproduced acoustic signal will be described with reference to FIG. 7.
  • the amplitude (magnitude) of the reproduced sound P is not sufficiently large with respect to the masking threshold value Te of the environmental sound E.
  • the acoustic control unit 30 makes it easier to hear by changing the frequency without changing the level and direction of the reproduced sound. That is, the acoustic control unit 30 controls the frequency direction of the reproduced acoustic signal so that the relative magnitude of the reproduced sound P is sufficiently larger than the masking threshold value Te. As a result, the overlap between the masking threshold value Te and the masking threshold value Tp is reduced.
  • the difference in the arrival direction between the environmental sound and the reproduced sound is ⁇ ° or less, and the frequency of the center of gravity of the environmental sound and the center of gravity of the reproduced sound.
  • the frequency difference is ⁇ Hz or less
  • the frequency components of the entire band of the reproduced sound may be shifted so that the difference is ⁇ Hz or more, which is larger than ⁇ Hz.
  • the center of gravity frequency is also called the spectral center of gravity, and indicates that the frequency is such that the total energy on the lower frequency side and the total energy on the wider region side antagonize each other.
  • the acoustic control unit 30 can also control the frequency arrangement for each frequency component or subband signal. That is, when processing is performed for each frequency bin or for each band-divided subband signal, the arrival direction of each frequency component of each of these environmental sounds is compared with the arrival direction of the same frequency component of the reproduced sound, and the difference is obtained.
  • the acoustic control unit 30 can perform the following processing. First, if there is even one band with a difference in the arrival direction of b ° or less, the difference in the center of gravity frequency between the environmental sound and the reproduced sound in that band is eHz or more, which is larger than dHz. The intensity of the frequency component of the reproduced sound is equally shifted for all bands. Specifically, the acoustic control unit 30 equalizes and adjusts the frequency component of the reproduced acoustic signal.
  • FIG. 8A similarly to FIGS. 5A and 7A, the masking threshold value Te of the environmental sound E and the masking threshold value Tp of the reproduced sound P overlap.
  • the acoustic control unit 30 makes it easier to ask by increasing the magnitude (amplitude) of the frequency component without changing the direction of the reproduced sound. That is, the acoustic control unit 30 controls the magnitude of the frequency component of the reproduced acoustic signal so that the relative magnitude of the reproduced sound P becomes sufficiently large with respect to the masking threshold value Te.
  • the acoustic control unit 30 can also adjust the amplitude (magnitude) for, for example, all band batches, frequency bins, or band-divided subband signals.
  • the acoustic control unit 30 can not only control the reproduced acoustic signal itself as described above, but also control the environmental acoustic signal to perform noise canceling.
  • a control example of this environmental acoustic signal will be specifically described with reference to FIG.
  • the acoustic control unit 30 suppresses the environmental sound E in the direction of the reproduced sound by noise canceling without changing the level and frequency of the reproduced sound.
  • the acoustic control unit 30 can suppress only the environmental sound E whose arrival direction and frequency are close to the reproduced sound by noise canceling, and can improve the efficiency of noise canceling and realize the naturalness of the reproduced sound. ..
  • the acoustic control unit 30 has a spatial arrangement and a frequency arrangement of the environmental acoustic signal according to a kind of a group consisting of the spatial arrangement, the frequency arrangement, and the size of each frequency component of the reproduced acoustic signal. , And one of the groups consisting of the magnitude of each frequency component.
  • the acoustic control unit 30 may, for example, place an anti-phase audio signal (hereinafter, "" "Reverse phase signal”) is added to reduce the environmental acoustic signal.
  • the processing is performed for each frequency component, so that the subband signal is divided into frequency bins such as DFT and MDCT, or band-divided. Process each time. In this case, the arrival direction of the environmental sound and the arrival direction of the reproduced sound are compared for each frequency bin or subband signal. Then, when there is a signal in a band whose arrival direction is b ° or less, the acoustic control unit 30 outputs a reverse phase signal for the frequency bin or subband signal in the band, respectively, for the L signal and the R signal. In addition, noise canceling is performed.
  • the acoustic control unit 30 can control noise canceling by adding the reverse phase signal to the reproduced acoustic signal.
  • the acoustic control unit 30 sets a kind of group consisting of the spatial arrangement, the frequency arrangement, and the magnitude of each frequency component of the environmental acoustic signal before being erased by noise canceling into the above-mentioned reproduced acoustic signal. It is also possible to control and add it again in the same way as above to make the environmental sound easier to hear. This addition may be performed only for the environmental acoustic signal in a specific direction range.
  • Step S104 the reproduction unit 40 performs the reproduction process.
  • the reproduction unit 40 reproduces the reproduced acoustic signal controlled by the acoustic control unit 30.
  • the reproduction unit 40 can reproduce the audio signal while including the spatial information.
  • the reproduction unit 40 adds a sound transmission characteristic from the sound source to the human ear to each reproduced acoustic signal, convolves a head related transfer function (HRTF) corresponding to the arrival direction of the reproduced sound, and causes the arrival direction of the reproduced sound. It is possible to move.
  • HRTF head related transfer function
  • the reproduction unit 40 adds the transmission characteristic of the HRTF corresponding to the direction of each reproduction acoustic signal to each acoustic signal, and outputs the sum of the signals in each of the L channel and the R channel.
  • the reproduction unit 40 adjusts the interaural level difference (ILD) or ITD (interaural time difference), shifts the position of the virtual speaker, and the like, and the direction of arrival of the reproduced sound. It is also possible to move. As a result, the reproduction unit 40 can shift the arrival direction of the reproduction sound and reproduce it as a two-channel audio signal by headphones or speakers.
  • ITD interaural level difference
  • ITD interaural time difference
  • the reproduction unit 40 is a kind of a group consisting of spatial arrangement, frequency arrangement, and the size of each frequency component for all band batches, frequency bins, or band-divided subband signals by the acoustic control unit 30. It is also possible to reproduce a controlled reproduction acoustic signal. Further, the reproduction unit 40 can reproduce the reproduced acoustic signal while performing noise canceling by the environmental acoustic signal controlled by the acoustic control unit 30 to add the above-mentioned reverse phase signal. As described above, the acoustic signal reproduction processing according to the embodiment of the present invention is completed.
  • the acoustic reproduction device 1 controls one of a group consisting of the spatial arrangement, the frequency arrangement, and the size of each frequency component of the reproduced acoustic signal regarding the content to be reproduced. It is characterized by including an acoustic control unit 30 and a reproduction unit 40 that reproduces a reproduced acoustic signal controlled by the acoustic control unit 30.
  • an acoustic control unit 30 controls one of a group consisting of the spatial arrangement, the frequency arrangement, and the size of each frequency component of the reproduced acoustic signal regarding the content to be reproduced. It is characterized by including an acoustic control unit 30 and a reproduction unit 40 that reproduces a reproduced acoustic signal controlled by the acoustic control unit 30.
  • the acoustic reproduction device 1 includes an environmental sound acquisition unit 10 that acquires an external environmental acoustic signal, and a spatial arrangement and a frequency arrangement of the environmental sound signal acquired by the environmental sound acquisition unit 10. Further, an acoustic calculation unit 20 for calculating a kind of group consisting of the size of each frequency component is further provided, and the acoustic control unit 30 is a kind of group consisting of a spatial arrangement, a frequency arrangement, and each frequency component of the reproduced acoustic signal. Is controlled according to the calculation result by the sound calculation unit 20.
  • the acoustic calculation unit 20 calculates the masking threshold of the spatial masking effect by the environmental acoustic signal, and the acoustic control unit 30 lowers the masking threshold. It is characterized by controlling the spatial arrangement of the reproduced acoustic signal, the frequency arrangement, and a kind of a group consisting of each frequency component so as not to be present.
  • the spatial masking effect with the axis in the direction of the sound source, it is possible to more appropriately model the "hearing" of a person and make it easier to hear the reproduced sound of the content. That is, by clarifying the spatial masking effect of hearing and applying the property to acoustic rendering, it is possible to provide a more effective user experience of acoustic reproduction.
  • the acoustic reproduction device 1 is characterized in that the acoustic control unit 30 controls the reproduced acoustic signal in a direction in which the overlap with the masking threshold value indicating the spatial masking effect becomes small as a control. ..
  • the reproduced sound takes into consideration the mutual spatial masking effect between the spatially scattered environmental sound in the real world and the spatially scattered reproduced sound of the electronic data in the virtual world. It is possible to adjust the localization, volume, and band of the sound, and control the direction and band of noise canceling applied to the sound in the real world, or the external sound capture sound. Therefore, it is possible to make it easier to hear the reproduced sound of the content, and it is possible to perform effective mixed reproduction of the real world and the virtual space.
  • the acoustic control unit 30 utilizes the symmetry of the spatial masking effect with respect to the frontal surface without distinguishing the front and back of the environmental acoustic signal from the viewpoint of the listener. It is characterized by controlling a reproduced acoustic signal. With this configuration, it is possible to make it easier for the listener to hear the reproduced sound of the content in accordance with the human auditory model in which it is difficult to grasp the front-back position.
  • hear-through playback that is, noise canceling playback equipment, which reproduces content with headphones while capturing or erasing external sound
  • some of these headphones also have a noise canceling function for reducing the intrusion of external environmental sounds into the eardrum surface.
  • noise canceling playback equipment which reproduces content with headphones while capturing or erasing external sound
  • the environmental sound acquisition unit 10 for acquiring an external environmental sound signal and the spatial arrangement and frequency arrangement of the environmental sound signal acquired by the environmental sound acquisition unit 10 are used.
  • the sound calculation unit 20 that calculates one kind of group consisting of the size of each frequency component, and one kind of group consisting of the spatial arrangement, frequency arrangement, and the size of each frequency component of the reproduced acoustic signal regarding the content to be reproduced.
  • the acoustic control unit 30 that controls the environmental acoustic signal calculated by the acoustic calculation unit 20, and the reproduction unit that reproduces the reproduced acoustic signal while performing noise canceling by the environmental acoustic signal controlled by the acoustic control unit 30.
  • noise canceling headphone device including 40.
  • the noise is more effective. It is possible to provide a noise canceling headphone device capable of canceling.
  • the configuration including the environmental sound acquisition unit 10 and the sound calculation unit 20 is described. Referring to FIG. 10, however, it is possible to have a configuration in which the acoustic control unit 30 and the reproduction unit 40 are provided, and the environmental sound acquisition unit 10 and the sound calculation unit 20 are not provided, as in the sound reproduction device 1b.
  • a user's instruction is acquired as a direction movement instruction signal from an input unit such as a switch, a button, or a touch pad, and based on this, the spatial arrangement, the frequency arrangement, and each frequency component of the reproduced acoustic signal are obtained. It is possible to control a kind of group consisting of the size of. With this configuration, the user can adjust the reproduced acoustic signal to make it easier to hear even in a device such as headphones with an open ear hole that does not actively perform noise canceling.
  • the acquisition of the direction movement instruction signal can also be applied to the sound reproduction device 1 provided with the above-mentioned environmental sound acquisition unit 10 and sound calculation unit 20.
  • the listener finds it difficult to hear the reproduced sound due to the environmental sound, it is possible to acquire the direction movement instruction signal by the above-mentioned input unit and perform the same processing as the above-mentioned acoustic control processing. be. That is, it is possible to control a kind of group consisting of the spatial arrangement of the reproduced acoustic signal, the frequency arrangement, and the size of each frequency component.
  • a direction movement instruction signal from a display unit such as a liquid crystal display or an organic EL display of the sound reproduction device 1, a UI (User Interface) of a smartphone or a dedicated terminal connected to the sound reproduction device 1.
  • a dedicated or general-purpose control application is executed in the control unit, and for example, an acoustic space composed of a spatial direction, a frequency direction, and an amplitude (magnitude) direction of an acoustic signal as shown in FIGS. 5 to 9. Displays the masking threshold of the three-dimensional square pyramid in.
  • the listener moves the reproduced sound or the environmental sound with the UI or changes the size in this acoustic space, obtains the direction movement instruction signal based on this, and performs each process.
  • the listener moves the reproduced sound or the environmental sound with the UI or changes the size in this acoustic space, obtains the direction movement instruction signal based on this, and performs each process.
  • the arrival direction of the reproduced sound can be a UI that adjusts only the left-right direction.
  • the control of the emphasis of the reproduced sound and the noise canceling of the environmental sound are combined. That is, the arrival direction of the external environmental sound is estimated by the above processing, and the band signal or frequency bin arriving from the front direction is emphasized by the reproduced acoustic signal.
  • the reproduced acoustic signal the spatial arrangement, the frequency arrangement, and the magnitude of each frequency component are shifted or the amplitude is reduced for the components arriving from the front direction. Further, noise canceling processing is performed on the frequency component of the environmental sound arriving from a direction other than the front direction.
  • the sound captured from the external sound microphone is added to the reproduced acoustic signal so as to have the opposite phase on the eardrum surface. By doing so, it is possible to make it easier to hear the voice of the person in front of the listener while performing noise canceling.
  • the left and right microphones are used in the environmental sound acquisition unit 10
  • a microphone array composed of a plurality of microphones.
  • the directivity by beamforming processing and directing the beam in each direction it is possible to perform spatial sampling of the sound space and acquire a multi-channel audio beam signal.
  • the phase difference of the sound wave arriving at each microphone of the environmental sound acquisition unit 10 may be controlled by a filter to emphasize the signal in the direction arriving at each microphone.
  • spatial sampling it is possible to spatially divide the sound field and collect sound in multiple channels while including spatial information. With this configuration, the arrival direction of the environmental acoustic signal can be calculated accurately.
  • the sound reproduction device 1 includes a GNSS (Global Navigation Satellite System) receiver that calculates the direction in which the listener is facing, an in-room position direction detector, an acceleration sensor, a gyro sensor, a geomagnetic sensor, etc. that can perform head tracking. And a circuit for converting these outputs into directional information may be provided. In this case, it is possible to control the reproduced acoustic signal in consideration of the relationship between the calculated direction information of the listener and the positional relationship of the acoustic signal of the sound source object with respect to the listener.
  • GNSS Global Navigation Satellite System
  • the sound reproduction device 1 is integrally configured.
  • the sound reproduction device 1 is configured as a reproduction system in which an information processing device such as a smartphone, a PC (Personal Computer), or a home appliance is connected to a terminal such as a headset, headphones, or left / right separated earphones. good.
  • the environmental sound acquisition unit 10 and the reproduction unit 40 may be provided in the terminal, and the functions of the sound calculation unit 20 and the sound control unit 30 may be executed by either the information processing device or the terminal. ..
  • Bluetooth registered trademark
  • HDMI registered trademark
  • WiFi registered trademark
  • USB Universal Serial Bus
  • other wired or wireless information transmission means can be used. It may be transmitted.
  • the function of the information processing device on an intranet, a server on the Internet, or the like.
  • the number of bits required for transmission is audibly determined by processing such as allocating only the bits corresponding to the energy obtained by subtracting the masking threshold from the energy of the signal spectrum by using the spatial masking effect. It is possible to reduce the amount of energy while maintaining it, and to transmit signals of environmental sound and reproduced sound in a state where deterioration is not perceived audibly.
  • the acoustic reproduction method of the present invention can be used industrially because it can perform reproduction in which the real world and the virtual world are more effective than before by utilizing the spatial masking effect of hearing.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

コンテンツの音響信号を明瞭に再生することが可能な音響再生装置を提供する。環境音取得部(10)は、外部の環境音響信号を取得する。音響算出部(20)は、環境音取得部(10)により取得された環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を算出する。音響制御部(30)は、再生するコンテンツに関する再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御する。再生部(40)は、音響制御部(30)により制御された再生音響信号を再生する。

Description

音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラム
 本発明は、特に音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラムに関する。
 近年、電子データで提供されるコンテンツの音を再生しながら、受聴者の周囲の音(環境音)も同時に聞くことができる、いわゆる、耳穴開放型ヘッドフォンや、外音取り込み機能付きのヘッドフォンが普及してきている。
 またこれらのヘッドフォンでは、外部の環境音の鼓膜面への侵入を低減するためのノイズキャンセリング機能を同時に有するものもある。
 一方、音響信号の解析や圧縮等の技術において、周波数軸における聴覚のマスキング効果が利用されている。この聴覚におけるマスキング効果とは、ある音が他の音の存在によって聴こえにくくなる効果である。
 特許文献1には、聴覚のマスキング効果が利用された音響信号符号化の技術の一例が記載されている。特許文献1の技術では、聴覚のマスキング効果を利用するために、マスキング効果のビット割り当ての閾値(以下、マスキング閾値という。)が計算されている。
特開平5-248972号公報
Andreas Spanias他著、「Audio Sigal Processing and Coding」、米国、Wiley-Interscience,John Wiley & Sons,Inc、2007年 Hidetoshi Nakashima他著、「Frequency domain binaural model based on interaural phase and level differences」、Acoustical Science & Technology、日本、2003年、Vol.24、No.4、p.172-178 Yoshifumi Chisaki他著、「Azimuthal and elevation localization of two sound sources using interaural phase and level differences」、Acoustical Science & Technology、日本、2008年、Vol.29、No.2、p.139-148
 しかしながら、環境音の方位、周波数特性、音のレベル等を考慮せず、周波数軸の聴覚のマスキング効果を用いるだけでは、コンテンツの音響信号を十分に明瞭化して再生することはできなかった。
 本発明は、このような状況に鑑みてなされたものであり、上述の問題を解消することを目的とする。
 本発明の音響再生装置は、再生するコンテンツに関する再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御する音響制御部と、前記音響制御部により制御された前記再生音響信号を再生する再生部とを備えることを特徴とする。
 本発明のノイズキャンセリングヘッドフォン装置は、外部の環境音響信号を取得する環境音取得部と、前記環境音取得部により取得された前記環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を算出する音響算出部と、再生するコンテンツに関する再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種に応じて、前記音響算出部により算出された前記環境音響信号を制御する音響制御部と、前記音響制御部により制御された前記環境音響信号によりノイズキャンセリングを行いつつ、前記再生音響信号を再生する再生部とを備えることを特徴とする。
 本発明の音響再生方法は、音響再生装置により実行される音響再生方法であって、再生するコンテンツに関する再生音響信号、及び/又は外部の環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御し、制御された前記再生音響信号、及び/又は外部の環境音響信号を再生することを特徴とする。
 本発明の音響信号処理プログラムは、音響再生装置により実行される音響信号処理プログラムであって、前記音響再生装置を、音響制御部により、再生するコンテンツに関する再生音響信号、及び/又は外部の環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御させ、再生部により、前記音響制御部により制御された前記再生音響信号、及び/又は外部の環境音響信号を再生させることを特徴とする。
 本発明によれば、コンテンツの再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御し、この制御された再生音響信号を再生することで、明瞭に再生することが可能な音響再生装置を提供することができる。
本発明の実施の形態に係る音響再生装置の制御構成図である。 本発明の実施の形態に係る音響再生処理のフローチャートである。 図2に示す環境音響算出処理の概念図である。 図2に示す環境音響算出処理の概念図である。 図2に示す音響制御処理の概念図である。 図2に示す音響制御処理における前頭面の対称性の概念図である。 図2に示す音響制御処理の概念図である。 図2に示す音響制御処理の概念図である。 図2に示す音響制御処理の概念図である。 本発明の他の実施の形態に係る音響再生装置の制御構成図である。
<実施の形態>
〔音響再生装置1の制御構成〕
 まず、図1を参照して、本発明の実施の形態に係る音響再生装置1の制御構成について説明する。
 音響再生装置1は、映像や音声や文字等のデータであるコンテンツの音響信号を再生する装置である。本実施形態において、音響再生装置1は、例えば、外音取り込み機能のあるノイズキャンセリングヘッドフォン、無線接続ヘッドフォン、仮想多チャンネルヘッドフォン、映画館やパブリックビューイング会場の機器、専用のデコーダー及びヘッドトラッキングセンサー、VR(Virtual Reality)やAR(Augmented Reality)やMR(Mixed Reality)用のHMD(Head-Mounted Display)、ゲーム専用機、家庭用テレビ、スマートフォン(Smart Phone)、その他の家電製品等である。
 音響再生装置1は、制御構成として、環境音取得部10、音響算出部20、音響制御部30、及び再生部40を備える。
 環境音取得部10は、外部の環境音響信号を取得する。環境音取得部10は、受聴者の周囲における複数方向の環境音を取得し、それぞれを環境音響信号として出力する、各種方式のマイクロフォン及びA/Dコンバーター等である。本実施形態においては、環境音取得部10は、受聴者のL(左)及びR(右)の耳付近の環境音響信号を取得する例について記載する。
 音響算出部20は、環境音取得部10により取得された環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を算出する。
 具体的には、音響算出部20は、環境音響信号による空間的マスキング効果のマスキング閾値を算出してもよい。音響算出部20は、集音され、記憶部に格納された環境音響信号を取得したり、変換したりして、周波数マスキングを計算することが可能である。音響算出部20は、この空間的マスキング効果の算出において、空間的マスキング効果の前頭面に関する対称性を利用して、環境音響信号の受聴者からみた前後の区別をすることなく、マスキング閾値を算出してもよい。
 音響制御部30は、再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御する。ここで、再生音響信号は、再生するコンテンツに関する音響信号である。再生音響信号は、例えば、コンテンツに含まれる情報を基にしてデジタルデータが復号化され、再生部40で再生されることで受聴者が聴くことが可能な音声信号であってもよい。
 より具体的に、音響制御部30は、環境音響信号によるマスキング閾値を下回らないように、再生音響信号の空間的配置、周波数的配置、各周波数成分からなる群の一種を制御してもよい。音響制御部30は、この制御として、空間的マスキング効果を示すマスキング閾値との重なりが小さくなる方向に制御することが可能である。この際、音響制御部30は、空間的マスキング効果の前頭面に関する対称性を利用して、環境音響信号の受聴者からみた前後の区別をすることなく再生音響信号を制御することも可能である。この前後の区別をすることない制御は、上述の前後の区別をすることなく算出されたマスキング閾値を用いて実行されてもよい。
 さらに、音響制御部30は、再生するコンテンツに関する再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種に応じて、音響算出部20により算出された環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御してもよい。
 再生部40は、音響制御部30により制御された再生音響信号を再生する。再生部40は、例えば、D/Aコンバーター、アンプ(Amplifier)、ヘッドフォンやイヤフォンの電磁ドライバー及びダイヤフラムを備えたスピーカー(以下、「スピーカー等」という。)、受聴者の装着する耳当てやイヤーピース等を備えている。再生部40は、デジタルの再生音響信号をデジタル信号のまま又はD/Aコンバーターでアナログ音声信号に変換し、スピーカー等から出力して、受聴者に聴かせることが可能である。または、再生部40は、音声信号を別途、受聴者が装着したヘッドフォンやイヤフォン等に出力してもよい。さらに、再生部40は、再生音響信号を符号化して、音声ファイルやストリーミング音声として出力することで再生してもよい。
 これに加え、音響再生装置1は、例えば、各種回路として、ASIC(Application Specific Processor、特定用途向けプロセッサー)、DSP(Digital Signal Processor)、CPU(Central Processing Unit、中央処理装置)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等の制御演算部を含んでいる。
 加えて、音響再生装置1は、記憶手段として、ROM(Read Only Memory)、RAM(Random Access Memory)等の半導体メモリー、HDD(Hard Disk Drive)等の磁気記録媒体、光学記録媒体等である記憶部を含んでいてもよい。ROMとしては、フラッシュメモリーやその他の書き込み、追記可能な記録媒体を含んでいてもよい。さらに、HDDの代わりに、SSD(Solid State Drive)を備えていてもよい。この記憶部には、本発明の実施の形態に係る制御プログラム及び各種のコンテンツを格納してもよい。このうち、制御プログラムは、本実施形態の音響信号処理プログラムを含む各機能構成及び各方法を実現するためのプログラムである。この制御プログラムは、ファームウェア等の組み込みプログラム、OS(Operating System)及びアプリケーションソフトウェア(Application Software、以下、単に「アプリ」という。)を含む。各種のコンテンツは、例えば、映画や音楽のデータ、オーディブルブック、音声合成可能な電子書籍のデータ、テレビジョンやラジオの放送データ、カーナビゲーションや各種家電等の操作指示に関する各種音声データ、その他の音声出力可能なデータであってもよい。または、携帯電話やトランシーバー等の音声通話データやメッセンジャーでのテキストの合成音声のデータをコンテンツとすることも可能である。これらのコンテンツは、有線や無線で伝送されたファイルやデータ塊でダウンロードされて取得されても、ストリーミング等により段階的に取得されてもよい。
 さらに、音響再生装置1は、液晶ディスプレイや有機ELディスプレイ等の表示部、ボタン、キーボード、マウスやタッチパネル等のポインティングデバイス等の入力部、無線や有線での各種機器との接続を行うインターフェイス部とを備えていてもよい。このうち、インターフェイス部は、マイクロSD(登録商標)カードやUSB(Universal Serial Bus)メモリー等のフラッシュメモリー媒体等のインターフェイス、LANボード、無線LANボード、シリアル、パラレル等のインターフェイスを含んでいてもよい。
 また、音響再生装置1は、主に記憶手段に格納された各種プログラムを用いて制御部が実行することで、本発明の実施の形態に係る各方法を、ハードウェア資源を用いて実現することができる。
 なお、上述の構成の一部又は任意の組み合わせをICやプログラマブルロジックやFPGA(Field-Programmable Gate Array)等でハードウェア的、回路的に構成してもよい。
〔音響再生装置1による音響再生処理〕
 次に、図2~図8を参照して、本発明の実施の形態に係る音響再生装置1による音響信号再生処理の説明を行う。
 本実施形態の音響信号再生処理は、主に音響再生装置1において、それぞれ、制御部が記憶部に格納された制御プログラムを、各部と協働し、ハードウェア資源を用いて制御して実行し、又は、各回路で直接実行する。
 以下で、図2のフローチャートを参照して、音響信号再生処理の詳細をステップ毎に説明する。
(ステップS101)
 まず、音響再生装置1の音響算出部20が、環境音響信号取得処理を行う。
 環境音取得部10は、外部の環境音響信号を取得する。環境音取得部10は、例えば、所定距離離れて左右の外音を取り込むマイク等でL(左)チャンネルの信号(以下、「L信号」という。)及びR(右)チャンネルの信号(以下、「R信号」という。)の外部環境音を取り込んで、A/D変換された各信号を、音声データとして記憶部に格納する。
(ステップS102)
 ここで、音響算出部20が、環境音響算出処理を行う。
 音響算出部20は、環境音取得部10により取得された環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を算出する。この際、音響算出部20は、環境音響信号による空間的マスキング効果のマスキング閾値を算出する。
 ここで、図3(a)により、聴覚におけるマスキング効果について説明する。聴覚におけるマスキング効果は、ある音が他の音の存在によって聴こえにくくなる効果である。以下、本実施形態において、聴こえを妨害する音を「マスカー」といい、聴こえが妨害される音を「マスキー」という。
 マスキング効果は、周波数マスキング(同時マスキング)及び時間マスキング(継時マスキング)に大別される。周波数マスキングは、マスカーとマスキーが時間的に重なっている場合に生じるマスキングであり、時間マスキングは時間的に離れている場合に生じるマスキングである。
 図3(a)のグラフにおいて、横軸は周波数、縦軸は信号の大きさ(エネルギー)である振幅を示す。すなわち、図3(a)は、ある信号に含まれるある1本のスペクトル(純音)をマスカーとしたときに、このマスカーによってマスクされるスペクトル(マスキー)の範囲及びマスキング閾値の例のグラフである。この例では、信号a、信号bに対応したマスキング閾値Ma、Mbをそれぞれ示している。
 このように、信号成分の存在しないマスカーの周波数近傍についても、マスキーの閾値が上昇する。また、閾値が上昇する周波数範囲はマスカーの周波数に対して対称ではなく、マスカーに対してマスキーの周波数が高いほうが低い周波数の音よりマスクされやすい。したがって、聴覚的には、マスカーはマスカーの周波数だけではなくその両側に広がった成分を持つような状況が生じる。信号スペクトルのエネルギーがマスキング閾値より小さくなる周波数は、音の知覚に寄与しない。
 図3(a)において塗りつぶされているマスキング閾値Ma、Mb以下の範囲が、周波数マスキングによってマスクされ知覚されない部分となる。この例においては、信号cは、信号aのマスキング閾値Maにより聴こえづらくなる。
 図3(b)により、聴覚の空間的マスキング効果に対応したマスキング閾値について説明する。
 本実施形態で用いるようなバイノーラル収音された音響信号、空間サンプリングされた音響信号は、空間的に近くに存在する信号の相関が大きく、波形が類似した部分とそうでない部分が混在していると考えられる。マスキングの観点から考えると、空間サンプリングされた信号においては、各チャンネル又は方向におけるマスキングの情報を利用できる可能性がある。そこで本実施形態では、空間サンプリングされた信号の分析のために、マスキング効果を空間領域に拡張した「空間的マスキング」を用いる。
 図3(b)の概念図では、手前側の軸は受聴者から見込んだ音源の方向(信号の空間的角度方向)、横軸は周波数、縦軸は信号のエネルギー(振幅)を表す。マスカーの信号の裾野にある四角錐の内側の領域がこの信号によりマスクされると考えられる領域を表す。図3(a)の周波数マスキングと比較すると、図3(b)では、方向の次元が追加されており、次元が一つ増えていることがわかる。なお、空間的方向には方位角及び仰角が含まれる。図3(b)のように、空間的マスキングでは、マスキング閾値Ta、Tbは三次元的になる。つまり、空間方向においてもマスキングが及び、マスクされる信号が生じる。このような空間的マスキングでは、両耳情報が相互作用する聴覚の中枢系に関わるマスキングとなる。
 この空間的マスキングの閾値を算出するため、本実施形態では、まず、周波数領域でのマスキング閾値を算出する。
 このため、音響算出部20は、環境音取得部10により取得された外部の環境音響信号の音声データ等を切り出し、DFT、MDCT等によって、時間領域から周波数領域の信号へ変換し、音響信号として記憶部に格納する。具体的には、音響算出部20は、L信号及びR信号の各チャンネルの音声信号を数マイクロ秒~数十ミリ秒程度のウィンドウ(フレーム)に切り出し、DFT(discrete Fourier transformation、離散フーリエ変換)、MDCT(Modified Discrete Cosine Transform、変形離散コサイン変換)等によって、時間領域から周波数領域へ変換する。このフレームは、例えば、サンプリング周波数48kHz、量子化ビット数16ビットの場合、2048サンプル程度を用いることが好適である。音響算出部20は、このフレームを、各チャンネルの音響信号(周波数成分)として出力する。すなわち、本実施形態の環境音響信号は、周波数領域の信号となる。
 または、音響算出部20は、バンドパスフィルター等で周波数分析を行って、各サブバンド成分の信号(以下、「サブバンド信号」という。)に帯域分割して、周波数領域の信号に変換してもよい。
 加えて、音響算出部20は、これらの周波数領域の信号への分割の結果を時系列で分析し、環境音響信号がトーン性の信号かノイズ性の信号かを判断可能である。
 これを基に、音響算出部20は、各チャンネルの音響信号から、聴覚の空間的マスキング効果に対応した周波数領域でのマスキング閾値を算出する。
 この周波数領域でのマスキング閾値の計算自体は、例えば、非特許文献1に記載の方式で実現することが可能である。
 より詳細な計算方法について説明すると、音響算出部20は、例えば、特許文献1に記載されたようなBarkスペクトルにマスキング閾値計算式(Spreading Function、以下、「SF」という。)を畳み込む。そして、音響算出部20は、SFM(Spectral Flatness Measure)及び調整係数を用いて、Spreadマスキング閾値Mspreadを算出する。この上で、音響算出部20は、逆畳み込みにより、Spreadマスキング閾値Mspreadを、Barkスペクトルの領域に戻すことで、仮の閾値Tを算出する。この上で、本実施形態においては、音響算出部20は、仮の閾値Tを、各Barkインデックスに該当するDFTやMDCTのスペクトルの本数で割ってから、絶対閾値と比較することで、仮の閾値Tが、周波数マスキングの最終的な閾値Mfinalに変換される。
 この上で、音響算出部20は、この周波数領域の閾値Mfinalから、聴覚の空間的マスキング効果に対応したマスキング閾値を更に算出する。
 この際、音響算出部20は、音響信号の方向情報として、各周波数成分の信号の到来方向の推定値を算出して用いる。
 具体的には、音響算出部20は、各周波数成分について、受聴者から見た到来方向を算出する。この際、音響算出部20は、LチャンネルとRチャンネルの強度の比を取してもよい。その強度の比から、各周波数成分の信号の到来方向を推定することが可能である。
 または、音響算出部20は、環境音取得部10で取得した外部環境音の全帯域信号である音声信号そのもの、又は、バンドパスフィルターで帯域分割した各サブバンド信号の左チャンネルの信号と右チャンネルの信号の相互相関を、サブバンド毎に算出してもよい。このサブバンド信号毎に、相互相関が最大となる時間シフトτをもとめ、その値から各サブバンド信号の到来方向を推定することが可能である。
 以下、これらの推定された到来方向を、単に「環境音の到来方向」という。
 図4を基に、このτから、環境音の到来方向の推定について説明する。
 まず、音響算出部20は、環境音響信号のLチャンネルとRチャンネルの経路差D(単位はメートル、m)を、下記の式(1)で算出する。

 経路差D[m]=Lh・sinθ …… 式(1)

 として算出することが可能である。ここで、Lhは、環境音取得部10の左右のマイク間の距離を示す。
 そして、常温での音速を340メートル/秒とすると、時間シフトτは、下記の式(2)で算出可能である。

 時間シフトτ[秒]=(Lh・sinθ)/340 …… 式(2)

 これらから、環境音の到来方向θを、下記の式(3)で算出可能である。

 到来方向θ=sin-1(τ・340)/Lh …… 式(3)
 または、音響算出部20は、HRTF(Head-Related Transfer Function、頭部伝達関数)における各周波数の信号のITD(Interaural Time Difference)と到来方向との関係から、環境音の到来方向を推定しても良い。音響算出部20は、このITDと到来方向との関係は、データベースとして記憶部に格納されているものを参照してもよい。
 また、各サブバンド信号についての到来方向を推定する場合、上述の式(3)によるτの推定に、下記の手法も用いることが可能である。
 まず、L信号、R信号をサンプリング周期spでサンプリングしたフレームのデータを、それぞれXL(n)、XR(n)とする。nは、フレーム中の何サンプル目か示すインデックスである。すなわち、n×sp=t(フレーム中の時間)となる。
 ここで、XL(n)をバンドパスフィルター等でMバンドに帯域分割した各サブバンド信号を、XL1(n),XL2(n),……,XLM(n)とする。
 同様に、XR(n)を帯域分割した各サブバンド信号を、XR1(n),XR2(n),……,XRM(n)とする。
 この上で、第一番目のサブバンド(バンド1)の時間シフトτ1に関して、下記の式(4)を定義可能である:
Figure JPOXMLDOC01-appb-M000001
 この式(4)にて、R(k)の最大値を与えるkをkoptとする。このkoptにサンプリング周期spに乗じた値をτ1とすると、τ1=kopt・spとなり、このτ1がバンド1に関しての音の到来方向を示す時間差τ1となる。すなわち、koptサンプル分の時間差がτ1となる。このようにして、全てのサブバンド信号について、時間シフトτ1~τMを算出し、これらから、式(3)を用いて、各サブバンド信号の到来方向を算出することが可能である。より正確に到来方向を推定するためには、式(4)の計算において、オーバーサンプリングされたXL1(n)、XR1(n)を用いて、より正確に算出してもよい。
 または、音源到来方向推定のアルゴリズムとして、非特許文献2、3に記載のFDBM(Frequency Domain Binaural Model)等を用いてもよい。
 この上で、音響算出部20は、空間方向、周波数方向、及び振幅(大きさ)方向からなる音響空間における三次元的な四角錐であるマスキング閾値Tを算出する。
 より具体的に説明すると、音響算出部20は、空間的マスキング効果の算出において、空間的マスキング効果の前頭面に関する対称性を利用して、環境音響信号の受聴者からみた前後の区別をすることなく、マスキング閾値を算出することが可能である。
 さらに、音響算出部20は、マスキング閾値を、受聴者からみて後方の位置にあるチャンネル及び/又は音源オブジェクトについては、前後対称の位置に該当する前方に当該チャンネル及び/又は当該オブジェクトが存在するような空間的マスキング効果を算出してもよい。
 具体的には、音響算出部20は、空間的マスキング効果によるマスキング閾値を算出する際、
 下記の式(5)で調整してもよい。

 T=β{max(y1,αy2)-1}
 y1=f(x-θ)
 y2=f(180-x-θ)       …… 式(5)

 ただし、Tはマスキング閾値を算出するために、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重み、θはマスカーの方位、αはマスカーの周波数で制御される定数、βはマスカーの信号がトーン性の信号かノイズ性の信号かに対応して制御される定数、xは求める方向又はマスキーの方位を示す。
 より具体的に説明すると、maxは、引数内の最大値を返す関数である。定数については、マスカーが400Hzの場合、α=1、マスカーが1kHzの場合、α=0.8のような値を用いることが可能である。マスカーがノイズ性の場合は、β=11~14、純音(トーン性)の場合は3~5程度の値を用いることが可能である。すなわち、マスカーがトーン性の場合は、Tは、xの値にかかわらず、全てのθについてフラットとなる。
 この式(5)のf(x)は、例えば、下記の式(6)に示す三角波のようなリニアな関数を用いることが可能である。
Figure JPOXMLDOC01-appb-M000002
 このうち、xは、マスキング閾値の周波数特性を求める方位、又は、マスキーの方位を用いることが可能である。この方位は、マイクロフォンのビームフォーミングの方向、再生音響信号の方向等に対応する。
 なお、f(x)として、f(x)=cos(x)のような式も、用いることが可能である。さらに、f(x)として、これ以外の、例えば、実際のマスカー、マスキーの実験結果から算出された関数等も用いることが可能である。
 すなわち、音響算出部20は、マスキング閾値を、Lチャンネル及びRチャンネルの信号が、トーン性の信号かノイズ性の信号かに対応して、各チャンネルの信号の相互に及ぼす影響の度合いを変化させる空間的マスキング効果に対応して算出してもよい。
(ステップS103)
 次に、音響制御部30が、音響制御処理を行う。
 音響制御部30は、再生するコンテンツに関する再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御する。
 具体的には、音響制御部30は、再生音響信号の空間的配置、周波数的配置、各周波数成分からなる群の一種を、音響算出部20による算出結果に応じて制御する。
 具体的に説明すると、まず、音響制御部30は、上述の環境音響算出処理と同様に、再生音響信号の各周波数成分、サブバンド信号、又は全帯域信号の到来方向(以下、単に「再生音の到来方向」という。)を算出する。
 ここで、各周波数成分の場合、再生音響信号の左チャンネルと右チャンネルの信号を、DFT、MDCT等にて周波数分析した後に、各周波数成分の強度の比を取り、各周波数成分の信号の到来方向を推定する。
 または、音響制御部30は、全帯域信号又はサブバンド信号の左右チャンネルの相互相関が最大となる時間シフトτ’を算出してもよい。この時間シフトτ’の算出は、上述の環境音響算出処理にて時間シフトτで式(1)~(4)にて算出したのと同様の計算によりτ’から各サブバンド信号又は全帯域信号の到来方向を推定することが可能である。
 または、音響制御部30は、コンテンツの音源オブジェクトを取得し、この音源オブジェクトに含まれる方向情報を取得することで、各サブバンド信号又は全帯域信号の到来方向を推定することも可能である。この音源オブジェクトは、例えば、位置情報が付されたコンテンツの音響信号である。音源オブジェクトは、例えば、オーケストラの各楽器を収録するようなマイクの出力信号、ゲーム等で用いるサンプリングされた音声信号、合成音声等が、周波数領域の音響信号に変換されたもの等であってもよい。
 さらに、音響制御部30は、上述の環境音響算出処理と同様に、再生音響信号の空間方向、周波数方向、及び振幅(大きさ)方向からなる音響空間における三次元的な四角錐のマスキング閾値Tを算出する。このマスキング閾値Tは、各周波数成分、全帯域信号又はサブバンド信号の上述の分析を基に算出可能である。
 その後で、音響制御部30は、環境音響信号によるマスキング閾値を下回らないように、再生音響信号の空間的配置、周波数的配置、各周波数成分の大きさからなる群の一種を制御する。この制御については、上述の群の一つ又は任意の組み合わせについて実行可能である。特に、再生音響信号の空間的配置のみを制御することも可能である。
 これらの制御において、音響制御部30は、環境音響信号による空間的マスキング効果を示すマスキング閾値との重なりが小さくなる方向に再生音響信号を制御することが可能である。
〔空間的配置の制御例〕
 図5により、再生音響信号の空間的配置の制御例について具体的に説明する。
 音響制御部30は、環境音の到来方向に対して、再生音の到来方向が近く、周波数成分も重なっている場合、すなわち、図5(a)の環境音Eのマスキング閾値Teに対して、再生音Pの振幅(大きさ)が十分大きくない場合、図5(b)のように、再生音Pの受聴者からみた音源の方向をずらす。すなわち、再生音響信号の空間的角度方向を、マスキング閾値Teとの重なりが少なくなる方向に移動させて、マスキング閾値Teに対して、再生音Pの相対的な大きさが十分大きくなるよう制御する。ここでは、音響制御部30は、再生音響信号の再生音の到来方向を移動させ、後述する再生処理のHRTFで反映させることが可能である。これにより、マスキング閾値Teとマスキング閾値Tpとの重なりが少なくなる。
 この際、上述したように、空間的マスキング効果の前頭面に関する対称性を利用して、環境音の受聴者からみた前後の区別なくマスキング閾値Teが算出されていた場合、音響制御部30は、マスキング閾値Teとの重なりが小さくなる方向に再生音の到来方向を制御することが可能である。すなわち、音響制御部30は、空間的マスキング効果の前頭面に関する対称性を利用して、環境音響信号の受聴者からみた前後の区別をすることなく再生音響信号を制御することが可能となる。なお、音響制御部30は、再生音Pの大きさが分かれば、必ずしもマスキング閾値Tpを算出しなくても、適切な制御を行うことが可能である。
 より具体的には、音響制御部30は、例えば、全帯域一括で処理を行う場合、環境音の到来方向と再生音の到来方向の差がβ°以下の場合は、その差がβ°よりも大きいγ°以上になるように、再生音の到来方向をずらすようにしてもよい。
 ここで、音響制御部30は、空間的配置について、周波数成分やサブバンド信号毎に制御することも可能である。すなわち、DFT、MDCT等した周波数スペクトルの各値、すなわち周波数ビン(bin)毎、又は帯域分割したサブバンド信号毎に処理を行う場合、これらの環境音の到来方向と再生音の到来方向とを比較して、到来方向がb°以下のものがあった場合は、下記の処理を行うことが可能である。
 まず、到来方向の差がb°以下の帯域が一つでもあった場合は、その帯域の到来方向の差がb°よりも大きいc°以上になるように、再生音の全ての帯域の周波数ビン又はサブバンド信号について等しく再生音の到来方向をずらしてもよい。
 または、到来方向の差がb°以下の帯域があった場合は、当該帯域の周波数ビン又はサブバンド信号については、その帯域の到来方向の差がc°以上になるように当該帯域について再生音の到来方向をずらすようにしてもよい。
 図6により説明すると、これら場合も、音響制御部30は、前頭面Fhに関する対称性を利用して、到来方向の差、及び、ずらす方向を算出してもよい。すなわち、50°と130°のような前頭面Fhに対して線対称の角度について、同一方向と判断した上でずらしてもよい。
 さらに、再生音響信号の全帯域、周波数ビン、又はサブバンド信号の移動としては、音響制御部30は、それらのL信号及びR信号の大きさのバランス及び/又は位相差を調整して、再生音の到来方向(音源の方向)を制御することが可能である。
 このように、再生音響信号の空間的配置の制御を行うことで、再生音響信号のレベル、周波数を変えずにその方向を変えることで聴きやすくすることが可能となる。この場合は、コンテンツの音色が変わらないという効果が得られる。
〔周波数的配置の制御例〕
 図7により、再生音響信号の周波数的配置の制御例について具体的に説明する。
 図7(a)は、図6(a)と同様に、環境音Eのマスキング閾値Teに対して、再生音Pの振幅(大きさ)が十分に大きくない。この場合、音響制御部30は、図7(b)のように、再生音のレベル、方向を変えずにその周波数を変更することで聴きやすくする。すなわち、音響制御部30は、再生音響信号の周波数方向を、マスキング閾値Teに対して、再生音Pの相対的な大きさが十分大きくなるように制御する。これにより、マスキング閾値Teとマスキング閾値Tpとの重なりが少なくなる。
 より具体的には、音響制御部30は、例えば、全帯域一括で処理を行う場合、環境音と再生音との到来方向の差がβ°以下で、環境音の重心周波数と再生音の重心周波数の差がδHz以下の場合は、その差がδHzよりも大きいεHz以上になるように、再生音の全帯域の周波数成分をずらすようにしてもよい。ここで、重心周波数とは、スペクトル重心とも呼ばれ、その周波数より低域側の全エネルギーと広域側の全エネルギーが拮抗する周波数であることを示す。
 ここで、音響制御部30は、周波数的配置について、周波数成分やサブバンド信号毎に制御することも可能である。すなわち、周波数ビン毎、又は帯域分割したサブバンド信号毎に処理を行う場合、これらの各環境音の各周波数成分の到来方向と、再生音の同じ周波数成分の到来方向とを比較して、差がb°以下のものが一つでもあった場合、音響制御部30は、下記の処理を行うことが可能である。
 まず、到来方向の差がb°以下の帯域が一つでもあった場合は、その帯域の環境音と再生音との重心周波数の差がdHzよりも大きいeHz以上になるように、再生音の全ての帯域について等しく再生音の周波数成分の強度をずらす。具体的には、音響制御部30は、再生音響信号の周波数成分のイコライジングをして調整する。
 このように、再生音響信号の周波数的配置の制御を行うことで、元の再生音響信号とは音色が変化するものの、例えば、合成音声やアナウンサーの声のキーを変えて聞きやすくすることが可能となる。
〔周波数成分の大きさの制御例〕
 図8により、再生音響信号の周波数成分の大きさの制御例について具体的に説明する。
 図8(a)は、図5(a)、図7(a)と同様に、環境音Eのマスキング閾値Teと、再生音Pのマスキング閾値Tpが重なっている。この場合、音響制御部30は、図8(b)のように、再生音の方向を変えずにその周波数成分の大きさ(振幅)を増加させることで訊きやすくする。すなわち、音響制御部30は、再生音響信号の周波数成分の大きさを、マスキング閾値Teに対して、再生音Pの相対的な大きさが十分に大きくなるように制御する。すなわち、周波数成分の大きさの調整により、マスキング閾値Teとマスキング閾値Tpとの重なりが少なくなるようにする。
 より具体的には、音響制御部30は、例えば、全帯域一括、周波数ビン毎、又は帯域分割したサブバンド信号毎に振幅(大きさ)を調整することも可能である。
〔環境音響信号の制御例〕
 さらに、音響制御部30は、上述のように再生音響信号自体を制御するだけでなく、環境音響信号を制御してノイズキャンセリングを行うことも可能である。
 図9により、この環境音響信号の制御例について具体的に説明する。
 図9(a)は、図5(a)、図7(a)、図8(a)と同様に、環境音Eのマスキング閾値Teと、再生音Pのマスキング閾値Tpが重なっている。
 図9(b)によれば、音響制御部30は、再生音のレベル、周波数を変えずにその方向にある環境音Eをノイズキャンセリングで抑圧する。これにより、音響制御部30は、再生音と到来方向及び周波数が近い環境音Eのみをノイズキャンセリングで抑圧し、ノイズキャンセリングの効率向上と再生音の自然さを実現することが可能となる。
 具体的には、音響制御部30は、再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種に応じて、環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御する。この際に、音響制御部30は、例えば、環境音響信号による空間的マスキング効果のマスキング閾値に対して、再生音響信号の大きさが十分に大きくない箇所に、反位相の音声信号(以下、「逆相信号」という。)を付加等して、環境音響信号を縮小させる。
 より具体的には、音響制御部30は、環境音のノイズキャンセリングの定位を制御する場合、周波数成分毎に処理をするため、DFT、MDCT等した周波数ビン毎、又は帯域分割したサブバンド信号毎に処理を行う。この場合、周波数ビン又はサブバンド信号毎に環境音の到来方向と再生音の到来方向を比較する。そして、音響制御部30は、これらの到来方向がb°以下の帯域の信号があった場合は、当該帯域の周波数ビン又はサブバンド信号については、L信号とR信号とでそれぞれ逆相信号を付加して、ノイズキャンセリングする。このようにすることで、Lチャンネル及びRチャンネルの逆相信号にて、当該帯域の当該到来方向の信号を集中的にキャンセルすることが可能となる。音響制御部30は、この逆相信号の付加によるノイズキャンセリングの制御は、再生音響信号に対して行うことが可能である。
 これに加えて、音響制御部30は、ノイズキャンセリングで消去する前の環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を、上述の再生音響信号と同様に制御して再度付加し、環境音を聞こえやすくすることも可能である。この付加は、特定方向範囲の環境音響信号のみについて行ってもよい。
 これら、到来方向の差であるβ°、γ°、b°、及びc°と、周波数成分の差であるδHz、εHz、dHz、eHzは、適切な値を、音響再生装置1の構成、ユーザの調音上の特性等に応じて、適宜設定可能である。
(ステップS104)
 次に、再生部40が、再生処理を行う。
 再生部40は、音響制御部30により制御された再生音響信号を再生する。この際、再生部40は音声信号として空間的情報を含めたまま再生することが可能である。再生部40は、例えば、各再生音響信号に音源から人間の耳元までの音の伝達特性を付加し、再生音の到来方向に対応する頭部伝達関数(HRTF)を畳み込み、再生音の到来方向を移動することが可能である。具体的には、再生部40は、例えば、各音響信号に、各再生音響信号の方向に対応するHRTFの伝達特性を付加し、Lチャンネル、Rチャンネルそれぞれにおいて信号の総和をとって出力する。または、再生部40は、両耳間音圧差(Interaural Level Difference、ILD)若しくはITD(Interaural Time Difference、両耳間時間差)の調整、仮想スピーカーの位置をずらす等の手法により、再生音の到来方向を移動することも可能である。これにより、再生部40は、再生音の到来方向をずらして、ヘッドフォンやスピーカーによる2チャンネルの音声信号として再生することが可能となる。
 または、再生部40は、音響制御部30により全帯域一括、周波数ビン毎、又は帯域分割したサブバンド信号毎に空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御された再生音響信号を再生することも可能である。
 さらに、再生部40は、音響制御部30によって上述の逆相信号が付加される制御が行われた環境音響信号により、ノイズキャンセリングを行いつつ再生音響信号を再生することも可能である。
 以上により、本発明の実施の形態に係る音響信号再生処理を終了する。
 以上のように構成することで、以下のような効果を得ることができる。
 近年、電子データの音を再生しながら、受聴者の周囲の音(環境音)も同時に聞くことができる、いわゆる「耳穴開放型」ヘッドフォンや、外音取り込み機能付きのヘッドフォンが普及してきている。
 一方、近年、人が三次元空間上に散在する音を聴く時に、それが人の聴覚に対して相互にどのように影響を与えるのか、空間的に配置された音源相互のマスキング効果(空間的マスキング効果)について明らかにされてきている。
 しかしながら、従来は、周波数軸上のマスキングのみを考慮しており、実世界の環境音と、電子的データであるコンテンツの再生音の空間的配置を考慮して、調整、最適化するものはなかった。このため、環境音の状況によっては、コンテンツの音響信号を十分に明瞭化して再生することはできなかった。
 これに対して、本発明の実施の形態に係る音響再生装置1は、再生するコンテンツに関する再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御する音響制御部30と、音響制御部30により制御された再生音響信号を再生する再生部40とを備えることを特徴とする。
 このように構成し、耳穴開放型ヘッドフォン又は外音取り込み機能つきヘッドフォン、ノイズキャンセリングヘッドフォン等において、再生音の定位、周波数特性、周波数成分のレベル(大きさ)を適切に制御する。これにより、再生音が環境音にマスクされにくくなり、コンテンツの再生音を聴きやすくすることができる。加えて、環境音も極力自然に聴かせることができる。
 本発明の実施の形態に係る音響再生装置1は、外部の環境音響信号を取得する環境音取得部10と、環境音取得部10により取得された環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を算出する音響算出部20とを更に備え、音響制御部30は、再生音響信号の空間的配置、周波数的配置、各周波数成分からなる群の一種を、音響算出部20による算出結果に応じて制御することを特徴とする。
 このように構成することで、外音取り込み機能つきヘッドフォンにおいて、環境音を分析しつつ、再生音を制御して、よりコンテンツの再生音を聴きやすくすることが可能となる。すなわち、実世界の環境音と、仮想世界のコンテンツの再生音とを考慮して、再生音を制御することが可能となる。
 また、従来、受聴者から見込んだ音源の到来方向も考慮した空間的マスキング効果を考慮したヘッドフォンのレンダリング技術はなかった。
 これに対して、本発明の実施の形態に係る音響再生装置1において、音響算出部20は、環境音響信号による空間的マスキング効果のマスキング閾値を算出し、音響制御部30は、マスキング閾値を下回らないように、再生音響信号の空間的配置、周波数的配置、各周波数成分からなる群の一種を制御することを特徴とする。
 このように構成することで、音源方向の軸を加えた空間マスキング効果を用いることで、より適切に人の「聞こえ」をモデル化し、コンテンツの再生音を聴きやすくすることできる。すなわち、聴覚の空間的なマスキング効果を明らかにしたうえで、その性質を音響レンダリングに応用することで、より効果的な音響再生のユーザ体験を提供することが可能となる。
 本発明の実施の形態に係る音響再生装置1は、音響制御部30は、制御として、空間的マスキング効果を示すマスキング閾値との重なりが小さくなる方向に再生音響信号を制御することを特徴とする。
 このように構成することで、実世界の空間的に散在する環境音と、仮想世界の電子データの空間的に散在する再生音との相互の空間的なマスキング効果を考慮したうえで、再生音の定位や音量、帯域を調整したり、実世界の音にかけるノイズキャンセリングの効く方向や帯域、又は外音取り込み音を制御したりすることができる。よって、コンテンツの再生音を聴きやすくすることができ、効果的な実世界、仮想空間の混合再生を行うことができる。
 本発明の実施の形態に係る音響再生装置1において、音響制御部30は、空間的マスキング効果の前頭面に関する対称性を利用して、環境音響信号の受聴者からみた前後の区別をすることなく再生音響信号を制御することを特徴とする。
 このように構成することで、前後の位置を把握しにくいというヒトの聴覚モデルに合わせて、より受聴者がコンテンツの再生音を聴きやすくすることができる。
 近年、外部の音を取り込みながら、又は消し去りながら、ヘッドフォンでコンテンツ再生を行う所謂ヒアスルー再生、すなわちノイズキャンセリング再生の装置が発展してきた。
 また、これらのヘッドフォンでは、外部の環境音の鼓膜面への侵入を低減するためのノイズキャンセリング機能を同時に有するものもあった。
 しかしながら、これらのヘッドフォンにおいて電子データの再生に際して、環境音のレベル、周波数特性、その方位などを考慮する事は行われてこなかった。
 これに対して、本発明の音響再生装置1は、外部の環境音響信号を取得する環境音取得部10と、環境音取得部10により取得された環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を算出する音響算出部20と、再生するコンテンツに関する再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種に応じて、音響算出部20により算出された環境音響信号を制御する音響制御部30と、音響制御部30により制御された環境音響信号によりノイズキャンセリングを行いつつ、再生音響信号を再生する再生部40とを備えるノイズキャンセリングヘッドフォン装置であることを特徴とする。
 このように構成し、再生音の定位、周波数特性、周波数成分の大きさを考慮しながら、環境音に対するノイズキャンセリング特性の周波数特性、方向、強度等を制御することで、より効果的にノイズキャンセリングを行うことが可能なノイズキャンセリングヘッドフォン装置を提供することができる。
〔他の実施の形態〕
 なお、上述の実施の形態においては、環境音取得部10及び音響算出部20を備える構成について記載した。
 図10を参照すると、しかしながら、音響再生装置1bのように、音響制御部30及び再生部40を備えて、環境音取得部10及び音響算出部20を備えないような構成も可能である。
 この場合、例えば、ユーザの指示をスイッチ、ボタン、タッチパッド等の入力部から、方向移動指示信号として取得し、これを基に、再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御することが可能である。
 このように構成することで、耳穴開放型ヘッドフォン等、積極的なノイズキャンセリングを行わない装置であっても、ユーザが再生音響信号を調整して、より聞こえやすくすることができる。
 また、この方向移動指示信号の取得は、上述の環境音取得部10及び音響算出部20を備える音響再生装置1においても適用可能である。
 たとえば、この場合、受聴者が環境音によって再生音が聞きにくいと感じた場合は、上述の入力部による方向移動指示信号を取得し、上述の音響制御処理と同様の処理を行うことが可能である。すなわち、再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御することが可能である。
 または、音響再生装置1の液晶や有機ELディスプレイ等の表示部、音響再生装置1と接続されたスマートフォンや専用端末のUI(User Interface)等により、方向移動指示信号を取得することも可能である。この場合、専用又は汎用の制御用のアプリを制御部で実行し、例えば、図5~図9に示したような音響信号の空間方向、周波数方向、及び振幅(大きさ)方向からなる音響空間における三次元的な四角錐のマスキング閾値を表示する。そして、受聴者が、この音響空間上で再生音や環境音をUIで移動させたり大きさを変更させたりすることで、これを基にした方向移動指示信号を取得し、各処理を行うことが可能である。
 より具体的には、全帯域一括で処理を行う場合、再生音の到来方向をずらすべくLチャンネル及びRチャンネルの大きさのバランス及び/又は位相差を調整して再生音を調整することも可能である。加えて、空間的マスキング効果の前頭面の対称性を考慮して、再生音の到来方向は、その左右方向のみを調整するUIとすることも可能である。
 上述の実施形態においては、再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさのそれぞれを制御する例について記載したものの、これらの任意又は全てを組み合わせた処理を行うことも可能である。
 加えて、環境音響信号をノイズキャンセリングで制御するのと、再生音響信号を制御するのとを組み合わせることも可能である。
 すなわち、上述の再生音響信号及び環境音響信号の制御は、任意に組み合わせ可能である。
 具体的には、例えば、ノイズキャンセリングを行うヘッドフォンである場合、特定の方向、例えば正面方向からの音声は、外音を取り込んで強調するようにすることが可能である。
 この場合、再生音の強調の制御と、環境音のノイズキャンセリングとを組み合わせる。すなわち、外部環境音の到来方向を上述の処理で推定し、正面方向から到来する帯域信号又は周波数ビンについては、再生音響信号にてそれらを強調する。そして、再生音響信号については、正面方向から到来する成分について、空間的配置、周波数的配置、及び各周波数成分の大きさをずらしたり、振幅を小さくしたりする。また、正面方向以外の方向から到来する環境音の周波数成分については、ノイズキャンセリングの処理を行う。すなわち、外音マイクから取り込まれた音声が鼓膜面で逆相になるようにして、再生音響信号に付加する。
 このようにすることで、ノイズキャンセリングを行いながらも、受聴者の正面にいる人の声は聴きやすくすることが可能となる。
 上述の実施形態においては、再生部40として2チャンネルで再生する例について説明した。
 これについて、複数チャンネルでの再生を行うことも可能である。
 このように構成することで、より適切に制御された再生音響信号を再生することができるため、より再生音を明瞭に再生することができる。
 加えて、上述の実施形態においては、環境音取得部10で左右のマイクロフォンを用いる例について記載したものの、複数のマイクロフォンからなるマイクロフォンアレイを用いることも可能である。この場合、ビームフォーミング処理によって指向性を制御し、各方向にビームを向けることで、音空間の空間サンプリングを行い、多チャンネルの音声ビーム信号を取得することが可能である。具体的には、環境音取得部10の各マイクロフォンに到来する音波の位相差をフィルターにより制御し、各マイクロフォンに到来する方向の信号を強調してもよい。この上で、空間サンプリングとして、音場を空間的に切り分けて、空間的情報を含めたまま、多チャンネルで集音することが可能である。
 このように構成することで、環境音響信号の到来方向を正確に算出できる。
 また、上述の実施形態においては、再生音響信号に方向情報が付加されている例について記載した。
 しかしながら、音響再生装置1に、受聴者の向いている方向を算出するGNSS(Global Navigation Satellite System)受信機、部屋内位置方向検出器、ヘッドトラッキングが可能な、加速度センサー、ジャイロセンサー、地磁気センサー等と、これらの出力を方向情報に変換する回路とを含む方向算出部を備えていてもよい。
 この場合、算出された受聴者の方向情報に、受聴者に対する音源オブジェクトの音響信号についての位置の関係を考慮して再生音響信号を制御することが可能である。これにより、映画館やフィールドゲーム等、絶対的な方向の再生音と、環境音とを重ね合わせたり、適切にノイズキャンセリングしたりして、現実感を高めることができる。すなわち、3D音場のキャプチャー、伝送、再生システムへの適用、VR/ARアプリケーションヘの適用等も可能である。
 上述の実施形態においては、音響再生装置1が一体的に構成されているように記載した。
 しかしながら、音響再生装置1は、スマートフォンやPC(Personal Computer)や家電等の情報処理装置と、ヘッドセット、ヘッドフォン、左右分離型イヤフォン等の端末とが接続されるような再生システムとして構成されてもよい。このような構成の場合、環境音取得部10及び再生部40が端末に備えられ、音響算出部20及び音響制御部30の機能を情報処理装置又は端末のいずれかで実行するようにしてもよい。加えて、情報処理装置と端末との間は、例えば、Bluetooth(登録商標)、HDMI(登録商標)、WiFi(登録商標)、USB(Universal Serial Bus)、その他の有線や無線の情報伝送手段で伝送されてもよい。この場合、情報処理装置の機能を、イントラネットやインターネット上のサーバー等で実行することも可能である。また、これらの伝送の場合は、空間マスキング効果を用いて、信号スペクトルのエネルギーからマスキング閾値を引いたエネルギーに応じたビットのみを割り当てる等の処理により、伝送に必要なビット数を聴覚的な品質を保持したまま削減し、聴覚的には劣化が知覚されない状態で環境音や再生音の信号を伝送することが可能である。
 上述の実施の形態では周波数マスキングを拡張した空間的マスキング効果を算出する例について記載した。
 これに対して、周波数を時間に代用しても同様の空間的マスキング効果を算出することも可能である。さらに、空間的マスキング効果として、周波数、方向間でのマスキングと、時間、方向間でのマスキングとの組み合わせを用いることも可能である。これにより、三次元や四次元の音響空間による空間マスキング効果を算出してもよい。
 加えて、上述の実施形態においては、環境音や再生音の到来方向として、受聴者の左右の角度方向を考慮する例について記載した。
 しかしながら、これらの到来方向として、上下方向についても考慮することが可能である。
 なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。
 本発明の音響再生方法は、聴覚の空間的マスキング効果を利用することで、従来よりも効果的な実世界、仮想世界を統合した再生を行うことができ、産業上に利用することができる。
1、1b 音響再生装置
10 環境音取得部
20 音響算出部
30 音響制御部
40 再生部
Ma、Mb、Ta、Tb、Te、Tf、Tp マスキング閾値

Claims (10)

  1.  再生するコンテンツに関する再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御する音響制御部と、
     前記音響制御部により制御された前記再生音響信号を再生する再生部とを備える
     ことを特徴とする音響再生装置。
  2.  外部の環境音響信号を取得する環境音取得部と、
     前記環境音取得部により取得された前記環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を算出する音響算出部とを更に備え、
     前記音響制御部は、
     前記再生音響信号の前記空間的配置、周波数的配置、及び各周波数成分からなる群の一種を、前記音響算出部による算出結果に応じて制御する
     ことを特徴とする請求項1に記載の音響再生装置。
  3.  前記音響算出部は、
     前記環境音響信号による空間的マスキング効果のマスキング閾値を算出し、
     前記音響制御部は、
     前記マスキング閾値を下回らないように、前記再生音響信号の前記空間的配置、周波数的配置、各周波数成分からなる群の一種を制御する
     ことを特徴とする請求項2に記載の音響再生装置。
  4.  前記音響制御部は、
     前記制御として、前記空間的マスキング効果を示すマスキング閾値との重なりが小さくなる方向に前記再生音響信号を制御する
     ことを特徴とする請求項3に記載の音響再生装置。
  5.  前記音響制御部は、
     前記空間的マスキング効果の前頭面に関する対称性を利用して、前記環境音響信号の受聴者からみた前後の区別をすることなく前記再生音響信号の制御を行う
     ことを特徴とする請求項3又は4に記載の音響再生装置。
  6.  再生するコンテンツに関する再生音響信号の空間的配置を制御する音響制御部と、
     前記音響制御部により制御された前記再生音響信号を再生する再生部とを備える
     ことを特徴とする音響再生装置。
  7.  外部の環境音響信号を取得する環境音取得部と、
     前記環境音取得部により取得された前記環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を算出する音響算出部と、
     再生するコンテンツに関する再生音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種に応じて、前記音響算出部により算出された前記環境音響信号を制御する音響制御部と、
     前記音響制御部により制御された前記環境音響信号によりノイズキャンセリングを行いつつ、前記再生音響信号を再生する再生部とを備える
     ことを特徴とするノイズキャンセリングヘッドフォン装置。
  8.  前記音響制御部は、
     前記環境音響信号の音響空間上の配置を制御する
     ことを特徴とする請求項7に記載のノイズキャンセリングヘッドフォン装置。
  9.  音響再生装置により実行される音響再生方法であって、
     再生するコンテンツに関する再生音響信号、及び/又は外部の環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御し、
     制御された前記再生音響信号、及び/又は外部の環境音響信号を再生する
     ことを特徴とする音響再生方法。
  10.  音響再生装置により実行される音響信号処理プログラムであって、前記音響再生装置を、
     音響制御部により、再生するコンテンツに関する再生音響信号、及び/又は外部の環境音響信号の空間的配置、周波数的配置、及び各周波数成分の大きさからなる群の一種を制御させ、
     再生部により、前記音響制御部により制御された前記再生音響信号、及び/又は外部の環境音響信号を再生させる
     ことを特徴とする音響信号処理プログラム。
PCT/JP2021/023134 2020-06-22 2021-06-18 音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラム WO2021261385A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-107054 2020-06-22
JP2020107054 2020-06-22

Publications (1)

Publication Number Publication Date
WO2021261385A1 true WO2021261385A1 (ja) 2021-12-30

Family

ID=79281245

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/023134 WO2021261385A1 (ja) 2020-06-22 2021-06-18 音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラム

Country Status (1)

Country Link
WO (1) WO2021261385A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023171280A1 (ja) * 2022-03-10 2023-09-14 ソニーグループ株式会社 信号処理装置、音響出力装置、信号処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011097268A (ja) * 2009-10-28 2011-05-12 Sony Corp 再生装置、ヘッドホン及び再生方法
JP2013106197A (ja) * 2011-11-14 2013-05-30 Toshiba Corp 音質制御装置、音質制御方法及び音質制御用プログラム
JP2014174430A (ja) * 2013-03-12 2014-09-22 Yamaha Corp 密閉型ヘッドフォン用信号処理装置および密閉型ヘッドフォン
JP2015198297A (ja) * 2014-03-31 2015-11-09 株式会社東芝 音響制御装置、電子機器及び音響制御方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011097268A (ja) * 2009-10-28 2011-05-12 Sony Corp 再生装置、ヘッドホン及び再生方法
JP2013106197A (ja) * 2011-11-14 2013-05-30 Toshiba Corp 音質制御装置、音質制御方法及び音質制御用プログラム
JP2014174430A (ja) * 2013-03-12 2014-09-22 Yamaha Corp 密閉型ヘッドフォン用信号処理装置および密閉型ヘッドフォン
JP2015198297A (ja) * 2014-03-31 2015-11-09 株式会社東芝 音響制御装置、電子機器及び音響制御方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023171280A1 (ja) * 2022-03-10 2023-09-14 ソニーグループ株式会社 信号処理装置、音響出力装置、信号処理方法

Similar Documents

Publication Publication Date Title
US10685638B2 (en) Audio scene apparatus
US10785589B2 (en) Two stage audio focus for spatial audio processing
EP3320692B1 (en) Spatial audio processing apparatus
US9361898B2 (en) Three-dimensional sound compression and over-the-air-transmission during a call
KR101333031B1 (ko) HRTFs을 나타내는 파라미터들의 생성 및 처리 방법 및디바이스
JP7082126B2 (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
US11659349B2 (en) Audio distance estimation for spatial audio processing
GB2549532A (en) Merging audio signals with spatial metadata
GB2554447A (en) Gain control in spatial audio systems
US20150245158A1 (en) Apparatus and method for reproducing recorded audio with correct spatial directionality
US20140372107A1 (en) Audio processing
JP2019518989A (ja) オーディオ出力を生成するためのデバイス
WO2021261385A1 (ja) 音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラム
JP7232546B2 (ja) 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
EP3613043A1 (en) Ambience generation for spatial audio mixing featuring use of original and extended signal
WO2024084999A1 (ja) 音響処理装置及び音響処理方法
JP2022128177A (ja) 音声生成装置、音声再生装置、音声再生方法、及び音声信号処理プログラム
Urbanietz et al. Binaural Rendering for Sound Navigation and Orientation
JP2015065551A (ja) 音声再生システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21829350

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21829350

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP