WO2020171049A1 - 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置 - Google Patents

音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置 Download PDF

Info

Publication number
WO2020171049A1
WO2020171049A1 PCT/JP2020/006211 JP2020006211W WO2020171049A1 WO 2020171049 A1 WO2020171049 A1 WO 2020171049A1 JP 2020006211 W JP2020006211 W JP 2020006211W WO 2020171049 A1 WO2020171049 A1 WO 2020171049A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
masking
sound
sound source
masking threshold
Prior art date
Application number
PCT/JP2020/006211
Other languages
English (en)
French (fr)
Inventor
西口 正之
巧大 加藤
Original Assignee
公立大学法人秋田県立大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 公立大学法人秋田県立大学 filed Critical 公立大学法人秋田県立大学
Priority to JP2021502010A priority Critical patent/JP7232546B2/ja
Priority to CN202080015479.XA priority patent/CN113574596A/zh
Priority to EP20759801.2A priority patent/EP3929918A4/en
Priority to US17/432,098 priority patent/US20230136085A1/en
Publication of WO2020171049A1 publication Critical patent/WO2020171049A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present invention particularly relates to an audio signal encoding method, an audio signal decoding method, a program, an encoding device, an audio system, and a compounding device.
  • bit allocation that adaptively allocates the number of bits in the quantization for each channel of the audio signals input to a plurality of channels on the time axis or the frequency axis.
  • bit allocation bit allocation
  • MPEG-2 AAC, MPEG-4 AAC, and MP3 which are used as standard
  • the auditory masking effect on the frequency axis is used in this bit allocation.
  • Patent Document 1 describes an example of a technique of acoustic signal coding that uses the auditory masking effect.
  • a threshold value for masking effect bit allocation (hereinafter referred to as a masking threshold value) is calculated in order to utilize the auditory masking effect.
  • the present invention has been made in view of such a situation, and an object thereof is to solve the above problems.
  • the acoustic signal encoding method of the present invention is an acoustic signal encoding method for encoding acoustic signals of a plurality of channels, which is executed by an encoding device, and calculates a masking threshold value corresponding to a spatial masking effect of hearing. Then, the amount of information to be assigned to each of the channels is determined based on the calculated masking threshold value, and the acoustic signals of the plurality of channels are encoded by the assigned amount of information.
  • a program of the present invention is a program executed by an encoding device, which encodes acoustic signals of a plurality of channels, and causes the encoding device to calculate a masking threshold value corresponding to an auditory spatial masking effect, According to the calculated masking threshold value, the amount of information to be assigned to each of the channels is determined, and the acoustic signals of the plurality of channels are encoded with the assigned amount of information.
  • An encoding device of the present invention is an encoding device that encodes acoustic signals of a plurality of channels and/or sound source objects and position information of the sound source objects, and a masking threshold corresponding to a spatial masking effect of auditory sense.
  • an information amount determination unit that determines the amount of information to be allocated to each of the channels and/or the sound source object by the masking threshold calculation unit that calculates the masking threshold value calculated by the masking threshold calculation unit.
  • An encoding unit that encodes the acoustic signal and/or the sound source object and the position information of the sound source object with the allocated information amount, respectively.
  • An audio system of the present invention is an audio system including the encoding device and a decoding device, wherein the decoding device includes a direction calculation unit that calculates a direction in which a listener is facing, and the direction calculation.
  • the masking threshold value calculation unit of the encoding device sets the masking threshold value to a spatial distance and/or a spatial distance between each of the channels and/or each of the sound source objects with respect to the position and the direction of the listener. Alternatively, the calculation is performed corresponding to the spatial masking effect based on the direction.
  • the amount of information to be assigned to each channel and/or sound source object is determined by a masking threshold corresponding to the spatial masking effect of the auditory sense, and the acoustic signals of a plurality of the channels and/or the sound source
  • a decoding unit that decodes the sound source object into a sound signal.
  • a masking threshold value corresponding to the spatial masking effect of the auditory sense is calculated, the calculated masking threshold value is used to determine the information amount for allocating the acoustic signals of a plurality of channels to each channel, and the allocated information amount It is possible to provide an audio signal encoding method capable of encoding an audio signal having a large number of channels at a sufficient bit rate by encoding with.
  • FIG. 1 It is a system configuration diagram of an audio system according to an embodiment of the present invention. It is a flow chart of acoustic coding decoding processing concerning an embodiment of the invention. It is a conceptual diagram of the audio encoding/decoding process shown in FIG. It is a conceptual diagram of the audio encoding/decoding process shown in FIG. It is a conceptual diagram which shows the measurement system of the listening experiment which concerns on the Example of this invention. It is a conceptual diagram which shows the threshold value search in the listening experiment which concerns on the Example of this invention. It is a screen example of a response screen in the listening experiment according to the embodiment of the present invention.
  • the audio system X is a system capable of acquiring audio signals of a plurality of channels, encoding them by the encoding device 1, transmitting them, decoding them by the decoding device 2, and reproducing them.
  • the encoding device 1 is a device that encodes an acoustic signal.
  • the encoding device 1 is, for example, a PC (Personal Computer), a server, an encoder board mounted on these, a dedicated encoder, or the like.
  • the encoding device 1 of the present embodiment encodes acoustic signals of a plurality of channels, and/or sound source objects and position information of the sound source objects.
  • the encoding device 1 corresponds to an audio encoding system such as MPEG-2 AAC, MPEG-4 AAC, MP3, Dolby (registered trademark) Digital, DTS (registered trademark), and has two channels, 5.1. Encoding is performed on acoustic signals of a plurality of channels such as channels, 7.1 channels, 22.2 channels and the like.
  • the decoding device 2 is a device that decodes the acoustic signal encoded by the decoding device 2.
  • the decryption device 2 is, for example, an HMD (Head-Mounted Display) for VR (Virtual Reality) or AR (Augmented Reality), a smartphone (Smart Phone), a dedicated game machine, a home TV, and a wireless connection. Headphones, virtual multi-channel headphones, equipment for movie theaters and public viewing venues, dedicated decoders and head tracking sensors, etc.
  • the decoding device 2 decodes and reproduces the audio signal encoded by the encoding device 1 and transmitted by wire or wirelessly.
  • the acoustic system X mainly includes a microphone array 10, a sound collector 20, a frequency domain converter 30, a masking threshold calculator 40, an information amount determiner 50, an encoder 60, a direction calculator 70, a transmitter 80, and a decoder.
  • the conversion unit 90, the stereophonic sound reproducing unit 100, and the headphones 110 are included.
  • the frequency domain conversion unit 30, the masking threshold value calculation unit 40, the information amount determination unit 50, and the encoding unit 60 function as the encoding device 1 (transmission side) of the present embodiment.
  • the direction calculation unit 70, the transmission unit 80, the decoding unit 90, the stereophonic sound reproduction unit 100, and the headphones 110 function as the decoding device 2 (reception side) of the present embodiment.
  • the microphone array 10 picks up sound in a sound space, which is a space where various sounds exist in various places. Specifically, for example, the microphone array 10 acquires sound waves in multiple directions of 360°. At this time, the directivity is controlled by the beam forming process and the beam is directed in each direction, whereby spatial sampling of the sound space is performed and a multi-channel audio beam signal can be obtained. Specifically, in the beam forming of the present embodiment, the phase difference of the sound waves that reach the microphones of the microphone array 10 is controlled by a filter, and the signal in the direction of arrival of each microphone is emphasized. Then, as spatial sampling, the sound field is spatially separated, and the sound is collected in multiple channels while including the spatial information.
  • the sound collection unit 20 is a device such as a mixer that collects sounds of a plurality of channels and transmits them as an acoustic signal to the encoding device 1.
  • the frequency domain transformation unit 30 cuts out the voice beam signal for each direction obtained by spatial sampling into a window (frame) of several microseconds to several tens of milliseconds, and performs DFT (discrete Fourier transform) or discrete Fourier transform (discrete Fourier transform).
  • the time domain is transformed into the frequency domain by MDCT (Modified Discrete Cosine Transform).
  • MDCT Modified Discrete Cosine Transform
  • the frequency domain converter 30 outputs this frame as an acoustic signal of each channel. That is, the acoustic signal of this embodiment is a signal in the frequency domain.
  • the masking threshold calculation unit 40 calculates a masking threshold corresponding to the auditory spatial masking effect from the acoustic signal of each channel converted by the frequency domain conversion unit 30. At this time, the masking threshold calculation unit 40 applies a model considering the spatial masking effect, and then calculates a masking threshold in the frequency domain.
  • the calculation itself of the masking threshold value in the frequency domain can be realized by the method described in Non-Patent Document 1, for example.
  • the masking threshold calculation unit 40 can acquire the sound source object and similarly calculate the masking threshold corresponding to the spatial masking effect of the auditory sense.
  • This sound source object represents each of a plurality of acoustic signals generated from spatially different positions.
  • This sound source object is, for example, an acoustic signal with position information. This may be, for example, an output signal of a microphone for recording each musical instrument of the orchestra, a sampled audio signal used in a game or the like, which is converted into an acoustic signal in the frequency domain.
  • the masking threshold value calculation unit 40 calculates frequency masking by acquiring or converting an acoustic signal once collected and stored in a recording medium such as a flash memory, an HDD, or an optical recording medium. Is also possible.
  • the masking threshold calculation unit 40 sets the masking threshold to the spatial distance between the channels and/or between the sound source objects and/or the positional direction information of the listener. Alternatively, it can be calculated corresponding to the spatial masking effect based on the direction. Alternatively, the masking threshold calculation unit 40 may calculate the masking threshold corresponding to the spatial masking effect based on the spatial distance and/or the direction between the channels and/or the sound source objects.
  • the masking threshold calculation unit 40 has a greater influence on the masking threshold as the spatial distance and/or the direction between the channel and/or the sound source object are closer to each other, and has a greater influence on each other as the spatial distance and/or the direction between the sound source objects are closer to each other. It may be calculated corresponding to the spatial masking effect that becomes smaller.
  • the masking threshold value calculation unit 40 influences the masking threshold value with respect to the spatial distance and/or the direction between the sound source objects with respect to the channels and/or the sound source objects that are located symmetrically with respect to the listener. It may be calculated corresponding to the spatial masking effect that changes the degree of.
  • the masking threshold calculation unit 40 for a channel and/or sound source object located behind the listener with respect to the masking threshold, has the channel and/or object in front of the symmetrical position. It may be calculated corresponding to such a spatial masking effect.
  • the masking threshold calculation unit 40 You may adjust by the following formula (1).
  • is the direction of the masker
  • is a constant controlled by the frequency of the masker
  • is the tone of the masker signal.
  • x indicates a direction to be sought or a direction of a masky.
  • the sound that interferes with the hearing is called “masker”, and the sound that interferes with the hearing is called “musky”.
  • max is a function that returns the maximum value in the argument.
  • f(x) of the equation (1) for example, a linear function such as a triangular wave shown in the following equation (2) can be used.
  • x it is possible to use a desired orientation or a Muskie orientation.
  • This azimuth corresponds to the beamforming direction of the microphone, the direction of the sound source object, and the like.
  • f(x) it is possible to use other functions, for example, a function calculated from an actual masker or a result of a Muskey experiment.
  • the masking threshold calculation unit 40 applies the masking threshold to the signals of the respective channels and/or the sound source objects depending on whether the signals of the respective channels and/or the sound source objects are tone-like signals or noise-like signals. It may be calculated corresponding to the spatial masking effect that changes the degree of influence.
  • the information amount determination unit 50 determines the amount of information to be assigned to the sound source object based on the masking threshold value calculated by the masking threshold value calculation unit 40. In the present embodiment, as the information amount, bits are assigned to each acoustic signal based on the masking threshold. The information amount determination unit 50 calculates the average number of bits per sample by Perceptual Entropy (hereinafter referred to as “PE”) as the bit allocation corresponding to the masking threshold value calculated by the masking threshold value calculation unit 40. It is possible to
  • the encoding unit 60 encodes the acoustic signals of a plurality of channels, and/or the sound source object and the position information of the sound source object with the respectively allocated information amount.
  • the encoding unit 60 quantizes each acoustic signal based on the number of bits assigned by the information amount determination unit 50, and transmits it to the transmission path.
  • this transmission path for example, Bluetooth (registered trademark), HDMI (registered trademark), WiFi, USB (Universal Serial Bus), or other wired or wireless information transmission means can be used. More specifically, it can be transmitted by peer-to-peer communication via a network such as the Internet or WiFi.
  • the direction calculator 70 calculates the direction in which the listener is facing.
  • the direction calculation unit 70 includes, for example, an acceleration sensor capable of head tracking, a gyro sensor, a geomagnetic sensor, and the like, and a circuit that converts the outputs of these to direction information. On this basis, the direction calculation unit 70 can calculate the position/direction information by adding the position information in consideration of the positional relationship between the listener and the sound source object or the acoustic signals of a plurality of channels to the calculated direction information.
  • the transmitting unit 80 transmits the position/direction information calculated by the direction calculating unit 70 to the encoding device 1.
  • the transmission unit 80 can send the position/direction information to the masking threshold calculation unit 40 so that the position/direction information can be received by, for example, wired or wireless transmission similar to the transmission path of the acoustic signal.
  • the decoding unit 90 decodes acoustic signals of a plurality of channels and/or sound source objects encoded by the encoding device 1 into audio signals. For example, the decoding unit 90 first dequantizes the signal received from the transmission path. Next, the signal in the frequency domain is returned to the time domain by IDFT (Inverse Discrete Fourier Transform, inverse discrete Fourier transform, inverse discrete Fourier transform), IMDCT (Inverse Modified Discrete Cosine Transform, inverse modified discrete cosine transform), etc. Convert to channel audio signal.
  • IDFT Inverse Discrete Fourier Transform, inverse discrete Fourier transform, inverse discrete Fourier transform
  • IMDCT Inverse Modified Discrete Cosine Transform, inverse modified discrete cosine transform
  • the stereophonic reproduction unit 100 converts the audio signal decoded by the decoding unit 90 into a stereophonic signal that reproduces the stereophonic sound for the listener.
  • the stereophonic sound reproducing unit 100 regards the beam signal for each direction returned to the time domain as a signal emitted from a sound source in that direction and regards the beam direction as an HRTF (Head-Related Transfer Function, head). Partial transfer function).
  • HRTF Head-Related Transfer Function, head). Partial transfer function.
  • the HRTF expresses a change in sound caused by a peripheral object including the auricle, the human head, and the shoulder as a transfer function.
  • the HRTF weights the convoluted signals for each beam direction and then adds the weighted signals to generate a two-channel binaural signal to be presented to the listener.
  • the beam-direction-based weighting is a process of performing weighting such that the binaural signals that are the L signal and the R signal are closer to the binaural signals in the sound space to be reproduced.
  • a binaural signal is generated by convolving and adding the HRTFs in the sound source direction to the respective sound sources existing in a certain sound space.
  • the binaural signal is used as a target signal, and the output signal is weighted so that the binaural signal obtained as an output becomes equal to the target signal.
  • the stereophonic sound reproducing unit 100 can update the HRTF by the position/direction information calculated by the direction calculating unit 70 in addition to the masking threshold described above, and can reproduce the stereophonic sound.
  • the headphone 110 is a device for the listener to reproduce the sound that is decoded and stereophonicized.
  • the headphone 110 includes a D/A converter, an amplifier, an electromagnetic driver, an earpiece worn by a user, and the like.
  • the encoding device 1 and the decoding device 2 are, for example, as various circuits, an ASIC (Application Specific Processor), a DSP (Digital Signal Processor), a CPU (Central Processing Unit). , MPU (Micro Processing Unit), GPU (Graphics Processing Unit), etc.
  • the encoding device 1 and the decoding device 2 use, as storage means, semiconductor memory such as ROM (Read Only Memory) and RAM (Random Access Memory), magnetic recording medium such as HDD (Hard Disk Drive), and optical recording. It includes a storage unit such as a medium. A control program for realizing each method according to the embodiment of the present invention is stored in this storage unit.
  • the encoding device 1 and the decoding device 2 include display means such as a liquid crystal display and an organic EL display, input means such as a keyboard, a pointing device such as a mouse and a touch panel, a LAN board, a wireless LAN board, serial, parallel, and USB.
  • display means such as a liquid crystal display and an organic EL display
  • input means such as a keyboard, a pointing device such as a mouse and a touch panel, a LAN board, a wireless LAN board, serial, parallel, and USB.
  • An interface such as (Universal Serial Bus) may be included.
  • the encoding device 1 and the decoding device 2 execute the respective methods according to the embodiments of the present invention by using the hardware resources by being executed by the control unit mainly using various programs stored in the storage means. Can be realized using. It should be noted that a part or an arbitrary combination of the above-described configurations may be configured as an IC, a programmable logic, an FPGA (Field-Programmable Gate Array), or the like in terms of hardware or circuit.
  • Step S101 the frequency domain conversion unit 30 of the encoding device 1 performs audio data acquisition processing.
  • a sound collector goes to a stadium or the like and picks up sound using the microphone array 10.
  • audio signals in each direction ( ⁇ ) centered on the microphone array 10 are acquired.
  • the sound collecting side collects sound based on the concept of "spatial sampling". Spatial sampling is to spatially separate the sound field and collect sound in multiple channels. In the present embodiment, for example, a sound signal of a specific step, which is divided into left and right 0° to 360°, is picked up corresponding to a plurality of channels.
  • the frequency domain conversion unit 30 cuts out the collected voice data, converts the time domain signal into a frequency domain signal by DFT, MDCT, or the like, and stores the acoustic signal in the storage unit.
  • Step S201 the direction calculation unit 70 of the decoding device 2 performs the direction calculation process.
  • the direction calculation unit 70 calculates the direction information of the listener and the position information of the acoustic data.
  • Step S202 Next, the transmission unit 80 performs a direction transmission process.
  • the transmission unit 80 transmits the position/direction information calculated by the direction calculation unit 70 to the encoding device 1.
  • Step S102 the masking threshold calculation unit 40 of the encoding device 1 performs the masking threshold calculation processing.
  • the masking threshold T is calculated in the frequency domain, the masking threshold of spatial masking described later is further calculated, and the bit allocation is determined. Therefore, the masking threshold calculation unit 40 first calculates the masking threshold T in the frequency band.
  • the auditory masking effect is an effect in which one sound is hard to hear due to the presence of another sound.
  • the sound that interferes with the hearing is referred to as “masker”, and the sound that interferes with the hearing is referred to as “musky”.
  • the masking effect is roughly classified into frequency masking (simultaneous masking) and time masking (continuous masking).
  • Frequency masking is a masking that occurs when a masker and a masky overlap in time
  • time masking is a masking that occurs when they are apart in time.
  • the horizontal axis represents frequency and the vertical axis represents signal energy. That is, FIG.
  • 3A is a graph of an example of a range and a threshold value of a spectrum (Maskey) masked by a masker when a certain spectrum (pure tone) included in a signal is used as a masker.
  • the threshold value of the masky increases even near the frequency of the masker where no signal component exists.
  • the frequency range in which the threshold value increases is not symmetrical with respect to the frequency of the masker, and the higher the frequency of the masky with respect to the masker, the easier it is to mask the sound of the lower frequency. Therefore, auditorily, a situation occurs in which the masker has not only the frequency of the masker but also the components spread on both sides thereof.
  • Fig. 3(b) shows the concept of applying frequency masking in encoding.
  • the horizontal axis represents frequency and the vertical axis represents signal energy.
  • the thick black curve represents the spectrum of the signal.
  • the gray curve represents the masking threshold.
  • the filled area in FIG. 3B is a portion that is masked by frequency masking and is not perceived.
  • the part that actually contributes to the perception of sound in FIG. 3B is the part sandwiched between the curve representing the spectrum of the signal and the curve representing the masking threshold.
  • a frequency where the energy of the signal spectrum is smaller than the masking threshold value like the high frequency band in FIG. 3B does not contribute to the perception of sound.
  • the curve representing the masking threshold over the entire band as shown in FIG. 3B is obtained by calculating the masking threshold for each frequency component using the knowledge of masking regarding a single spectrum or noise, and combining them. can get.
  • the masking threshold calculation unit 40 convolves a masking threshold calculation formula (Spreading Function, hereinafter, referred to as “SF”) with the Bark spectrum as described in Patent Document 1, for example. Then, the masking threshold calculation unit 40 calculates the Spread masking threshold T spread using the Spectral Flatness measure (SFM) and the adjustment coefficient. Then, the masking threshold calculation unit 40 calculates the provisional threshold T by returning the Spread masking threshold T spread to the area of the Bark spectrum by deconvolution.
  • SFM Spectral Flatness measure
  • the masking threshold value calculation unit 40 divides the temporary threshold value T by the number of DFT spectra corresponding to each Bark index, and then compares the temporary threshold value T with the absolute threshold value to obtain the temporary threshold value T. Is converted to the final threshold value T final for frequency masking.
  • the approximate expression T qf [dBSPL] of the absolute threshold at the frequency f (Hz) is calculated by the following equation (3).
  • T qf 3.64 (f/1000) -0.8 -6.5 exp ⁇ -0.6 (f/1000-3.3) 2 ⁇ +10 -3 (f/1000) 4 +O LSB ...Equation (3)
  • the masking threshold calculation unit 40 calculates the threshold T final in the i-th frequency band (final band) of frequency masking by the following formula (4).
  • the masking threshold calculation unit 40 further calculates a masking threshold corresponding to the auditory spatial masking effect from the threshold T final of this frequency band. At this time, the masking threshold calculation unit 40 calculates the frequency masking threshold considering spatial masking, using the direction information of the acoustic signal.
  • the masking threshold value of the own channel is calculated using only the signal component of the own channel. That is, in an audio signal having a plurality of channels, masking by the signals of channels other than the target channel is not considered for masking the target channel, and the masking threshold value is determined for each channel independently.
  • the spatially sampled acoustic signal as used in the present embodiment has a large signal correlation between adjacent channels, and a portion having similar waveforms and a portion having similar waveforms are mixed.
  • spatial masking in which the masking effect is extended to the spatial domain, is used for encoding the spatially sampled signal.
  • the horizontal axis represents the spatial direction of the signal
  • the depth represents the frequency
  • the vertical axis represents the energy of the signal.
  • the area inside the square pyramid at the foot of the masker signal represents the area that will be masked by this signal.
  • the dimension of direction is added and the dimension is increased by one.
  • the spatial direction includes an azimuth angle and an elevation angle.
  • the curve representing the masking threshold is three-dimensional. In other words, masking occurs in the spatial direction, and a masked signal is generated.
  • Such spatial masking involves masking the auditory central system where binaural information interacts.
  • FIG. 4 is an example of calculating a masking threshold value in which spatial masking is taken into consideration for signals in the i direction among signals in the N direction from 1 to N.
  • the horizontal axis of each graph is frequency, and the vertical axis is signal energy.
  • the black solid line represents the signal spectrum and the gray solid line represents the masking threshold calculated from them.
  • the black broken line is obtained by weighting the masking threshold of the signal in each direction.
  • the gray dotted line represents the masking threshold of the signal in the i direction, which takes into account all the masking by the signal in each direction.
  • the present inventors created a masking model in consideration of spatial masking in an omnidirectional sound source based on the results of listening experiments of examples described later, and calculated as follows.
  • the calculation procedure is as follows. First, for signals in each direction, a masking threshold is calculated in the same way as the conventional frequency domain masking. Next, in order to obtain the masking threshold value T in each of these directions, the weight to be multiplied by the masking threshold value in the frequency domain of each channel signal is calculated by the function T spatial ( ⁇ , x) corresponding to the above equation (1). , Respectively. However, the weighting of the masking threshold value of itself, i.e., the signal in the i-direction, is set to zero dB, that is, to 1 on the linear scale.
  • the weighted omnidirectional masking thresholds are summed on a linear scale. Thereby, the masking threshold value of the signal in the i direction in consideration of the spatial masking is obtained.
  • the function T spatial is a function that outputs the amount of attenuation of the masking threshold from the direction in which the masker exists in decibels when the direction of the masker and the direction of the masky are input as variables. Therefore, T spatial is determined so that the maximum value is 0 [dB] in the direction in which the masker exists.
  • the orientation of the masker is [deg. ]
  • the azimuth of the musky is x[deg. ]
  • the function T spatial ( ⁇ , x) [dB] is calculated by the following equation (4-2).
  • ⁇ and ⁇ are scaling coefficients
  • max is a function that returns the maximum value in the argument.
  • f is an arbitrary periodic function with a period of 360° that takes a maximum value at a phase of 0°.
  • f(x) As the periodic function f(x), it is possible to use, for example, a triangular wave similar to the above equation (2).
  • f(x ⁇ ) becomes 0 dB in the azimuth in which the masker exists, and the threshold change that minimizes the level in the azimuth opposite to that, that is, in the azimuth advanced by 180° Represent
  • f(180-x- ⁇ ) is 0 dB in the azimuth symmetrical with respect to the azimuth where the masker is present, and is the threshold that the level is minimum in the azimuth opposite to that, that is, the azimuth advanced 180°. Shows the change.
  • two functions f that are phase-matched so as to respectively represent “attenuation of the threshold value from the direction in which the masker exists” and “attenuation of the threshold value from the direction that is symmetrical to the direction in which the masker exists”
  • the scaling factor ⁇ (0 ⁇ 1) is a masking effect that “the lower the frequency (center frequency) of the masker, the more noticeable the increase of the threshold value when the masky is in the symmetric direction with respect to the masker”. Is a coefficient for reflecting. ⁇ is determined so that it becomes closer to 1 as the frequency of the masker becomes lower and approaches 0 as the frequency of the masker becomes higher. By doing so, f(180-x- ⁇ ) can be scaled according to the frequency of the masker, and the degree of folding back of the threshold value on the frontal plane can be adjusted.
  • the scaling coefficient ⁇ (0 ⁇ ) is a coefficient for reflecting the finding that “when the masker is a pure tone, the change in the threshold value depending on the direction of the masky is flat”. ⁇ is determined so that it becomes closer to 0 as the tone of the masker has a tone characteristic, and becomes larger as the tone of the masker has a noise characteristic. By doing so, it is possible to adjust the fluctuation range of the value of the entire function T spatial when ⁇ and x change, depending on whether the masker is pure tone or noise.
  • the weight T by which the masking threshold value in the frequency domain of each channel signal is multiplied is applied.
  • the masking threshold value in that direction (x direction) can be calculated (on the frequency axis).
  • the information amount determination unit 50 performs information amount determination processing.
  • the direction information of the spatially sampled signal is used to perform bit allocation in consideration of the spatial domain in the frequency domain.
  • a masking effect is used to perform bit allocation considering the spatial area. Therefore, the information amount determination unit 50 determines the information amount to be assigned to each channel and/or sound source object based on the masking threshold value calculated by the masking threshold value calculation unit 40.
  • a masking threshold corresponding to the auditory spatial masking effect it becomes possible to perform bit allocation on the frequency axis in consideration of the spatial region. That is, by using the auditory spatial masking effect, it is possible to reduce the number of bits of the signal required for transmission while maintaining the auditory quality.
  • the information amount determination unit 50 calculates the bit allocation as the information amount by using PE, for example, in order to positively use the masking effect of hearing.
  • a signal below the masking threshold has no meaningful information for human hearing, that is, the average information amount of a music signal is calculated as PE that can be buried in quantization noise.
  • This PE can be calculated by the following equation (5).
  • Step S104 the encoding unit 60 performs an encoding process.
  • the encoding unit 60 encodes the acoustic signals of a plurality of channels, and/or the sound source object and the position information of the sound source object by the information amount respectively allocated.
  • the encoded data is transmitted to the decoding device 2 on the receiving side. This transmission is performed by, for example, peer-to-peer communication. Alternatively, it may be downloaded as data or read by the decoding device 2 as a memory card or an optical recording medium.
  • Step S203 the decoding unit 90 of the decoding device 2 performs the decoding process.
  • the decoding unit 90 decodes acoustic signals of a plurality of channels and/or sound source objects encoded by the encoding device 1 into audio signals.
  • the decoding device 2 is a smartphone or the like
  • the acoustic signal transmitted by the encoding device 1 is decoded by a decoder such as a specific codec.
  • the stereophonic sound reproducing unit 100 performs a stereophonic sound reproducing process.
  • the stereophonic reproduction unit 100 converts the audio signal decoded by the decoding unit 90 into a stereophonic signal that reproduces the stereophonic sound for the listener.
  • the stereophonic sound reproducing unit 100 reproduces a multi-channel audio signal as a 2-channel audio signal while including spatial information. This can be realized by adding the transfer characteristics of the sound from the sound source to the human ear to each audio signal and adding them in all directions. That is, the stereophonic sound reproducing unit 100 synthesizes sound signals for each direction and reproduces the sound signals using headphones.
  • the head related transfer function (HRTF) corresponding to the direction of each audio signal is convoluted and converted into a two-channel sound signal.
  • the stereophonic sound reproducing unit 100 adds, for example, the transfer characteristics of the HRTF corresponding to the direction of each signal to each audio signal, and outputs the sum of the signals in each of the L channel and the R channel. As a result, it is possible to easily reproduce the two-channel audio signal from the headphones without depending on the number of channels on the sound collecting side. With the above, the acoustic signal coding/decoding processing according to the embodiment of the present invention is completed.
  • a sound field represented by a multi-channel signal is composed of a plurality of spatially dispersed sound sources. Regarding this, regarding the mutual masking effect and hearing when multiple sound sources are spatially arranged at the same time, its action and effect have not been clarified, and it has not been applied yet.
  • the encoding device 1 is an encoding device that encodes acoustic signals of a plurality of channels, and/or a sound source object and position information of the sound source object.
  • a masking threshold calculation unit 40 that calculates a masking threshold corresponding to the spatial masking effect of the auditory sense, and an information amount that determines the amount of information to be assigned to each channel and/or sound source object based on the masking threshold calculated by the masking threshold calculation unit 40.
  • the present invention is characterized by including a determining unit 50 and an encoding unit 60 that encodes acoustic signals of a plurality of channels, and/or sound source objects and position information of the sound source objects with assigned information amounts.
  • the spatial relationship between the channels is not taken into consideration. Therefore, in the case of an audio signal having a larger number of channels such as 22.2 channel sound, the compression is performed by bit allocation. However, the bit rate (bandwidth) at the time of transmission may be insufficient.
  • the sound field represented by the multi-channel signal is composed of a plurality of spatially dispersed sound sources. Since the spatially sampled signal includes spatial information, it is possible to further reduce the number of transmission bits by performing bit allocation considering the spatial domain in addition to the conventional frequency domain.
  • the bit rate can be reduced by obtaining a masking threshold value for a plurality of spatially scattered sound sources based on the mutual masking effect and performing bit allocation based on the threshold value. According to the experiments by the present inventors, it is possible to reduce the bit rate by 5 to 20% compared with the conventional one.
  • An audio system X of the present invention is an audio system that includes the encoding device 1 and the decoding device 2 described above, and the decoding device 2 calculates the direction in which the listener is facing. And a transmission unit 80 that transmits the direction calculated by the direction calculation unit 70 to the encoding device 1, an acoustic signal of a plurality of channels encoded by the encoding device 1, and/or a sound source object is decoded into an audio signal.
  • the masking threshold value calculation unit 40 of the encoding device 1 includes a decoding unit 90 for converting the spatial distance and/or the spatial distance between each channel and/or each sound source object with respect to the position and direction of the listener. It is characterized in that it is calculated corresponding to the spatial masking effect based on the direction.
  • an auditory display that calculates direction information and controls the position of a sound image can be realized. That is, the position of the sound source of each channel, or the relative positional relationship between the position of the sound source object and the listener is fed back to the encoding device 1, and encoding is performed based on the positional relationship, and decoding is performed. It becomes possible. Accordingly, it is possible to provide an acoustic system that allows users to easily pick up, transmit, and play the 360° spherical sound space.
  • 3D (three-dimensional) sound field reproduction technology binaural/trans-aural auditory display technology for enjoying music, broadcasting/movie contents as surround sound with headphones or two front speakers, 5.1-channel for home theater
  • a sound field reproduction technology that simulates the sound field of a real hall or theater in a 7.1-channel surround playback environment has been developed.
  • 3D sound field reproduction technology using wave field synthesis with a speaker array is also in progress.
  • sound collection and multi-channel content expression have become common.
  • a 3D sound reproduction technique although embodiments relating to a head related transfer function and localization have been actively carried out, the relation with spatial masking has not been examined.
  • the decoding device 2 is a stereophonic sound reproduction in which the audio signal decoded by the decoding unit 90 is converted into a stereophonic sound signal for reproducing the stereophonic sound for the listener. It is characterized by further including a section 100.
  • an acoustic signal efficiently encoded by applying the interrelationship of a plurality of sound sources scattered in the sound field of the three-dimensional space and the masking effect to the spatial perception of the acoustic signal, It can be reproduced in two channels in association with the head related transfer function (HRTF).
  • HRTF head related transfer function
  • the acoustic signal encoding method of the present invention is characterized in that the masking threshold value is calculated corresponding to a spatial masking effect based on a spatial distance and/or a direction between each channel and/or each sound source object.
  • the masking threshold value is calculated corresponding to a spatial masking effect based on a spatial distance and/or a direction between each channel and/or each sound source object.
  • the masking threshold value has a greater influence on each other as the spatial distance and/or the direction between the channel and/or the sound source object become closer, and becomes smaller as the spatial distance and/or direction between the sound source objects become closer. It is characterized in that it is calculated corresponding to the dynamic masking effect.
  • the spatial masking effect can be calculated. With such a spatial masking effect, more efficient encoding is possible and the data transmission bit rate can be reduced.
  • the masking threshold has an effect on the mutual spatial distance and/or direction between the sound source objects for the channels and/or the sound source objects located at symmetrical positions with respect to the listener. It is characterized in that it is calculated corresponding to the spatial masking effect that changes the degree of.
  • the spatial masking effect can be calculated by a model whose effect is not so small.
  • the masking threshold is such that, for a channel and/or sound source object located at a position behind the listener, the channel and/or object exists in front of a symmetrical position. It is characterized in that it is calculated corresponding to the spatial masking effect. For a channel or sound source object that is configured in this way and is at a position behind the listener, a spatial masking effect that corresponds to a position that is symmetrical to the front and back and that channel or object exists in front of the mirror is used. It is possible to calculate the masking threshold value.
  • the masking threshold value is calculated so that the sound source located behind the axis with the straight line connecting both ears as the axis moves to the front of the axis corresponding to the position of line symmetry about the axis.
  • the masking threshold value of the signal of each channel and/or sound source object is determined according to whether the signal of each channel and/or sound source object corresponds to a tone-type signal or a noise-type signal. It is characterized in that it is calculated corresponding to a spatial masking effect that changes the degree of mutual influence. With this configuration, as a spatial masking effect, the degree of influence on each channel signal or sound source object signal is changed depending on whether each channel signal or sound source object is a tone signal or a noise signal.
  • the masking threshold can be calculated by the model. With this configuration, more efficient encoding is possible and the data transmission bit rate can be reduced.
  • the masking threshold is adjusted by the following equation (1).
  • is the direction of the masker
  • is a constant controlled by the frequency of the masker
  • is the tone of the masker signal.
  • x is the direction or the direction of the masky.
  • the acoustic signal coding method of the present invention is characterized in that the average number of bits per sample is calculated by the PE in consideration of the spatial masking effect across channels.
  • the data transmission bit rate can be reduced.
  • the acoustic signal decoding method of the present invention is an acoustic signal decoding method executed by the decoding device 2, and is capable of decoding acoustic signals of a plurality of channels encoded by the acoustic signal encoding method described above. Is characterized by.
  • the coding of 22.2 channels is mentioned as the coding of the acoustic signals of a plurality of channels.
  • the audio signal encoding method of this embodiment is represented by multi-channel audio encoding such as 5.1 channel and 7.1 channel, 3D audio encoding in which space is sampled, and MPEG-H 3D AUDIO.
  • the present invention can also be applied to object coding or existing 2-channel stereo audio coding. That is, the encoding device 1 does not perform sound collection using the microphone array 10 as shown in FIG. 1 of the above-described embodiment, and the multi-channels already collected in step S101 of FIG. Of course, it is possible to acquire voice data from voice data, voice objects, and the like.
  • the acoustic system X uses headphones capable of head tracking as the decoding device 2 that decodes the transmitted acoustic signal.
  • the acoustic signal encoding method and the acoustic decoding method according to the present embodiment are applicable to any acoustic system as long as it can use the auditory masking effect that works on a sound source that is scattered three-dimensionally. It is possible. For example, other 3D sound field capture, transmission, application to a reproduction system, application to a VR/AR application, etc. are possible.
  • the headphones 110 may be a plurality of stationary speakers or the like, as shown in the embodiment.
  • the headphone is described as feeding back the position/direction information to the encoding device 1, this need not be done.
  • the masking threshold can be calculated without using the position/direction information.
  • the stereophonic sound reproducing unit 100 does not have to update the convolution of the head related transfer function (HRTF) according to the position/direction information.
  • the decoding device 2 includes the direction calculation unit 70 and the transmission unit 80 has been described.
  • the acoustic signal coding method and the acoustic decoding method according to the present embodiment do not necessarily mean that the direction in which the listener is facing must be known. Therefore, a configuration without the direction calculation unit 70 and the transmission unit 80 is also possible.
  • this allocation of information amount may be allocation of information amount corresponding to entropy coding or other coding, instead of simply determining (allocating) the number of bits for each frequency band.
  • the decoding device 2 that feeds back the position/direction information to the coding device 1 can transmit data at a lower bit rate than the decoding device 2 that does not feed back the position/direction information. is there. With this configuration, it is possible to realize a service that provides content at a lower cost.
  • FIG. 5 is a configuration diagram showing the measurement system.
  • the front of the subject is 0° and the counterclockwise direction is positive.
  • a PC Personal Computer
  • the subject sits in a chair and listens to the stimulating sound presented by the speaker with both ears.
  • the speakers are arranged at eight positions at 45° intervals so as to surround the entire circumference around the subject at a position 1.5 m away from the subject.
  • the sound pressure level [dBSPL] at the output of the experimental system was calibrated by measuring using a sound level meter (Rion NA-27).
  • the experimental method is described below. First, in order to let the subject understand the sound source used in the experiment, we will demonstrate each sound source individually. Next, the measurement is started. The masker is always presented during the measurement. The musky is presented with a duration of 0.7 seconds, and the presentation is repeated after 0.7 seconds of silence. While viewing the answer screen, the test subject inputs "whether or not the masker sound has changed" to the PC while the masky is presented three times for each frequency and sound pressure level of the masky. At this time, the subject is instructed to move the line of sight without moving the head and input the answer.
  • a change is felt in the masker sound includes not only the case where a masky is perceived but also the case where a sound which is neither a masker nor a masky is perceived.
  • a sound which is neither a masker nor a masky is perceived.
  • test measurements that were not reflected in the experimental results were first performed several times.
  • FIG. 6 shows an explanatory diagram of the threshold value search method in this experiment.
  • the method of searching for the threshold value in this experiment is based on the adaptive method.
  • the adaptation method is a method in which the experimenter adjusts the physical parameter value of the stimulus according to the response of the subject and determines the threshold value.
  • the horizontal axis represents the number of sets of maskeys
  • the vertical axis represents the sound pressure level of maskeys.
  • the number of sets of maskeys "one set” refers to a period during which maskeys are presented three times, and this is the unit of sound source presentation.
  • the frequency of the musky is fixed to f1 and presented to the listener at the sound pressure level SPLmax.
  • SPLmax refers to the maximum value in the sound pressure level measurement range
  • SPLmin refers to the minimum value in the sound pressure level measurement range.
  • SPLmax is regarded as a threshold value when the subject cannot detect a musky having a sound pressure level SPLmax
  • SPLmin is regarded as a threshold value when a musky having a sound pressure level SPLmin can be detected.
  • the actual threshold value is considered to exist outside the measurement range.
  • FIG. 6 shows that the masky of the frequency f2 was not detected even at the sound pressure level SPLmin.
  • the threshold value is searched in a binary search according to the answer from the subject. That is, a value that is between the minimum value of the sound pressure level of the musky that could be detected by the previous measurement and the maximum value of the sound pressure level of the non-detected musky is set as the value of the next sound pressure level. To do. If such a search is continued, only one sound pressure level that can be finally set remains. The finally remaining sound pressure level is set as the threshold value of the masky of the frequency f1.
  • the above search is investigated by continuously changing the frequencies in the order of f1, f2, f3,... As shown in FIG. In this experiment, the Muskie threshold value is investigated in order from the low frequency side.
  • FIG. 7 shows an answer screen presented to the subject.
  • the answer screen when the masker has one sound source is shown in FIG. 7A
  • the answer screen when the masker has two sound sources is shown in FIG. 7B.
  • the direction of the masker the sound pressure level of the masker
  • the direction of the masky the frequency of the masky
  • the lamp that lights up while playing the masky the counter that indicates the number of times the masky is played
  • the buttons that input whether or not the masky is detected are displayed. To be done.
  • the test subject can perceive from which direction and in what size each sound source is presented and when.
  • the reason for displaying the frequency of the masky is that the measurement is conducted while continuously changing the frequency of the masker (type of masker), so it is clarified which masky the subject is currently inputting, This is to prevent confusion of answers.
  • the subject himself/herself notifies the PC that "the masky has been detected” by turning on the button for inputting the presence/absence of detection of the masky, and turns the button off to notify the PC that "the masky cannot be detected”. Let me know. Note that the initial value of the counter indicating the number of times the masky is reproduced is 0, and changes to 0, 1, 2, 3, 0,... In accordance with the number of times the masky is reproduced.
  • the answer resets that is, the button for inputting the presence or absence of detection of the musky is turned off, and the musky shifts to the next sound pressure level or frequency.
  • the subject must input the presence or absence of detection while this counter is displaying 1, 2, and 3.
  • the listening experiment response program is Max ver. of Cycling '74. I am coding in 7.
  • Math vers' MATLAB ver. Coding is done in R2018a.
  • band noise and pure tone with a frequency (center frequency) of 400 Hz or 1000 Hz were prepared.
  • these maskers will be described by the names from masker A (masker A) to masker D (masker D).
  • the bandwidth of the band noise was determined so as to approximately match the bandwidth of the critical band. It is known that the noise component that contributes to the mask of a certain pure tone is limited to the component of a certain bandwidth in the band noise whose center frequency is the pure tone.
  • the critical band is the band that contributes to such a pure tone mask.
  • the subjects are two men in their twenties who are in good hearing (subject a, subject b).
  • the masker any one of the above-mentioned sound sources from masker A to masker D was used.
  • the sound pressure level of the masker was 60 dBSPL and 80 dBSPL.
  • the azimuth of the masker was any one of the four azimuths of 0°, 45°, 90°, and 135°. That is, the masker orientation was targeted only at the four orientations on the left ear side.
  • the threshold value is considered to be symmetric on the median plane, so the threshold value data for the remaining half circle, which cannot be obtained in this experiment, is symmetrical to the data obtained in this experiment.
  • Results in. The musky uses one pure tone sound source, and its frequency and sound pressure level are as follows. Specifically, the frequency of the masky was determined to be dense at a frequency close to the frequency of the masker (center frequency). If the masker is a pure tone, it is considered that the masky cannot be perceived at any sound pressure level when the frequency of the masky is exactly the same as the frequency of the masker (400 Hz, 1000 Hz), so such frequency is not measured.
  • the maximum level thereof is the sound pressure level of the masker
  • the minimum level thereof is 20 dBSPL or 18 dBSPL.
  • the maximum level was determined based on the expectation that when the sound pressure level of the musky was higher than that of the masker, the musky could be perceived completely.
  • the minimum level was determined in consideration of the background noise level in the anechoic room, which is the experimental site, so that the measurement range was about 15 dB smaller than the background noise level.
  • the direction of the maskey was 45° or 315°.
  • the direction of the masky is 45°
  • the directions of the masker and the masky match, so that the threshold value of the frequency masking that has been studied conventionally can be obtained as a result.
  • the direction of the masky is 315°
  • the masker and the masky exist in different directions, so that a masking threshold between stereo channels, that is, a spatial masking threshold value is obtained as a result.
  • the direction of the musky was any one of eight directions from 0° to 315° at intervals of 45°.
  • Table 3 shows the conditions when the number of placed maskers is two.
  • the subject is only the subject a.
  • the masker As for the masker, the masker A was arranged at an azimuth of 45° and the masker B was arranged at an azimuth of 315°. Muskey used a pure tone 1 sound source.
  • As the frequency of the masky a condition in which the frequency (center frequency) of the masker is 400 Hz and the condition when it is 1000 Hz are combined. Since the placed maskers (masker A and masker B) are all band noises, even when the frequency of the masky is exactly the same as the center frequency of the masker (400 Hz, 1000 Hz), unlike the pure tone, there is a certain sound. It is considered that the masky can be perceived above the pressure level. Therefore, 400 Hz and 1000 Hz were also added to the measurement target.
  • the maximum value of the sound pressure level of the Musky was set to be 9 dB higher than that in Table 2. This is because the sound pressure level of the sound to be heard rises by about 6 dB at the maximum due to the presence of two sound sources of the masker.
  • the direction of the masky was 225°.
  • the optimum values of ⁇ and ⁇ were calculated as follows. First, the mean squared error (MSE) between T spatial at certain ⁇ and ⁇ values and the maximum value of the threshold value at each direction of the masky obtained as an experimental result is defined as the type of masker (masker A ⁇ Masker D), calculation for all combinations of direction, sound pressure level. Next, the calculated mean square errors are summed for each type of masker. The above operation is repeated by changing the values of ⁇ and ⁇ , and the pair of ⁇ and ⁇ when the sum of the mean square errors for each type of masker is the minimum is the optimum value of ⁇ and ⁇ . ..
  • the mean square error MSE(j) in the azimuth of the j-th masker is calculated by the following equation (6).
  • T spatial (i) is the azimuth [deg. ]
  • T measured (i) is the azimuth [deg. ]
  • L masker azimuth represents the masky threshold value [dBSPL] in the direction in which the masker exists. This is because T spatial are representative of a attenuation threshold from existing orientation of the masker has a role of adjusting the offset between the T spatial and T Measured.
  • N is the number of entries of T spatial and T measured (the total number of directions of the Muskie).
  • FIGS. 8 to 11 show the values obtained by fitting T spatial to the actual values of the masky threshold values using the values in Table 5, respectively.
  • the graph on the upper left of each figure shows the result for masker A
  • the graph on the upper right shows the result for masker B
  • the graph on the lower left shows the result for masker C
  • the graph at the lower right shows the result for masker D.
  • the horizontal axis of each graph is the direction of the masky
  • the vertical axis is the sound pressure level.
  • the direction corresponding to the direction of the masker is shown by the vertical dotted line.
  • the black solid line represents the measured value of the masky threshold when the masker sound pressure level is 80 dBSPL
  • the gray solid line represents the measured value of the masky threshold when the masker sound pressure level is 60 dBSPL.
  • the red broken line represents the one fitted to the red solid line using the function T spatial
  • the gray broken line represents the one fitted to the gray solid line using the function T spatial .
  • Each broken line is the output of the function T spatial plus the offset L masker azimuth . It can be seen from FIGS. 8 to 11 that each of the graphs generally fits the measured value. However, for example, as shown in the upper left graph of FIG. 8 and the upper left graph of FIG.
  • the values of ⁇ and ⁇ are obtained by brute force, but the value of ⁇ may be determined based on an index for discriminating the tonality (tone property, noise property) of the masker. it can.
  • an index for determining the tonality of the masker there are, for example, autocorrelation and Spectral Flatness Measure (SFM). By using these indexes, ⁇ can be parametrically determined and fitted.
  • a weighting threshold of 15 dB is added to the masking threshold value of the own channel signal exerted on the own channel as the masking threshold value of the own channel signal exerted on the other channel.
  • the masky threshold rises in the direction symmetrical to the masker compared to the surrounding direction, and is more remarkable as the center frequency of the masker is lower.
  • the masker is a pure tone, the change in the threshold value depending on the direction of the masky is flat.
  • the sum of the masking threshold of the signal of the same direction as the masker and the masking threshold of the signal of other directions on the linear scale is added to the signal of its own direction. It may be used as a masking threshold in consideration of signals in other directions.
  • the threshold value is highest when the masky position is 0°.
  • the threshold value started to increase from 135°, and at 180°, the threshold value increased to almost the same level as the case of 0°. That is, the masking threshold value by the masker has a substantially symmetrical relationship before and after the listener.
  • the threshold was highest when the masky position was 45°.
  • the threshold dropped. It seemed that it would drop further at 135°, but contrary to expectations, the threshold increased and approached the threshold at 45°.
  • the threshold decreased at 180° and further decreased at 225°.
  • the masking thresholds have a substantially symmetrical relationship before and after the listener. That is, it was line-symmetric with respect to the line connecting 90° to 270°. The same tendency was observed when the masker was 90° and the masker was 135°.
  • the masking threshold of the own channel and the masking threshold of the other channel are -15 dB.
  • the weighted items are summed on a linear scale.
  • an arbitrary periodic function with a period of 360° and a phase function that is phase-shifted so as to be linearly symmetric at 90° and 270° are used to change the change of the peak value of the Muskie threshold depending on the direction.
  • Model. Using the modeled function, the masking threshold of each channel is weighted and then summed on a linear scale. That is, the masking threshold can be calculated by the above-mentioned formula (1). By calculating the masking threshold value based on this, the number of bits required for signal transmission can be reduced.
  • the bio-sequence analysis method of the present invention can provide an acoustic signal coding method with a bit rate suppressed more than before by utilizing the spatial masking effect of auditory sense, and can be used industrially.

Abstract

チャンネル数が多い音響信号でも十分なビットレートで符号化が可能な音響信号符号化方法を提供する。この音響信号符号化方法では、符号化装置1により実行される、複数のチャンネルの音響信号を符号化する。まず、聴覚の空間的マスキング効果に対応したマスキング閾値を算出する。そして、算出されたマスキング閾値により、複数チャンネルの音響信号を各チャンネルに割り振る情報量を決定する。この上で、複数のチャンネルの音響信号を、それぞれ割り振られた情報量で符号化する。これにより、複数のチャンネルの音響信号でも十分なビットレートでの符号化も可能となる。

Description

[規則37.2に基づきISAが決定した発明の名称] 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
 本発明は、特に音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び複合化装置に関する。
 従来、音響信号(オーディオ信号)の符号化においては、複数のチャンネルに入力した音響信号のチャンネル毎の量子化におけるビット数を時間軸又は周波数軸で適応的に割り当てるビットアロケーション(ビット割り当て)による音響符号化技術がある。
 近年、標準的に使用されているMPEG-2 AAC、MPEG-4 AAC、MP3等の音響信号の符号化においては、このビット割り当てにおいて、周波数軸における聴覚のマスキング効果が利用されている。
 この聴覚におけるマスキング効果とは、ある音が他の音の存在によって聴こえにくくなる効果である。
 特許文献1には、聴覚のマスキング効果が利用された音響信号符号化の技術の一例が記載されている。特許文献1の技術では、聴覚のマスキング効果を利用するために、マスキング効果のビット割り当ての閾値(以下、マスキング閾値という。)が計算されている。
特開平5-248972号公報
Andreas Spanias他著、「Audio Sigal Processing and Coding」、米国、、Wiley-Interscience,John Wiley & Sons,Inc、2007年
 しかし、従来のマスキング閾値の計算では、複数のチャンネル同士の空間的な関係は考慮されていなかった為、チャンネル数が多い音響信号ではビットレート(帯域)が不足するおそれが生じるという問題があった。
 本発明は、このような状況に鑑みてなされたものであり、上述の問題を解消することを目的とする。
 本発明の音響信号符号化方法は、符号化装置により実行される、複数のチャンネルの音響信号を符号化する音響信号符号化方法であって、聴覚の空間的マスキング効果に対応したマスキング閾値を算出し、算出された前記マスキング閾値により、各前記チャンネルに割り振る情報量を決定し、複数の前記チャンネルの音響信号を、それぞれ割り振られた前記情報量で符号化することを特徴とする。
 本発明のプログラムは、符号化装置により実行される、複数のチャンネルの音響信号を符号化するプログラムであって、前記符号化装置に、聴覚の空間的マスキング効果に対応したマスキング閾値を算出させ、算出された前記マスキング閾値により、各前記チャンネルに割り振る情報量を決定させ、複数の前記チャンネルの音響信号を、それぞれ割り振られた前記情報量で符号化させることを特徴とする。
 本発明の符号化装置は、複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに該音源オブジェクトの位置情報を符号化する符号化装置であって、聴覚の空間的マスキング効果に対応したマスキング閾値を算出するマスキング閾値算出部と、前記マスキング閾値算出部により算出された前記マスキング閾値により、各前記チャンネル及び/又は前記音源オブジェクトに割り振る情報量を決定する情報量決定部と、複数の前記チャンネルの音響信号、及び/又は、前記音源オブジェクト並びに前記音源オブジェクトの位置情報を、それぞれ割り振られた前記情報量で符号化する符号化部とを備えることを特徴とする。
 本発明の音響システムは、前記符号化装置と、復号化装置とを備えた音響システムであって、前記復号化装置は、受聴者の向いている方向を算出する方向算出部と、前記方向算出部により算出された前記方向を前記符号化装置に送信する送信部と、前記符号化装置で符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部を備え、前記符号化装置の前記マスキング閾値算出部は、前記マスキング閾値を、前記受聴者の位置と前記方向に対する、各前記チャンネル間及び/又は各前記音源オブジェクト間の空間的距離及び/又は方向に基づいた前記空間的マスキング効果に対応して算出することを特徴とする。
 本発明の復号化装置は、聴覚の空間的マスキング効果に対応したマスキング閾値により、各チャンネル及び/又は音源オブジェクトに割り振る情報量が決定され、複数の前記チャンネルの音響信号、及び/又は、前記音源オブジェクト並びに前記音源オブジェクトの位置情報を、それぞれ割り振られた前記情報量で符号化された信号を取得する信号取得部と、前記信号取得部により取得された信号から、符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部とを備えることを特徴とする。
 本発明によれば、聴覚の空間的マスキング効果に対応したマスキング閾値を算出し、算出されたマスキング閾値により、複数チャンネルの音響信号を各前記チャンネルに割り振る情報量を決定し、割り振られた情報量で符号化することで、チャンネル数が多い音響信号でも十分なビットレートでの符号化が可能な音響信号符号化方法を提供することができる。
本発明の実施の形態に係る音響システムのシステム構成図である。 本発明の実施の形態に係る音響符号化復号化処理のフローチャートである。 図2に示す音響符号化復号化処理の概念図である。 図2に示す音響符号化復号化処理の概念図である。 本発明の実施例に係る聴取実験の測定システムを示す概念図である。 本発明の実施例に係る聴取実験における閾値探索を示す概念図である。 本発明の実施例に係る聴取実験における回答画面の画面例である。 本発明の実施例に係るマスカーの方位が0°の際のマスキング閾値のピーク値を、横軸をマスキーの方位としてプロットしたグラフである。 本発明の実施例に係るマスカーの方位が45°の際のマスキング閾値のピーク値を、横軸をマスキーの方位としてプロットしたグラフである。 本発明の実施例に係るマスカーの方位が90°の際のマスキング閾値のピーク値を、横軸をマスキーの方位としてプロットしたグラフである。 本発明の実施例に係るマスカーの方位が135°の際のマスキング閾値のピーク値を、横軸をマスキーの方位としてプロットしたグラフである。
<実施の形態>
〔音響システムXの制御構成〕
 まず、図1を参照して、本発明の実施の形態に係る音響システムXの制御構成について説明する。
 音響システムXは、複数のチャンネルの音響信号を取得し、符号化装置1により符号化し、伝送し、復号化装置2により復号化し、再生することが可能なシステムである。
 符号化装置1は、音響信号を符号化する装置である。本実施形態において、符号化装置1は、例えば、PC(Personal Computer)、サーバー、これらに装着するエンコーダーボード、専用のエンコーダー等である。本実施形態の符号化装置1は、複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに該音源オブジェクトの位置情報を符号化する。たとえば、符号化装置1は、MPEG-2 AAC、MPEG-4 AAC、MP3、Dolby(登録商標)Digital、DTS(登録商標)等の音響符号化の方式に対応して、2チャンネル、5.1チャンネル、7.1チャンネル、22.2チャンネル等の複数チャンネルの音響信号についての符号化を行う。
 復号化装置2は、復号化装置2により符号化された音響信号を復号化する装置である。本実施形態において、復号化装置2は、例えば、VR(Virtual Reality)やAR(Augmented Reality)用のHMD(Head-Mounted Display)、スマートフォン(Smart Phone)、ゲーム専用機、家庭用テレビ、無線接続ヘッドフォン、仮想多チャンネルヘッドフォン、映画館やパブリックビューイング会場の機器、専用のデコーダー及びヘッドトラッキングセンサー等である。復号化装置2は、符号化装置1で符号化され、有線や無線で伝送された音響信号を復号化して、再生する。
 音響システムXは、主に、マイクロホンアレイ10、集音部20、周波数領域変換部30、マスキング閾値算出部40、情報量決定部50、符号化部60、方向算出部70、送信部80、復号化部90、立体音響再生部100、及びヘッドフォン110を含んで構成される。
 このうち、周波数領域変換部30、マスキング閾値算出部40、情報量決定部50、及び符号化部60は、本実施形態の符号化装置1(送信側)として機能する。
 方向算出部70、送信部80、復号化部90、立体音響再生部100、及びヘッドフォン110は、本実施形態の復号化装置2(受信側)として機能する。
 マイクロホンアレイ10は、様々な音が様々な場所に存在するような空間である音空間の音声を収音する。具体的には、例えば、マイクロホンアレイ10は、360°の複数方向の音波を取得する。この際、ビームフォーミング処理によって指向性を制御し、各方向にビームを向けることで、音空間の空間サンプリングを行い、多チャンネルの音声ビーム信号を取得することが可能である。具体的には、本実施形態のビームフォーミングでは、マイクロホンアレイ10の各マイクロホンに到来する音波の位相差をフィルターにより制御し、各マイクロホンに到来する方向の信号を強調する。この上で、空間サンプリングとして、音場を空間的に切り分けて、空間的情報を含めたまま、多チャンネルで集音する。
 集音部20は、複数のチャンネルの音声をまとめて、音響信号として符号化装置1に送信するミキサー等のデバイスである。
 周波数領域変換部30は、空間サンプリングすることで得られた方向別の音声ビーム信号を数マイクロ秒~数十ミリ秒程度のウィンドウ(フレーム)に切り出し、DFT(discrete Fourier transformation、離散フーリエ変換)やMDCT(Modified Discrete Cosine Transform、変形離散コサイン変換)等によって、時間領域から周波数領域へ変換する。このフレームは、例えば、サンプリング周波数48kHz、量子化ビット数16ビットで、2048サンプル程度を用いることが好適である。周波数領域変換部30は、このフレームを、各チャンネルの音響信号として出力する。すなわち、本実施形態の音響信号は、周波数領域の信号となる。
 マスキング閾値算出部40は、周波数領域変換部30により変換された各チャンネルの音響信号から、聴覚の空間的マスキング効果に対応したマスキング閾値を算出する。この際、マスキング閾値算出部40は、空間的マスキング効果を考慮したモデルを適用して、その上で、周波数領域でのマスキング閾値を計算する。この周波数領域でのマスキング閾値の計算自体は、例えば、非特許文献1に記載の方式で実現することが可能である。
 または、マスキング閾値算出部40は、音源オブジェクトを取得し、同様に、聴覚の空間的マスキング効果に対応したマスキング閾値を算出することも可能である。この音源オブジェクトは、空間的に異なる位置から発生された複数の音響信号のそれぞれを示す。この音源オブジェクトは、例えば、位置情報が付された音響信号である。これは、例えば、オーケストラの各楽器を収録するようなマイクの出力信号、ゲーム等で用いるサンプリングされた音声信号等が、周波数領域の音響信号に変換されたものでもよい。
 さらに、マスキング閾値算出部40は、一旦、集音され、フラッシュメモリー、HDD、光学記録媒体等の記録媒体に格納された音響信号を取得したり、変換したりして、周波数マスキングを計算することも可能である。
 具体的には、上述の空間的マスキング効果のモデルとして、マスキング閾値算出部40は、マスキング閾値を、受聴者の位置方向情報に対する、各チャンネル間及び/又は各音源オブジェクト間の空間的距離及び/又は方向に基づいた空間的マスキング効果に対応して算出することも可能である。
 または、マスキング閾値算出部40は、マスキング閾値を、各チャンネル間及び/又は各音源オブジェクト間の空間的距離及び/又は方向に基づいた空間的マスキング効果に対応して算出してもよい。
 より具体的には、マスキング閾値算出部40は、マスキング閾値を、チャンネル及び/又は音源オブジェクト間の空間的距離及び/又は方向が近づくほど相互に及ぼす影響が大きくなり、離れるほど相互に及ぼす影響が小さくなるような空間的マスキング効果に対応して算出してもよい。
 加えて、マスキング閾値算出部40は、マスキング閾値を、受聴者からみて前後対称の位置にあるチャンネル及び/又は音源オブジェクトについては、音源オブジェクト間の空間的距離及び/又は方向についての相互に及ぼす影響の度合いを変化させるような空間的マスキング効果に対応して算出してもよい。
 さらに、マスキング閾値算出部40は、マスキング閾値を、受聴者からみて後方の位置にあるチャンネル及び/又は音源オブジェクトについては、前後対称の位置に該当する前方に当該チャンネル及び/又は当該オブジェクトが存在するような空間的マスキング効果に対応して算出してもよい。
 具体的には、マスキング閾値算出部40は、マスキング閾値を算出する際、
 下記の式(1)で調整してもよい。

 T=β{max(y1,αy2)-1}
 y1=f(x-θ)
 y2=f(180-x-θ)       …… 式(1)

 ただし、Tは前記マスキング閾値を算出するために、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重み、θはマスカーの方位、αはマスカーの周波数で制御される定数、βはマスカーの信号がトーン性の信号かノイズ性の信号かに対応して制御される定数、xは求める方向又はマスキーの方位を示す。
 より具体的に説明すると、本実施形態において、聴こえを妨害する音を「マスカー」といい、聴こえが妨害される音を「マスキー」という。maxは、引数内の最大値を返す関数である。定数については、マスカーが400Hzの場合、α=1、マスカーが1kHzの場合、α=0.8のような値を用いることが可能である。マスカーがノイズ性の場合は、β=11~14、純音(トーン性)の場合は3~5程度の値を用いることが可能である。すなわち、マスカーがトーン性の場合は、Tは、xの値にかかわらず、全てのθについてフラットとなる。
 この式(1)のf(x)は、例えば、下記の式(2)に示す三角波のようなリニアな関数を用いることが可能である。
Figure JPOXMLDOC01-appb-M000001
 このうち、xは、求める方位、又は、マスキーの方位を用いることが可能である。この方位は、マイクロホンのビームフォーミングの方向、音源オブジェクトの方向等に対応する。
 なお、f(x)として、f(x)=cos(x)のような式も、用いることが可能である。さらに、f(x)として、これ以外の、例えば、実際のマスカー、マスキーの実験結果から算出された関数等も用いることが可能である。
 マスキング閾値算出部40は、マスキング閾値を、各チャンネル及び/又は音源オブジェクトの信号が、トーン性の信号かノイズ性の信号かに対応して、各チャンネル及び/又は音源オブジェクトの信号の相互に及ぼす影響の度合いを変化させる空間的マスキング効果に対応して算出してもよい。
 情報量決定部50は、マスキング閾値算出部40により算出されたマスキング閾値により、音源オブジェクトに割り振る情報量を決定する。本実施形態では、この情報量として、マスキング閾値に基づいた各音響信号のビット割り当てが行われる。情報量決定部50は、このビット割り当てとして、Perceptual Entropy(以下、「PE」という。)により、一サンプル当たりの平均ビット数を、マスキング閾値算出部40により算出されたマスキング閾値に対応して算出することが可能である。
 符号化部60は、複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに音源オブジェクトの位置情報を、それぞれ割り振られた情報量で符号化する。本実施形態では、符号化部60は、情報量決定部50により割り当てられたビット数に基づいて各音響信号を量子化し、伝送路へ送信する。この伝送路は、例えば、Bluetooth(登録商標)、HDMI(登録商標)、WiFi、USB(Universal Serial Bus)、その他の有線や無線の情報伝送手段を用いることが可能である。より具体的には、インターネットやWiFi等のネットワークを介した、ピアツーピア(Peer to Peer)通信によって伝送可能である。
 方向算出部70は、受聴者の向いている方向を算出する。方向算出部70は、例えば、ヘッドトラッキングが可能な加速度センサー、ジャイロセンサー、地磁気センサー等と、これらの出力を方向情報に変換する回路とを含む。
 この上で、方向算出部70は、算出された方向情報に、受聴者に対する音源オブジェクトや複数チャンネルの音響信号についての位置の関係を考慮した位置情報を加えた位置方向情報を算出可能である。
 送信部80は、方向算出部70により算出された位置方向情報を符号化装置1に送信する。送信部80は、例えば、音響信号の伝送路と同様の有線や無線の伝送により、位置方向情報をマスキング閾値算出部40で受信可能に送出することが可能である。
 復号化部90は、符号化装置1で符号化された複数のチャンネルの音響信号、及び/又は音源オブジェクトを音声信号に復号化する。復号化部90は、例えば、まず、伝送路から受信した信号を逆量子化する。次に、IDFT(Inverse Discrete Fourier Transform、逆離散フーリエ変換、離散フーリエ逆変換)、IMDCT(Inverse Modified Discrete Cosine Transform、逆変形離散コサイン変換)等により、周波数領域の信号を時間領域に戻して、各チャンネルの音声信号に変換する。
 立体音響再生部100は、復号化部90により復号化された音声信号を、受聴者に対する立体音響を再生するような立体音響信号に変換する。具体的には、立体音響再生部100は、時間領域に戻された方向別のビーム信号をその方向にある音源から発せられた信号とみなして、ビーム方向のHRTF(Head-Related Transfer Function、頭部伝達関数)をそれぞれ畳み込む。HRTFは、耳殻、人頭及び肩までふくめた周辺物によって生じる音の変化を伝達関数として表現したものである。
 次に、HRTFが畳み込まれた信号にビーム方向別の重み付けを行ってから加算することで、聴取者に提示する2チャンネルの両耳信号を生成する。このうち、ビーム方向別重み付けとは、L信号及びR信号である両耳信号が再現したい音空間における両耳信号により近づくような重み付けを行う処理である。具体的には、ある音空間に存在する各音源に音源方向のHRTFをそれぞれ畳み込んで加算することにより、両耳信号を生成する。その両耳信号を目標信号とし、出力として得られた両耳信号が目標信号と等しくなるように、出力信号に重みを付加する処理を行う。
 立体音響再生部100は、上述のマスキング閾値とは別に、方向算出部70により算出された位置方向情報により、HRTFをアップデートし、立体音響を再生することが可能である。
 ヘッドフォン110は、復号化され、立体音響化された音響を受聴者が再生するデバイスである。ヘッドフォン110は、D/Aコンバーター、アンプ(Amplifier)、電磁ドライバー、ユーザーの装着する耳当て等を備えている。
 これに加え、符号化装置1及び復号化装置2は、例えば、各種回路として、ASIC(Application Specific Processor、特定用途向けプロセッサー)、DSP(Digital Signal Processor)、CPU(Central Processing Unit、中央処理装置)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等の制御演算手段である制御部を含んでいる。
 加えて、符号化装置1及び復号化装置2は、記憶手段として、ROM(Read Only Memory)、RAM(Random Access Memory)等の半導体メモリー、HDD(Hard Disk Drive)等の磁気記録媒体、光学記録媒体等である記憶部を含んでいる。この記憶部には、本発明の実施の形態に係る各方法を実現するための制御プログラムが格納されている。
 さらに、符号化装置1及び復号化装置2は、液晶ディスプレイや有機ELディスプレイ等の表示手段、キーボード、マウスやタッチパネル等のポインティングデバイス等の入力手段、LANボード、無線LANボード、シリアル、パラレル、USB(Universal Serial Bus)等のインターフェイスを含んでいてもよい。
 また、符号化装置1及び復号化装置2は、主に記憶手段に格納された各種プログラムを用いて制御部が実行することで、本発明の実施の形態に係る各方法を、ハードウェア資源を用いて実現することができる。
 なお、上述の構成の一部又は任意の組み合わせをICやプログラマブルロジックやFPGA(Field-Programmable Gate Array)等でハードウェア的、回路的に構成してもよい。
〔音響システムXによる音響符号化復号化処理〕
 次に、図2及び図3を参照して、本発明の実施の形態に係る音響システムXによる音響信号符号化復号化処理の説明を行う。
 本実施形態の音響信号符号化復号化処理は、主に符号化装置1及び復号化装置2において、それぞれ、制御部が記憶部に格納された制御プログラムを、各部と協働し、ハードウェア資源を用いて制御して実行し、又は、各回路で直接実行する。
 以下で、図2のフローチャートを参照して、音響信号符号化復号化処理の詳細をステップ毎に説明する。
(ステップS101)
 まず、符号化装置1の周波数領域変換部30が、音声データ取得処理を行う。
 ここでは、集音者がスタジアム等に赴き、マイクロホンアレイ10を用いて収音を行う。これにより、マイクロホンアレイ10を中心とした各方向(θ)の音声信号が取得される。この際に、収音側では、「空間サンプリング」の考え方に基づいて収音を行う。空間サンプリングは、音場を空間的に切り分けて多チャンネルで収音するものである。本実施形態では、例えば、左右0°~360°を区切った特定ステップの音声信号を、複数チャンネルに対応して収音する。なお、上下方向の0°~360°についても、特定ステップに区切って収音することが可能である。
 周波数領域変換部30は、これらの集音された音声データ等を切り出し、DFT、MDCT等によって、時間領域から周波数領域の信号へ変換し、音響信号として記憶部に格納する。
(ステップS201)
 ここで、復号化装置2の方向算出部70が、方向算出処理を行う。
 方向算出部70は、受聴者の向いている方向情報と、音響データに対しての位置情報とを算出する。
(ステップS202)
 次に、送信部80が、方向送信処理を行う。
 送信部80は、方向算出部70により算出された位置方向情報を、符号化装置1へ送信する。
(ステップS102)
 ここで、符号化装置1のマスキング閾値算出部40が、マスキング閾値算出処理を行う。本実施形態では、周波数領域でマスキング閾値Tを計算して、後述する空間的マスキングのマスキング閾値を更に算出し、ビット割り当てを決定する。このため、マスキング閾値算出部40は、まず、周波数帯域でのマスキング閾値Tを算出する。
 図3(a)により、聴覚におけるマスキング効果について説明する。聴覚におけるマスキング効果は、ある音が他の音の存在によって聴こえにくくなる効果である。以下、聴こえを妨害する音を「マスカー」といい、聴こえが妨害される音を「マスキー」という。
 マスキング効果は、周波数マスキング(同時マスキング)及び時間マスキング(継時マスキング)に大別される。周波数マスキングは、マスカーとマスキーが時間的に重なっている場合に生じるマスキングであり、時間マスキングは時間的に離れている場合に生じるマスキングである。
 図3(a)のグラフにおいて、横軸は周波数、縦軸は信号のエネルギーである。すなわち、図3(a)は、ある信号に含まれるある1本のスペクトル(純音)をマスカーとしたときに、このマスカーによってマスクされるスペクトル(マスキー)の範囲及び閾値の例のグラフである。このように、信号成分の存在しないマスカーの周波数近傍についても、マスキーの閾値が上昇する。また、閾値が上昇する周波数範囲はマスカーの周波数に対して対称ではなく、マスカーに対してマスキーの周波数が高いほうが低い周波数の音よりマスクされやすい。したがって、聴覚的には、マスカーはマスカーの周波数だけではなくその両側に広がった成分を持つような状況が生じる。
 図3(b)により、符号化における周波数マスキング適用の概念を示す。このグラフにおいて、横軸は周波数、縦軸は信号のエネルギーである。太い黒曲線は信号のスペクトルを表す。また、灰色の曲線はマスキング閾値を表す。ここで、図3(b)において塗りつぶされている範囲が、周波数マスキングによってマスクされ知覚されない部分となる。このとき、図3(b)において実際に音の知覚に寄与する部分は、信号のスペクトルを表す曲線とマスキング閾値を表す曲線に挟まれた部分となる。また、図3(b)における高域のように、信号スペクトルのエネルギーがマスキング閾値より小さくなる周波数は、音の知覚に寄与しない。つまり、信号スペクトルのエネルギーからマスキング閾値を引いたエネルギーに応じたビットのみを割り当てることによっても、聴覚的には劣化が知覚されない状態で信号を伝送することが可能となる。このように、周波数領域でのマスキング効果を用いることで、伝送に必要なビット数を聴覚的な品質を保持したまま削減することが可能である。
 なお、図3(b)のような全帯域にわたるマスキング閾値を表す曲線は、単一のスペクトル又は雑音に関するマスキングの知見を用いて、各周波数成分に関するマスキング閾値を計算し、それらを総合することによって得られる。
 ここで、この周波数帯域でのマスキング閾値Tの詳細な計算方法について説明する。
 マスキング閾値算出部40は、例えば、特許文献1に記載されたようなBarkスペクトルにマスキング閾値計算式(Spreading Function、以下、「SF」という。)を畳み込む。そして、マスキング閾値算出部40は、Spectral Flatness measure(SFM)及び調整係数を用いて、Spreadマスキング閾値Tspreadを算出する。この上で、マスキング閾値算出部40は、逆畳み込みにより、Spreadマスキング閾値Tspreadを、Barkスペクトルの領域に戻すことで、仮の閾値Tを算出する。この上で、本実施形態においては、マスキング閾値算出部40は、仮の閾値Tを、各Barkインデックスに該当するDFTスペクトルの本数で割ってから、絶対閾値と比較することで、仮の閾値Tが、周波数マスキングの最終的な閾値Tfinalに変換される。
 より具体的に説明すると、マスキング閾値算出部40が仮の閾値Tと比較する絶対閾値として、周波数f(Hz)における絶対閾値の近似式Tqf[dBSPL]は、下記の式(3)により算出される。

 Tqf=3.64(f/1000)-0.8-6.5exp{-0.6(f/1000-3.3)2}+10-3(f/1000)4+OLSB…… 式(3)

 ここで、式(3)で加えられるOLSBは、周波数4kHzの時の絶対閾値Tq4000=min(Tqf)が、周波数4kHz/振幅1bitの信号のエネルギーに一致するようなオフセット値である。
 具体的には、マスキング閾値算出部40は、周波数マスキングのi番目の周波数帯域(最終帯域)における閾値Tfinalを、下記の式(4)により算出する。
Figure JPOXMLDOC01-appb-M000002
 この上で、マスキング閾値算出部40は、この周波数帯域の閾値Tfinalから、聴覚の空間的マスキング効果に対応したマスキング閾値を更に算出する。この際、マスキング閾値算出部40は、音響信号の方向情報を用いて、空間的マスキングを考慮した周波数マスキング閾値を計算する。
 図3(c)により、聴覚の空間的マスキング効果に対応したマスキング閾値について説明する。
 従来の音響符号化方式におけるマスキング閾値の計算では、多くの場合で、自身のチャンネルのマスキング閾値は自身のチャンネルの信号成分のみを用いて計算している。つまり、チャンネルが複数存在する音響信号においては、対象チャンネル以外のチャンネルの信号によるマスキングを対象チャンネルのマスキングに考慮せず、各チャンネル独立にマスキング閾値を決定することとなる。
 ここで、本実施形態で用いるような空間サンプリングされた音響信号は、隣接するチャンネル間での信号の相関が大きく、波形が類似した部分とそうでない部分が混在していると考えられる。したがって、マスキングの観点から考えると、空間サンプリングされた信号の符号化には、各チャンネルにおけるマスキングの情報をチャンネル間で相互に適用できる可能性がある。そこで本実施形態では、空間サンプリングされた信号の符号化のために、マスキング効果を空間領域に拡張した「空間的マスキング」を用いる。
 図3(c)の概念図では、横軸は信号の空間的方向、奥行きは周波数、縦軸は信号のエネルギーを表す。マスカーの信号の裾野にある四角錐の内側の領域がこの信号によりマスクされるであろう領域を表す。図3(b)の周波数マスキングと比較すると、図3(c)では、方向の次元が追加されており、次元が一つ増えていることがわかる。なお、空間的方向には方位角及び仰角が含まれる。図3(c)のように、空間的マスキングでは、マスキング閾値を表す曲線は3次元的になる。つまり、空間方向においてもマスキングが及び、マスクされる信号が生じる。このような空間的マスキングでは、両耳情報が相互作用する聴覚の中枢系に関わるマスキングとなる。
 図4により、空間的マスキングのマスキング閾値の計算について説明する。図4は、1からNまでのN方向の信号のうち、i方向の信号に対して、空間的マスキングを考慮したマスキング閾値を計算する例である。各グラフの横軸は周波数、縦軸は信号のエネルギーである。各グラフ共に、黒実線が信号スペクトルを表し、灰色実線がそれらより計算されるマスキング閾値を表す。黒の破線は、各方向の信号のマスキング閾値に重み付けを行ったものである。灰色の点線は、各方向の信号によるマスキングをすべて考慮した、i方向の信号のマスキング閾値を表す。
 より具体的に説明すると、本発明者らは、後述する実施例の聴取実験の結果を踏まえ、全方位音源における空間的マスキングを考慮したマスキングモデルを作成し、下記のように計算を行った。
 計算手順は次のようになる。まず、各方向の信号に関して、従来の周波数領域マスキングと同様の考え方でマスキング閾値を計算する。次に、それらの各方向のマスキング閾値Tを得るために、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重みを、上述の式(1)に対応した関数Tspatial(θ,x)により算出し、それぞれ重み付けする。ただし、自身すなわちi方向の信号のマスキング閾値に対する重み付けはゼロdB、すなわち、リニアスケールでは1となるようにする。次に、重み付けされた全方向のマスキング閾値をリニアスケールで総和する。これにより、空間的マスキングを考慮したi方向の信号のマスキング閾値が得られる。以上の処理を、他の方向の信号についても同様に行うことで、空間的マスキングを考慮した閾値を全周の信号に対して得ることができる。
 関数Tspatialの詳細について以下に説明する。関数Tspatialは、マスカーの方位及びマスキーの方位を変数として入力したときに、マスカーの存在する方位からのマスキング閾値の減衰量をデシベルで出力する関数である。したがって、Tspatialはマスカーの存在する方位で最大値が0[dB]となるように決定する。
 本実施形態においては、マスカーの方位を[deg.]、マスキーの方位をx[deg.]として、関数Tspatial(θ,x)[dB]を、下記、式(4の2)で算出する。
 Tspatial(θ,x)=β{max(f(x-θ ),αf(180°-x-θ))-1} …… 式(4の2)

 ここで、α,βはスケーリング係数であり、0≦α≦1,0≦βである。maxは、引数内の最大値を返す関数である。fは、位相0°で最大値をとるような周期360°の任意の周期関数とする。
 本実施形態においては、この周期関数f(x)として、例えば、上述の式(2)と同様の三角波を用いることが可能である。このように関数fを定義すると、f(x-θ)は、マスカーの存在する方位で0dBとなり、それとは正反対の方位、すなわち180°進んだ方位でレベルが最小となるような閾値の変化を表す。それに対して、f(180-x-θ)はマスカーの存在する方位に対して前後対称の方位で0dBとなり、それとは正反対の方位、すなわち180°進んだ方位でレベルが最小となるような閾値の変化を示す。つまり、「マスカーの存在する方位からの閾値の減衰」及び「マスカーの存在する方位に対して前後対称となる方位からの閾値の減衰」をそれぞれ表現するように位相を合わせた関数fを2つ用意し、それらの最大値をとってスケーリングすることにより、「マスキーがマスカーから離れた方位にあるほど閾値が減少する現象」及び「閾値が前頭面で折り返されるような現象」の2つを同時に表現したマスキング閾値を算出可能となる。
 スケーリング係数α(0≦α≦1)は、「マスカーの周波数(中心周波数)が低いほど、マスキーがマスカーに対して前後対称の方位にあるときの閾値の上昇が顕著にみられる」というマスキング効果を反映するための係数である。αは、マスカーの周波数が低いほど1に近づき、マスカーの周波数が高いほど0に近づくように決定する。そうすることで、f(180-x-θ)を、マスカーの周波数に応じてスケーリングし、閾値の前頭面での折り返し度合いを調整することが可能となる。
 スケーリング係数β(0≦β)は、「マスカーが純音のときには、マスキーの方位による閾値の変化はフラットである」という知見を反映するための係数である。βはマスカーの調性がトーン性であるほど0に近づき、マスカーの調性がノイズ性であるほど値が大きくなるように決定する。そうすることで、θ及びxが変化したときの、関数Tspatial全体としての値の振れ幅を、マスカーが純音かノイズかに応じて調整することが可能となる。
 このように、本実施形態では、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重みTを適用する。この重みを乗じた各方向の周波数領域マスキングの閾値を足し合わせることで、当該方向(x方向)のマスキング閾値が(周波数軸上で)算出可能となる。
 なお、α,βは、実施例で示したように、実際の実験により総当たりすることにより、周波数及びSFMに対応した最適値を算出し、これをテーブルとして当てはめることも可能である。
(ステップS103)
 次に、情報量決定部50が、情報量決定処理を行う。
 本実施形態の音響システムXでは、空間サンプリングされた信号の方向情報を利用し、空間領域を考慮したビット割り当てを周波数領域において行う。また、空間領域を考慮したビット割り当てを行うために、マスキング効果を用いる。
 このため、情報量決定部50は、マスキング閾値算出部40により算出されたマスキング閾値により、各チャンネル及び/又は音源オブジェクトに割り振る情報量を決定する。聴覚の空間的マスキング効果に対応したマスキング閾値を用いることで、空間領域を考慮した周波数軸上のビット割り当てを行うことが可能となる。すなわち、聴覚の空間的マスキング効果を用いることで伝送に必要な信号のビット数を聴覚的な品質を保持したまま削減可能となる。
 本実施形態において、情報量決定部50は、聴覚のマスキング効果を積極的に利用するため、例えば、PEを用いて、情報量としてビット割り当てを算出する。マスキング閾値未満の信号には人間の聴覚にとって意味のある情報は無い、すなわち量子化雑音に埋もれても良いものとして音楽信号の持つ平均情報量を計算したものがPEである。
 このPEは、下記、式(5)により算出可能である。
Figure JPOXMLDOC01-appb-M000003
 ここで、Tiは、Bark領域での臨界帯域の閾値となり、Ti/ki=Tfinal iとして挿入される。
(ステップS104)
 次に、符号化部60が、符号化処理を行う。
 符号化部60は、複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに音源オブジェクトの位置情報を、それぞれ割り振られた情報量で符号化する。
 符号化されたデータは、受信側の復号化装置2へと伝送される。この伝送は、例えば、ピアツーピア通信により行われる。又は、データとしてダウンロードされたり、メモリーカードや光学記録媒体として復号化装置2に読み込まれたりしてもよい。
(ステップS203)
 ここで、復号化装置2の、復号化部90が、復号化処理を行う。
 復号化部90は、符号化装置1で符号化された複数のチャンネルの音響信号、及び/又は音源オブジェクトを音声信号に復号化する。具体的には、復号化装置2がスマートフォン等の場合、符号化装置1で伝送された音響信号を、特定のコーデック等のデコーダー等で復号化する。
(ステップS204)
 次に、立体音響再生部100が、立体音響再生処理を行う。
 立体音響再生部100は、復号化部90により復号化された音声信号を、受聴者に対する立体音響を再生するような立体音響信号に変換する。
 具体的には、立体音響再生部100は、多チャンネルの音声信号を2チャンネルの音声信号として空間的情報を含めたまま再生する。これは、各音声信号に音源から人間の耳元までの音の伝達特性を付加し、全方向にわたって加算することにより実現可能である。つまり、立体音響再生部100は、方向別の音信号を合成し、ヘッドフォンを用いて再生させる。このため、各音声信号の方向に対応する頭部伝達関数(HRTF)を畳み込み、2チャンネルの音信号に変換する。具体的には、立体音響再生部100は、例えば、各音響信号に、各信号の方向に対応するHRTFの伝達特性を付加し、Lチャンネル、Rチャンネルそれぞれにおいて信号の総和をとって出力する。これにより、ヘッドフォンによる2チャンネルの音声信号として再生することが、収音側のチャンネル数に依存せず、手軽に再生できる。
 以上により、本発明の実施の形態に係る音響信号符号化復号化処理を終了する。
 以上のように構成することで、以下のような効果を得ることができる。
 近年、音響再生環境の多チャンネル化、あるいはAR(拡張現実)やVR(仮想現実)に於けるバイノーラル再生の普及とともに、3D音場の収音、伝送、再生、強調技術の重要性が増している。
 ここで、空間サンプリングされた信号の符号化では、聴取者を取り囲む全周の音信号を対象とする必要があるため、サンプリングする方向が増えるほどチャンネル数が膨大となり、より高い合計ビットレートが必要となる。
 例として、スマートフォン等を用いてインターネットを介して伝送することを考える。音楽配信サービスの1つであるSpotify(登録商標)では、ストリーミング再生時のビットレートは2チャンネルのステレオで最高320kbps程度となっている。空間サンプリングでは2チャンネルより多いチャンネル数の信号を伝送することが想定されるので、1チャンネルあたりのビットレートをより低ビットレート化する必要があった。
 一方、従来、音響信号の符号化(MPEG等のデータ圧縮)に於いては、聴覚のマスキング効果が利用されてきた。しかしそのマスキングは、主に周波数軸上のマスキング効果のみが用いられてきた。MPEG-2 AAC、MPEG-4 AACや、MP3等の音響符号化においても、多チャンネル信号の符号化においても、チャンネル毎の周波数軸における聴覚のマスキング効果が利用されてきた。
 しかし、一般に多チャンネル信号によって表現される音場は、空間的に散在する複数の音源から構成される。これについて、同時刻に複数の音源が空間的に配置された際の相互のマスキング効果や聞こえについては、その作用、効果が明らかにされておらず、応用に至っていなかった。すなわち、3次元空間に配置された音源が相互にどのようなマスキング効果を与え、どのように影響を及ぼしながら聴覚に関する知覚が形成されるのかについては、何も知られていなかった。すなわち、従来のマスキング閾値の計算では、チャンネル同士の空間的な関係は考慮されていなかった。
 これに対して、本発明の実施の形態に係る符号化装置1は、複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに該音源オブジェクトの位置情報を符号化する符号化装置であって、聴覚の空間的マスキング効果に対応したマスキング閾値を算出するマスキング閾値算出部40と、マスキング閾値算出部40により算出されたマスキング閾値により、各チャンネル及び/又は音源オブジェクトに割り振る情報量を決定する情報量決定部50と、複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに音源オブジェクトの位置情報を、それぞれ割り振られた情報量で符号化する符号化部60とを備えることを特徴とする。
 このように構成し、複数チャンネルの音響信号又は音源オブジェクトとその位置情報を符号化する際に、聴覚の空間的なマスキング効果を勘案して各チャンネル及び音源オブジェクトに割り振るビット数を決めることで、方向情報を持った多チャンネル信号の圧縮に応用できる。これにより、チャンネル同士の空間的な関係を考慮した符号化が可能となる。
 ここで、従来のマスキング閾値の計算では、チャンネル同士の空間的な関係は考慮されていなかったため、22.2チャンネル音響等、より臨場感を高めたチャンネル数が多い音響信号では、ビット割り当てによる圧縮が十分できず、伝送時等のビットレート(帯域)が不足するおそれがあった。
 これに対して、本発明の実施の形態に係る音響信号符号化方法では、多チャンネル信号によって表現される音場は、空間的に散在する複数の音源から構成される。空間サンプリングされた信号には空間的情報が含まれるため、従来の周波数領域に加えて空間領域も考慮したビット割り当てを行うことで、より伝送ビット数を削減することも可能になる。
 これにより、22.2チャンネル等、チャンネル数が多い音響信号でも十分なビットレートでの符号化が可能な音響信号符号化方法を提供することができる。つまり、空間的に散在する複数の音源について、相互のマスキング効果に基づいてマスキング閾値を求め、その閾値に基づいたビット割り当てを行うことで、ビットレートを削減できる。本発明者らの実験によれば、従来より5~20%ビットレートを削減可能である。
 本発明の音響システムXは、記載の符号化装置1と、復号化装置2とを備えた音響システムであって、復号化装置2は、受聴者の向いている方向を算出する方向算出部70と、方向算出部70により算出された方向を符号化装置1に送信する送信部80と、符号化装置1で符号化された複数のチャンネルの音響信号、及び/又は音源オブジェクトを音声信号に復号化する復号化部90を備え、符号化装置1のマスキング閾値算出部40は、マスキング閾値を、受聴者の位置と方向に対する、各チャンネル間及び/又は各音源オブジェクト間の空間的距離及び/又は方向に基づいた空間的マスキング効果に対応して算出することを特徴とする。
 このように構成することで、上述の聴覚の空間的マスキング効果に対応したマスキング閾値を用いて符号化で符号化された音響信号を復号化する際に、ヘッドトラッキング等によって受聴者の向いている方向情報を算出し、音像の位置を制御する聴覚ディスプレイを実現できる。すなわち、各チャンネルの音源の位置、又は音源オブジェクトの位置と受聴者との相対的な位置関係を、符号化装置1にフィードバックし、その位置関係に基づいて符号化を行わせ、復号化を行わせることが可能となる。
 これにより、360°、全天球の音空間をユーザー間で手軽に収音、伝送、再生して楽しむことができる音響システムを提供できる。
 従来、3D(三次元)音場再生技術としては、音楽や放送・映画コンテンツを、ヘッドフォンや2個のフロントスピーカーでサラウンドとして楽しむバイノーラル/トランスオーラルによる聴覚ディスプレイ技術、ホームシアター向けの5.1チャンネルや7.1チャンネルサラウンド再生環境で実在するホールや劇場の音場を模擬する音場再現技術等が開発されてきた。更にスピーカーアレーによる波面合成を用いた3D音場再生技術の開発も進んでいる。このような再生方式の進化とともに、収音及びコンテンツ表現の多チャンネル化が一般化してきている。
 しかしながら、3D音響の再生技術としては、頭部伝達関数と定位に関する実施形態は盛んに行われているが、空間的マスキングとの関連は検討されていなかった。
 これに対して、本発明の音響システムは、復号化装置2は、復号化部90により復号化された音声信号を、受聴者に対する立体音響を再生するような立体音響信号に変換する立体音響再生部100を更に備えることを特徴とする。
 このように構成することで、3次元空間の音場に散在する複数の音源の相互関係やマスキング効果を適用して効率的に符号化された音響信号を、空間的な音響信号の知覚に関して、頭部伝達関数(HRTF)と関連付けて、2チャンネルで再生できる。すなわち、人間が3D音場をどのように捉えているかに対応して符号化された音響信号を立体音響として再生することで、従来よりも現実感の高い音場を再生できる。
 これは、画像において「忠実に色再現するよりも、人間が受ける「印象」を「記憶色」として再現することでよりリアル感が増す」といった効果と同様の効果と考えられる。すなわち、より現実感が高い音場再現を実現することが可能となる。
 本発明の音響信号符号化方法は、マスキング閾値は、各チャンネル間及び/又は各音源オブジェクト間の空間的距離及び/又は方向に基づいた空間的マスキング効果に対応して算出されることを特徴とする。
 このように構成し、例えば、各チャンネル間及び/又は各音源オブジェクト間の空間的距離若しくは方向に基づいて算出したモデルを用いて、空間的マスキング効果に基づいた符号化が可能となる。すなわち、ヒトが3次元空間上に散在する音を聴くときに、空間的に配置された音源の空間的距離及び/又は方向に基づいた相互のマスキング効果を符号化に応用することで、より効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
 本発明の音響信号符号化方法は、マスキング閾値は、チャンネル及び/又は音源オブジェクト間の空間的距離及び/又は方向が近づくほど相互に及ぼす影響が大きくなり、離れるほど相互に及ぼす影響が小さくなる空間的マスキング効果に対応して算出されることを特徴とする。
 このように構成し、例えば、チャンネル及び/又は音源オブジェクト間の空間的距離あるいは方向が近づくほどチャンネル相互及び/又は音源オブジェクト相互に及ぼす影響が大きくなり、離れるほどその影響が小さくなるというモデルにより、空間的マスキング効果を算出することができる。このような空間的マスキング効果により、更に効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
 本発明の音響信号符号化方法は、マスキング閾値は、受聴者からみて前後対称の位置にあるチャンネル及び/又は音源オブジェクトについては、音源オブジェクト間の空間的距離及び/又は方向についての相互に及ぼす影響の度合いを変化させる空間的マスキング効果に対応して算出されることを特徴とする。
 このように構成し、受聴者からみて前後対称の位置にあるチャンネル又は音源オブジェクトについては、必ずしも音源オブジェクト間の空間的距離あるいは方向が近づくほどチャンネル相互又は音源オブジェクト相互に及ぼす影響が大きくなり、離れるほどその影響が小さくなるというわけではないモデルにより、空間的マスキング効果を算出することができる。これにより、例えば、マスカーと前後対称の位置では空間的距離が離れるのに影響が強くなるといった空間的マスキング効果に対応して、マスキング閾値の上昇を大きく算出することが可能である。
 このような空間的マスキング効果により、更に効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
 本発明の音響信号符号化方法は、マスキング閾値は、受聴者からみて後方の位置にあるチャンネル及び/又は音源オブジェクトについては、前後対称の位置に該当する前方に当該チャンネル及び/又は当該オブジェクトが存在する空間的マスキング効果に対応して算出されることを特徴とする。
 このように構成し、受聴者からみて後方の位置にあるチャンネル又は音源オブジェクトについては、前後対称の位置に該当する、鏡写しにした前方に当該チャンネル又は当該オブジェクトが存在する空間的マスキング効果を用いたマスキング閾値を算出することができる。すなわち、両耳を結ぶ直線を軸に、その軸より後方にある音源は、その軸を中心とする線対称の位置に該当する、軸の前方に移動するようにマスキング閾値を算出する。
 このような空間的マスキング効果により、更に効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
 本発明の音響信号符号化方法は、マスキング閾値は、各チャンネル及び/又は音源オブジェクトの信号が、トーン性の信号かノイズ性の信号かに対応して、各チャンネル及び/又は音源オブジェクトの信号の相互に及ぼす影響の度合いを変化させる空間的マスキング効果に対応して算出されることを特徴とする。
 このように構成し、空間的マスキング効果として、各チャンネル信号又は音源オブジェクトが、トーン性の信号かノイズ性の信号かに応じて、各チャンネル信号又は音源オブジェクト信号相互に及ぼす影響の度合いを変化させるというモデルにより、マスキング閾値を算出することができる。
 このように構成することで、更に効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
 本発明の音響信号符号化方法は、マスキング閾値は、下記式(1)で調整される

 T=β{max(y1、αy2)-1}
 y1=f(x-θ)
 y2=f(180-x-θ)       …… 式(1)

 ただし、Tは前記マスキング閾値を算出するために、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重み、θはマスカーの方位、αはマスカーの周波数で制御される定数、βはマスカーの信号がトーン性の信号かノイズ性の信号かに対応して制御される定数、xは前記方向又はマスキーの方位を示すことを特徴とする。
 このように構成することで、上述の各モデルに対応した空間的マスキング効果を容易に計算することができる。これにより、効率的な符号化を可能にし、データの伝送ビットレートを削減できる。
 従来、ステレオ信号の各チャンネルの周波数領域におけるマスキング効果のみを考慮してPEを算出するのが一般的であった。
 これに対して、本発明の音響信号符号化方法は、チャンネル間にまたがる空間的マスキング効果を考慮して、PEにより、一サンプル当たりの平均ビット数が算出されることを特徴とする。
 このように構成してマスキング閾値に対するビットの割り当てが行われると、データの伝送ビットレートを削減できる。本発明者らの実験によると、5~25パーセント程度のビットレートを削減できることを確認している。
 本発明の音響信号復号化方法は、復号化装置2により実行される音響信号復号化方法であって、上述の音響信号符号化方法により符号化された複数のチャンネルの音響信号を復号化することを特徴とする。
 このように構成し、上述の符号化装置1で符号化された音響信号を復号化することで、伝送ビットレートが低くても、高品質な音響信号を再生可能となる。
〔他の実施の形態〕
 なお、本発明の実施の形態においては、複数のチャンネルの音響信号の符号化として、22.2チャンネルの符号化について言及した。
 これについて、本実施形態の音響信号符号化方法は、5.1チャンネルや7.1チャンネル等の多チャンネルの音響符号化から、空間をサンプリングした3D音響符号化、MPEG-H 3D AUDIOに代表されるオブジェクト符号化、又は、既存の2チャンネルのステレオ音響符号化にも適用可能である。
 すなわち、符号化装置1は、上述の実施形態の図1に示したような、マイクロホンアレイ10を用いて収音を行わずに、図2のステップS101にて、既に集音された多チャンネルの音声データ、音声オブジェクト等からも音声データを取得可能であるのが当然である。
 さらに、上述の実施の形態では、音響システムXが、伝送された音響信号を復号化する復号化装置2としてヘッドトラッキングが可能なヘッドフォンを用いる例について記載した。
 しかしながら、本実施形態の音響信号符号化方法、及び音響復号化方法は、3次元空間的に散在する音源に働く聴覚のマスキング効果を用いることが可能な音響システムであれば、任意のものに適用可能である。たとえば、それ以外の3D音場のキャプチャー、伝送、再生システムへの適用、VR/ARアプリケーションヘの適用等も可能である。
 具体的な例を挙げて説明すると、上述の実施の形態では、立体音響を再生するヘッドフォン110として、装着可能なヘッドフォンやイヤフォン等を用いる例について説明した。
 しかしながら、ヘッドフォン110は、実施例に示すように、据え置き型の複数個のスピーカー等であってもよいのが当然である。
 さらに、上述の実施の形態では、ヘッドフォンから位置方向情報を符号化装置1へフィードバックをするように記載したものの、これをしなくてもよい。このように、位置方向情報のフィードバックを行わない場合、当然、当該位置方向情報を用いずに、マスキング閾値を算出することも可能である。
 この場合、立体音響再生部100は、位置方向情報に合わせて頭部伝達関数(HRTF)の畳み込みをアップデートしなくてもよい。
 加えて、上述の実施の形態では、復号化装置2が方向算出部70及び送信部80を備えている構成について説明した。
 しかしながら、本実施形態の音響信号符号化方法、及び音響復号化方法は、かならずしも受聴者の向いている方向が分からなければならないということではない。このため、方向算出部70及び送信部80を具備しないような構成も可能である。
 上述の実施の形態では周波数マスキングを拡張した空間的マスキング効果を算出する例について記載した。
 これに対して、周波数を時間に代用しても同様の空間的マスキング効果を算出することも可能である。さらに、空間的マスキング効果として、周波数、方向間でのマスキングと、時間、方向間でのマスキングとの組み合わせを用いることも可能である。
 さらに、上述の実施の形態では空間的マスキング効果により、ビットレートを低く抑えたままで伝送する例について説明した。すなわち、従来の高ビットレートの音響符号化と同等の品質で、複数のチャンネルの音響信号を符号化する例について記載した。
 これに対して、単に高品質での符号化を行うのみならず、重要な音を強調したり定位感をデフォルメしたりして、符号化を行うことも可能である。または、空間的マスキング効果で聴覚上、重要な箇所に割り振る情報量を増大させたり、逆に、聴覚上で重要でない箇所に割り振る情報量を更に減少させたりすることで、臨場感を強調することも可能である。
 加えて、上述の実施の形態では、情報量の割り振りとして、ビット割り当てを行う例について記載した。
 しかしながら、この情報量の割り振りは、周波数帯域毎に単純にビット数を決定(割り当てる)のではなく、エントロピー符号化やその他の符号化に対応した情報量の割り振りであってもよい。
 さらに、上述の実施の形態に記載しているように、位置方向情報のフィードバックがある場合は、当該位置方向情報を用いて、効率的なマスキング閾値を算出することが可能である。
 このため、位置方向情報のフィードバックの有無により、配信(伝送)のビットレートを変更するように構成することが可能である。すなわち、符号化装置1に対して、位置方向情報をフィードバックしてくる復号化装置2は、位置方向情報をフィードバックしてこない復号化装置2よりも低いビットレートでデータを伝送することが可能である。
 このように構成することで、より廉価にコンテンツを提供するサービスを実現することが可能となる。
 次に図面に基づき本発明を実施例によりさらに説明するが、以下の具体例は本発明を限定するものではない。
(空間的マスキングを考慮したマスキングモデルの実験)
(実験方法)
 図5、図6により、マスカー存在下でのマスキーの各周波数における閾値を、マスキーの各方位に関して測定する実験について説明する。
 図5は、測定システムを示す構成図である。ここでは、被験者の正面を0°とし、反時計方向を正とする。そして、被験者の正面にPC(Personal Computer)が配置される。被験者は椅子に座り、スピーカで提示された刺激音を両耳で聴取する。スピーカは、被験者から1.5m離れた位置に、被験者を中心として全周を取り囲むように、45°間隔で8か所に配置される。なお、実験系の出力における音圧レベル[dBSPL]の校正は、騒音計(リオンNA-27)を用いて計測することにより行った。
 実験方法を以下に記す。最初に、実験で使用する音源を被験者に把握させるために、各音源を個別に提示するデモを行う。次に、測定を開始する。測定中、マスカーは常時提示される。マスキーは継続時間0.7秒で提示され、0.7秒の無音をはさんだ後に提示が繰り返される。被験者は回答画面を見ながら、マスキーの各周波数、各音圧レベルに対し、マスキーが3回提示される間に、「マスカー音に変化を感じたかどうか」をPCに入力する。この際、被験者には頭部を動かさずに視線のみを移動させて回答を入力するよう指示を与える。ここで、「マスカー音に変化を感じた」とは、マスキーが知覚されたときだけでなく、マスカーでもマスキーでもない音が知覚された場合も含むこととする。例えば、周波数が少し異なる2つの純音が同時に提示されたとき、音波の干渉により2音の周波数の差に等しい周波数の音が知覚される「うなり」が挙げられる。そのような音が知覚された場合も、「マスカーに変化を感じた」場合に含む。
 なお、実験方法に慣れさせるために、実験結果に反映しないテスト測定を初めに数回、行った。
 図6に、本実験における閾値探索方法の説明図を示す。本実験における閾値の探索方法は適応法に準じた方法で行う。適応法とは、被験者の応答に応じて実験者が刺激の物理パラメータ値を調整し、閾値を決定する方法のことである。
 図6において、横軸はマスキーのセット数、縦軸はマスキーの音圧レベルである。マスキーのセット数「1セット」とは、マスキーが3回提示される間のことを指し、これを音源提示の単位とする。
 まず、マスキーの周波数をf1に固定し、音圧レベルSPLmaxで聴取者に提示する。続いて、音圧レベルをSPLminに変更して聴取者に提示する。SPLmaxは音圧レベルの測定範囲における最大値、SPLminは音圧レベルの測定範囲における最小値を指す。ここで、被験者が音圧レベルSPLmaxのマスキーを検知できなかった場合にはSPLmaxを閾値とみなし、音圧レベルSPLminのマスキーを検知できた場合にはSPLminを閾値とみなす。このとき、実際の閾値は測定範囲外に存在すると考えられる。以上のようにみなされる例として、図6における周波数f2のマスキーの閾値が挙げられる。図6では、周波数f2のマスキーは音圧レベルSPLminでも検知されなかったことを示している。このように、被験者が回答しなければならない音圧レベルのセット数は、被験者の応答によって変化する。マスキーが音圧レベルSPLminで提示された後は、被験者の回答に応じて閾値を2分探索的に探索する。すなわち、これまでの測定で検知できたマスキーの音圧レベルの最小値と、検知できなかったマスキーの音圧レベルの最大値の中間になるような値を、次の音圧レベルの値としてセットする。このような探索を続けると、最終的にセットできる音圧レベルが1つだけ残る。最終的に残った音圧レベルを周波数f1のマスキーの閾値とする。
 以上のような探索を、図6のように周波数をf1、f2、f3、……の順に連続的に変化させて調査する。本実験においては、低周波数側から順にマスキーの閾値を調査する。
 図7に、被験者に提示する回答画面を示す。マスカーが1音源のときの回答画面は図7(a)であり、マスカーが2音源のときの回答画面は図7(b)である。画面には、マスカーの方位、マスカーの音圧レベル、マスキーの方位、マスキーの周波数、マスキー再生中に点灯するランプ、マスキーの再生回数を示すカウンタ、マスキーの検知の有無を入力するボタンがそれぞれ表示される。被験者は、各音源がどの方向からどのような大きさでいつ提示されるのかが知覚可能である。マスキーの周波数を表示する理由は、測定がマスカーの周波数(マスカーの種類)を連続的に変化させながら調査するものであるので、被験者が現在どのマスキーに関する回答を入力しているのかを明確にし、回答の混乱を防ぐためである。被験者は自ら、マスキーの検知の有無を入力するボタンをオンにすることで「マスキーを検知した」ことをPCへ知らせ、またボタンをオフにすることで「マスキーが検知できなかった」ことをPCへ知らせる。なお、マスキーの再生回数を示すカウンタの初期値は0であり、マスキーの再生回数に応じて、0、1、2、3、0 ……と変化する。0がカウントされると、回答がリセットすなわちマスキーの検知の有無を入力するボタンがオフになり、マスキーは次の音圧レベル又は周波数に移行する。被験者は、このカウンタが1、2、3を表示している間に検知の有無を入力しなければならない。
 なお、聴取実験の回答用プログラムは、Cycling ’74社のMax ver.7にてコーディングを行っている。それ以外のプログラムについては、MathWorks 社のMATLAB ver.R2018aにてコーディングを行っている。
(マスカーの一覧)
 実験で使用するマスカーの一覧を下記の表1に示す。
Figure JPOXMLDOC01-appb-T000004
 マスカーには、周波数(中心周波数)を400Hz又は1000Hzとした帯域雑音及び純音を用意した。以降では、これらのマスカーを、マスカーA(masker A)~マスカーD(masker D)までの名前で記述することとする。なお、帯域雑音の帯域幅は、臨界帯域の帯域幅に概ね合致するように決定した。ある純音のマスクに寄与する雑音成分は、その純音を中心周波数とする帯域雑音における、ある帯域幅の成分に限られるということが知られている。臨界帯域とは、そのような純音のマスクに寄与する帯域のことである。
(実験条件)
 実験条件としては、マスカーの数を1個とした場合及び2個とした場合の2種類について行った。いずれも無響室で実験を行い、音源信号のサンプリング周波数は48kHzとした。
 まず、配置するマスカーの数が1個のときの条件を下記の表2に示す。
Figure JPOXMLDOC01-appb-T000005
 被験者は、健聴な20代の男性2名(被験者a、被験者b)である。マスカーには、上述のマスカーA~マスカーDまでの音源のうちのいずれか1つを用いた。マスカーの音圧レベルは、60dBSPL及び80dBSPLの2通りを用いた。マスカーの方位は、0°、45°、90°、135°の4つの方位のうちのいずれか1方位とした。すなわち、マスカーの方位は左耳側の4方位のみ対象とした。上記のようにマスカーの方位を4方位用意して実験を行うと、被検者に関する半周分の閾値のデータが得られることとなる。人間の頭部形状が左右対称であると仮定すれば、閾値は正中面で対称になると考えられるので、本実験で得られない残り半周分の閾値のデータは本実験で得られたデータと対称の結果となる。
 マスキーは純音1音源を用い、その周波数及び音圧レベルは以下の通りである。具体的には、マスキーの周波数は、マスカーの周波数(中心周波数)に近い周波数では密になるように決定した。なお、マスカーが純音の場合、マスキーの周波数がマスカーの周波数と完全に一致するとき(400Hz、1000Hz)には、あらゆる音圧レベルにおいてマスキーが知覚できないと考えられるので、そのような周波数は測定対象から外した。マスキーの音圧レベルは取りうる値を3dBおきとし、その最大レベルはマスカーの音圧レベル、最小レベルは20dBSPL又は18dBSPLとした。最大レベルは、マスキーの音圧レベルがマスカーの音圧レベルより大きいときには完全にマスキーを知覚できるという予想のもとに決定した。最小レベルは、実験場所である無響室内の暗騒音レベルを考慮し、測定範囲が概ね暗騒音レベルより15dB小さいところまでとなるように決定した。マスキーの方位は、45°又は315°とした。マスキーの方位が45°のときには、マスカーとマスキーの方位が一致するため、従来から検討されてきた周波数マスキングの閾値が結果として得られることとなる。対してマスキーの方位が315°のときには、マスカーとマスキーが互いに異なる方位に存在することとなるため、ステレオのチャンネル間でのマスキングすなわち空間的なマスキングの閾値が結果として得られることとなる。
 マスキーの方位は、0°から45°おきに315°までの8方位のうちのいずれか1方位とした。
 次に、配置するマスカーの数が2個のときの条件を下記の表3に示す。
Figure JPOXMLDOC01-appb-T000006
 被験者は、被験者aのみである。マスカーは、マスカーAを方位45°に、マスカーBを方位315°にそれぞれ配置した。マスキーは純音1音源を用いた。マスキーの周波数は、マスカーの周波数(中心周波数)が400Hzのときの条件及び1000Hzのときの条件を合わせたものを用いた。なお、配置するマスカー(マスカーA、マスカーB)がいずれもバンドノイズであるため、マスキーの周波数がマスカーの中心周波数と完全に一致するとき(400Hz、1000Hz)においても、純音とは異なり、ある音圧レベル以上ではマスキーを知覚できるようになると考えられる。したがって、400Hz及び1000Hzも測定対象に加えた。また、マスキーの音圧レベルの最大値は、表2よりも9dB大きくとった。これは、マスカーが2音源存在することにより、聴取する音の音圧レベルが最大で6dBほど上昇することを考慮したものである。
 マスキーの方位は225°とした。
(マスキング閾値の計算)
(実験結果と考察)
 図8~図11により、被験者aに関する実験結果について説明する。
 上述の式(5)に記載したα,βを、下記の表4に示す値の範囲で探索した。
Figure JPOXMLDOC01-appb-T000007
 本実施例では、α,βの最適値は次のように算出した。まず、あるα,βの値におけるTspatialと、実験結果として得られたマスキーの各方位における閾値の最大値との間の平均二乗誤差(Mean Squared Error、MSE)を、マスカーの種類(マスカーA~マスカーD)、方位、音圧レベルのすべての組み合わせに対して計算する。次に、計算された平均二乗誤差を、マスカーの種類ごとに総和をとる。以上の操作を、α,βの値を変化させて繰り返し行い、平均二乗誤差のマスカーの種類ごとの総和が最小になったときの、α,βの組を、α,βの最適値とする。
 ここで、j番目のマスカーの方位における平均二乗誤差MSE(j)は、下記の式(6)で算出する。
Figure JPOXMLDOC01-appb-M000008
 ここで、式(6)において、Tspatial(i)はi番目のマスキーの方位[deg。]における関数Tspatialの出力値、Tmeasured(i)はi番目のマスキーの方位[deg。]におけるマスキーの閾値の実験により得られた実測値を表す。Lmasker azimuthはマスカーの存在する方位におけるマスキーの閾値[dBSPL]を表す。これは、Tspatialがマスカーの存在する方位からの閾値の減衰量を表すものであるため、TspatialとTmeasuredとの間のオフセットを調整する役割をもつ。NはTspatial及びTmeasuredのエントリー数(マスキーの方位の総数)である。本計算ではマスキーの方位の刻みを0°から360°までの1°刻みとしたため、N=361である。ただし、Tmeasuredはマスキーの方位の刻みが実測値として45°刻みであるため、1°刻みとしたときに欠損する部分は線形補間を行うことにより値を推定した。
 総当たりの結果、α,βの最適値がマスカーA~マスカーDについて、下記の表5のように得られた。
Figure JPOXMLDOC01-appb-T000009
 図8~図11に、表5の値を用いてTspatialをマスキーの閾値の実測値にフィッティングさせたものをそれぞれ示す。各図の左上のグラフはマスカーAに関する結果、右上のグラフはマスカーBに関する結果、左下のグラフはマスカーCに関する結果、右下のグラフはマスカーDに関する結果である。
 各グラフの横軸はマスキーの方位、縦軸は音圧レベルである。マスカーの方位に該当する方位を縦の点線で示している。黒の実線はマスカーの音圧レベルが80dBSPLのときのマスキーの閾値の実測値、灰色の実線はマスカーの音圧レベルが60dBSPLのときのマスキーの閾値の実測値をそれぞれ表している。これに対して、赤の破線は関数Tspatialを用いて赤の実線にフィッティングさせたもの、灰色の破線は関数Tspatialを用いて灰色の実線にフィッティングさせたものをそれぞれ表している。
 なお、各破線は関数Tspatialの出力にオフセットLmasker azimuthを加えたものである。
 図8~図11によれば、各グラフとも概ね実測値にフィットしていることがわかる。ただし、例えば図8の左上のグラフや図9の左上のグラフなどのように、マスカーA、マスカーBのような帯域雑音の場合におけるマスカーとは前後対称の方位での閾値の上昇に関してみると、破線が実線にうまくフィットしていない部分が見受けられる。この理由は、マスカーが帯域雑音でマスカーの方位が90°のときには、閾値の方位による変化が比較的小さく、平均二乗誤差の総和を最小にしようとしたときに影響してαの値が小さくなるように働いたためであると考えられる。上記の部分をうまくフィットさせるためには、マスカーの方位が90°のときの実測値とモデル関数との間の誤差が大きくても構わない場合には、αの値をより大きく設定すれば良い。
 また、本実施例では総当たりにより、α,βの値を求めたが、βの値に関しては、マスカーの調性(トーン性、ノイズ性)を判別するような指標をベースに決定することができる。マスカーの調性を判別するような指標としては、例えば自己相関やSpectral Flatness Measure(SFM)等がある。これらの指標を用いることで、βをパラメトリックに決定しフィッティングすることが可能となる。
(まとめ)
 本実施例では、空間的マスキングを確認するために基礎的な聴取実験を行うとともに、実験により得られた知見を反映し、空間的マスキングを考慮したマスキング閾値計算法及びモデル化をすることが可能となった。
 まず聴取実験において、マスカーとマスキーを異なる方位に存在する場合でもマスカーの周波数近傍での閾値の上昇がみられたことから、空間的マスキングの存在を確認した。
 マスキング閾値はマスカーの方位とマスキーの方位によって変化し、基本的にはマスキーの方位がマスカーの方位から離れるほど閾値が低下する。2チャンネルステレオ環境に関しては、自身のチャンネルの信号が自身のチャンネルに及ぼすマスキングの閾値に15dBの重みを付加したものを、自身のチャンネルの信号が他方のチャンネルの信号に及ぼすマスキングの閾値として用いてもよい。全方位に関しては、マスカーが帯域雑音のときは、マスカーに対して前後対称の方位でその周囲の方向よりマスキーの閾値の上昇がみられ、それはマスカーの中心周波数が低いほど顕著である。また、マスカーが純音のときは、マスキーの方位による閾値の変化はフラットである。
 さらに、各マスカーが単独で存在するときの、マスカーと同一の方位の信号のマスキング閾値とそれ以外の方位の信号のマスキングの閾値とのリニアスケールでの和を、自身の方位の信号に加えそれ以外の方位の信号も考慮したマスキング閾値として用いても差し支えない。
 以下で、これらの結果をまとめると:
 マスカーが0°のときは、マスキーの位置が0°のものが、もっとも閾値が高い。45°、90°と、マスキー位置がマスカーから離れるほど、閾値は下がった。しかし、135°から上昇を始め、180°では0°の場合とほぼ同程度まで、閾値が上昇した。すなわち、マスカーによるマスキング閾値の値が、受聴者の前後でほぼ対称の関係となっていた。
 マスカーが45°のときは、マスキー位置が45°のときが、もっとも閾値が高くなった。90°では、閾値が下がった。135°で更に下がると思われたが、予想に反し、閾値が上がり、45°の時の閾値に近づいた。180°では閾値は下がり、225°では更に下がった。これは、マスカーが0°のときと同様に、マスキング閾値は、受聴者の前後で、ほぼ対称の関係となっている。すなわち、90°~270°を結ぶ線を中心に線対称であった。
 マスカーが90°、マスカー135°でも、同様の傾向であった。
 以上のような知見から、空間的マスキングを考慮したマスキング閾値計算法を次のように提案した:2チャンネルのステレオ環境では、自身のチャンネルのマスキング閾値と、他方のチャンネルのマスキング閾値に、-15dB重み付けしたものをリニアスケールで和をとる。全方位に関しては、周期360°の任意の周期関数と、その周期関数を90°及び270°で線対称になるように位相シフトしたものを利用して、マスキーの閾値のピークの方位による変化をモデル化する。そのモデル化した関数を用いて、各チャンネルのマスキング閾値に重み付けをしてからリニアスケールで総和をとる。
 すなわち、上述の式(1)により、マスキング閾値を計算可能となる。これに基づいてマスキング閾値を計算することで、信号の伝送に必要なビット数を削減することができる。
 なお、上記実施の形態の構成及び動作は例であって、本発明の趣旨を逸脱しない範囲で適宜変更して実行することができることは言うまでもない。
 本発明の生物配列分析方法は、聴覚の空間的マスキング効果を利用することで、従来よりもビットレートを抑えた音響信号符号化方法を提供することができ、産業上に利用することができる。
1 符号化装置
2 復号化装置
10 マイクロホンアレイ
20 集音部
30 周波数領域変換部
40 マスキング閾値算出部
50 情報量決定部
60 符号化部
70 方向算出部
80 送信部
90 復号化部
100 立体音響再生部
110 ヘッドフォン
X 音響システム

Claims (18)

  1.  符号化装置により実行される、複数のチャンネルの音響信号を符号化する音響信号符号化方法であって、
     聴覚の空間的マスキング効果に対応したマスキング閾値を算出し、
     算出された前記マスキング閾値により、各前記チャンネルに割り振る情報量を決定し、
     複数の前記チャンネルの音響信号を、それぞれ割り振られた前記情報量で符号化する
     ことを特徴とする音響信号符号化方法。
  2.  符号化装置により実行される、音源オブジェクト及び該音源オブジェクトの位置情報を符号化する音響信号符号化方法であって、
     聴覚の空間的マスキング効果に対応したマスキング閾値を算出し、
     算出された前記マスキング閾値により、前記音源オブジェクトに割り振る情報量を決定し、
     前記音源オブジェクト及び前記音源オブジェクトの位置情報を、割り振られた前記情報量で符号化する
     ことを特徴とする音響信号符号化方法。
  3.  前記マスキング閾値は、
     各前記チャンネル間及び/又は各前記音源オブジェクト間の空間的距離及び/又は方向に基づいた前記空間的マスキング効果に対応して算出される
     ことを特徴とする請求項1又は2に記載の音響信号符号化方法。
  4.  前記マスキング閾値は、
     前記チャンネル及び/又は前記音源オブジェクト間の空間的距離及び/又は方向が近づくほど相互に及ぼす影響が大きくなり、離れるほど相互に及ぼす影響が小さくなる前記空間的マスキング効果に対応して算出される
     ことを特徴とする請求項3に記載の音響信号符号化方法。
  5.  前記マスキング閾値は、
     受聴者からみて前後対称の位置にある前記チャンネル及び/又は前記音源オブジェクトについては、前記音源オブジェクト間の空間的距離及び/又は方向についての相互に及ぼす影響の度合いを変化させる前記空間的マスキング効果に対応して算出される
     ことを特徴とする請求項3又は4に記載の音響信号符号化方法。
  6.  前記マスキング閾値は、
     前記受聴者からみて後方の位置にある前記チャンネル及び/又は前記音源オブジェクトについては、前後対称の位置に該当する前方に当該チャンネル及び/又は当該オブジェクトが存在する前記空間的マスキング効果に対応して算出される
     ことを特徴とする請求項3乃至5のいずれか1項に記載の音響信号符号化方法。
  7.  前記マスキング閾値は、
     各前記チャンネル及び/又は前記音源オブジェクトの信号が、トーン性の信号かノイズ性の信号かに対応して、各前記チャンネル及び/又は音源オブジェクトの信号の相互に及ぼす影響の度合いを変化させる前記空間的マスキング効果に対応して算出される
     ことを特徴とする請求項3乃至6のいずれか1項に記載の音響信号符号化方法。
  8.  前記マスキング閾値は、
     下記式(1)で調整される

     T=β{max(y1、αy2)-1}
     y1=f(x-θ)
     y2=f(180-x-θ) …… 式(1)

     ただし、Tは前記マスキング閾値を算出するために、各チャンネル信号の周波数領域におけるマスキング閾値に乗ずる重み、θはマスカーの方位、αはマスカーの周波数で制御される定数、βはマスカーの信号がトーン性の信号かノイズ性の信号かに対応して制御される定数、xは前記方向又はマスキーの方位を示す
     ことを特徴とする請求項7に記載の音響信号符号化方法。
  9.  Perceptual Entropy(PE)により、一サンプル当たりの平均ビット数が算出される
     ことを特徴とする請求項1乃至8のいずれか1項に記載の音響信号符号化方法。
  10.  復号化装置により実行される音響信号復号化方法であって、
     請求項1乃至9に記載の音響信号符号化方法により符号化された複数の前記チャンネルの音響信号を復号化する
     ことを特徴とする音響信号復号化方法。
  11.  符号化装置により実行される、複数のチャンネルの音響信号を符号化するプログラムであって、前記符号化装置に、
     聴覚の空間的マスキング効果に対応したマスキング閾値を算出させ、
     算出された前記マスキング閾値により、各前記チャンネルに割り振る情報量を決定させ、
     複数の前記チャンネルの音響信号を、それぞれ割り振られた前記情報量で符号化させる
     ことを特徴とするプログラム。
  12.  複数のチャンネルの音響信号、及び/又は、音源オブジェクト並びに該音源オブジェクトの位置情報を符号化する符号化装置であって、
     聴覚の空間的マスキング効果に対応したマスキング閾値を算出するマスキング閾値算出部と、
     前記マスキング閾値算出部により算出された前記マスキング閾値により、各前記チャンネル及び/又は前記音源オブジェクトに割り振る情報量を決定する情報量決定部と、
     複数の前記チャンネルの音響信号、及び/又は、前記音源オブジェクト並びに前記音源オブジェクトの位置情報を、それぞれ割り振られた前記情報量で符号化する符号化部とを備える
     ことを特徴とする符号化装置。
  13.  請求項12に記載の符号化装置と、復号化装置とを備えた音響システムであって、
     前記復号化装置は、
     前記符号化装置で符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部を備える
     ことを特徴とする音響システム。
  14.  請求項12に記載の符号化装置と、復号化装置とを備えた音響システムであって、
     前記復号化装置は、
     受聴者の向いている方向を算出する方向算出部と、
     前記方向算出部により算出された前記方向を前記符号化装置に送信する送信部と、
     前記符号化装置で符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部を備え、
     前記符号化装置の前記マスキング閾値算出部は、
     前記マスキング閾値を、前記受聴者の位置と前記方向に対する、各前記チャンネル間及び/又は各前記音源オブジェクト間の空間的距離及び/又は方向に基づいた前記空間的マスキング効果に対応して算出する
     ことを特徴とする音響システム。
  15.  前記復号化装置は、
     前記復号化部により復号化された音声信号を、前記受聴者に対する立体音響を再生するような立体音響信号に変換する立体音響再生部を更に備える
     ことを特徴とする請求項13又は14に記載の音響システム。
  16.  聴覚の空間的マスキング効果に対応したマスキング閾値により、各チャンネル及び/又は音源オブジェクトに割り振る情報量が決定され、複数の前記チャンネルの音響信号、及び/又は、前記音源オブジェクト並びに前記音源オブジェクトの位置情報を、それぞれ割り振られた前記情報量で符号化された信号を取得する信号取得部と、
     前記信号取得部により取得された信号から、符号化された複数の前記チャンネルの音響信号、及び/又は前記音源オブジェクトを音声信号に復号化する復号化部とを備える
     ことを特徴とする復号化装置。
  17.  受聴者の向いている方向を算出する方向算出部と、
     前記方向算出部により算出された前記方向を前記符号化装置に送信する送信部とを更に備える
     ことを特徴とする請求項16に記載の復号化装置。
  18.  前記復号化部により復号化された音声信号を、前記受聴者に対する立体音響を再生するような立体音響信号に変換する立体音響再生部を更に備える
     ことを特徴とする請求項16又は17に記載の復号化装置。
PCT/JP2020/006211 2019-02-19 2020-02-18 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置 WO2020171049A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2021502010A JP7232546B2 (ja) 2019-02-19 2020-02-18 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
CN202080015479.XA CN113574596A (zh) 2019-02-19 2020-02-18 音频信号编码方法、音频信号解码方法、程序、编码装置、音频系统及解码装置
EP20759801.2A EP3929918A4 (en) 2019-02-19 2020-02-18 ACOUSTIC SIGNAL CODING METHOD, ACOUSTIC SIGNAL DECODING METHOD, PROGRAM, CODING DEVICE, ACOUSTIC SYSTEM AND COMPLEXING DEVICE
US17/432,098 US20230136085A1 (en) 2019-02-19 2020-02-18 Acoustic signal encoding method, acoustic signal decoding method, program, encoding device, acoustic system, and decoding device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019027035 2019-02-19
JP2019-027035 2019-02-19

Publications (1)

Publication Number Publication Date
WO2020171049A1 true WO2020171049A1 (ja) 2020-08-27

Family

ID=72144598

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/006211 WO2020171049A1 (ja) 2019-02-19 2020-02-18 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置

Country Status (5)

Country Link
US (1) US20230136085A1 (ja)
EP (1) EP3929918A4 (ja)
JP (1) JP7232546B2 (ja)
CN (1) CN113574596A (ja)
WO (1) WO2020171049A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023286698A1 (ja) * 2021-07-12 2023-01-19 ソニーグループ株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2024024468A1 (ja) * 2022-07-25 2024-02-01 ソニーグループ株式会社 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014016625A (ja) * 2008-01-04 2014-01-30 Dolby International Ab オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法
JP2015531078A (ja) * 2012-07-31 2015-10-29 インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. オーディオ信号処理方法および装置
JP2016518788A (ja) * 2013-04-29 2016-06-23 ドルビー ラボラトリーズ ライセンシング コーポレイション 動的閾値を用いた周波数帯域圧縮
JP2016524726A (ja) * 2013-05-28 2016-08-18 クゥアルコム・インコーポレイテッドQualcomm Incorporated 球面調和係数に対して空間マスキングを実行すること
JP2016224472A (ja) * 2010-12-21 2016-12-28 ドルビー・インターナショナル・アーベー 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10107642A (ja) * 1996-06-14 1998-04-24 Texas Instr Inc <Ti> デジタルオーディオ符号化信号におけるマスキングしきい値を計算する方法
US7333930B2 (en) * 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
CN1677490A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
US8332216B2 (en) * 2006-01-12 2012-12-11 Stmicroelectronics Asia Pacific Pte., Ltd. System and method for low power stereo perceptual audio coding using adaptive masking threshold
WO2009067741A1 (en) * 2007-11-27 2009-06-04 Acouity Pty Ltd Bandwidth compression of parametric soundfield representations for transmission and storage
US8219409B2 (en) * 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
CN101847413B (zh) * 2010-04-09 2011-11-16 北京航空航天大学 一种使用新型心理声学模型和快速比特分配实现数字音频编码的方法
CN102737635B (zh) * 2011-04-08 2014-04-30 华为终端有限公司 一种音频编码方法以及音频编码设备
US9466305B2 (en) * 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
DE102013217367A1 (de) * 2013-05-31 2014-12-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zur raumselektiven audiowiedergabe
EP3373604B1 (en) * 2017-03-08 2021-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing a measure of spatiality associated with an audio stream
US10075802B1 (en) * 2017-08-08 2018-09-11 Qualcomm Incorporated Bitrate allocation for higher order ambisonic audio data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014016625A (ja) * 2008-01-04 2014-01-30 Dolby International Ab オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法
JP2016224472A (ja) * 2010-12-21 2016-12-28 ドルビー・インターナショナル・アーベー 二次元または三次元音場のアンビソニックス表現の一連のフレームをエンコードおよびデコードする方法および装置
JP2015531078A (ja) * 2012-07-31 2015-10-29 インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. オーディオ信号処理方法および装置
JP2016518788A (ja) * 2013-04-29 2016-06-23 ドルビー ラボラトリーズ ライセンシング コーポレイション 動的閾値を用いた周波数帯域圧縮
JP2016524726A (ja) * 2013-05-28 2016-08-18 クゥアルコム・インコーポレイテッドQualcomm Incorporated 球面調和係数に対して空間マスキングを実行すること

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANDREAS SPANIAS ET AL.: "Audio Signal Processing and Coding", 2007, WILEY-INTERSCIENCE, JOHN WILEY & SONS, INC.
KODAI KATO, MASAYUKI NISHIGUCHI, KANJI WATANABE, SHOUICHI TAKANE, KOJI ABE: "Study on 3D audio coding based on spatial auditory masking", IEICE TECHNICAL REPORT, vol. 118, no. 497, 7 March 2019 (2019-03-07), pages 271 - 278, XP009530393 *
See also references of EP3929918A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023286698A1 (ja) * 2021-07-12 2023-01-19 ソニーグループ株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
WO2024024468A1 (ja) * 2022-07-25 2024-02-01 ソニーグループ株式会社 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム

Also Published As

Publication number Publication date
JPWO2020171049A1 (ja) 2021-11-25
US20230136085A1 (en) 2023-05-04
CN113574596A (zh) 2021-10-29
EP3929918A4 (en) 2023-05-10
JP7232546B2 (ja) 2023-03-03
EP3929918A1 (en) 2021-12-29

Similar Documents

Publication Publication Date Title
US10685638B2 (en) Audio scene apparatus
RU2736274C1 (ru) Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием dirac-технологии с расширением глубины или других технологий
JP4921470B2 (ja) 頭部伝達関数を表すパラメータを生成及び処理する方法及び装置
KR20180108766A (ko) 증강 현실 헤드폰 환경 렌더링
US20220225053A1 (en) Audio Distance Estimation for Spatial Audio Processing
US20120163606A1 (en) Method and Apparatus for Processing Audio Signals
JP2019530389A (ja) 適応型キャプチャを利用した、マイクアレイからの空間オーディオ信号フォーマット生成
GB2559765A (en) Two stage audio focus for spatial audio processing
Grimm et al. Spatial acoustic scenarios in multichannel loudspeaker systems for hearing aid evaluation
GB2572650A (en) Spatial audio parameters and associated spatial audio playback
JP2020506639A (ja) オーディオ信号処理方法及び装置
KR20160001712A (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN108174341A (zh) 测量高阶高保真度立体声响复制响度级的方法及设备
Neidhardt et al. Perceptual matching of room acoustics for auditory augmented reality in small rooms-literature review and theoretical framework
Rafaely et al. Spatial audio signal processing for binaural reproduction of recorded acoustic scenes–review and challenges
WO2020171049A1 (ja) 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
US20220369061A1 (en) Spatial Audio Representation and Rendering
Wendt et al. Directivity patterns controlling the auditory source distance
Hládek et al. Communication conditions in virtual acoustic scenes in an underground station
US20120195435A1 (en) Method, Apparatus and Computer Program for Processing Multi-Channel Signals
Xie Spatial sound: Principles and applications
WO2021261385A1 (ja) 音響再生装置、ノイズキャンセリングヘッドフォン装置、音響再生方法、音響処理プログラム
Guthrie Stage acoustics for musicians: A multidimensional approach using 3D ambisonic technology
Lee et al. HRTF measurement for accurate sound localization cues
JP2023500631A (ja) 方向メタデータを使用するマルチチャネルオーディオ符号化及び復号化

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20759801

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021502010

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020759801

Country of ref document: EP

Effective date: 20210920