WO2018147701A1 - 오디오 신호 처리 방법 및 장치 - Google Patents

오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
WO2018147701A1
WO2018147701A1 PCT/KR2018/001833 KR2018001833W WO2018147701A1 WO 2018147701 A1 WO2018147701 A1 WO 2018147701A1 KR 2018001833 W KR2018001833 W KR 2018001833W WO 2018147701 A1 WO2018147701 A1 WO 2018147701A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
transfer function
processing apparatus
signal processing
flat response
Prior art date
Application number
PCT/KR2018/001833
Other languages
English (en)
French (fr)
Inventor
백용현
서정훈
전세운
전상배
Original Assignee
가우디오디오랩 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가우디오디오랩 주식회사 filed Critical 가우디오디오랩 주식회사
Priority to JP2019543846A priority Critical patent/JP7038725B2/ja
Priority to US15/961,893 priority patent/US10165381B2/en
Publication of WO2018147701A1 publication Critical patent/WO2018147701A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control

Definitions

  • the present disclosure relates to an audio signal processing method and apparatus, and more particularly, to an audio signal processing method and apparatus for binaural rendering an input audio signal to provide an output audio signal.
  • Binaural rendering is the modeling of 3D audio as a signal delivered to the human ear in 3D space. Listeners can also feel stereoscopic sound through binaurally rendered 2-channel audio output signals through headphones or earphones.
  • the specific principle of binaural rendering is as follows. One always hears the sound through both ears, and the sound recognizes the location and direction of the sound source. Thus, if 3D audio can be modeled in the form of an audio signal delivered to both ears of a person, the stereoscopic sense of 2D audio can be reproduced through a two-channel audio output without a large number of speakers.
  • the audio signal processing apparatus binaurally renders an input audio signal using a binaural transfer function such as a head related transfer function (HRTF)
  • a binaural transfer function such as a head related transfer function (HRTF)
  • HRTF head related transfer function
  • the tone change due to the binaural transfer function characteristic is a high sound quality such as music. This may be a factor of degrading sound quality of the content.
  • the timbre of the content requiring high sound quality is greatly changed, the virtual reality effect provided to the listener may be degraded. Accordingly, there is a need for a binaural rendering related technology that takes into consideration tone preservation and sound image positioning of an input audio signal.
  • An embodiment of the present disclosure provides an audio signal processing apparatus and method for generating an output audio signal according to a desired stereotactic performance and tone preservation performance in binaural rendering an input audio signal to generate an output audio signal.
  • an audio signal processing apparatus for rendering an input audio signal includes a receiver configured to receive the input audio signal, a processor for binaural rendering the input audio signal, and an output audio signal. And an output unit for outputting an output audio signal generated by the same.
  • the processor acquires a first transfer function based on a position of a virtual sound source corresponding to the input audio signal with respect to a listener, and at least one flat having a constant magnitude in the frequency domain. Generate a response, generate a second transfer function based on the first transfer function and the at least one flat response, and binaurally render the input audio signal based on the generated second transfer function to output the An audio signal can be generated.
  • the processor may generate the second transfer function by weighting the first transfer function and the at least one flat response.
  • the processor determines a weighting parameter used for a weighted sum between the first transfer function and the at least one flat response based on binaural effect intensity information corresponding to the input audio signal, and based on the determined weighting parameter. May generate the second transfer function.
  • the processor may generate the second transfer function by weighting the magnitude component and the at least one flat response for each frequency bin based on the weighting parameter.
  • the phase component of the second transfer function corresponding to each frequency bin in the frequency domain may be the same as the phase component of the first transfer function.
  • the processor may determine the panning gain based on a position of a virtual sound source corresponding to the input audio signal with respect to the listener. In addition, the processor may generate the at least one flat response based on the panning gain.
  • the processor may determine the panning gain based on an azimuth value of an interaural polat coordinate point representing a position of the virtual sound source.
  • the processor may convert the vertical polar coordinates representing the position of the virtual sound source into the bipolar polar coordinates, and determine the panning gain based on the azimuth value of the converted bipolar polar coordinates.
  • the processor may generate the at least one flat response based on at least a portion of the first transfer function.
  • the at least one flat response may be an average of magnitude components of the first transfer function corresponding to at least some frequencies.
  • the first transfer function may be one of an ipsilateral HRTF and a contralateral HRTF included in a head related transfer function (HRTF) pair corresponding to a position of a virtual sound source corresponding to the input audio signal.
  • HRTF head related transfer function
  • the processor generates the ipsilateral second transfer function and the contralateral second transfer function based on each of the ipsilateral HRTF and the contralateral HRTF and the at least one flat response, and generates the ipsilateral second transfer function and the contralateral agent.
  • the sum of the energy levels of the two transfer functions may be set to be equal to the sum of the energy levels of the ipsilateral HRTF and the contralateral HRTF.
  • An audio signal processing apparatus may generate an output audio signal based on the first transfer function and the at least one flat response.
  • the processor may generate a first intermediate signal by filtering the input audio signal based on the first transfer function.
  • filtering the input audio signal to generate the first intermediate signal may include generating the first intermediate signal by binaural rendering the input audio signal.
  • the processor may generate a second intermediate signal by filtering the input audio signal based on the at least one flat response.
  • the processor may generate an output audio signal by mixing the first intermediate signal and the second intermediate signal.
  • the processor may determine a mixing gain used for mixing the first intermediate signal and the second intermediate signal.
  • the mixing gain may represent a ratio between the first intermediate signal and the second intermediate signal reflected in the output audio signal.
  • the processor may determine a first mixing gain applied to the first transfer function and a second mixing gain applied to the at least one flat response based on the binaural effect intensity information corresponding to the input signal.
  • the processor may generate an output audio signal by mixing the first transfer function and the at least one flat response based on the first mixing gain and the second mixing gain.
  • An audio signal processing method comprises the steps of: receiving an input audio signal, acquiring a first transfer function based on a position of a virtual sound source corresponding to the input audio signal based on a listener; Generating at least one flat response having a constant magnitude value in the frequency domain, generating a second transfer function based on the first transfer function and the at least one flat response, and generating the generated second transfer function And binaurally rendering the input audio signal to generate an output audio signal, and outputting the generated output audio signal.
  • An audio signal processing apparatus and method may alleviate a tone distortion occurring in a binaural rendering process by using a flat response.
  • the audio signal processing apparatus and method may have the effect of preserving the tone while adjusting the degree of sound localization while utilizing the characteristic indicating the sense of altitude.
  • FIG. 1 is a block diagram illustrating a configuration of an audio signal processing apparatus according to an embodiment of the present disclosure.
  • FIG. 2 illustrates a frequency response of a first transfer function, a second transfer function, and a flat response according to an embodiment of the present disclosure.
  • FIG. 3 is a block diagram illustrating a method of generating, by an audio signal processing apparatus, a second transfer function pair based on the first transfer function pair, according to an embodiment of the present disclosure.
  • FIG. 4 is a diagram illustrating a method of determining a panning gain by an audio signal processing apparatus in a loud speaker environment.
  • FIG. 5 is a diagram illustrating a vertical polar coordinate system and a bipolar polar coordinate system.
  • FIG. 6 illustrates a method in which an audio signal processing apparatus generates an output audio signal using a bipolar polar coordinate system according to another embodiment of the present disclosure.
  • FIG. 7 is a flowchart illustrating a method of operating an audio signal processing apparatus according to an embodiment of the present disclosure.
  • the present disclosure relates to a method in which an audio signal processing apparatus generates an output audio signal by binaural rendering the input audio signal.
  • the audio signal processing apparatus may generate an output audio signal based on a bilateral transfer function pair and a flat response corresponding to the input audio signal.
  • the audio signal processing apparatus according to the exemplary embodiment of the present disclosure may alleviate timber distortion generated in the binaural rendering process by using a flat response.
  • the audio signal processing apparatus according to an embodiment of the present disclosure may provide a listener with various sound environments according to binaural rendering effect strength control using flat response and weighting parameters.
  • FIG. 1 is a block diagram illustrating a configuration of an audio signal processing apparatus 100 according to an embodiment of the present disclosure.
  • the audio signal processing apparatus 100 may include a receiver 110, a processor 120, and an outputter 130. However, not all components shown in FIG. 1 are essential components of the audio signal processing apparatus.
  • the audio signal processing apparatus 100 may further include components not shown in FIG. 1. In addition, at least some of the components of the audio signal processing apparatus 100 illustrated in FIG. 1 may be omitted.
  • the receiver 110 may receive an audio signal.
  • the receiver 110 may receive an input audio signal input to the audio signal processing apparatus 100.
  • the receiver 110 may receive an input audio signal that is a target of binaural rendering by the processor 120.
  • the input audio signal may include at least one of an object signal and a channel signal.
  • the input audio signal may be one object signal or a mono signal.
  • the input audio signal may be a multi object or a multi channel signal.
  • the audio signal processing apparatus 100 may receive an encoded bit stream of an input audio signal.
  • the receiver 110 may be provided with receiving means for receiving an input audio signal.
  • the receiver 110 may include an audio signal input terminal for receiving an input audio signal transmitted by wire.
  • the receiver 110 may include a wireless audio receiving module that receives an audio signal transmitted wirelessly.
  • the receiver 110 may receive an audio signal transmitted wirelessly using a Bluetooth or Wi-Fi communication method.
  • the processor 120 may include one or more processors to control the overall operation of the audio signal processing apparatus 100.
  • the processor 120 may control the operations of the receiver 110 and the outputter 130 by executing at least one program.
  • the processor 120 may execute at least one program to perform an operation of the audio signal processing apparatus 100 described with reference to FIGS. 3 to 6.
  • the processor 120 may generate an output audio signal.
  • the processor 120 may generate an output audio signal by binaural rendering the input audio signal received through the receiver 110.
  • the processor 120 may output an output audio signal through the output unit 130 to be described later.
  • the output audio signal may be a binaural audio signal.
  • the output audio signal may be a two-channel audio signal in which the input audio signal is represented by a virtual sound source located in a three-dimensional space.
  • the processor 120 may perform binaural rendering based on a transfer function pair to be described later.
  • the processor 120 may perform binaural rendering on the time domain or the frequency domain.
  • the processor 120 may generate a two-channel output audio signal by binaurally rendering the input audio signal.
  • the processor 120 may generate a two channel output audio signal corresponding to each of the listeners.
  • the two-channel output audio signal may be a binaural two-channel output audio signal.
  • the processor 120 may generate the audio headphone signal represented on the 3D by performing binaural rendering on the above-described input audio signal.
  • the processor 120 may generate an output audio signal by binaurally rendering the input audio signal based on a transfer functionpair.
  • the transfer function pair may include at least one transfer function.
  • the transfer function pair may include a pair of transfer functions corresponding to the amount of listeners.
  • the transfer function pair may include an ipsilateral transfer function and a contralateral transfer function.
  • the transfer function pair may include an ipsilateral Head Related Transfer Function (HRTF) corresponding to a channel for ipsilateral ear and a contralateral HRTF corresponding to a channel for contralateral ear.
  • HRTF Head Related Transfer Function
  • a transfer function is used as a term representing any one of at least one transfer function included in a transfer function pair.
  • Embodiments described using the transfer function may be equally applied to each of the at least one transfer function.
  • the first transfer function pair includes the ipsilateral first transfer function and the contralateral first transfer function
  • an embodiment using a first transfer function representing either the ipsilateral first transfer function or the contralateral first transfer function This can be explained.
  • Embodiments described using the first transfer function may be applied in the same or corresponding manner to each of the ipsilateral and contralateral first transfer functions.
  • the transfer function may include a binaural transfer function used for binaural rendering of an input audio signal.
  • Transfer functions include HRTF, Interaural Transfer Function (ITF), Modified ITF (MITF), Binaural Room Transfer Function (BRTF), Room Impulse Response (RIR), Binaural Room Impulse Response (BRIR), Head Related Impulse Response (HRIR)
  • HRTF Head Related Impulse Response
  • the binaural transfer function may include a secondary binaural transfer function obtained by linearly combining a plurality of binaural transfer functions.
  • the transfer function may be measured in an anechoic chamber and may include information about the HRTF estimated by the simulation.
  • the simulation techniques used to estimate the HRTF include the spherical head model (SHM), the snowman model, the finite-difference time-domain method (FDTDM), and the boundary element method. Method, BEM) may be at least one.
  • the spherical head model represents a simulation technique for assuming that a human head is a sphere.
  • the Snowman model represents a simulation technique that simulates assuming head and torso as spheres.
  • the transfer function may be a fast Fourier transform of an impulse response (IR), but the transformation method is not limited thereto.
  • the processor 120 may determine the transfer function pair based on the position of the virtual sound source corresponding to the input audio signal.
  • the processor 120 may obtain a transfer function pair from a device (not shown) other than the audio signal processing device 100.
  • the processor 120 may receive at least one transfer function from a database including a plurality of transfer functions.
  • the database may be an external device that stores a set of transfer functions including a plurality of transfer function pairs.
  • the audio signal processing apparatus 100 may include a separate communication unit (not shown) that requests a transfer function to a database and receives information on the transfer function from the database.
  • the processor 120 may obtain a transfer function pair corresponding to the input audio signal based on the transfer function set stored in the audio signal processing apparatus 100.
  • the processor 120 may generate an output audio signal by binaurally rendering the input audio signal based on the transfer function pair obtained by the above-described method. For example, the processor 120 may generate a second transfer function based on the first transfer function and the at least one flat response obtained from the database. In addition, the processor 120 may generate an output audio signal by binaurally rendering the input audio signal based on the generated second transfer function. This will be described later in detail with respect to a method of generating an output audio signal using a flat response.
  • the flat response may be a filter response having a magnitude in the frequency domain.
  • post processing on the output audio signal of the processor 120 may be further performed.
  • Post processing may include crosstalk rejection, dynamic range control (DRC), loudness normalization, peak limiting, and the like.
  • post processing may include frequency / time domain conversion for the output audio signal of the processor 120.
  • the audio signal processing apparatus 100 may include a separate post processing unit that performs post processing, and according to another embodiment, the post processing unit may be included in the processor 120.
  • the output unit 130 may output an output audio signal.
  • the output unit 130 may output an output audio signal generated by the processor 120.
  • the output unit 130 may include at least one output channel.
  • the output audio signal may be a two channel output audio signal corresponding to the amount of listeners respectively.
  • the output audio signal may be a binaural two channel output audio signal.
  • the output unit 130 may output the 3D audio headphone signal generated by the processor 120.
  • the output unit 130 may include output means for outputting an output audio signal.
  • the output unit 130 may include an output terminal for outputting an output audio signal to the outside.
  • the audio signal processing apparatus 100 may output an output audio signal to an external device connected to an output terminal.
  • the output unit 130 may include a wireless audio transmission module that outputs an output audio signal to the outside.
  • the output unit 130 may output an output audio signal to an external device using a wireless communication method such as Bluetooth or Wi-Fi.
  • the output unit 130 may include a speaker.
  • the audio signal processing apparatus 100 may output an output audio signal through a speaker.
  • the output unit 130 may further include a converter (for example, a digital-to-analog converter, DAC) for converting a digital audio signal into an analog audio signal.
  • DAC digital-to-analog converter
  • the audio signal processing apparatus 100 binaurally renders an input audio signal using a binaural transfer function such as the HRTF described above, a tone of an output audio signal compared to an input audio signal This can be distorted. This is because the magnitude component of the binaural transfer function is not constant in the frequency domain.
  • the binaural transfer function may include a binaural cue for identifying the location of the virtual sound source based on the listener.
  • the binaural cue may include a bilateral level difference, a bilateral phase difference, a spectral envelope, a notch component, and a peak component.
  • the tone preservation performance may be deteriorated by the notch component and the peak component of the binaural transfer function.
  • the timbre preservation performance may indicate the extent to which the timbre of the input audio signal is preserved in the output audio signal.
  • the audio signal processing apparatus 100 may mitigate distortion of a tone generated during a binaural rendering process by using a flat response.
  • the audio signal processing apparatus 100 may generate an output audio signal by filtering the input audio signal based on the first transfer function pair and the at least one flat response.
  • the audio signal processing apparatus 100 may obtain the first transfer function pair based on the position of the virtual sound source corresponding to the input audio signal with respect to the listener.
  • the first transfer function pair may be a transfer function pair corresponding to a path from the virtual sound source corresponding to the input audio signal to the listener.
  • the first transfer function pair may be a pair of HRTFs corresponding to positions of virtual sound sources corresponding to input audio signals.
  • the first transfer function pair may include a first transfer function.
  • the audio signal processing apparatus 100 may obtain at least one flat response having a constant magnitude value in the frequency domain.
  • the audio signal processing apparatus 100 may receive at least one flat response from an external device.
  • the audio signal processing apparatus 100 may generate at least one flat response.
  • the at least one flat response may comprise an ipsilateral flat response corresponding to the ipsilateral output channel and a contralateral flat response corresponding to the contralateral output channel.
  • the at least one flat response may include a plurality of flat responses corresponding to a single output channel.
  • the audio signal processing apparatus 100 may divide a frequency domain and use different flat responses for each divided frequency domain.
  • the audio signal processing apparatus 100 may generate a flat response based on a binaural transfer function.
  • the audio signal processing apparatus 100 may generate a flat response based on the panning gain.
  • the audio signal processing apparatus 100 may use the panning gain as the flat response.
  • the audio signal processing apparatus 100 may generate an output audio signal based on the first transfer function pair and the panning gain.
  • the audio signal processing apparatus 100 may determine the panning gain based on the position of the virtual sound source corresponding to the input audio signal based on the listener.
  • the audio signal processing apparatus 100 may generate a flat response in which the panning gain is a constant magnitude value in the frequency domain. A method of determining the panning gain by the audio signal processing apparatus 100 will be described in detail with reference to FIGS. 4 and 5 to be described later.
  • the audio signal processing apparatus 100 may generate a second transfer function pair that filters the input audio signal based on the first transfer function pair and the at least one flat response.
  • the second transfer function pair may include a second transfer function.
  • the audio signal processing apparatus 100 may generate a second transfer function by weighting the first transfer function and at least one flat response.
  • the weighted sum may mean adding and applying a weighting parameter to each object of the weighted sum.
  • the audio signal processing apparatus 100 may generate a second transfer function by weighting the first transfer function and the at least one flat response for each frequency bin.
  • the audio signal processing apparatus 100 may generate a second transfer function by weighting the magnitude component of the first transfer function and the magnitude component of the flat response for each frequency bin.
  • the audio signal processing apparatus 100 may generate an output audio signal by binaural rendering the input audio signal based on the generated second transfer function.
  • the audio signal processing apparatus 100 may determine the degree to which the first transfer function is reflected in the second transfer function using the weighting parameter.
  • the audio signal processing apparatus 100 may be configured based on the weighting parameter.
  • the second transfer function may be generated by weighting the first transfer function and the flat response.
  • the weighting parameter may include a first weighting parameter applied to the first transfer function and a second weighting parameter applied to the flat response.
  • the audio signal processing apparatus 100 may generate a second transfer function by weighting the first transfer function and the flat response based on the first weight parameter and the second weight parameter.
  • the audio signal processing apparatus 100 may generate the second transfer function by applying the first weighting parameter '0.6' to the first transfer function and applying the second weighting parameter '0.4' to the flat response.
  • the audio signal processing apparatus 100 may generate an output audio signal by binaurally rendering the input audio signal based on the second transfer function generated through the weighted sum.
  • the audio signal processing apparatus 100 may generate a second transfer function using a different flat response for each frequency domain.
  • the audio signal processing apparatus 100 may generate a plurality of flat responses including a first flat response and a second flat response.
  • the audio signal processing apparatus 100 weights the first transfer function and the first flat response in the first frequency band, and adds the first transfer function and the second flat response in the second frequency band to the second transfer function. Can be generated.
  • the audio signal processing apparatus 100 may generate a second transfer function having the same phase component as that of the first transfer function corresponding to each frequency.
  • the phase component may include a phase value of a transfer function corresponding to each frequency in the frequency domain.
  • the audio signal processing apparatus 100 may generate a second transfer function by weighting only the magnitude components of each of the first transfer function and the flat response.
  • the audio signal processing apparatus 100 maintains an interaural phase difference (IPD) between the ipsilateral first transfer function and the contralateral first transfer function included in the first transfer function pair.
  • IPD interaural phase difference
  • the phase difference between the two ears may be a characteristic corresponding to an interaural time difference (ITD) representing a time difference in which sound is transmitted from the virtual sound source to each of both ears of the listener.
  • ITD interaural time difference
  • the audio signal processing apparatus 100 may generate a plurality of intermediate audio signals by filtering the input audio signal by each of the first transfer function and the at least one flat response.
  • the audio signal processing apparatus 100 may generate an output audio signal by synthesizing a plurality of intermediate audio signals for each channel.
  • the audio signal processing apparatus 100 may generate a first intermediate audio signal by binaurally rendering the input audio signal based on the first transfer function.
  • the audio signal processing apparatus 100 may generate a second intermediate audio signal by filtering the input audio signal based on at least one flat response.
  • the audio signal processing apparatus 100 may generate an output audio signal by mixing the first intermediate audio signal and the second intermediate audio signal.
  • the audio signal processing apparatus 100 may generate at least one flat response based on at least a portion of the first transfer function.
  • the audio signal processing apparatus 100 may determine the flat response based on the magnitude component of the first transfer function corresponding to at least some frequency.
  • the magnitude component of the transfer function may represent the magnitude component in the frequency domain.
  • the magnitude component may include a magnitude converted in decibel units by taking a log of magnitude values in the frequency domain of the transfer function.
  • the audio signal processing apparatus 100 may use the average value of the magnitude component of the first transfer function as the flat response.
  • the flat response may be expressed as Equation 1 and Equation 2.
  • ave_H_l and ave_H_r may mean left and right flat responses, respectively.
  • abs (H_l (k)) represents the absolute value of each frequency bin of the left first transfer function in the frequency domain
  • abs (H_r (k)) represents the right first transfer function of the right domain in the frequency domain. It can represent an absolute value for each frequency bin.
  • mean (x) may represent an average of the function 'x'.
  • Equation 1 and Equation 2 k denotes a frequency bin number, and N denotes a number of points of a fast fourier transform (FFT).
  • FFT fast fourier transform
  • k may be a frequency bin in a range of 0 to N / 2, but the present disclosure is not limited thereto.
  • k may be a frequency bin of at least a partial range within the entire 0 to N / 2 according to an embodiment to be described later.
  • the audio signal processing apparatus 100 may use the median of the magnitude component of the first transfer function as the flat response. Alternatively, the audio signal processing apparatus 100 may use the average value or the median value of the magnitude component of the first transfer function corresponding to some frequency bins in the frequency domain as the flat response. In this case, the audio signal processing apparatus 100 may determine a frequency bin used to determine the flat response.
  • the audio signal processing apparatus 100 may determine the frequency bin used to determine the flat response based on the magnitude component of the first transfer function.
  • the audio signal processing apparatus 100 may determine some frequency bins having a size included in a preset range among the size components of the first transfer function.
  • the audio signal processing apparatus 100 may determine the flat response based on the magnitude component of the first transfer function corresponding to each of the frequency bins.
  • the preset range may be determined based on at least one of a maximum size value, a minimum size value, or a median value of the first transfer function.
  • the audio signal processing apparatus 100 may determine the frequency bin used to determine the flat response based on the information obtained together with the first transfer function.
  • the audio signal processing apparatus 100 may generate an output audio signal based on the flat response and the first transfer function pair generated based on the above-described embodiments.
  • the audio signal processing apparatus 100 may independently generate ipsilateral and contralateral flat responses.
  • the audio signal processing apparatus 100 may generate a flat response based on each transfer function included in the first transfer function pair.
  • the first transfer function pair may include an ipsilateral first transfer function and a contralateral first transfer function.
  • the audio signal processing apparatus 100 may generate an ipsilateral flat response based on the magnitude component of the ipsilateral first transfer function.
  • the audio signal processing apparatus 100 may generate a contralateral flat response based on the magnitude component of the contralateral first transfer function.
  • the audio signal processing apparatus 100 may generate an ipsilateral second transfer function based on the ipsilateral first transfer function and the ipsilateral flat response.
  • the audio signal processing apparatus 100 may generate the contralateral second transfer function based on the contralateral first transfer function and the contralateral flat response. Next, the audio signal processing apparatus 100 may generate an output audio signal based on the ipsilateral second transfer function and the contralateral second transfer function. In this way, the audio signal device 100 may generate a second pair of transfer functions reflecting an interaural level difference (ILD) between the ipsilateral first transfer function and the contralateral first transfer function.
  • ILD interaural level difference
  • FIG 2 illustrates the frequency response of the first transfer function 21, the second transfer function 22, and the flat response 20 according to one embodiment of the disclosure.
  • the audio signal processing apparatus 100 may generate the second transfer function 22 based on the first transfer function 21 and the flat response 20. 2 shows the magnitude components in the frequency domain of each of the flat response 20, the first transfer function 21 and the second transfer function 22.
  • the flat response 20 may be an average value of the magnitude components of the first transfer function 21.
  • the audio signal processing apparatus 100 may apply the second transfer function 22 based on the first weight parameter applied to the first transfer function 21 and the second weight parameter applied to the flat response 20. Can be generated.
  • the second transfer function 22 shows a weighted result by applying the first weighting parameter '0.5' to the first transfer function and applying the second weighting parameter '0.5' to the flat response 20.
  • the audio signal processing apparatus 100 may provide a second transfer function 22 in which abrupt spectral change is reduced compared to the first transfer function 21.
  • the audio signal processing apparatus 100 may generate a binaural rendered second output audio signal using the second transfer function 22.
  • the audio signal device 100 may provide a second output audio signal having reduced tone distortion compared to the binaural rendered first output audio signal using the first transfer function 21.
  • the form of the frequency response of the second transfer function 22 is similar to that of the first transfer function 21.
  • the audio signal processing apparatus 100 may provide a second output audio signal having reduced tone distortion while maintaining the altitude of the virtual sound source expressed through the first transfer function 21.
  • the audio signal processing apparatus 100 may mitigate the tone distortion of the output audio signal compared to the input audio signal using the flat response.
  • the image localization performance may refer to the degree to which the position of the virtual sound source is expressed in the 3D space with respect to the listener.
  • the binaural cue may include the notch component and the peak component of the binaural transfer function.
  • the audio signal processing apparatus 100 may generate a second transfer function 22 whose notch and peak components are attenuated relative to the first transfer function 21. In this case, the binaural queue of the second transfer function 22 may decrease as the value of the weight parameter applied to the flat response 20 becomes larger than the value of the weight parameter applied to the first transfer function 21. .
  • the audio signal processing apparatus 100 may determine a weighting parameter based on the required sound localization performance or the tone preservation performance.
  • a method in which the audio signal processing apparatus 100 according to an embodiment of the present disclosure generates a second transfer function pair using a weighting parameter will be described with reference to FIG. 3.
  • FIG. 3 is a block diagram illustrating a method of generating, by an audio signal processing apparatus 100, a second transfer function pair based on a first transfer function pair, according to an embodiment of the present disclosure.
  • the audio signal processing apparatus 100 may determine a position of a virtual sound source corresponding to an input audio signal based on a listener. For example, the audio signal processing apparatus 100 may determine a relative position of the virtual sound source based on the listener based on the position information of the virtual sound source corresponding to the input audio signal and the head movement information of the listener. ⁇ , ) Can be determined. At this time, the relative position of the virtual sound source corresponding to the input audio signal is the elevation ( ⁇ ) and the azimuth, Can be expressed as
  • the audio signal processing apparatus 100 may obtain first transfer function pairs Hr and Hl.
  • the audio signal processing apparatus 100 may obtain the first transfer function pairs Hr and Hl based on the position of the virtual sound source corresponding to the input audio signal with respect to the listener.
  • the first transfer function pair Hr and Hl may include a right first transfer function Hr and a left first transfer function Hl.
  • the audio signal processing apparatus 100 may obtain the first transfer function pairs Hr and Hl from a database HRTF DB including a plurality of transfer functions.
  • the audio signal processing apparatus 100 may generate a right flat response and a left flat response based on magnitude components of each of the right first transfer function Hr and the left first transfer function Hl. As illustrated in FIG. 3, the audio signal processing apparatus 100 may generate a right flat response using an average value of the magnitude component of the right first transfer function Hr. Also, the audio signal processing apparatus 100 may generate a left flat response using an average value of the magnitude component of the left first transfer function Hl. The audio signal processing apparatus 100 may independently of the right and left flat responses. Can be created with The audio signal device 100 may generate a second transfer function pair reflecting the level difference ILD between the right first transfer function Hr and the left first transfer function Hl.
  • the audio signal processing apparatus 100 may generate second transfer function pairs Hr_hat and Hl_hat that filter the input audio signal.
  • the second transfer function pair Hr_hat and Hl_hat may include a right second transfer function Hr_hat and a left second transfer function Hl_hat.
  • the audio signal processing apparatus 100 may generate a second transfer function by weighting the first transfer function and at least one flat response.
  • the audio signal processing apparatus 100 may generate a right second transfer function Hr_hat by weighting the right first transfer function Hr acquired in step S302 and the right flat response generated in step S303.
  • the audio signal processing apparatus 100 may generate a left second transfer function Hl_hat by weighting the left first transfer function Hl and the left flat response.
  • the audio signal processing apparatus 100 may determine the weighting parameter based on the binaural effect intensity information.
  • the binaural effect intensity information may be information representing a sound localization performance compared to a tone preservation performance. For example, if the input audio signal includes an audio signal requiring high sound quality, the binaural rendering intensity may be weakened. This is because, in the case of content including an audio signal requiring high sound quality, the tone preservation performance may be more important than the stereotactic performance. Conversely, when the input audio signal includes an audio signal requiring high sound localization performance, the binaural rendering intensity may be strong.
  • the audio signal processing apparatus 100 may obtain binaural effect strength information corresponding to the input audio signal.
  • the audio signal processing apparatus 100 may receive metadata corresponding to the input audio signal.
  • the metadata may include information indicating the binaural effect strength.
  • the audio signal processing apparatus 100 may receive a user input indicating binaural effect intensity information corresponding to the input audio signal.
  • the audio signal processing apparatus 100 may determine a first weighting parameter applied to the first transfer function and a second weighting parameter applied to the flat response based on the binaural effect intensity information. Also, the audio signal processing apparatus 100 may generate a second transfer function by weighting the first transfer function and the flat response based on the first weight parameter and the second weight parameter.
  • the binaural effect intensity information may indicate that binaural rendering is not applied.
  • the audio signal processing apparatus 100 may determine a first weighting parameter applied to the first transfer function as '0' based on the binaural effect strength information. Also, the audio signal processing apparatus 100 may generate an output audio signal by rendering the input audio signal based on the second transfer function equal to the flat response.
  • the binaural effect intensity information may indicate an application degree of the binaural rendering. Specifically, the binaural effect intensity information may be divided into quantized levels. The binaural effect strength information may be divided into 1 to 10 steps. In this case, the audio signal processing apparatus 100 may determine the weighting parameter based on the binaural effect strength information.
  • the audio signal processing apparatus 100 may receive metadata indicating '8' as a binaural effect intensity corresponding to the input audio signal. In addition, the audio signal processing apparatus 100 may obtain information indicating that all stages of the binaural effect intensity are divided into 1 to 10 stages. In this case, the audio signal processing apparatus 100 may determine a first weighting parameter applied to the first transfer function as '0.8'. In addition, the audio signal processing apparatus 100 may determine that the second weighting parameter applied to the flat response is '0.2'. In this case, the sum of the first and second weight parameters may be a preset value. For example, the sum of the first and second weighting parameters may be '1'. The audio signal processing apparatus 100 may generate a second transfer function based on the determined first and second weighting parameters.
  • ' ⁇ ' (alpha) of step S304 is an embodiment of weighting parameters used to weight the flat response and the binaural transfer function.
  • the audio signal processing apparatus 100 may determine ' ⁇ ' as a value between 0 and 1. In this case, the audio signal processing apparatus 100 may generate a second transfer function based on ' ⁇ '.
  • the second transfer function pairs H_l_hat and H_r_hat may be expressed as in Equation 3 below.
  • ave_H_l and ave_H_r may mean left and right flat responses, respectively.
  • abs (H_l (k)) represents the absolute value of the frequency bin of the left first transfer function in the frequency domain
  • abs (H_r (k)) represents the absolute value of the frequency bin of the right first transfer function in the frequency domain. It can represent a value.
  • phase (H_l (k)) represents the phase value of the frequency bin of the left first transfer function in the frequency domain
  • phase (H_r (k)) represents the phase of the frequency bin of the right first transfer function in the frequency domain. It can represent a value.
  • k may represent a frequency bin number.
  • phase component of each of the right second transfer function H_r_hat and the left second transfer function H_l_hat is the phase component H_r of the right first transfer function H_r and the left side as described above. It may be the same as each of the phase component (H_r) of the first transfer function (H_l).
  • the audio signal processing apparatus 100 may determine the weighting parameter ' ⁇ ' based on the binaural effect intensity information corresponding to the input audio signal. For example, in Equation 3, the audio signal processing apparatus 100 may determine “ ⁇ ” as a smaller value as the binaural effect intensity corresponding to the input audio signal increases.
  • the audio signal processing apparatus 100 may generate an output audio signal having better sound localization performance compared to the tone preservation performance. If ' ⁇ ' is 0, the second transfer function may be the same as the first transfer function.
  • the audio signal processing apparatus 100 may generate an output audio signal having a better tone preservation performance compared to the stereotactic positioning performance.
  • ' ⁇ ' this may indicate that binaural rendering is not applied.
  • the audio signal processing apparatus 100 may generate an output audio signal Br and Bl by filtering the input audio signal based on the second transfer function pair Hr_hat and Hl_hat.
  • the audio signal processing apparatus 100 may provide a plurality of binaural transfer functions according to the binaural effect strength using weighting parameters.
  • the audio signal processing apparatus 100 may generate a plurality of second transfer function pairs based on the first transfer function pair and the flat response.
  • the plurality of second transfer function pairs may include a transfer function pair corresponding to the first applied strength and a transfer function pair corresponding to the second applied strength.
  • the first applied strength and the second applied strength may represent different weighting parameters applied to the first transfer function pair when the transfer function pair is generated.
  • the audio signal processing apparatus 100 has been described as generating a second transfer function based on the weighting parameter, but according to another embodiment of the present disclosure, the audio signal processing apparatus 100 may perform the weighting parameter. It is also possible to generate an output audio signal directly on the basis of.
  • the audio signal processing apparatus 100 may generate a first intermediate audio signal by binaurally rendering the input audio signal based on the first transfer function acquired in step S302. Also, the audio signal processing apparatus 100 may generate a second intermediate audio signal by filtering the input audio signal based on the flat response generated in step S303. Thereafter, the audio signal processing apparatus 100 may generate an output audio signal by mixing the first intermediate audio signal and the second intermediate audio signal based on the weighting parameter ' ⁇ ' in step S304.
  • the weighting parameter may be used as a mixing gain representing a ratio between the first intermediate signal and the second intermediate signal reflected in the output audio signal.
  • the audio signal processing apparatus 100 may include a first mixing gain applied to a first transfer function and a second applied to the at least one flat response based on binaural effect intensity information corresponding to an input signal. Mixing gain can be determined. In this case, the audio signal processing apparatus 100 may determine the first mixing gain and the second mixing gain in the same or corresponding manner as the method of determining the first weight parameter and the second weight parameter described in step S304.
  • the energy level of the second transfer function included in the second transfer function pair may be modified.
  • the greater the difference between the energy level of the flat response and the energy level of the first transfer function included in the first transfer function pair the greater the energy level can be modified.
  • the energy level of the output audio signal may be excessively modified compared to the energy level of the input audio signal.
  • the output audio signal can be heard by the listener at an energy level that is excessively large or small compared to the input audio signal.
  • the audio signal processing apparatus 100 may set the sum of the energies of the transfer functions included in the second transfer function pair to be the same as the sum of the energies of transfer functions included in the first transfer function pair.
  • the audio signal processing apparatus 100 may obtain a gain ' ⁇ ' (beta) for energy compensation by adding the sum of the energy of the transfer function included in the second transfer function pair to the sum of the energy of the transfer function included in the first transfer function pair. Can be determined.
  • ' ⁇ ' may be expressed as Equation 4.
  • abs (x) may represent an absolute value for each frequency bin of the transfer function 'x' in the frequency domain.
  • mean (x) may represent an average of the function 'x'.
  • k may represent a frequency bin number
  • N may represent a number of points of the FFT.
  • the audio signal processing apparatus 100 obtains the right second transfer function H_r_hat and the left second transfer function H_l_hat and the gain ' ⁇ ' for energy compensation.
  • the right second transfer function H_r_hat2 and the left second transfer function H_l_hat2 that have been subjected to energy compensation may be obtained based on.
  • k may represent a frequency bin number.
  • the flat response described with reference to FIGS. 1 through 3 may be generated using panning gain.
  • a method of determining the panning gain by the audio signal processing apparatus 100 according to an exemplary embodiment of the present disclosure will be described with reference to FIGS. 4 and 5.
  • FIG. 4 is a diagram illustrating a method of determining a panning gain by the audio signal processing apparatus 100 in a loud speaker environment.
  • the audio signal processing apparatus 100 positions a virtual sound source between two loudspeakers 401 and 402 by using a position where two loudspeakers 401 and 402 are arranged. localization). In this case, the audio signal processing apparatus 100 may position the virtual sound source using the panning gain.
  • the audio signal processing apparatus 100 includes a position between two loudspeakers 401 and 402 positioned about a listener's position (for example, 'O' in FIG. 4).
  • the virtual sound source 400 may be positioned between the two loudspeakers 401 and 402 using the angle.
  • the audio signal processing apparatus 100 may obtain a panning gain for positioning the virtual sound source 400 corresponding to the input audio signal based on the angle between the two loudspeakers 401 and 402. have.
  • the audio signal processing apparatus 100 may provide a listener with a sound effect that an audio signal is output from a virtual sound source through an output audio signal output from two loudspeakers based on a panning gain.
  • the audio signal processing apparatus 100 may position the virtual sound source 400 at a position corresponding to ⁇ p based on a symmetry axis between the centers of the first loudspeaker 401 and the second loudspeaker 402. Can be. At this time, the audio signal processing apparatus 100 is represented as the sound is transmitted from the virtual sound source 400 where the listener is located at ⁇ p through the output of the first loudspeaker 401 and the second loudspeaker 402. An audio signal can be provided.
  • the audio signal processing apparatus 100 may determine panning gains g1 and g2 for positioning the virtual sound source 400 at the ⁇ p position.
  • the panning gains g1 and g2 may be applied to each of the first loudspeaker 401 and the second loudspeaker 402.
  • the audio signal processing apparatus 100 may determine panning gains g1 and g2 using a general panning gain acquisition method.
  • the audio signal processing apparatus 100 may determine the panning gains g1 and g2 using a linear panning method or a constant power panning method.
  • the audio signal processing apparatus 100 may apply a panning gain used in a loudspeaker environment to a headphone environment.
  • the left output channel and the right output channel of the listener's headphone may correspond to the first loudspeaker 401 and the second loudspeaker 402, respectively.
  • the first loudspeaker 401 and the second loudspeaker 402 corresponding to the left output channel and the right output channel of the headphone are respectively positioned at left and right 90 degrees (ie, -90 degrees and +90 degrees) based on the symmetry axis. You can assume that you are in that location.
  • a first output channel (eg, the left output channel of the headphone) is located at left 90 degrees with respect to the axis of symmetry
  • a second output channel (eg, the right output channel of the headphone) is based on the axis of symmetry. It can be positioned at the right 90 degrees.
  • the audio signal processing apparatus 100 may perform a first panning gain g1 and a second panning gain g2 based on a position of a virtual sound source 400 corresponding to an input audio signal based on a listener. Can be determined.
  • the audio signal processing apparatus 100 may obtain the first transfer function pair and the panning gain based on the same position information.
  • Each transfer function included in the first panning gain g1, the second panning gain g2, and the first transfer function pair may be each filter coefficient set obtained based on the same position information.
  • the filter coefficient set may include at least one filter coefficient representing the filter characteristic.
  • the audio signal processing apparatus 100 may obtain respective filter coefficient sets having different characteristics based on the same position information.
  • the first panning gain g1 and the second panning gain g2 may be panning gains for positioning the virtual sound source 400 at a ⁇ p position between the first output channel and the second output channel.
  • the audio signal processing apparatus 100 may generate an output audio signal based on the first transfer function pair and the panning gain.
  • embodiments for generating an output audio signal based on the first pair of transfer functions and at least one flat response may be applied to the method for generating the output audio signal based on the first transfer function pair and the panning gain. .
  • the audio signal processing apparatus 100 may generate at least one flat response based on the panning gain. For example, the audio signal processing apparatus 100 may generate a left flat response based on the first panning gain g1. Also, the audio signal processing apparatus 100 may generate a right flat response based on the second panning gain g2.
  • the audio signal processing apparatus 100 may generate a second transfer function based on the first transfer function and the panning gain.
  • the audio signal processing apparatus 100 may generate a left second transfer function based on the generated left flat response and the left first transfer function.
  • the audio signal processing apparatus 100 may generate a right second transfer function based on the generated right flat response and the right first transfer function.
  • the audio signal processing apparatus 100 may generate an output audio signal by binaurally rendering the input audio signal based on the generated second left transfer function and the right second transfer function.
  • the panning gain may be used as a flat response for generating an output audio signal by mixing the first audio signal generated by filtering the input audio signal based on the first transfer function.
  • the audio signal processing apparatus 100 may generate the second intermediate audio signal by filtering the input audio signal based on the flat response generated based on the panning gain. Also, the audio signal processing apparatus 100 may generate an output audio signal by mixing the first intermediate audio signal and the second intermediate audio signal.
  • the audio signal processing apparatus 100 may determine the first panning gain g1 and the second panning gain g2 through a constant power panning method.
  • the constant power panning method may mean a method in which the sum of powers of the first output channel and the second output channel to which the panning gain is applied is constant.
  • the panning gains g1 and g2 determined using the constant power panning method may be expressed by Equation 6 below.
  • an arbitrary angle ⁇ p between ⁇ 1 and ⁇ 2 may have a value between ⁇ 90 degrees and 90 degrees.
  • p is a value between 0 degrees and 90 degrees according to equation (6).
  • p may be a value converted from ⁇ p to calculate a positive first panning gain g1 and a second panning gain g2 corresponding to a virtual sound source located at ⁇ p between ⁇ 1 and ⁇ 2.
  • the audio signal processing apparatus 100 uses a constant power panning method to determine a panning gain applied to each of the first output channel and the second output channel, but the audio signal processing apparatus 100
  • the method for determining panning gain is not limited thereto.
  • the audio signal processing apparatus 100 may determine the panning gain by using an interaural polar coordinate (IPC). For example, the audio signal processing apparatus 100 may determine the panning gain based on the bi-polar polar coordinate representing the position of the virtual sound source in the bi-polar polar coordinate system. In addition, the audio signal processing apparatus 100 may generate an output audio signal by the method described with reference to FIGS. 1 through 3 using the panning gain determined based on the polar coordinates between the two ears.
  • IPC interaural polar coordinate
  • FIG. 5 is a diagram illustrating a vertical polar coordinate system (VPC) and an interaural polar coordinate system (IPC).
  • VPC vertical polar coordinate system
  • IPC interaural polar coordinate system
  • an object 510 corresponding to an input audio signal may be displayed as a first azimuth 551 and a first elevation 541 in the vertical polar coordinate system 501.
  • the object 510 corresponding to the input audio signal may be displayed as a second azimuth 552 and a second elevation 542 in the bipolar polar coordinate system 502.
  • the object 510 corresponding to the input audio signal may move to the top (z-axis) of the head of the listener 520 while maintaining the azimuth of the vertical polar coordinate system 501.
  • the first elevation angle 541 representing the position of the object 510 corresponding to the input audio signal in the vertical polar coordinate system changes from ⁇ to 90 degrees, and the first azimuth angle 551 is maintained at ⁇ .
  • the second azimuth 552 of the bi-polar polar coordinate representing the position of the object 510 in the bi-polar polar coordinate system 502 may vary.
  • the position of the object corresponding to the input audio signal in the bipolar polar coordinate system is determined.
  • the representing second azimuth angle 552 may vary from ⁇ to 0 degrees.
  • the second elevation angle 542 representing the position of the object corresponding to the input audio signal in the bipolar polar coordinate system may be the same as the first elevation angle 541.
  • the panning gain when the panning gain is determined using the first azimuth 551 of the vertical polar coordinates in the situation where the object 510 moves in the above-described manner, the panning gain does not change so that the listener 520 may move the sound image. It cannot be detected.
  • the panning gain when the panning gain is determined using the second azimuth 552 of bipolar polar coordinates in the situation where the object 510 moves in the above-described manner, the listener 520 moves the sound image due to the change of the panning gain. Can be detected.
  • the panning gain may be determined by reflecting left and right movement on the horizontal plane according to the change of the second azimuth angle 552. This is because when the object 510 moves to the top of the head of the listener 520, the second azimuth 552 of the polar coordinates between the two becomes closer to '0'.
  • the audio signal processing apparatus 100 may determine the panning gain by using the bipolar polar coordinate system.
  • the audio signal processing apparatus 100 may include a second azimuth angle 552 value ⁇ and a second elevation angle 542 value indicating a position of a virtual sound source corresponding to an input audio signal in a bipolar polar coordinate system. ⁇ ) can be obtained.
  • the audio signal processing apparatus 100 may receive metadata including the value ⁇ of the second azimuth angle 552.
  • the metadata may be metadata corresponding to the input audio signal.
  • the audio signal processing apparatus 100 may determine the first panning gain g1 ′ and the second panning gain g2 ′ based on the acquired second azimuth 552 value ⁇ .
  • the first panning gain g1 'and the second panning gain g2' may be expressed by Equation 7.
  • the audio signal processing apparatus 100 may receive location information of a virtual sound source corresponding to an input audio signal and head movement information of a listener as in the embodiment of FIG. 3.
  • the audio signal processing apparatus 100 may include vertical polar coordinates 551 and 541 or two ears representing the relative position of the virtual sound source based on the listener based on the positional information of the virtual sound source and the head movement information of the listener.
  • Polar coordinates 552 and 542 can be calculated.
  • the audio signal processing apparatus 100 may select a sagittal plane or a constant azimuth plane 561 of the bipolar polar coordinate system 502 based on the position of the object 510. You can decide.
  • the digital plane 561 may be a plane parallel to the median plane 560.
  • the center plane 561 may be a plane having a center perpendicular to the horizontal plane and perpendicular to the horizontal plane.
  • the audio signal processing apparatus 100 may set the angle between the point 570 where the digital plane 561 meets the horizontal plane and the center plane 560 as the second azimuth 552 based on the center of the center plane 560. You can decide.
  • the value of the second azimuth angle 552 of the bipolar system may reflect the change in the value of the first elevation angle 541 on the vertical polar coordinate of the object 510 moving in the above-described manner.
  • the audio signal processing apparatus 100 may obtain coordinates indicating a position of a virtual sound source corresponding to the input audio signal in a coordinate system other than the polar coordinate system between the two ears.
  • the audio signal processing apparatus 100 may convert the obtained coordinates into polar coordinates between the two ears.
  • the coordinate system other than the bipolar polar coordinate system may include a vertical polar coordinate system and a rectangular coordinate system.
  • the audio signal processing apparatus 100 may obtain vertical polar coordinates 551 and 541 indicating a position of a virtual sound source corresponding to an input audio signal in the vertical polar coordinate system 501. .
  • the audio signal processing apparatus 100 may convert the first azimuth 551 value and the first elevation angle 541 value of the vertical polar coordinates into the values of the second azimuth angle 552 and the second elevation angle 542 of the polar coordinates. Can be converted to
  • the audio signal processing apparatus 100 may determine the above-described panning gains g1 'and g2' based on the determined second azimuth 552 value. For example, the audio signal processing apparatus 100 may determine the panning gains g1 'and g2' based on the value of the second azimuth 552 using the above-described constant power panning method or linear panning method.
  • the audio signal processing apparatus 100 may generate an output audio signal by binaurally rendering the input audio signal based on the first transfer function pair and the panning gains g1 'and g2' determined through the aforementioned method. have.
  • the audio signal processing apparatus 100 may be the same as the embodiment described with reference to FIGS. 1 and 4 by using the first transfer function pair and the panning gains g1 'and g2' determined through the aforementioned method. It is possible to generate the output audio signal in a corresponding way.
  • the audio signal processing apparatus 100 may generate a second transfer function pair based on the first transfer function pair and the panning gains g1 'and g2'.
  • the audio signal processing apparatus 100 may generate at least one flat response based on the panning gains g1 'and g2'.
  • the audio signal processing apparatus 100 may generate a second transfer function by weighting the first response and the flat response generated based on one of the panning gains g1 'and g2'.
  • the audio signal processing apparatus 100 may use the weighting parameter determined based on the binaural effect intensity information.
  • the audio signal processing apparatus 100 may generate an output audio signal based on the second transfer function pair.
  • the audio signal processing apparatus 100 may generate a plurality of intermediate audio signals by filtering the input audio signal based on the first transfer function pair and the panning gains g1 'and g2'. In this case, the audio signal processing apparatus 100 may generate an output audio signal by synthesizing a plurality of intermediate audio signals for each channel.
  • FIG. 6 illustrates a method in which an audio signal processing apparatus generates an output audio signal using a bipolar polar coordinate system according to another embodiment of the present disclosure.
  • the audio signal processing apparatus 100 may perform interactive rendering using the panning gain described with reference to FIG. 5.
  • the audio signal processing apparatus 100 may generate an output audio signal based on the azimuth angle ⁇ pan value of the polar coordinates between the two ears. For example, the audio signal processing apparatus 100 filters the input audio signal based on the first panning gain g1 'and the second panning gain g2' generated by Equation 7 to output the audio signal B_l, B_r) can be generated. According to an embodiment, the audio signal processing apparatus 100 may obtain the position of the virtual sound source represented by coordinates other than the polar coordinates between the two ears. In this case, the audio signal processing apparatus 100 may convert coordinates other than bipolar bipolar coordinates into bipolar bipolar coordinates. For example, the audio signal processing apparatus 100 may have vertical polar coordinates ⁇ , as shown in FIG. 6. ) Can be converted to bipolar coordinates.
  • FIG. 7 is a flowchart illustrating a method of operating the audio signal processing apparatus 100 according to an embodiment of the present disclosure.
  • the audio signal processing apparatus 100 may receive an input audio signal.
  • the audio signal processing apparatus 100 may generate an output audio signal by binaurally rendering the input audio signal based on the first transfer function pair and the at least one flat response.
  • the audio signal processing apparatus 100 may output the generated output audio signal.
  • the audio signal processing apparatus 100 may generate a second transfer function based on the first transfer function and the at least one flat response.
  • the audio signal processing apparatus 100 may obtain the first transfer function based on the position of the virtual sound source corresponding to the input audio signal with respect to the listener.
  • the audio signal processing apparatus 100 may generate at least one flat response having a constant magnitude value in the frequency domain.
  • the audio signal processing apparatus 100 may generate a second transfer function by weighting the first transfer function and at least one flat response.
  • the audio signal processing apparatus 100 may determine a weighting parameter used for the weighted sum between the first transfer function and the at least one flat response based on the binaural effect intensity information corresponding to the input audio signal.
  • the audio signal processing apparatus 100 may generate a second transfer function based on the determined weight parameter.
  • the audio signal processing apparatus 100 may generate an output audio signal based on the second transfer function generated as described above.
  • the audio signal processing apparatus 100 may generate a second transfer function by weighting the magnitude component of the first transfer function and the at least one flat response for each frequency bin based on the weighting parameter.
  • the phase component of the second transfer function corresponding to each frequency bin in the frequency domain may be the same as the phase component of the first transfer function.
  • the audio signal processing apparatus 100 may generate a flat response based on at least a portion of the first transfer function.
  • the at least one flat response may be an average value of the magnitude components of the first transfer function corresponding to at least some frequencies.
  • the at least one flat response may be a median of the magnitude components of the first transfer function corresponding to at least some frequency bins.
  • the audio signal processing apparatus 100 may generate an output audio signal based on the first transfer function and the panning gain. For example, the audio signal processing apparatus 100 may generate a plurality of intermediate audio signals by filtering the input audio signal based on each of the first transfer function and the panning gain. In addition, the audio signal processing apparatus 100 may generate an output audio signal by mixing a plurality of intermediate audio signals for each channel. Alternatively, the audio signal processing apparatus 100 may generate at least one flat response based on the panning gain. Also, the audio signal processing apparatus 100 may generate a second transfer function based on the generated flat response and the first transfer function.
  • the audio signal processing apparatus 100 may determine the panning gain based on the position of the virtual sound source corresponding to the input audio signal based on the listener. In detail, the audio signal processing apparatus 100 may determine the panning gain by using a predetermined power panning method. In addition, the audio signal processing apparatus 100 may determine the panning gain using polar coordinates between the two ears. The audio signal processing apparatus 100 may determine the panning gain based on the azimuth value of the polar coordinates between the two ears. According to an embodiment, the audio signal processing apparatus 100 may change the vertical polar coordinates indicating the position of the virtual sound source corresponding to the input audio signal into polar coordinates between the two ears.
  • the audio signal processing apparatus 100 may determine the panning gain based on the converted azimuth value of the polar coordinates between the two ears.
  • the azimuth value of the polar coordinate system between the two ears may reflect a change in the elevation angle on the vertical polar coordinate according to the movement of the object.

Abstract

입력 오디오 신호를 렌더링하는 오디오 신호 처리 장치가 개시된다. 오디오 신호 처리 장치는 상기 입력 오디오 신호를 수신하는 수신부, 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는 프로세서 및 상기 프로세서에 의해 생성된 출력 오디오 신호를 출력하는 출력부를 포함한다. 상기 프로세서는, 청취자를 기준으로 상기 입력 오디오 신호에 대응하는 가상의 음원의 위치에 기초하여 제1 전달함수(transfer function)를 획득하고, 주파수 도메인에서 일정한 크기 값(magnitude)을 가지는 적어도 하나의 플랫 응답을 생성하고, 상기 제1 전달함수 및 상기 적어도 하나의 플랫 응답을 기초로 제2 전달함수를 생성하고, 상기 생성된 제2 전달함수를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성한다.

Description

오디오 신호 처리 방법 및 장치
본 개시는 오디오 신호 처리 방법 및 장치에 관한 것으로, 더욱 상세하게는 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 제공하는 오디오 신호 처리 방법 및 장치에 관한 것이다.
HMD(Head Mounted Display) 기기에서 이머시브(immersive) 및 인터렉티브(interactive) 오디오를 제공하기 위해서 바이노럴 렌더링(binaural rendering) 기술이 필수적으로 요구된다. 바이노럴 렌더링은 3차원 공간상에서 임장감 있는 사운드를 제공하는 3D 오디오를 사람의 양귀에 전달되는 신호로 모델링하는 것이다. 청취자는 헤드폰이나 이어폰 등을 통한 바이노럴 렌더링된 2 채널 오디오 출력 신호를 통해서도 입체감을 느낄 수 있다. 바이노럴 렌더링의 구체적인 원리는 다음과 같다. 사람은 언제나 두 귀를 통해 소리를 듣고, 소리를 통해서 음원 위치와 방향을 인식한다. 따라서 3D 오디오를 사람의 두 귀에 전달되는 오디오 신호 형태로 모델링할 수 있다면, 많은 수의 스피커 없이 2 채널 오디오 출력을 통해서도 2D 오디오의 입체감을 재현할 수 있다.
이때, 바이노럴 렌더링의 대상이 되는 오디오 신호가 포함하는 오브젝트(object) 또는 채널 개수가 증가하는 경우, 바이노럴 렌더링에 필요한 연산량 및 전력 소모가 증가할 수 있다. 이에 따라, 연산량 및 전력 소모의 제약이 따르는 모바일 디바이스에서, 입력 오디오 신호에 대한 바이노럴 렌더링을 효율적으로 수행하기 위한 기술이 요구된다.
또한, 오디오 신호 처리 장치가 HRTF(head related transfer function)와 같은 바이노럴 전달함수를 이용하여 입력 오디오 신호를 바이노럴 렌더링하는 경우, 바이노럴 전달함수 특성으로 인한 음색 변화는 음악과 같은 고음질 컨텐츠의 음질 저하요인이 될 수 있다. 고음질이 요구되는 컨텐츠의 음색이 크게 변하는 경우, 청취자에게 제공되는 가상 현실 효과를 저하할 수 있다. 이에 따라, 입력 오디오 신호의 음색 보존 및 음상 정위를 고려하는 바이노럴 렌더링 관련 기술이 요구된다.
본 개시의 일 실시예는 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는데 있어서, 요구되는 음상 정위 성능 및 음색 보존 성능에 따른 출력 오디오 신호를 생성하는 오디오 신호 처리 장치 및 방법을 제공하는 것을 목적으로 한다.
본 발명의 일 실시예에 따라 입력 오디오 신호를 렌더링하는 오디오 신호 처리 장치는, 상기 입력 오디오 신호를 수신하는 수신부, 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는 프로세서 및 상기 프로세서에 의해 생성된 출력 오디오 신호를 출력하는 출력부를 포함한다. 상기 프로세서는, 청취자를 기준으로 상기 입력 오디오 신호에 대응하는 가상의 음원의 위치에 기초하여 제1 전달함수(transfer function)를 획득하고, 주파수 도메인에서 일정한 크기 값(magnitude)을 가지는 적어도 하나의 플랫 응답을 생성하고, 상기 제1 전달함수 및 상기 적어도 하나의 플랫 응답을 기초로 제2 전달함수를 생성하고, 상기 생성된 제2 전달함수를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성할 수 있다.
상기 프로세서는, 상기 제1 전달함수와 상기 적어도 하나의 플랫 응답을 가중합(weighted sum)하여 상기 제2 전달함수를 생성할 수 있다.
상기 프로세서는 상기 입력 오디오 신호에 대응하는 바이노럴 효과 세기 정보를 기초로 상기 제1 전달함수와 상기 적어도 하나의 플랫 응답 사이의 가중합에 이용되는 가중 파라미터를 결정하고, 상기 결정된 가중 파라미터를 기초로 상기 제2 전달함수를 생성할 수 있다.
상기 프로세서는, 상기 가중 파라미터를 기초로 상기 크기 성분과 상기 적어도 하나의 플랫 응답을 주파수 빈(frequency bin) 별로 가중합하여, 상기 제2 전달함수를 생성할 수 있다. 이때, 주파수 도메인에서 각각의 주파수 빈에 대응하는 상기 제2 전달함수의 위상 성분은 상기 제1 전달함수의 위상 성분과 동일할 수 있다.
상기 프로세서는, 상기 청취자를 기준으로 상기 입력 오디오 신호에 대응하는 가상의 음원의 위치를 기초로 상기 패닝 게인을 결정할 수 있다. 또한, 상기 프로세서는, 상기 패닝 게인을 기초로 상기 적어도 하나의 플랫 응답을 생성할 수 있다.
상기 프로세서는, 상기 가상의 음원의 위치를 나타내는 양이간 극좌표(interaural polat coordinate point)의 방위각 값을 기초로 상기 패닝 게인을 결정할 수 있다.
상기 프로세서는, 상기 가상의 음원의 위치를 나타내는 수직 극좌표를 상기 양이간 극 좌표로 변환하고, 상기 변환된 양이간 극좌표의 방위각 값을 기초로 상기 패닝 게인을 결정할 수 있다.
상기 프로세서는, 상기 제1 전달함수의 적어도 일부분을 기초로 상기 적어도 하나의 플랫 응답을 생성할 수 있다. 이때, 상기 적어도 하나의 플랫 응답은 적어도 일부 주파수에 대응하는 상기 제1 전달함수의 크기 성분의 평균일 수 있다.
상기 제1 전달함수는 상기 입력 오디오 신호에 대응하는 가상의 음원의 위치에 대응하는 HRTF(head Related Transfer Function)쌍(pair)이 포함하는 동측 HRTF 및 대측 HRTF 중 어느 하나일 수 있다.
이때, 상기 프로세서는, 상기 동측 HRTF 및 상기 대측 HRTF 각각 및 상기 적어도 하나의 플랫 응답을 기초로 동측 제2 전달함수 및 대측 제2 전달함수 각각을 생성하고, 상기 동측 제2 전달함수 및 상기 대측 제2 전달함수의 에너지 레벨의 합을 상기 동측 HRTF 및 상기 대측 HRTF 의 에너지 레벨의 합과 동일해지도록 설정할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 처리 장치는 상기 제1 전달함수 및 상기 적어도 하나의 플랫 응답을 기초로 출력 오디오 신호를 생성할 수 있다. 상기 프로세서는 상기 제1 전달함수를 기초로 상기 입력 오디오 신호를 필터링하여 제1 중간 신호를 생성할 수 있다. 여기에서, 상기 입력 오디오 신호를 필터링하여 상기 제1 중간 신호를 생성하는 것은 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 제1 중간 신호를 생성하는 것을 포함할 수 있다. 또한, 상기 프로세서는 상기 적어도 하나의 플랫 응답을 기초로 입력 오디오 신호를 필터링하여 제2 중간 신호를 생성할 수 있다.
상기 프로세서는 상기 제1 중간 신호 및 상기 제2 중간 신호를 믹싱(mixing)하여 출력 오디오 신호를 생성할 수 있다. 상기 프로세서는 상기 제1 중간 신호 및 상기 제2 중간 신호의 믹싱에 이용되는 믹싱 게인을 결정할 수 있다. 여기에서, 상기 믹싱 게인은 출력 오디오 신호에 반영되는 상기 제1 중간 신호와 상기 제2 중간 신호 간의 비율을 나타낼 수 있다.
상기 프로세서는 상기 입력 신호에 대응하는 바이노럴 효과 세기 정보를 기초로 상기 제 1 전달함수에 적용되는 제1 믹싱 게인 및 상기 적어도 하나의 플랫 응답에 적용되는 제2 믹싱 게인을 결정할 수 있다. 상기 프로세서는 상기 제1 믹싱 게인 및 상기 제2 믹싱 게인을 기초로 상기 제1 전달함수 및 상기 적어도 하나의 플랫 응답을 믹싱하여 출력 오디오 신호를 생성할 수 있다.
본 발명의 일 실시예에 따른 오디오 신호 처리 방법은, 입력 오디오 신호를 수신하는 단계, 청취자를 기준으로 상기 입력 오디오 신호에 대응하는 가상의 음원의 위치에 기초하여 제1 전달함수를 획득하는 단계, 주파수 도메인에서 일정한 크기 값을 가지는 적어도 하나의 플랫 응답을 생성하는 단계, 상기 제1 전달함수 및 상기 적어도 하나의 플랫 응답을 기초로 제2 전달함수를 생성하는 단계, 상기 생성된 제2 전달함수를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는 단계 및 상기 생성된 출력 오디오 신호를 출력하는 단계를 포함할 수 있다.
본 개시의 실시예에 따른 오디오 신호 처리 장치 및 방법은 플랫 응답을 이용하여 바이노럴 렌더링 과정에서 발생하는 음색 왜곡을 완화할 수 있다. 또한, 오디오 신호 처리 장치 및 방법은 음상 정위 정도를 조절하여 고도감을 나타내는 특징을 살리면서 음색을 보존하는 효과를 가질 수 있다.
도 1은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 구성을 나타내는 블록도 이다.
도 2는 본 개시의 일 실시예에 따른 제1 전달함수, 제2 전달함수 및 플랫 응답의 주파수 응답을 나타낸다.
도 3은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치가 제1 전달함수 쌍을 기초로 제2 전달함수 쌍을 생성하는 방법을 나타내는 블록도이다.
도 4는 라우드 스피커 환경에서 오디오 신호 처리 장치가 패닝 게인을 결정하는 방법을 나타내는 도면이다.
도 5는 수직 극좌표계 및 양이간 극좌표계를 나타내는 도면이다.
도 6은 본 개시의 다른 일 실시예에 따라 오디오 신호 처리 장치가 양이간 극좌표계를 이용하여 출력 오디오 신호를 생성하는 방법을 나타낸다.
도 7은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치의 동작 방법을 나타내는 흐름도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 출원은 대한민국 특허 출원 제10-2017-0018515호(2017.02.10)를 기초로 하는 우선권을 주장하며, 우선권의 기초가 되는 상기 출원에 서술된 실시예 및 기재 사항은 본 출원의 상세한 설명에 포함되는 것으로 한다.
본 개시는 오디오 신호 처리 장치가 입력 오디오 신호를 바이노럴 렌더링(Binaural Rendering)하여 출력 오디오 신호를 생성하는 방법에 관한 것이다. 본 개시의 일 실시예에 따라, 오디오 신호 처리 장치는 입력 오디오 신호에 대응하는 양이간 전달함수 쌍(binaural transfer functionpair) 및 플랫 응답을 기초로 출력 오디오 신호를 생성할 수 있다. 본 개시의 일 실시예에 따른 오디오 신호 처리 장치는 플랫 응답을 이용하여 바이노럴 렌더링 과정에서 발생하는 음색 왜곡(timbre distortion)을 완화할 수 있다. 또한, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치는 플랫 응답 및 가중 파라미터를 이용하여 청취자에게 바이노럴 렌더링 효과 강도 제어(Binaural Rendering Effect Strength Control)에 따른 다양한 사운드 환경을 제공할 수 있다.
이하 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
도 1은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)의 구성을 나타내는 블록도 이다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 수신부(110), 프로세서(120) 및 출력부(130)를 포함할 수 있다. 그러나 도 1에 도시된 구성 요소 모두가 오디오 신호 처리 장치의 필수 구성 요소인 것은 아니다. 오디오 신호 처리 장치(100)는 도 1에 도시되지 않을 구성 요소를 추가로 포함할 수 있다. 뿐만 아니아 도 1에 도시된 오디오 신호 처리 장치(100)의 구성 요소 중 적어도 일부가 생략될 수도 있다.
수신부(110)는 오디오 신호를 수신할 수 있다. 수신부(110)는 오디오 신호 처리 장치(100)로 입력되는 입력 오디오 신호를 수신할 수 있다. 수신부(110)는 프로세서(120)에 의한 바이노럴 렌더링의 대상이 되는 입력 오디오 신호를 수신할 수 있다.
여기에서, 입력 오디오 신호는 오브젝트 신호 또는 채널 신호 중 적어도 하나를 포함할 수 있다. 이때, 입력 오디오 신호는 1개의 오브젝트 신호 또는 모노 신호일 수 있다. 또는 입력 오디오 신호는 멀티 오브젝트 또는 멀티 채널 신호일 수도 있다. 일 실시예에 따라, 오디오 신호 처리 장치(100)가 별도의 디코더를 포함하는 경우, 오디오 신호 처리 장치(100)는 입력 오디오 신호의 부호화된 비트 스트림을 수신할 수도 있다.
일 실시예에 따라, 수신부(110)는 입력 오디오 신호를 수신하기 위한 수신 수단을 구비할 수 있다. 예를 들어, 수신부(110)는 유선으로 전송되는 입력 오디오 신호를 수신하는 오디오 신호 입력 단자를 포함할 수 있다. 또는 수신부(110)는 무선으로 전송되는 오디오 신호를 수신하는 무선 오디오 수신 모듈을 포함할 수 있다. 이 경우, 수신부(110)는 블루투스(bluetooth) 또는 와이파이(Wi-Fi) 통신 방법을 이용하여 무선으로 전송되는 오디오 신호를 수신할 수 있다.
프로세서(120)는 하나 이상의 프로세서를 구비하여, 오디오 신호 처리 장치(100)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(120)는 적어도 하나의 프로그램을 실행함으로써, 수신부(110) 및 출력부(130)의 동작을 제어할 수 있다. 또한, 프로세서(120)는 적어도 하나의 프로그램을 실행하여 후술할 도 3 내지 도 6에서 설명되는 오디오 신호 처리 장치(100)의 동작을 수행할 수 있다.
예를 들어, 프로세서(120)는 출력 오디오 신호를 생성할 수 있다. 프로세서(120)는 수신부(110)를 통해 수신된 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 프로세서(120)는 후술할 출력부(130)를 통해 출력 오디오 신호를 출력할 수 있다.
일 실시예에 따라, 출력 오디오 신호는 바이노럴 오디오 신호일 수 있다. 예를 들어, 출력 오디오 신호는 입력 오디오 신호가 3차원 공간에 위치하는 가상의 음원으로 표현되는 2채널 오디오 신호일 수 있다. 프로세서(120)는 후술할 전달함수 쌍(transfer functionpair)을 기초로 바이노럴 렌더링을 수행할 수 있다. 프로세서(120)는 시간 도메인 또는 주파수 도메인 상에서 바이노럴 렌더링을 수행할 수 있다.
일 실시예에 따라, 프로세서(120)는 입력 오디오 신호를 바이노럴 렌더링하여 2 채널 출력 오디오 신호를 생성할 수 있다. 예를 들어, 프로세서(120)는 청취자의 양이에 각각 대응하는 2 채널 출력 오디오 신호를 생성할 수 있다. 이때, 2 채널 출력 오디오 신호는 바이노럴 2 채널 출력 오디오 신호일 수 있다. 프로세서(120)는 전술한 입력 오디오 신호에 대해 바이노럴 렌더링을 수행하여 3차원 상에 표현되는 오디오 헤드폰 신호를 생성할 수 있다.
일 실시예에 따라, 프로세서(120)는 전달함수 쌍(transfer functionpair)를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 전달함수 쌍은 적어도 하나의 전달함수를 포함할 수 있다. 예를 들어, 전달함수 쌍은 청취자의 양이에 대응하는 한 쌍의 전달함수를 포함할 수 있다. 전달함수 쌍은 동측(ipsilateral) 전달함수 및 대측(contralateral) 전달함수를 포함할 수 있다. 구체적으로, 전달함수 쌍은 동측 귀를 위한 채널에 대응하는 동측 HRTF(Head Related Transfer Function)및 대측 귀를 위한 채널에 대응하는 대측 HRTF를 포함할 수 있다.
이하에서는 설명의 편의를 위해 특별한 기재가 없는 한, 전달함수 쌍이 포함하는 적어도 하나의 전달함수 중에서 어느 하나를 나타내는 용어로 전달함수를 이용한다. 전달함수를 이용하여 설명되는 실시예는 적어도 하나의 전달함수 각각에 대해 동일하게 적용될 수 있다. 예를 들어, 제1 전달함수 쌍이 동측 제1 전달함수 및 대측 제1 전달함수를 포함하는 경우, 동측 제1 전달함수 또는 대측 제1 전달함수 중 어느 하나를 나타내는 제1 전달함수를 이용하여 실시예를 설명할 수 있다. 제1 전달함수를 이용하여 설명되는 실시예는 동측 및 대측 제1 전달함수 각각에 대해 동일 또는 상응하는 방법으로 적용될 수 있다.
본 개시에서, 전달함수는 입력 오디오 신호의 바이노럴 렌더링에 이용되는 바이노럴 전달함수를 포함할 수 있다. 전달함수는 HRTF, ITF(Interaural Transfer Function),MITF(Modified ITF), BRTF(Binaural Room Transfer Function),RIR(Room Impulse Response), BRIR(Binaural Room Impulse Response), HRIR(Head Related Impulse Response) 및 이의 변형 및 편집 된 데이터 중 적어도 하나를 포함할 수 있으며, 본 개시는 이에 한정되지 않는다. 예를 들어, 바이노럴 전달함수는 복수의 바이노럴 전달함수를 선형 결합하여 획득한 2차적 바이노럴 전달함수를 포함할 수 있다.
전달함수는 무향실에서 측정된 것일 수 있으며, 시뮬레이션으로 추정된 HRTF에 관한 정보를 포함할 수 있다. HRTF를 추정하는데 사용되는 시뮬레이션 기법은 구형 헤드 모델(Spherical Head Model, SHM), 스노우맨 모델(snowman model), 유한 차이 시간 영역 기법(Finite-Difference Time-Domain Method, FDTDM) 및 경계 요소법(Boundary Element Method, BEM) 중 적어도 하나일 수 있다. 이때, 구형 헤드 모델은 사람의 머리가 구라고 가정하여 시뮬레이션하는 시뮬레이션 기법을 나타낸다. 또한, 스노우맨 모델은 머리와 몸통을 구로 가정하여 시뮬레이션하는 시뮬레이션 기법을 나타낸다. 전달함수는 IR(Impulse Response)을 고속 푸리에 변환(Fast Fourier Transform)한 것일 수 있으나, 변환 방법은 이에 한정되지 않는다.
일 실시예에 따라, 프로세서(120)는 입력 오디오 신호에 대응하는 가상의 음원의 위치를 기초로 전달함수 쌍을 결정할 수 있다. 이때, 프로세서(120)는 오디오 신호 처리 장치(100)가 아닌 다른 장치(미도시)로부터 전달함수 쌍을 획득할 수 있다. 예를 들어, 프로세서(120)는 복수의 전달함수를 포함하는 데이터 베이스(data base)로부터 적어도 하나의 전달함수를 수신할 수 있다. 데이터 베이스는 복수의 전달함수 쌍을 포함하는 전달함수 세트를 저장하는 외부의 장치일 수 있다. 이때, 오디오 신호 처리 장치(100)는 데이터 베이스로 전달함수를 요청하고, 데이터 베이스로부터 전달함수에 대한 정보를 수신하는 별도의 통신부(미도시)를 포함할 수도 있다. 또는 프로세서(120)는 오디오 신호 처리 장치(100)에 저장된 전달함수 세트를 기초로 입력 오디오 신호에 대응하는 전달함수 쌍을 획득할 수도 있다.
일 실시예에 따라, 프로세서(120)는 전술한 방법으로 획득한 전달함수 쌍을 기초로 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 예를 들어, 프로세서(120)는 데이터 베이스로부터 획득한 제1 전달함수 및 적어도 하나의 플랫 응답을 기초로 제2 전달함수를 생성할 수 있다. 또한, 프로세서(120)는 생성된 제2 전달함수를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 이에 대해서는, 플랫 응답을 이용하여 출력 오디오 신호를 생성하는 방법과 관련하여 구체적으로 후술한다. 플랫 응답은 주파수 도메인에서 일정한 크기 값(magnitude)을 가지는 필터 응답일 수 있다.
일 실시예에 따라, 프로세서(120)의 출력 오디오 신호에 대한 포스트 프로세싱이 추가로 수행될 수 있다. 포스트 프로세싱에는 크로스톡 제거, DRC(Dynamic Range Control), 음량 정규화, 피크 제한 등이 포함될 수 있다. 또한, 포스트 프로세싱은 프로세서(120)의 출력 오디오 신호에 대한 주파수/시간 도메인 변환을 포함할 수 있다. 오디오 신호 처리 장치(100)는 포스트 프로세싱을 수행하는 별도의 포스트 프로세싱부를 포함할 수 있으며, 다른 실시예에 따라 포스트 프로세싱부는 프로세서(120)에 포함될 수도 있다.
출력부(130)는 출력 오디오 신호를 출력할 수 있다. 출력부(130)는 프로세서(120)에 의해 생성된 출력 오디오 신호를 출력할 수 있다. 출력부(130)는 적어도 하나의 출력 채널을 포함할 수 있다. 여기에서, 출력 오디오 신호는 청취자의 양이에 각각 대응하는 2 채널 출력 오디오 신호일 수 있다. 출력 오디오 신호는 바이노럴 2 채널 출력 오디오 신호일 수 있다. 출력부(130)는 프로세서(120)에 의해 생성된 3D 오디오 헤드폰 신호를 출력할 수 있다.
일 실시예에 따라, 출력부(130)는 출력 오디오 신호를 출력하는 출력 수단을 구비할 수 있다. 예를 들어, 출력부(130)는 출력 오디오 신호를 외부로 출력하는 출력 단자를 포함할 수 있다. 이때, 오디오 신호 처리 장치(100)는 출력 단자에 연결된 외부 장치로 출력 오디오 신호를 출력할 수 있다. 또는 출력부(130)는 출력 오디오 신호를 외부로 출력하는 무선 오디오 송신 모듈을 포함할 수 있다. 이 경우, 출력부(130)는 블루투스 또는 와이파이와 같은 무선 통신 방법을 이용하여 외부 장치로 출력 오디오 신호를 출력할 수 있다. 또는 출력부(130)는 스피커를 포함할 수 있다. 이때, 오디오 신호 처리 장치(100)는 스피커를 통해 출력 오디오 신호를 출력할 수 있다. 또한, 출력부(130)는 디지털 오디오 신호를 아날로그 오디오 신호로 변환하는 컨버터(예를 들어, digital-to-analog converter, DAC)를 추가적으로 포함할 수 있다.
본 개시의 일 실시예에 따라, 오디오 신호 처리 장치(100)가 전술한 HRTF와 같은 바이노럴 전달함수를 이용하여 입력 오디오 신호를 바이노럴 렌더링하는 경우, 입력 오디오 신호 대비 출력 오디오 신호의 음색이 왜곡될 수 있다. 주파수 도메인에서 바이노럴 전달함수의 크기 성분이 일정하지 않기 때문이다.
예를 들어, 바이노럴 전달함수는 청취자를 기준으로 가상의 음원의 위치를 식별하게 하는 바이노럴 큐(binaural cue)를 포함할 수 있다. 구체적으로, 바이노럴 큐는 양이간 레벨 차이, 양이간 위상 차이, 스펙트럴 인벨로프(spectral envelope), 노치(notch) 성분 및 피크(peak) 성분을 포함할 수 있다. 이때, 바이노럴 전달함수의 노치 성분 및 피크 성분에 의해 음색 보존 성능이 저하될 수 있다. 여기에서, 음색 보존 성능은 입력 오디오 신호의 음색이 출력 오디오 신호에서 보존되는 정도를 나타낼 수 있다.
특히 입력 오디오 신호에 대응하는 가상의 음원의 위치가 청취자를 기준으로 하는 수평 평면(horizontal plane)으로부터 멀어질수록(이를테면, 앙각(elevation)이 커질 수록) 음색의 변화가 증가할 수 있다. 본 개시의 일 실시예에 따라, 오디오 신호 처리 장치(100)는 플랫 응답을 이용하여 바이노럴 렌더링 과정에서 발생하는 음색의 왜곡을 완화할 수 있다.
이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 플랫 응답을 이용하여 출력 오디오 신호를 생성하는 방법에 대해 설명한다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 제1 전달함수 쌍 및 적어도 하나의 플랫 응답을 기초로 입력 오디오 신호를 필터링하여 출력 오디오 신호를 생성할 수 있다. 이때, 오디오 신호 처리 장치(100)는 청취자를 기준으로 입력 오디오 신호에 대응하는 가상의 음원의 위치에 기초하여, 제1 전달함수 쌍을 획득할 수 있다. 예를 들어, 제1 전달함수 쌍은 입력 오디오 신호에 대응하는 가상의 음원으로부터 청취자까지의 경로에 대응하는 전달함수 쌍일 수 있다. 구체적으로, 제1 전달함수 쌍은 입력 오디오 신호에 대응하는 가상의 음원의 위치에 대응하는 한 쌍의 HRTF일 수 있다. 제1 전달함수 쌍은 제1 전달함수를 포함할 수 있다.
또한, 오디오 신호 처리 장치(100)는 주파수 도메인에서 일정한 크기 값을 가지는 적어도 하나의 플랫 응답을 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 외부 장치로부터 적어도 하나의 플랫 응답을 수신할 수 있다. 또는 오디오 신호 처리 장치(100)는 적어도 하나의 플랫 응답을 생성할 수도 있다. 여기에서, 적어도 하나의 플랫 응답은 동측 출력 채널에 대응하는 동측 플랫 응답 및 대측 출력 채널에 대응하는 대측 플랫 응답을 포함할 수 있다. 또는 적어도 하나의 플랫 응답은 단일의 출력 채널에 대응하는 복수의 플랫 응답을 포함할 수도 있다. 이때, 오디오 신호 처리 장치(100)는 주파수 영역을 분할하여 각각의 분할된 주파수 영역 별로 서로 다른 플랫 응답을 이용할 수 있다.
예를 들어, 오디오 신호 처리 장치(100)는 바이노럴 전달함수를 기초로 플랫 응답을 생성할 수 있다. 또는 일 실시예에 따라, 오디오 신호 처리 장치(100)는 패닝 게인을 기초로 플랫 응답을 생성할 수 있다. 오디오 신호 처리 장치(100)는 패닝 게인을 플랫 응답으로 사용할 수 있다. 오디오 신호 처리 장치(100)는 제1 전달함수 쌍 및 패닝 게인을 기초로 출력 오디오 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 청취자를 기준으로 입력 오디오 신호에 대응하는 가상의 음원의 위치를 기초로 패닝 게인을 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 패닝 게인을 주파수 도메인에서의 일정한 크기 값으로 하는 플랫 응답을 생성할 수 있다. 오디오 신호 처리 장치(100)가 패닝 게인을 결정하는 방법에 관해서는, 후술할 도 4 및 도 5와 관련하여 구체적으로 설명한다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 제1 전달함수 쌍 및 적어도 하나의 플랫 응답을 기초로 입력 오디오 신호를 필터링하는 제2 전달함수 쌍을 생성할 수 있다. 제2 전달함수 쌍은 제2 전달함수를 포함할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 제1 전달함수와 적어도 하나의 플랫 응답을 가중합하여 제2 전달함수를 생성할 수 있다. 여기에서, 가중합은 가중합의 대상 각각에 대해 가중 파라미터를 적용하여 더하는 것을 의미할 수 있다.
구체적으로, 오디오 신호 처리 장치(100)는 제1 전달함수와 적어도 하나의 플랫 응답을 주파수 빈(frequency bin) 별로 가중합하여 제2 전달함수를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 제1 전달함수의 크기 성분과 플랫 응답의 크기 성분을 주파수 빈 별로 가중합하여 제2 전달함수를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 생성된 제2 전달함수를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 가중 파라미터를 이용하여 제2 전달함수에 제1 전달함수가 반영되는 정도를 결정할 수 있다.오디오 신호 처리 장치(100)는 가중 파라미터를 기초로 제1 전달함수와 플랫 응답을 가중합하여 제2 전달함수를 생성할 수 있다.
예를 들어, 가중 파라미터는 제1 전달함수에 적용되는 제1 가중 파라미터 및 플랫 응답에 적용되는 제2 가중 파라미터를 포함할 수 있다. 이때, 오디오 신호 처리 장치(100)는 제1 가중 파라미터 및 제2 가중 파라미터를 기초로 제1 전달함수와 플랫응답을 가중합하여 제2 전달함수를 생성할 수 있다. 구체적으로, 오디오 신호 처리 장치(100)는 제1 전달함수에 제1 가중 파라미터 ‘0.6’을 적용하고, 플랫 응답에 제2 가중 파라미터 ‘0.4’ 적용하여 제2 전달함수를 생성할 수 있다. 이때, 오디오 신호 처리 장치(100)가 가중 파라미터를 결정하는 방법에 대해서는 후술할 도 3을 통해 구체적으로 설명한다. 오디오 신호 처리 장치(100)는 가중합을 통해 생성된 제2 전달함수를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 주파수 영역 별로 다른 플랫 응답을 이용하여 제2 전달함수를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 제1 플랫 응답 및 제2 플랫 응답을 포함하는 복수의 플랫 응답을 생성할 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 제1 주파수 대역에서 제1 전달함수 및 제1 플랫 응답을 가중합하고, 제2 주파수 대역에서 제1 전달함수 및 제2 플랫 응답을 가중합하여 제2 전달함수를 생성할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 각각의 주파수에 대응하는 제1 전달함수의 위상 성분과 동일한 위상 성분을 가지는 제2 전달함수를 생성할 수 있다. 이때, 위상 성분은 주파수 도메인에서 각각의 주파수에 대응하는 전달함수의 위상 값을 포함할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 제1 전달함수 및 플랫 응답 각각의 크기 성분에 대해서만 가중합하여 제2 전달함수를 생성할 수 있다. 이를 통해, 오디오 신호 처리 장치(100)는 제1 전달함수 쌍이 포함하는 동측 제1 전달함수와 대측 제1 전달함수의 양이간 위상 차이(Interaural Phase Difference, IPD)를 유지하는 제2 전달함수 쌍을 생성할 수 있다. 이때, 양이간 위상 차이는 가상의 음원으로부터 청취자의 양쪽 귀 각각에 음향이 전달되는 시간의 차이를 나타내는 양이간 시간 차이(Interaural Time Difference, ITD)에 대응하는 특성일 수 있다.
다른 일실시예에 따라, 오디오 신호 처리 장치(100)는 입력 오디오 신호를 제1 전달함수 및 적어도 하나의 플랫 응답 각각으로 필터링하여 복수의 중간 오디오 신호를 생성할 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 복수의 중간 오디오 신호를 채널 별로 합성하여 출력 오디오 신호를 생성할 수도 있다. 구체적으로, 오디오 신호 처리 장치(100)는 제1 전달함수를 기초로 입력 오디오 신호를 바이노럴 렌더링 하여 제1 중간 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 적어도 하나의 플랫 응답을 기초로 입력 오디오 신호를 필터링하여 제2 중간 오디오 신호를 생성할 수 있다. 다음으로, 오디오 신호 처리 장치(100)는 제1 중간 오디오 신호 및 제2 중간 오디오 신호를 믹싱(mixing)하여 출력 오디오 신호를 생성할 수 있다.
이하에서는, 본 개시의 일 실시예에 따라 오디오 신호 처리 장치(100)가 바이노럴 전달함수를 기초로 플랫 응답을 생성하는 방법에 대해 설명한다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 제1 전달함수의 적어도 일부분을 기초로 적어도 하나의 플랫 응답을 생성할 수 있다. 이때, 오디오 신호 처리 장치(100)는 적어도 일부 주파수에 대응하는 제1 전달함수의 크기 성분을 기초로 플랫 응답을 결정할 수 있다. 이때, 전달함수의 크기 성분은 주파수 도메인에서의 크기 성분을 나타낼 수 있다. 또한, 크기 성분은 전달 함수의 주파수 도메인에서의 크기 값에 log를 취하여 데시벨(decibel) 단위로 변환된 크기를 포함할 수 있다.
예를 들어, 오디오 신호 처리 장치(100)는 제1 전달함수의 크기 성분의 평균값을 플랫 응답으로 사용할 수 있다. 이때, 플랫 응답은 수학식 1 및 수학식 2와 같이 표현될 수 있다. 수학식 1 및 수학식 2에서 ave_H_l 및 ave_H_r은 각각 좌측 및 우측 플랫 응답을 의미할 수 있다. 수학식 1 및 수학식 2에서 abs(H_l(k))는 주파수 도메인에서 좌측 제1 전달함수의 주파수 빈 별 절대값을 나타내고, abs(H_r(k))는 주파수 도메인에서 우측 제1 전달함수의 주파수 빈 별 절대값을 나타낼 수 있다. 수학식 1 및 수학식 2에서 mean(x)는 함수 ‘x’의 평균을 나타낼 수 있다. 또한, 수학식 1 및 수학식 2에서 k는 주파수 빈 번호(frequency bin number)를 의미하고, N은 FFT(fast fourier transform)의 포인트 수를 나타낼 수 있다. 오디오 신호 처리 장치(100)는 좌측 및 우측 플랫 응답을 기초로 각각 청취자의 좌/우측 귀에 각각 대응하는 출력 오디오 신호를 생성할 수 있다.
Figure PCTKR2018001833-appb-M000001
여기서, k는 0<=k<=N/2인 정수
Figure PCTKR2018001833-appb-M000002
여기서, k는 0<=k<=N/2인 정수
수학식 1 및 수학식 2의 실시예에서, k는 0~N/2 범위의 주파수 빈이 될 수 있으나, 본 개시는 이에 한정되지 않는다. 예를 들어, k는 후술할 실시예에 따라, 전체 0~N/2 내에서 적어도 일부 범위의 주파수 빈이 될 수도 있다.
수학식 1 및 수학식 2와 달리, 오디오 신호 처리 장치(100)는 제1 전달함수의 크기 성분의 중앙값(median)을 플랫 응답으로 사용할 수도 있다. 또는 오디오 신호 처리 장치(100)는 주파수 도메인에서 일부 주파수 빈에 대응하는 제1 전달함수의 크기 성분의 평균값 또는 중앙값을 플랫 응답으로 사용할 수 있다. 이때, 오디오 신호 처리 장치(100)는 플랫 응답을 결정하기 위해 이용되는 주파수 빈을 결정할 수 있다.
예를 들어, 오디오 신호 처리 장치(100)는 제1 전달함수의 크기 성분을 기초로 플랫 응답을 결정하기 위해 사용되는 주파수 빈을 결정할 수 있다. 오디오 신호 처리 장치(100)는 제1 전달함수의 크기 성분 중에서 기 설정된 범위에 포함되는 크기를 가지는 일부 주파수 빈을 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 일부 주파수 빈 각각에 대응하는 제1 전달함수의 크기 성분을 기초로 플랫 응답을 결정할 수 있다. 이때, 기 설정된 범위는 제1 전달함수의 최대 크기 값, 최소 크기 값 또는 중간값 중 적어도 하나를 기초로 결정될 수 있다. 또는 오디오 신호 처리 장치(100)는 제1 전달함수와 함께 획득한 정보를 기초로 플랫 응답을 결정하기 위해 사용되는 주파수 빈을 결정할 수도 있다.
또한, 오디오 신호 처리 장치(100)는 전술한 실시예들에 기초하여 생성된 플랫 응답 및 제1 전달함수 쌍을 기초로 출력 오디오 신호를 생성할 수 있다.
한편, 일 실시예에 따라, 오디오 신호 처리 장치(100)는 동측 및 대측 플랫 응답을 독립적으로 생성할 수 있다. 오디오 신호 처리 장치(100)는 제1 전달함수 쌍이 포함하는 전달함수 각각을 기초로 플랫 응답을 생성할 수 있다. 예를 들어, 제1 전달함수 쌍은 동측 제1 전달함수 및 대측 제1 전달함수를 포함할 수 있다. 오디오 신호 처리 장치(100)는 동측 제1 전달함수의 크기 성분을 기초로 동측 플랫 응답을 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 대측 제1 전달함수의 크기 성분을 기초로 대측 플랫 응답을 생성할 수 있다. 다음으로, 오디오 신호 처리 장치(100)는 동측 제1 전달함수 및 동측 플랫 응답을 기초로 동측 제2 전달함수를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 대측 제1 전달함수 및 대측 플랫 응답을 기초로 대측 제2 전달함수를 생성할 수 있다. 다음으로, 오디오 신호 처리 장치(100)는 동측 제2 전달함수 및 대측 제2 전달함수를 기초로 출력 오디오 신호를 생성할 수 있다. 이를 통해, 오디오 신호 장치(100)는 동측 제1 전달함수와 대측 제1 전달함수 사이의 양이간 레벨 차이(interaural level difference, ILD)를 반영하는 제2 전달함수 쌍을 생성할 수 있다.
도 2는 본 개시의 일 실시예에 따른 제1 전달함수(21), 제2 전달함수(22) 및 플랫 응답(20)의 주파수 응답을 나타낸다.
도 2의 실시예에서, 오디오 신호 처리 장치(100)는 제1 전달함수(21) 및 플랫 응답(20)을 기초로 제2 전달함수(22)를 생성할 수 있다. 도 2는 플랫 응답(20), 제1 전달함수(21) 및 제2 전달함수(22) 각각의 주파수 도메인에서 크기 성분을 보여준다. 여기에서, 플랫 응답(20)은 제1 전달함수(21)의 크기 성분의 평균값일 수 있다. 전술한 바와 같이 오디오 신호 처리 장치(100)는 제1 전달함수(21)에 적용되는 제1 가중 파라미터 및 플랫 응답(20)에 적용되는 제2 가중 파라미터를 기초로 제2 전달함수(22)를 생성할 수 있다.
도 2에서, 제2 전달함수(22)는 제1 전달함수에 제1 가중 파라미터 ‘0.5’를 적용하고, 플랫 응답(20)에 제2 가중 파라미터 ‘0.5’를 적용하여 가중합한 결과를 나타낸다. 도 2를 참조하면, 오디오 신호 처리 장치(100)는 제1 전달함수(21)에 비해 급격한 스펙트럼 변화가 완화된 제2 전달함수(22)를 제공할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제2 전달함수(22)를 이용하여 바이노럴 렌더링된 제2 출력 오디오 신호를 생성할 수 있다. 이때, 오디오 신호 장치(100)는 제1 전달함수(21)를 이용하여 바이노럴 렌더링된 제1 출력 오디오 신호에 비해 음색 왜곡이 감소된 제2 출력 오디오 신호를 제공할 수 있다.
또한, 도 2를 참조하면 제2 전달함수(22)의 주파수 응답의 형태는 제1 전달함수(21)의 주파수 응답의 형태와 유사하다. 이를 통해, 오디오 신호 처리 장치(100)는 제1 전달함수(21)를 통해 표현되는 가상의 음원의 고도감을 유지하면서 음색 왜곡이 감소된 제2 출력 오디오 신호를 제공할 수 있다.
한편, 오디오 신호 처리 장치(100)가 플랫 응답을 이용하여 입력 오디오 신호 대비 출력 오디오 신호의 음색 왜곡을 완화시키는 경우, 음상 정위 성능이 감소될 수 있다. 여기에서, 음상 정위 성능은 청취자를 기준으로 하는 3차원 공간에서 가상의 음원의 위치가 표현되는 정도를 의미할 수 있다. 바이노럴 전달함수를 플랫 응답과 가중합하는 경우, 바이노럴 전달함수의 바이노럴 큐가 감소될 수 있기 때문이다. 전술한 바와 같이, 바이노럴 큐는 바이노럴 전달함수의 노치 성분 및 피크 성분을 포함할 수 있다. 도 2에 도시된 바와 같이, 오디오 신호 처리 장치(100)는 노치 성분 및 피크 성분이 제1 전달함수(21)에 비해 감쇠된 제2 전달함수(22)를 생성할 수 있다. 이때, 플랫 응답(20)에 적용되는 가중 파라미터의 값이 제1 전달함수(21)에 적용되는 가중 파라미터의 값에 비해 커질수록 제2 전달함수(22)의 바이노럴 큐는 감소될 수 있다.
본 개시의 일 실시예에 따라, 오디오 신호 처리 장치(100)는 요구되는 음상 정위 성능 또는 음색 보존 성능을 기초로 가중 파라미터를 결정할 수 있다. 이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 가중 파라미터를 이용하여 제2 전달함수 쌍을 생성하는 방법에 관하여 도 3을 참조하여 설명한다.
도 3은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 제1 전달함수 쌍을 기초로 제2 전달함수 쌍을 생성하는 방법을 나타내는 블록도이다.
도 3을 참조하면, 단계 S301에서, 오디오 신호 처리 장치(100)는 청취자를 기준으로 입력 오디오 신호에 대응하는 가상의 음원의 위치를 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 입력 오디오 신호에 대응하는 가상의 음원의 위치 정보 및 청취자의 머리 움직임 정보(head movement information)를 기초로 청취자를 기준으로 하는 가상의 음원의 상대적인 위치(θ,
Figure PCTKR2018001833-appb-I000001
)를 결정할 수 있다. 이때, 입력 오디오 신호에 대응하는 가상의 음원의 상대적인 위치는 앙각(elevation, θ) 및 방위각(azimuth,
Figure PCTKR2018001833-appb-I000002
)으로 표현될 수 있다.
단계 S302에서, 오디오 신호 처리 장치(100)는 제1 전달함수 쌍(Hr, Hl)을 획득할 수 있다. 오디오 신호 처리 장치(100)는 청취자를 기준으로 입력 오디오 신호에 대응하는 가상의 음원의 위치에 기초하여 제1 전달함수 쌍(Hr, Hl)을 획득할 수 있다. 이때, 제1 전달함수 쌍(Hr, Hl)을 우측 제1 전달함수(Hr) 및 좌측 제1 전달함수(Hl)를 포함할 수 있다. 오디오 신호 처리 장치(100)는 앞서 설명한 바와 같이, 복수의 전달함수를 포함하는 데이터 베이스(HRTF DB)로부터 제1 전달함수 쌍(Hr, Hl)을 획득할 수 있다.
단계 S303에서, 오디오 신호 처리 장치(100)는 우측 제1 전달함수(Hr) 및 좌측 제1 전달함수(Hl) 각각의 크기 성분을 기초로 우측 플랫 응답 및 좌측 플랫 응답을 생성할 수 있다. 도 3에 도시된 바와 같이, 오디오 신호 처리 장치(100)는 우측 제1 전달함수(Hr)의 크기 성분의 평균값을 이용하여 우측 플랫 응답을 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 좌측 제1 전달함수(Hl)의 크기 성분의 평균값을 이용하여 좌측 플랫 응답을 생성할 수 있다.오디오 신호 처리 장치(100)는 우측 및 좌측 플랫 응답을 독립적으로 생성할 수 있다. 오디오 신호 장치(100)는 우측 제1 전달함수(Hr) 및 좌측 제1 전달함수(Hl) 간의 양이간 레벨 차이(ILD)를 반영하는 제2 전달함수 쌍을 생성할 수 있다.
단계 S304에서, 오디오 신호 처리 장치(100)는 입력 오디오 신호를 필터링하는 제2 전달함수 쌍(Hr_hat, Hl_hat)을 생성할 수 있다. 제2 전달함수 쌍(Hr_hat, Hl_hat)은 우측 제2 전달함수(Hr_hat) 및 좌측 제2 전달함수(Hl_hat)를 포함할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 제1 전달함수와 적어도 하나의 플랫 응답을 가중합하여 제2 전달함수를 생성할 수 있다. 오디오 신호 처리 장치(100)는 단계 S302에서 획득한 우측 제1 전달함수(Hr)와 단계 S303에서 생성된 우측 플랫 응답을 가중합하여 우측 제2 전달함수(Hr_hat)를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 좌측 제1 전달함수(Hl)와 좌측 플랫 응답을 가중합하여 좌측 제2 전달함수(Hl_hat)를 생성할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 바이노럴 효과 세기 정보를 기초로 가중 파라미터를 결정할 수 있다. 여기에서, 바이노럴 효과 세기 정보는 음색 보존 성능 대비 음상 정위 성능을 나타내는 정보일 수 있다. 예를 들어, 입력 오디오 신호가 고음질이 요구되는 오디오 신호를 포함하는 경우, 바이노럴 렌더링 강도는 약해질 수 있다. 고음질이 요구되는 오디오 신호를 포함하는 컨텐츠의 경우, 음색 보존 성능이 음상 정위 성능에 비해 중요할 수 있기 때문이다. 반대로, 입력 오디오 신호가 높은 음상 정위 성능이 요구되는 오디오 신호를 포함하는 경우, 바이노럴 렌더링 강도는 강해질 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 입력 오디오 신호에 대응하는 바이노럴 효과 세기 정보를 획득할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 입력 오디오 신호에 대응하는 메타데이터를 수신할 수 있다. 이때, 메타데이터는 바이노럴 효과 세기를 나타내는 정보를 포함할 수 있다. 또는 오디오 신호 처리 장치(100)는 입력 오디오 신호에 대응하는 바이노럴 효과 세기 정보를 나타내는 사용자 입력을 수신할 수도 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 바이노럴 효과 세기 정보를 기초로 제1 전달함수에 적용되는 제1 가중 파라미터 및 플랫 응답에 적용되는 제2 가중 파라미터를 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제1 가중 파라미터 및 제2 가중 파라미터를 기초로 제1 전달함수와 플랫응답을 가중합하여 제2 전달함수를 생성할 수 있다.
일 실시예에 따라, 바이노럴 효과 세기 정보는 바이노럴 렌더링이 적용되지 않음을 나타낼 수 있다. 이때 오디오 신호 처리 장치(100)는 바이노럴 효과 세기 정보를 기초로 제1 전달함수에 적용되는 제1 가중 파라미터를 ‘0’으로 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 플랫 응답과 동일한 제2 전달함수에 기초하여 입력 오디오 신호를 렌더링하여 출력 오디오 신호를 생성할 수 있다.
또한, 바이노럴 효과 세기 정보는 바이노럴 렌더링의 적용 정도를 나타낼 수 있다. 구체적으로, 바이노럴 효과 세기 정보는 양자화된 레벨로 구분될 수 있다. 바이노럴 효과 세기 정보는 1~10단계로 구분될 수도 있다. 이때, 오디오 신호 처리 장치(100)는 바이노럴 효과 세기 정보를 기초로 가중 파라미터를 결정할 수 있다.
구체적인 실시예에서, 오디오 신호 처리 장치(100)는 입력 오디오 신호에 대응하는 바이노럴 효과 세기로 ‘8’을 나타내는 메타데이터를 수신할 수 있다. 또한, 오디오 신호 처리 장치(100)는 바이노럴 효과 세기의 전체 단계가 1~10 단계로 구분되어 있음을 나타내는 정보를 획득할 수 있다. 이때, 오디오 신호 처리 장치(100)는 제1 전달함수에 적용되는 제1 가중 파라미터를 ‘0.8’로 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 플랫 응답에 적용되는 제2 가중 파라미터를 ‘0.2’로 결정할 수 있다. 이때, 제1 및 제2 가중 파라미터의 합은 기 설정된 값일 수 있다. 예를 들어, 제1 및 제2 가중 파라미터의 합은 ‘1’ 일 수 있다. 오디오 신호 처리 장치(100)는 결정된 제1 및 제2 가중 파라미터에 기초하여 제2 전달함수를 생성할 수 있다.
도 3을 참조하면, 단계 S304의 ‘α’ (alpha) 는 플랫 응답과 바이노럴 전달함수를 가중합하기 위해 이용되는 가중 파라미터의 일 실시예이다. 오디오 신호 처리 장치(100)는 ‘α’를 0~1사이의 값으로 결정할 수 있다. 이때, 오디오 신호 처리 장치(100)는 ‘α’를 기초로 제2 전달함수를 생성할 수 있다. 제2 전달함수 쌍(H_l_hat, H_r_hat)은 수학식 3과 같이 표현될 수 있다. 수학식 3에서, ave_H_l 및 ave_H_r은 각각 좌측 및 우측 플랫 응답을 의미할 수 있다. 수학식 3에서 abs(H_l(k))는 주파수 도메인에서 좌측 제1 전달함수의 주파수 빈 별 절대값을 나타내고, abs(H_r(k))는 주파수 도메인에서 우측 제1 전달함수의 주파수 빈 별 절대값을 나타낼 수 있다. 수학식 3에서 phase(H_l(k))는 주파수 도메인에서 좌측 제1 전달함수의 주파수 빈 별 위상 값을 나타내고, phase(H_r(k))는 주파수 도메인에서 우측 제1 전달함수의 주파수 빈 별 위상 값을 나타낼 수 있다. 또한, 수학식 3에서 k는 주파수 빈 번호를 나타낼 수 있다.
Figure PCTKR2018001833-appb-M000003
여기서, k는 0<=k<=N/2인 정수
수학식 3 에서, 우측 제2 전달함수(H_r_hat) 및 좌측 제2 전달함수(H_l_hat) 각각의 위상 성분은 전술한 바와 같이 우측 제1 전달함수(H_r)의 위상 성분(phase(H_r))및 좌측 제1 전달함수(H_l)의 위상 성분(phase(H_r)) 각각과 동일할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 입력 오디오 신호에 대응하는 바이노럴 효과 세기 정보를 기초로 가중 파라미터 ‘α’를 결정할 수 있다. 예를 들어, 수학식 3에서 오디오 신호 처리 장치(100)는 입력 오디오 신호에 대응하는 바이노럴 효과 세기가 클수록 ‘α’를 작은 값으로 결정할 수 있다.
일 실시예에 따라, ‘α’가 0에 가까운 경우, 오디오 신호 처리 장치(100)는 음색 보존 성능에 비해 음상 정위 성능이 우수한 출력 오디오 신호를 생성할 수 있다. ‘α’가 0인 경우, 제2 전달함수는 제1 전달함수와 동일한 경우일 수 있다.
다른 일 실시예에 따라, ‘α’가 1에 가까운 경우, 오디오 신호 처리 장치(100)는 음상 정위 성능에 비해 음색 보존 성능이 우수한 출력 오디오 신호를 생성할 수 있다. ‘α’가 1인 경우, 바이노럴 렌더링이 적용되지 않은 경우를 나타낼 수 있다.
단계 S305에서, 오디오 신호 처리 장치(100)는 제2 전달함수 쌍(Hr_hat, Hl_hat)을 기초로 입력 오디오 신호를 필터링하여 출력 오디오 신호(Br, Bl)를 생성할 수 있다.
한편, 본 개시의 일 실시예에 따라, 오디오 신호 처리 장치(100)는 가중 파라미터를 이용하여 바이노럴 효과 세기에 따른 복수의 바이노럴 전달함수를 제공할 수도 있다. 예를 들어, 오디오 신호 처리 장치(100)는 제1 전달함수 쌍 및 플랫 응답을 기초로 복수의 제2 전달함수 쌍을 생성할 수 있다. 복수의 제2 전달함수 쌍은 제1 적용 강도에 대응하는 전달함수 쌍 및 제2 적용 강도에 대응하는 전달함수 쌍을 포함할 수 있다. 이때, 제1 적용 강도 및 제 2 적용 강도는 전달함수 쌍의 생성 시 제1 전달함수 쌍에 적용된 서로 다른 가중 파라미터를 나타낼 수 있다.
도 3의 실시예에서, 오디오 신호 처리 장치(100)는 가중 파라미터를 기초로 제2 전달함수를 생성하는 것으로 기재되었으나, 본 개시의 다른 일 실시예에 따라 오디오 신호 처리 장치(100)는 가중 파라미터를 기초로 곧바로 출력 오디오 신호를 생성할 수도 있다.
예를 들어, 오디오 신호 처리 장치(100)는 단계 S302에서 획득한 제1 전달함수를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 제1 중간 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 단계 S303에서 생성한 플랫 응답을 기초로 입력 오디오 신호를 필터링하여 제2 중간 오디오 신호를 생성할 수 있다. 이후, 오디오 신호 처리 장치(100)는 단계 S304의 가중 파라미터 ‘α’를 기초로 제1 중간 오디오 신호 및 제2 중간 오디오 신호를 믹싱하여 출력 오디오 신호를 생성할 수 있다. 여기에서, 가중 파라미터는 출력 오디오 신호에 반영되는 상기 제1 중간 신호와 상기 제2 중간 신호 간의 비율을 나타내는 믹싱 게인으로 사용될 수 있다.
구체적인 실시예에서, 오디오 신호 처리 장치(100)는 입력 신호에 대응하는 바이노럴 효과 세기 정보를 기초로 제 1 전달함수에 적용되는 제1 믹싱 게인 및 상기 적어도 하나의 플랫 응답에 적용되는 제2 믹싱 게인을 결정할 수 있다. 이때, 오디오 신호 처리 장치(100)는 단계 S304에서 설명된 제1 가중 파라미터 및 제2 가중 파라미터를 결정하는 방법과 동일 또는 상응하는 방법으로 제1 믹싱 게인 및 제2 믹싱 게인을 결정할 수 있다.
한편, 오디오 신호 처리 장치(100)가 제1 전달함수 쌍 및 플랫 응답을 기초로 제2 전달함수 쌍을 생성하는 경우, 제2 전달함수 쌍이 포함하는 제2 전달함수의 에너지 레벨이 변형될 수 있다. 예를 들어, 플랫 응답의 에너지 레벨과 제1 전달함수 쌍에 포함된 제1 전달함수의 에너지 레벨 간의 차이가 클수록, 에너지 레벨이 크게 변형될 수 있다. 이 경우, 제2 전달함수의 에너지 레벨 변화에 따라, 출력 오디오 신호의 에너지 레벨이 입력 오디오 신호의 에너지 레벨에 비해 과도하게 변형될 수 있다. 예를 들어, 출력 오디오 신호는 입력 오디오 신호에 비해 과도하게 크거나 작은 에너지 레벨로 청취자에게 청취될 수 있다.
이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 에너지 보상 처리된 제2 전달함수 쌍을 생성하는 방법에 관하여 설명한다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 제2 전달함수 쌍이 포함하는 전달 함수의 에너지의 합이 제1 전달함수 쌍이 포함하는 전달 함수의 에너지 합과 동일하도록 설정할 수 있다. 구체적으로, 오디오 신호 처리 장치(100)는 제1 전달함수 쌍이 포함하는 전달함수의 에너지의 합 대비 제2 전달함수 쌍이 포함하는 전달함수의 에너지의 합을 에너지 보상을 위한 게인 ‘β’(beta)로 결정할 수 있다. 이때, ‘β’는 수학식 4 와 같이 표현될 수 있다. 수학식 4에서, abs(x)는 주파수 도메인에서 전달함수 ‘x’의 주파수 빈 별 절대값을 나타낼 수 있다. 수학식 4에서, mean(x)는 함수 ‘x’의 평균을 나타낼 수 있다. 또한, 수학식 4에서 k는 주파수 빈 번호를 나타내고, N은 FFT의 포인트 수를 나타낼 수 있다.
Figure PCTKR2018001833-appb-M000004
또는
Figure PCTKR2018001833-appb-I000003
여기서, k는 0<=k<=N/2인 정수
또한, 수학식 5를 참조하면, 오디오 신호 처리 장치(100)는 수학식 3에서 획득한 우측 제2 전달함수(H_r_hat) 및 좌측 제2 전달함수(H_l_hat), 및 에너지 보상을 위한 게인 ‘β’를 기초로 에너지 보상 처리된 우측 제2 전달함수(H_r_hat2) 및 좌측 제2 전달함수(H_l_hat2)를 획득할 수 있다. 수학식 5에서 k는 주파수 빈 번호를 나타낼 수 있다.
Figure PCTKR2018001833-appb-M000005
여기서, k는 0<=k<=N/2인 정수
한편, 전술한 바와 같이 도 1 내지 도 3을 통해 설명된 플랫 응답은 패닝 게인을 사용하여 생성될 수 있다. 이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 패닝 게인을 결정하는 방법에 관하여 도 4 및 도 5를 참조하여 설명한다.
도 4는 라우드 스피커 환경에서 오디오 신호 처리 장치(100)가 패닝 게인을 결정하는 방법을 나타내는 도면이다.
도 4를 참조하면, 오디오 신호 처리 장치(100)는 두 개의 라우드 스피커(loud speaker, 401, 402)가 배치된 위치를 이용하여 두 개의 라우드 스피커 사이(401, 402)에 가상의 음원을 위치(localization)시킬 수 있다. 이때, 오디오 신호 처리 장치(100)는 패닝 게인을 이용하여 가상의 음원을 위치시킬 수 있다.
도 4에 도시된 바와 같이, 오디오 신호 처리 장치(100)는 청취자의 위치(예를 들어, 도 4의 ‘O’)를 중심으로 두 개의 라우드 스피커(401, 402)가 각각 위치된 지점 사이의 각도를 이용하여 두 개의 라우드 스피커(401, 402) 사이에 가상의 음원(400)을 위치 시킬 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 두 개의 라우드 스피커(401, 402) 사이의 각도를 기초로, 입력 오디오 신호에 대응하는 가상의 음원(400)을 위치시키기 위한 패닝 게인을 획득할 수 있다. 오디오 신호 처리 장치(100)는 패닝 게인을 기초로 두 개의 라우드 스피커로부터 출력되는 출력 오디오 신호를 통해, 청취자에게 가상의 음원으로부터 오디오 신호가 출력되는 음향 효과를 제공할 수 있다.
도 4를 참조하면, 오디오 신호 처리 장치(100)는 제1 라우드 스피커(401)와 제2 라우드 스피커(402) 중앙의 대칭 축을 기준으로 θp에 해당하는 위치에 가상의 음원(400)을 위치시킬 수 있다. 이때, 오디오 신호 처리 장치(100)는 제1 라우드 스피커(401) 및 제2 라우드 스피커(402)의 출력을 통해, 청취자가 θp에 위치된 가상의 음원(400)으로부터 음향이 전달되는 것으로 표현되는 오디오 신호를 제공할 수 있다.
구체적으로, 오디오 신호 처리 장치(100)는 θp 위치에 가상의 음원(400)을 위치 시키기 위한 패닝 게인 g1 및 g2를 결정할 수 있다. 이때, 패닝 게인 g1 및 g2는 제1 라우드 스피커(401) 및 제2 라우드 스피커(402) 각각에 적용될 수 있다. 오디오 신호 처리 장치(100)는 일반적인 패닝 게인 획득 방법을 이용하여 패닝 게인 g1 및 g2를 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 선형 패닝(linear panning) 방법 또는 일정 파워 패닝(constant power panning) 방법을 이용하여 패닝 게인 g1 및 g2를 결정할 수 있다.
본 개시의 일 실시예에 따라, 오디오 신호 처리 장치(100)는 라우드 스피커 환경에서 이용되는 패닝 게인을 헤드폰 환경에 적용할 수 있다. 예를 들어, 청취자의 헤드폰의 좌측 출력 채널 및 우측 출력 채널 각각을 제1 라우드 스피커(401) 및 제2 라우드 스피커(402) 각각에 대응시킬 수 있다. 이때, 헤드폰의 좌측 출력 채널 및 우측 출력 채널 각각에 대응하는 제1 라우드 스피커(401) 및 제2 라우드 스피커(402)가 대칭축을 기준으로 좌우측 90도(즉, -90도 및 +90도)에 해당하는 위치에 있다고 가정할 수 있다. 예를 들어, 제1 출력 채널(예를 들어, 헤드폰의 좌측 출력 채널)은 대칭축을 기준으로 좌측 90도에 위치되고, 제2 출력 채널(예를 들어, 헤드폰의 우측 출력 채널)은 대칭축을 기준으로 우측 90도에 위치될 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 청취자를 기준으로 입력 오디오 신호에 대응하는 가상의 음원(400)의 위치를 기초로 제1 패닝 게인(g1) 및 제2 패닝 게인(g2)을 결정할 수 있다. 이때, 오디오 신호 처리 장치(100)는 동일한 위치 정보를 기초로 제1 전달함수 쌍 및 패닝 게인을 획득할 수 있다. 제1 패닝 게인(g1), 제2 패닝 게인(g2), 및 제1 전달함수 쌍이 포함하는 각각의 전달함수는 동일한 위치 정보에 기반하여 획득되는 각각의 필터 계수 세트일 수 있다. 여기에서, 필터 계수 세트는 필터 특성을 나타내는 적어도 하나의 필터 계수를 포함할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 동일한 위치 정보를 기초로 서로 다른 특성을 가지는 각각의 필터 계수 세트를 획득할 수 있다. 한편, 제1 패닝 게인 (g1) 및 제2 패닝 게인(g2)은 제1 출력 채널과 제2 출력 채널 사이의 θp 위치에 가상의 음원(400)을 위치시키기 위한 패닝 게인일 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 제1 전달함수 쌍 및 패닝 게인을 기초로 출력 오디오 신호를 생성할 수 있다. 여기에서, 제1 전달함수 쌍 및 패닝 게인을 기초로 출력 오디오 신호를 생성하는 방법에는 전술한 제1 전달함수 쌍 및 적어도 하나의 플랫 응답을 기초로 출력 오디오 신호를 생성하는 실시예들이 적용될 수 있다.
예를 들어, 오디오 신호 처리 장치(100)는 패닝 게인을 기초로 적어도 하나의 플랫 응답을 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 제1 패닝 게인(g1)을 기초로 좌측 플랫 응답을 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제2 패닝 게인(g2)을 기초로 우측 플랫 응답을 생성할 수 있다.
또는 오디오 신호 처리 장치(100)는 제1 전달함수 및 패닝 게인을 기초로 제2 전달함수를 생성할 수 있다. 오디오 신호 처리 장치(100)는 생성된 좌측 플랫 응답 및 좌측 제1 전달함수를 기초로 좌측 제2 전달함수를 생성할 수 있다. 오디오 신호 처리 장치(100)는생성된 우측 플랫 응답 및 우측 제1 전달함수를 기초로 우측 제2 전달함수를 생성할 수 있다. 오디오 신호 처리 장치(100)는 생성된 좌측 제2 전달함수 및 우측 제2 전달함수를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다.
또는, 패닝 게인은 제1 전달함수를 기초로 입력 오디오 신호를 필터링하여 생성된 제1 중간 오디오 신호와 믹싱하여 출력 오디오 신호를 생성하기 위한 플랫 응답으로 사용될 수 있다. 오디오 신호 처리 장치(100)는 패닝 게인을 기초로 생성된 플랫 응답으로 입력 오디오 신호를 필터링하여 제2 중간 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제1 중간 오디오 신호 및 제2 중간 오디오 신호를 믹싱하여 출력 오디오 신호를 생성할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 일정 파워 패닝(constant power panning) 방법을 통해 제1 패닝 게인(g1) 및 제2 패닝 게인(g2)을 결정할 수 있다. 일정 파워 패닝 방법은 패닝 게인을 적용한 제1 출력 채널 및 제2 출력 채널의 파워의 합이 일정한 방법을 의미할 수 있다. 일정 파워 패닝 방법을 이용하여 결정된 패닝 게인 g1 및 g2는 수학식 6과 같이 표현될 수 있다.
Figure PCTKR2018001833-appb-M000006
여기서,
Figure PCTKR2018001833-appb-I000004
예를 들어, θ1, θ2가 각각 -90도 및 90도인 경우, θ1와 θ2 사이의 임의의(arbitrary) 각도 θp는 -90도~90도 사이의 값을 가질 수 있다. 이때, θp가 -90도~90도인 경우, p는 수학식 6에 따라 0도~90도 사이의 값이 된다. p는 θ1와 θ2 사이의 θp에 위치하는 가상의 음원에 대응하는 양수의 제1 패닝 게인(g1) 및 제2 패닝 게인(g2)을 산정하기 위해 θp로부터 환산된 값일 수 있다.
수학식 6의 실시예에서, 오디오 신호 처리 장치(100)는 제1 출력 채널 및 제2 출력 채널 각각에 대해 적용되는 패닝 게인을 결정하기 위해 일정 파워 패닝 방법을 이용하였으나, 오디오 신호 처리 장치(100)가 패닝 게인을 결정하는 방법은 이에 한정되지 않는다.
한편, 본 개시의 일 실시예에 따라, 오디오 신호 처리 장치(100)는 양이간 극좌표계(Interaural Polar Coordinate, IPC)를 이용하여 패닝 게인을 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 양이간 극좌표계에서 가상의 음원의 위치를 나타내는 양이간 극좌표를 기초로 패닝 게인을 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 양이간 극좌표를 기초로 결정된 패닝 게인을 이용하여 도 1 내지 도 3을 통해 설명된 방법으로 출력 오디오 신호를 생성할 수 있다. 이하에서는, 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)가 양이간 극좌표계를 이용하여 패닝 게인을 결정하는 방법에 관하여 도 5를 참조하여 설명한다.
도 5는 수직 극좌표계(Vertical Polar Coordinate, VPC) 및 양이간 극좌표계(Interaural Polar Coordinate, IPC)를 나타내는 도면이다. 도 5를 참조하면, 입력 오디오 신호에 대응하는 오브젝트(510)는 수직 극좌표계(501)에서 제1 방위각(azimuth, 551) 및 제1 앙각(elevation, 541)로 표시될 수 있다. 또한, 입력 오디오 신호에 대응하는 오브젝트(510)는 양이간 극좌표계(502)에서 제2 방위각(552) 및 제2 앙각(542)로 표시될 수 있다.
일 실시예에 따라, 입력 오디오 신호에 대응하는 오브젝트(510)가 수직 극좌표계(501)의 방위각을 유지하면서, 청취자(520)의 머리 꼭대기(z축)으로 이동할 수 있다. 이러한 방식으로 오브젝트가 움직이는 경우, 수직 극좌표계에서 입력 오디오 신호에 대응하는 오브젝트(510)의 위치를 나타내는 제1 앙각(541)이 θ에서 90도로 변화하고, 제1 방위각(551)은 Φ로 유지될 수 있다. 이와 달리, 상기와 같은 오브젝트(510)의 움직임에 따라, 양이간 극좌표계(502)에서 오브젝트(510)의 위치를 나타내는 양이간 극좌표의 제2 방위각(552)은 달라질 수 있다. 예를 들어, 수직 극좌표계에서 입력 오디오 신호에 대응하는 오브젝트의 위치를 나타내는 제1 앙각(541)이 θ에서 90도로 변화하는 경우, 양이간 극좌표계에서 입력 오디오 신호에 대응하는 오브젝트의 위치를 나타내는 제2 방위각(552)은 Φ에서 0도로 변화할 수 있다. 이때, 양이간 극좌표계에서 입력 오디오 신호에 대응하는 오브젝트의 위치를 나타내는 제2 앙각(542)은 제1 앙각(541)과 동일할 수 있다.
이에 따라, 오브젝트(510)가 전술한 방식으로 이동하는 상황에서 수직 극좌표의 제1 방위각(551)을 사용하여 패닝 게인을 결정하는 경우, 패닝 게인이 변하지 않게 되어 청취자(520)는 음상의 이동을 감지할 수 없다. 반면, 오브젝트(510)가 전술한 방식으로 이동하는 상황에서 양이간 극좌표의 제2 방위각(552)을 사용하여 패닝 게인을 결정하는 경우, 청취자(520)는 패닝 게인의 변화로 인한 음상의 이동을 감지할 수 있다. 이때, 패닝 게인은 제2 방위각(552)의 변화에 따른 수평면 상의 좌우 이동을 반영하여 결정될 수 있다. 오브젝트(510)가 청취자(520)의 머리 꼭대기로 이동하는 경우, 양이간 극좌표의 제2 방위각(552)이 ‘0’에 가까워지기 때문이다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 양이간 극좌표계를 이용하여 패닝 게인을 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 양이간 극좌표계에서 입력 오디오 신호에 대응하는 가상의 음원의 위치를 나타내는 제2 방위각(552) 값(Φ) 및 제2 앙각(542) 값(θ)을 획득할 수 있다. 구체적으로, 오디오 신호 처리 장치(100) 제2 방위각(552) 값(Φ)을 포함하는 메타데이터 수신할 수 있다. 이때, 메타데이터는 입력 오디오 신호에 대응하는 메타데이터일 수 있다. 또한, 오디오 신호 처리 장치(100)는 획득한 제2 방위각(552) 값(Φ)을 기초로 제1 패닝 게인(g1’) 및 제2 패닝 게인(g2’)을 결정할 수 있다. 제1 패닝 게인(g1’) 및 제2 패닝 게인(g2’)은 수학식 7과 같이 표현될 수 있다.
Figure PCTKR2018001833-appb-M000007
일 실시예에 따라, 오디오 신호 처리 장치(100)는 도 3의 실시예와 같이 입력 오디오 신호에 대응하는 가상의 음원의 위치 정보 및 청취자의 머리 움직임 정보를 수신할 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 가상의 음원의 위치 정보 및 청취자의 머리 움직임 정보를 기초로 청취자를 기준으로 하는 가상의 음원의 상대적인 위치를 나타내는 수직 극좌표(551, 541) 또는 양이간 극좌표(552, 542)를 산출할 수 있다.
구체적으로, 도 5를 참조하면, 오디오 신호 처리 장치(100)는 오브젝트(510)의 위치를 기초로 양이간 극좌표계(502)의 새지털 평면(sagittal plane 또는 constant azimuth plane)(561)을 결정할 수 있다. 이때, 새지털 평면(561)은 중앙 평면(median plane)(560)과 평행한 평면일 수 있다. 또한, 중앙 평면(561)은 수평 평면과 직각이면서 수평 평면과 동일한 중심을 가지는 평면일 수 있다. 오디오 신호 처리 장치(100)는 중앙 평면(560)의 중심을 기준으로 새지털 평면(561)이 수평 평면과 만나는 지점(570)과 중앙 평면(560) 사이의 각도를 제2 방위각(552)으로 결정할 수 있다. 이를 통해, 양이간 극좌표계의 제2 방위각(552) 값은 전술한 방식으로 이동하는 오브젝트(510)의 수직 극좌표 상의 제1 앙각(541) 값의 변화를 반영할 수 있다.
또한, 일 실시예에 따라, 오디오 신호 처리 장치(100)는 양이간 극좌표계가 아닌 다른 좌표계에서 입력 오디오 신호에 대응하는 가상의 음원의 위치를 나타내는 좌표를 획득할 수도 있다. 이 경우, 오디오 신호 처리 장치(100)는 획득한 좌표를 양이간 극좌표로 변환할 수 있다. 여기에서, 양이간 극좌표계가 아닌 다른 좌표계는 수직 극좌표계 및 직교 좌표계를 포함할 수 있다. 예를 들어, 도 5를 참조하면, 오디오 신호 처리 장치(100)는 수직 극좌표계(501)에서 입력 오디오 신호에 대응하는 가상의 음원의 위치를 나타내는 수직 극좌표(551, 541)를 획득할 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 수직 극좌표의 제1 방위각(551) 값 및 제1 앙각(541) 값을 양이간 극좌표의 제2 방위각(552) 값 및 제2 앙각(542) 값으로 변환할 수 있다.
또한, 오디오 신호 처리 장치(100)는 결정된 제2 방위각(552) 값을 기초로 전술한 패닝 게인(g1’, g2’)을 결정할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 전술한 일정 파워 패닝 방법 또는 선형 패닝 방법을 이용하여 제2 방위각(552) 값을 기초로 패닝 게인(g1’, g2’)을 결정할 수 있다.
또한, 오디오 신호 처리 장치(100)는 제1 전달함수 쌍 및 전술한 방법을 통해 결정된 패닝 게인(g1’, g2’)을 기초로 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 일 실시예에 따라 오디오 신호 처리 장치(100)는 제1 전달함수 쌍 및 전술한 방법을 통해 결정된 패닝 게인(g1’, g2’)을 이용하여 도 1 및 도 4를 통해 설명한 실시예와 동일 또는 상응하는 방법으로 출력 오디오 신호를 생성할 수 있다.
예를 들어, 오디오 신호 처리 장치(100)는 제1 전달함수 쌍 및 패닝 게인(g1’, g2’)을 기초로 제2 전달함수 쌍을 생성할 수 있다. 오디오 신호 처리 장치(100)는 패닝 게인(g1’, g2’)를 기초로 적어도 하나의 플랫 응답을 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 패닝 게인(g1’, g2’)중 어느 하나를 기초로 생성된 플랫 응답과 제1 전달함수를 가중합하여 제2 전달함수를 생성할 수 있다. 이때, 오디오 신호 처리 장치(100)는 바이노럴 효과 세기 정보를 기초로 결정된 가중 파라미터를 이용할 수 있다. 또한, 오디오 신호 처리 장치(100)는 제2 전달함수 쌍을 기초로 출력 오디오 신호를 생성할 수 있다.
또는 오디오 신호 처리 장치(100)는 제1 전달함수 쌍 및 패닝 게인(g1’, g2’)을 기초로 입력 오디오 신호를 필터링하여 복수의 중간 오디오 신호를 생성할 수 있다. 이 경우, 오디오 신호 처리 장치(100)는 복수의 중간 오디오 신호를 채널 별로 합성하여 출력 오디오 신호를 생성할 수도 있다.
이하에서는, 본 개시의 다른 일 실시예에 따른 오디오 신호 처리 장치(100)가 패닝 게인을 이용하여 입력 오디오 신호를 렌더링하는 방법에 대해 도 6을 참조하여 설명한다.
도 6은 본 개시의 다른 일 실시예에 따라 오디오 신호 처리 장치가 양이간 극좌표계를 이용하여 출력 오디오 신호를 생성하는 방법을 나타낸다. 예를 들어, 오디오 신호 처리 장치(100)가 HRTF를 사용하지 않는 경우, 오디오 신호 처리 장치(100)는 도 5에서 설명된 패닝 게인을 이용하여 인터랙티브 렌더링을 수행할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 양이간 극좌표의 방위각(θpan) 값을 기초로 출력 오디오 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 수학식 7에서 생성된 제1 패닝 게인(g1’) 및 제2 패닝 게인(g2’)을 기초로 입력 오디오 신호를 필터링하여 출력 오디오 신호(B_l, B_r)를 생성할 수 있다. 일 실시예에 따라, 오디오 신호 처리 장치(100)가 양이간 극좌표가 아닌 다른 좌표로 표시되는 가상의 음원의 위치를 획득할 수도 있다. 이 경우, 오디오 신호 처리 장치(100)는 양이간 극좌표가 아닌 다른 좌표를 양이간 극좌표로 변환할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 도 6에 도시된 바와 같이, 수직 극좌표(θ,
Figure PCTKR2018001833-appb-I000005
)를 양이간 극좌표로 변환할 수 있다.
도 7은 본 개시의 일 실시예에 따른 오디오 신호 처리 장치(100)의 동작 방법을 나타내는 흐름도이다.
단계 S701에서, 오디오 신호 처리 장치(100)는 입력 오디오 신호를 수신할 수 있다. 단계 S702에서, 오디오 신호 처리 장치(100)는 제1 전달함수 쌍 및 적어도 하나의 플랫 응답을 기초로 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 생성된 출력 오디오 신호를 출력할 수 있다.
예를 들어, 오디오 신호 처리 장치(100)는 제1 전달함수 및 적어도 하나의 플랫 응답을 기초로 제2 전달함수를 생성할 수 있다. 오디오 신호 처리 장치(100)는 청취자를 기준으로 입력 오디오 신호에 대응하는 가상의 음원의 위치에 기초하여 제1 전달함수를 획득할 수 있다. 오디오 신호 처리 장치(100)는 주파수 도메인에서 일정한 크기 값을 가지는 적어도 하나의 플랫 응답을 생성할 수 있다. 구체적으로, 오디오 신호 처리 장치(100)는 제1 전달함수와 적어도 하나의 플랫 응답을 가중합하여 제2 전달함수를 생성할 수 있다. 이때, 오디오 신호 처리 장치(100)는 입력 오디오 신호에 대응하는 바이노럴 효과 세기 정보를 기초로 제1 전달함수와 적어도 하나의 플랫 응답 사이의 가중합에 이용되는 가중 파라미터를 결정할 수 있다. 오디오 신호 처리 장치(100)는 결정된 가중 파라미터를 기초로 제2 전달함수를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 이와 같이 생성된 제2 전달함수를 기초로 출력 오디오 신호를 생성할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 가중 파라미터를 기초로 제1 전달함수의 크기 성분과 적어도 하나의 플랫 응답을 주파수 빈 별로 가중합하여 제2 전달함수를 생성할 수 있다. 이때, 주파수 도메인에서 각각의 주파수 빈에 대응하는 제2 전달함수의 위상 성분은 제1 전달함수의 위상 성분과 동일할 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 제1 전달함수의 적어도 일부분을 기초로 플랫 응답을 생성할 수 있다. 예를 들어, 적어도 하나의 플랫 응답은 적어도 일부 주파수에 대응하는 제1 전달함수의 크기 성분의 평균값일 수 있다. 또는 적어도 하나의 플랫 응답은 적어도 일부 주파수 빈에 대응하는 제1 전달함수의 크기 성분의 중앙값일 수 있다.
일 실시예에 따라, 오디오 신호 처리 장치(100)는 제1 전달함수 및 패닝 게인을 기초로 출력 오디오 신호를 생성할 수 있다. 예를 들어, 오디오 신호 처리 장치(100)는 제1 전달함수 및 패닝 게인 각각을 기초로 입력 오디오 신호를 필터링하여 복수의 중간 오디오 신호를 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 복수의 중간 오디오 신호를 채널 별로 믹싱하여 출력 오디오 신호를 생성할 수 있다. 또는 오디오 신호 처리 장치(100)는 패닝 게인을 기초로 적어도 하나의 플랫 응답을 생성할 수 있다. 또한, 오디오 신호 처리 장치(100)는 생성된 플랫 응답 및 제1 전달함수를 기초로 제2 전달함수를 생성할 수 있다.
이 경우, 오디오 신호 처리 장치(100)는 청취자를 기준으로 입력 오디오 신호에 대응하는 가상의 음원의 위치를 기초로 상기 패닝 게인을 결정할 수 있다. 구체적으로, 오디오 신호 처리 장치(100)는 일정 파워 패닝 방법을 이용하여 패닝 게인을 결정할 수 있다. 또한, 오디오 신호 처리 장치(100)는 양이간 극좌표를 이용하여 패닝 게인을 결정할 수 있다. 오디오 신호 처리 장치(100)는 양이간 극좌표의 방위각 값을 기초로 패닝 게인을 결정할 수 있다. 일 실시예에 따라, 오디오 신호 처리 장치(100)는 입력 오디오 신호에 대응하는 가상의 음원의 위치를 나타내는 수직 극좌표를 양이간 극좌표로 변화할 수 있다. 또한, 오디오 신호 처리 장치(100)는 변환된 양이간 극좌표의 방위각 값을 기초로 패닝 게인을 결정할 수 있다. 이때, 양이간 극좌표계의 방위각 값은 오브젝트의 이동에 따른 수직 극좌표 상의 앙각 값의 변화를 반영할 수 있다.
이상에서는 본 발명을 구체적인 실시예를 통하여 설명하였으나, 당업자라면 본 발명의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 발명은 오디오 신호에 대한 바이노럴 렌더링의 실시예에 대하여 설명하였지만, 본 발명은 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 발명의 상세한 설명 및 실시예로부터 본 발명이 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석된다.

Claims (20)

  1. 입력 오디오 신호를 렌더링하는 오디오 신호 처리 장치로서,
    상기 입력 오디오 신호를 수신하는 수신부;
    상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는 프로세서; 및
    상기 프로세서에 의해 생성된 출력 오디오 신호를 출력하는 출력부를 포함하고,
    상기 프로세서는,
    청취자를 기준으로 상기 입력 오디오 신호에 대응하는 가상의 음원의 위치에 기초하여 제1 전달함수(transfer function)를 획득하고,
    주파수 도메인에서 일정한 크기 값(magnitude)을 가지는 적어도 하나의 플랫 응답을 생성하고,
    상기 제1 전달함수 및 상기 적어도 하나의 플랫 응답을 기초로 제2 전달함수를 생성하고,
    상기 생성된 제2 전달함수를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 상기 출력 오디오 신호를 생성하는, 오디오 신호 처리 장치.
  2. 제 1 항에 있어서,
    상기 프로세서는,
    상기 제1 전달함수와 상기 적어도 하나의 플랫 응답을 가중합(weighted sum)하여 상기 제2 전달함수를 생성하는, 오디오 신호 처리 장치.
  3. 제 2 항에 있어서,
    상기 프로세서는,
    상기 입력 오디오 신호에 대응하는 바이노럴 효과 세기 정보를 기초로 상기 제1 전달함수와 상기 적어도 하나의 플랫 응답 사이의 가중합에 이용되는 가중 파라미터를 결정하고,
    상기 결정된 가중 파라미터를 기초로 상기 제2 전달함수를 생성하는, 오디오 신호 처리 장치.
  4. 제 3 항에 있어서,
    상기 제1 전달함수는 주파수 도메인에서 크기 성분을 포함하고,
    상기 프로세서는,
    상기 가중 파라미터를 기초로 상기 크기 성분과 상기 적어도 하나의 플랫 응답을 주파수 빈(frequency bin) 별로 가중합하여, 상기 제2 전달함수를 생성하는, 오디오 신호 처리 장치.
  5. 제 1 항에 있어서,
    주파수 도메인에서 각각의 주파수 빈에 대응하는 상기 제2 전달함수의 위상 성분은 상기 제1 전달함수의 위상 성분과 동일한, 오디오 신호 처리 장치.
  6. 제 1 항에 있어서,
    상기 프로세서는,
    상기 청취자를 기준으로 상기 입력 오디오 신호에 대응하는 가상의 음원의 위치를 기초로 패닝 게인을 결정하고,
    상기 패닝 게인을 기초로 상기 적어도 하나의 플랫 응답을 생성하는, 오디오 신호 처리 장치.
  7. 제 6 항에 있어서,
    상기 프로세서는,
    상기 가상의 음원의 위치를 나타내는 양이간 극좌표(interaural polar coordinate point)의 방위각 값을 기초로 상기 패닝 게인을 결정하는, 오디오 신호 처리 장치.
  8. 제 1 항에 있어서,
    상기 프로세서는,
    상기 제1 전달함수의 적어도 일부분을 기초로 상기 적어도 하나의 플랫 응답을 생성하는, 오디오 신호 처리 장치.
  9. 제 8 항에 있어서,
    상기 적어도 하나의 플랫 응답은 적어도 일부 주파수에 대응하는 상기 제1 전달함수의 크기 성분의 평균인, 오디오 신호 처리 장치.
  10. 제 1 항에 있어서,
    상기 제1 전달함수는 상기 입력 오디오 신호에 대응하는 가상의 음원의 위치에 대응하는 HRTF(head Related Transfer Function)쌍(pair)이 포함하는 동측 HRTF 및 대측 HRTF 중 어느 하나인, 오디오 신호 처리 장치.
  11. 제 10 항에 있어서,
    상기 프로세서는,
    상기 동측 HRTF 및 상기 대측 HRTF 각각 및 상기 적어도 하나의 플랫 응답을 기초로 동측 제2 전달함수 및 대측 제2 전달함수 각각을 생성하고,
    상기 동측 제2 전달함수 및 상기 대측 제2 전달함수의 에너지 레벨의 합을 상기 동측 HRTF 및 상기 대측 HRTF 의 에너지 레벨의 합과 동일해지도록 설정하는, 오디오 신호 처리 장치.
  12. 오디오 신호 처리 방법에 있어서,
    입력 오디오 신호를 수신하는 단계;
    청취자를 기준으로 상기 입력 오디오 신호에 대응하는 가상의 음원의 위치에 기초하여 제1 전달함수를 획득하는 단계;
    주파수 도메인에서 일정한 크기 값을 가지는 적어도 하나의 플랫 응답을 생성하는 단계;
    상기 제1 전달함수 및 상기 적어도 하나의 플랫 응답을 기초로 제2 전달함수를 생성하는 단계;
    상기 생성된 제2 전달함수를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하여 출력 오디오 신호를 생성하는 단계; 및
    상기 생성된 출력 오디오 신호를 출력하는 단계를 포함하는, 오디오 신호 처리 방법.
  13. 제 12 항에 있어서,
    상기 제2 전달함수를 생성하는 단계는,
    상기 제1 전달함수와 상기 적어도 하나의 플랫 응답을 가중합하여 상기 제2 전달함수를 생성하는 단계를 포함하는, 오디오 신호 처리 방법.
  14. 제 13 항에 있어서,
    상기 제2 전달함수를 생성하는 단계는,
    상기 입력 오디오 신호에 대응하는 바이노럴 효과 세기 정보를 기초로 상기 제1 전달함수와 상기 적어도 하나의 플랫 응답 사이의 가중합에 이용되는 가중 파라미터를 결정하는 단계; 및
    상기 결정된 가중 파라미터를 기초로 상기 제2 전달함수를 생성하는 단계를 포함하는, 오디오 신호 처리 방법.
  15. 제 14 항에 있어서,
    상기 제1 전달함수는 주파수 도메인에서 크기 성분을 포함하고,
    상기 제2 전달함수를 생성하는 단계는,
    상기 가중 파라미터를 기초로 상기 크기 성분과 상기 적어도 하나의 플랫 응답을 주파수 빈 별로 가중합하여, 상기 제2 전달함수를 생성하는, 오디오 신호 처리 방법.
  16. 제 12 항에 있어서,
    주파수 도메인에서 각각의 주파수 빈에 대응하는 상기 제2 전달함수의 위상 성분은 상기 제1 전달함수의 위상 성분과 동일한, 오디오 신호 처리 방법.
  17. 제 12 항에 있어서,
    상기 플랫 응답을 생성하는 단계는,
    상기 청취자를 기준으로 상기 입력 오디오 신호에 대응하는 가상의 음원의 위치를 기초로 패닝 게인을 결정하는 단계; 및
    상기 패닝 게인을 기초로 상기 적어도 하나의 플랫 응답을 생성하는 단계를 포함하는, 오디오 신호 처리 방법.
  18. 제 17 항에 있어서,
    상기 패닝 게인을 결정하는 단계는,
    상기 가상의 음원의 위치를 나타내는 양이간 극좌표의 방위각 값을 기초로 상기 패닝 게인을 결정하는 단계를 포함하는, 오디오 신호 처리 방법.
  19. 제 12 항에 있어서,
    상기 플랫 응답을 생성하는 단계는,
    상기 제1 전달함수의 적어도 일부분을 기초로 적어도 하나의 플랫 응답을 생성하는 단계를 포함하는, 오디오 신호 처리 방법.
  20. 제 19 항에 있어서,
    상기 적어도 하나의 플랫 응답은 적어도 일부 주파수에 대응하는 상기 제1 전달함수의 크기 성분의 평균인 오디오 신호 처리 방법.
PCT/KR2018/001833 2017-02-10 2018-02-12 오디오 신호 처리 방법 및 장치 WO2018147701A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019543846A JP7038725B2 (ja) 2017-02-10 2018-02-12 オーディオ信号処理方法及び装置
US15/961,893 US10165381B2 (en) 2017-02-10 2018-04-25 Audio signal processing method and device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0018515 2017-02-10
KR20170018515 2017-02-10

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/961,893 Continuation US10165381B2 (en) 2017-02-10 2018-04-25 Audio signal processing method and device

Publications (1)

Publication Number Publication Date
WO2018147701A1 true WO2018147701A1 (ko) 2018-08-16

Family

ID=63106980

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/001833 WO2018147701A1 (ko) 2017-02-10 2018-02-12 오디오 신호 처리 방법 및 장치

Country Status (3)

Country Link
US (1) US10165381B2 (ko)
JP (1) JP7038725B2 (ko)
WO (1) WO2018147701A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210105966A (ko) * 2018-12-29 2021-08-27 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 신호 처리 방법 및 장치

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190083863A (ko) * 2018-01-05 2019-07-15 가우디오랩 주식회사 오디오 신호 처리 방법 및 장치
JP2021184509A (ja) * 2018-08-29 2021-12-02 ソニーグループ株式会社 信号処理装置、信号処理方法、及び、プログラム
CN108900962B (zh) * 2018-09-16 2020-11-20 苏州创力波科技有限公司 一种三模型3d音效生成方法及其获取方法
CN111107481B (zh) * 2018-10-26 2021-06-22 华为技术有限公司 一种音频渲染方法及装置
GB2588171A (en) * 2019-10-11 2021-04-21 Nokia Technologies Oy Spatial audio representation and rendering
GB2593170A (en) * 2020-03-16 2021-09-22 Nokia Technologies Oy Rendering reverberation
US20210400419A1 (en) * 2020-06-20 2021-12-23 Apple Inc. Head dimension estimation for spatial audio applications
EP4231668A1 (en) * 2022-02-18 2023-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for head-related transfer function compression

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110082553A (ko) * 2008-10-07 2011-07-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 멀티-채널 오디오 신호의 바이노럴 렌더링
KR20160015265A (ko) * 2013-05-29 2016-02-12 퀄컴 인코포레이티드 컨텐츠 분석 및 가중치를 이용한 바이노럴 룸 임펄스 응답들에 의한 필터링
KR20160094349A (ko) * 2015-01-30 2016-08-09 가우디오디오랩 주식회사 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법
KR20160136716A (ko) * 2015-05-20 2016-11-30 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
US20160373877A1 (en) * 2015-06-18 2016-12-22 Nokia Technologies Oy Binaural Audio Reproduction

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0123493D0 (en) 2001-09-28 2001-11-21 Adaptive Audio Ltd Sound reproduction systems
WO2005120133A1 (en) 2004-06-04 2005-12-15 Samsung Electronics Co., Ltd. Apparatus and method of reproducing wide stereo sound
US20160088417A1 (en) * 2013-04-30 2016-03-24 Intellectual Discovery Co., Ltd. Head mounted display and method for providing audio content by using same

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110082553A (ko) * 2008-10-07 2011-07-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 멀티-채널 오디오 신호의 바이노럴 렌더링
KR20160015265A (ko) * 2013-05-29 2016-02-12 퀄컴 인코포레이티드 컨텐츠 분석 및 가중치를 이용한 바이노럴 룸 임펄스 응답들에 의한 필터링
KR20160094349A (ko) * 2015-01-30 2016-08-09 가우디오디오랩 주식회사 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법
KR20160136716A (ko) * 2015-05-20 2016-11-30 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
US20160373877A1 (en) * 2015-06-18 2016-12-22 Nokia Technologies Oy Binaural Audio Reproduction

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210105966A (ko) * 2018-12-29 2021-08-27 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 신호 처리 방법 및 장치
KR102537714B1 (ko) * 2018-12-29 2023-05-26 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 신호 처리 방법 및 장치
US11917391B2 (en) 2018-12-29 2024-02-27 Huawei Technologies Co., Ltd. Audio signal processing method and apparatus

Also Published As

Publication number Publication date
JP2020506639A (ja) 2020-02-27
US20180242094A1 (en) 2018-08-23
JP7038725B2 (ja) 2022-03-18
US10165381B2 (en) 2018-12-25

Similar Documents

Publication Publication Date Title
WO2018147701A1 (ko) 오디오 신호 처리 방법 및 장치
WO2018182274A1 (ko) 오디오 신호 처리 방법 및 장치
WO2016089180A1 (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법
WO2017191970A2 (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치
WO2015147533A2 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2018056780A1 (ko) 바이노럴 오디오 신호 처리 방법 및 장치
CN107852563B (zh) 双耳音频再现
WO2012005507A2 (en) 3d sound reproducing method and apparatus
JP4584416B2 (ja) 位置調節が可能な仮想音像を利用したスピーカ再生用多チャンネルオーディオ再生装置及びその方法
WO2015142073A1 (ko) 오디오 신호 처리 방법 및 장치
Valimaki et al. Assisted listening using a headset: Enhancing audio perception in real, augmented, and virtual environments
KR101004393B1 (ko) 가상 서라운드에서 공간 인식을 개선하는 방법
WO2014157975A1 (ko) 오디오 장치 및 이의 오디오 제공 방법
WO2017209477A1 (ko) 오디오 신호 처리 방법 및 장치
WO2015147619A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2014088328A1 (ko) 오디오 제공 장치 및 오디오 제공 방법
WO2019107868A1 (en) Apparatus and method for outputting audio signal, and display apparatus using the same
WO2015156654A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2015147435A1 (ko) 오디오 신호 처리 시스템 및 방법
WO2020057227A1 (zh) 电视机声音调整方法、电视机和存储介质
WO2019147040A1 (ko) 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법 및 이를 위한 장치
WO2019031652A1 (ko) 3차원 오디오 재생 방법 및 재생 장치
WO2019066348A1 (ko) 오디오 신호 처리 방법 및 장치
WO2018186656A1 (ko) 오디오 신호 처리 방법 및 장치
WO2019035622A1 (ko) 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18751280

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019543846

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18751280

Country of ref document: EP

Kind code of ref document: A1