WO2017126895A1 - 오디오 신호 처리 장치 및 처리 방법 - Google Patents

오디오 신호 처리 장치 및 처리 방법 Download PDF

Info

Publication number
WO2017126895A1
WO2017126895A1 PCT/KR2017/000633 KR2017000633W WO2017126895A1 WO 2017126895 A1 WO2017126895 A1 WO 2017126895A1 KR 2017000633 W KR2017000633 W KR 2017000633W WO 2017126895 A1 WO2017126895 A1 WO 2017126895A1
Authority
WO
WIPO (PCT)
Prior art keywords
rendering
component
signal
audio signal
binaural
Prior art date
Application number
PCT/KR2017/000633
Other languages
English (en)
French (fr)
Inventor
서정훈
이태규
오현오
Original Assignee
지오디오랩 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지오디오랩 인코포레이티드 filed Critical 지오디오랩 인코포레이티드
Publication of WO2017126895A1 publication Critical patent/WO2017126895A1/ko
Priority to US16/034,373 priority Critical patent/US10419867B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Definitions

  • the present invention relates to an audio signal processing apparatus and a processing method, and more particularly, to an apparatus and a method for efficiently rendering a higher-order ambisonic signal.
  • 3D audio is a series of signal processing, transmission, encoding, and playback methods for providing a realistic sound in three-dimensional space by providing another axis corresponding to the height direction to a sound scene on a horizontal plane (2D) provided by conventional surround audio. Also known as technology.
  • a rendering technique is required in which a sound image is formed at a virtual position in which no speaker exists even if a larger number of speakers or a smaller number of speakers are used.
  • 3D audio will be an audio solution for Ultra High Definition Television (UHDTV) and is expected to be used in a variety of applications and devices.
  • UHDTV Ultra High Definition Television
  • a sound source provided to 3D audio, there may be a channel-based signal and an object-based signal.
  • a sound source in which a channel-based signal and an object-based signal are mixed, thereby providing a user with a new type of listening experience.
  • HOA Higher Order Ambisonics
  • VR virtual reality
  • HOA technology can be usefully used.
  • HOA has a good performance of reproducing the entire audio scene, the performance of accurately representing the position of individual sound objects in the audio scene has a disadvantage.
  • the present invention has an object to improve the rendering performance of the HOA signal to provide a more realistic immersive sound.
  • an object of the present invention is to efficiently perform binaural rendering of an audio signal.
  • the present invention has an object to implement an immersive binaural rendering of the audio signal of the virtual reality content.
  • the present invention provides the following audio signal processing apparatus and audio signal processing method.
  • an audio signal processing apparatus comprising: separating an input audio signal into a first component corresponding to at least one object signal and a second component corresponding to a residual signal, and corresponding to the first component A preprocessor extracting position vector information from the input audio signal; A first renderer which performs an object-based first rendering on the first component using the position vector information; And a second rendering unit that performs channel-based second rendering on the second component.
  • an audio signal processing apparatus comprising a.
  • a method of processing an audio signal comprising: separating an input audio signal into a first component corresponding to at least one object signal and a second component corresponding to a residual signal; Extracting position vector information corresponding to the first component from the input audio signal; Performing object-based first rendering on the first component using the location information vector; And performing channel-based second rendering on the second component.
  • an audio signal processing method comprising a.
  • the input audio signal includes higher order ambisonics (HOA) coefficients
  • the preprocessor includes a first matrix representing the HOA coefficients and a second matrix representing position vector information of each of the plurality of audio signals.
  • the first rendering unit performs object-based rendering by using position vector information of the second matrix corresponding to the first component.
  • the first component is extracted from a predetermined number of audio signals of a high level order among a plurality of audio signals represented by the first matrix.
  • the first component is extracted from audio signals having a level equal to or higher than a predetermined threshold value among a plurality of audio signals represented by the first matrix.
  • the first component is extracted from predetermined low order coefficients among the HOA coefficients.
  • the preprocessor performs matrix decomposition of the HOA coefficients using Singular Value Decomposition (SVD).
  • the first rendering is an object-based binaural rendering, and the first rendering unit performs the first rendering by using a head related transfer function (HRTF) based on position vector information corresponding to the first component.
  • HRTF head related transfer function
  • the second rendering is a channel-based binaural rendering, and the second rendering unit maps the second component to at least one virtual channel and performs the second rendering by using an HRTF based on the mapped virtual channel. .
  • the first renderer performs the first rendering by referring to spatial information of at least one object obtained from a video signal corresponding to the input audio signal.
  • the first renderer corrects at least one parameter related to the first component based on spatial information obtained from the video signal, and performs object-based rendering of the first component using the corrected parameter.
  • FIG. 1 is a block diagram illustrating an audio signal processing apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating a binaural renderer according to an exemplary embodiment of the present invention.
  • FIG. 3 shows a process in which a binaural signal is obtained from a signal recorded through a spherical microphone array.
  • FIG. 4 illustrates a process of obtaining a binaural signal from a signal recorded through a binaural microphone array.
  • FIG. 5 illustrates a specific embodiment of generating a binaural signal using a sound scene recorded through a binaural microphone array.
  • the audio signal processing apparatus 10 may include a binaural renderer 100, a binaural parameter controller 200, and a personalizer 300.
  • the binaural renderer 100 receives an input audio signal and performs binaural rendering to generate the two-channel output audio signals L and R.
  • the input audio signal of the binaural renderer 100 may include at least one of a loudspeaker channel signal, an object signal, and an ambisonic signal.
  • the input signal of the binaural renderer 100 may be an encoded bitstream of the audio signal.
  • the output audio signal of the binaural renderer 100 is a binaural signal.
  • the binaural signal is a two-channel audio signal such that each input audio signal is represented by a virtual sound source located in three dimensions.
  • the binaural rendering is performed based on the binaural parameter provided from the binaural parameter controller 200 and may be performed in the time domain or the frequency domain. As described above, the binaural renderer 100 performs binaural rendering on various types of input signals to generate 3D audio headphone signals (ie, 3D audio 2-channel signals).
  • post processing on the output audio signal of the binaural renderer 100 may be further performed.
  • Post processing may include crosstalk rejection, dynamic range control (DRC), loudness normalization, peak limiting, and the like.
  • Post processing may also include frequency / time domain conversion for the output audio signal of the binaural renderer 100.
  • the audio signal processing apparatus 10 may include a separate post processing unit that performs post processing, and according to another embodiment, the post processing unit may be included in the binaural renderer 100.
  • the binaural parameter controller 200 generates a binaural parameter for binaural rendering and transmits the binaural parameter to the binaural renderer 100.
  • the binaural parameters to be transmitted include an ipsilateral transfer function and a contralateral transfer function.
  • the transfer function may include a head related transfer function (HRTF), an interaural transfer function (ITF), a modified ITF (MITF), a binaural room transfer function (BRTF), a room impulse response (RIR), a binaural room impulse response (BRIR), and a HRIR. (Head Related Impulse Response) and its modified and edited data may be included, but the present invention is not limited thereto.
  • the binaural parameter controller 200 may obtain the transfer function from a database (not shown). According to another embodiment of the present invention, the binaural parameter controller 200 may receive a personalized transfer function from the personalizer 300.
  • the transfer function assumes a fast Fourier transform of the impulse response (IR), but the method of transformation in the present invention is not limited thereto. That is, according to an embodiment of the present invention, the transformation method includes a quadrature mirror filter (QMF), a discrete cosine transform (DCT), a discrete sine transform (DST), a wavelet, and the like.
  • the binaural parameter controller 200 may generate the binaural parameter based on the personalized information obtained from the personalizer 300.
  • the personalizer 300 obtains additional information for applying different binaural parameters according to a user, and provides a binaural transfer function determined based on the obtained additional information.
  • the personalizer 300 may select from the database a binaural transfer function (eg, a personalized HRTF) for the user based on the user's physical characteristic information.
  • the physical characteristic information may include information such as the shape and size of the auricle, the shape of the ear canal, the size and type of the skull, the body shape, and the weight.
  • the personalizer 300 provides the determined binaural transfer function to the binaural renderer 100 and / or the binaural parameter controller 200.
  • the binaural renderer 100 may perform binaural rendering of the input audio signal by using a binaural transfer function provided by the personalizer 300.
  • the binaural parameter controller 200 generates a binaural parameter by using a binaural transfer function provided by the personalizer 300 and converts the generated binaural parameter into a binaural renderer. 100).
  • the binaural renderer 100 performs binaural rendering on the input audio signal based on the binaural parameter obtained from the binaural parameter controller 200.
  • the input audio signal of the binaural renderer 100 may be obtained through a conversion process in the format converter 50.
  • the format converter 50 converts an input signal recorded through at least one microphone into an object signal, an ambisonic signal, or the like.
  • the input signal of the format converter 50 may be a microphone array signal.
  • the format converter 50 acquires recording information including at least one of array information, number information, position information, frequency characteristic information, and beam pattern information of microphones constituting the microphone array, and based on the obtained recording information Perform the conversion of
  • the format converter 50 may additionally obtain location information of a sound source, and perform conversion of an input signal using the same.
  • the format converter 50 may perform various types of format conversion as described below.
  • each format signal according to an embodiment of the present invention is defined as follows.
  • the A-format signal refers to the raw signal recorded at the microphone (or microphone array).
  • the recorded original signal may be a signal in which gain or delay is not corrected.
  • the B-format signal indicates an ambisonic signal.
  • the ambisonic signal represents a First Order Ambisonics (FOA) signal or a Higher Order Ambisonics (HOA) signal.
  • FOA First Order Ambisonics
  • HOA Higher Order Ambisonics
  • A2B conversion refers to conversion of an A-format signal to a B-format signal.
  • the format converter 50 may convert the microphone array signal into an ambisonic signal.
  • the position of each microphone of the microphone array on the spherical coordinate system may be expressed as a distance from the center of the coordinate system, an azimuth (or horizontal angle) ⁇ , and an elevation angle (or vertical angle) ⁇ .
  • the basis of the spherical harmonic function can be obtained through the coordinate values of each microphone in the spherical coordinate system.
  • the microphone array signal is projected into the spherical harmonic domain based on each basis of the spherical harmonic function.
  • the microphone array signal can be recorded via a spherical microphone array. If the center of the spherical coordinate system coincides with the center of the microphone array, since the distances from the center of the microphone array to each microphone are all constant, the position of each microphone can be expressed only by the azimuth angle and the elevation angle. More specifically, when the position of the q-th microphone in the microphone array is ( ⁇ q , ⁇ q ), the signal S q recorded through the microphone may be expressed in the spherical harmonic function domain as follows.
  • Y denotes the basis function of the spherical harmonic function
  • B denotes the ambisonic coefficients corresponding to the basis function.
  • an ambisonic signal (or HOA signal) may be used as a term indicating the ambisonic coefficients (or HOA coefficients).
  • k denotes the wave number
  • R denotes the radius of the spherical microphone array.
  • W m (kR) denotes a radian filter for the ambisonic coefficient of the m th order.
  • indicates the degree of the basis function and has a value of +1 or -1.
  • Equation 1 When the number of microphones of the microphone array is L, the maximum M order ambisonic signal may be obtained.
  • M floor (sqrt (L))-1.
  • T is a transformation matrix of size Q ⁇ K
  • b is a column vector of K length
  • s is a column vector of Q length.
  • Q is the total number of microphones constituting the microphone array, and q of 1 in the above equation satisfies 1 ⁇ q ⁇ Q.
  • M indicates the highest order of the Ambisonic signal, and m in Equations 1 and 3 satisfies 0 ⁇ m ⁇ M.
  • the ambisonic signal b may be calculated using Equation 4 below using a pseudo inverse matrix of T.
  • T when the matrix T is a square matrix, T -1 may not be a pseudo inverse but an inverse matrix.
  • the ambisonic signal may be converted into a channel signal and / or an object signal and output. Specific embodiments thereof will be described later. According to an embodiment, when the distance of the loudspeaker layout from which the converted signal is output is different from the initial setting distance, distance rendering may be additionally applied to the converted signal. Through this, it is possible to control the phenomenon in which the generated HOA signal is boosted by spherical waves in the low frequency band due to the change of the loudspeaker distance.
  • a signal of a sound source existing in a specific direction may be beamformed and received.
  • the direction of the sound source may be matched with location information of a specific object in the video.
  • a signal of a sound source in a specific direction may be beamformed and recorded, and the recorded signal may be output to a loudspeaker of the same direction. That is, at least some signals may be steered and recorded in consideration of the loudspeaker layout of the final reproduction stage, and the recorded signals may be used as output signals of a specific loudspeaker without additional post processing.
  • the recorded signal is subjected to post processing such as CPP (Constant Power Panning) or VBAP (Vector-Based Amplitude Panning). Can be output as
  • virtual steering can be performed in the post processing step.
  • the linear combination includes at least one of Principal Component Analysis (PCA), Non-negative Matrix Factorization (NMF), and Deep Neural Network (DNN).
  • PCA Principal Component Analysis
  • NMF Non-negative Matrix Factorization
  • DNN Deep Neural Network
  • the audio signal processing apparatus 10 of the present invention may further include an additional configuration in addition to the configuration shown in FIG. 1.
  • the personalizer 300 illustrated in FIG. 1 may be omitted in the audio signal processing apparatus 10.
  • the format converter 50 may be included as a part of the audio signal processing apparatus 10.
  • the binaural renderer 100 includes a domain switcher 110, a preprocessor 120, a first binaural renderer 130, a second binaural renderer 140, and a mixer.
  • the combiner 150 may be included.
  • the audio signal processing apparatus may refer to the binaural renderer 100 of FIG. 2.
  • the audio signal processing apparatus in a broad sense may refer to the audio signal processing apparatus 10 of FIG. 1 including the binaural renderer 100.
  • the binaural renderer 100 receives an input audio signal and performs binaural rendering on it to generate two-channel output audio signals L and R.
  • the input audio signal of the binaural renderer 100 may include at least one of a loudspeaker channel signal, an object signal, and an ambisonic signal.
  • the HOA signal may be received as an input audio signal of the binaural renderer 100.
  • the domain switcher 110 performs domain conversion on the input audio signal of the binaural renderer 100.
  • the domain transform may include at least one of a fast Fourier transform, an inverse fast Fourier transform, a discrete cosine transform, an inverse discrete cosine transform, a QMF analysis, and a QMF synthesis, but the present invention is not limited thereto.
  • the input signal of the domain switcher 110 may be a time domain audio signal
  • the output signal of the domain switcher 110 may be a subband audio signal of the frequency domain or the QMF domain.
  • the present invention is not limited thereto.
  • the input audio signal of the binaural renderer 100 is not limited to the time domain audio signal, and the domain switcher 110 may be omitted from the binaural renderer 100 according to the type of the input audio signal.
  • the output signal of the domain switcher 110 is not limited to the subband audio signal, and different domain signals may be output according to the type of the audio signal. According to a further embodiment of the present invention, one signal may be converted into a plurality of different domain signals.
  • the preprocessor 120 performs preprocessing for rendering the audio signal according to an embodiment of the present invention.
  • the audio signal processing apparatus may perform various types of preprocessing and / or rendering.
  • the audio signal processing apparatus may render at least one object signal as a channel signal.
  • the audio signal processing apparatus may separate a channel signal or an ambisonic signal (eg, HOA coefficients) into a first component and a second component.
  • the first component represents an audio signal (ie an object signal) corresponding to at least one sound object.
  • the first component is extracted from the original signal according to a preset criterion. Specific embodiments thereof will be described later.
  • the second component is the remaining component after the first component is extracted from the original signal.
  • the second component may represent an ambient signal and may also be referred to as a background signal.
  • the audio signal processing apparatus may render all or part of an ambisonic signal (eg, HOA coefficients) as a channel signal.
  • the preprocessor 120 may perform various types of preprocessing such as conversion of audio signals, decomposition, extraction of some components, and the like. Separate metadata may be used for preprocessing the audio signal.
  • the user may increase or decrease the level of the object signal by multiplying a specific object signal by a gain greater than 1 or a gain less than 1.
  • the converted audio signal Y may be expressed by the following equation.
  • the conversion matrix T may be determined based on a factor defined as cost in the audio signal conversion process. For example, when the entropy of the transformed audio signal Y is defined as cost, the transformation matrix T may be determined as a matrix that minimizes the entropy. In this case, the converted audio signal Y may be an advantageous signal for compression, transmission, and storage. In addition, when the cross-correlation between elements of the converted audio signal Y is defined as a cost, the transformation matrix T may be determined as a matrix that minimizes the cross-correlation. At this time, the converted audio signal Y becomes orthogonal between elements, and it becomes easy to extract the characteristics of each element or to perform separate processing on a specific element.
  • the binaural rendering unit performs the binaural rendering on the audio signal that has been preprocessed by the preprocessor 120.
  • the binaural rendering unit performs binaural rendering of the audio signal based on the transmitted binaural parameter.
  • Binaural parameters include ipsilateral transfer functions and contralateral transfer functions.
  • the transfer function may include at least one of HRTF, ITF, MITF, BRTF, RIR, BRIR, HRIR, and its modified and edited data, as described above in the embodiment of FIG. 1.
  • the binaural renderer 100 may include a plurality of binaural renderers 130 and 140 that perform different types of rendering.
  • the binaural rendering unit 140 may process.
  • the first binaural rendering unit 130 may perform object-based binaural rendering.
  • the first binaural rendering unit 130 filters the input object signal using a transfer function corresponding to the position of the corresponding object.
  • the second binaural rendering unit 140 may perform channel based binaural rendering.
  • the second binaural rendering unit 140 filters the input channel signal using a transfer function corresponding to the position of the corresponding channel. Specific embodiments thereof will be described later.
  • the mixer & combiner 160 generates an output audio signal by combining the signal rendered by the first binaural renderer 130 and the signal rendered by the second binaural renderer 140.
  • the binaural renderer 100 may generate an output audio signal of the time domain by QMF synthesis of the combined signal at 160 in the mixer & combiner.
  • the binaural renderer 100 illustrated in FIG. 2 is a block diagram according to an embodiment of the present invention, in which blocks shown separately represent logically distinguishing elements of a device. Therefore, the elements of the above-described device may be mounted in one chip or in a plurality of chips according to the design of the device. For example, the first binaural rendering unit 130 and the second binaural rendering unit 140 may be integrated into one chip or implemented as a separate chip.
  • the binaural rendering method of an audio signal has been described with reference to FIGS. 1 and 2, the present invention may be extended to a rendering method of an audio signal for loudspeaker output.
  • the binaural renderer 100 and the binaural parameter controller 200 of FIG. 1 are replaced by a rendering device and a parameter controller, respectively, and the first binaural renderer 130 and the second binao of FIG.
  • the barrel rendering unit 140 may be replaced with a first rendering unit and a second rendering unit, respectively.
  • the rendering apparatus of the audio signal may include a first renderer and a second renderer that perform different types of rendering.
  • the first renderer performs a first rendering on the first component separated from the input audio signal
  • the second renderer performs a second rendering on the second component separated from the input audio signal.
  • the first rendering may be object-based rendering
  • the second rendering may be channel-based rendering.
  • O2C conversion refers to the conversion from the object signal to the channel signal
  • O2B conversion refers to the conversion from the object signal to the B-format signal.
  • the object signal may be divided into channel signals having a preset loudspeaker layout. More specifically, the object signal may be distributed by reflecting the gain to the channel signal of the loudspeakers near the position of the object.
  • VBAP Vector Based Amplitude Panning
  • the C2O conversion refers to the conversion from the channel signal to the object signal
  • the B2O conversion refers to the conversion from the B-format signal to the object signal.
  • Blind source separation techniques may be used to convert channel signals or B-format signals into object signals.
  • Blind source separation techniques include Principal Component Analysis (PCA), Non-negative Matrix Factorization (NMF), Deep Neural Network (DNN), and the like.
  • PCA Principal Component Analysis
  • NMF Non-negative Matrix Factorization
  • DNN Deep Neural Network
  • the channel signal or the B-format signal can be separated into a first component and a second component.
  • the first component may be an object signal corresponding to at least one sound object.
  • the second component may be the remaining component after the first component is extracted from the original signal.
  • HOA coefficients may be separated into a first component and a second component.
  • the audio signal processing apparatus performs different rendering on the separated first component and the second component.
  • U, S, and V matrices may be expressed as shown in Equation 6 below.
  • U is a unitary matrix
  • S is a non-negative diagonal matrix
  • V is a unitary matrix
  • O represents the highest order of the HOA coefficients matrix H (ie, an ambisonic signal).
  • the product us i of the column vectors of U and S represents the i-th object signal
  • the column vector v i of V represents the position (ie, spatial characteristic) information of the i-th object signal. That is, the HOA coefficients matrix H may be decomposed into a first matrix US representing a plurality of audio signals and a second matrix V representing position vector information of each of the plurality of audio signals.
  • Matrix decomposition of HOA coefficients means matrix dimension reduction or matrix factorization of HOA coefficients.
  • matrix decomposition of HOA coefficients may be performed using Singular Value Decomposition (SVD).
  • SVD Singular Value Decomposition
  • the present invention is not limited thereto, and matrix decomposition using PCA, NMF, or DNN may be performed according to the type of the input signal.
  • the preprocessor of the audio signal processing apparatus performs matrix decomposition of the HOA coefficients matrix H as described above.
  • the preprocessor may extract position vector information corresponding to the first component of the HOA coefficients from the decomposed matrix V.
  • FIG. The audio signal processing apparatus performs object-based rendering of the first component of the HOA coefficients by using the extracted position vector information.
  • the audio signal processing apparatus may separate HOA coefficients into a first component and a second component according to various embodiments.
  • the corresponding signal when the size of us i is larger than a predetermined level, the corresponding signal may be regarded as an audio signal of an individual sound object located in v i . However, if the size of us i is smaller than a certain level, the corresponding signal may be regarded as an ambient signal.
  • the first component may be extracted from a predetermined number N f of audio signals having a high level order among the plurality of audio signals represented by the first matrix US.
  • the audio signal us i and the position vector information v i may be arranged in the order of the level of the corresponding audio signal in the U, S, and V matrices after matrix decomposition is performed.
  • Equation 6 When the highest-order coefficient of the HOA O aembi the sonic signal is composed of two aembi sonic channel signal total (O + 1).
  • N f is set to a value less than or equal to the total number of Ambisonic channel signals (O + 1) 2 .
  • N f may be set to a value smaller than (O + 1) 2 .
  • N f may be adjusted based on the complexity-quality control information.
  • the audio signal processing apparatus may perform an efficient operation by performing object-based rendering on a number of audio signals less than the total number of ambisonic channels.
  • the first component may be extracted from audio signals having a level equal to or higher than a predetermined threshold value among the plurality of audio signals represented by the first matrix US.
  • the number of audio signals extracted to the first component may vary according to the threshold.
  • the audio signal processing apparatus performs object-based rendering of the signal us i extracted with the first component using the position vector v i corresponding to the corresponding signal.
  • object-based binaural rendering for the first component may be performed.
  • the first rendering unit (ie, the first binaural rendering unit) of the audio signal processing apparatus may perform binaural rendering of the audio signal us i using an HRTF based on the position vector v i .
  • the first component may be extracted from predetermined low order coefficients among the input HOA coefficients. For example, when the highest order of the input HOA coefficients is fourth order, the first component may be extracted from the 0th and 1st HOA coefficients. This is because low order HOA coefficients may reflect the signal of a dominant sound object.
  • the audio signal processing apparatus performs object-based rendering of low order HOA coefficients using the position vector v i corresponding thereto.
  • the second component indicates the residual signal after the first component is extracted from the input HOA coefficients.
  • the second component may represent an ambient signal and may also be referred to as a background (B.G.) signal.
  • the audio signal processing apparatus performs channel based rendering on the second component. More specifically, the second rendering unit of the audio signal processing apparatus maps the second component to at least one virtual channel and outputs the signal of the mapped virtual channel (s). According to an embodiment of the present invention, channel-based binaural rendering for the second component may be performed. In this case, the second rendering unit (ie, the second binaural rendering unit) of the audio signal processing apparatus maps the second component to at least one virtual channel, and uses the HRTF based on the mapped virtual channel to determine the second component. Binaural rendering can be performed. A detailed embodiment of channel based rendering for HOA coefficients will be described later.
  • the audio signal processing apparatus may perform channel-based rendering on only some signals of the second component for efficient computation. More specifically, the second rendering unit (or the second binaural rendering unit) of the audio signal processing apparatus may perform channel based rendering only on coefficients of a predetermined order or less among the second components. For example, when the highest order of the input HOA coefficients is 4th order, channel based rendering may be performed only for coefficients below 3rd order. The audio signal processing apparatus may not perform rendering on coefficients exceeding a predetermined order (eg, fourth order) among the input HOA coefficients.
  • a predetermined order eg, fourth order
  • the audio signal processing apparatus may perform complex rendering on the input audio signal.
  • the preprocessor of the audio signal processing apparatus splits the input audio signal into a first component corresponding to the at least one object signal and a second component corresponding to the residual signal. Further, the preprocessor decomposes the input audio signal into a first matrix US representing a plurality of audio signals and a second matrix V representing position vector information of each of the plurality of audio signals. The preprocessor may extract the position vector information corresponding to the separated first component from the second matrix V.
  • the first rendering unit (or the first binaural rendering unit) of the audio signal processing apparatus performs object-based rendering on the first component by using the position vector information v i of the second matrix V corresponding to the first component. do.
  • the second rendering unit (or the second binaural rendering unit) of the audio signal processing apparatus performs channel based rendering on the second component.
  • the relative position of the sound source with respect to the listener can be easily obtained using the characteristics of the signal (for example, known spectral information of the original signal).
  • the position of the individual sound object may be defined using metadata such as predetermined spatial information and / or video information.
  • the matrix V may be estimated using NMF, DNN, or the like. In this case, the preprocessor may more accurately estimate the matrix V using separate metadata such as video information.
  • the audio signal processing apparatus may perform the conversion of the audio signal using metadata.
  • the metadata includes information of a non-audio signal such as a video signal.
  • position information of a specific object may be obtained from a corresponding video signal.
  • the preprocessor may determine the transformation matrix T of Equation 5 based on the position information obtained from the video signal.
  • the transformation matrix T may be determined by an approximated equation according to the position of a specific object.
  • the audio signal processing apparatus may reduce the amount of computation for preprocessing by using an approximated equation before loading it into a memory.
  • the object signal may be extracted from the input HOA signal with reference to the information of the video signal corresponding to the input HOA signal.
  • the audio signal processing apparatus matches the spatial coordinate system of the video signal with the spatial coordinate system of the HOA signal.
  • the 0 degree azimuth angle and the 0 degree elevation angle of the 360 video signal may match the 0 degree azimuth angle and the 0 degree elevation angle of the HOA signal.
  • geo-location of the 360 video signal and the HOA signal may be matched.
  • the 360 video signal and the HOA signal may share rotation information such as yaw, pitch, and roll.
  • one or more Candidate Dominant Visual Objects may be extracted from a video signal.
  • one or more Candidate Dominant Audio Objects may be extracted from the HOA signal.
  • the audio signal processing apparatus cross-references the CDVO and the CDAO to determine a Dominant Visual Object (DVO) and a Dominant Audio Object (DAO).
  • the ambiguity of candidate objects may be calculated as a probability value.
  • the audio signal processing apparatus may determine the DVO and the DAO through an iterative process of comparing and using respective ambiguity probability values.
  • CDVO and CDAO may not correspond 1: 1.
  • there may be a soundless visual object such as a tree or the sun.
  • a dominant object in which a visual object and an audio object are matched is referred to as a dominant audio-visual object (DAVO).
  • the audio signal processing apparatus may determine the DAVO by cross-referencing the CDVO and the CDAO.
  • the audio signal processing apparatus may perform object-based rendering with reference to spatial information of at least one object obtained from the video signal.
  • the spatial information of the object includes position information of the object and size (or volume) information of the object.
  • the spatial information of the at least one object may be obtained from any one of CDVO, DVO, or DAVO.
  • the first rendering unit of the audio signal processing apparatus may correct at least one parameter related to the first component based on spatial information obtained from the video signal.
  • the first renderer performs object-based rendering of the first component using the corrected parameters.
  • the audio signal processing apparatus may accurately obtain position information of a moving object with reference to the trajectory information of the CDVO and / or the trajectory information of the CDAO.
  • the trajectory information of the CDVO may be obtained by referring to the position information of the object in the previous frame of the video signal.
  • the size information of the CDAO may be determined or corrected by referring to the size (or volume) information of the CDVO.
  • the audio signal processing apparatus may perform rendering based on the size information of the audio object. For example, a HOA parameter such as a beam width for the corresponding object may be changed based on the size information of the audio object.
  • binaural rendering may be performed that reflects the size of the object based on the size information of the audio object.
  • Binaural rendering that reflects the size of the object may be performed through control of the auditory width.
  • a method of controlling the acoustic width there is a method of performing binaural rendering corresponding to a plurality of different positions, a method of controlling the acoustic width using a decorator, and the like.
  • the audio signal processing apparatus may improve the performance of object-based rendering by referring to spatial information of an object obtained from a video signal. That is, the extraction performance of the first component corresponding to the object signal from the input audio signal may be improved.
  • B2C conversion refers to the conversion of a B-format signal to a channel signal.
  • the loudspeaker channel signal may be obtained through matrix transformation of the ambisonic signal.
  • the B2C conversion may be expressed as Equation 7 below.
  • the decoding matrix (ie, the B2C transformation matrix) D is a pseudo inverse or inverse of the matrix C for converting the loudspeaker channel into a spherical harmonic domain, and may be expressed as Equation 8 below.
  • N represents the number of loudspeaker channels (or virtual channels), and the definitions of the remaining variables are as described in Equation 1 to Equation 3 below.
  • B2C conversion may be performed only on a portion of the input ambisonic signal.
  • the ambisonic signal ie, the HOA coefficients
  • channel-based rendering may be performed on the second component. If the input ambisonic signal is b original and the first component is b Nf , the second component b residual may be obtained as shown in Equation 9 below.
  • the second component b residual represents a residual signal after the first component b Nf has been extracted from the input ambisonic signal b original , which is also an ambisonic signal.
  • channel-based rendering of the second component b residual may be performed as in Equation 9 below.
  • D is as defined in Equation (8).
  • the second renderer of the audio signal processing apparatus may map the second component b residual to N virtual channels and output the signal of the mapped virtual channels.
  • the positions of the N virtual channels are (r 1 , ⁇ 1 , ⁇ 1 ),. , (r N , ⁇ N , ⁇ N ).
  • the positions of the N virtual channels are ( ⁇ 1 , ⁇ 1 ),. , ( ⁇ N , ⁇ N ).
  • channel-based binaural rendering for the second component may be performed.
  • the second rendering unit (ie, the second binaural rendering unit) of the audio signal processing apparatus maps the second component to N virtual channels and uses the HRTF based on the mapped virtual channels to make the second component. Binaural rendering of.
  • the audio signal processing apparatus may perform B2C conversion and rotation conversion of the input audio signal together.
  • the position of the individual channel is expressed by the azimuth angle ⁇ and the altitude angle ⁇ , if the corresponding position is mapped onto the unit sphere, it may be expressed as Equation 11 below.
  • the audio signal processing apparatus may obtain the adjusted positions ( ⁇ ', ⁇ ') of the individual channels after the rotation transformation through the above equation, and determine the B2C transformation matrix D based on the adjusted positions ( ⁇ ', ⁇ '). have.
  • Binaural rendering of the input audio signal may be performed through filtering using a BRIR filter corresponding to the position of a specific virtual channel.
  • the input audio signal may be represented by X
  • the conversion matrix is T
  • the converted audio signal is Y.
  • a BRIR filter ie, a BRIR matrix
  • H Y the binaurally rendered signal B Y of Y may be expressed by Equation 13 below.
  • conv (X, Y) means a convolution operation of X and Y.
  • Equation 14 may be satisfied.
  • the matrix D may be obtained as a pseudo inverse (or inverse matrix) of the transformation matrix T.
  • H X the binaurally rendered signal B X of X may be expressed by Equation 15 below.
  • the transformation matrix T and the inverse transformation matrix D may be determined according to the conversion form of the audio signal.
  • the matrix T and the matrix D may be determined based on the VBAP.
  • the matrix T and the matrix D may be determined based on the aforementioned B2C transformation matrix.
  • the matrix T and the matrix D may be determined based on a flexible rendering technique or with reference to the CDVO.
  • H Y T or H X D may also be sparse.
  • the audio signal processing apparatus may analyze the sparsity of the matrix T and the matrix D, and perform binaural rendering using a matrix having a high sparsity. That is, when the matrix T has a higher sparsity, the audio signal processing apparatus may perform binaural rendering of the converted audio signal Y. However, if the matrix D has higher sparsity, the audio signal processing apparatus may perform binaural rendering of the input audio signal X.
  • the audio signal processing apparatus may switch the binaural rendering of the audio signal Y and the binaural rendering of the audio signal X.
  • the audio signal processing apparatus may perform switching by using a fade-in / fade-out window or by applying a smoothing factor.
  • the format converter 50 may convert the microphone array signal (ie, A-format signal) into an ambisonic signal (ie, B-format signal) through the above-described A2B conversion process.
  • the audio signal processing apparatus may perform binaural rendering on an ambisonic signal in various embodiments described above or a combination thereof.
  • the binaural renderer 100A performs binaural rendering on an ambisonic signal by using a B2C transform and a C2P transform.
  • C2P conversion refers to a conversion from a channel signal to a binaural signal.
  • the binaural renderer 100A may receive head tracking information reflecting the movement of the listener's head, and perform matrix multiplication for rotation transformation of the B-format signal based on this. As described above, the binaural renderer 100A may determine the B2C transformation matrix based on the rotation transformation information.
  • the B-format signal is converted into a virtual channel signal or a real loudspeaker channel signal using a B2C conversion matrix.
  • the channel signal is then converted to a final binaural signal through C2P conversion.
  • the binaural renderer 100B may perform binaural rendering on an ambisonic signal by using a B2P transform.
  • B2P conversion refers to a direct conversion from a B-format signal to a binaural signal. That is, the binaural renderer 100B directly converts the B-format signal into a binaural signal without undergoing a process of converting the B-format signal into a channel signal.
  • the binaural microphone array 30 may be composed of 2N microphones 32 present on a horizontal plane. According to one embodiment, each microphone 32 of the binaural microphone array 30 may be arranged with a pinwheel model depicting the shape of the outer ear. Therefore, each microphone 32 of the binaural microphone array 30 may record an acoustic signal as a signal to which the HRTF is applied. The signal recorded through the wheel model is filtered by reflection and scattering of sound waves by the wheel structure.
  • the binaural microphone array 30 is composed of 2N microphones 32, a sound scene of N-points (i.e., N directions) can be recorded. When N is 4, the binaural microphone array 30 may record four sound scenes at azimuth 90 degree intervals.
  • the binaural renderer 100 generates a binaural signal using the sound scene information received from the binaural microphone array 30.
  • the binaural renderer 100 may perform interactive binaural rendering (ie, 360 rendering) using the head tracking information.
  • interactive binaural rendering ie, 360 rendering
  • the input sound scene information is limited to N-points
  • interpolation using 2N microphone input signals is required to render a sound scene corresponding to azimuths therebetween.
  • an extrapolation must be performed to render the audio signal corresponding to the specific elevation angle.
  • the binaural renderer 100 may generate a binaural signal through azimuth interpolation and elevation angle extrapolation of the input sound scene.
  • the binaural renderer 100 may perform azimuth interpolation of an input sound scene based on azimuth information.
  • the binaural renderer 100 may power pan the input sound scene to the signal of the two nearest points. More specifically, the binaural leatherer 100 obtains the head direction information of the listener, and determines the first point and the second point corresponding to the head direction information.
  • the binaural renderer 100 maps the head direction of the listener to the plane of the first point and the second point, and uses the respective distances from the mapped position to the first point and the second point. Can be determined.
  • the binaural renderer 100 performs azimuth interpolation using the determined interpolation coefficient. Through this azimuth interpolation, power-panned output signals Pz_L and Pz_R may be generated.
  • the binaural renderer 100 may additionally perform altitude angle extrapolation based on the altitude angle information.
  • the binaural renderer 100 may generate output signals Pze_L and Pze_R reflecting the elevation angle e by performing filtering using a parameter corresponding to the elevation angle e to the signals Pz_L and Pz_R on which the azimuth interpolation has been performed.
  • the parameter corresponding to the elevation angle e may include notch and peak values corresponding to the elevation angle e.
  • Embodiments of the present invention described above may be implemented through various means.
  • embodiments of the present invention may be implemented by hardware, firmware, software, or a combination thereof.
  • a method according to embodiments of the present invention may include one or more Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPDs), and Programmable Logic Devices (PLDs). It may be implemented by field programmable gate arrays (FPGAs), processors, controllers, microcontrollers, microprocessors, and the like.
  • ASICs Application Specific Integrated Circuits
  • DSPs Digital Signal Processors
  • DSPDs Digital Signal Processing Devices
  • PLDs Programmable Logic Devices
  • FPGAs field programmable gate arrays
  • processors controllers, microcontrollers, microprocessors, and the like.
  • the method according to the embodiments of the present invention may be implemented in the form of a module, a procedure, or a function that performs the functions or operations described above.
  • the software code may be stored in memory and driven by the processor.
  • the memory may be located inside or outside the processor, and may exchange data with the processor by various known means.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 오디오 신호 처리 장치 및 처리 방법에 관한 것으로서, 더욱 구체적으로 고차 앰비소닉 신호를 효율적으로 렌더링하기 위한 장치 및 방법에 관한 것이다. 이를 위해 본 발명은, 입력 오디오 신호를 적어도 하나의 오브젝트 신호에 대응하는 제1 콤포넌트와 잔여 신호에 대응하는 제2 콤포넌트로 분리하고, 상기 제1 콤포넌트에 대응하는 위치 벡터 정보를 상기 입력 오디오 신호로부터 추출하는 전처리부; 상기 위치 벡터 정보를 이용하여 상기 제1 콤포넌트에 오브젝트 기반의 제1 렌더링을 수행하는 제1 렌더링부; 및 상기 제2 콤포넌트에 채널 기반의 제2 렌더링을 수행하는 제2 렌더링부; 를 포함하는 오디오 신호 처리 장치 및 이를 이용한 오디오 신호 처리 방법을 제공한다.

Description

오디오 신호 처리 장치 및 처리 방법
본 발명은 오디오 신호 처리 장치 및 처리 방법에 관한 것으로서, 더욱 구체적으로 고차 앰비소닉 신호를 효율적으로 렌더링하기 위한 장치 및 방법에 관한 것이다.
3D 오디오란 기존의 서라운드 오디오에서 제공하는 수평면(2D) 상의 사운드 장면에 높이 방향에 해당하는 또 다른 축을 제공함으로써, 3차원 공간상에서 임장감 있는 사운드를 제공하기 위한 일련의 신호 처리, 전송, 부호화 및 재생기술 등을 통칭한다. 특히, 3D 오디오를 제공하기 위해서는 종래보다 많은 수의 스피커를 사용하거나 혹은 적은 수의 스피커를 사용하더라도 스피커가 존재하지 않는 가상의 위치에서 음상이 맺히도록 하는 렌더링 기술이 요구된다.
3D 오디오는 초고해상도 TV(UHDTV)에 대응되는 오디오 솔루션이 될 것이며, 다양한 분야 및 디바이스에서 사용될 것으로 예상된다. 3D 오디오에 제공되는 음원의 형태로는 채널 기반의 신호와 오브젝트 기반의 신호가 존재할 수 있다. 이 뿐만 아니라, 채널 기반의 신호와 오브젝트 기반의 신호가 혼합된 형태의 음원이 존재할 수 있으며, 이를 통해 유저로 하여금 새로운 형태의 청취 경험을 제공할 수 있다.
한편, 장면 기반의 몰입형(immersive) 사운드를 제공하기 위한 기술로서 고차 앰비소닉(Higher Order Ambisonics, HOA)이 이용될 수 있다. HOA는 전체 오디오 장면을 콤팩트하게 최적의 상태로 재현함으로 고품질의 3차원 입체 사운드를 제공할 수 있다. 임장감 있는 사운드의 제공이 중요한 가상 현실(VR)에서는 HOA 기술이 유용하게 사용될 수 있다. 그러나 HOA는 전체 오디오 장면을 재현하는 성능은 우수한 반면에, 오디오 장면 내에서 개별 사운드 오브젝트의 위치를 정확하게 표현하는 성능은 떨어지는 단점이 존재한다.
본 발명은 더욱 실감나는 몰입형 사운드를 제공하기 위해 HOA 신호의 렌더링 성능을 향상시키기 위한 목적을 가지고 있다.
또한, 본 발명은 오디오 신호에 대한 바이노럴 렌더링을 효율적으로 수행하기 위한 목적을 가지고 있다.
또한, 본 발명은 가상 현실 콘텐츠의 오디오 신호에 대한 몰입형 바이노럴 렌더링을 구현하기 위한 목적을 가지고 있다.
상기와 같은 과제를 해결하기 위해, 본 발명은 다음과 같은 오디오 신호 처리 장치 및 오디오 신호 처리 방법을 제공한다.
먼저 본 발명의 실시예에 따르면, 오디오 신호 처리 장치로서, 입력 오디오 신호를 적어도 하나의 오브젝트 신호에 대응하는 제1 콤포넌트와 잔여 신호에 대응하는 제2 콤포넌트로 분리하고, 상기 제1 콤포넌트에 대응하는 위치 벡터 정보를 상기 입력 오디오 신호로부터 추출하는 전처리부; 상기 위치 벡터 정보를 이용하여 상기 제1 콤포넌트에 오브젝트 기반의 제1 렌더링을 수행하는 제1 렌더링부; 및 상기 제2 콤포넌트에 채널 기반의 제2 렌더링을 수행하는 제2 렌더링부; 를 포함하는 오디오 신호 처리 장치가 제공된다.
또한 본 발명의 실시예에 따르면, 오디오 신호 처리 방법으로서, 입력 오디오 신호를 적어도 하나의 오브젝트 신호에 대응하는 제1 콤포넌트와 잔여 신호에 대응하는 제2 콤포넌트로 분리하는 단계; 상기 제1 콤포넌트에 대응하는 위치 벡터 정보를 상기 입력 오디오 신호로부터 추출하는 단계; 상기 위치 정보 벡터를 이용하여 상기 제1 콤포넌트에 오브젝트 기반의 제1 렌더링을 수행하는 단계; 및 상기 제2 콤포넌트에 채널 기반의 제2 렌더링을 수행하는 단계; 를 포함하는 오디오 신호 처리 방법이 제공된다.
상기 입력 오디오 신호는 HOA(Higher Order Ambisonics) 계수들을 포함하며, 상기 전처리부는 상기 HOA 계수들을 복수의 오디오 신호들을 나타내는 제1 행렬과, 상기 복수의 오디오 신호들 각각의 위치 벡터 정보를 나타내는 제2 행렬로 분해하고, 상기 제1 렌더링부는 상기 제1 콤포넌트에 대응하는 상기 제2 행렬의 위치 벡터 정보를 이용하여 오브젝트 기반의 렌더링을 수행한다.
상기 제1 콤포넌트는 상기 제1 행렬이 나타내는 복수의 오디오 신호들 중 높은 레벨 순서의 기 설정된 개수의 오디오 신호들로부터 추출된다.
상기 제1 콤포넌트는 상기 제1 행렬이 나타내는 복수의 오디오 신호들 중 기 설정된 임계값 이상의 레벨을 갖는 오디오 신호들로부터 추출된다.
상기 제1 콤포넌트는 상기 HOA 계수들 중 기 설정된 저 차수의 계수들로부터 추출된다.
상기 전처리부는 SVD(Singular Value Decomposition)를 이용하여 상기 HOA 계수들의 행렬 분해를 수행한다.
상기 제1 렌더링은 오브젝트 기반의 바이노럴 렌더링이며, 상기 제1 렌더링부는 상기 제1 콤포넌트에 대응하는 위치 벡터 정보에 기초한 HRTF(Head Related Transfer Function)를 이용하여 상기 제1 렌더링을 수행한다.
상기 제2 렌더링은 채널 기반의 바이노럴 렌더링이며, 상기 제2 렌더링부는 상기 제2 콤포넌트를 적어도 하나의 가상 채널로 매핑하고, 매핑된 가상 채널에 기초한 HRTF를 이용하여 상기 제2 렌더링을 수행한다.
상기 제1 렌더링부는 상기 입력 오디오 신호에 대응하는 비디오 신호로부터 획득된 적어도 하나의 오브젝트의 공간적 정보를 참조하여 상기 제1 렌더링을 수행한다.
상기 제1 렌더링부는 상기 제1 콤포넌트에 관계된 적어도 하나의 파라메터를 상기 비디오 신호로부터 획득된 공간적 정보에 기초하여 보정하고, 보정된 파라메터를 이용하여 상기 제1 콤포넌트에 대한 오브젝트 기반의 렌더링을 수행한다.
본 발명의 실시예에 따르면, 낮은 연산량으로 고품질의 바이노럴 사운드를 제공할 수 있다.
또한 본 발명의 실시예에 따르면, 바이노럴 렌더링 시 발생할 수 있는 음성 정위의 열화 및 음질 저하를 방지할 수 있다.
또한 본 발명의 실시예에 따르면, 낮은 연산량으로 공간감, 음상 정위 성능이 향상된 HOA 신호의 렌더링을 구현할 수 있다.
도 1은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치를 나타내는 블록도.
도 2는 본 발명의 실시예에 따른 바이노럴 렌더러를 나타내는 블록도이다.
도 3은 구형 마이크 어레이를 통해 녹음된 신호로부터 바이노럴 신호가 획득되는 과정을 나타낸다.
도 4는 바이노럴 마이크 어레이를 통해 녹음된 신호로부터 바이노럴 신호가 획득되는 과정을 나타낸다.
도 5는 바이노럴 마이크 어레이를 통해 녹음된 사운드 씬을 이용하여 바이노럴 신호를 생성하는 구체적인 실시예를 나타낸다.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가진 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.
명세서 전체에서, 어떤 구성이 다른 구성과 “연결”되어 있다고 할 때, 이는 “직접적으로 연결”되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 “전기적으로 연결”되어 있는 경우도 포함한다. 또한 어떤 구성이 특정 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 이에 더하여, 특정 임계값을 기준으로 “이상” 또는 “이하”라는 한정 사항은 실시예에 따라 각각 “초과” 또는 “미만”으로 적절하게 대체될 수 있다.
도 1은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치를 나타낸 블록도이다. 도 1을 참조하면, 오디오 신호 처리 장치(10)는 바이노럴 렌더러(100), 바이노럴 파라메터 컨트롤러(200) 및 퍼스널라이저(300)를 포함할 수 있다.
먼저, 바이노럴 렌더러(100)는 입력 오디오 신호를 수신하고, 이에 대한 바이노럴 렌더링을 수행하여 2채널 출력 오디오 신호 L, R을 생성한다. 바이노럴 렌더러(100)의 입력 오디오 신호는 라우드스피커 채널 신호, 오브젝트 신호, 앰비소닉(ambisonic) 신호 중 적어도 하나를 포함할 수 있다. 일 실시예에 따르면, 바이노럴 렌더러(100)가 별도의 디코더를 포함할 경우, 바이노럴 렌더러(100)의 입력 신호는 상기 오디오 신호의 부호화된 비트스트림이 될 수 있다.
바이노럴 렌더러(100)의 출력 오디오 신호는 바이노럴 신호이다. 바이노럴 신호는 각 입력 오디오 신호가 3차원상에 위치한 가상의 음원에 의해 표현되도록 하는 2채널의 오디오 신호이다. 바이노럴 렌더링은 바이노럴 파라메터 컨트롤러(200)로부터 제공된 바이노럴 파라메터를 기초로 수행되며, 시간 도메인 또는 주파수 도메인 상에서 수행될 수 있다. 이와 같이, 바이노럴 렌더러(100)는 다양한 타입의 입력 신호에 대한 바이노럴 렌더링을 수행하여 3D 오디오 헤드폰 신호(즉, 3D 오디오 2채널 신호)를 생성한다.
일 실시예에 따르면, 바이노럴 렌더러(100)의 출력 오디오 신호에 대한 포스트 프로세싱이 추가로 수행될 수 있다. 포스트 프로세싱에는 크로스톡 제거, DRC(Dynamic Range Control), 음량 정규화, 피크 제한 등이 포함될 수 있다. 또한, 포스트 프로세싱은 바이노럴 렌더러(100)의 출력 오디오 신호에 대한 주파수/시간 도메인 변환을 포함할 수 있다. 오디오 신호 처리 장치(10)는 포스트 프로세싱을 수행하는 별도의 포스트 프로세싱부를 포함할 수 있으며, 다른 실시예에 따르면 포스트 프로세싱부는 바이노럴 렌더러(100)에 포함될 수도 있다.
바이노럴 파라메터 컨트롤러(200)는 바이노럴 렌더링을 위한 바이노럴 파라메터를 생성하여 이를 바이노럴 렌더러(100)에 전달한다. 이때, 전달되는 바이노럴 파라메터에는 동측(ipsilateral) 전달 함수 및 대측(contralateral) 전달 함수를 포함한다. 이때, 전달 함수는 HRTF(Head Related Transfer Function), ITF(Interaural Transfer Function), MITF(Modified ITF), BRTF(Binaural Room Transfer Function), RIR(Room Impulse Response), BRIR(Binaural Room Impulse Response), HRIR(Head Related Impulse Response) 및 이의 변형 및 편집 된 데이터 중 적어도 하나를 포함할 수 있으며, 본 발명은 이에 한정되지 않는다.
본 발명의 일 실시예에 따르면, 바이노럴 파라메터 컨트롤러(200)는 데이터베이스(미도시)로부터 상기 전달 함수를 획득할 수 있다. 본 발명의 다른 실시예에 따르면, 바이노럴 파라메터 컨트롤러(200)는 개인화된(personalized) 전달 함수를 퍼스널라이저(300)로부터 수신할 수 있다. 본 발명에서는 전달함수는 IR(Impulse Response)을 고속 푸리에 변환(fast Fourier transform) 한 것으로 전제하나, 본 발명에서 변환의 방법은 이에 한정되지 않는다. 즉 본 발명의 실시예에 따르면, 변환 방법은 QMF(quadrature mirror Filter), 이산 코사인 변환(Discrete Cosine Transform, DCT), 이산 사인 변환(Discrete Sine Transform, DST), Wavelet 등을 포함한다.
본 발명의 일 실시예에 따르면, 바이노럴 파라메터 컨트롤러(200)는 퍼스널라이저(300)로부터 획득된 개인화된 정보에 기초하여 바이노럴 파라메터를 생성할 수 있다. 퍼스널라이저(300)는 유저에 따라 서로 다른 바이노럴 파라메터를 적용하기 위한 부가 정보를 획득하고, 획득된 부가 정보에 기초하여 결정된 바이노럴 전달 함수를 제공한다. 예를 들어, 퍼스널라이저(300)는 유저의 신체적 특징 정보에 기초하여, 해당 유저를 위한 바이노럴 전달 함수(이를테면, 개인화된 HRTF)를 데이터베이스로부터 선택할 수 있다. 이때, 신체적 특징 정보는 귓바퀴의 모양 및 크기, 외이도의 형태, 두개골의 크기 및 유형, 체형, 체중 등의 정보를 포함할 수 있다.
퍼스널라이저(300)는 결정된 바이노럴 전달 함수를 바이노럴 렌더러(100) 및/또는 바이노럴 파라메터 컨트롤러(200)에 제공한다. 일 실시예에 따르면, 바이노럴 렌더러(100)는 퍼스널라이저(300)에서 제공된 바이노럴 전달 함수를 이용하여 입력 오디오 신호에 대한 바이노럴 렌더링을 수행할 수 있다. 다른 실시예에 따르면, 바이노럴 파라메터 컨트롤러(200)는 퍼스널라이저(300)에서 제공된 바이노럴 전달 함수를 이용하여 바이노럴 파라메터를 생성하고, 생성된 바이노럴 파라메터를 바이노럴 렌더러(100)에 전달할 수 있다. 바이노럴 렌더러(100)는 바이노럴 파라메터 컨트롤러(200)로부터 획득된 바이노럴 파라메터에 기초하여 입력 오디오 신호에 대한 바이노럴 렌더링을 수행한다.
본 발명의 실시예에 따르면, 바이노럴 렌더러(100)의 입력 오디오 신호는 포맷 컨버터(50)에서의 변환 과정을 통해 획득될 수 있다. 포맷 컨버터(50)는 적어도 하나의 마이크를 통해 녹음된 입력 신호를 오브젝트 신호, 앰비소닉 신호 등으로 변환한다. 일 실시예에 따르면, 상기 포맷 컨버터(50)의 입력 신호는 마이크 어레이 신호일 수 있다. 포맷 컨버터(50)는 마이크 어레이를 구성하는 마이크들의 배열 정보, 개수 정보, 위치 정보, 주파수 특성 정보, 빔 패턴 정보 중 적어도 하나를 포함하는 녹음 정보를 획득하고, 획득된 녹음 정보에 기초하여 입력 신호의 변환을 수행한다. 일 실시예에 따르면, 포맷 컨버터(50)는 음원의 위치 정보를 추가적으로 획득하고, 이를 이용하여 입력 신호의 변환을 수행할 수 있다.
포맷 컨버터(50)는 이하의 설명과 같이 다양한 형태의 포맷 변환을 수행할 수 있다. 설명의 편의를 위해, 본 발명의 실시예에 따른 각각의 포맷 신호를 다음과 같이 정의한다. A-포맷 신호는 마이크(또는, 마이크 어레이)에서 녹음된 원 신호(raw signal)를 가리킨다. 상기 녹음된 원 신호는 게인이나 딜레이가 수정되지 않은 신호일 수 있다. B-포맷 신호는 앰비소닉 신호를 가리킨다. 본 발명의 실시예에서 앰비소닉 신호는 FOA(First Order Ambisonics) 신호 또는 HOA(Higher Order Ambisonics) 신호를 나타낸다.
<A2B 변환 (A-포맷 신호를 B-포맷 신호로 변환)>
A2B 변환은 A-포맷 신호에서 B-포맷 신호로의 변환을 가리킨다. 본 발명의 실시예에 따르면, 포맷 컨버터(50)는 마이크 어레이 신호를 앰비소닉 신호로 변환할 수 있다. 구면 좌표계 상에서 마이크 어레이의 각 마이크의 위치는 좌표계 중심으로부터의 거리, 방위각(또는, 수평각) θ 및 고도각(또는, 수직각) Φ로 표현될 수 있다. 구면 좌표계에서의 각 마이크의 좌표값을 통해 구면 조화함수의 기저가 획득될 수 있다. 마이크 어레이 신호는 구면 조화함수의 각 기저에 기초하여 구면 조화함수 도메인으로 사상(projection)된다.
예를 들어, 마이크 어레이 신호는 구형 마이크 어레이를 통해 녹음될 수 있다. 구면 좌표계의 중심을 마이크 어레이의 중심과 일치시키면, 마이크 어레이의 중심으로부터 각 마이크까지의 거리는 모두 일정하므로 각 마이크의 위치는 방위각과 고도각만으로 표현될 수 있다. 더욱 구체적으로, 마이크 어레이에서 q번째 마이크의 위치를 (θq, Φq)라고 할 때, 해당 마이크를 통해 녹음된 신호 Sq는 구면 조화함수 도메인에서 다음과 수식과 같이 표현될 수 있다.
Figure PCTKR2017000633-appb-M000001
여기서, Y는 구면 조화함수의 기저함수, B는 해당 기저함수에 대응하는 앰비소닉 계수들을 가리킨다. 본 발명의 실시예에서 앰비소닉 신호(또는, HOA 신호)는 상기 앰비소닉 계수들(또는, HOA 계수들)을 가리키는 용어로 사용될 수 있다. k는 파수(wave number)를 가리키며, R은 구형 마이크 어레이의 반지름을 가리킨다. Wm(kR)은 m번째 차수(order)의 앰비소닉 계수를 위한 라디안 필터를 가리킨다. σ는 해당 기저함수의 degree를 가리키며, +1 또는 -1의 값을 갖는다.
마이크 어레이의 마이크 개수가 L개일 경우, 최대 M차의 앰비소닉 신호가 획득될 수 있다. 여기서 M=floor(sqrt(L))-1을 만족한다. 또한, M차 앰비소닉 신호는 총 K=(M+1)2개의 앰비소닉 채널 신호들로 구성된다. 상기 수학식 1을 이산 행렬식으로 나타내면 아래 수학식 2와 같이 표현될 수 있다. 이때, 수학식 2의 각 변수의 정의는 수학식 3과 같다.
Figure PCTKR2017000633-appb-M000002
Figure PCTKR2017000633-appb-M000003
여기서, T는 Q×K 사이즈의 변환 행렬, b는 K 길이의 열벡터, s는 Q 길이의 열벡터이다. Q는 마이크 어레이를 구성하고 있는 마이크의 전체 개수이며, 상기 수학식의 1의 q는 1≤q≤Q를 만족한다. 또한, K는 M차 앰비소닉 신호를 구성하는 앰비소닉 채널 신호들의 총 개수이며, K=(M+1)2을 만족한다. M은 앰비소닉 신호의 최고 차수를 가리키며, 수학식 1 및 수학식 3의 m은 0≤m≤M을 만족한다.
따라서, 앰비소닉 신호 b는 T의 의사 역행렬(pseudo inverse matrix)을 이용하여 아래 수학식 4와 같이 산출될 수 있다. 다만, 행렬 T가 정방 행렬일 경우, T-1은 의사 역행렬이 아니라 역행렬일 수 있다.
Figure PCTKR2017000633-appb-M000004
앰비소닉 신호는 채널 신호 및/또는 오브젝트 신호로 변환되어 출력될 수 있다. 이에 대한 구체적인 실시예는 후술하도록 한다. 일 실시예에 따르면, 변환된 신호가 출력되는 라우드스피커 레이아웃의 거리가 초기 설정 거리와 다를 경우, 상기 변환된 신호에 거리 렌더링이 추가적으로 적용될 수 있다. 이를 통해, 평면파 재생을 가정하고 생성된 HOA 신호가 라우드스피커 거리의 변화로 인해 저 주파수 대역에서 구면파로 재생되어 부스팅 되는 현상을 제어할 수 있다.
<빔포밍된 신호를 채널 신호 또는 오브젝트 신호로 변환>
마이크 어레이의 각 마이크의 게인 및/또는 딜레이를 조정하면 특정 방향에 존재하는 음원의 신호가 빔포밍되어 수신될 수 있다. AV(audio visual) 콘텐츠의 경우 음원의 방향은 비디오 내의 특정 오브젝트의 위치 정보에 매칭될 수 있다. 일 실시예에 따르면, 특정 방향의 음원의 신호는 빔포밍되어 녹음될 수 있으며, 녹음된 신호는 동일 방향의 라우드스피커로 출력될 수 있다. 즉, 최종 재생 단의 라우드스피커 레이아웃을 고려하여 적어도 일부의 신호가 스티어링되어 녹음될 수 있으며, 이와 같이 녹음된 신호는 별도의 포스트 프로세싱 없이 특정 라우드스피커의 출력 신호로 사용될 수 있다. 만약 마이크 어레이의 빔포밍 방향과 최종 재생 단의 라우드스피커의 방향이 일치하지 않는 경우, 상기 녹음된 신호는 CPP(Constant Power Panning), VBAP(Vector-Based Amplitude Panning) 등의 포스트 프로세싱이 적용된 후 스피커로 출력될 수 있다.
<A-포맷 신호를 오브젝트 신호로 변환>
A-포맷 신호들의 선형 조합을 이용하면 포스트 프로세싱 단계에서 가상적인 스티어링이 수행될 수 있다. 이때, 선형 조합은 PCA(Principal Component Analysis), NMF(Non-negative Matrix Factorization) 및 DNN(Deep Neural Network) 중 적어도 하나를 포함한다. 각 마이크로부터 획득된 신호는 시간-주파수 도메인에서 분석된 후 가상 적응 스티어링이 적용되어, 녹음된 사운드 필드에 대응하는 사운드 오브젝트로 변환될 수 있다.
한편, 도 1은 본 발명의 오디오 신호 처리 장치(10)의 구성을 나타낸 일 실시예이며, 본 발명은 이에 한정되지 않는다. 이를테면, 본 발명의 오디오 신호 처리 장치(10)는 도 1에 도시된 구성 이외에 추가적인 구성을 더 포함할 수 있다. 또한, 도 1에 도시된 일부 구성 이를테면, 퍼스널라이저(300) 등은 오디오 신호 처리 장치(10)에서 생략될 수도 있다. 또한, 포맷 컨버터(50)는 오디오 신호 처리 장치(10)의 일부 구성으로 포함될 수 있다.
도 2는 본 발명의 실시예에 따른 바이노럴 렌더러를 나타내는 블록도이다. 도 2를 참조하면, 바이노럴 렌더러(100)는 도메인 스위처(110), 전처리부(120), 제1 바이노럴 렌더링부(130), 제2 바이노럴 렌더링부(140) 및 믹서 & 콤바이너(150)를 포함할 수 있다. 본 발명의 실시예에서 오디오 신호 처리 장치란 도 2의 바이노럴 렌더러(100)를 가리킬 수 있다. 그러나 본 발명의 실시예에서 넓은 의미로의 오디오 신호 처리 장치는 바이노럴 렌더러(100)를 포함하는 도 1의 오디오 신호 처리 장치(10)를 가리킬 수 있다.
전술한 바와 같이, 바이노럴 렌더러(100)는 입력 오디오 신호를 수신하고, 이에 대한 바이노럴 렌더링을 수행하여 2채널 출력 오디오 신호 L, R을 생성한다. 바이노럴 렌더러(100)의 입력 오디오 신호는 라우드스피커 채널 신호, 오브젝트 신호, 앰비소닉 신호 중 적어도 하나를 포함할 수 있다. 본 발명의 실시예에 따르면, HOA 신호가 바이노럴 렌더러(100)의 입력 오디오 신호로서 수신될 수 있다.
도메인 스위처(110)는 바이노럴 렌더러(100)의 입력 오디오 신호에 대한 도메인 변환을 수행한다. 도메인 변환은 고속 푸리에 변환, 역 고속 푸리에 변환, 이산 코사인 변환, 역 이산 코사인 변환, QMF 분석, QMF 합성 중 적어도 하나를 포함할 수 있으며, 본 발명은 이에 한정되지 않는다. 일 실시예에 따르면, 도메인 스위처(110)의 입력 신호는 시간 도메인 오디오 신호가 될 수 있으며, 도메인 스위처(110)의 출력 신호는 주파수 도메인 또는 QMF 도메인의 서브밴드 오디오 신호가 될 수 있다. 그러나 본 발명은 이에 한정되지 않는다. 예를 들어, 바이노럴 렌더러(100)의 입력 오디오 신호는 시간 도메인 오디오 신호로 한정되지 않으며, 입력 오디오 신호의 종류에 따라 도메인 스위처(110)는 바이노럴 렌더러(100)에서 생략될 수도 있다. 또한, 도메인 스위처(110)의 출력 신호는 서브밴드 오디오 신호로 한정되지 않으며, 오디오 신호의 종류에 따라 서로 다른 도메인 신호가 출력될 수 있다. 본 발명의 추가적인 실시예에 따르면, 하나의 신호가 복수의 서로 다른 도메인 신호로 변환될 수도 있다.
전처리부(120)는 본 발명의 실시예에 따른 오디오 신호의 렌더링을 위한 전처리를 수행한다. 본 발명의 실시예에 따르면, 오디오 신호 처리 장치는 다양한 형태의 전처리 및/또는 렌더링을 수행할 수 있다. 예를 들면, 오디오 신호 처리 장치는 적어도 하나의 오브젝트 신호를 채널 신호로 렌더링할 수 있다. 또한, 오디오 신호 처리 장치는 채널 신호 또는 앰비소닉 신호(예를 들어, HOA 계수들)를 제1 콤포넌트와 제2 콤포넌트로 분리할 수 있다. 일 실시예에 따르면, 제1 콤포넌트는 적어도 하나의 사운드 오브젝트에 대응하는 오디오 신호(즉, 오브젝트 신호)를 나타낸다. 제1 콤포넌트는 기 설정된 기준에 따라 원본 신호로부터 추출된다. 이에 대한 구체적인 실시예는 후술하도록 한다. 또한, 제2 콤포넌트는 원본 신호에서 제1 콤포넌트가 추출된 후의 잔여 콤포넌트이다. 제2 콤포넌트는 앰비언트 신호를 나타낼 수 있으며, 백그라운드 신호로도 지칭될 수 있다. 또한, 본 발명의 실시예에 따르면 오디오 신호 처리 장치는 앰비소닉 신호(예를 들어, HOA 계수들)의 전부 또는 일부를 채널 신호로 렌더링할 수 있다. 이를 위해, 전처리부(120)는 오디오 신호의 변환, 분해(decomposition), 일부 콤포넌트의 추출 등 다양한 형태의 전처리를 수행할 수 있다. 오디오 신호의 전처리를 위해, 별도의 메타데이터가 사용될 수 있다.
입력 오디오 신호에 대한 전처리가 수행되면, 해당 오디오 신호에 대한 커스터마이징(customizing)이 가능하다. 예를 들어, HOA 신호가 오브젝트 신호와 앰비언트 신호로 분리된 경우, 유저는 특정 오브젝트 신호에 1보다 큰 게인 또는 1보다 작은 게인을 곱함으로 오브젝트 신호의 레벨을 높이거나 낮출 수 있다. 입력 오디오 신호를 X, 변환 행렬을 T라고 하면, 변환된 오디오 신호를 Y는 다음과 같은 수식으로 표현될 수 있다.
Figure PCTKR2017000633-appb-M000005
본 발명의 실시예에 따르면, 변환 행렬 T는 오디오 신호 변환 과정에서 비용으로 정의된 팩터에 기초하여 결정될 수 있다. 예를 들어, 변환된 오디오 신호 Y의 엔트로피가 비용으로 정의된 경우, 변환 행렬 T는 상기 엔트로피를 최소화하는 행렬로 결정될 수 있다. 이때, 변환된 오디오 신호 Y는 압축, 전송, 저장에 유리한 신호가 될 수 있다. 또한, 변환된 오디오 신호 Y의 엘리먼트들 간의 상호 상관도가 비용으로 정의된 경우, 변환 행렬 T는 상기 상호 상관도를 최소화하는 행렬로 결정될 수 있다. 이때, 변환된 오디오 신호 Y는 엘리먼트들 간의 직교성이 높아지게 되며, 각 엘리먼트의 특성을 추출하거나 특정 엘리먼트에 별도의 처리를 수행하기가 용이해 진다.
전처리부(120)에 의해 전처리가 수행된 오디오 신호는 바이노럴 렌더링부에 의해 바이노럴 렌더링이 수행된다. 바이노럴 렌더링부는 전달된 바이노럴 파라메터에 기초하여 오디오 신호의 바이노럴 렌더링을 수행한다. 바이노럴 파라메터는 동측 전달 함수 및 대측 전달 함수를 포함한다. 전달 함수는 HRTF, ITF, MITF, BRTF, RIR, BRIR, HRIR 및 이의 변형 및 편집 된 데이터 중 적어도 하나를 포함할 수 있음은 도 1의 실시예에서 전술한 바와 같다.
본 발명의 실시예에 따르면, 바이노럴 렌더러(100)는 서로 다른 형태의 렌더링을 수행하는 복수의 바이노럴 렌더링부(130, 140)를 포함할 수 있다. 입력 오디오 신호가 전처리부(120)에서 제1 콤포넌트와 제2 콤포넌트로 분리될 경우, 분리된 제1 콤포넌트는 제1 바이노럴 렌더링부(130)에서 처리되고, 분리된 제2 콤포넌트는 제2 바이노럴 렌더링부(140)에서 처리될 수 있다. 일 실시예에 따르면, 제1 바이노럴 렌더링부(130)는 오브젝트 기반의 바이노럴 렌더링을 수행할 수 있다. 제1 바이노럴 렌더링부(130)는 입력된 오브젝트 신호를 해당 오브젝트의 위치에 대응하는 전달 함수를 이용하여 필터링한다. 또한, 제2 바이노럴 렌더링부(140)는 채널 기반의 바이노럴 렌더링을 수행할 수 있다. 제2 바이노럴 렌더링부(140)는 입력된 채널 신호를 해당 채널의 위치에 대응하는 전달 함수를 이용하여 필터링한다. 이에 대한 구체적인 실시예는 후술하도록 한다.
믹서&콤바이너(160)는 제1 바이노럴 렌더링부(130)에서 렌더링된 신호와 제2 바이노럴 렌더링부(140)에서 렌더링된 신호를 결합하여 출력 오디오 신호를 생성한다. 바이노럴 렌더링이 QMF 도메인에서 수행된 경우, 바이노럴 렌더러(100)는 믹서&콤바이너에서(160)에서 결합된 신호를 QMF 합성하여 시간 도메인의 출력 오디오 신호를 생성할 수 있다.
도 2에 도시된 바이노럴 렌더러(100)는 본 발명의 일 실시예에 따른 블록도로서, 분리하여 표시한 블록들은 디바이스의 엘리먼트들을 논리적으로 구별하여 도시한 것이다. 따라서 상술한 디바이스의 엘리먼트들은 디바이스의 설계에 따라 하나의 칩으로 또는 복수의 칩으로 장착될 수 있다. 예를 들어, 제1 바이노럴 렌더링부(130) 및 제2 바이노럴 렌더링부(140)는 하나의 칩으로 통합되어 구현될 수도 있으며, 별도의 칩으로 구현될 수도 있다.
한편, 도 1 및 도 2를 참조로 오디오 신호의 바이노럴 렌더링 방법을 설명하였지만, 본 발명은 라우드스피커 출력을 위한 오디오 신호의 렌더링 방법으로도 확장될 수 있다. 이때, 도 1의 바이노럴 렌더러(100) 및 바이노럴 파라메터 컨트롤러(200)는 각각 렌더링 장치 및 파라메터 컨트롤러로 대체되고, 도 2의 제1 바이노럴 렌더링부(130) 및 제2 바이노럴 렌더링부(140)는 각각 제1 렌더링부 및 제2 렌더링부로 대체될 수 있다.
즉, 본 발명의 실시예에 따르면, 오디오 신호의 렌더링 장치는 서로 다른 형태의 렌더링을 수행하는 제1 렌더링부 및 제2 렌더링부를 포함할 수 있다. 제1 렌더링부는 입력 오디오 신호로부터 분리된 제1 콤포넌트에 제1 렌더링을 수행하고, 제2 렌더링부는 입력 오디오 신호로부터 분리된 제2 콤포넌트에 제2 렌더링을 수행한다. 일 실시예에 따르면, 제1 렌더링은 오브젝트 기반의 렌더링이고 제2 렌더링은 채널 기반의 렌더링일 수 있다. 이하의 명세서에서, 오디오 신호의 전처리 및 바이노럴 렌더링 방법의 다양한 실시예들을 설명하지만, 본 발명은 라우드스피커 출력을 위한 오디오 신호의 렌더링 방법에도 적용될 수 있다.
<O2C 변환 / O2B 변환>
O2C 변환은 오브젝트 신호에서 채널 신호로의 변환을 가리키며, O2B 변환은 오브젝트 신호에서 B-포맷 신호로의 변환을 가리킨다. 오브젝트 신호는 기 설정된 라우드스피커 레이아웃을 갖는 채널 신호들로 분배될 수 있다. 더욱 구체적으로, 오브젝트 신호는 해당 오브젝트의 위치에 근접한 라우드스피커들의 채널 신호에 게인을 반영하여 분배될 수 있다. 일 실시예에 따르면, VBAP(Vector Based Amplitude Panning)이 사용될 수 있다.
<C2O 변환 / B2O 변환>
C2O 변환은 채널 신호에서 오브젝트 신호로의 변환을 가리키며, B2O 변환은 B-포맷 신호에서 오브젝트 신호로의 변환을 가리킨다. 채널 신호 또는 B-포맷 신호를 오브젝트 신호로 변환하기 위해 블라인드 음원 분리(blind source separation) 기법이 사용될 수 있다. 블라인드 음원 분리 기법에는 PCA(Principal Component Analysis), NMF(Non-negative Matrix Factorization), DNN(Deep Neural Network) 등이 포함된다. 전술한 바와 같이, 채널 신호 또는 B-포맷 신호는 제1 콤포넌트와 제2 콤포넌트로 분리될 수 있다. 제1 콤포넌트는 적어도 하나의 사운드 오브젝트에 대응하는 오브젝트 신호일 수 있다. 또한, 제2 콤포넌트는 원본 신호에서 제1 콤포넌트가 추출된 후의 잔여 콤포넌트일 수 있다.
본 발명의 실시예에 따르면, HOA 계수들은 제1 콤포넌트와 제2 콤포넌트로 분리될 수 있다. 오디오 신호 처리 장치는 분리된 제1 콤포넌트와 제2 콤포넌트에 서로 다른 렌더링을 수행한다. 먼저, HOA 계수들 행렬 H의 행렬 분해(decomposition)를 수행하면 아래 수학식 6과 같이 U, S, V 행렬들로 표현될 수 있다.
Figure PCTKR2017000633-appb-M000006
여기서, U는 유니타리(unitary) 행렬, S는 음이 아닌 대각선 행렬, V는 유니타리 행렬이다. O는 HOA 계수들 행렬 H(즉, 앰비소닉 신호)의 최고 차수를 나타낸다. U와 S의 열 벡터의 곱 usi는 i번째 오브젝트 신호를 나타내며, V의 열벡터 vi는 i번째 오브젝트 신호의 위치(즉, 공간적 특성) 정보를 나타낸다. 즉, HOA 계수들 행렬 H는 복수의 오디오 신호들을 나타내는 제1 행렬 US와, 복수의 오디오 신호들 각각의 위치 벡터 정보를 나타내는 제2 행렬 V로 분해될 수 있다.
HOA 계수들의 행렬 분해는 HOA 계수들의 행렬 차원 축소 또는 행렬 인수분해를 의미한다. 본 발명의 실시예에 따르면, HOA 계수들의 행렬 분해는 SVD(Singular Value Decomposition)를 이용하여 수행될 수 있다. 다만 본 발명은 이에 한정되지 않으며, 입력 신호의 형태에 따라 PCA, NMF 또는 DNN을 이용한 행렬 분해가 수행될 수 있다. 오디오 신호 처리 장치의 전처리부는 이와 같이 HOA 계수들 행렬 H의 행렬 분해를 수행한다. 본 발명의 실시예에 따르면, 전처리부는 분해된 행렬 V로부터 HOA 계수들의 제1 콤포넌트에 대응하는 위치 벡터 정보를 추출할 수 있다. 오디오 신호 처리 장치는 추출된 위치 벡터 정보를 이용하여 HOA 계수들의 제1 콤포넌트에 대한 오브젝트 기반의 렌더링을 수행한다.
오디오 신호 처리 장치는 다양한 실시예에 따라 HOA 계수들을 제1 콤포넌트와 제2 콤포넌트로 분리할 수 있다. 상기 수학식 6에서 usi의 크기가 일정 수준 이상 큰 경우 해당 신호는 vi에 위치한 개별 사운드 오브젝트의 오디오 신호로 간주될 수 있다. 그러나, usi의 크기가 일정 수준 미만으로 작은 경우 해당 신호는 앰비언트 신호로 간주될 수 있다.
본 발명의 일 실시예에 따르면, 제1 콤포넌트는 제1 행렬 US가 나타내는 복수의 오디오 신호들 중에서 높은 레벨 순서의 기 설정된 개수 Nf의 오디오 신호들로부터 추출될 수 있다. 일 실시예에 따르면, 행렬 분해가 수행된 후의 U, S, V 행렬들에서 오디오 신호 usi 및 위치 벡터 정보 vi는 해당 오디오 신호의 레벨 순으로 정렬될 수 있다. 이때, 제1 콤포넌트는 수학식 6에서와 같이 i=1부터 i=Nf까지의 오디오 신호들로부터 추출될 수 있다. HOA 계수들의 최고 차수가 O일 때 해당 앰비소닉 신호는 총 (O+1)2개의 앰비소닉 채널 신호들로 구성된다. Nf는 앰비소닉 채널 신호들의 총 개수 (O+1)2보다 작거나 같은 값으로 설정된다. 바람직하게는, Nf는 (O+1)2보다 작은 값으로 설정될 수 있다. 본 발명의 실시예에 따르면, Nf는 복잡도-퀄리티 제어 정보에 기초하여 조정될 수 있다.
오디오 신호 처리 장치는 앰비소닉 채널들의 총 개수보다 적은 수의 오디오 신호에 대해 오브젝트 기반의 렌더링을 수행함으로 효율적인 연산을 수행할 수 있다.
본 발명의 다른 실시예에 따르면, 제1 콤포넌트는 제1 행렬 US가 나타내는 복수의 오디오 신호들 중에서 기 설정된 임계값 이상의 레벨을 갖는 오디오 신호들로부터 추출될 수 있다. 상기 임계값에 따라 제1 콤포넌트로 추출되는 오디오 신호들의 개수는 가변할 수 있다.
오디오 신호 처리 장치는 제1 콤포넌트로 추출된 신호 usi를 해당 신호에 대응하는 위치 벡터 vi를 이용하여 오브젝트 기반의 렌더링을 수행한다. 본 발명의 실시예에 따르면, 제1 콤포넌트에 대한 오브젝트 기반의 바이노럴 렌더링이 수행될 수 있다. 이때, 오디오 신호 처리 장치의 제1 렌더링부(즉, 제1 바이노럴 렌더링부)는 위치 벡터 vi에 기초한 HRTF를 이용하여 오디오 신호 usi의 바이노럴 렌더링을 수행할 수 있다.
본 발명의 또 다른 실시예에 따르면, 제1 콤포넌트는 입력 HOA 계수들 중 기 설정된 저 차수의 계수들로부터 추출될 수 있다. 예를 들어, 입력 HOA 계수들의 최고 차수가 4차일 때, 제1 콤포넌트는 0차 및 1차 HOA 계수들로부터 추출될 수 있다. 저 차수의 HOA 계수들은 도미넌트(dominant) 사운드 오브젝트의 신호를 반영할 수 있기 때문이다. 오디오 신호 처리 장치는 저 차수의 HOA 계수들을 이에 대응하는 위치 벡터 vi를 이용하여 오브젝트 기반의 렌더링을 수행한다.
한편, 제2 콤포넌트는 입력 HOA 계수들에서 제1 콤포넌트가 추출된 후의 잔여 신호를 가리킨다. 제2 콤포넌트는 앰비언트 신호를 나타낼 수 있으며, 백그라운드(B.G.) 신호로도 지칭될 수 있다. 오디오 신호 처리 장치는 제2 콤포넌트에 채널 기반의 렌더링을 수행한다. 더욱 구체적으로, 오디오 신호 처리 장치의 제2 렌더링부는 제2 콤포넌트를 적어도 하나의 가상 채널로 매핑하고, 매핑된 가상 채널(들)의 신호로 출력한다. 본 발명의 실시예에 따르면, 제2 콤포넌트에 대한 채널 기반의 바이노럴 렌더링이 수행될 수 있다. 이때, 오디오 신호 처리 장치의 제2 렌더링부(즉, 제2 바이노럴 렌더링부)는 제2 콤포넌트를 적어도 하나의 가상 채널로 매핑하고, 매핑된 가상 채널에 기초한 HRTF를 이용하여 제2 콤포넌트의 바이노럴 렌더링을 수행할 수 있다. HOA 계수들에 대한 채널 기반 렌더링의 구체적인 실시예는 후술하도록 한다.
본 발명의 추가적인 실시예에 따르면, 오디오 신호 처리 장치는 효율적인 연산을 위해 제2 콤포넌트의 일부 신호에 대해서만 채널 기반의 렌더링을 수행할 수 있다. 더욱 구체적으로, 오디오 신호 처지 장치의 제2 렌더링부(또는, 제2 바이노럴 렌더링부)는 제2 콤포넌트 중 기 설정된 차수 이하의 계수들에 대해서만 채널 기반의 렌더링을 수행할 수 있다. 예를 들어, 입력 HOA 계수들의 최고 차수가 4차일 때, 3차 이하의 계수들에 대해서만 채널 기반의 렌더링이 수행될 수 있다. 오디오 신호 처리 장치는 입력 HOA 계수들 중 기 설정된 차수를 초과하는(예를 들면, 4차) 계수들에 대해서는 렌더링을 수행하지 않을 수 있다.
이와 같이, 본 발명의 실시예에 따른 오디오 신호 처리 장치는 입력 오디오 신호에 대한 복합 렌더링을 수행할 수 있다. 오디오 신호 처리 장치의 전처리부는 입력 오디오 신호를 적어도 하나의 오브젝트 신호에 대응하는 제1 콤포넌트와 잔여 신호에 대응하는 제2 콤포넌트로 분리한다. 또한, 전처리부는 입력 오디오 신호를 복수의 오디오 신호들을 나타내는 제1 행렬 US와, 복수의 오디오 신호들 각각의 위치 벡터 정보를 나타내는 제2 행렬 V로 분해한다. 전처리부는 분리된 제1 콤포넌트에 대응하는 위치 벡터 정보를 제2 행렬 V로부터 추출할 수 있다. 오디오 신호 처리 장치의 제1 렌더링부(또는, 제1 바이노럴 렌더링부)는 제1 콤포넌트에 대응하는 제2 행렬 V의 위치 벡터 정보 vi를 이용하여 제1 콤포넌트에 오브젝트 기반의 렌더링을 수행한다. 또한, 오디오 신호 처리 장치의 제2 렌더링부(또는, 제2 바이노럴 렌더링부)는 제2 콤포넌트에 채널 기반의 렌더링을 수행한다.
인위적으로 합성된 오디오 신호의 경우, 신호의 특성(예를 들면, 원본 신호의 알려진 스펙트럼 정보) 등을 이용하여 청자를 중심으로 한 음원의 상대적인 위치가 쉽게 획득될 수 있다. 따라서, HOA 신호로부터 개별 사운드 오브젝트가 쉽게 추출될 수 있다. 본 발명의 일 실시예에 따르면, 개별 사운드 오브젝트의 위치는 미리 지정된 공간 정보 및/또는 비디오 정보 등의 메타데이터를 이용하여 정의될 수 있다. 한편 마이크를 통해 녹음된 오디오 신호의 경우, NMF, DNN 등을 이용하여 행렬 V가 추정될 수 있다. 이때, 전처리부는 비디오 정보 등의 별도의 메타데이터를 이용하여 행렬 V를 보다 정확하게 추정할 수 있다.
전술한 바와 같이, 오디오 신호 처리 장치는 메타데이터를 이용하여 오디오 신호의 변환을 수행할 수 있다. 이때, 메타데이터는 비디오 신호와 같은 비 오디오 신호의 정보를 포함한다. 예를 들어, 360 비디오가 녹화된 경우 해당 비디오 신호로부터 특정 오브젝트의 위치 정보가 획득될 수 있다. 전처리부는 비디오 신호로부터 획득된 위치 정보에 기초하여 수학식 5의 변환 행렬 T를 결정할 수 있다. 변환 행렬 T는 특정 오브젝트의 위치에 따라 근사화된 수식으로 결정될 수 있다. 또한, 오디오 신호 처리 장치는 근사화된 수식을 메모리에 미리 로드 한 후 사용함으로 전처리를 위한 연산량을 줄일 수 있다.
비디오 정보를 이용하여 오브젝트 기반의 렌더링을 수행하는 구체적인 실시예는 다음과 같다. 본 발명의 실시예에 따르면, 입력 HOA 신호에 대응하는 비디오 신호의 정보를 참조하여 입력 HOA 신호로부터 오브젝트 신호를 추출될 수 있다. 먼저, 오디오 신호 처리 장치는 비디오 신호의 공간 좌표계와 HOA 신호의 공간 좌표계를 매칭시킨다. 예를 들어, 360 비디오 신호의 방위각 0도 및 고도각 0도는 HOA 신호의 방위각 0도 및 고도각 0도와 매칭될 수 있다. 또한, 360 비디오 신호와 HOA 신호의 지오-로케이션(geo-location)이 매칭될 수 있다. 이와 같은 매칭이 수행된 이후, 360 비디오 신호와 HOA 신호는 요우(yaw), 피치(pitch), 롤(role) 등의 회전 정보를 공유할 수 있다.
본 발명의 실시예에 따르면, 비디오 신호로부터 하나 이상의 CDVO(Candidate Dominant Visual Object)가 추출될 수 있다. 또한, HOA 신호로부터 하나 이상의 CDAO(Candidate Dominant Audio Object)가 추출될 수 있다. 오디오 신호 처리 장치는 CDVO와 CDAO를 상호 참조하여 DVO(Dominant Visual Object) 및 DAO(Dominant Audio Object)를 결정한다. CDVO와 CDAO가 추출되는 과정에서 후보 오브젝트들의 모호성이 확률값으로 산출될 수 있다. 오디오 신호 처리 장치는 각각의 모호성 확률값을 비교하고 이용하는 반복적인 과정을 통해 DVO와 DAO를 결정할 수 있다.
일 실시예에 따르면, CDVO와 CDAO는 1:1로 대응하지 않을 수 있다. 예를 들면, 바람 소리와 같이 비주얼 오브젝트가 없는 오디오 오브젝트가 존재할 수 있다. 또한, 나무, 태양 등과 같이 소리가 없는 비주얼 오브젝트가 존재할 수도 있다. 본 발명의 실시예에 따르면, 비주얼 오브젝트와 오디오 오브젝트가 매칭된 도미넌트 오브젝트를 DAVO(Dominant Audio-Visual Object)라고 지칭한다. 오디오 신호 처리 장치는 CDVO와 CDAO를 상호 참조하여 DAVO를 결정할 수 있다.
오디오 신호 처리 장치는 비디오 신호로부터 획득된 적어도 하나의 오브젝트의 공간적 정보를 참조하여 오브젝트 기반의 렌더링을 수행할 수 있다. 오브젝트의 공간적 정보는 오브젝트의 위치 정보, 오브젝트의 사이즈(또는, 부피) 정보를 포함한다. 이때, 적어도 하나의 오브젝트의 공간적 정보는 CDVO, DVO 또는 DAVO 중 어느 하나로부터 획득될 수 있다. 더욱 구체적으로, 오디오 신호 처리 장치의 제1 렌더링부는 제1 콤포넌트에 관계된 적어도 하나의 파라메터를 비디오 신호로부터 획득된 공간적 정보에 기초하여 보정할 수 있다. 제1 렌더링부는 상기 보정된 파라메터를 이용하여 제1 콤포넌트에 대한 오브젝트 기반의 렌더링을 수행한다.
더욱 구체적으로, 오디오 신호 처리 장치는 CDVO의 궤적 정보 및/또는 CDAO의 궤적 정보를 참고하여 움직이는 오브젝트의 위치 정보를 정확히 획득할 수 있다. CDVO의 궤적 정보는 비디오 신호의 이전 프레임에서의 오브젝트의 위치 정보를 참조하여 획득될 수 있다. 또한, CDVO의 사이즈(또는, 부피) 정보를 참고하여 CDAO의 사이즈 정보가 결정되거나 보정될 수 있다. 오디오 신호 처리 장치는 오디오 오브젝트의 사이즈 정보에 기초하여 렌더링을 수행할 수 있다. 예를 들어, 오디오 오브젝트의 사이즈 정보에 기초하여 해당 오브젝트에 대한 빔 폭 등의 HOA 파라메터가 변경될 수 있다. 또한, 오디오 오브젝트의 사이즈 정보에 기초하여 해당 오브젝트의 사이즈를 반영하는 바이노럴 렌더링이 수행될 수 있다. 오브젝트의 사이즈를 반영하는 바이노럴 렌더링은 청각적 폭의 제어를 통해 수행될 수 있다. 청각적 폭의 제어 방법으로는 서로 다른 복수개의 위치에 대응하는 바이노럴 렌더링을 수행하는 방법, 디코릴레이터를 이용하여 청각적 폭을 제어하는 방법 등이 있다.
이와 같이, 오디오 신호 처리 장치는 비디오 신호로부터 획득된 오브젝트의 공간적 정보를 참조함으로, 오브젝트 기반의 렌더링의 성능을 향상시킬 수 있다. 즉, 입력 오디오 신호에서 오브젝트 신호에 대응하는 제1 콤포넌트의 추출 성능이 향상될 수 있다.
<B2C 변환>
B2C 변환은 B-포맷 신호에서 채널 신호로의 변환을 가리킨다. 앰비소닉 신호의 행렬 변환을 통해 라우드스피커 채널 신호가 획득될 수 있다. 앰비소닉 신호를 b, 라우드스피커 채널 신호를 l이라고 할 때, B2C 변환은 아래 수식과 7과 같이 표현될 수 있다.
Figure PCTKR2017000633-appb-M000007
디코딩 행렬(즉, B2C 변환 행렬) D는 라우드스피커 채널을 구면 조화함수 도메인으로 변환하는 행렬 C의 의사 역행렬 또는 역행렬이며, 아래 수학식 8과 같이 표현될 수 있다. 여기서, N은 라우드스피커 채널(또는, 가상 채널)의 개수를 나타내며, 나머지 변수들의 정의는 수학식 1 내지 수학식 3에서 설명된 바와 같다.
Figure PCTKR2017000633-appb-M000008
본 발명의 실시예에 따르면, B2C 변환은 입력 앰비소닉 신호의 일부에 대해서만 수행될 수 있다. 전술한 바와 같이, 앰비소닉 신호(즉, HOA 계수들)는 제1 콤포넌트와 제2 콤포넌트로 분리될 수 있다. 이때, 제2 콤포넌트에는 채널 기반의 렌더링이 수행될 수 있다. 입력 앰비소닉 신호를 boriginal, 제1 콤포넌트를 bNf라고 하면, 제2 콤포넌트 bresidual은 수학식 9와 같이 획득될 수 있다.
Figure PCTKR2017000633-appb-M000009
여기서 제2 콤포넌트 bresidual은 입력 앰비소닉 신호 boriginal에서 제1 콤포넌트 bNf가 추출된 후의 잔여 신호를 나타내며, 이 역시 앰비소닉 신호이다. 수학식 7 및 수학식 8과 동일한 방법으로, 제2 콤포넌트 bresidual의 채널 기반 렌더링은 아래 수학식 9와 같이 수행될 수 있다.
Figure PCTKR2017000633-appb-M000010
여기서, D는 수학식 8에서 정의된 바와 같다.
즉, 오디오 신호 처리 장치의 제2 렌더링부는 제2 콤포넌트 bresidual을 N개의 가상 채널들로 매핑하고, 매핑된 가상 채널들의 신호로 출력할 수 있다. N개의 가상 채널들의 위치는 (r1, θ1, Φ1), … , (rN, θN, ΦN)일 수 있다. 다만, 앰비소닉 신호를 가상 채널 신호로 변환할 때, 기준점에서 각각의 가상 채널까지의 거리가 모두 동일하다고 가정할 경우 N개의 가상 채널들의 위치는 (θ1, Φ1), … , (θN, ΦN)으로 표현될 수 있다. 본 발명의 실시예에 따르면, 제2 콤포넌트에 대한 채널 기반의 바이노럴 렌더링이 수행될 수 있다. 이때, 오디오 신호 처리 장치의 제2 렌더링부(즉, 제2 바이노럴 렌더링부)는 제2 콤포넌트를 N개의 가상 채널들로 매핑하고, 매핑된 가상 채널들에 기초한 HRTF를 이용하여 제2 콤포넌트의 바이노럴 렌더링을 수행할 수 있다.
본 발명의 추가적인 실시예에 따르면, 오디오 신호 처리 장치는 입력 오디오 신호의 B2C 변환과 회전 변환을 함께 수행할 수 있다. 개별 채널의 위치를 방위각 θ 및 고도각 Φ로 표현할 경우, 해당 위치를 단위 구 위로 사상시키면 아래 수학식 11과 같이 표현될 수 있다.
Figure PCTKR2017000633-appb-M000011
x-축을 중심으로 한 회전값을 α, y-축을 중심으로 한 회전값을 β, z-축을 중심으로 한 회전값을 γ라고 할 때, 회전 변환 이후의 개별 채널의 위치는 아래 수학식 12와 같이 표현될 수 있다.
Figure PCTKR2017000633-appb-M000012
오디오 신호 처리 장치는 상기 수식을 통해 회전 변환 이후의 개별 채널의 조정된 위치 (θ', Φ')를 획득하고, 조정된 위치 (θ', Φ')에 기초하여 B2C 변환 행렬 D를 결정할 수 있다.
<희소 행렬 기반의 바이노럴 렌더링>
입력 오디오 신호의 바이노럴 렌더링은 특정 가상 채널의 위치에 대응하는 BRIR 필터를 이용한 필터링을 통해 수행될 수 있다. 전술한 실시예들에서와 같이 전처리부에서 입력 오디오 신호의 변환이 수행되는 경우, 수학식 5에서와 같이 입력 오디오 신호는 X, 변환 행렬은 T, 변환된 오디오 신호는 Y로 표현될 수 있다. 변환된 오디오 신호 Y에 대응하는 BRIR 필터(즉, BRIR 행렬)를 HY라고 할 때, Y의 바이노럴 렌더링된 신호 BY는 아래 수학식 13과 같이 표현될 수 있다.
Figure PCTKR2017000633-appb-M000013
여기서, conv(X, Y)는 X와 Y의 콘볼루션 연산을 의미한다. 한편, 변환된 오디오 신호 Y에서 입력 오디오 신호 X로의 역 변환 행렬을 D라고 할 때, 다음 수학식 14를 만족할 수 있다.
Figure PCTKR2017000633-appb-M000014
행렬 D는 변환 행렬 T의 의사 역행렬(또는, 역행렬)로 획득될 수 있다. 입력 오디오 신호 X에 대응하는 BRIR 필터를 HX라고 할 때, X의 바이노럴 렌더링된 신호 BX는 아래 수학식 15와 같이 표현될 수 있다.
Figure PCTKR2017000633-appb-M000015
상기 수학식 13 및 수학식 15에서 변환 행렬 T 및 역 변환 행렬 D는 오디오 신호의 변환 형태에 따라 결정될 수 있다. 채널 신호와 오브젝트 신호간의 변환인 경우, 행렬 T 및 행렬 D는 VBAP에 기초하여 결정될 수 있다. 앰비언트 신호와 채널 신호간의 변환인 경우, 행렬 T 및 행렬 D는 전술한 B2C 변환 행렬에 기초하여 결정될 수 있다. 또한, 오디오 신호 X와 오디오 신호 Y가 각각 서로 다른 라우드스피커 레이아웃을 갖는 채널 신호인 경우, 행렬 T 및 행렬 D는 유연한 렌더링 기법을 기초로 결정되거나 CDVO를 참조하여 결정될 수 있다.
만약 행렬 T 또는 행렬 D가 희소 행렬인 경우, HYT 또는 HXD 또한 희소 행렬일 수 있다. 본 발명의 실시예에 따르면, 오디오 신호 처리 장치는 행렬 T와 행렬 D의 희소성을 분석하고, 높은 희소성을 가진 행렬을 이용하여 바이노럴 렌더링을 수행할 수 있다. 즉, 행렬 T가 더 높은 희소성을 가진 경우, 오디오 신호 처리 장치는 변환된 오디오 신호 Y의 바이노럴 렌더링을 수행할 수 있다. 그러나 행렬 D가 더 높은 희소성을 가진 경우, 오디오 신호 처리 장치는 입력 오디오 신호 X의 바이노럴 렌더링을 수행할 수 있다.
행렬 T와 행렬 D가 실시간으로 변화하는 경우, 오디오 신호 처리 장치는 오디오 신호 Y의 바이노럴 렌더링과 오디오 신호 X의 바이노럴 렌더링을 스위칭할 수 있다. 이때, 갑작스러운 스위칭을 방지하기 위해 오디오 신호 처리 장치는 페이드-인/페이드-아웃 윈도우를 사용하거나 스무딩(smoothing) 팩터를 적용하여 스위칭을 수행할 수 있다.
도 3은 구형 마이크 어레이를 통해 녹음된 신호로부터 바이노럴 신호가 획득되는 과정을 나타낸다. 포맷 컨버터(50)는 전술한 A2B 변환 과정을 통해 마이크 어레이 신호(즉, A-포맷 신호)를 앰비소닉 신호(즉, B-포맷 신호)로 변환할 수 있다. 오디오 신호 처리 장치는 전술한 다양한 실시예들 또는 이들의 조합으로 앰비소닉 신호에 대한 바이노럴 렌더링을 수행할 수 있다.
본 발명의 제1 실시예에 따른 바이노럴 렌더러(100A)는 B2C 변환 및 C2P 변환을 이용하여 앰비소닉 신호에 대한 바이노럴 렌더링을 수행한다. C2P 변환은 채널 신호에서 바이노럴 신호로의 변환을 가리킨다. 바이노럴 렌더러 100A는 청자의 머리의 움직임을 반영하는 헤드 트래킹 정보를 수신하고, 이를 기초로 B-포맷 신호의 회전 변환을 위한 행렬 곱셈을 수행할 수 있다. 전술한 바와 같이, 바이노럴 렌더러 100A는 회전 변환 정보에 기초하여 B2C 변환 행렬을 결정할 수 있다. B-포맷 신호는 B2C 변환 행렬을 이용하여 가상 채널 신호 또는 실제 라우드스피커 채널 신호로 변환된다. 그 다음으로, 채널 신호는 C2P 변환을 통해 최종 바이노럴 신호로 변환된다.
한편, 본 발명의 제2 실시예에 따른 바이노럴 렌더러(100B)는 B2P 변환을 이용하여 앰비소닉 신호에 대한 바이노럴 렌더링을 수행할 수 있다. B2P 변환은 B-포맷 신호에서 바이노럴 신호로의 직접적인 변환을 가리킨다. 즉, 바이노럴 렌더러 100B는 B-포맷 신호를 채널 신호로 변환하는 과정을 거치지 않고, 바이노럴 신호로 곧바로 변환한다.
도 4는 바이노럴 마이크 어레이를 통해 녹음된 신호로부터 바이노럴 신호가 획득되는 과정을 나타낸다. 바이노럴 마이크 어레이(30)는 수평면 상에 존재하는 2N개의 마이크(32)들로 구성될 수 있다. 일 실시예에 따르면, 바이노럴 마이크 어레이(30)의 각 마이크(32)는 외이의 형태를 묘사한 귓바퀴 모형과 함께 배치될 수 있다. 따라서, 바이노럴 마이크 어레이(30)의 각 마이크(32)는 음향 신호를 HRTF가 적용된 신호로 녹음할 수 있다. 귓바퀴 모형을 거쳐서 녹음된 신호는 귓바퀴의 구조에 의한 음파의 반사, 산란 등에 의해 필터링이 수행된다. 바이노럴 마이크 어레이(30)가 2N개의 마이크(32)들로 구성된 경우, N-포인트(즉, N개의 방향)의 사운드 씬이 녹음될 수 있다. N이 4인 경우, 바이노럴 마이크 어레이(30)는 방위각 90도 간격으로 4개의 사운드 씬을 녹음할 수 있다.
바이노럴 렌더러(100)는 바이노럴 마이크 어레이(30)로부터 수신된 사운드 씬 정보를 이용하여 바이노럴 신호를 생성한다. 이때, 바이노럴 렌더러(100)는 헤드 트래킹 정보를 이용하여 인터랙티브 바이노럴 렌더링(즉, 360 렌더링)을 수행할 수 있다. 그러나 입력된 사운드 씬 정보가 N-포인트로 한정되므로, 그 사이의 방위각들에 대응하는 사운드 씬을 렌더링하기 위해서는 2N개의 마이크 입력 신호를 이용한 보간이 필요하다. 또한, 수평면에 대응되는 사운드 씬 정보만 입력으로 수신되므로, 특정 고도각에 대응하는 오디오 신호의 렌더링을 수행하기 위해서는 별도의 외삽이 수행되어야 한다.
도 5는 바이노럴 마이크 어레이를 통해 녹음된 사운드 씬을 이용하여 바이노럴 신호를 생성하는 구체적인 실시예를 나타낸다. 본 발명의 실시예에 따르면, 바이노럴 렌더러(100)는 입력 사운드 씬의 방위각 보간 및 고도각 외삽을 통해 바이노럴 신호를 생성할 수 있다.
먼저, 바이노럴 렌더러(100)는 방위각 정보에 기초하여 입력 사운드 씬의 방위각 보간을 수행할 수 있다. 일 실시예에 따르면, 바이노럴 렌더러(100)는 입력 사운드 씬을 가장 가까운 2개의 포인트의 신호로 파워 패닝할 수 있다. 더욱 구체적으로, 바이노럴 레더러(100)는 청자의 머리 방향 정보를 획득하고, 머리 방향 정보에 대응하는 제1 포인트와 제2 포인트를 결정한다. 다음으로, 바이노럴 렌더러(100)는 청자의 머리 방향을 제1 포인트와 제2 포인트의 평면에 사상하고, 사상된 위치로부터 제1 포인트 및 제2 포인트까지의 각각의 거리를 이용하여 보간 계수를 결정할 수 있다. 바이노럴 렌더러(100)는 결정된 보간 계수를 이용하여 방위각 보간을 수행한다. 이와 같은 방위각 보간을 통해서 파워 패닝된 출력 신호 Pz_L 및 Pz_R이 생성될 수 있다.
다음으로, 바이노럴 렌더러(100)는 고도각 정보에 기초하여 고도각 외삽을 추가적으로 수행할 수 있다. 바이노럴 렌더러(100)는 방위각 보간이 수행된 신호 Pz_L 및 Pz_R에 고도각 e에 대응하는 파라메터를 이용한 필터링을 수행하여 고도각 e가 반영된 출력 신호 Pze_L 및 Pze_R을 생성할 수 있다. 일 실시예에 따르면, 고도각 e에 대응하는 파라메터는 고도각 e에 대응하는 노치 및 피크 값을 포함할 수 있다.
상술한 본 발명의 실시예들은 다양한 수단을 통해 구현될 수 있다. 예를 들어, 본 발명의 실시예들은 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다.
하드웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 실시예들에 따른 방법은 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차 또는 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리는 프로세서의 내부 또는 외부에 위치할 수 있으며, 이미 공지된 다양한 수단에 의해 프로세서와 데이터를 주고 받을 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아는 것으로 해석해야 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (20)

  1. 오디오 신호 처리 장치로서,
    입력 오디오 신호를 적어도 하나의 오브젝트 신호에 대응하는 제1 콤포넌트와 잔여 신호에 대응하는 제2 콤포넌트로 분리하고, 상기 제1 콤포넌트에 대응하는 위치 벡터 정보를 상기 입력 오디오 신호로부터 추출하는 전처리부;
    상기 위치 벡터 정보를 이용하여 상기 제1 콤포넌트에 오브젝트 기반의 제1 렌더링을 수행하는 제1 렌더링부; 및
    상기 제2 콤포넌트에 채널 기반의 제2 렌더링을 수행하는 제2 렌더링부;
    를 포함하는 오디오 신호 처리 장치.
  2. 제1 항에 있어서,
    상기 입력 오디오 신호는 HOA(Higher Order Ambisonics) 계수들을 포함하며,
    상기 전처리부는 상기 HOA 계수들을 복수의 오디오 신호들을 나타내는 제1 행렬과, 상기 복수의 오디오 신호들 각각의 위치 벡터 정보를 나타내는 제2 행렬로 분해하고,
    상기 제1 렌더링부는 상기 제1 콤포넌트에 대응하는 상기 제2 행렬의 위치 벡터 정보를 이용하여 오브젝트 기반의 렌더링을 수행하는 오디오 신호 처리 장치.
  3. 제2 항에 있어서,
    상기 제1 콤포넌트는 상기 제1 행렬이 나타내는 복수의 오디오 신호들 중 높은 레벨 순서의 기 설정된 개수의 오디오 신호들로부터 추출되는 오디오 신호 처리 장치.
  4. 제2 항에 있어서,
    상기 제1 콤포넌트는 상기 제1 행렬이 나타내는 복수의 오디오 신호들 중 기 설정된 임계값 이상의 레벨을 갖는 오디오 신호들로부터 추출되는 오디오 신호 처리 장치.
  5. 제2 항에 있어서,
    상기 제1 콤포넌트는 상기 HOA 계수들 중 기 설정된 저 차수의 계수들로부터 추출되는 오디오 신호 처리 장치.
  6. 제2 항에 있어서,
    상기 전처리부는 SVD(Singular Value Decomposition)를 이용하여 상기 HOA 계수들의 행렬 분해를 수행하는 오디오 신호 처리 장치.
  7. 제1 항에 있어서,
    상기 제1 렌더링은 오브젝트 기반의 바이노럴 렌더링이며,
    상기 제1 렌더링부는 상기 제1 콤포넌트에 대응하는 위치 벡터 정보에 기초한 HRTF(Head Related Transfer Function)를 이용하여 상기 제1 렌더링을 수행하는 오디오 신호 처리 장치.
  8. 제1 항에 있어서,
    상기 제2 렌더링은 채널 기반의 바이노럴 렌더링이며,
    상기 제2 렌더링부는 상기 제2 콤포넌트를 적어도 하나의 가상 채널로 매핑하고, 매핑된 가상 채널에 기초한 HRTF를 이용하여 상기 제2 렌더링을 수행하는 오디오 신호 처리 장치.
  9. 제1 항에 있어서,
    상기 제1 렌더링부는 상기 입력 오디오 신호에 대응하는 비디오 신호로부터 획득된 적어도 하나의 오브젝트의 공간적 정보를 참조하여 상기 제1 렌더링을 수행하는 오디오 신호 처리 장치.
  10. 제9 항에 있어서,
    상기 제1 렌더링부는 상기 제1 콤포넌트에 관계된 적어도 하나의 파라메터를 상기 비디오 신호로부터 획득된 공간적 정보에 기초하여 보정하고, 보정된 파라메터를 이용하여 상기 제1 콤포넌트에 대한 오브젝트 기반의 렌더링을 수행하는 오디오 신호 처리 장치.
  11. 오디오 신호 처리 방법으로서,
    입력 오디오 신호를 적어도 하나의 오브젝트 신호에 대응하는 제1 콤포넌트와 잔여 신호에 대응하는 제2 콤포넌트로 분리하는 단계;
    상기 제1 콤포넌트에 대응하는 위치 벡터 정보를 상기 입력 오디오 신호로부터 추출하는 단계;
    상기 위치 정보 벡터를 이용하여 상기 제1 콤포넌트에 오브젝트 기반의 제1 렌더링을 수행하는 단계; 및
    상기 제2 콤포넌트에 채널 기반의 제2 렌더링을 수행하는 단계;
    를 포함하는 오디오 신호 처리 방법.
  12. 제11 항에 있어서,
    상기 입력 오디오 신호는 HOA(Higher Order Ambisonics) 계수들을 포함하며,
    상기 오디오 신호 처리 방법은,
    상기 HOA 계수들을 복수의 오디오 신호들을 나타내는 제1 행렬과, 상기 복수의 오디오 신호들 각각의 위치 벡터 정보를 나타내는 제2 행렬로 분해하는 단계; 및
    상기 제1 콤포넌트에 대응하는 상기 제2 행렬의 위치 벡터 정보를 이용하여 오브젝트 기반의 렌더링을 수행하는 단계;
    를 더 포함하는 오디오 신호 처리 방법.
  13. 제12 항에 있어서,
    상기 제1 콤포넌트는 상기 제1 행렬이 나타내는 복수의 오디오 신호들 중 높은 레벨 순서의 기 설정된 개수의 오디오 신호들로부터 추출되는 오디오 신호 처리 방법.
  14. 제12 항에 있어서,
    상기 제1 콤포넌트는 상기 제1 행렬이 나타내는 복수의 오디오 신호들 중 기 설정된 임계값 이상의 레벨을 갖는 오디오 신호들로부터 추출되는 오디오 신호 처리 방법.
  15. 제12 항에 있어서,
    상기 제1 콤포넌트는 상기 HOA 계수들 중 기 설정된 저 차수의 계수들로부터 추출되는 오디오 신호 처리 방법.
  16. 제12 항에 있어서,
    SVD(Singular Value Decomposition)를 이용하여 상기 HOA 계수들의 행렬 분해가 수행되는 오디오 신호 처리 방법.
  17. 제11 항에 있어서,
    상기 제1 렌더링은 오브젝트 기반의 바이노럴 렌더링이며,
    상기 제1 렌더링은 상기 제1 콤포넌트에 대응하는 위치 벡터 정보에 기초한 HRTF(Head Related Transfer Function)를 이용하여 수행되는 오디오 신호 처리 방법.
  18. 제11 항에 있어서,
    상기 제2 렌더링은 채널 기반의 바이노럴 렌더링이며,
    상기 제2 렌더링은 수행하는 단계는,
    상기 제2 콤포넌트를 적어도 하나의 가상 채널로 매핑하고, 매핑된 가상 채널에 기초한 HRTF를 이용하여 수행되는 오디오 신호 처리 방법.
  19. 제11 항에 있어서,
    상기 제1 렌더링은 상기 입력 오디오 신호에 대응하는 비디오 신호로부터 획득된 적어도 하나의 오브젝트의 공간적 정보를 참조하여 수행되는 오디오 신호 처리 방법.
  20. 제19 항에 있어서,
    상기 제1 렌더링을 수행하는 단계는,
    상기 제1 콤포넌트에 관계된 적어도 하나의 파라메터를 상기 비디오 신호로부터 획득된 공간적 정보에 기초하여 보정하는 단계; 및
    보정된 파라메터를 이용하여 상기 제1 콤포넌트에 대한 오브젝트 기반의 렌더링을 수행하는 단계;
    를 포함하는 오디오 신호 처리 방법.
PCT/KR2017/000633 2016-01-19 2017-01-19 오디오 신호 처리 장치 및 처리 방법 WO2017126895A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/034,373 US10419867B2 (en) 2016-01-19 2018-07-13 Device and method for processing audio signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20160006650 2016-01-19
KR10-2016-0006650 2016-01-19

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/034,373 Continuation US10419867B2 (en) 2016-01-19 2018-07-13 Device and method for processing audio signal

Publications (1)

Publication Number Publication Date
WO2017126895A1 true WO2017126895A1 (ko) 2017-07-27

Family

ID=59362780

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/000633 WO2017126895A1 (ko) 2016-01-19 2017-01-19 오디오 신호 처리 장치 및 처리 방법

Country Status (2)

Country Link
US (1) US10419867B2 (ko)
WO (1) WO2017126895A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019068959A1 (en) * 2017-10-04 2019-04-11 Nokia Technologies Oy COMBINING AND TRANSPORTING AUDIO OBJECTS
WO2022065981A1 (ko) * 2020-09-28 2022-03-31 삼성전자 주식회사 동영상 처리 장치 및 방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10264386B1 (en) * 2018-02-09 2019-04-16 Google Llc Directional emphasis in ambisonics
GB201918010D0 (en) * 2019-12-09 2020-01-22 Univ York Acoustic measurements
US11636866B2 (en) * 2020-03-24 2023-04-25 Qualcomm Incorporated Transform ambisonic coefficients using an adaptive network
US11678111B1 (en) 2020-07-22 2023-06-13 Apple Inc. Deep-learning based beam forming synthesis for spatial audio
GB2600943A (en) * 2020-11-11 2022-05-18 Sony Interactive Entertainment Inc Audio personalisation method and system
US11564038B1 (en) * 2021-02-11 2023-01-24 Meta Platforms Technologies, Llc Spherical harmonic decomposition of a sound field detected by an equatorial acoustic sensor array

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050179701A1 (en) * 2004-02-13 2005-08-18 Jahnke Steven R. Dynamic sound source and listener position based audio rendering
KR20100049555A (ko) * 2007-06-26 2010-05-12 코닌클리케 필립스 일렉트로닉스 엔.브이. 바이노럴 오브젝트―지향 오디오 디코더
US20100246832A1 (en) * 2007-10-09 2010-09-30 Koninklijke Philips Electronics N.V. Method and apparatus for generating a binaural audio signal
KR20150013913A (ko) * 2011-07-01 2015-02-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
WO2015142073A1 (ko) * 2014-03-19 2015-09-24 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102548756B1 (ko) * 2011-07-01 2023-06-29 돌비 레버러토리즈 라이쎈싱 코오포레이션 향상된 3d 오디오 오서링과 렌더링을 위한 시스템 및 툴들
US9589571B2 (en) * 2012-07-19 2017-03-07 Dolby Laboratories Licensing Corporation Method and device for improving the rendering of multi-channel audio signals
EP2891335B1 (en) * 2012-08-31 2019-11-27 Dolby Laboratories Licensing Corporation Reflected and direct rendering of upmixed content to individually addressable drivers
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
KR20170106063A (ko) * 2016-03-11 2017-09-20 가우디오디오랩 주식회사 오디오 신호 처리 방법 및 장치
US10979843B2 (en) * 2016-04-08 2021-04-13 Qualcomm Incorporated Spatialized audio output based on predicted position data
US10231073B2 (en) * 2016-06-17 2019-03-12 Dts, Inc. Ambisonic audio rendering with depth decoding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050179701A1 (en) * 2004-02-13 2005-08-18 Jahnke Steven R. Dynamic sound source and listener position based audio rendering
KR20100049555A (ko) * 2007-06-26 2010-05-12 코닌클리케 필립스 일렉트로닉스 엔.브이. 바이노럴 오브젝트―지향 오디오 디코더
US20100246832A1 (en) * 2007-10-09 2010-09-30 Koninklijke Philips Electronics N.V. Method and apparatus for generating a binaural audio signal
KR20150013913A (ko) * 2011-07-01 2015-02-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
WO2015142073A1 (ko) * 2014-03-19 2015-09-24 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019068959A1 (en) * 2017-10-04 2019-04-11 Nokia Technologies Oy COMBINING AND TRANSPORTING AUDIO OBJECTS
US11570564B2 (en) 2017-10-04 2023-01-31 Nokia Technologies Oy Grouping and transport of audio objects
US11962993B2 (en) 2017-10-04 2024-04-16 Nokia Technologies Oy Grouping and transport of audio objects
WO2022065981A1 (ko) * 2020-09-28 2022-03-31 삼성전자 주식회사 동영상 처리 장치 및 방법

Also Published As

Publication number Publication date
US20180324542A1 (en) 2018-11-08
US10419867B2 (en) 2019-09-17

Similar Documents

Publication Publication Date Title
WO2017126895A1 (ko) 오디오 신호 처리 장치 및 처리 방법
US10674262B2 (en) Merging audio signals with spatial metadata
US9973874B2 (en) Audio rendering using 6-DOF tracking
US11832080B2 (en) Spatial audio parameters and associated spatial audio playback
CN107533843B (zh) 用于捕获、编码、分布和解码沉浸式音频的系统和方法
EP3197182B1 (en) Method and device for generating and playing back audio signal
US8379868B2 (en) Spatial audio coding based on universal spatial cues
US9313599B2 (en) Apparatus and method for multi-channel signal playback
US9055371B2 (en) Controllable playback system offering hierarchical playback options
WO2014021588A1 (ko) 오디오 신호 처리 방법 및 장치
KR20170106063A (ko) 오디오 신호 처리 방법 및 장치
US9219972B2 (en) Efficient audio coding having reduced bit rate for ambient signals and decoding using same
WO2016089180A1 (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법
US20200145776A1 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
US11924627B2 (en) Ambience audio representation and associated rendering
US11350213B2 (en) Spatial audio capture
US11979723B2 (en) Content based spatial remixing
Suzuki et al. 3D spatial sound systems compatible with human's active listening to realize rich high-level kansei information
EP2268064A1 (en) Device and method for converting spatial audio signal
US20210250717A1 (en) Spatial audio Capture, Transmission and Reproduction
US20220086587A1 (en) Audio system, audio reproduction apparatus, server apparatus, audio reproduction method, and audio reproduction program
WO2019229300A1 (en) Spatial audio parameters
US20240098444A1 (en) Object Audio Coding
KR20180024612A (ko) 오디오 신호 처리 방법 및 장치
US10659902B2 (en) Method and system of broadcasting a 360° audio signal

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17741661

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17741661

Country of ref document: EP

Kind code of ref document: A1