WO2017191970A2 - 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치 - Google Patents

바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
WO2017191970A2
WO2017191970A2 PCT/KR2017/004641 KR2017004641W WO2017191970A2 WO 2017191970 A2 WO2017191970 A2 WO 2017191970A2 KR 2017004641 W KR2017004641 W KR 2017004641W WO 2017191970 A2 WO2017191970 A2 WO 2017191970A2
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
audio signal
listener
signal processing
hrtf
Prior art date
Application number
PCT/KR2017/004641
Other languages
English (en)
French (fr)
Other versions
WO2017191970A3 (ko
Inventor
백용현
오현오
이태규
서정훈
전세운
Original Assignee
지오디오랩 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지오디오랩 인코포레이티드 filed Critical 지오디오랩 인코포레이티드
Priority to KR1020187034958A priority Critical patent/KR20180135973A/ko
Publication of WO2017191970A2 publication Critical patent/WO2017191970A2/ko
Publication of WO2017191970A3 publication Critical patent/WO2017191970A3/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Definitions

  • the present invention relates to an audio signal processing method and apparatus. Specifically, the present invention relates to an audio signal processing method and apparatus for binaural rendering an audio signal.
  • 3D audio is a series of signal processing, transmission, encoding, and playback methods for providing a realistic sound in three-dimensional space by providing another axis corresponding to the height direction to a sound scene on a horizontal plane (2D) provided by conventional surround audio. Also known as technology.
  • a rendering technique is required in which a sound image is formed at a virtual position in which no speaker exists even if a larger number of speakers or a smaller number of speakers are used.
  • 3D audio is expected to be an audio solution for ultra-high definition televisions (UHDTVs), including sound from vehicles evolving into high-quality infotainment spaces, as well as theater sounds, personal 3DTVs, tablets, wireless communication terminals, and cloud games. It is expected to be applied in the field.
  • UHDTVs ultra-high definition televisions
  • infotainment spaces including sound from vehicles evolving into high-quality infotainment spaces, as well as theater sounds, personal 3DTVs, tablets, wireless communication terminals, and cloud games. It is expected to be applied in the field.
  • a channel based signal and an object based signal may exist in the form of a sound source provided to 3D audio.
  • a sound source in which a channel-based signal and an object-based signal are mixed, thereby providing a user with a new type of listening experience.
  • Binaural rendering is the modeling of this 3D audio as a signal delivered to both ears.
  • the user can also feel 3D through the binaural rendered 2-channel audio output signal through headphones or earphones.
  • the specific principle of binaural rendering is as follows. One always hears the sound through both ears, and the sound recognizes the location and direction of the sound source.
  • 3D audio can be modeled in the form of an audio signal delivered to both ears of a person, the stereoscopic sense of 3D audio can be reproduced through a two-channel audio output without a large number of speakers.
  • the audio signal processing apparatus may simulate a sound source in one point in 3D audio.
  • the audio signal processing apparatus simulates a sound source with a single point
  • the audio signal processing apparatus simulates an audio signal output from sound sources having different sizes of objects to be simulated. In this case, when the distance between the listener and the sound source is close, the audio signal processing apparatus may not reproduce the difference between the audio signals transmitted according to the size of the object outputting the audio signal.
  • One embodiment of the present invention is to provide an audio signal processing method and apparatus for binaural rendering.
  • An audio signal processing apparatus for binaurally rendering an input audio signal may include a receiver configured to receive the input audio signal; A binaural renderer configured to binaurally render the input audio signal to generate two-channel audio; And an output unit for outputting the two-channel audio.
  • the binaural renderer may binaurally render the input audio signal based on a distance from a listener to the sound source corresponding to the input audio signal and the size of an object simulated by the sound source.
  • the binaural renderer determines a characteristic of a head related transfer function (HRTF) based on a distance from the listener to the sound source and a size of an object simulated by the sound source, and uses the HRTF to input the input.
  • the audio signal can be binaurally rendered.
  • the HRTF may be a pseudo HRTF generated by adjusting an initial time delay of an HRTF corresponding to a path from the listener to the sound source based on the distance from the listener to the sound source and the size of an object simulated by the sound source.
  • the initial delay time used to generate the pseudo HRTF may also increase.
  • the binaural renderer may filter the input audio signal using an HRTF and the pseudo HRTF corresponding to a path from the listener to the sound source.
  • the binaural renderer is the audio signal and the pseudo HRTF filtered by the HRTF corresponding to the path from the listener to the sound source based on the size of the object simulated by the sound source compared to the distance from the listener to the sound source. The ratio of the filtered audio signal can be determined.
  • the binaural renderer may be configured based on the size of an object simulated by the sound source relative to the distance from the listener to the sound source when the size of the object simulated by the sound source increases from the distance from the listener to the sound source.
  • the ratio of the audio signal filtered by the pseudo HRTF to the audio signal filtered by the HRTF corresponding to the path from the listener to the sound source may be increased.
  • the pseudo HRTF is generated by adjusting at least one of a phase between two channels of the HRTF and a level difference between two channels of the HRTF based on the distance from the listener to the sound source and the size of an object simulated by the sound source. It may have been.
  • the binaural renderer may determine the number of the pseudo HRTF based on the distance from the listener to the sound source and the size of the object simulated by the sound source, and use the HRTF and the determined number of the pseudo HRTF. have.
  • the binaural renderer may process only a frequency band audio signal having a wavelength shorter than a preset maximum time delay among the audio signals filtered by the pseudo HRTF.
  • the binaural renderer may binaurally render the input audio signal using a plurality of HRTFs corresponding to each of a plurality of points on the sound source and a path to a listener.
  • the binaural renderer may determine the number of the plurality of points on the sound source based on the distance from the listener to the sound source and the size of the object simulated by the sound source.
  • the binaural renderer may determine a location of a plurality of points on the sound source based on the distance from the listener to the sound source and the size of an object simulated by the sound source.
  • the binaural renderer may adjust IACC (Interaural Cross Correlation) between the two-channel audio signal based on the distance from the listener to the sound source and the size of an object simulated by the sound source.
  • IACC Interaural Cross Correlation
  • the binaural renderer may lower the IACC between the two-channel audio signals when the size of an object simulated by the sound source increases with respect to the distance from the listener to the sound source.
  • the binaural renderer adjusts the IACC between the two channel audio signals by randomizing a phase of a head related transfer function (HRTF) corresponding to the two channel audio signals.
  • HRTF head related transfer function
  • the binaural renderer filters the signal obtained by randomizing the phase of the input audio signal and the input audio signal by a head related transfer function (HRTF) corresponding to a path of the sound source from the listener.
  • HRTF head related transfer function
  • IACC may be adjusted between the two channel audio signals.
  • the binaural renderer may calculate a size of an object simulated by the sound source based on a directivity pattern of the input audio signal.
  • the binaural renderer may calculate different sizes of objects simulated by the sound source for each frequency band of the input audio signal.
  • the binaural renderer performs binaural rendering of a component of a relatively low frequency band of the input audio signal when binaurally rendering a component of a relatively high frequency band of an object simulated by the sound source. It can be calculated that it is larger than the size of the object to be simulated.
  • the binaural renderer may calculate the size of an object simulated by the sound source based on the head direction of the listener.
  • An embodiment of the present invention provides an audio signal processing method and apparatus for binaural rendering.
  • an embodiment of the present invention provides a binaural rendering audio signal processing method and apparatus for expressing a three-dimensional effect depending on the size of the object to be simulated by the sound source.
  • FIG. 2 is a block diagram illustrating an apparatus for processing binaural audio signals according to an exemplary embodiment.
  • FIG. 3 illustrates a method of selecting an HRTF corresponding to a path from a sound source to a listener by an audio signal processing apparatus according to an exemplary embodiment of the present invention.
  • FIG. 4 is a binaural signal according to a distance from a listener to a sound source when an audio signal processing apparatus according to an exemplary embodiment adjusts the IACC between the binaurally rendered two-channel audio signals according to the distance from the listener to the sound source. Shows the IACC between the rendered two channel audio signals.
  • FIG. 5 illustrates an impulse response of a pseudo HRTF used by the audio signal processing apparatus according to an embodiment of the present invention to binaurally render an audio signal.
  • FIG. 6 shows that the audio signal processing apparatus according to an embodiment of the present invention binaurally renders an audio signal by setting a plurality of sound sources replacing any one sound source.
  • FIG. 7 illustrates a method in which an audio signal processing apparatus according to an exemplary embodiment processes a plurality of sound sources as a single sound source.
  • FIG 8 illustrates an operation of an audio signal processing apparatus according to an embodiment of the present invention.
  • the first sound source S output direction and the second sound source S ′ output direction are positioned at the same angle c from the center of the listener.
  • the first sound source S and the second sound source S ' are both virtual sound sources in three dimensions, and unless otherwise stated in the present specification, the sound sources represent three-dimensional virtual sound sources.
  • the first sound source S and the second sound source S ' may represent a loudspeaker corresponding to an audio object or channel signal corresponding to the object signal.
  • the first sound source S is spaced apart from the listener by a first distance r1.
  • the second sound source S ' is spaced apart from the listener by a second distance r2. At this time, the area of the first sound source S is relatively smaller than the first distance r1.
  • the incidence angles of the listener's two ears of the audio signal output from the left end point of the first sound source S and the incidence angle of the audio signal output from the right end point of the first sound source S are different.
  • the first sound source S is separated from the listener by the first distance r1
  • the audio signal output from the left end point of the first sound source S and transmitted to the listener and the right end point of the first sound source S The difference in audio signal output from and delivered to the listener may be relatively small. This is because, as the audio signal is transmitted along a relatively long path, the difference between the audio signals transmitted to the listener generated by the incident angle difference of the audio signal may be reduced. Therefore, the audio signal processing apparatus can treat the first sound source S as a point.
  • the audio signal processing apparatus may process an audio signal for binaural rendering by using a head related transfer function (HRTF) corresponding to a path from the center of the first sound source S to the listener.
  • HRTF head related transfer function
  • the HRTF may be one set of ipsilateral HRTFs corresponding to channel audio signals for ipsilateral ears and contralateral HRTFs corresponding to channel audio signals for contralateral ears.
  • the path from the center of the first sound source S to the listener may be a path connecting the center of the first sound source S and the center of the listener.
  • the path from the center of the first sound source S to the listener may be a path connecting the center of the first sound source S and the two ears of the listener.
  • the audio signal processing apparatus may process an audio signal for binaural rendering by using an ipsilateral HRTF corresponding to an incident angle of an ipsilateral ear and a contralateral HRTF corresponding to an incident angle of an opposite ear at the center of the first sound source S.
  • the area for outputting the audio signal in the second sound source S ' is not small compared to the second distance r2. Therefore, the incident angle of the listener of the audio signal output from the left end point p1 of the second sound source S 'and the incident angle of the listener of the audio signal output from the right end point pN of the second sound source S' Shows a difference, and the audio signal transmitted to the listener according to the difference in the incident angle may have a meaningful difference.
  • the audio signal processing apparatus may binaurally render the audio signal in consideration of such a difference.
  • the audio signal processing apparatus can treat the sound source as a sound source having a width rather than a point.
  • the audio signal processing apparatus may binaurally render the audio signal based on the size of an object simulated by the sound source.
  • the audio signal processing apparatus may binaurally render the audio signal based on the distance between the listener and the sound source and the size of the object simulated by the sound source. For example, when the audio signal processing device binaurally renders an audio signal of a sound source closer than the reference distance R_thr from the listener, the audio signal processing device may binaurally render the audio signal based on the size of an object simulated by the sound source. can do.
  • the size of the object simulated by the sound source may be the area of the object simulated by the sound source.
  • the area of the object simulated by the sound source may represent an area in which an audio signal is output from the object simulated by the sound source.
  • the size of the object simulated by the sound source may be the volume of the sound source.
  • the size of the object simulated by the sound source is referred to as the size of the sound source.
  • the audio signal processing apparatus may binaurally render the audio signal by adjusting the characteristics of the HRTF based on the size of the sound source.
  • the audio signal processing apparatus may binaurally render the audio signal using the plurality of HRTFs based on the size of the sound source.
  • the audio signal processing apparatus may consider both the size of the sound source and the distance from the listener to the sound source.
  • the audio signal processing apparatus may binaurally render an audio signal using a plurality of HRTFs corresponding to a path from each of the plurality of points on the sound source to the listeners based on the distance from the listener to the sound source and the size of the sound source. have.
  • the audio signal processing apparatus may perform a binaural audio signal using a plurality of HRTFs corresponding to a path from each of the plurality of points on the sound source to the listeners based on the distance from the sound source to the listener and the size of the sound source. Can render.
  • the audio signal processing apparatus may select the number of the plurality of points on the sound source based on the distance from the listener to the sound source and the size of the sound source. Also, the audio signal processing apparatus may select the number of the plurality of points based on the amount of computation for binaural rendering the audio signal.
  • the audio signal processing apparatus may select positions of a plurality of points on the sound source based on the distance from the listener to the sound source and the size of the sound source.
  • the path from each of the plurality of points on the sound source to the listener may represent a path from each of the plurality of points to the center of the listener's head.
  • the path from each of the plurality of points on the sound source to the listener may represent a path from each of the plurality of points to each of the two ears of the listener.
  • the audio signal processing apparatus may binaurally render the audio signal in consideration of a parallax occurring due to a distance difference between two ears from each of a plurality of points on the sound source.
  • the audio signal processing apparatus may binaurally render an audio signal using an HRTF corresponding to each of a plurality of points on a sound source and each of a plurality of paths connecting two ears. This will be described in detail with reference to FIG. 3.
  • the audio signal processing apparatus includes a plurality of HRTFs p1 to pN corresponding to a path from each of the plurality of points located in the audio signal output area b of the second sound source S 'to each of the two ears. ) May be binaurally rendered an audio signal output from the second sound source s'.
  • each of the plurality of HRTFs p1 to pN may be an HRTF corresponding to an incident angle of a straight line connecting each of a plurality of points located in the audio signal output area b of the second sound source S ′ from the listener.
  • the incident angle may be an elevation angle or an azimuth angle.
  • the audio signal processing apparatus may adjust IACC (Interaural Cross Correlation) between two-channel audio signals that are binaurally rendered based on the size of the sound source. This is because when the listener hears a two channel audio signal having a low IACC, the listener feels that the two audio signals are coming from far away from each other. This is because the listener feels that the sound source is relatively wider than when IACC hears two channels of high audio.
  • the audio signal processing apparatus may adjust the IACC between the two channel audio signals that are binaurally rendered based on the distance from the sound source to the listener and the size of the sound source.
  • the audio signal processing apparatus may adjust the IACC between the two-channel audio signal that is binaurally rendered based on the distance from the sound source to the listener and the size of the sound source. For example, the audio signal processing apparatus may compare the distance from the sound source to the listener and the size of the sound source to lower the IACC of the binaural rendered two-channel audio signal when the size of the sound source is relatively large. The audio signal processing apparatus may lower the IACC of the binaural rendered two channel audio signal by randomizing a phase of an HRTF corresponding to each of the two channel audio signals that are binaurally rendered.
  • the audio signal processing apparatus may lower the IACC of the binaural-rendered two-channel audio signal by adding a random component to the phase of the HRTF as the relative area of the sound source increases based on the distance from the sound source to the listener. .
  • the audio signal processing apparatus may increase the IACC of the two-channel audio signal that is binaurally rendered by restoring the phase of the HRTF as the relative area of the sound source decreases based on the distance from the sound source to the listener.
  • the audio signal processing device adjusts the IACC to simulate the size of the sound source, the audio signal processing device uses fewer HRTFs corresponding to the plurality of paths connecting each of the plurality of points on the sound source with the listener.
  • the amount of calculation can simulate the size of the sound source.
  • the audio signal processing apparatus may adjust the IACC of the binaurally rendered two-channel audio signal while using a plurality of HRTFs corresponding to a plurality of paths connecting each of the plurality of points and the listener.
  • the audio signal processing apparatus may express the size of an object simulated by the sound source through these embodiments. Specific operations of the audio signal processing apparatus will be described with reference to FIGS. 2 to 8.
  • FIG. 2 is a block diagram illustrating an apparatus for processing binaural audio signals according to an exemplary embodiment.
  • the audio signal processing apparatus 100 includes an input unit 110, a binaural renderer 130, and an output unit 150.
  • the input unit 110 receives an input audio signal.
  • the binaural renderer 130 binaurally renders the input audio signal.
  • the output unit 150 outputs the binaural rendered audio signal.
  • the binaural renderer 130 binaurally renders the input audio signal and outputs a two-channel audio signal in which the input audio signal is represented by a virtual sound source in three dimensions.
  • the binaural renderer 130 may include a size calculator 131, an HRTF database 135, a direction renderer 139, and a distance renderer 141.
  • the size calculator 131 calculates the size of the object simulated by the sound source.
  • the sound source may represent an audio object corresponding to the object signal or a loud speaker corresponding to the channel signal.
  • the size calculator 131 may calculate a relative size of the sound source with respect to the distance from the sound source to the listener.
  • the size of the sound source may be an area of the sound source.
  • the size of the sound source may represent an area where the audio signal is output.
  • the size of the sound source may represent the volume of the sound source.
  • the size calculator 131 may calculate the sound source size based on the image corresponding to the sound source.
  • the size calculator 131 may calculate the sound source size based on the number of pixels of the image corresponding to the sound source.
  • the size calculator 131 may receive metadata about the sound source to calculate the size of the sound source.
  • the metadata about the sound source may include location information. Specifically, the azimuth of the object sound source ), Elevation, ), Distance, ) And size (volume, ) May include information about at least one.
  • the binaural renderer 130 selects an HRTF corresponding to a sound source from the HRTF database 135 and applies the selected HRTF to an audio signal corresponding to the sound source.
  • the HRTF may be one set of the ipsilateral HRTF corresponding to the channel audio signal for the ipsilateral ear and the contralateral HRTF corresponding to the channel audio signal for the contralateral ear.
  • the binaural renderer 130 may select an HRTF corresponding to a path from a sound source to a listener.
  • the path from the sound source to the listener may represent the path from the sound source to the center of the listener.
  • the path from the sound source to the listening may represent a path from the sound source to the two ears of the listener.
  • the binaural renderer may determine the characteristics of the HRTF based on the path from the sound source to the listener and the size of the sound source.
  • the binaural renderer 130 may binaurally render an audio signal using a plurality of HRTFs based on the path and the size of the sound source from the sound source to the listener.
  • the binaural renderer 130 binauralizes the audio signal using a plurality of HRTFs corresponding to the paths from each of the plurality of points to the listeners based on the distance from the sound source to the listener and the size of the sound source. Can render.
  • the binaural renderer 130 may select the number of the plurality of points based on the distance from the listener to the sound source and the size of the sound source. In more detail, the binaural renderer 130 may select the number of the plurality of points based on the amount of computation for binaural rendering the audio signal. In addition, the binaural renderer 130 may select positions of a plurality of points on the sound source based on the distance from the listener to the sound source and the size of the sound source. In addition, the binaural renderer 130 may select an HRTF corresponding to a sound source from the HRTF database 105 based on the metadata described above.
  • the binaural renderer 130 may binaurally render the audio signal in consideration of a parallax occurring due to a distance difference between two ears from a point on the sound source, which is the reference for HRTF selection.
  • the binaural renderer 130 may perform a binaural audio signal by considering a parallax occurring due to a difference in distance between two ears from a point on a sound source, which is a criterion for HRTF selection, based on the metadata described above. Can render.
  • the binaural renderer 130 may apply a parallax effect to the input audio signal based on the sound source altitude and direction. The application of the parallax effect and the HRTF selection will be described in detail with reference to FIG. 3.
  • the binaural renderer 130 may adjust the IACC of the two-channel audio signal to be binaurally rendered as described above.
  • the binaural renderer 130 may adjust the IACC between the two-channel audio signal that is binaurally rendered based on the distance from the sound source to the listener and the size of the sound source.
  • the binaural renderer 130 may adjust the IACC between the two-channel audio signal to be binaurally rendered based on the distance from the sound source to the listener and the size of the sound source.
  • the binaural renderer 130 may adjust the HRTF for IACC adjustment.
  • the binaural renderer 130 may adjust the IACC of the directionally rendered audio signal. This will be described in detail with reference to FIG. 4.
  • the direction renderer 139 localizes the sound source direction of the input audio signal.
  • the direction renderer 139 may apply a binaural cue, that is, a direction cue, to the input audio signal to identify the direction of the sound source based on the listener.
  • the direction queue may include at least one of a level difference between two ears, a phase difference between two ears, a spectral envelope, a spectral notch, and a peak.
  • the direction renderer 139 may perform binaural rendering by using the binaural parameters of the ipsilateral transfer function, which is the HRTF corresponding to the ipsilateral ear, and the contralateral transfer function, which is the HRTF corresponding to the contralateral ear.
  • D ⁇ l (k) represents a signal output from the contralateral transfer function after the direction rendering
  • D ⁇ C (k) represents a signal output from the ipsilateral transfer function after the direction rendering.
  • the direction renderer 109 may orient the sound source of the input audio signal based on the metadata described above.
  • the distance renderer 141 applies the effect of the distance from the sound source to the listening to the input audio signal.
  • the distance renderer 141 may apply a distance cue to the input audio signal to identify the distance of the sound source based on the listener.
  • the distance renderer 141 may apply a change in sound intensity and spectral shaping according to the distance change of the sound source to the input audio signal.
  • the distance renderer 141 may process the input audio signal differently depending on whether the distance from the listener to the sound source is less than or equal to a preset threshold. When the distance from the listener to the sound source exceeds a preset threshold, the distance renderer 141 may apply an intensity of sound inversely proportional to the distance from the listener to the sound source with respect to the head of the listener.
  • the distance renderer 141 may render the input audio signal based on the distance of the sound source measured based on each of the two ears of the listener.
  • the distance renderer 141 may apply an effect according to the distance from the sound source to the listener based on the metadata described above to the input audio signal.
  • B ⁇ l (k) represents a signal output from the contralateral transfer function after direction rendering
  • B ⁇ C (k) represents a signal output from the ipsilateral transfer function after direction rendering.
  • FIG. 3 illustrates a method of selecting an HRTF corresponding to a path from a sound source to a listener by an audio signal processing apparatus according to an exemplary embodiment of the present invention.
  • the audio signal processing apparatus may determine the characteristics of the HRTF to be used for binaural rendering based on the distance from the sound source to the listener and the size of the sound source.
  • the audio signal processing apparatus may binaurally render an audio signal using a plurality of HRTFs based on the distance from the sound source to the listener and the size of the sound source.
  • the binaural renderer may determine the characteristics of the plurality of HRTFs based on the distance from the sound source to the listener and the size of the sound source.
  • the audio signal processing apparatus may use a plurality of HRTFs corresponding to a path connecting the plurality of points of the sound source and the listener.
  • the audio signal processing apparatus may binaurally render the audio signal using an HRTF corresponding to a path from a plurality of points on the sound source to the listener based on the size of the sound source.
  • the HRTF used by the audio signal processing apparatus may be one set of the ipsilateral HRTF corresponding to the channel audio signal for the ipsilateral ear and the contralateral HRTF corresponding to the channel audio signal for the contralateral ear.
  • the audio signal processing apparatus may select an HRTF corresponding to a path from a plurality of points on the sound source to the listener based on the width and the height of the sound source.
  • the audio signal processing apparatus may select a plurality of HRTFs corresponding to a path from each of the plurality of points on the sound source to the listener based on the size of the sound source. For example, the audio signal processing apparatus may select a plurality of points on the sound source based on the size of the sound source, and calculate an incident angle corresponding to the HRTF based on the distance between each of the plurality of points and the listener and the head radius of the listener. . The audio signal processing apparatus may select HRTFs corresponding to a plurality of points on the sound source based on the calculated incident angle.
  • the audio signal processing apparatus may select the number of a plurality of points on the sound source based on the distance from the listener to the sound source and the size of the sound source. Also, the audio signal processing apparatus may select positions of a plurality of points on the sound source based on the distance from the listener to the sound source and the size of the sound source. For example, when the distance from the listener to the sound source exceeds a preset threshold, the audio signal processing apparatus may treat the sound source as a point soure. Also, when the distance from the listener to the sound source is smaller than the preset threshold, the audio signal processing apparatus may select more points on the sound source as the distance from the listener to the sound source gets closer.
  • the audio signal processing apparatus may select three HRTFs corresponding to three ends of the sound source and three center points of the sound source based on both ends of the sound source. At this time, the audio signal processing apparatus may select the HRTF corresponding to the larger incident angle as the HRTF corresponding to both ends of the sound source as the distance from the listener to the sound source gets closer.
  • the predetermined threshold may be 1m. When the distance from the listener to the sound source is 1 m, the incident angle of the path connecting the sound source and the listener may be 45 degrees.
  • the audio signal processing apparatus uses the HRTF corresponding to the distance 0.5 m incident angle 35 degrees, the HRTF corresponding to the distance 0.5 m incident angle 45 degrees, and the HRTF corresponding to the distance 0.5 m incident angle 60 degrees. You can choose.
  • the audio signal processing apparatus uses the HRTF corresponding to the distance 0.2 m incident angle 20 degrees, the HRTF corresponding to the distance 0.2 m incident angle 45 degrees, and the HRTF corresponding to the distance 0.2 m incident angle 70 degrees. You can choose.
  • An angle corresponding to both ends of the sound source may be a predetermined value according to the distance from the listener to the sound source.
  • the audio signal processing apparatus may calculate angles corresponding to both ends of the sound source in real time according to the distance from the listener to the sound source and the size of the sound source. Also, the audio signal processing apparatus may binaurally render an audio signal using HRTFs corresponding to each of a plurality of points on the sound source and each of a plurality of paths connecting two ears. Also, the audio signal processing apparatus may not compare the distance from the listener to the sound source and the threshold value. In this case, the audio signal processing apparatus may use the same number of HRTFs regardless of the distance from the listener to the sound source. In addition, the incident angle of the path connecting the sound source from the listener may include an azimuth angle and an elevation angle. In more detail, the audio signal processing apparatus may binaurally render an audio signal according to the following equation.
  • D_I (k) X (k) p1_I (k) + X (k) p2_I (k) +... + X (k) pN_I (k)
  • D_C (k) X (k) ⁇ p1_C (k) + p2_C +... + pN_C (k) ⁇
  • k represents the index of the frequency.
  • D_I (k) and D_C (k) represents a channel signal corresponding to the ipsilateral ear and a channel signal corresponding to the contralateral ear based on the size of the sound source and the distance from the listener to the sound source when the frequency index is k.
  • X (k) represents the input audio signal corresponding to the sound source when the frequency index is k.
  • pn_I (k) and pn_C (k) each represent an ipsilateral HRTF and a contralateral HRTF corresponding to a path connecting a listener with a pn point of a sound source when the frequency index is k.
  • Equation 1 the audio signal processing apparatus downmixes a plurality of selected HRTFs, and then filters the input audio signals into downmixed HRTFs.
  • the result value of Equation 1 is the same as the audio signal processing apparatus filters the input audio signal into each of the plurality of HRTFs. Therefore, the audio signal processing apparatus may downmix a plurality of selected HRTFs, and then filter the audio signals with the downmixed HRTFs. The audio signal processing apparatus may reduce the amount of computation for binaural rendering through this operation.
  • the audio signal processing apparatus may binaurally render the audio signal by adjusting the weight of the contralateral HRTF and the ipsilateral HRTF based on the path length difference between each point of the sound source and the two ears of the listener. Specifically, when the length of the path of each point of the sound source and the ipsilateral ear of the listener differs from the length of each point of the sound source and the path of the contralateral ear of the listener by more than a predetermined threshold value, the audio signal processing apparatus may perform audio corresponding to the long path. Audio signals can be binaurally rendered except for components of the signal. In the embodiment of FIG.
  • the audio signal processing apparatus binaurally renders an audio signal using a plurality of HRTFs corresponding to a path connecting each of a plurality of points p1 to pN on a sound source and two ears of a listener.
  • the distance r_pm_contral from pm to the contralateral ear is greater than the distance r_pm_ipsi to the ipsilateral ear.
  • the difference between the distance r_pm_contral from pm to the contralateral ear and the distance r_pm_ipsi from the ipsilateral ear is greater than Rd_thr, which is a predetermined threshold.
  • the audio signal processing apparatus may binaurally render the audio signal except for the HRTF component corresponding to the path from pm to the contralateral ear.
  • the audio signal processing apparatus may reflect shadowing that may occur physically and psychoacoustically as the distance between the sound source and the listener approaches.
  • the audio signal processing apparatus when the audio signal processing apparatus binaurally renders an input audio signal using a plurality of HRTFs corresponding to a path from each of the plurality of points on the sound source to the listener, the audio signal processing apparatus may have an angle of incidence (azimuth angle or elevation angle). ) And a plurality of HRTFs having different frequency responses with different peaks, notches, etc. according to the frequency. Therefore, the direction cue of the binaural rendered audio signal may be diluted, or the timbre of the binaural rendered audio signal may be different from the timbre of the input audio signal.
  • the audio signal processing apparatus may binaurally render the input audio signal by weighting a plurality of HRTFs corresponding to a path from each of the plurality of points on the sound source to the listener.
  • the audio signal processing apparatus may binaurally render the input audio signal by giving a weight in the form of a window to the plurality of HRTFs corresponding to the paths from the plurality of points on the sound source to the listeners based on the center of the sound source.
  • the audio signal processing apparatus may apply the largest weight to the HRTF corresponding to the path from the point corresponding to the center of the sound source to the listener.
  • the audio signal processing apparatus may apply a smaller weight to the HRTF corresponding to the path to the point and the listener, the farther from the center of the sound source.
  • the audio signal processing apparatus may binaurally render an audio signal according to the following equation.
  • D_I (k) X (k) ⁇ w (1) p1_I (k) +... + w (c) pc_l (k) +. + w (N) pN_I (k) ⁇
  • D_C (k) X (k) ⁇ w (1) p1_C (k) +... + w (c) pc_C (k) +. + w (N) pN_C (k) ⁇
  • Each of D_I (k) and D_C (k) is a channel signal corresponding to the ipsilateral ear when the processed frequency index is k based on the size of the sound source and the distance from the listener to the sound source and a channel corresponding to the contralateral ear when the frequency index is k. Indicates a signal.
  • X (k) represents the input audio signal corresponding to the sound source when the frequency index is k.
  • pn_I (k) and pn_C (k) each represent an ipsilateral HRTF and a contralateral HRTF corresponding to a path connecting a listener with a pn point of a sound source when the frequency index is k.
  • w (x) represents the weight applied to the HRTF corresponding to the path to the point on the sound source and to the listener.
  • w (c) is a weight applied to the HRTF corresponding to the path to the center of the sound source and the listener, which is the largest of all weight values.
  • w (x) may satisfy the following equation.
  • the audio signal processing apparatus may maintain the energy of the binaural rendered audio signal using Equation 3. Through such embodiments, the audio signal processing apparatus may maintain sound source directionality and prevent tonal distortion that may occur during binaural rendering.
  • FIG. 4 is a binaural signal according to a distance from a listener to a sound source when an audio signal processing apparatus according to an exemplary embodiment adjusts the IACC between the binaurally rendered two-channel audio signals according to the distance from the listener to the sound source. Shows the IACC between the rendered two channel audio signals.
  • the audio signal processing apparatus may adjust the IACC between two channels that are binaurally rendered based on the size of the sound source.
  • the audio signal processing apparatus may adjust the IACC between the two channel audio signals that are binaurally rendered based on the distance from the sound source to the listener and the size of the sound source.
  • the audio signal processing apparatus may adjust the IACC of the binaurally rendered two-channel audio signal based on the distance from the sound source to the listener and the size of the sound source. For example, when the distance from the sound source to the listener approaches and the sound source size becomes relatively large, the audio signal processing apparatus may lower the IACC of the binaural rendered two-channel audio signal.
  • the audio signal processing apparatus may increase the IACC of the binaural rendered two-channel audio signal.
  • the IACC of the binaural rendered two-channel audio signal and the relative distance from the listener to the sound source may have a relationship as shown in the graph of FIG. 4.
  • the audio signal processing apparatus may adjust the IACC by randomizing the phase of the two-channel signal to be binaurally rendered.
  • the audio signal processing apparatus may lower the IACC of the binaural rendered two channel audio signal by randomizing the phase of the HRTF corresponding to each of the two channel audio signals that are binaural rendered.
  • the audio signal processing apparatus may obtain an HRTF for adjusting IACC between two-channel audio signals that are binaurally rendered using the following equation.
  • thr max (min (r ⁇ a, thr_max), thr_min)
  • ⁇ pH_i_hat (k) (1-thr) * ⁇ pH_i (k) + thr * ⁇ pRand (k)
  • pH_i_hat (k)
  • thr represents a randomization parameter.
  • a is a parameter representing the degree of randomization of the phase according to the distance from the listener to the sound source
  • r ⁇ a represents a randomization parameter value adjusted according to the distance from the listener to the sound source.
  • thr_max represents a maximum randomization parameter
  • thr_min represents a minimum randomization parameter.
  • min (a, b) represents the minimum value of a and b
  • max (a, b) represents the maximum value of a and b. Therefore, the randomization parameter has a value that is less than or equal to the maximum randomization parameter value and more than or equal to the minimum randomization parameter value.
  • k represents the index of the frequency.
  • pH_i represents an HRTF corresponding to each of the two-channel audio signals to be binaurally rendered.
  • ⁇ pH_i (k) represents the phase of each HRTF corresponding to the frequency index k, and
  • ⁇ pH_i_hat (k) represents the phase of the randomized HRTF corresponding to the frequency index k, and pH_i_hat represents the randomized HRTF corresponding to the frequency index k.
  • the audio signal processing apparatus may set thr to a value close to zero.
  • the audio signal processing apparatus may use pH_i (k) whose phase is not adjusted.
  • the audio signal processing apparatus may set thr to a value close to one. In this case, the audio signal processing apparatus may apply an HRTF having a randomly acquired value as a phase to binaural rendering.
  • the audio signal processing apparatus may obtain an HRTF having a randomized phase for each frequency index through the above embodiments.
  • the audio signal processing apparatus may obtain a direction rendered audio signal as shown in the following equation based on the acquired HRTF.
  • D_I (k) X (k) ⁇
  • D_C (k) X (k) ⁇
  • Each of D_I (k) and D_C (k) represents a channel signal corresponding to the ipsilateral ear and a channel signal corresponding to the contralateral ear, based on the size of the sound source and the distance from the listener to the sound source.
  • X (k) represents an input audio signal corresponding to the sound source.
  • the audio signal processing apparatus may adjust IACC between two channel audio signals that are binaurally rendered for each frequency band.
  • the audio signal processing apparatus may adjust the IACC between two channels that are binaurally rendered for each frequency band based on the size of the sound source.
  • the audio signal processing apparatus may adjust the IACC between two channels that are binaurally rendered for each frequency band based on the size of the sound source and the distance from the listener to the sound source.
  • the audio signal processing apparatus may adjust the IACC between two-channel audio signals that are binaurally rendered in a frequency band having a low influence on the tone according to the characteristics of the input audio signal corresponding to the sound source.
  • the audio signal processing apparatus may randomize a high parking band component of an audio signal corresponding to the object.
  • the audio signal processing apparatus may randomize the low frequency band components of the audio signal corresponding to the sound source.
  • the audio signal processing apparatus may adjust the IACC of the frequency band k component corresponding to w / c >> r of the two-channel audio signal to be binaurally rendered. Where w is the angular frequency, c is the speed of sound, and r is the distance from the listener to the sound source. Through such embodiments, the audio signal processing apparatus may minimize a tone change that may occur due to IACC adjustment.
  • the size of the sound source may be adjusted by adding a signal filtered by the HRTF corresponding to the path from the listener to the sound source and a signal obtained by randomizing the input audio signal itself.
  • a signal filtered with an HRTF corresponding to a path from a listener to a sound source is called a filtered audio signal
  • an audio signal having a randomized phase of the audio signal is called a random phase audio signal.
  • the audio signal processing apparatus may adjust the ratio of the random phase audio signal and the filtered audio signal based on the distance from the listener to the sound source and the size of the sound source.
  • the audio signal processing apparatus may lower the ratio of the filtered audio signal to the random phase input audio signal.
  • the audio signal processing apparatus may increase the ratio of the filtered audio signal to the random phase audio signal.
  • the audio signal processing apparatus may adjust the IACC between the binaurally rendered two-channel audio signals while reducing the amount of computation through these embodiments.
  • the audio signal processing apparatus may perform binaural rendering of an audio signal corresponding to a sound source through the following equation.
  • D_I (k) X (k) p1_I (k) + X (k) v (k) exp (j * pRand1 (k))
  • D_C (k) X (k) p1_C (k) + X (k) v (k) exp (j * pRand2 (k))
  • Each of D_I (k) and D_C (k) represents a channel signal corresponding to the ipsilateral ear and a channel signal corresponding to the contralateral ear, based on the size of the sound source and the distance from the listener to the sound source.
  • X (k) represents the input audio signal.
  • pn_I (k) and pn_C (k) each represent an ipsilateral HRTF and a contralateral HRTF corresponding to a path connecting the pn point of the sound source and the listener.
  • pRandn1 (k) and pRandn2 (k) are uncorrelated randomization variables.
  • v (k) represents a ratio of a signal obtained by filtering an input audio signal with an HRTF corresponding to a sound source to an input audio signal having a random phase.
  • v (k) may be a time varying value based on the distance from the listener to the sound source and the size of the sound source.
  • the audio signal processing apparatus may obtain v (k) by using the following equation.
  • r_hat max (min (r ⁇ a, thr_max), thr_min)
  • a is a parameter representing the degree of randomly adjusting the phase according to the distance from the listener to the sound source and the size of the sound source
  • r_hat represents a random adjustment parameter value adjusted based on the distance from the listener to the sound source and the size of the sound source.
  • thr_max represents the maximum random adjustment parameter
  • thr_min represents the minimum random adjustment parameter.
  • min (a, b) represents the minimum value of a and b
  • max (a, b) represents the maximum value of a and b.
  • the random adjustment parameter has a value that is less than or equal to the maximum random adjustment parameter value and more than or equal to the minimum random adjustment parameter value.
  • the audio signal processing apparatus may binaurally render an audio signal using a plurality of HRTFs based on the distance from the sound source to the listener and the size of the sound source.
  • the binaural renderer may determine the characteristics of the HRTF based on the distance from the sound source to the listener and the size of the sound source. Referring to FIG. 3, a method of reproducing a three-dimensional effect of an object simulated by a sound source using a plurality of HRTFs corresponding to a path connecting the audio signal processing apparatus from each of the plurality of points on the sound source to the listener.
  • the plurality of HRTFs may be previously measured HRTFs.
  • the audio signal processing apparatus may be configured to adjust at least one of an initial time delay, a phase between channels, and a level between channels in an HRTF corresponding to a path connecting a point of a sound source to a listener.
  • HRTFs can be created.
  • the audio signal processing apparatus may binaurally render the audio signal using the pseudo HRTF.
  • the audio signal processing apparatus may use a plurality of pseudo HRTFs.
  • the audio signal processing apparatus may binaurally render the audio signal using a pseudo HRTF and an HRTF corresponding to a path connecting a point of a sound source and a listener. This will be described in detail with reference to FIG. 5.
  • FIG. 5 illustrates an impulse response of a pseudo HRTF used by the audio signal processing apparatus according to an embodiment of the present invention to binaurally render an audio signal.
  • the audio signal processing apparatus may binaurally render an input audio signal corresponding to a sound source using an HRTF corresponding to a path connecting a point of a sound source and a listener and a pseudo HRTF generated based on the HRTF. Specifically, the audio signal processing apparatus adds an audio signal by adding an audio signal filtered by an HRTF corresponding to a path connecting a point of a sound source and a listener and an audio signal filtered by a pseudo HRTF generated based on the HRTF. Can be rendered.
  • the audio signal processing apparatus may generate a pseudo HRTF by adjusting at least one of an initial time delay, a phase between channels, and a level between channels in an HRTF corresponding to a path connecting a point of a sound source and a listener.
  • the audio signal processing apparatus may generate a pseudo HRTF by adjusting an initial time delay, a phase between channels, and a level between channels in an HRTF corresponding to a path connecting a point of a sound source and a listener.
  • the audio signal processing apparatus may adjust the initial time delay of the pseudo HRTF based on the distance from the listener to the sound source and the size of the sound source.
  • the audio signal processing apparatus may reduce the initial time delay of the pseudo HRTF based on the distance from the listener to the sound source and the size of the sound source. For example, when the distance from the listener to the sound source is greater than a preset threshold, the audio signal processing apparatus may set the initial time delay of the pseudo HRTF to zero. In addition, when the distance from the listener is closer to the sound source and the size of the sound source becomes relatively large, the audio signal processing apparatus may increase the initial time delay of the pseudo HRTF based on the distance from the listener to the sound source and the size of the sound source. For example, when the distance from the listener to the sound source is smaller than a preset threshold, the audio signal processing apparatus may increase the initial time delay of the pseudo HRTF based on the distance from the listener to the sound source and the size of the sound source.
  • the audio signal processing apparatus uses an HRTF corresponding to a path connecting a point of a sound source and a listener together with a pseudo HRTF generated based on the HRTF
  • the audio signal processing apparatus is based on the distance to the sound source and the size of the sound source.
  • the ratio of the audio signal filtered by the HRTF corresponding to the path connecting the sound source and the listener and the audio signal filtered by the pseudo HRTF may be adjusted.
  • the audio signal processing apparatus is configured by the HRTF corresponding to the path connecting the sound source to the listener based on the distance from the listener to the sound source and the size of the sound source.
  • the ratio of the audio signal filtered by the pseudo HRTF to the filtered audio signal can be lowered. For example, if the distance from the listener to the sound source is greater than a preset threshold, the audio signal processing apparatus may determine the ratio of the audio signal filtered by the pseudo HRTF to the audio signal filtered by the HRTF corresponding to the path connecting the sound source and the listener. Can be set to 0. In addition, when the distance from the listener to the sound source approaches and the size of the sound source becomes relatively large, the audio signal processing apparatus filters the HRTF corresponding to the path connecting the sound source and the listener based on the distance from the listener to the sound source and the size of the sound source. The ratio of the audio signal filtered by the pseudo HRTF to the audio signal can be increased.
  • the audio signal processing apparatus is configured by the HRTF corresponding to a path connecting the point of the sound source to the listener based on the distance from the listener to the sound source and the size of the sound source.
  • the ratio of the audio signal filtered by the pseudo HRTF to the filtered audio signal can be increased.
  • the audio signal processing apparatus may generate a plurality of pseudo HRTFs and binaurally render the audio signal using the plurality of pseudo HRTFs.
  • the audio signal processing apparatus may select the number of pseudo HRTFs to be generated based on the distance to the sound source and the size of the sound source.
  • the audio signal processing apparatus may select a location of a point of a sound source, which is a reference of a path connecting the listener and the sound source, based on the distance from the listener to the sound source and the size of the sound source.
  • the audio signal processing apparatus may binaurally render an audio signal using the following equation.
  • H_n_hat_I (k) w_n * H_I_n (k) exp (j * 2 ⁇ * d_n / N)
  • H_n_hat_C (k) -w_n * H_C_n (k) exp (j * 2 ⁇ * d_n / N)
  • H_IC_n (k) represents the index of the frequency.
  • N represents the size of one frame in the frequency domain.
  • H_IC_n (k) represents an HRTF corresponding to a path connecting the sound source and the listener.
  • H_IC_n (k) may indicate an HRTF corresponding to a path connecting the sound source center and the listener.
  • the audio signal processing apparatus may select the HRTF through the size calculator described above.
  • the audio signal processing apparatus may variously generate H_n_hat_IC (k) from one to a plurality.
  • H_n_hat_IC (k) represents a pseudo HRTF generated by adjusting an initial time delay in H_IC_n (k).
  • d_n represents a time delay applied to the pseudo HRTF.
  • the audio signal processing apparatus may determine the value of d_n based on the distance from the listener to the sound source and the size of the sound source.
  • w_n represents the ratio of the audio signal filtered by the pseudo HRTF to the filtered audio signal by the HRTF corresponding to a path connecting a point of the sound source and the listener.
  • the audio signal processing apparatus may determine the value of w_n based on the distance from the listener to the sound source and the size of the sound source.
  • Figure 5 shows the impulse response of the HRTF and pseudo HRTF corresponding to the path from one point of the sound source to the listener.
  • the impulse response of size 1 shows the impulse response of the HRTF corresponding to the path connecting the listener from the sound source.
  • the impulse response of the pseudo HRTF to which the first weight w1 is applied at the position delayed by the first time d1 and the pseudo HRTF to which the second weight w2 is applied to the position delayed by the second time d2 is applied. Shows.
  • the listener first hears the audio signal filtered by the HRTF rather than the pseudo HRTF. Due to the precedence effect, the listener may not confuse the original direction of the sound source even if the listener hears the audio signal filtered by the pseudo HRTF.
  • the phase between the two channel audio signals filtered by the pseudo HRTF has the same out-of-phase at all frequencies. Therefore, the distortion of the tone generated by binaural rendering may be less based on the distance from the sound source to the listening and the size of the sound source.
  • the audio signal processing apparatus may binaurally render the audio signal by normalizing weights of the audio signal filtered by the pseudo HRTF for the filtered audio signal by the HRTF corresponding to the path connecting the sound source and the listener.
  • the audio signal processing apparatus may maintain a constant level of the audio signal corresponding to the sound source.
  • the audio signal processing apparatus may binaurally render an audio signal as in the following equation.
  • D_I (k) X (k) ⁇ H_I (k) + H1_hat_I (k) + H2_hat_I (k) +... + Hn_hat_I (k) ⁇ / sqrt (1 + w_1 ⁇ 2 +... + w_n ⁇ 2)
  • D_C (k) X (k) ⁇ H_C (k) + H1_hat_C (k) + H2_hat_C (k) +... + Hn_hat_C (k) ⁇ / sqrt (1 + w_1 ⁇ 2 +... + w_n ⁇ 2)
  • H_IC_n (k) represents an HRTF corresponding to a path connecting the sound source and the listener.
  • H_n_hat_IC (k) represents a pseudo HRTF generated by adjusting an initial time delay in H_IC_n (k).
  • w_n represents the ratio of the audio signal filtered by the pseudo HRTF to the filtered audio signal by the HRTF corresponding to the path connecting the sound source and the listener.
  • the audio processing apparatus may binaurally render an audio signal using a combination of H_n_hat_IC (k) without using H_IC_n (k). In this case, the audio signal processing apparatus may not use H_I (k) and H_C (k) in Equation 9, and may omit the constant term 1 in the calculation of the normalization value used for energy conservation.
  • the audio signal processing apparatus may process only an audio signal of a frequency band having a wavelength shorter than a preset maximum time delay among audio signals filtered by the pseudo HRTF. In more detail, the audio signal processing apparatus may not process an audio signal of a frequency band having a wavelength longer than a preset maximum time delay. According to a specific embodiment, the audio signal processing apparatus may not process a frequency band corresponding to k_c> k in the following equation.
  • the two-channel audio signal filtered by the HRTF may have a constant out-of-phase at the left and right sides and may have opposite signs.
  • the audio signal filtered by the HRTF corresponding to the path connecting the point of the sound source and the listener and the audio signal filtered by the pseudo HRTF are completely decorated signals. Therefore, a low frequency signal may be transmitted to a signal corresponding to the opposite ear, and sound quality distortion may occur.
  • the audio signal processing apparatus may prevent such sound distortion through the above-described embodiments.
  • FIG. 6 shows that the audio signal processing apparatus according to an embodiment of the present invention binaurally renders an audio signal by setting a plurality of sound sources replacing any one sound source.
  • the audio signal processing apparatus may binaurally render an audio signal by replacing one sound source with a plurality of sound sources.
  • the audio signals corresponding to the plurality of sound sources are localized at positions of one sound source replaced by the plurality of sound sources.
  • Panning can be used to simulate sound sources such as dots in a stereo speaker environment. If the stereo speakers are panned to one center point, the picture is disturbed. In this case, the listener may feel a three-dimensional feeling of the object simulated by the sound source. Therefore, even when the audio signal processing apparatus replaces one sound source with a plurality of sound sources, the listener may feel a 3D feeling of an object simulated by the sound source.
  • the audio signal processing apparatus may use a plurality of HRTFs, and the plurality of HRTFs may correspond to each of a plurality of paths connecting a plurality of sound sources replacing one sound source and a listener.
  • the number of the plurality of sound sources may be two.
  • the plurality of sound sources output an audio signal located at the position of the sound source.
  • the audio signal processing apparatus may adjust the interval between the plurality of sound sources replacing one sound source based on the distance from the listener to the sound source and the size of the sound source.
  • the audio signal processing apparatus may widen the interval between the plurality of sound sources based on the distance from the listener to the sound source and the size of the sound source. For example, when the distance from the listener to the sound source is less than or equal to a preset threshold and the relative sound source is large, the audio signal processing apparatus may widen the interval between the plurality of sound sources based on the distance from the listener to the sound source and the size of the sound source. have.
  • the audio signal processing apparatus may narrow the interval between the plurality of sound sources based on the distance from the listener to the sound source and the size of the sound source.
  • the audio signal processing apparatus may not replace the sound source with a plurality of sound sources.
  • the audio signal processing apparatus uses a point P1, which is a point on the sound source, as the first sound source set Pair1, which is two sound sources that output an audio signal located at the position of P1. Replace.
  • the audio signal processing apparatus sets the second sound source set (Pair2), which is two sound sources for outputting an audio signal positioned at P2, which is a point on the sound source, P2. ).
  • the audio signal processing apparatus may divide the interval between the sound sources included in the second sound source set Pair2 between the sound sources included in the first sound source set Pair2. Adjust wider.
  • the method of the audio signal processing apparatus to express the three-dimensional sense of the object simulated by the sound source.
  • it is necessary to consider not only the distance and the size of the sound source but also other factors. This is explained below.
  • the audio signal processing apparatus may calculate the size of the sound source based on the head direction of the listener and the direction of the sound source, and binaurally render the audio signal based on the size of the calculated sound source.
  • the audio signal processing apparatus may apply vertical parallax as well as horizontal visual parallax when applying parallax. This is because the altitude difference between the two ears of the listener can be changed by the relative position of the listener and the sound source and the head rotation of the listener. For example, when the two ears of the listener are located on a sound source and a diagonal line, the audio signal processing apparatus may apply vertical parallax.
  • the audio signal may be binaurally rendered by applying only the HRTF corresponding to the path between the ear and the sound source close to the sound source, without applying the HRTF corresponding to the path between the ear and the sound source far from the sound source.
  • the audio signal processing apparatus may calculate the size of the sound source based on the directivity pattern of the audio signal corresponding to the sound source. This is because the radiation width of the audio signal varies depending on the frequency band.
  • the audio signal processing apparatus may calculate a size of a sound source differently according to frequency bands.
  • the audio signal processing apparatus may calculate the size of the sound source differently for each frequency band. For example, the audio signal processing apparatus may calculate that the size of the sound source is larger than the size of the sound source when binaurally rendering the low frequency band component when binaurally rendering the high frequency band component among the audio signals corresponding to the sound source. have. This is because the radio frequency of the audio signal in the high frequency band can be narrower.
  • the audio signal processing apparatus may adjust the IACC of the two-channel audio signal that is binaurally rendered for each frequency band.
  • the audio signal processing apparatus may differently adjust the randomization degree of the HRTF applied to the two-channel audio signal for each frequency band.
  • the audio signal processing apparatus may set the degree of phase randomization in the low frequency band of the HRTF to be higher than the degree of phase randomization in the high frequency band of the HRTF.
  • the audio signal processing apparatus may distinguish a frequency band based on at least one of Equivalent Rectangular Bandwidth (ERB), critical bands, and octave bands.
  • ERB Equivalent Rectangular Bandwidth
  • the audio signal processing apparatus may use various methods other than this method in order to distinguish frequency bands.
  • the audio signal processing apparatus When the audio signal processing apparatus binaurally renders audio signals corresponding to a plurality of sound sources, the audio signal processing apparatus may need to individually apply a plurality of HRTFs corresponding to the plurality of sound sources. Therefore, the calculation amount of the audio signal processing apparatus may be excessively large. In this case, the audio signal processing apparatus may reduce the amount of computation for binaural rendering by replacing the plurality of sound sources with one sound source having a predetermined size or more. This will be described with reference to FIG. 7.
  • FIG. 7 illustrates a method in which an audio signal processing apparatus according to an exemplary embodiment processes a plurality of sound sources as a single sound source.
  • the audio signal processing apparatus may replace the plurality of sound sources with one replacement sound source, and binaurally render the audio signal based on the distance from the listener to the replacement sound source and the size of the replacement sound source.
  • the audio signal processing apparatus may calculate the size of the substitute sound source based on the positions of the plurality of substitute sound sources.
  • the audio signal processing apparatus may calculate the size of the replacement sound source as the size of the space in which the plurality of sound sources exist.
  • the audio signal processing apparatus may generate the audio signal through the embodiments described with reference to FIGS. 1 to 6. Binaural rendering is possible.
  • the audio signal processing apparatus may binaurally render the audio signal using HRTFs corresponding to both endpoints of the alternative sound source.
  • the audio signal processing apparatus may specifically select a plurality of points on the substitute sound source and binaurally render the audio signal using a plurality of HRTFs corresponding to each of the plurality of points.
  • the audio signal processing apparatus may divide a plurality of sound sources into a plurality of groups and apply a delay for each of the plurality of groups when binaural rendering an audio signal using an alternative sound source. This is because the timing at which the audio signal is generated from each of the plurality of sound sources may be different. For example, in a video showing a large number of zombies, the time at which each zombie is motivated may be slightly different. In this case, the audio signal processing apparatus may divide the zombies into three groups and give delays to the three groups.
  • the audio signal processing apparatus may not be treated as having no size regardless of whether the distance from the listener to the replacement sound source is greater than or equal to a preset threshold.
  • a preset threshold In the case of an alternative sound source, a plurality of sound sources that are separated from each other are replaced, and even though the sound source is far from the listener, it may not be treated as a single point.
  • the audio signal processing apparatus replaces a plurality of relatively far sound sources with second objects objs 2. Specifically, the audio signal processing apparatus binaurally renders audio signals corresponding to the plurality of sound sources based on the width b2 of the second object and the distance r2 from the listener to the second object objs 2.
  • the audio signal processing apparatus replaces a plurality of relatively close sound sources with the first object objs 1.
  • the audio signal processing apparatus may perform binaural audio signals corresponding to a plurality of sound sources based on the width b1 of the first object objs 1 and the distance r1 from the listener to the first object objs 2. Render.
  • the distance r1 from the listener to the first object objs 1 is closer than the distance r2 from the listener to the second object objs 2.
  • the width b1 of the first object objs 1 is greater than the width of the second object objs 2.
  • the audio signal processing apparatus binaurally renders an audio signal corresponding to the first object objs 1
  • the audio signal processing apparatus has a larger size than when binaurally rendering an audio signal corresponding to the second object objs 2.
  • the audio signal processing apparatus divides a plurality of sound sources into three groups (Sub group 1, Sub group 2, Sub group 3), and divides audio signals corresponding to each of the three groups (Sub group 1, Sub group 2, Sub group 3) at different starting time points. Binaural rendering is possible.
  • the audio signal processing apparatus may express a stereoscopic sense of the plurality of sound sources while reducing the binaural calculation burden on the plurality of sound sources.
  • FIG 8 illustrates an operation of an audio signal processing apparatus according to an embodiment of the present invention.
  • the audio signal processing apparatus receives an input audio signal (S801).
  • the audio signal processing apparatus may receive an input audio signal through an input unit.
  • the audio signal processing apparatus generates a two-channel audio signal by binaurally rendering the input audio signal based on the distance from the listener to the sound source corresponding to the input audio signal and the size of the object simulated by the sound source (S803).
  • the audio signal processing apparatus generates a two-channel audio signal by binaurally rendering an input audio signal based on a distance to a sound source and a size of an object simulated by the sound source through a binaural renderer.
  • the path from the listener to the sound source may represent a path from the center of the listener's head to the sound source.
  • the path from the listener to the sound source may represent a path from both ears of the listener to the sound source.
  • the audio signal processing apparatus may determine the characteristics of the HRTF based on the distance from the sound source to the listener and the size of the sound source, and binaurally render the audio signal using the HRTF.
  • the audio signal processing apparatus may binaurally render an audio signal using a plurality of HRTFs based on the distance from the sound source to the listener and the size of the sound source.
  • the binaural renderer may determine the characteristics of the plurality of HRTFs based on the distance from the sound source to the listener and the size of the sound source.
  • the audio signal processing apparatus may binaurally render the input audio signal based on the pseudo HRTF.
  • the pseudo HRTF is generated based on the HRTF corresponding to the path from the listener to the sound source.
  • the pseudo HRTF may be generated by adjusting the initial time delay of the HRTF based on the distance from the listener to the sound source and the size of the object simulated by the sound source.
  • the initial delay time used to generate the pseudo HRTF may also increase.
  • the pseudo HRTF may be generated by adjusting a phase between two channels of the HRTF based on the distance from the listener to the sound source and the size of the object simulated by the sound source.
  • the pseudo HRTF may be generated by adjusting a level difference between two channels of the HRTF based on the distance from the listener to the sound source and the size of the object simulated by the sound source.
  • the audio signal processing apparatus may filter the input audio signal using HRTF and pseudo HRTF corresponding to the path from the taker to the sound source.
  • the audio signal processing apparatus may determine a ratio of the audio signal filtered by the HRTF and the audio signal filtered by the pseudo HRTF based on the size of the object simulated by the sound source to the distance from the listener to the sound source.
  • the audio signal processing apparatus may compare the audio signal filtered by the HRTF based on the size of the object simulated by the sound source when the size of the object simulated by the sound source becomes larger than the distance from the listener to the sound source.
  • the ratio of the audio signal filtered by the pseudo HRTF can be increased.
  • the audio signal processing apparatus may binaurally render an input signal using a plurality of pseudo HRTFs. At this time, the audio signal processing apparatus determines the number of pseudo HRTFs based on the distance from the listener to the sound source and the size of the object simulated by the sound source, and binaurally renders the input audio signal using the HRTF and the determined number of pseudo HRTFs. can do.
  • the audio signal processing apparatus may process only a frequency band audio signal having a wavelength shorter than a preset maximum time delay among audio signals filtered by the pseudo HRTF.
  • the audio signal processing apparatus may binaurally render an input audio signal using a pseudo HRTF as in the embodiments described with reference to FIG. 5.
  • the audio signal processing apparatus may adjust the IACC between the two-channel audio signals generated through binaural rendering based on the distance from the listener to the sound source and the size of the object simulated by the sound source. In detail, the audio signal processing apparatus may lower the IACC between two-channel audio signals generated through binaural rendering when the size of an object simulated by the sound source increases with respect to the distance from the listener to the sound source.
  • the audio signal processing apparatus may adjust the IACC between the two channel audio signals to be binaurally rendered by randomizing the phase of the HRTF corresponding to each of the two channel audio signals to be binaurally rendered.
  • the audio signal processing apparatus may adjust the IACC between two-channel audio signals by adding a signal obtained by randomizing the phase of the input signal and a signal filtered by the HRTF corresponding to the path of the sound source from the listener.
  • the audio signal processing apparatus may adjust IACC between two channel audio signals that are binaurally rendered for each frequency band.
  • the audio signal processing apparatus may adjust the IACC between two channels that are binaurally rendered for each frequency band based on the size of the sound source.
  • the audio signal processing apparatus may adjust the IACC between two channels that are binaurally rendered for each frequency band based on the size of the sound source and the distance from the listener to the sound source.
  • the audio signal processing apparatus may adjust the IACC between two-channel audio signals that are binaurally rendered in a frequency band having less influence on the tone according to the characteristics of the input audio signal corresponding to the sound source.
  • the audio signal processing apparatus may adjust IACC between two channel audio signals that are binaurally rendered through the embodiments described with reference to FIG. 4.
  • the audio signal processing apparatus uses the plurality of HRTFs corresponding to the paths connecting the listeners with each of the plurality of points on the sound source based on the distance from the listener to the sound source and the size of the object simulated by the sound source to generate the input audio signal. Can be rendered.
  • the audio signal processing apparatus may select a plurality of HRTFs corresponding to a path from each of the plurality of points on the sound source based on the distance from the listener to the sound source and the size of the object simulated by the sound source.
  • the audio signal processing apparatus may select a plurality of points on the sound source based on the size of the sound source, and calculate an incident angle corresponding to the HRTF based on the distance between each of the plurality of points and the listener and the head radius of the listener. .
  • the audio signal processing apparatus may select HRTFs corresponding to a plurality of points on the sound source based on the calculated incident angle.
  • the audio signal processing apparatus uses a plurality of HRTFs corresponding to a path from each of a plurality of points on the sound source to the listener based on the distance from the sound source to the listener and the size of the sound source for binaural rendering.
  • the audio signal can be processed.
  • the audio signal processing apparatus may select the number of the plurality of points on the sound source based on the distance from the listener to the sound source and the size of the sound source.
  • the audio signal processing apparatus may select positions of a plurality of points on the sound source based on the distance from the listener to the sound source and the size of the sound source.
  • the audio signal processing apparatus may treat the sound source as a point soure.
  • the audio signal processing apparatus may increase the number of points on the sound source as the distance from the listener to the sound source gets closer.
  • the audio signal processing apparatus may select three HRTFs corresponding to three ends of the sound source and three center points of the sound source based on both ends of the sound source. At this time, the audio signal processing apparatus may select the HRTF corresponding to the larger incident angle as the HRTF corresponding to both ends of the sound source as the distance from the listener to the sound source gets closer. In more detail, the audio signal processing apparatus may binaurally render an input audio signal using a plurality of HRTFs corresponding to a path connecting a plurality of points on a sound source and a listener as in the embodiments described with reference to FIG. 3.
  • the audio signal processing apparatus may binaurally render an audio signal by replacing one sound source with a plurality of sound sources.
  • the audio signals corresponding to the plurality of sound sources are localized at positions of one sound source replaced by the plurality of sound sources.
  • the audio signal processing apparatus may use a plurality of HRTFs, and the plurality of HRTFs may correspond to each of a plurality of paths connecting listeners and a plurality of sound sources replacing one sound source.
  • the number of the plurality of sound sources may be two.
  • the audio signal processing apparatus may replace one sound source with an audio signal filtered by a plurality of HRTFs corresponding to the plurality of sound sources. In this case, the plurality of sound sources output an audio signal positioned at the position of the sound source.
  • the audio signal processing apparatus may adjust the interval between the plurality of sound sources replacing one sound source based on the distance from the listener to the sound source and the size of the sound source. In detail, when the distance from the listener to the sound source becomes closer and the size of the relative sound source increases, the audio signal processing apparatus may widen the interval between the plurality of sound sources based on the distance from the listener to the sound source and the size of the sound source. In more detail, the audio signal processing apparatus may binaurally render the input audio signal as in the embodiments described with reference to FIG. 6.
  • the audio signal processing apparatus may perform the following operations when calculating the size of the object simulated by the sound source.
  • the audio signal processing apparatus may calculate different sizes of objects simulated by the sound source for each frequency band of the input audio signal.
  • the audio signal processing apparatus is configured to binaurally render a component of a relatively low frequency band of an input audio signal to an object that is simulated by the sound source when binaurally renders a component of a relatively high frequency band. It can be calculated as larger than the size of.
  • the audio signal processing apparatus may calculate the size of the object simulated by the sound source based on the head direction of the listener. In detail, the audio signal processing apparatus may calculate the size of an object simulated by the sound source based on the head direction of the listener and the direction in which the sound source outputs the audio signal.
  • the audio signal processing apparatus may replace the plurality of sound sources with one replacement sound source, and binaurally render the audio signal based on the distance from the listener to the replacement sound source and the size of the replacement sound source.
  • the audio signal processing apparatus may calculate the size of the substitute sound source based on the positions of the plurality of substitute sound sources.
  • the audio signal processing apparatus may calculate the size of the replacement sound source as the size of the space in which the plurality of sound sources exist.
  • the audio signal processing apparatus may operate as in the embodiment of FIG. 7.
  • the audio signal processing apparatus outputs a two channel audio signal (S805).

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

입력 오디오 신호를 바이노럴 렌더링하는 오디오 신호 처리 장치가 개시된다. 오디오 신호 처리 장치는 상기 입력 오디오 신호를 수신하는 수신부; 상기 입력 오디오 신호를 바이노럴 렌더링하여 2채널 오디오를 생성하는 바이노럴 렌더러; 및 상기 2채널 오디오를 출력하는 출력부를 포함한다. 상기 바이노럴 렌더러는 청취자로부터 상기 입력 오디오 신호에 대응하는 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링한다.

Description

바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치
본 발명은 오디오 신호 처리 방법 및 장치에 관한 것이다. 구체적으로 본 발명은 오디오 신호를 바이노럴 렌더링하기 위한 오디오 신호 처리 방법 및 장치에 관한 것이다.
3D 오디오란 기존의 서라운드 오디오에서 제공하는 수평면(2D) 상의 사운드 장면에 높이 방향에 해당하는 또 다른 축을 제공함으로써, 3차원 공간상에서 임장감 있는 사운드를 제공하기 위한 일련의 신호 처리, 전송, 부호화 및 재생기술 등을 통칭한다. 특히, 3D 오디오를 제공하기 위해서는 종래보다 많은 수의 스피커를 사용하거나 혹은 적은 수의 스피커를 사용하더라도 스피커가 존재하지 않는 가상의 위치에서 음상이 맺히도록 하는 렌더링 기술이 요구된다.
3D 오디오는 초고해상도 TV(UHDTV)에 대응되는 오디오 솔루션이 될 것으로 예상되며, 고품질 인포테인먼트 공간으로 진화하고 있는 차량에서의 사운드를 비롯하여 그밖에 극장 사운드, 개인용 3DTV, 태블릿, 무선 통신 단말 및 클라우드 게임 등 다양한 분야에서 응용될 것으로 예상된다.
한편, 3D 오디오에 제공되는 음원의 형태로는 채널 기반의 신호와 오브젝트 기반의 신호가 존재할 수 있다. 이 뿐만 아니라, 채널 기반의 신호와 오브젝트 기반의 신호가 혼합된 형태의 음원이 존재할 수 있으며, 이를 통해 유저로 하여금 새로운 형태의 청취 경험을 제공할 수 있다.
바이노럴 렌더링은 이러한 3D 오디오를 사람의 양귀에 전달되는 신호로 모델링하는 것이다. 사용자는 헤드폰이나 이어폰 등을 통한 바이노럴 렌더링된 2 채널 오디오 출력 신호를 통해서도 입체감을 느낄 수 있다. 바이노럴 렌더링의 구체적인 원리는 다음과 같다. 사람은 언제나 두 귀를 통해 소리를 듣고, 소리를 통해서 음원 위치와 방향을 인식한다. 따라서 3D 오디오를 사람의 두 귀에 전달되는 오디오 신호 형태로 모델링할 수 있다면, 많은 수의 스피커 없이 2 채널 오디오 출력을 통해서도 3D 오디오의 입체감을 재현할 수 있다.
오디오 신호 처리 장치는 3D 오디오에서 음원을 하나의 점으로 시뮬레이션할 수 있다. 오디오 신호 처리 장치가 음원을 하나의 점으로 시뮬레이션하는 경우, 오디오 신호 처리 장치는 시뮬레이션하는 물체의 크기가 서로 다른 음원으로부터 출력되는 오디오 신호를 동일하게 시뮬레이션한다. 이때, 오디오 신호 처리 장치는 청취자와 음원의 거리가 가까운 경우 오디오 신호를 출력하는 물체의 크기에 따라 전달되는 오디오 신호의 차이를 재현하지 못할 수 있다.
본 발명의 일 실시 예는 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 실시 예에 따른 입력 오디오 신호를 바이노럴 렌더링하는 오디오 신호 처리 장치는 상기 입력 오디오 신호를 수신하는 수신부; 상기 입력 오디오 신호를 바이노럴 렌더링하여 2채널 오디오를 생성하는 바이노럴 렌더러; 및 상기 2채널 오디오를 출력하는 출력부를 포함한다. 이때, 상기 바이노럴 렌더러는 청취자로부터 상기 입력 오디오 신호에 대응하는 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 머리 전달 함수(Head Related Transfer Function, HRTF)의 특성을 결정하고, 상기 HRTF를 사용하여 상기 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
상기 HRTF는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF의 초기 시간 지연을 조정하여 생성된 의사 HRTF일 수 있다.
구체적으로 상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 상기 의사 HRTF를 생성하기 위해 사용되는 상기 초기 지연 시간도 커질 수 있다.
또한, 상기 바이노럴 렌더러는 상기 입력 오디오 신호를 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF와 상기 의사 HRTF를 사용해 필터링하할 수 있다. 이때, 상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호와 상기 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 결정할 수 있다.
구체적으로 상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호 대비 상기 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 높일 수 있다.
또한, 상기 의사 HRTF는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 HRTF의 2채널 간의 위상 및 상기 HRTF의 2채널간의 레벨차 중 적어도 어느 하나를 조정하여 생성된 것일 수 있다.
또한, 상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 의사 HRTF의 개수를 결정하고, 상기 HRTF와 상기 결정된 개수의 상기 의사 HRTF를 사용할 수 있다.
또한, 상기 바이노럴 렌더러는 상기 의사 HRTF에 의해 필터링된 오디오 신호 중 미리 설정된 최대 시간 지연보다 짧은 파장을 가지는 주파수 대역 오디오 신호만을 처리할 수 있다.
또한, 상기 바이노럴 렌더러는 상기 음원 위의 복수의 지점 각각과 청취자까지의 경로에 대응하는 복수의 HRTF를 사용해 상기 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
이때, 상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 음원 위의 복수의 지점의 개수를 결정할 수 있다.
또한, 상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 음원 위의 복수의 지점의 위치를 결정할 수 있다.
상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 2채널 오디오 신호 사이의 IACC(Interaural Cross Correlation)를 조정할 수 있다.
구체적으로 상기 바이노럴 렌더러는 상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 상기 2채널 오디오 신호 사이의 IACC를 낮출 수 있다.
또한, 상기 바이노럴 렌더러는 상기 2채널 오디오 신호에 대응하는 머리 전달 함수(Head Related Transfer Function, HRTF)의 위상을 랜덤화하여 상기 2채널 오디오 신호 사이의 IACC를 조정하는
또한, 상기 바이노럴 렌더러는 상기 입력 오디오 신호의 위상을 랜럼화한 신호와 상기 입력 오디오 신호를 상기 청취자로부터 상기 음원의 경로에 대응하는 머리 전달 함수(Head Related Transfer Function, HRTF)로 필터링한 신호를 더하여 상기 2채널 오디오 신호 사이의 IACC를 조정할 수 있다.
상기 바이노럴 렌더러는 상기 입력 오디오 신호의 지향성 패턴(directivity pattern)을 기초로 상기 음원이 시뮬레이션하는 물체의 크기를 연산할 수 있다.
상기 바이노럴 렌더러는 상기 입력 오디오 신호의 주파수 대역별로 상기 음원이 시뮬레이션하는 물체의 크기를 다르게 연산할 수 있다.
상기 바이노럴 렌더러는 상기 입력 오디오 신호 중 상대적으로 낮은 주파수 대역의 성분을 바이노럴 렌더링할 때 상기 음원이 시뮬레이션하는 물체의 크기를 상대적으로 높은 주파수 대역의 성분을 바이노럴 렌더링할 때 상기 음원이 시뮬레이션하는 물체의 크기보다 더 큰 것으로 연산할 수 있다.
상기 바이노럴 렌더러는 상기 청취자의 머리 방향을 기초로 상기 음원이 시뮬레이션하는 물체의 크기를 연산할 수 있다.
본 발명의 일 실시 예는 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치를 제공한다.
특히, 본 발명의 일 실시 예는 음원이 시뮬레이션하는 물체의 크기에 따라 달라지는 입체감을 표현하기 위한 바이노럴 렌더링 오디오 신호 처리 방법 및 장치를 제공한다.
도 1은 음원이 시뮬레이션하는 물체의 크기 및 청취자로부터 물체까지의거리에 따라 청취자의 양귀에 도달하는 오디오 신호의 특성이 달라지는 것을 보여준다.
도 2는 본 발명의 일 실시 예에 따른 바이노럴 오디오 신호 처리 장치를 보여주는 블록도이다.
도 3은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 음원으로부터 청취자까지의 경로에 해당하는 HRTF를 선택하는 방법을 보여준다.
도 4는 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 청취자로부터 음원까지의 거리에 따라 바이노럴 렌더링된 2채널 오디오 신호 사이의 IACC를 조정할 때, 청취자로부터 음원까지의 거리에 따른 바이노럴 렌더링된 2채널 오디오 신호 사이의 IACC를 보여준다.
도 5는 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 오디오 신호를 바이노럴 렌더링할 때 사용하는 의사(psuedo) HRTF의 임펄스 응답을 보여준다.
도 6은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 어느 하나의 음원을 대체하는 복수의 음원을 설정하여 오디오 신호를 바이노럴 렌더링하는 것을 보여준다.
도 7은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 복수의 음원을 하나의 음원같이 처리 하는 방법을 보여준다.
도 8은 본 발명의 실시 예에 따른 오디오 신호 처리 장치의 동작을 보여준다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 출원은 대한민국 특허 출원 제10-2016-0055791호(2016.05.04)를 기초로 한 우선권을 주장하며, 우선권의 기초가 되는 상기 각 출원들에 서술된 실시 예 및 기재 사항은 본 출원의 상세한 설명에 포함되는 것으로 한다.
도 1은 음원이 시뮬레이션하는 물체의 크기 및 청취자로부터 음원까지의거리에 따라 청취자의 양귀에 도달하는 오디오 신호의 특성이 달라지는 것을 보여준다.
도 1에서 제1 음원(S) 출력 방향과 제2 음원(S') 출력 방향은 청취자의 중심으로부터 동일한 각도(c)에 위치한다. 이때, 제1 음원(S)과 제2 음원(S')은 모두 3차원상의 가상의 음원으로, 본 명세서에서 별도의 언급이 없는 경우 음원은 3차원상의 가상의 음원을 나타낸다. 이때, 제1 음원(S)과 제2 음원(S')은 오브젝트 신호에 대응하는 오디오 오브젝트 또는 채널 신호에 대응하는 라우드 스피커를 나타낼 수 있다. 제1 음원(S)은 청취자로부터 제1 거리(r1)만큼 떨어져 있다. 제2 음원(S')은 청취자로부터 제2 거리(r2)만큼 떨어져 있다. 이때, 제1 거리(r1)에 비해 제1 음원(S)의 면적은 상대적으로 작다. 제1 음원(S)의 왼쪽 끝 지점으로부터 출력된 오디오 신호의 청취자의 두 귀에 대한 입사각과 제1 음원(S)의 오른쪽 끝 지점으로부터 출력된 오디오 신호의 청취자에 대한 입사각은 차이를 보인다. 그러나 제1 음원(S)은 청취자로부터 제1 거리(r1)만큼 떨어져 있으므로, 제1 음원(S)의 왼쪽 끝 지점으로부터 출력되어 청취자에 전달되는 오디오 신호와 제1 음원(S)의 오른쪽 끝 지점으로부터 출력되어 청취자에 전달되는 오디오 신호의 차이는 상대적으로 작을 수 있다. 상대적으로 긴 경로를 따라 오디오 신호가 전달되면서 오디오 신호의 입사각 차이로 발생되는 청취자에게 전달된 오디오 신호간의 차이가 작아질 수 있기 때문이다. 따라서 오디오 신호 처리 장치는 제1 음원(S)을 점과 같이 취급할 수 있다. 구체적으로 오디오 신호 처리 장치는 제1 음원(S)의 중심에서 청취자까지 경로에 대응하는 HRTF(Head Related Transfer Function)를 이용하여 바이노럴 렌더링을 위한 오디오 신호를 처리할 수 있다. HRTF는 동측 귀를 위한 채널 오디오 신호에 대응하는 동측 HRTF와 대측 귀를 위한 채널 오디오 신호에 대응하는 대측 HRTF가 하나의 세트일 수 있다. 이때, 제1 음원(S)의 중심에서 청취자까지 경로는 제1 음원(S)의 중심과 청취자의 중심을 연결하는 경로일 수 있다. 또 다른 구체적인 실시 예에서 제1 음원(S)의 중심에서 청취자까지 경로는 제1 음원(S)의 중심과 청취자의 두 귀를 연결하는 경로일 수 있다. 구체적으로 오디오 신호 처리 장치는 제1 음원(S)의 중심에서 동측 귀의 입사각에 대응하는 동측 HRTF와 대측 귀의 입사각에 대응하는 대측 HRTF를 이용하여 바이노럴 렌더링을 위한 오디오 신호를 처리할 수 있다.
그러나 제2 거리(r2)에 비해 제2 음원(S')에서 오디오 신호를 출력하는 면적은 작지 않다. 따라서 제2 음원(S')의 왼쪽 끝 지점(p1)에서 출력된 오디오 신호의 청취자에 대한 입사각과 제2 음원(S')의 오른쪽 끝 지점(pN)에서 출력된 오디오 신호의 청취자에 대한 입사각은 차이를 보이고, 이러한 입사각의 차이에 따라 청취자에게 전달되는 오디오 신호는 의미있는 차이를 가질 수 있다. 오디오 신호 처리 장치는 이러한 차이를 고려하여 오디오 신호를 바이노럴 렌더링할 수 있다.
오디오 신호 처리 장치는 음원을 점이 아닌 넓이를 갖는 음원으로 취급할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원이 시뮬레이션하는 물체의 크기(size)를 기초로 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적인 실시 예에서, 오디오 신호 처리 장치는 청취자와 음원의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 오디오 신호를 바이노럴 렌더링할 수 있다. 예컨대, 오디오 신호 처리 장치가 청취자로부터 기준 거리(R_thr)보다 가까운 음원의 오디오 신호를 바이노럴 렌더링하는 경우, 오디오 신호 처리 장치는 음원이 시뮬레이션하는 물체의 크기를 기초로 오디오 신호를 바이노럴 렌더링할 수 있다. 음원이 시뮬레이션하는 물체의 크기는 음원이 시뮬레이션하는 물체의 면적일 수 있다. 구체적으로 음원이 시뮬레이션하는 물체의 면적은 음원이 시뮬레이션하는 물체에서 오디오 신호가 출력되는 면적을 나타낼 수 있다. 또한, 음원이 시뮬레이션하는 물체의 크기는 음원의 부피일 수 있다. 설명의 편의를 위해, 음원이 시뮬레이션하는 물체의 크기를 음원의 크기(size)로 지칭한다.
오디오 신호 처리 장치는 음원의 크기를 기초로 HRTF의 특성을 조정하여 오디신호를 바이노럴 렌더링할 수 있다. 오디오 신호 처리 장치는 음원의 크기를 기초로 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 음원의 크기와 청취자로부터 음원까지의 거리를 함께 고려할 수 있다. 구체적으로 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적인 실시 예에서, 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리 및 음원의 크기를 기초로 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 음원 위의 복수 지점의 개수를 선택할 수 있다. 또한, 오디오 신호 처리 장치는 오디오 신호를 바이노럴 렌더링하기 위한 연산량을 기초로 복수 지점의 개수를 선택할 수 있다. 또한, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 음원 위의 복수의 지점의 위치를 선택할 수 있다. 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로는 복수의 지점 각각으로부터 청취자의 머리 중심까지의 경로를 나타낼 수 있다. 또한, 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로는 복수의 지점 각각으로부터 청취자의 두 귀까지의 경로를 나타낼 수 있다. 이때, 오디오 신호 처리 장치는 음원 위의 복수의 지점 각각으로부터 두 귀간의 거리 차이에따라 발생하는 시차(parallax)를 고려하여 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원 위의 복수의 지점 각각과 두 귀를 연결하는 복수의 경로 각각에 대응하는 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이에 대해서 도 3에 대한 설명을 통해 구체적으로 설명한다.
도 1의 실시 예에서, 오디오 신호 처리 장치는 제2 음원(S')의 오디오 신호 출력 면적(b)에 위치하는 복수의 지점 각각으로부터 두 귀까지의 경로에 대응하는 복수의 HRTF(p1~pN)를 사용하여 제2 음원(s')이 출력하는 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 복수의 HRTF(p1~pN) 각각은 청취자로부터 제2 음원(S')의 오디오 신호 출력 면적(b)에 위치하는 복수의 지점 각각을 연결하는 직선의 입사각에 해당하는 HRTF일 수 있다. 입사각은 고도각 또는 방위각일 수 있다.
또 다른 구체적인 실시 예에서, 오디오 신호 처리 장치는 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 오디오 신호 사이의 IACC(Interaural Cross Correlation)를 조정할 수 있다. 청취자가 IACC가 낮은 2채널 오디오 신호를 듣는 경우, 청취자는 두 개의 오디오 신호가 서로 멀리 떨어진 곳에서 들려오는 것으로 느끼기 때문이다. 청취자는 IACC가 높은 2채널의 오디오를 들을 때보다 상대적으로 음원이 넓게 퍼져있는 것으로 느끼기 때문이다. 구체적으로 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리와 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정할 수 있다. 구체적인 실시 예에서, 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리와 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정할 수 있다. 예컨대, 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리와 음원의 크기를 비교해, 음원의 크기가 상대적으로 큰 경우 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 낮출 수 있다. 오디오 신호 처리 장치는 바이노럴 렌더링되는 2채널 오디오 신호 각각에 대응하는 HRTF의 위상(phase)을 랜덤화(randomization)하여 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 낮출 수 있다. 구체적으로 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리를 기준으로 음원의 상대적 면적이 커질수록 HRTF의 위상(phase)에 랜덤 성분을 추가하여 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 낮출 수 있다. 또한, 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리를 기준으로 음원의 상대적 면적이 작아질수록 HRTF의 위상(phase)을 복원하여 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 높일 수 있다. 오디오 신호 처리 장치가 IACC를 조정하여 음원의 크기를 시뮬레이션하는 경우, 오디오 신호 처리 장치가 음원 위의 복수의 지점 각각과 청취자를 연결하는 복수의 경로에 대응하는 복수의 HRTF를 사용하는 경우보다 더 적은 연산량으로 음원의 크기를 시뮬레이션할 수 있다. 또한, 오디오 신호 처리 장치는 복수의 지점 각각과 청취자를 연결하는 복수의 경로에 대응하는 복수의 HRTF를 사용하면서, 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 조정할 수 있다. 오디오 신호 처리 장치는 이러한 실시 예들을 통해 음원이 시뮬레이션하는 물체의 크기를 표현할 수 있다. 오디오 신호 처리 장치의 구체적인 동작은 도 2 내지 도 8을 통해 설명한다.
도 2는 본 발명의 일 실시 예에 따른 바이노럴 오디오 신호 처리 장치를 보여주는 블록도이다.
오디오 신호 처리 장치(100)는 입력부(110), 바이노럴 렌더러(130) 및 출력부(150)를 포함한다. 입력부(110)는 입력 오디오 신호를 수신한다. 바이노럴 렌더러(130)는 입력된 오디오 신호를 바이노럴 렌더링한다. 출력부(150)는 바이노럴 렌더링된 오디오 신호를 출력한다.
구체적으로 바이노럴 렌더러(130)는 입력 오디오 신호를 바이노럴 렌더링하여, 입력 오디오 신호가 3차원상의 가상의 음원에 의해 표현되는 2채널 오디오 신호를 출력한다. 이를 위해 바이노럴 렌더러(130)는 크기 연산부(131), HRTF 데이터베이스(135), 방향 렌더러(139) 및 거리 렌더러(141)를 포함할 수 있다.
크기 연산부(131)는 음원이 시뮬레이션하는 물체의 크기를 연산한다. 음원은 오브젝트 신호에 대응하는 오디오 오브젝트 또는 채널 신호에 대응하는 라우드 스피커를 나타낼 수 있다. 구체적으로 크기 연산부(131)는 음원으로부터 청취자까지의 거리에 대한 음원의 상대적인 크기를 연산할 수 있다. 이때, 음원의 크기는 음원의 면적일 수 있다. 구체적으로 음원의 크기는 오디오 신호가 출력되는 면적을 나타낼 수 있다. 또한, 음원의 크기는 음원의 부피를 나타낼 수 있다. 오디오 신호가 이미지와 매칭되는 경우, 크기 연산부(131)는 음원에 대응하는 이미지를 기초로 음원 크기를 연산할 수 있다. 구체적으로 크기 연산부(131)는 음원에 대응하는 이미지의 픽셀 수를 기초로 음원 크기를 연산할 수 있다. 또한, 크기 연산부(131)는 음원에 대한 메타데이터(Metadata)를 수신하여 음원의 크기를 연산할 수 있다. 이때, 음원에 대한 메타데이터는 위치 정보(localization information)을 포함할 수 있다. 구체적으로 오브젝트 음원의 방위각(azimuth,
Figure PCTKR2017004641-appb-I000001
), 고도각(elevation,
Figure PCTKR2017004641-appb-I000002
), 거리(distance,
Figure PCTKR2017004641-appb-I000003
) 및 크기(volume,
Figure PCTKR2017004641-appb-I000004
) 중 적어도 어느 하나에 대한 정보를 포함할 수 있다.
바이노럴 렌더러(130)는 HRTF 데이터베이스(135)로부터 음원에 해당하는 HRTF를 선택하고, 음원에 해당하는 오디오 신호에 선택한 HRTF를 적용한다. 이때, HRTF는 동측(ipsilateral) 귀를 위한 채널 오디오 신호에 대응하는 동측 HRTF와 대측(contralateral) 귀를 위한 채널 오디오 신호에 대응하는 대측 HRTF가 하나의 세트일 수 있다. 바이노럴 렌더러(130)는 앞서 설명한 바와 같이 음원으로부터 청취자까지의 경로 에 해당하는 HRTF를 선택할 수 있다. 이때, 음원으로부터 청취자까지의 경로는 음원으로부터 청취자의 중심까지의 경로를 나타낼 수 있다. 또한, 음원으로부터 청취까지의 경로는 음원으로부터 청취자의 두 귀까지의 경로를 나타낼 수 있다. 이때, 바이노럴 렌더러는 음원으로부터 청취자까지 경로 및 음원의 크기를 기초로 HRTF의 특성을 결정할 수 있다. 구체적으로 바이노럴 렌더러(130)는 음원으로부터 청취자까지 경로 및 음원의 크기를 기초로 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적인 실시 예에서, 바이노럴 렌더러(130)는 음원으로부터 청취자까지의 거리 및 음원의 크기를 기초로 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 바이노럴 렌더러(130)는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 복수 지점의 개수를 선택할 수 있다. 구체적으로 바이노럴 렌더러(130)는 오디오 신호를 바이노럴 렌더링하기 위한 연산량을 기초로 복수 지점의 개수를 선택할 수 있다. 또한, 바이노럴 렌더러(130)는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 음원 위의 복수의 지점의 위치를 선택할 수 있다. 또한, 바이노럴 렌더러(130)는 앞서 설명한 메타데이터를 기초로 HRTF 데이터베이스(105)로부터 음원에 해당하는 HRTF를 선택할 수 있다. 이때, 바이노럴 렌더러(130)는 HRTF 선택의 기준이되는 음원 위의 지점으로부터 두 귀간의 거리 차이에따라 발생하는 시차(parallax)를 고려하여 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 바이노럴 렌더러(130)는 앞서 설명한 메타데이터를 기초로 HRTF 선택의 기준이되는 음원 위의 지점으로부터 두 귀간의 거리 차이에따라 발생하는 시차(parallax)를 고려하여 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적인 실시 예에서, 바이노럴 렌더러(130)는 음원 고도 및 방향을 기초로 입력 오디오 신호에 시차 효과를 적용할 수 있다. 시차 효과 적용 및 HRTF 선택에 대해서는 도 3에 대한 설명을 통해 구체적으로 설명한다.
또한, 바이노럴 렌더러(130)는 앞서 설명한 바와 같이 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 조정할 수 있다. 구체적으로 바이노럴 렌더러(130)는 음원으로부터 청취자까지의 거리와 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 오디오 신호 사이의 IACC를 조정할 수 있다. 구체적인 실시 예에서, 바이노럴 렌더러(130)는 음원으로부터 청취자까지의 거리와 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 오디오 신호 사이의 IACC를 조정할 수 있다. 구체적인 실시 예에서 바이노럴 렌더러(130)는 IACC 조정을 위해 HRTF를 조정할 수 있다. 또 다른 구체적인 실시 예에서 바이노럴 렌더러(130)는 방향 렌더링된 오디오 신호의 IACC를 조정할 수 있다. 이에 대해서는 도 4에 대한 설명을 통해 구체적으로 설명한다.
방향 렌더러(139)는 입력 오디오 신호의 음원 방향을 정위(localizing)한다. 방향 렌더러(139)는 청취자를 기준으로 한 음원의 방향을 식별하도록 하는 바이노럴 큐(binaural cue) 즉, 디렉션 큐(direction cue)를 입력 오디오 신호에 적용할 수 있다. 이때, 디렉션 큐는 두 귀의 레벨차, 두 귀의 위상차, 스펙트럴 인벨로프(spectral envelope), 스펙트럴 노치(spectral notch), 피크 중 적어도 어느 하나를 포함할 수 있다. 방향 렌더러(139)는 동측 귀에 해당하는 HRTF인 동측 전달 함수 및 대측 귀에 해당하는 HRTF인 대측 전달 함수의 바이노럴 파라메터를 이용하여 바이노럴 렌더링을 수행할 수 있다. D^l(k)는 방향 렌더링 후 대측 전달 함수에서 출력된 신호를 나타내고, D^C(k)는 방향 렌더링 후 동측 전달 함수에서 출력된 신호를 나타낸다. 또한, 방향 렌더러(109)는 앞서 설명한 메타데이터를 기초로 입력 오디오 신호의 음원 방향을 정위할 수 있다.
거리 렌더러(141)는 음원로부터 청취까지의 거리에 따른 효과를 입력 오디오 신호에 적용한다. 거리 렌더러(141)는 청취자를 기준으로 한 음원의 거리를 식별하도록 하는 디스턴스 큐(distance cue)를 입력 오디오 신호에 적용할 수 있다. 거리 렌더러(141)는 음원의 거리 변화에 따른 음향 강도(sound intensity) 및 스펙트럴 형태(spectral shaping)의 변화를 입력 오디오 신호에 적용할 수 있다. 거리 렌더러(141)는 청취자로부터 음원까지의 거리가 미리 설정된 임계값 이하인지에 따라 입력 오디오 신호를 다르게 프로세싱할 수 있다. 청취자로부터 음원까지의 거리가 미리 설정된 임계값을 초과할 경우, 거리 렌더러(141)는 입력 오디오 신호에 청취자의 머리를 중심으로 하여 청취자로부터 음원까지의 거리에 반비례하는 음향 강도를 적용할 수 있다. 청취자로부터 음원까지의 거리가 미리 설정된 임계값 이하일 경우, 거리 렌더러(141)는 청취자의 두 귀 각각을 기준으로 측정된 음원의 거리를 기초로 입력 오디오 신호를 렌더링할 수 있다. 거리 렌더러(141)는 앞서 설명한 메타데이터를 기초로 음원으로부터 청취자까지의 거리에 따른 효과를 입력 오디오 신호에 적용할 수 있다. B^l(k)는 방향 렌더링 후 대측 전달 함수에서 출력된 신호를 나타내고, B^C(k)는 방향 렌더링 후 동측 전달 함수에서 출력된 신호를 나타낸다.
도 3은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 음원으로부터 청취자까지의 경로에 해당하는 HRTF를 선택하는 방법을 보여준다.
앞서 설명한 바와 같이 오디오 신호 처리 장치는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 바이노럴 렌더링에 사용할 HRTF의 특성을 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 바이노럴 렌더러는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 복수 HRTF의 특성을 결정할 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 음원의 복수의 지점과 청취자를 연결하는 경로에 대응하는 복수의 HRTF를 사용할 수 있다. 따라서 오디오 신호 처리 장치는 음원의 크기를 기초로 음원 위의 복수의 지점으로부터 청취자까지의 경로에 대응하는 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 오디오 신호 처리 장치가 사용하는 HRTF는 동측(ipsilateral) 귀를 위한 채널 오디오 신호에 대응하는 동측 HRTF와 대측(contralateral) 귀를 위한 채널 오디오 신호에 대응하는 대측 HRTF가 하나의 세트일 수 있다. 구체적으로 오디오 신호 처리 장치는 음원의 너비 및 높이를 기초로 음원 위의 복수의 지점으로부터 청취자까지의 경로에 대응하는 HRTF를 선택할 수 있다. 구체적인 실시 예에서, 오디오 신호 처리 장치는 음원의 크기를 기초로 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF를 선택할 수 있다. 예컨대, 오디오 신호 처리 장치는 음원의 크기를 기초로 음원 위의 복수의 지점을 선택하고, 복수의 지점 각각과 청취자 사이의 거리 및 청취자의 머리 반지름을 기초로 HRTF에 대응하는 입사각을 연산할 수 있다. 오디오 신호 처리 장치는 연산한 입사각을 기초로 음원 위의 복수의 지점에 대응하는 HRTF를 선택할 수 있다.
구체적인 실시 예에서 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 음원 위의 복수 지점의 개수를 선택할 수 있다. 또한, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 음원 위의 복수의 지점의 위치를 선택할 수 있다. 예컨대, 청취자로부터 음원까지의 거리가 미리 설정된 임계값을 초과하는 경우, 오디오 신호 처리 장치는 음원을 크기를 갖지 않는 점(point soure)으로 취급할 수 있다. 또한, 청취자로부터 음원까지의 거리가 미리 설정된 임계값보다 작은 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리가 가까워질수록 음원 위의 더 많은 지점을 선택할 수 있다.
또 다른 구체적인 실시 예에서, 오디오 신호 처리 장치는 음원의 양 끝을 기준으로 음원의 양 끝과 음원의 중심 3개의 지점에 각각 대응하는 3개의 HRTF를 선택할 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리가 가까워질수록 음원의 양 끝에 대응하는 HRTF로 더 큰 입사각에 대응하는 HRTF를 선택할 수 있다. 예컨대, 미리 지정된 임계값이 1m일 수 있다. 청취자로부터 음원까지의 거리가 1m인 경우, 음원과 청취자를 연결하는 경로의 입사각이 45도일 수 있다. 청취자로부터 음원까지의 거리가 0.5m인 경우, 오디오 신호 처리 장치는 거리 0.5m 입사각 35도에 대응하는 HRTF, 거리 0.5m 입사각 45도에 대응하는 HRTF 및 거리 0.5m 입사각 60도에 대응하는 HRTF를 선택할 수 있다. 청취자로부터 음원까지의 거리가 0.2m인 경우, 오디오 신호 처리 장치는 거리 0.2m 입사각 20도에 대응하는 HRTF, 거리 0.2m 입사각 45도에 대응하는 HRTF 및 거리 0.2m 입사각 70도에 대응하는 HRTF를 선택할 수 있다. 음원의 양 끝에 대응하는 각도는 청취자로부터 음원까지의 거리에 따라 미리 지정된 값일 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호 처리 장치는 음원의 양 끝에 대응하는 각도를 청취자로부터 음원까지의 거리 및 음원의 크기에 따라 실시간으로 연산할 수 있다. 또한, 오디오 신호 처리 장치는 음원 위의 복수의 지점 각각과 두 귀를 연결하는 복수의 경로 각각에 대응하는 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 또한, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 임계 값을 비교하지 않을 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리에 관계 없이 동일한 개수의 HRTF를 사용할 수 있다. 또한, 청취자로부터 음원을 연결하는 경로의 입사각은 방위각과 고도각을 포함할 수 있다. 구체적으로 오디오 신호 처리 장치는 다음과 같은 수학식에 따라 오디오 신호를 바이노럴 렌더링할 수 있다.
[수학식 1]
D_I(k) = X(k)p1_I(k) + X(k)p2_I(k) + … + X(k)pN_I(k)
= X(k){ p1_I(k)+p2_I + … + pN_I(k) }
D_C(k) = X(k){ p1_C(k)+p2_C + … + pN_C(k) }
k는 주파수의 인덱스를 나타낸다. D_I(k), D_C(k) 각각은 주파수 인덱스가 k일 때 음원의 크기 및 청취자로부터 음원까지의 거리를 기초로 처리된 동측 귀에 대응하는 채널 신호와 대측 귀에 대응하는 채널 신호를 나타낸다. X(k)는 주파수 인덱스가 k일 때 음원에 대응하는 입력 오디오 신호를 나타낸다. pn_I(k), pn_C(k) 각각은 주파수 인덱스가 k일 때 음원의 pn 지점과 청취자를 연결하는 경로에 해당하는 동측 HRTF와 대측 HRTF를 나타낸다.
수학식 1에서, 오디오 신호 처리 장치는 선택한 복수의 HRTF를 다운 믹스한 후, 입력 오디오 신호를 다운믹스된 HRTF로 필터링한다. 이때, 수학식 1의 결과 값은 오디오 신호 처리 장치가 입력 오디오 신호를 복수의 HRTF 각각으로 필터링하는 것과 동일하다. 따라서 오디오 신호 처리 장치는 선택한 복수의 HRTF를 다운 믹스한 후, 오디오 신호를 다운믹스된 HRTF로 필터링할 수 있다. 오디오 신호 처리 장치는 이러한 동작을 통해 바이노럴 렌더링을 위한 연산량을 줄일 수 있다.
또한, 오디오 신호 처리 장치는 음원의 각 지점과 청취자의 두 귀 사이의 경로 길이 차를 기초로 대측 HRTF의 가중치와 동측 HRTF의 가중치를 조정하여 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 음원의 각 지점과 청취자의 동측 귀의 경로의 길이가 음원의 각 지점과 청취자의 대측 귀의 경로의 길이가 미리 지정된 임계 값 이상 차이나는 경우, 오디오 신호 처리 장치는 길이가 긴 경로에 해당하는 오디오 신호의 성분을 제외하고 오디오 신호를 바이노럴 렌더링할 수 있다. 도3의 실시 예에서, 오디오 신호 처리 장치는 음원 위의 복수의 지점(p1~pN) 각각과 청취자의 두 귀를 연결하는 경로에 해당하는 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링한다. 이때, pm에서 대측 귀까지의 거리(r_pm_contral)는 동측 귀까지의 거리(r_pm_ipsi) 보다 크다. 구체적으로 pm에서 대측 귀까지의 거리(r_pm_contral)와 동측 귀까지의 거리(r_pm_ipsi) 차이는 미리 지정된 임계 값인 Rd_thr보다 크다. 오디오 신호 처리 장치는 pm으로부터 대측 귀까지의 경로에 해당하는 HRTF 성분을 제외하고 오디오 신호를 바이노럴 렌더링할 수 있다. 오디오 신호 처리 장치는 이러한 실시 예들을 통해 음원과 청취자의 거리가 가까워짐에 따라 물리적, 심리음향적으로 발생할 수 있는 그림자 효과(shadowing)를 반영할 수 있다.
또한, 오디오 신호 처리 장치가 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF를 사용하여 입력 오디오 신호를 바이노럴 렌더링하는 경우, 오디오 신호 처리 장치는 입사각(방위각 또는 고도각) 및 주파수에 따라 피크, 노치(notch) 등이 다른 주파수 응답을 갖는 복수의 HRTF를 합성할 수 있다. 따라서 바이노럴 렌더링된 오디오 신호의 방향 큐가 희석(blur)되거나, 바이노럴 렌더링된 오디오 신호의 음색이 입력 오디오 신호의 음색과 달라질 수 있다. 오디오 신호 처리 장치는 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF에 가중치를 주어 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF에 음원의 중심을 기준으로 윈도우 형태의 가중치를 주어 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 예컨대, 오디오 신호 처리 장치는 음원의 중심에 해당하는 지점으로부터 청취자까지의 경로에 대응하는 HRTF에 가장 큰 가중치를 적용할 수 있다. 또한, 오디오 신호 처리 장치는 음원의 중심으로부터 멀리 떨어진 지점일 수록, 해당 지점과 청취자까지의 경로에 대응하는 HRTF에 더 작은 가중치를 적용할 수 있다. 구체적으로 오디오 신호 처리 장치는 다음과 같은 수학식에 따라 오디오 신호를 바이노럴 렌더링할 수 있다.
[수학식 2]
D_I(k) = X(k) { w(1)p1_I(k) + … + w(c)pc_l(k) + … + w(N)pN_I(k) }
D_C(k) = X(k) { w(1)p1_C(k) + … + w(c)pc_C(k) + … + w(N)pN_C(k) }
k는 주파수의 인덱스를 나타낸다. D_I(k), D_C(k) 각각은 음원의 크기 및 청취자로부터 음원까지의 거리를 기초로 처리된 주파수 인덱스가 k일 때 동측 귀에 대응하는 채널 신호와 주파수 인덱스가 k일 때 대측 귀에 대응하는 채널 신호를 나타낸다. X(k)는 주파수 인덱스가 k일 때 음원에 대응하는 입력 오디오 신호를 나타낸다. pn_I(k), pn_C(k) 각각은 주파수 인덱스가 k일 때 음원의 pn 지점과 청취자를 연결하는 경로에 해당하는 동측 HRTF와 대측 HRTF를 나타낸다. w(x)는 음원 위의 지점과 청취자까지의 경로에 대응하는 HRTF에 적용되는 가중치를 나타낸다. 이때, w(c)는 음원의 중심과 청취자까지의 경로에 대응하는 HRTF에 적용되는 가중치로, 모든 가중치 값 중 제일 크다. 구체적인 실시 예에서, w(x)는 다음 수학식을 만족할 수 있다.
[수학식 3]
sum(w^2(k)) = 1
오디오 신호 처리 장치는 수학식 3을 사용해 바이노럴 렌더링된 오디오 신호의 에너지를 일정하게 유지할 수 있다. 오디오 신호 처리 장치는 이러한 실시 예들을 통해 음원 방향성을 유지하고, 바이노럴 렌더링 시 발생할 수 있는 음색 왜곡을 방지할 수 있다.
도 4는 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 청취자로부터 음원까지의 거리에 따라 바이노럴 렌더링된 2채널 오디오 신호 사이의 IACC를 조정할 때, 청취자로부터 음원까지의 거리에 따른 바이노럴 렌더링된 2채널 오디오 신호 사이의 IACC를 보여준다.
앞서 설명한 바와 같이, 오디오 신호 처리 장치는 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 사이의 IACC를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리와 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정할 수 있다. 구체적인 실시 예에서, 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리와 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 조정할 수 있다. 예컨대, 음원으로부터 청취자까지의 거리가 가까워져 음원 크기가 상대적으로 커지는 경우, 오디오 신호 처리 장치는 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 낮출 수 있다. 또한, 음원으로부터 청취자까지의 거리가 멀어져 음원 크기가 상대적으로 작아지는 경우, 오디오 신호 처리 장치는 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 높일 수 있다. 이때, 바이노럴 렌더링되는 2채널 오디오 신호의 IACC와 청취자로부터 음원까지의 상대적 거리는 도 4의 그래프와 같은 관계를 가질 수 있다
이때, 오디오 신호 처리 장치는 바이노럴 렌더링되는 2채널 신호의 위상을 램덤화하여 IACC를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 바이노럴 렌더링되는 2채널 오디오 신호 각각에 대응하는 HRTF의 위상을 랜덤화하여 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 낮출 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 다음의 수학식을 사용해 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정하기 위한 HRTF를 획득할 수 있다.
[수학식 4]
thr = max(min(r^a, thr_max), thr_min)
<pH_i_hat(k) = (1-thr) * <pH_i(k) + thr * <pRand(k)
pH_i_hat(k) = |pH_i(k)|exp(j * <pH_i_hat(k))
thr은 랜덤화 파라미터를 나타낸다. 이때, a는 청취자로부터 음원까지의 거리에 따른 위상을 랜덤화하는 정도를 나타내는 파라미터이고, r^a는 청취자로부터 음원까지의 거리에 따라 조정된 랜덤화 파라미터 값을 나타낸다. thr_max는 최대 랜덤화 파라미터를 나타내고, thr_min은 최소 랜덤화 파라미터를 나타낸다. min(a, b)는 a, b 중 최솟값을 나타내고, max(a, b)는 a, b 중 최댓값을 나타낸다. 따라서 랜덤화 파라미터는 최대 랜덤화 파라미터 값 이하이면서, 최소 랜덤화 파라미터 값 이상인 값을 갖는다. k는 주파수의 인덱스를 나타낸다. pRand(k)는 해당 주파수 인덱스에 적용되는 -
Figure PCTKR2017004641-appb-I000005
~
Figure PCTKR2017004641-appb-I000006
사이의 난수를 나타낸다. pH_i는 바이노럴 렌더링되는 2채널 오디오 신호 각각에 대응되는 HRTF를 나타낸다. <pH_i(k)는 주파수 인덱스 k에 대응하는 각 HRTF의 위상을 나타내고, |pH_i(k)|는 주파수 인덱스 k에 대응하는 각 HRTF의 크기(magnitude)를 나타낸다. <pH_i_hat(k)는 주파수 인덱스 k에 대응하는 랜덤화된 HRTF의 위상을 나타내고, pH_i_hat은 주파수 인덱스 k에 대응하는 랜덤화된 HRTF를 나타낸다.
구체적으로 청취자로부터 음원까지의 거리가 멀어져 음원의 크기가 상대적으로 작아지는 경우, 오디오 신호 처리 장치는 thr을 0에 가까운 값으로 설정할 수 있다. 구체적인 실시 예에서 청취자로부터 음원까지의 거리가 미리 설정된 임계값보다 큰 경우, 오디오 신호 처리 장치는 thr을 0으로 설정할 수 있다. 이때, 오디오 신호 처리 장치는 위상이 조정되지 않은 pH_i(k)를 그대로 사용할 수 있다. 또한, 청취자로부터 음원까지의 거리가 가까워져 음원의 크기가 상대적으로 커지는 경우, 오디오 신호 처리 장치는 thr을 1에 가까운 값으로 설정할 수 있다. 이때, 오디오 신호 처리 장치는 랜덤하게 획득한 값을 위상으로 갖는 HRTF를 바이노럴 렌더링에 적용할 수 있다.
오디오 신호 처리 장치는 위의 실시 예들을 통해 각 주파수 인덱스 별로 위상을 랜덤화한 HRTF를 획득할 수 있다. 이때, 오디오 신호 처리 장치는 획득한 HRTF를 기초로 다음 수학식과 같은 방향 렌더링된 오디오 신호를 획득할 수 있다.
[수학식 5]
D_I(k) = X(k){|pH1_I_hat(k)|exp(-j*<pH1_I_hat(k))+…+ |pHN_I_hat(k)|exp(-j*<pHN_I_hat(k))}
D_C(k) = X(k){|pH1_C_hat(k)|exp(-j*<pH1_C_hat(k))+…+ |pHN_C_hat(k)|exp(-j*<pHN_C_hat(k))}
k는 주파수의 인덱스를 나타낸다. D_I(k), D_C(k) 각각은 음원의 크기 및 청취자로부터 음원까지의 거리를 기초로 처리된 동측 귀에 대응하는 채널 신호와 대측 귀에 대응하는 채널 신호를 나타낸다. X(k)는 음원에 대응하는 입력 오디오 신호를 나타낸다.
앞서 설명한 실시 예들에서, 오디오 신호 처리 장치는 주파수 밴드 별로 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 간의 IACC를 주파수 밴드 별로 조정할 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 음원의 크기 및 청취자로부터 음원까지의 거리를 기초로 바이노럴 렌더링되는 2채널 사이의 IACC를 주파수 밴드 별로 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원에 대응하는 입력 오디오 신호의 특성에 따라 음색에 영향이 적은 주파수 밴드에서 바이노럴 렌더링되는 2채널 오디오 신호사이의 IACC를 조정할 수 있다. 예컨대, 벌소리, 모기 소리와 같이 일반적으로 음원 시뮬레이션하는 물체의 크기가 작아 크게 음원의 크기를 넓힐 필요성이 적은 경우 오디오 신호 처리 장치는 오브젝트에 해당하는 오디오 신호의 고주차 밴드 성분을 랜덤화할 수 있다. 또한, 음원이 시뮬레이션하는 물체의 크기가 크거나 가능한 음원의 크기를 넓힐 필요가 있는 경우, 오디오 신호 처리 장치는 음원에 해당하는 오디오 신호의 저주파 밴드 성분을 랜덤화할 수 있다. 또한, 오디오 신호 처리 장치는 바이노럴 렌더링 되는 2채널 오디오 신호 중 w/c>>r 에 해당하는 주파수 밴드 k 성분의 IACC를 조정할 수 있다. 이때, w는 각주파수, c는 음속, r은 청취자로부터 음원까지의 거리를 나타낸다. 오디오 신호 처리 장치는 이러한 실시 예들을 통해 IACC 조정으로 인해 발생할 수 있는 음색 변화를 최소화할 수 있다.
또 다른 구체적인 실시 예에서, 입력 오디오 신호를 청취자로부터 음원까지의 경로에 해당하는 HRTF로 필터링한 신호와 입력 오디오 신호 자체를 랜덤화한 신호를 더하여 음원의 크기를 조절 할 수도 있다. 설명의 편의를 위해 오디오 신호를 청취자로부터 음원까지의 경로에 해당하는 HRTF로 필터링한 신호를 필터링된 오디오 신호라 지칭하고, 오디오 신호의 위상을 랜덤화한 오디오 신호를 랜덤 위상 오디오 신호라 지칭한다. 이때, 오디오 신호 처리 장치는 랜덤 위상 오디오 신호와 필터링된 오디오 신호의 비율을 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 조정할 수 있다. 구체적인 실시 예에서, 청취자로부터 음원까지의 거리가 가까워져 음원의 크기가 상대적으로 커지는 경우, 오디오 신호 처리 장치는 랜덤 위상 입력 오디오 신호에 대한 필터링된 오디오 신호의 비율을 낮출 수 있다. 청취자로부터 음원까지의 거리가 멀어져 음원의 크기가 상대적으로 작아지는 경우, 오디오 신호 처리 장치는 랜덤 위상 오디오 신호에 대한 필터링된 오디오 신호의 비율을 높일 수 있다. 오디오 신호 처리 장치는 이러한 실시 예들을 통해 연산량을 줄이면서, 바이노럴 렌더링된 2채널 오디오 신호간의 IACC를 조절할 수 있다. 구체적으로 오디오 신호 처리 장치는 다음의 수식을 통해 음원에 해당하는 오디오 신호를 바이노럴 렌더링할 수 있다.
[수학식 6]
D_I(k) = X(k)p1_I(k) + X(k)v(k) exp(j*pRand1(k))
D_C(k) = X(k)p1_C(k) + X(k)v(k) exp(j*pRand2(k))
D_I(k), D_C(k) 각각은 음원의 크기 및 청취자로부터 음원까지의 거리를 기초로 처리된 동측 귀에 대응하는 채널 신호와 대측 귀에 대응하는 채널 신호를 나타낸다. X(k)는 입력 오디오 신호를 나타낸다. pn_I(k), pn_C(k) 각각은 음원의 pn 지점과 청취자를 연결하는 경로에 해당하는 동측 HRTF와 대측 HRTF를 나타낸다. pRandn1(k)과 pRandn2(k)는 상호관련성이 없는(uncorrelated) 랜덤화 변수이다. v(k)는 위상이 랜덤화된 입력 오디오 신호에 대한 입력 오디오 신호를 음원에 해당하는 HRTF로 필터링한 신호의 비율을 나타낸다. 이때, v(k)는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 시변(time varying)하는 값일 수 있다. 오디오 신호 처리 장치는 아래의 수학식을 사용해 v(k)를 획득할 수 있다.
[수학식 7]
v(k) = (1+r_hat)/(1-r_hat)
r_hat = max(min(r^a, thr_max), thr_min)
a는 청취자로부터 음원까지의 거리 및 음원의 크기에 따른 위상을 무작위로 조정하는 정도를 나타내는 파라미터이고, r_hat는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 조정된 무작위 조정 파라미터 값을 나타낸다. thr_max는 최대 무작위 조정 파라미터를 나타내고, thr_min은 최소 무작위 조정 파라미터를 나타낸다. min(a, b)는 a, b 중 최솟값을 나타내고, max(a, b)는 a, b 중 최댓값을 나타낸다. 따라서 무작위 조정 파라미터는 최대 무작위 조정 파라미터 값 이하이면서, 최소 무작위 조정 파라미터 값 이상인 값을 갖는다.
앞서 설명한 바와 같이 오디오 신호 처리 장치는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 바이노럴 렌더러는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 HRTF의 특성을 결정할 수 있다. 도 3을 통해 오디오 신호 처리 장치가 음원 위의 복수의 지점 각각으로부터 청취자까지를 연결하는 경로에 해당하는 복수의 HRTF를 사용하여 음원이 시뮬레이션하는 물체의 입체감을 재현하는 방법을 설명하였다. 이때, 복수의 HRTF는 미리 측정된 HRTF일 수 있다. 또한, 도 4를 통해 오디오 신호 처리 장치가 HRTF의 위상을 조절하여 음원이 시뮬레이션하는 물체의 입체감을 재현하는 방법을 설명했다. 본 발명의 또 다른 실시 예에서 오디오 신호 처리 장치는 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF에서 초기 시간 지연, 채널간의 위상 및 채널간의 레벨 중 적어도 어느 하나를 조정하여 의사(pseudo) HRTF를 생성할 수 있다. 이때, 오디오 신호 처리 장치는 의사 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 복수 의사 HRTF를 사용할 수 있다. 또한, 오디오 신호 처리 장치는 의사 HRTF와 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF를 함께 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이에 대해서는 도 5를 통해 구체적으로 설명한다.
도 5는 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 오디오 신호를 바이노럴 렌더링할 때 사용하는 의사(psuedo) HRTF의 임펄스 응답을 보여준다.
오디오 신호 처리 장치는 장치는 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF와 해당 HRTF를 기초로 생성된 의사 HRTF를 사용하여 음원에 대응하는 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호와 해당 HRTF를 기초로 생성된 의사 HRTF에 의해 필터링된 오디오 신호를 더하여 오디오 신호를 바이노럴 렌더링할 수 있다.
오디오 신호 처리 장치는 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF에서 초기 시간 지연, 채널간의 위상 및 채널간의 레벨 중 적어도 어느 하나를 조정하여 의사(pseudo) HRTF를 생성할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF에서 초기 시간 지연, 채널간의 위상 및 채널간의 레벨을 조정하여 의사 HRTF를 생성할 수 있다. 또한, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 의사 HRTF의 초기 시간 지연을 조정할 수 있다. 구체적으로 청취자로부터 음원까지 거리가 멀어져 음원의 크기가 상대적으로 작아지는 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 의사 HRTF의 초기 시간 지연을 감소시킬 수 있다. 예컨대, 청취자로부터 음원까지 거리가 미리 설정된 임계값보다 큰 경우, 오디오 신호 처리 장치는 의사 HRTF의 초기 시간 지연을 0으로 설정할 수 있다. 또한, 청취자로부터 음원까지 거리가 가까워져 음원의 크기가 상대적으로 커지는 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 의사 HRTF의 초기 시간 지연을 증가시킬 수 있다. 예컨대, 청취자로부터 음원까지 거리가 미리 설정된 임계값보다 작은 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 의사 HRTF의 초기 시간 지연을 증가시킬 수 있다.
오디오 신호 처리 장치가 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF와 해당 HRTF를 기초로 생성된 의사 HRTF를 함께 사용하는 경우 , 오디오 신호 처리 장치는 음원까지의 거리 및 음원의 크기를 기초로 음원과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호와 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 조정할 수 있다. 구체적으로 청취자로부터 음원까지 거리가 멀어져 음원의 크기가 상대적으로 작아지는 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 음원의과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호에 대한 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 낮출 수 있다. 예컨대, 청취자로부터 음원까지 거리가 미리 설정된 임계값보다 큰 경우, 오디오 신호 처리 장치는 음원과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호에 대한 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 0으로 설정할 수 있다. 또한, 청취자로부터 음원까지 거리가 가까워져 음원의 크기가 상대적으로 커지는 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 음원과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호에 대한 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 높일 수 있다. 예컨대, 청취자로부터 음원까지 거리가 미리 설정된 임계값보다 작은 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호에 대한 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 높일 수 있다.
또한, 오디오 신호 처리 장치는 복수의 의사 HRTF를 생성하고, 복수의 의사 HRTF를 이용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 음원까지의 거리 및 음원의 크기를 기초로 생성할 의사 HRTF의 개수를 선택할 수 있다. 또한, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 청취자와 음원을 연결하는 경로의 기준이되는 음원의 지점의 위치를 선택할 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 다음의 수학식을 사용해 오디오 신호를 바이노럴 렌더링할 수 있다.
[수학식 8]
H_n_hat_I(k) = w_n*H_I_n(k)exp(j*2π *d_n/N)
H_n_hat_C(k) = -w_n*H_C_n(k)exp(j*2 π *d_n/N)
k는 주파수의 인덱스를 나타낸다. N은 주파수 도메인에서 한프레임의 크기를 나타낸다. H_IC_n(k)는 음원과 청취자를 연결하는 경로에 대응하는 HRTF를 나타낸다. 구체적으로 H_IC_n(k)는 음원 중심과 청취자를 연결하는 경로에 대응하는 HRTF를 나타낼 수 있다. 또한, 오디오 신호 처리 장치는 앞서 설명한 크기 연산부를 통해 HRTF를 선택할 수 있다. 또한, 오디오 신호 처리 장치는 H_n_hat_IC(k)를 하나에서 복수개까지 다양하게 생성할 수 있다. H_n_hat_IC(k)는 H_IC_n(k)에서 초기 시간 지연을 조정하여 생성한 의사 HRTF를 나타낸다. d_n은 의사 HRTF에 적용되는 시간 지연을 나타낸다. 오디오 신호 처리 장치는 앞서 설명한 바와 같이 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 d_n의 값을 결정할 수 있다. 또한, w_n은 음원의 한 지점과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링 오디오 신호에 대한 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 나타낸다. 오디오 신호 처리 장치는 앞서 설명한 바와 같이 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 w_n의 값을 결정할 수 있다.
도 5는 음원의 한 지점으로부터 청취자까지 연결하는 경로에 대응하는 HRTF와 의사 HRTF의 임펄스 응답을 보여준다. 크기가 1인 임펄스 응답은 음원으로부터 청취자를 연결하는 경로에 대응하는 HRTF의 임펄스 응답을 보여준다. 또한, 제1 시간(d1)만큼 지연된 위치에 제1 가중치(w1)가 적용된 의사 HRTF의 임펄스 응답과 제2 시간(d2)만큼 지연된 위치에 제2 가중치(w2)가 적용된 의사 HRTF의 임펄스 응답을 보여준다.
이와 같은 실시 예들에서 청취자는 의사 HRTF가 아닌 HRTF에 의해 필터링된 오디오 신호를 먼저 듣게 된다. 선행 효과(precedence effect)로 인해 청취자는 의사 HRTF에 의해 필터링된 오디오 신호를 듣더라도 음원의 원래 방향을 혼동하지 않을 수 있다. 또한, 의사 HRTF에 의해 필터링되는 2채널 오디오 신호간의 위상이 모든 주파수에서 동일한 위상차(out-of-phase)를 가진다. 따라서 음원으로부터 청취까지의 거리 및 음원의 크기를 기초로 바이노럴 렌더링되어 발생하는 음색의 왜곡이 적을 수 있다.
또한, 오디오 신호 처리 장치는 음원과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링 오디오 신호에 대한 의사 HRTF에 의해 필터링된 오디오 신호의 가중치를 정규화하여 오디오 신호를 바이노럴 렌더링할 수 있다. 오디오 신호 처리 장치는 이를 통해 음원에 대응하는 오디오 신호가 가지는 레벨을 일정하게 유지할 수 있다. 구체적으로 오디오 신호 처리 장치는 다음 수학식과 같이 오디오 신호를 바이노럴 렌더링할 수 있다.
[수학식 9]
D_I(k) = X(k){H_I(k) + H1_hat_I(k) + H2_hat_I(k) + … + Hn_hat_I(k)} / sqrt(1+w_1^2 + … + w_n^2)
D_C(k) = X(k){H_C(k) + H1_hat_C(k) + H2_hat_C(k) + … + Hn_hat_C(k)} / sqrt(1+w_1^2 + … + w_n^2)
k는 주파수의 인덱스를 나타낸다. H_IC_n(k)는 음원과 청취자를 연결하는 경로에 대응하는 HRTF를 나타낸다. H_n_hat_IC(k)는 H_IC_n(k)에서 초기 시간 지연을 조정하여 생성한 의사 HRTF를 나타낸다. w_n은 음원과 청취자를 연결하는 경로에 대응하는 HRTF에 의해 필터링 오디오 신호에 대한 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 나타낸다. 또한, 확장된 너비를 가지는 음원의 렌더링을 위해 오디오 처리 장치는 H_IC_n(k)는 사용하지 않고 H_n_hat_IC(k)의 조합을 사용해 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 수학식 9에서 H_I(k) 및 H_C(k)를 사용하지 않을 수 있고, 에너지 보존을 위해 사용하는 정규화값의 연산에서 상수항 1을 생략할 수 있다,
오디오 신호 처리 장치는 의사 HRTF에 의해 필터링된 오디오 신호 중 미리 설정된 최대 시간 지연 보다 짧은 파장을 가지는 주파수 대역의 오디오 신호만을 처리할 수 있다. 구체적으로 오디오 신호 처리 장치는 미리 설정된 최대 시간 지연 보다 긴 파장을 가지는 주파수 대역의 오디오 신호를 처리 하지 않을 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 다음의 수학식에서 k_c > k에 해당하는 주파수 대역은 처리하지 않을 수 있다.
[수학식 10]
k_c = 1/(d_n/fs)
이러한 실시 예를 통해 저주파수 대역에서 발생하는 음질 왜곡을 방지할의사 수 있다. 구체적으로 HRTF에 의해 필터링된 2채널 오디오 신호는 좌우측이 일정한 위상차(out-of-phase)를 갖고, 부호가 반대일 수 있다. 이때, 음원의 한 지점과 청취자를 연결하는 경로에 해당하는 HRTF에 필터링된 오디오 신호와 의사 HRTF에 의해 필터링된 오디오 신호는 완전히 연관성이 없는(decorrlated) 신호이다. 따라서 저주파 대역의 신호가 반대쪽 귀에 해당하는 신호로 전달될 수 있고, 음질의 왜곡이 발생할 수 있다. 오디오 신호 처리 장치는 앞서 설명한 실시 예들을 통해 이러한 음질 왜곡을 방지할 수 있다.
도 6은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 어느 하나의 음원을 대체하는 복수의 음원을 설정하여 오디오 신호를 바이노럴 렌더링하는 것을 보여준다.
오디오 신호 처리 장치는 하나의 음원을 복수의 음원으로 대체하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 복수의 음원에 해당하는 오디오 신호는 복수의 음원이 대체하는 하나의 음원의 위치에 정위(localizing)된다. 스테레오 스피커 환경에서 점과 같은 음원을 시뮬레이션하기 위해 패닝(panning)이 사용될 수 있다. 스테레오 스피커가 하나의 중심 지점으로 패닝되는 경우 음상이 흐트러진다. 이때, 청취자는 음원이 시뮬레이션하는 물체의 입체감을 느낄 수 있다. 따라서 오디오 신호 처리 장치가 하나의 음원을 복수의 음원으로 대체하는 경우에도 청취자는 음원이 시뮬레이션하는 물체의 입체감을 느낄 수 있다.
구체적으로 오디오 신호 처리 장치는 복수의 HRTF를 사용하고, 복수의 HRTF는 하나의 음원을 대체하는 복수의 음원 각각과 청취자를 연결하는 복수의 경로 각각에 대응할 수 있다. 또한, 복수의 음원의 개수는 두 개일 수 있다. 또한, 복수의 음원은 해당 음원의 위치에 정위되는 오디오 신호를 출력한다.
오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 하나의 음원을 대체하는 복수의 음원 사이의 간격을 조정할 수 있다. 구체적으로 청취자로부터 음원까지의 거리가 가까워져 상대적인 음원의 크기가 커지는 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 복수의 음원 사이의 간격을 넓힐 수 있다. 예컨대, 청취자로부터 음원까지의 거리가 미리 설정된 임계값 이하이어서 상대적인 음원의 크기가 큰 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 복수의 음원 사이의 간격을 넓힐 수 있다. 또한, 청취자로부터 음원까지의 거리가 멀어져 상대적인 음원의 크기가 작아지는 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 복수의 음원 사이의 간격을 좁힐 수 있다. 또한, 청취자로부터 음원까지의 거리가 미리 설정된 임계값 이상이어서 상대적인 음원의 크기가 작은 경우, 오디오 신호 처리 장치는 해당 음원을 복수의 음원으로 대체하지 않을 수 있다.
오디오 신호 처리 장치의 동작은 도 6의 실시 예를 통해 구체적으로 설명한다. 음원이 청취자로부터 제1 거리(r1)만큼 떨어진 경우, 오디오 신호 처리 장치는 음원 위의 한 지점인 P1을 P1의 위치에 정위되는 오디오 신호를 출력하는 두 개의 음원인 제1 음원 세트(Pair1)로 대체한다. 또한, 음원이 청취자로부터 제2 거리(r2)만큼 떨어진 경우, 오디오 신호 처리 장치는 음원 위의 한 지점인 P2를 P2의 위치에 정위되는 오디오 신호를 출력하는 두 개의 음원인 제2 음원 세트(Pair2)로 대체한다. 이때, 제2 거리(r2)가 제1 거리(r1)보다 작으므로 오디오 신호 처리 장치는 제2 음원 세트(Pair2)에 포함된 음원 간의 간격을 제1 음원 세트(Pair2)에 포함된 음원 간의 간격보다 넓게 조정한다.
앞서 설명한 실시 예들을 통해, 오디오 신호 처리 장치가 음원이 시뮬레이션하는 물체의 입체감을 표현하는 방법을 설명하였다. 음원이 시뮬레이션하는 물체의 입체감을 표현하기 위해서는 음원의 거리 및 음원 크기뿐만 아니라 다른 요소들을 고려할 필요가 있다. 아래 설명을 통해 이에 대해 설명한다.
오디오 신호 처리 장치는 청취자의 머리 방향과 음원의 방향을 기초로 음원의 크기를 연산하고, 연산한 음원의 크기를 기초로 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 시차(parallax)를 적용할 때, 수평적 시각차뿐만 아니라 수직적 시차를 적용할 수 있다. 청취자와 음원의 상대적 위치 및 청취자의 머리 회전에 따라 청취자의 두 귀의 고도차 등이 바뀔 수 있기때문이다. 예컨대, 청취자의 두 귀가 음원과 대각선 상에 위치하는 경우, 오디오 신호 처리 장치는 수직적 시차를 적용할 수 있다. 구체적으로 음원으로부터 멀리 떨어진 귀와 음원 사이의 경로에 대응하는 HRTF를 적용하지 않고 음원으로부터 가까운 귀와 음원 사이의 경로에 대응하는 HRTF만을 적용하여 오디오 신호를 바이노럴 렌더링할 수 있다.
또한, 오디오 신호 처리 장치는 음원에 해당하는 오디오 신호의 지향성 패턴(directivity pattern)을 기초로 음원의 크기를 연산할 수 있다. 주파수 대역에 따라 오디오 신호의 방사폭이 달라지기 때문이다. 구체적으로 오디오 신호 처리 장치는 주파수 대역 별로 음원의 크기를 다르게 연산할 수 있다. 구체적인 실시 예에서, 오디오 신호 처리 장치는 주파수 대역별로 음원의 크기를 다르게 연산할 수 있다. 예컨대, 오디오 신호 처리 장치는 음원에 대응하는 오디오 신호 중 높은 주파수 대역 성분을 바이노럴 렌더링할 때 음원의 크기가 낮은 주파수 대역 성분을 바이노럴 렌더링할 때 음원의 크기보다 더 큰 것으로 연산할 수 있다. 고주파수 대역의 오디오 신호일수록 오디오 신호의 방사 폭이 좁아질 수 있기 때문이다.
앞서 설명한 오디오 신호 처리 장치가 IACC를 조정하는 실시 예에서, 오디오 신호 처리 장치는 주파수 대역별로 바이노럴 렌더링되는 2채널 오디오 신호의 IACC를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 주파수 대역별로 2채널 오디오 신호에 적용되는 HRTF의 랜덤화 정도를 다르게 조정할 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 HRTF의 저주파수 대역에서의 위상 랜덤화 정도를 HRTF의 고주파 대역에서의 위상 랜덤화 정도보다 높게 설정할 수 있다.
또한, 오디오 신호 처리 장치는 주파수 대역을 ERB(Equivalent Rectangular Bandwidth), 임계 대역 (critical bands), 및 octave band 중 적어도 어느 하나를 기초로 구별할 수 있다. 또한, 오디오 신호 처리 장치는 주파수 대역을 구분하기 위해 이러한 방법 이외의 다양한 방법을 사용할 수 있다.
오디오 신호 처리 장치가 복수의 음원에 해당하는 오디오 신호를 바이노럴 렌더링하는 경우, 오디오 신호 처리 장치는 복수의 음원에 각각에 해당하는 복수의 HRTF를 개별적으로 적용해야 할 수 있다. 따라서 오디오 신호 처리 장치의 연산량이 과도하게 커질 수 있다. 이때, 오디오 신호 처리 장치는 복수의 음원을 일정한 크기 이상의 하나의 음원으로 대체하여 바이노럴 렌더링을 위한 연산량을 줄일 수 있다. 이에 대해서는 도 7을 통해 설명한다.
도 7은 본 발명의 실시 예에 따른 오디오 신호 처리 장치가 복수의 음원을 하나의 음원같이 처리 하는 방법을 보여준다.
오디오 신호 처리 장치는 복수의 음원을 하나의 대체 음원으로 대체하고, 청취자로부터 대체 음원까지의 거리 및 대체 음원의 크기를 기초로 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 대체 복수의 음원의 위치를 기초로 대체 음원의 크기를 연산할 수 있다. 구체적으로 오디오 신호 처리 장치는 대체 음원의 크기를 복수의 음원이 존재하는 공간의 크기로 연산할 수 있다. 오디오 신호 처리 장치가 청취자로부터 대체 음원까지의 거리 및 대체 음원의 크기를 기초로 오디오 신호를 바이노럴 렌더링할 때, 오디오 신호 처리 장치는 도 1 내지 도 6을 통해 설명한 실시 예들을 통해 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 대체 음원의 양 끝점에 해당하는 HRTF를 사용해 오디오 신호를 바이노럴 렌더링할 수 있다. 또 다른 구체적인 실시 예에서 구체적으로 오디오 신호 처리 장치는 대체 음원 위의 복수의 지점을 선택하고, 복수의 지점 각각에 해당하는 복수의 HRTF를 사용해 오디오 신호를 바이노럴 렌더링할 수 있다.
또한, 오디오 신호 처리 장치는 대체 음원을 이용해 오디오 신호를 바이노럴 렌더링할 때, 복수의 음원을 복수의 그룹으로 나누고, 복수의 그룹 별로 딜레이를 적용할 수 있다. 복수의 음원 각각으로부터 오디오 신호가 발생하는 시점이 다를 수 있기 때문이다. 예를 들어 많은 수의 좀비가 등장하는 영상에서, 각 좀비가 괴성을 내는 시점이 조금씩 다를 수 있다. 이때, 오디오 신호 처리 장치는 좀비를 세 그룹으로 나누고 세 그룹 별로 딜레이를 줄 수 있다.
또한, 오디오 신호 처리 장치는 청취자로부터 대체 음원까지의 거리가 미리 설정된 임계값 이상인지와 관계 없이 크기를 갖지 않는 점으로 취급하지 않을 수 있다. 대체 음원의 경우 서로 떨어진 복수의 음원을 대체한 것으로 청취자로부터 거리가 멀어도 하나의 점으로 취급하기 힘들 수 있기 때문이다.
도 7의 실시 예에서, 오디오 신호 처리장치는 상대적으로 멀리 떨어진 복수의 음원을 제2 오브젝트(objs 2)로 대체한다. 구체적으로 오디오 신호 처리 장치는 제2 오브젝트의 너비(b2) 및 청취자로부터 제2 오브젝트(objs 2)까지의 거리(r2)를 기초로 복수의 음원에 대응하는 오디오 신호를 바이노럴 렌더링한다.
또한, 오디오 신호 처리 장치는 상대적으로 가까운 복수의 음원을 제1 오브젝트(objs 1)로 대체한다. 구체적으로 오디오 신호 처리 장치는 제1 오브젝트(objs 1)의 너비(b1) 및 청취자로부터 제1 오브젝트(objs 2)까지의 거리(r1)를 기초로 복수의 음원에 대응하는 오디오 신호를 바이노럴 렌더링한다. 청취자로부터 제1 오브젝트(objs 1)까지의 거리(r1)가 청취자로부터 제2 오브젝트(objs 2)까지의 거리(r2)보다 가깝다. 또한, 제1 오브젝트(objs 1)의 너비(b1)가 제2 오브젝트(objs 2)의 너비보다 크다. 따라서 오디오 신호 처리 장치는 제1 오브젝트(objs 1)에 해당하는 오디오 신호를 바이노럴 렌더링할 때, 제2 오브젝트(objs 2)에 해당하는 오디오 신호를 바이노럴 렌더링할 때보다 더 큰 크기의 물체를 표현할 수 있다.
또한, 오디오 신호 처리 장치는 복수의 음원을 세 그룹(Sub group1, Sub group2, Sub group3)으로 나누고, 세 그룹(Sub group1, Sub group2, Sub group3) 각각에 대응하는 오디오 신호를 서로 다른 시작 시점에 바이노럴 렌더링할 수 있다. 오디오 신호 처리 장치는 이러한 실시 예들을 통해 복수의 음원에 바이노럴 연산 부담을 줄이면서, 복수의 음원이 가지는 입체감을 표현할 수 있다.
도 8은 본 발명의 실시 예에 따른 오디오 신호 처리 장치의 동작을 보여준다.
오디오 신호 처리 장치는 입력 오디오 신호를 수신한다(S801). 구체적으로 오디오 신호 처리 장치는 입력부를 통해 입력 오디오 신호를 수신할 수 있다.
오디오 신호 처리 장치는 청취자로부터 입력 오디오 신호에 대응하는 음원까지의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 2채널 오디오 신호를 생성한다(S803). 구체적으로 오디오 신호 처리 장치는 바이노럴 렌더러를 통해 음원까지의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 입력 오디오 신호를 바이노럴 렌더링하여 2채널 오디오 신호를 생성한다.
청취자로부터 음원까지의 경로는 청취자의 머리 중심으로부터 음원까지의 경로를 나타낼 수 있다. 또한, 청취자로부터 음원까지의 경로는 청취자의 두 귀로부터 음원까지의 경로를 나타낼 수 있다.
오디오 신호 처리 장치는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 HRTF의 특성을 결정하고, 해당 HRTF를 사용해 오디오 신호를 바이노럴 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 복수의 HRTF를 사용하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 바이노럴 렌더러는 음원으로부터 청취자까지 거리 및 음원의 크기를 기초로 복수 HRTF의 특성을 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 의사 HRTF를 기초로 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 의사 HRTF는 청취자로부터 음원까지의 경로에 대응하는 HRTF를 기초로 생성된다. 구체적으로 의사 HRTF는 청취자로부터 음원까지의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 HRTF의 초기 시간 지연을 조정하여 생성될 수 있다. 청취자로부터 음원까지의 거리 대비 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 의사 HRTF를 생성하기 위해 사용되는 초기 지연 시간도 커질 수 있다. 또한, 의사 HRTF는 청취자로부터 음원까지의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 HRTF의 2채널 간의 위상을 조정하여 생성될 수 있다. 또한, 의사 HRTF는 청취자로부터 음원까지의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 HRTF의 2채널 간의 레벨차를 조정하여 생성될 수 있다.
오디오 신호 처리 장치는 입력 오디오 신호를 취자로부터 음원까지의 경로에 대응하는 HRTF와 의사 HRTF를 사용해 필터링할 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 HRTF에 의해 필터링된 오디오 신호와 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 결정할 수 있다. 구체적으로 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 대비 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 청취자로부터 음원까지의 거리 대비 음원이 시뮬레이션하는 물체의 크기를 기초로 HRTF에 의해 필터링된 오디오 신호 대비 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 높일 수 있다.
오디오 신호 처리 장치는 복수의 의사 HRTF를 사용하여 입력 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 의사 HRTF의 개수를 결정하고, HRTF와 결정된 개수의 의사 HRTF를 사용하여 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
오디오 신호 처리 장치는 의사 HRTF에 의해 필터링된 오디오 신호 중 미리 설정된 최대 시간 지연보다 짧은 파장을 가지는 주파수 대역 오디오 신호만을 처리할 수 있다. 구체적으로 오디오 신호 처리 장치는 도 5를 통해 설명한 실시 예들과 같이 의사 HRTF를 사용하여 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원이 시뮬레이션하는 물체의 크기를 기초로 바이노럴 렌더링을 통해 생성되는 2채널 오디오 신호 사이의 IACC를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 대비 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 바이노럴 렌더링을 통해 생성되는 2채널 오디오 신호 사이의 IACC를 낮출 수 있다.
또한, 오디오 신호 처리 장치는 바이노럴 렌더링되는 2채널 오디오 신호 각각에 대응하는 HRTF의 위상을 랜덤화하여 바이노럴 렌더링되는 2채널 오디오 신호 사이의 IACC를 조정할 수 있다. 또한, 오디오 신호 처리 장치는 입력 신호의 위상을 랜럼화한 신호와 입력 신호를 청취자로부터 음원의 경로에 대응하는 HRTF로 필터링한 신호를 더하여 2채널 오디오 신호 사이의 IACC를 조정할 수 있다.
오디오 신호 처리 장치는 주파수 밴드 별로 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원의 크기를 기초로 바이노럴 렌더링되는 2채널 간의 IACC를 주파수 밴드 별로 조정할 수 있다. 구체적인 실시 예에서 오디오 신호 처리 장치는 음원의 크기 및 청취자로부터 음원까지의 거리를 기초로 바이노럴 렌더링되는 2채널 사이의 IACC를 주파수 밴드 별로 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 음원에 대응하는 입력 오디오 신호의 특성에 따라 음색에 영향이 적은 주파수 밴드에서 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정할 수 있다. 구체적으로 오디오 신호 처리 장치는 도 4를 통해 설명된 실시 예들을 통해 바이노럴 렌더링되는 2채널 오디오 신호간의 IACC를 조정할 수 있다.
또한, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원이 시뮬레이션하는 물체의 크기를 기초로 음원 위의 복수 지점 각각과 청취자를 연결하는 경로에 해당하는 복수의 HRTF를 사용해 입력 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원이 시뮬레이션하는 물체의 크기를 기초로 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF를 선택할 수 있다. 예컨대, 오디오 신호 처리 장치는 음원의 크기를 기초로 음원 위의 복수의 지점을 선택하고, 복수의 지점 각각과 청취자 사이의 거리 및 청취자의 머리 반지름을 기초로 HRTF에 대응하는 입사각을 연산할 수 있다. 오디오 신호 처리 장치는 연산한 입사각을 기초로 음원 위의 복수의 지점에 대응하는 HRTF를 선택할 수 있다.
구체적인 실시 예에서, 오디오 신호 처리 장치는 음원으로부터 청취자까지의 거리 및 음원의 크기를 기초로 음원 위의 복수의 지점 각각으로부터 청취자까지의 경로에 대응하는 복수의 HRTF를 사용하여 바이노럴 렌더링을 위한 오디오 신호를 처리할 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 음원 위의 복수 지점의 개수를 선택할 수 있다. 또한, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리와 음원의 크기를 기초로 음원 위의 복수의 지점의 위치를 선택할 수 있다. 예컨대, 청취자로부터 음원까지의 거리가 미리 설정된 임계값을 초과하는 경우, 오디오 신호 처리 장치는 음원을 크기를 갖지 않는 점(point soure)으로 취급할 수 있다. 또한, 청취자로부터 음원까지의 거리가 미리 설정된 임계값보다 작은 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리가 가까워질수록 음원 위의 복수 지점의 개수를 증가시킬 수 있다.
또 다른 구체적인 실시 예에서, 오디오 신호 처리 장치는 음원의 양 끝을 기준으로 음원의 양 끝과 음원의 중심 3개의 지점에 각각 대응하는 3개의 HRTF를 선택할 수 있다. 이때, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리가 가까워질수록 음원의 양 끝에 대응하는 HRTF로 더 큰 입사각에 대응하는 HRTF를 선택할 수 있다. 구체적으로 오디오 신호 처리 장치는 도 3을 통해 설명한 실시 예들과 같이 음원 위의 복수 지점 각각과 청취자를 연결하는 경로에 해당하는 복수의 HRTF를 사용해 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
또한, 오디오 신호 처리 장치는 하나의 음원을 복수의 음원으로 대체하여 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 복수의 음원에 해당하는 오디오 신호는 복수의 음원이 대체하는 하나의 음원의 위치에 정위(localizing)된다. 오디오 신호 처리 장치는 복수의 HRTF를 사용하고, 복수의 HRTF는 하나의 음원을 대체하는 복수의 음원 각각과 청취자를 연결하는 복수의 경로 각각에 대응할 수 있다. 또한, 복수의 음원의 개수는 두 개일 수 있다. 오디오 신호 처리 장치는 하나의 음원을 복수의 음원에 대응하는 복수의 HRTF에 의해 필터링된 오디오 신호로 대체할 수 있다. 이때, 복수의 음원은 해당 음원의 위치에 정위되는 오디오 신호를 출력한다. 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 하나의 음원을 대체하는 복수의 음원 사이의 간격을 조정할 수 있다. 구체적으로 청취자로부터 음원까지의 거리가 가까워져 상대적인 음원의 크기가 커지는 경우, 오디오 신호 처리 장치는 청취자로부터 음원까지의 거리 및 음원의 크기를 기초로 복수의 음원 사이의 간격을 넓힐 수 있다. 구체적으로 오디오 신호 처리 장치는 도 6을 통해 설명한 실시 예들과 같이 입력 오디오 신호를 바이노럴 렌더링할 수 있다.
또한, 오디오 신호 처리 장치는 음원이 시뮬레이션하는 물체의 크기를 연산할 때, 다음과 같은 동작을 수행할 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호의 주파수 대역별로 음원이 시뮬레이션하는 물체의 크기를 다르게 연산할 수 있다. 오디오 신호 처리 장치는 입력 오디오 신호 중 상대적으로 낮은 주파수 대역의 성분을 바이노럴 렌더링할 때 음원이 시뮬레이션하는 물체의 크기를 상대적으로 높은 주파수 대역의 성분을 바이노럴 렌더링할 때 음원이 시뮬레이션하는 물체의 크기보다 더 큰 것으로 연산할 수 있다. 또한, 오디오 신호 처리 장치는 청취자의 머리 방향을 기초로 음원이 시뮬레이션하는 물체의 크기를 연산할 수 있다. 구체적으로 오디오 신호 처리 장치는 청취자의 머리 방향과 음원이 오디오 신호를 출력하는 방향을 기초로 음원이 시뮬레이션하는 물체의 크기를 연산할 수 있다.
또한, 오디오 신호 처리 장치는 복수의 음원을 하나의 대체 음원으로 대체하고, 청취자로부터 대체 음원까지의 거리 및 대체 음원의 크기를 기초로 오디오 신호를 바이노럴 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 대체 복수의 음원의 위치를 기초로 대체 음원의 크기를 연산할 수 있다. 구체적으로 오디오 신호 처리 장치는 대체 음원의 크기를 복수의 음원이 존재하는 공간의 크기로 연산할 수 있다. 구체적으로 오디오 신호 처리 장치는 도 7의 실시 예와 같이 동작할 수 있다.
오디오 신호 처리 장치는 2채널 오디오 신호를 출력한다(S805).
이상에서는 본 발명을 구체적인 실시 예를 통하여 설명하였으나, 당업자라면 본 발명의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 발명은 멀티 오디오 신호에 대한 바이노럴 렌더링의 실시 예에 대하여 설명하였지만, 본 발명은 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 발명의 상세한 설명 및 실시 예로부터 본 발명이 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석된다.

Claims (20)

  1. 입력 오디오 신호를 바이노럴 렌더링하는 오디오 신호 처리 장치에서,
    상기 입력 오디오 신호를 수신하는 수신부;
    상기 입력 오디오 신호를 바이노럴 렌더링하여 2채널 오디오를 생성하는 바이노럴 렌더러; 및
    상기 2채널 오디오를 출력하는 출력부를 포함하고,
    상기 바이노럴 렌더러는
    청취자로부터 상기 입력 오디오 신호에 대응하는 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 입력 오디오 신호를 바이노럴 렌더링하는
    오디오 신호 처리 장치.
  2. 제1항에서,
    상기 바이노럴 렌더러는
    상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 머리 전달 함수(Head Related Transfer Function, HRTF)의 특성을 결정하고,
    상기 HRTF를 사용하여 상기 입력 오디오 신호를 바이노럴 렌더링하는
    오디오 신호 처리 장치.
  3. 제2항에서,
    상기 HRTF는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF의 초기 시간 지연을 조정하여 생성된 의사 HRTF인
    오디오 신호 처리 장치.
  4. 제3항에서,
    상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 상기 의사 HRTF를 생성하기 위해 사용되는 상기 초기 지연 시간도 커지는
    오디오 신호 처리 장치.
  5. 제3항에서
    상기 바이노럴 렌더러는
    상기 입력 오디오 신호를 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF와 상기 의사 HRTF를 사용해 필터링하고, 상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호와 상기 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 결정하는
    오디오 신호 처리 장치.
  6. 제5항에서
    상기 바이노럴 렌더러는
    상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 청취자로부터 상기 음원까지의 경로에 대응하는 HRTF에 의해 필터링된 오디오 신호 대비 상기 의사 HRTF에 의해 필터링된 오디오 신호의 비율을 높이는
    오디오 신호 처리 장치.
  7. 제3항에서,
    상기 의사 HRTF는 상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 HRTF의 2채널 간의 위상 및 상기 HRTF의 2채널간의 레벨차 중 적어도 어느 하나를 조정하여 생성된
    오디오 신호 처리 장치.
  8. 제3항에서,
    상기 바이노럴 렌더러는
    상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 의사 HRTF의 개수를 결정하고,
    상기 HRTF와 상기 결정된 개수의 상기 의사 HRTF를 사용하는
    오디오 신호 처리 장치.
  9. 제3항에서,
    상기 바이노럴 렌더러는
    상기 의사 HRTF에 의해 필터링된 오디오 신호 중 미리 설정된 최대 시간 지연보다 짧은 파장을 가지는 주파수 대역 오디오 신호만을 처리하는
    오디오 신호 처리 장치.
  10. 제2항에서,
    상기 바이노럴 렌더러는
    상기 음원 위의 복수의 지점 각각과 청취자까지의 경로에 대응하는 복수의 HRTF를 사용해 상기 입력 오디오 신호를 바이노럴 렌더링하는
    오디오 신호 처리 장치.
  11. 제10항에서,
    상기 바이노럴 렌더러는
    상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 음원 위의 복수의 지점의 개수를 결정하는
    오디오 신호 처리 장치.
  12. 제10항에서,
    상기 바이노럴 렌더러는
    상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 음원 위의 복수의 지점의 위치를 결정하는
    오디오 신호 처리 장치.
  13. 제1항에서,
    상기 바이노럴 렌더러는
    상기 청취자로부터 상기 음원까지의 거리와 상기 음원이 시뮬레이션하는 물체의 크기를 기초로 상기 2채널 오디오 신호 사이의 IACC(Interaural Cross Correlation)를 조정하는
    오디오 신호 처리 장치.
  14. 제13항에서,
    상기 바이노럴 렌더러는
    상기 청취자로부터 상기 음원까지의 거리 대비 상기 음원이 시뮬레이션하는 물체의 크기가 커지는 경우, 상기 2채널 오디오 신호 사이의 IACC를 낮추는
    오디오 신호 처리 장치.
  15. 제13항에서,
    상기 바이노럴 렌더러는
    상기 2채널 오디오 신호에 대응하는 머리 전달 함수(Head Related Transfer Function, HRTF)의 위상을 랜덤화하여 상기 2채널 오디오 신호 사이의 IACC를 조정하는
    오디오 신호 처리 장치.
  16. 제13항에서,
    상기 바이노럴 렌더러는
    상기 입력 오디오 신호의 위상을 랜럼화한 신호와 상기 입력 오디오 신호를 상기 청취자로부터 상기 음원의 경로에 대응하는 머리 전달 함수(Head Related Transfer Function, HRTF)로 필터링한 신호를 더하여 상기 2채널 오디오 신호 사이의 IACC를 조정하는
    오디오 신호 처리 장치.
  17. 제1항에서,
    상기 바이노럴 렌더러는
    상기 입력 오디오 신호의 지향성 패턴(directivity pattern)을 기초로 상기 음원이 시뮬레이션하는 물체의 크기를 연산하는
    오디오 신호 처리 장치.
  18. 제17항에서,
    상기 바이노럴 렌더러는
    상기 입력 오디오 신호의 주파수 대역별로 상기 음원이 시뮬레이션하는 물체의 크기를 다르게 연산하는
    오디오 신호 처리 장치.
  19. 제18항에서,
    상기 바이노럴 렌더러는
    상기 입력 오디오 신호 중 상대적으로 낮은 주파수 대역의 성분을 바이노럴 렌더링할 때 상기 음원이 시뮬레이션하는 물체의 크기를 상대적으로 높은 주파수 대역의 성분을 바이노럴 렌더링할 때 상기 음원이 시뮬레이션하는 물체의 크기보다 더 큰 것으로 연산하는
    오디오 신호 처리 장치.
  20. 제1항에서,
    상기 바이노럴 렌더러는
    상기 청취자의 머리 방향을 기초로 상기 음원이 시뮬레이션하는 물체의 크기를 연산하는
    오디오 신호 처리 장치.
PCT/KR2017/004641 2016-05-04 2017-05-02 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치 WO2017191970A2 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020187034958A KR20180135973A (ko) 2016-05-04 2017-05-02 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020160055791A KR20170125660A (ko) 2016-05-04 2016-05-04 오디오 신호 처리 방법 및 장치
KR10-2016-0055791 2016-05-04

Publications (2)

Publication Number Publication Date
WO2017191970A2 true WO2017191970A2 (ko) 2017-11-09
WO2017191970A3 WO2017191970A3 (ko) 2018-08-09

Family

ID=60202951

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/004641 WO2017191970A2 (ko) 2016-05-04 2017-05-02 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치

Country Status (3)

Country Link
US (1) US10349201B2 (ko)
KR (2) KR20170125660A (ko)
WO (1) WO2017191970A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210024598A (ko) * 2018-06-26 2021-03-05 노키아 테크놀로지스 오와이 오디오의 공간 프리젠테이션을 위한 장치 및 관련 방법
CN114503607A (zh) * 2019-08-19 2022-05-13 杜比实验室特许公司 音频的双耳化的操控

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017197156A1 (en) 2016-05-11 2017-11-16 Ossic Corporation Systems and methods of calibrating earphones
US10327090B2 (en) * 2016-09-13 2019-06-18 Lg Electronics Inc. Distance rendering method for audio signal and apparatus for outputting audio signal using same
US10299060B2 (en) * 2016-12-30 2019-05-21 Caavo Inc Determining distances and angles between speakers and other home theater components
WO2019116890A1 (ja) 2017-12-12 2019-06-20 ソニー株式会社 信号処理装置および方法、並びにプログラム
US10609504B2 (en) * 2017-12-21 2020-03-31 Gaudi Audio Lab, Inc. Audio signal processing method and apparatus for binaural rendering using phase response characteristics
EP3550860B1 (en) * 2018-04-05 2021-08-18 Nokia Technologies Oy Rendering of spatial audio content
CN110856095B (zh) 2018-08-20 2021-11-19 华为技术有限公司 音频处理方法和装置
AU2019409705B2 (en) * 2018-12-19 2023-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source
US12009877B1 (en) * 2019-09-05 2024-06-11 Apple Inc. Modification of signal attenuation relative to distance based on signal characteristics
US20230019535A1 (en) * 2019-12-19 2023-01-19 Telefonaktiebolaget Lm Ericsson (Publ) Audio rendering of audio sources
JP2023511862A (ja) * 2020-01-14 2023-03-23 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 空間的に拡張された音源(Spatially Extended Sound Source)を再生する装置及び方法、又は固定化情報を用いて空間的に拡張された音源に対する記述を生成する装置及び方法
CN113747335A (zh) * 2020-05-29 2021-12-03 华为技术有限公司 音频渲染方法及装置
KR20220011401A (ko) * 2020-07-21 2022-01-28 삼성전자주식회사 음상 정위에 따른 음성 출력 방법 및 이를 이용한 장치
WO2022031418A1 (en) * 2020-07-31 2022-02-10 Sterling Labs Llc. Sound rendering for a shared point of view
WO2023220164A1 (en) * 2022-05-10 2023-11-16 Bacch Laboratories, Inc. Method and device for processing hrtf filters
BE1030969B1 (nl) * 2023-04-17 2024-05-15 Areal Verwerkingsmethode voor ruimtelijke aanpassing van een audiosignaal

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2343347B (en) * 1998-06-20 2002-12-31 Central Research Lab Ltd A method of synthesising an audio signal
KR100340043B1 (ko) * 1999-12-23 2002-06-12 오길록 보정된 표준 머리전달함수를 이용한 입체 음향 재생방법
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
KR102007991B1 (ko) * 2013-07-25 2019-08-06 한국전자통신연구원 다채널 오디오 신호의 바이노럴 렌더링 방법 및 장치
EP3090573B1 (en) * 2014-04-29 2018-12-05 Dolby Laboratories Licensing Corporation Generating binaural audio in response to multi-channel audio using at least one feedback delay network
CN104869524B (zh) * 2014-02-26 2018-02-16 腾讯科技(深圳)有限公司 三维虚拟场景中的声音处理方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210024598A (ko) * 2018-06-26 2021-03-05 노키아 테크놀로지스 오와이 오디오의 공간 프리젠테이션을 위한 장치 및 관련 방법
KR102375482B1 (ko) 2018-06-26 2022-03-16 노키아 테크놀로지스 오와이 오디오의 공간 프리젠테이션을 위한 장치 및 관련 방법
CN114503607A (zh) * 2019-08-19 2022-05-13 杜比实验室特许公司 音频的双耳化的操控
CN114503607B (zh) * 2019-08-19 2024-01-02 杜比实验室特许公司 用于操控音频的双耳化的方法、系统和计算机可读介质
US11895479B2 (en) 2019-08-19 2024-02-06 Dolby Laboratories Licensing Corporation Steering of binauralization of audio

Also Published As

Publication number Publication date
KR20180135973A (ko) 2018-12-21
WO2017191970A3 (ko) 2018-08-09
US10349201B2 (en) 2019-07-09
US20170325045A1 (en) 2017-11-09
KR20170125660A (ko) 2017-11-15

Similar Documents

Publication Publication Date Title
WO2017191970A2 (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치
WO2018182274A1 (ko) 오디오 신호 처리 방법 및 장치
WO2016089180A1 (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법
WO2018147701A1 (ko) 오디오 신호 처리 방법 및 장치
CN107852563B (zh) 双耳音频再现
WO2018056780A1 (ko) 바이노럴 오디오 신호 처리 방법 및 장치
WO2015147530A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2015142073A1 (ko) 오디오 신호 처리 방법 및 장치
WO2015152665A1 (ko) 오디오 신호 처리 방법 및 장치
US7382885B1 (en) Multi-channel audio reproduction apparatus and method for loudspeaker sound reproduction using position adjustable virtual sound images
WO2014175669A1 (ko) 음상 정위를 위한 오디오 신호 처리 방법
WO2015147619A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2014157975A1 (ko) 오디오 장치 및 이의 오디오 제공 방법
WO2019107868A1 (en) Apparatus and method for outputting audio signal, and display apparatus using the same
WO2019004524A1 (ko) 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치
WO2019103584A1 (ko) 귀 개방형 헤드폰을 이용한 다채널 사운드 구현 장치 및 그 방법
KR20080049741A (ko) 오디오 처리 시스템 및 방법
WO2015156654A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2019147040A1 (ko) 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법 및 이를 위한 장치
WO2019031652A1 (ko) 3차원 오디오 재생 방법 및 재생 장치
WO2019066348A1 (ko) 오디오 신호 처리 방법 및 장치
WO2016190460A1 (ko) 입체 음향 재생 방법 및 장치
US6990210B2 (en) System for headphone-like rear channel speaker and the method of the same
WO2015147434A1 (ko) 오디오 신호 처리 장치 및 방법
WO2016182184A1 (ko) 입체 음향 재생 방법 및 장치

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20187034958

Country of ref document: KR

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17792872

Country of ref document: EP

Kind code of ref document: A2

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 28/02/2019)

122 Ep: pct application non-entry in european phase

Ref document number: 17792872

Country of ref document: EP

Kind code of ref document: A2