WO2015147435A1 - 오디오 신호 처리 시스템 및 방법 - Google Patents
오디오 신호 처리 시스템 및 방법 Download PDFInfo
- Publication number
- WO2015147435A1 WO2015147435A1 PCT/KR2015/000505 KR2015000505W WO2015147435A1 WO 2015147435 A1 WO2015147435 A1 WO 2015147435A1 KR 2015000505 W KR2015000505 W KR 2015000505W WO 2015147435 A1 WO2015147435 A1 WO 2015147435A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- speaker
- speakers
- signal
- rendering
- channel
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/301—Automatic calibration of stereophonic sound system, e.g. with test microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/02—Spatial or constructional arrangements of loudspeakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/308—Electronic adaptation dependent on speaker or headphone connection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2205/00—Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
- H04R2205/024—Positioning of loudspeaker enclosures for spatial sound reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/07—Generation or adaptation of the Low Frequency Effect [LFE] channel, e.g. distribution or signal processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/005—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo five- or more-channel type, e.g. virtual surround
Definitions
- the present invention relates to an audio signal processing apparatus and method.
- 3D audio is a set of signal processing, transmission, encoding, and playback methods for providing a realistic sound in three-dimensional space by providing another axis corresponding to the height direction to a sound scene (2D) on a horizontal plane provided by conventional surround audio. Also known as technology.
- a rendering technique is required in which a sound image is formed at a virtual position in which no speaker exists even if a larger number of speakers or a smaller number of speakers are used.
- 3D audio is expected to be an audio solution for future Ultra High Definition Television (UHDTV) applications, including sound from vehicles evolving into a high quality infotainment space, as well as theater sound, personal 3DTV, tablets, smartphones and cloud games. It is expected to be applied in various fields.
- Ultra High Definition Television UHDTV
- 3D audio needs to transmit more channel signals than conventional ones up to 22.2 channels, which requires a suitable compression transmission technique.
- Conventional high quality coding such as MP3, AAC, DTS, AC3, etc. has been mainly optimized for transmitting only channels less than 5.1 channels.
- an object-based signal transmission scheme is required as an alternative for effectively transmitting such a sound scene.
- the user may arbitrarily control the playback size and position of the objects. You can do that. Accordingly, there is a need for an effective transmission method capable of compressing an object signal at a high data rate.
- exception channels may be difficult to reproduce only by the conventional method.
- the sound source reproduced through the audio signal not only a sound source in which each of the channel-based signal and the object-based signal exist, but also a mixed sound source may exist, and the user may provide a new type of listening experience. have.
- the performance difference may cause distortion such as the sound scene is not reproduced as intended.
- Korean Laid-Open Patent Publication No. 2011-0082553 name of the invention: binaural rendering of a multi-channel audio signal shows the number of decorrelation or composite signal processing as compared to the inverse correlation of each stereo downmix channel. Techniques for reducing are disclosed.
- Korean Patent Publication No. 2011-0002504 name of the invention: improved coding and parameter representation of multi-channel downmixed object coding
- a technique for generating and generating object parameters to generate an encoded audio object signal is disclosed.
- the present invention has been made to solve the above-mentioned problems of the prior art, and in some embodiments of the present invention, when a channel having an exception position or an exception function is absent, a virtual speaker is disposed at a position of an absent channel and a corresponding channel signal is provided. It provides an audio signal processing method that can be effectively reproduced according to the characteristics of the sound source by rendering the.
- some embodiments of the present invention generate an audio signal processing range information of a pre-installed speaker when an exception position or a channel having an exceptional function is absent, and enables the pre-installed speaker to reproduce through rendering. And methods.
- the technical problem to be achieved in this embodiment is not limited to the technical problem as described above, there may be another technical problem.
- the audio signal processing method comprises the steps of receiving a channel signal, receiving position information of a plurality of pre-installed speakers, the target of the member speaker position Setting a position of a speaker, placing a virtual speaker at a member speaker position on the same layer as the target speaker based on position information of the pre-installed speaker, at a position of the target speaker based on the arranged virtual speaker Rendering a corresponding channel signal and downmixing the rendered channel signal to a channel signal corresponding to the pre-installed speaker.
- the channel signal includes a channel signal corresponding to the member speaker.
- the audio signal processing apparatus includes a position information receiver for receiving position information of a plurality of pre-installed speakers, an audio bit string receiver for receiving an audio bit string including channel signals and object signals; A reproducible range information generating unit generating reproducible range information of the speaker based on the positional information of the speaker, an exception object signal discriminating unit determining whether the object signal is an exceptional object not included in the reproducible range, and the And a rendering unit that renders the object signal based on the determination result.
- the audio signal processing method of the audio signal processing apparatus may include generating playable range information of the speaker based on position information of a plurality of pre-installed speakers, wherein the received object signal is Determining whether it corresponds to an exception object signal not included in a playable range, and rendering the object signal based on the determination result.
- the rendering of the object signal may include generating a plurality of virtual speakers on the same layer as the exception object based on each of the plurality of speakers when the object signal is determined to be an exception object signal, and generating the plurality of virtual signals.
- the exception object signal is rendered based on a comparison result between the number of objects accumulated during playback through a speaker and a preset threshold.
- the exception object signal may be reproduced through the pre-installed speakers by rendering an object signal corresponding to the exception object.
- 1 is a view for explaining a viewing angle according to an image size at the same viewing distance.
- FIG. 2 is a layout diagram of a 22.2 channel speaker as an example of a multi-channel audio environment.
- FIG. 3 is a conceptual diagram illustrating positions of sound objects constituting a three-dimensional sound scene in a listening space.
- FIG. 4 is a diagram illustrating the overall structure of a 3D audio decoder and a renderer including a channel or an object renderer.
- 5 is a diagram in which 5.1 channels are arranged at positions and arbitrary positions according to the ITU-R Recommendation.
- FIG. 6 is a diagram illustrating a coupled structure in which an object signal decoder and a flexible speaker renderer are combined.
- FIG. 7 is a block diagram of an audio signal processing apparatus according to an embodiment of the present invention.
- FIG. 8 is a flowchart of an audio signal processing method according to an embodiment of the present invention.
- 9 and 10 are diagrams for describing a method of rendering an exception channel signal.
- FIG. 11 is a block diagram of an audio signal processing system according to another embodiment of the present invention.
- 12 and 13 are diagrams for describing an exception object rendering method according to another embodiment of the present invention.
- FIG. 14 is a flowchart of an audio signal processing method according to another embodiment of the present invention.
- FIG. 15 is a diagram illustrating an example of an apparatus in which an audio signal processing method according to the present invention is implemented.
- FIGS. 1 to 6 An environment for implementing an audio signal processing apparatus and an audio signal processing method according to the present invention will be described with reference to FIGS. 1 to 6.
- FIG. 1 illustrates a viewing angle according to an image size (eg, UHDTV and HDTV) at the same viewing distance.
- an image size eg, UHDTV and HDTV
- the size of display images is increasing in size, such as UHDTVs, to meet the needs of consumers.
- the UHDTV (7680 * 4320 pixel image, 110) is an image about 16 times larger than the HDTV (1920 * 1080 pixel image, 120).
- the viewing angle may be about 30 degrees.
- the UHDTV 110 is installed at the same viewing distance, the viewing angle reaches about 100 degrees.
- a multi-channel audio environment is required, as well as a personal 3DTV, a smartphone TV, a 22.2 channel audio program, a car, a 3D video, a remote presence room, and a cloud-based game.
- FIG. 2 is a layout diagram of a 22.2 channel speaker as an example of a multi-channel audio environment.
- the 22.2 channel may be an example of a multichannel audio environment for enhancing the sound field, and the present invention is not limited to a specific number of channels or a specific speaker layout.
- a total of nine channels may be arranged in the top layer 210.
- In the middle layer 220 five are arranged in front, two in the middle position, and three in the surround position. A total of 10 speakers are arranged.
- three channels are disposed on the front surface, and two LFE channels 240 are provided.
- FIG. 3 is a conceptual diagram illustrating positions of sound objects constituting a three-dimensional sound scene in a listening space.
- each sound object 310 constituting the three-dimensional sound scene is represented by a point source 310 as shown in FIG. 3. It can be distributed in various positions in the form.
- each object is shown as a point source 310 for convenience of schematic, but in addition to the point source 310, a sound wave in the form of a plain wave or a full orientation capable of recognizing the space of a sound scene is shown.
- a sound wave in the form of a plain wave or a full orientation capable of recognizing the space of a sound scene is shown.
- FIG. 4 is a diagram illustrating the overall structure of a 3D audio decoder and a renderer including a channel or an object renderer.
- the decoder system illustrated in FIG. 4 may be broadly divided into a 3D audio decoder 400 and a 3D audio renderer 450.
- the 3D audio decoder 400 may include an individual object decoder 410, an individual channel decoder 420, a SAOC transducer 430, and an MPS decoder 440.
- the individual object decoder 410 receives an object signal
- the individual channel decoder 420 receives a channel signal.
- the audio bit string may include only an object signal or only a channel signal, and may include both an object signal and a channel signal.
- the 3D audio decoder 400 may receive a signal in which an object signal or a channel signal is waveform encoded or parametric encoded, respectively, through the SAOC transducer 430 and the MPS decoder 440.
- the 3D audio renderer 450 may include a 3DA renderer 460, and may render a channel signal, an object signal, or a parametric coded signal through the 3DA renderer 460.
- the 3D audio decoder 400 receives an object signal, a channel signal, or a combination of signals output through the 3D audio decoder 400 and outputs sound in accordance with an environment of a speaker of a listening space where a listener is located.
- the weights of the 3D audio decoder 400 and the 3D audio renderer 450 may be set based on the number and location information of the speaker in the listening space where the listener is located.
- 5 is a diagram in which 5.1 channels are arranged at positions and arbitrary positions according to the ITU-R Recommendation.
- the speaker 520 disposed in the actual living room has a problem in that both the direction angle and the distance are different from those of the ITU-R recommendation 510. That is, as the height and direction of the speaker are different from the speaker 510 according to the recommendation, it is difficult to provide an ideal 3D sound scene when the original signal is reproduced as it is at the changed speaker 520 position.
- VBAP Amplitude Panning
- VBAP which determines the direction information of the sound source between two speakers based on the magnitude of the signal
- VBAP which is widely used to determine the direction of the sound source using three speakers in three-dimensional space
- Vector-Based Amplitude Panning enables flexible rendering of object signals transmitted for each object. Therefore, by transmitting the object signal instead of the channel signal it is possible to easily provide a 3D sound scene even in an environment where the speaker is different.
- FIG. 6 is a diagram illustrating a coupled structure in which an object signal decoder and a flexible speaker renderer are combined.
- an object when used, an object may be positioned as a sound source according to a desired sound scene.
- the first embodiment 600 and the second embodiment 601 in which the object signal decoder and the flexible renderer reflecting these advantages are combined will be described.
- a mixer 620 receives an object signal from an object decoder 610 and receives position information represented by a mixing matrix to form a channel signal. Will output That is, the positional information on the sound scene is expressed as relative information from the speaker corresponding to the output channel.
- the output channel signal is flexibly rendered through the flexible speaker renderer 630 and output. At this time, if the actual number and location of the speaker does not exist in the predetermined position can receive the position information of the speaker and perform flexible rendering.
- the flexible speaker mixer 650 receives the audio bit string and performs flexible rendering.
- the matrix updater 660 transfers the matrix reflecting the mixing matrix and the location information of the speaker to the flexible speaker mixer 650 to reflect the result when performing the flexible rendering.
- Rendering the channel signal back to another type of channel signal like the first embodiment 600 is more difficult to implement than rendering the object directly to the final channel as in the second embodiment 601. This will be described in detail below.
- a mixture is first performed on the channel signal without separately performing the flexible rendering on the object, and then the flexible rendering on the channel signal is performed.
- the rendering using the HRTF Head Related Transfer Function
- FIG. 7 is a block diagram of an audio signal processing apparatus 700 to which an audio signal processing method according to an embodiment of the present invention is applied.
- the audio signal processing apparatus 700 includes an audio bit string receiver 710, a speaker position information input unit 720, a speaker position setting unit 730, a virtual speaker generator 740, and a rendering unit. 750 and the downmix unit 760.
- the audio bit string receiver 710 receives the audio bit string.
- the audio bit string may include a channel signal
- the channel signal may include a channel signal corresponding to the member speaker.
- the channel signal may be a 22.2 channel signal.
- the speaker position information input unit 720 receives position information of the pre-installed speaker, and the speaker position setting unit 730 sets the position of the target speaker among the position of the member speaker.
- the virtual speaker generator 740 generates and arranges a virtual speaker at a member speaker position on the same layer as the target speaker based on the pre-installed location information of the speaker.
- the renderer 750 renders a channel signal corresponding to the position of the target speaker based on the arranged virtual speaker, and the downmixer 760 downmixes the rendered channel signal to a channel signal corresponding to the pre-installed speaker. .
- FIG. 8 is a flowchart of an audio signal processing method according to an embodiment of the present invention.
- an audio bit string including a channel signal is received (S110).
- the channel signal may include a channel signal corresponding to the member speaker, and the channel signal may be a 22.2 channel signal.
- position information of a plurality of pre-installed speakers is input (S120), and the position of the target speaker among the member speakers is set (S130).
- the virtual speaker is disposed at the position of the member speaker on the same layer as the target speaker based on the pre-installed location information of the speaker (S140).
- the virtual speaker may be disposed at a position of the member speaker positioned on the same vertical line as the pre-installed speaker.
- the virtual speaker may be disposed at the position of the member speaker of the uppermost layer positioned on the same vertical line as the speaker positioned in the middle layer.
- One or more such virtual speakers may be disposed at respective positions of the member speakers.
- the channel signal corresponding to the position of the target speaker is rendered based on the arranged virtual speaker (S150).
- the channel signal corresponding to the position of the target speaker may be rendered based on the speaker and the virtual speaker that are previously installed on the same layer as the target speaker. For example, when two pre-installed speakers exist in the top layer and two virtual speakers are arranged, the channel signal corresponding to the position of the target speaker may be rendered to the four speakers.
- the channel signal rendered to the channel signal corresponding to the pre-installed speaker is downmixed (S160).
- the method may further include synthesizing the channel signal rendered in the speaker pre-installed on the same layer as the target speaker.
- the pre-installed speaker can output the channel signal corresponding to the exception channel signal.
- the head transfer function may use an individual head transfer function according to a different data set for each user, and different downmixes may be performed for each azimuth according to the head transfer function used.
- HRTF Head Related Transfer Function
- the target speaker may be set on the highest layer of the pre-installed speaker.
- the speaker may be set as the target speaker when the speaker is not located at the center of the top layer.
- the virtual speaker may be disposed at the member speaker position on the uppermost layer located on the same vertical line as the pre-installed speaker located on the middle layer. Accordingly, the channel signal corresponding to the position of the target speaker may be rendered based on the speaker and the virtual speaker pre-installed on the top layer.
- the rendered channel signal is synthesized with the channel signal of the speaker pre-installed on the top layer, and the rendered channel signal corresponding to the virtual speaker is converted to the channel signal corresponding to the pre-installed speaker on the middle layer positioned on the same vertical line as the virtual speaker. Can be downmixed
- 9 and 10 are diagrams for describing a method of rendering an exception channel signal.
- the TpC (Top Center) channel the speaker above the listener's head
- This channel is called the voice of God because the most dramatic situation that can be obtained by using this channel is that the voice of God is heard in the sky. For example, an object falls just above your head, a firecracker plays right above your head, a person yells on the roof of a very tall building, or an airplane flies from front to back over the viewer's head.
- the TpC channel is a very essential channel in various scenes. As such, the use of the TpC channel can provide the user with a realistic sound field that the conventional audio system could not provide in dramatic situations.
- An exception channel such as the TpC channel, will not be able to play effectively in the same way as conventional flexible rendering if there is no speaker at that location. Therefore, there is a need for a method of effectively reproducing a channel through a small number of output channels in the absence of an exception channel.
- the M-N downmix matrix (M: number of input channels, N: number of output channels) has generally been implemented. That is, when the 5.1 channel content is reproduced in stereo, the downmix is implemented by a given equation.
- Such a downmix implementation method is generally performed by synthesizing by applying a downmix weight relative to speakers having a close spatial distance.
- the TpFc channel of the uppermost layer may be downmixed to Fc (or FRc, FLc) of the middle layer to be synthesized. That is, by generating the virtual TpFc using these speakers Fc, FRc, and FLc, the sound corresponding to the position of the member speaker TpFc can be reproduced.
- TpC channel speakers it is difficult to determine the directionality of the front, rear, left and right with respect to the listener, and thus, it is difficult to determine the speaker position spatially close to the middle layer speakers.
- the object reproduced only in the TpC channel speaker or the object reproduced around the TpC channel speaker is preferably downmixed accordingly.
- the exception channel signal may be downmixed by analyzing a particular value of the transmitted bit string or the characteristics of the signal.
- An example of an exception channel signal is a TpC channel signal present above the listener's head as described above. Such a TpC channel signal may apply the same downmix weight to multiple channels in the case of a stationary or directional ambient sound above the head.
- the conventional matrix-based downmixer can be used to downmix the TpC channel signal.
- the dynamic sound scene intended by the content provider may be transmitted more statically.
- a downmix having a variable gain may be performed by analyzing channel signals.
- input bit string information or input channel signals may be analyzed to determine which method to use.
- the output signal is determined by L, M or N channel signals according to the selected downmix method.
- the sound location in the median plane has a different aspect from the sound location in the horizontal plane.
- a localization blur which represents the range in which the position of the sound image is indistinguishable from a specific position.
- the voice signal in the median plane has inaccuracies corresponding to 9 to 17 degrees, but the voice signal in the horizontal plane has inaccuracies from 0.9 to 1.5 degrees. In this way, it can be seen that the sound location in the median plane is very inaccurate.
- the downmix using the matrix is more effective than the sophisticated stereotactic method because of the low accuracy that humans can perceive in high altitude images. Therefore, in the case of a sound image whose position does not change significantly, it is possible to effectively upmix the absent TpC channel into a plurality of channels by distributing an equal gain value to the top channels in which the speakers are symmetrically distributed.
- the channel gain values distributed to the top layer have the same value.
- it is well known that it is difficult to have a formal channel environment as shown in FIG. Accordingly, in the atypical channel environment, when a certain gain value is allocated to all channels, the angle between the intended position of the content and the sound image may be larger than the stereotactic spread value. This may cause the user to recognize a wrong sound image. In order to prevent this, a process for compensating for an atypical channel environment is required.
- the conventional downmix method of setting a constant gain can reproduce the plane wave generated in the TpC channel using the surrounding channel.
- the center of gravity of the polygon with the positions of the speakers as vertices on the plane including the top layer is the same as the position of the TpC channel. Therefore, in an atypical speaker channel environment, the gain value of each channel is such that the center of gravity vector of the two-dimensional position vectors on the plane including the top layer of each channel to which the gain value is weighted is equal to the position vector of the TpC channel position.
- N regions are divided equally around the TpC channel 820.
- An equal gain value is given to an area divided by an isometric angle, and if two or more speakers are located in the area, the sum of squares of the respective weights is set to be equal to the above-mentioned gain value. That is, it is assumed that a speaker arrangement is composed of a speaker 810 located on a plane including the upper layer, a TpC channel speaker 820, and a speaker 830 located out of the plane including the upper layer.
- each region is given a gain value such that the sum of the squares is equal to 1 while having the same size.
- the gain value of each area is 0.5. If there are two or more speakers on one area, this also sets the gain value such that the sum of squares equals the gain value of the area. Therefore, the gain value of the two speaker outputs present in the lower right region 840 is 0.3536.
- the speaker 830 located outside the plane including the upper layer first, a gain value obtained by projecting onto the plane including the upper layer is first obtained, and the difference between the plane and the speaker is compensated using the gain value and the delay. Just do it.
- the VoG channel signal is panned to TpFL and TpFR in which the speaker 910 pre-installed in the uppermost layer exists. This results in an inconsistency in which the sound to be provided above the listener's head is generated at the top front.
- the present invention may additionally arrange the virtual speaker 920.
- the virtual speaker 920 In the speaker layout environment of FIG. 10, when there is no speaker corresponding to the azimuth of the speaker existing in the middle layer, the virtual speaker 920 is disposed at the corresponding position. Accordingly, in the case of FIG. 10, the virtual speaker 920 is disposed in TpFC, TpBL, and TpBR. Then, rendering may be performed by using the channel speakers of the five highest layers including the virtual speaker 920 and the pre-installed speaker 910.
- the rendering method may be distributed to all speakers of the top layer to have the same weight value, or as described above, may be implemented by considering the weight of each region of the top layer.
- the rendered channel signal is added to the existing channel signal located in the pre-installed speaker 910 to play.
- the channel signal corresponding to the virtual speaker 920 is downmixed to the speaker of the middle layer corresponding to each azimuth position.
- the downmix (or top-to-middle downmix) may be implemented by simple addition on the time axis, but is preferably implemented in a filtering form using auditory characteristics. Alternatively, it can be implemented using a parameter generated using a generalized head transfer function or a provided personalized head transfer function.
- the parameter is determined, and the parameter may be the Vietnamese or peak frequency and magnitude information of a specific spectrum or the inter-aural level difference and the positive phase difference of a specific frequency. Therefore, such filtering is preferably implemented by QMF domain filtering when the area of the currently performed signal is a Quadrature Mirror Filters (QMF) domain.
- QMF Quadrature Mirror Filters
- the VoG signal that is finally reproduced in the speaker located in the front center of the middle layer is It is calculated as a weighted value for each frequency band proportional to the value of.
- C VoG is the VoG original signal
- K is the number of speakers in the middle layer
- cgain is the compensation weight according to the layout mismatch in the middle layer
- the audio signal processing apparatus and method according to another embodiment of the present invention can render an exception object signal outside the playable range of the speaker, which will be described with reference to FIGS. 11 to 14.
- FIG. 11 is a block diagram of an audio signal processing apparatus 1100 according to another exemplary embodiment of the present invention.
- the audio signal processing apparatus 1100 includes a location information receiver 1110, an audio bit string receiver 1120, a playable range information generator 1130, an exception object signal determiner 1140, and a renderer 1150. ).
- the location information receiver 1110 receives location information of a plurality of speakers.
- the speaker may not be arranged according to an installation rule.
- the user may directly input the location information of the speaker by using a user interface (UI) or by selecting from a given view set.
- UI user interface
- the location information of the speaker may be input by various methods such as a remote positioning technology.
- the audio bit string receiver 1120 receives an audio bit string including a channel signal and an object signal.
- the object signal may include location information of the object.
- the exception object signal determiner 1140 determines whether the object is an exception object located outside the playable range, as described below.
- the playable range information generation unit 1130 generates playable range information of the speaker based on the location information of the speaker received by the location information receiver 1110.
- the playable range of the speakers is based on VBAP (Vector Based Amplitude Panning), which is a method of selecting three speakers that can form the smallest triangle that typically contains the position to locate the sound source. It can be composed of a line connecting.
- VBAP Vector Based Amplitude Panning
- the playable range of a speaker may be a range that includes only a limited position on a 360 degree plane to the left and right of the user's ear level in case of a 5.1 speaker setup.
- a speaker configuration capable of orienting the sound source at all positions around the user, it may have a maximum playable range.
- the exception object signal determination unit 1140 determines whether the object signal corresponds to an exception object not included in the playable range of the speaker.
- the renderer 1150 renders an object signal based on a result of determining whether an exception object exists.
- the rendering unit 1150 may render object signals corresponding to the objects included in the playable range according to a general rendering method. That is, the rendering unit 1150 may render the object signal based on the location information of the plurality of speakers.
- the rendering unit 1150 renders in a manner different from the existing rendering method.
- FIG. 12 is a diagram for describing an exception object rendering method according to a first embodiment of the present invention.
- the rendering unit 1150 may further include a virtual speaker generator 1151, an amplitude panning unit 1153, and a projection unit 1155.
- the virtual speaker generator 1151 may generate a plurality of virtual speakers having the same height as the exception object based on each of the plurality of speakers. For example, in order to reproduce the object signal for the exception object 'S1' from the left and right speakers, which are actual speakers, first, a plurality of virtual speakers having the same height as the exception object 'S1' are generated. Can be. In this case, the virtual speakers are positioned on the same vertical line as the left and right speakers, which are actual speakers. When three speakers are actually used instead of two left and right speakers, a virtual speaker may be created on a plane parallel to the plane of the three actual speakers.
- the amplitude panning unit 1153 may amplitude pan an exception object signal to each of the plurality of virtual speakers. As shown in FIG. 12, the exception object 'S1' may be amplitude-panned to the left and right virtual speakers respectively corresponding to the left and right real speakers, respectively.
- the projection unit 1155 may project the amplitude panned exception object signal to each of the plurality of speakers. That is, the exception object signal amplitude-panned to the virtual speaker is projected onto the actual speaker on the same vertical line as the virtual speaker. In this case, since the azimuth angles are different from each other when the virtual speaker 'VL1' is projected to the real speaker and when the virtual speaker 'VL2' is projected by the real speaker, the filters applied to each may be different filters.
- rendering may be performed according to the rendering method according to the first embodiment. That is, when the number of exception objects corresponding to the virtual speaker is large, rendering with the virtual speaker is advantageous in terms of the amount of computation and the degree of interference with the surrounding objects. Therefore, when the object having a threshold value or more is measured, the rendering method according to the first embodiment Depending on the rendering can be done. However, even if the number of exception objects corresponding to the virtual speaker is greater than or equal to the threshold, it is not necessarily to be implemented only in the first embodiment, but may be rendered according to the second embodiment described below.
- FIG. 13 is a diagram for describing an exception object rendering method according to a second embodiment of the present invention.
- the rendering unit 1150 may further include a projection unit 1155 and an amplitude panning unit 1153.
- the projector 1155 may project the exception object onto a plane on which the plurality of speakers are located. That is, the exception object "S1" is projected on the position of "P” which is coplanar with the plurality of speakers, and is positioned within the playable range of the speaker.
- the amplitude panning unit 1153 may amplitude-panel an exception object signal corresponding to the exception object to each of the plurality of speakers. That is, the amplitude object signal of the exception object located at 'P' may be amplitude-panned to the left (L) and right (R) real speakers, respectively.
- the renderer 1150 according to the second embodiment may further include a virtual speaker generator 1151.
- the virtual speaker generator 1151 may generate a plurality of virtual speakers having the same height as the exception object based on each of the plurality of speakers.
- the object rendering method may be rendered by the exception object rendering method according to the second embodiment.
- the present invention is not necessarily implemented only in the second embodiment, and may be rendered according to the first embodiment.
- the rendering unit 1150 may render the exception object according to two embodiments in consideration of an operation amount.
- the rendering method applied to the audio signal processing apparatus 1100 is the same method when the position of the exception speaker is assumed to be 'S1' or 'S2' when there is an exception speaker instead of an object. You can render using the actual speaker given by.
- FIG. 14 is a flowchart of an audio signal processing method according to another embodiment of the present invention.
- playable range information of a speaker is generated based on location information of the speaker (S210). Since the playable range information has been described with reference to FIG. 11, a detailed description thereof will be omitted.
- the rendering of the object signal may generate a plurality of virtual speakers having the same height as the exception object based on each of the plurality of speakers when the object signal is determined as the exception object signal.
- the number of objects accumulated during playback through the plurality of virtual speakers is compared with a preset threshold value, and an exception object signal is rendered based on the result.
- the amplitude object signal may be amplitude-panned to each of the plurality of virtual speakers, and the amplitude-panned exception object signal may be projected onto each of the plurality of speakers.
- the exception object is projected onto a plane where the plurality of speakers are located, and the amplitude object signal corresponding to the projected exception object is amplitude-panned to each of the plurality of speakers. Can be.
- the computational amount is high. If the object is less than or equal to the threshold value, the exception object is rendered. do.
- the threshold value even if the number of exception objects corresponding to the virtual speaker is greater than or equal to the threshold value, it is not necessarily performed by amplitude-panning and projecting the virtual speaker, but may be performed without using the virtual speaker. In addition, even if less than the threshold value may be implemented using a virtual speaker.
- the object signal when it is determined that the object signal is not an exception object signal, that is, an object included in the speaker playable range, the object signal may be rendered by an existing rendering method. In this case, the object signal can be rendered based on the location information of the plurality of speakers.
- the audio signal processing method of the audio signal processing apparatus 1100 may acquire location information of a plurality of speakers.
- the speaker may be disposed at any position other than the prescribed position, in which case, the user may input the position information of the speaker by using the UI or by selecting from a given view set.
- the location information may be acquired by the speaker location module installed in the audio signal processing device 1100.
- the speaker positioning module may use a positioning method using an infrared sensor, an ultrasonic sensor, or the like installed in each speaker, or may use a positioning method using a camera.
- the method may further include receiving an audio bit string including the channel signal and the object signal.
- the received object signal may include location information of the object. Based on such position information, it is possible to determine whether the object is included in the playable range of the speaker.
- the audio signal processing apparatus and method according to the exemplary embodiments described with reference to FIGS. 1 to 14 may be implemented by the audio reproducing apparatus 1 shown in FIG. 15, which will be described below.
- FIG. 15 is a diagram illustrating an example of an apparatus in which an audio signal processing method according to the present invention is implemented.
- the audio reproducing apparatus 1 may include a wired / wireless communication unit 10, a user authentication unit 20, an input unit 30, a signal coding unit 40, a control unit 50, and an output unit 60. have.
- the wired / wireless communication unit 10 receives an audio bit string through a wired / wireless communication method.
- the wired / wireless communication unit 10 may include a configuration such as an infrared communication unit, a Bluetooth unit, or a wireless LAN communication unit, and may receive an audio bit string by various other communication methods.
- the user authentication unit 20 receives user information and performs user authentication.
- the user authentication unit 20 may include one or more of a fingerprint recognition unit, an iris recognition unit, a face recognition unit, and a voice recognition unit. That is, the user authentication may be performed by receiving a fingerprint, iris information, facial outline information, and voice information, converting the user information into a user information, and determining whether or not matching with the registered user information is performed.
- the input unit 30 is an input device for the user to input various types of commands, and may include one or more of a keypad unit, a touch pad unit, and a remote controller unit.
- the signal coding unit 40 may encode or decode an audio signal, a video signal, or a combination thereof received through the wire / wireless communication unit 10 and output an audio signal of a time domain.
- the signal coding unit 40 may include an audio signal processing device, and the audio signal processing method according to the present invention may be applied to the audio signal processing device.
- the controller 50 receives an input signal from the input devices and controls all processes of the signal coding unit 40 and the output unit 60.
- the output unit 60 outputs an output signal generated by the signal coding unit 40, and may include components such as a speaker unit and a display unit. In this case, when the output signal is an audio signal, the output signal may be output to the speaker, and in the case of a video signal, the output signal may be output through the display.
- components shown in FIGS. 4, 6 to 9, 11, and 15 may be software or hardware such as a field programmable gate array (FPGA) or an application specific integrated circuit (ASIC). Means a component, and plays a role.
- FPGA field programmable gate array
- ASIC application specific integrated circuit
- 'components' are not meant to be limited to software or hardware, and each component may be configured to be in an addressable storage medium or may be configured to reproduce one or more processors.
- a component may include components such as software components, object-oriented software components, class components, and task components, and processes, functions, properties, procedures, and subs. Routines, segments of program code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays, and variables.
- Components and the functionality provided within those components may be combined into a smaller number of components or further separated into additional components.
- an embodiment of the present invention may be implemented in the form of a recording medium including instructions executable by a computer, such as a program module executed by the computer.
- Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
- Computer readable media may include both computer storage media and communication media.
- Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
- Communication media typically includes computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transmission mechanism, and includes any information delivery media.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
본 발명인 오디오 신호 처리 방법은 채널 신호를 수신하는 단계, 기 설치된 복수의 스피커의 위치 정보를 입력받는 단계, 부재 스피커 위치 중 타겟 스피커의 위치를 설정하는 단계, 상기 기 설치된 스피커의 위치 정보에 기초하여 상기 타겟 스피커와 동일 레이어 상의 부재 스피커 위치에 가상 스피커를 배치하는 단계, 상기 배치된 가상 스피커에 기초하여 상기 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링하는 단계 및 상기 기 설치된 스피커에 대응하는 채널 신호에 상기 렌더링된 채널 신호를 다운믹스하는 단계를 포함하되, 상기 채널 신호는 부재 스피커에 대응하는 채널 신호를 포함한다.
Description
본 발명은 오디오 신호 처리 장치 및 방법에 관한 것이다.
3D 오디오란 기존의 서라운드 오디오에서 제공하는 수평면 상의 사운드 장면(2D)에 높이 방향에 해당하는 또 다른 축을 제공함으로써, 3차원 공간 상에서 임장감있는 사운드를 제공하기 위한 일련의 신호 처리, 전송, 부호화 및 재생기술 등을 통칭한다. 특히, 3D 오디오를 제공하기 위해서는 종래보다 많은 수의 스피커를 사용하거나 혹은 적은 수의 스피커를 사용하더라도 스피커가 존재하지 않는 가상의 위치에서 음상이 맺히도록 하는 렌더링 기술이 요구된다.
3D 오디오는 향후 출시될 초고해상도 TV(UHDTV)에 대응되는 오디오 솔루션이 될 것으로 예상되며, 고품질 인포테인먼트 공간으로 진화하고 있는 차량에서의 사운드를 비롯하여 그밖에 극장 사운드, 개인용 3DTV, 태블릿, 스마트폰 및 클라우드 게임 등 다양한 분야에서 응용될 것으로 예상된다.
이와 같은, 3D 오디오는 최대 22.2 채널까지 종래보다 많은 채널 신호를 전송하는 것이 필요한데, 이를 위해 적합한 압축 전송 기술이 요구된다. 종래의 MP3, AAC, DTS, AC3 등의 고음질 부호화의 경우, 주로 5.1 채널 미만의 채널만을 전송하는데 최적화되어 있었다.
또한, 22.2 채널 신호를 재생하기 위해서는 24개의 스피커 시스템을 설치한 청취공간에 대한 인프라가 필요하다. 그러나 24개의 스피커 시스템을 구비한 청취공간의 인프라가 단기간에 갖춰지기는 용이하지 않으므로, 다양한 렌더링 기술이 요구된다. 구체적으로, 22.2 채널 신호를 그보다 작은 수의 스피커를 가진 공간에서 효과적으로 재생하기 위한 기술인 다운믹스 렌더링, 반대로 기존 스테레오 혹은 5.1 채널 음원을 그보다 많은 스피커인 10.1 채널, 22.2 채널 환경에서 재생할 수 있도록 하는 기술인 업믹스 렌더링, 이와 더불어 규정된 스피커 위치와 규정된 청취공간이 아닌 환경이 아닌 곳에서도 원래의 음원을 제공하는 사운드 장면을 제공할 수 있도록 하는 기술인 유연한 렌더링(Frexible Rendering), 헤드폰 청취 환경에서도 3D 사운드를 즐길 수 있도록 하는 기술 등이 요구된다.
한편, 이와 같은 사운드 장면을 효과적으로 전송하기 위한 대안으로 객체 기반 신호 전송 방안이 필요하다. 음원에 따라서 채널 기반으로 전송하는 것보다 객체 기반으로 전송하는 것이 더 유리한 경우가 있을 뿐 아니라, 객체 기반으로 전송하는 경우 사용자가 임의로 객체들의 재생 크기와 위치를 제어할 수 있는 등 인터렉티브한 음원 청취를 가능하게 할 수 있다. 이에 따라, 객체 신호를 높은 전송률로 압축할 수 있는 효과적인 전송 방법이 필요하다.
또한, 채널 기반의 신호와 객체 기반의 신호가 혼합된 형태의 음원도 존재할 수 있으며, 이를 통해 새로운 형태의 청취 경험을 제공할 수도 있다. 따라서, 채널 신호와 객체 신호를 효과적으로 함께 전송하고, 이를 효과적으로 렌더링하기 위한 기술도 필요하다.
이와 더불어, 채널이 갖는 특수성과 재생단에서의 스피커 환경에 따라 기존의 방식만으로는 재생하기 어려운 예외 채널들이 발생할 수 있다. 이 경우, 재생단에서의 스피커 환경에 기초하여 효과적으로 예외 채널을 재현하는 기술이 필요하다.
한편, 오디오 신호를 통해 재생되는 음원에는 채널 기반의 신호와 객체 기반의 신호 각각이 존재하는 음원 뿐만 아니라 이들이 혼합된 형태의 음원도 존재할 수 있으며, 사용자는 이를 통해 새로운 형태의 청취 경험을 제공할 수 있다.
그러나 채널 기반의 신호와 객체 기반의 신호 각각에 대해 독립적인 렌더러를 갖는 현재의 MPEG-H 3D 오디오에서는 채널 렌더러와 객체 렌더러의 성능 차이로 인한 문제를 가지게 된다. 즉, 성능 차이로 인해 사운드 신이 의도한대로 재생되지 않는 등의 왜곡이 발생할 수 있다.
이와 관련하여 한국공개특허 제2011-0082553호(발명의 명칭: 멀티-채널 오디오 신호의 바이노럴 렌더링)에는 각 스테레오 다운믹스 채널을 개별적으로 역상관시키는 것에 비해 역상관 또는 합성 신호 처리의 개수를 줄일 수 있는 기술이 개시되어 있다.
또한, 한국공개특허 제2011-0002504호(발명의 명칭: 멀티채널 다운믹스된 객체 코딩의 개선된 코딩 및 파라미터 표현)에는 복수의 오디오 객체를 적어도 두 개의 다운믹스 채널들로 분배하여 다운믹스 정보를 생성하고, 객체 파라미터들을 생성하여 인코딩된 오디오 객체 신호를 생성하는 기술이 개시되어 있다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 본 발명의 일부 실시예는 예외 위치 또는 예외 기능을 가지는 채널이 부재할 경우, 부재 채널의 위치에 가상 스피커를 배치하고 이에 대응하는 채널 신호를 렌더링함으로써 음원의 특성에 따라 효과적으로 재생할 수 있는 오디오 신호 처리 방법을 제공한다.
또한, 본 발명의 일부 실시예는 예외 위치 또는 예외 기능을 하는 채널이 부재할 경우, 기 설치된 스피커의 재생 가능 범위 정보를 생성하고, 렌더링을 통해 기 설치된 스피커로 하여금 재생할 수 있게 하는 오디오 신호 처리 시스템 및 방법을 제공한다.
한편, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 오디오 신호 처리 방법은 채널 신호를 수신하는 단계, 기 설치된 복수의 스피커의 위치 정보를 입력받는 단계, 부재 스피커 위치 중 타겟 스피커의 위치를 설정하는 단계, 상기 기 설치된 스피커의 위치 정보에 기초하여 상기 타겟 스피커와 동일 레이어 상의 부재 스피커 위치에 가상 스피커를 배치하는 단계, 상기 배치된 가상 스피커에 기초하여 상기 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링하는 단계 및 상기 기 설치된 스피커에 대응하는 채널 신호에 상기 렌더링된 채널 신호를 다운믹스하는 단계를 포함한다. 이때, 상기 채널 신호는 부재 스피커에 대응하는 채널 신호를 포함한다.
또한, 본 발명의 제 2 측면에 따른 오디오 신호 처리 장치는 기 설치된 복수의 스피커의 위치 정보를 수신하는 위치 정보 수신부, 채널 신호 및 객체 신호를 포함하는 오디오 비트열을 수신하는 오디오 비트열 수신부, 상기 스피커의 위치 정보에 기초하여 상기 스피커의 재생 가능 범위 정보를 생성하는 재생 가능 범위 정보 생성부, 상기 객체 신호가 상기 재생 가능 범위 내에 포함되지 않은 예외 객체인지 여부를 판별하는 예외 객체 신호 판별부 및 상기 판별 결과에 기초하여 상기 객체 신호를 렌더링하는 렌더링부를 포함한다.
또한, 본 발명의 제 3 측면에 따른 오디오 신호 처리 장치에서의 오디오 신호 처리 방법은 기 설치된 복수의 스피커의 위치 정보에 기초하여 상기 스피커의 재생 가능 범위 정보를 생성하는 단계, 수신한 객체 신호가 상기 재생 가능 범위에 포함되지 않는 예외 객체 신호에 해당하는지 여부를 판별하는 단계 및 상기 판별 결과에 기초하여 상기 객체 신호를 렌더링하는 단계를 포함한다. 이때, 상기 객체 신호를 렌더링 하는 단계는, 상기 객체 신호가 예외 객체 신호로 판별된 경우 상기 복수의 스피커 각각을 기준으로 상기 예외 객체와 동일한 레이어 상에 복수의 가상 스피커를 생성하고, 상기 복수의 가상 스피커를 통해 재생시 누적되는 객체의 개수와 미리 설정된 임계값과의 비교 결과에 기초하여 상기 예외 객체 신호를 렌더링한다.
전술한 본 발명의 과제 해결 수단에 의하면, 예외 채널에 해당하는 스피커가 재생단에서 부재할 경우 효과적으로 다른 스피커들을 이용하여 재생할 수 있다.
또한, 기 설치된 스피커의 재생 범위를 벗어나는 예외 객체가 존재하는 경우, 예외 객체에 해당하는 객체 신호를 렌더링함으로써 예외 객체 신호를 기 설치된 스피커들을 통해 재생할 수 있다.
도 1은 동일한 시청 거리에서 영상 크기에 따른 시청 각도를 설명하기 위한 도면이다.
도 2는 멀티채널 오디오 환경의 일 예시로서 22.2 채널 스피커의 배치 구성도이다.
도 3은 청취 공간상에서 3차원의 사운드 장면을 구성하는 각 사운드 객체들의 위치를 나타내는 개념도이다.
도 4는 채널 또는 객체 렌더러가 포함된 3D 오디오 디코더 및 렌더러의 전체 구조도를 도시한 도면이다.
도 5는 ITU-R 권고안에 따른 위치 및 임의의 위치에 5.1채널을 배치한 도면이다.
도 6은 객체 신호 디코더 및 플렉서블 스피커 렌더링부가 결합된 연결된 구조를 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치의 블록도이다.
도 8은 본 발명의 일 실시예에 따른 오디오 신호 처리 방법의 순서도이다.
도 9 및 도 10은 예외 채널 신호를 렌더링하는 방법을 설명하기 위한 도면이다.
도 11은 본 발명의 다른 실시예에 따른 오디오 신호 처리 시스템의 블록도이다.
도 12 및 도 13은 본 발명의 다른 실시예에 따른 예외 객체 렌더링 방법을 설명하기 위한 도면이다.
도 14는 본 발명의 다른 실시예에 따른 오디오 신호 처리 방법의 순서도이다.
도 15는 본 발명에 따른 오디오 신호 처리 방법이 구현된 장치의 일 예시를 도시한 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 본원 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.
먼저, 도 1 내지 도 6을 참조하여 본 발명에 따른 오디오 신호 처리 장치 및 오디오 신호 처리 방법이 구현되기 위한 환경에 대하여 설명하도록 한다.
도 1은 동일한 시청 거리에서 영상 크기(예: UHDTV 및 HDTV)에 따른 시청 각도를 설명하기 위한 도면이다.
최근 디스플레이의 제작 기술이 발전됨에 따라, 소비자의 요구에 맞추어 UHDTV와 같이, 디스플레이 영상의 크기는 점점 대형화가 되어가는 추세이다. 도 1에 도시된 바와 같이, UHDTV(7680*4320 픽셀영상, 110)는 HDTV(1920*1080 픽셀영상, 120)보다 약 16배가 커진 영상이다. HDTV(120)가 거실 벽면에 설치되고 시청자가 일정 시청거리를 두고 거실 쇼파에 앉은 경우 시청각도는 약 30도일 수 있다. 이와 동일한 시청거리에서 UHDTV(110)가 설치된 경우 시청각도는 약 100도에 이르게 된다.
이와 같이 고화질 및 고해상도 대형 스크린이 설치된 경우, 대형 컨텐츠에 걸맞게 높은 현장감 및 임장감을 갖는 사운드가 제공되는 것이 바람직하다. 시청자가 마치 현장에 있는 것과 거의 동일한 환경을 제공하기 위해서는 1-2개의 서라운드 채널 스피커가 존재하는 것만으로는 부족할 수 있다. 따라서, 보다 많은 스피커 및 채널 수를 갖는 멀티채널 오디오 환경이 요구된다.
상기 설명한 바와 같이 멀티채널 오디오 환경이 요구되는 환경으로 홈시어터 환경 이외에도 개인 3DTV, 스마트폰 TV, 22.2 채널 오디오 프로그램, 자동차, 3D 비디오, 원격 현장감 룸, 클라우드 기반 게임 등이 있다.
도 2는 멀티채널 오디오 환경의 일 예시로서 22.2 채널 스피커의 배치 구성도이다.
22.2 채널은 음장감을 높이기 위한 멀티채널 오디오 환경의 일 예시일 수 있으며, 본 발명은 특정 채널 수 또는 특정 스피커의 배치에 한정되지 않는다. 도 2를 참조하면, 최상위 레이어(top layer, 210)에 총 9개의 채널이 배치될 수 있다. 전면에 3개, 중간 위치에 3개, 서라운드 위치에 3개가 배치되어 총 9개의 스피커가 배치되어 있다. 중간 레이어(middle layer, 220)에는 전면에 5개, 중간 위치에 2개, 서라운드 위치에 3개가 배치되오 총 10개의 스피커가 배치되어 있다. 최하위 레이어(bottom layer, 230)에는 전면에 3개의 채널이 배치되어 있고, 2개의 LFE 채널(240)이 설치되어 있다.
이와 같이, 최대 수십 개 채널에 이르는 멀티채널 신호를 전송 및 재생하기 위해서는 높은 연산량이 요구된다. 또한, 통신 환경 등을 고려할 때 높은 압축률이 요구될 수 있다. 뿐만 아니라, 일반 가정에서는 22.2채널과 같은 멀티채널 스피커 환경을 구비하는 경우는 극히 드물고 2채널 또는 5.1채널 셋업을 갖는 청취자가 많기 때문에, 모든 유저에게 공통적으로 전송하는 신호가 멀티채널을 각각 인코딩하여 보내는 신호인 경우, 그 멀티채널 신호를 2채널 또는 5.1채널에 대응하도록 다시 변환하여 재생해야 된다. 이에 따라, 통신적인 비효율이 발생할 뿐만 아니라 22.2채널의 PCM 신호를 저장해야 하므로, 메모리 관리에 있어서 비효율적인 문제가 발생할 수 있다.
도 3은 청취 공간상에서 3차원의 사운드 장면을 구성하는 각 사운드 객체들의 위치를 나타내는 개념도이다.
청자(320)가 3D 오디오를 청취하는 청취 공간상(300)에서, 3차원의 사운드 장면을 구성하는 각 사운드 객체(310)들의 위치는 도 3에 도시된 바와 같이 점 소스(point source, 310) 형태로 다양한 위치에 분포될 수 있다.
한편, 도 3에서는 도식화의 편의상 각 객체들이 점 소스(310)인 것으로 나타냈으나, 점 소스(310) 이외에 평면파(plain wave) 형태의 음원이나, 사운드 장면의 공간을 인식할 수 있는 전 방위에 걸쳐 퍼져있는 여음인 앰비언트(ambient) 음원 등이 있을 수 있다.
도 4는 채널 또는 객체 렌더러가 포함된 3D 오디오 디코더 및 렌더러의 전체 구조도를 도시한 도면이다.
도 4에 도시된 디코더 시스템은 크게 3D 오디오 디코더부(400) 및 3D 오디오 렌더링부(450)로 구분될 수 있다.
3D 오디오 디코더부(400)는 개별 객체 디코더(410), 개별 채널 디코더(420), SAOC 트랜스듀서(430) 및 MPS 디코더(440)을 포함할 수 있다.
개별 객체 디코더(410)는 객체 신호를 입력받으며, 개별 채널 디코더(420)는 채널 신호를 입력받는다. 이때, 오디오 비트열은 객체 신호만을 포함하거나, 채널 신호만을 포함할 수 있으며, 이 뿐만 아니라 객체 신호와 채널 신호를 모두 포함할 수 있다.
또한, 3D 오디오 디코더부(400)는 SAOC 트랜스듀서(430) 및 MPS 디코더(440)를 통해 객체 신호 또는 채널 신호가 각각 웨이브폼 부호화되거나 파라메트릭 부호화된 신호를 입력 받을 수 있다.
3D 오디오 렌더링부(450)는 3DA 렌더러(460)을 포함하고 있으며, 3DA 렌더러(460)을 통해 채널 신호 또는 객체 신호, 또는 파라메트릭 부호화된 신호를 각각 렌더링할 수 있다.
그리고 3D 오디오 디코더부(400)를 통해 출력된 객체 신호, 채널 신호 또는 이들이 조합된 신호를 입력 받아 청자가 있는 청취 공간의 스피커의 환경에 맞게 소리를 출력한다. 이때, 청자가 있는 청취 공간에서의 스피커의 개수 및 위치 정보 등에 기초하여 3D 오디오 디코더부(400) 및 3D 오디오 렌더링부(450)의 가중치를 설정할 수 있다.
한편, 3D 오디오를 위해 필요한 기술 중 하나로 유연한 렌더링이 있으며, 유연한 렌더링 기술은 3D 오디오의 품질을 최상으로 끌어올리기 위해 해결해야 할 중요한 과제 중 하나이다. 유연한 렌더링 기술이 필요한 이유는 다음과 같다.
거실의 구조, 가구의 배치에 따라 5.1 채널 스피커의 위치가 매우 비정형적인 것은 주지의 사실이다. 이와 같은 비정형적 위치에 스피커가 존재하더라도, 컨텐츠 제작자가 의도한 사운드 장면을 제공할 수 있어야 한다. 이를 위해서는 사용자마다 각각 상이한 재생 환경에서의 스피커 환경을 알아야 하는 것과 동시에, 규격에 따른 위치 대비 차이를 보정하기 위한 렌더링 기술이 필요하다. 즉, 전송된 비트열을 디코딩 방법에 따라 디코딩하는 것으로 코덱의 역할이 끝나는 것이 아니라, 이를 사용자의 재생 환경에 맞게 최적화 변형하는 과정에 대한 일련의 기술이 요구된다.
도 5는 ITU-R 권고안에 따른 위치 및 임의의 위치에 5.1채널을 배치한 도면이다.
실제 거실 환경에 배치된 스피커(520)는 ITU-R 권고안(510) 대비 방향각과 거리가 모두 달라지게 되는 문제가 발생한다. 즉, 스피커의 높이, 방향이 권고안에 따른 스피커(510)와 상이하게 배치됨에 따라 변경된 스피커(520)의 위치에서 원래 신호를 그대로 재생할 경우 이상적인 3D 사운드 장면을 제공하기 어렵게 된다.
이와 같은 상황에서, 신호의 크기를 기준으로 두 스피커 사이의 음원의 방향 정보를 결정하는 진폭 패닝(Amplitude Panning)이나 3차원 공간상에서 3개의 스피커를 이용하여 음원의 방향을 결정하는데 널리 사용되는 VBAP(Vector-Based Amplitude Panning)를 이용하면 객체별로 전송된 객체 신호에 대해서는 상대적으로 편리하게 유연한 렌더링을 구현할 수 있다. 따라서, 채널 신호 대신 객체 신호를 전송하여 스피커가 달라지는 환경에서도 용이하게 3D 사운드 장면을 제공할 수 있게 된다.
도 6은 객체 신호 디코더 및 플렉서블 스피커 렌더링부가 결합된 연결된 구조를 도시한 도면이다.
도 5에서 설명한 바와 같이, 객체 신호를 이용할 경우 원하는 사운드 장면에 맞춰 객체를 음원으로 위치시키킬 수 있다는 장점이 있다. 이와 같은 장점이 반영된 객체 신호 디코더 및 플렉서블 렌더링부가 결합된 제 1 실시예(600) 및 제 2 실시예(601)를 설명하도록 한다.
객체 신호 디코더 및 플렉서블 스피커 렌더링부가 결합된 제 1 실시예(600)는 믹스부(620)가 객체 디코더부(610)로부터 객체 신호를 전달받고, 믹싱 행렬로 표현된 위치정보를 입력받아 채널 신호 형태로 출력한다. 즉, 사운드 장면에 대한 위치 정보를 출력 채널에 대응되는 스피커로부터의 상대적인 정보로 표현되는 것이다.
출력된 채널 신호는 플렉서블 스피커 렌더링부(630)를 통해 플렉서블 렌더링되어 출력된다. 이때, 실제 스피커의 개수와 위치가 정해진 위치에 존재하지 않는 경우 해당 스피커의 위치정보를 입력받아 플렉서블 렌더링을 수행할 수 있다.
이와 달리, 제 2 실시예(601)에서는 객체 디코더부(640)가 오디오 비트열을 입력받아 객체 신호를 디코딩하면, 플렉서블 스피커 믹싱부(650)가 이를 전달받아 플렉서블 렌더링을 수행한다. 이때, 행렬 업데이트부(660)는 믹싱 행렬 및 스피커의 위치정보를 반영한 행렬을 플렉서블 스피커 믹싱부(650)에 전달함으로써 플렉서블 렌더링 수행시 이를 반영하게 된다.
제 1 실시예(600)와 같이 채널 신호를 다시 다른 형태의 채널 신호로 렌더링하는 것은 제 2 실시예(601)와 같이 객체를 최종 채널에 직접 렌더링하는 경우보다 구현이 어렵다. 이와 관련하여 아래에서 구체적으로 설명하도록 한다.
채널 신호가 입력으로 전송된 경우, 해당 채널에 대응되는 스피커의 위치가 임의의 위치로 변경되면 객체의 경우 같은 패닝 기법을 이용하여 구현되기 어려우므로 별도의 채널 매핑 프로세스가 필요하다. 이와 더불어, 객체 신호와 채널 신호에 대한 렌더링시 필요한 과정과 해결 방법이 다르기 때문에 객체 신호와 채널 신호가 동시에 전송되어 두 신호를 믹스한 형태의 사운드 장면을 연출하고자 하는 경우 공간의 부정합에 의한 왜곡이 발생하기 쉬운 문제가 발생한다.
이와 같은 문제를 해결하기 위하여 객체에 대한 유연한 렌더링을 별도로 수행하지 않고 채널 신호에 믹스를 먼저 수행한 후, 채널 신호에 대한 유연한 렌더링을 수행하도록 한다. 이때, HRTF(Head Related Transfer Function)을 이용한 렌더링 등도 위와 같은 방법과 마찬가지로 구현되는 것이 바람직하다.
이하에서는 도 7 내지 도 10을 참조하여 본 발명에 따른 오디오 신호 처리 방법에 대하여 구체적으로 설명하도록 한다.
도 7은 본 발명의 일 실시예에 따른 오디오 신호 처리 방법이 적용된 오디오 신호 처리 장치(700)의 블록도이다.
본 발명의 일 실시예에 따른 오디오 신호 처리 장치(700)는 오디오 비트열 수신부(710), 스피커 위치 정보 입력부(720), 스피커 위치 설정부(730), 가상 스피커 생성부(740), 렌더링부(750) 및 다운믹스부(760)를 포함한다.
오디오 비트열 수신부(710)는 오디오 비트열을 수신한다. 이때, 오디오 비트열에는 채널 신호를 포함하며, 채널 신호는 부재 스피커에 대응하는 채널 신호를 포함할 수 있다. 이때 채널 신호는 22.2 채널 신호일 수 있다.
스피커 위치 정보 입력부(720)는 기 설치된 스피커의 위치 정보를 입력받고, 스피커 위치 설정부(730)는 부재 스피커의 위치 중 타겟 스피커의 위치를 설정한다.
가상 스피커 생성부(740)는 기 설치된 스피커의 위치 정보에 기초하여 타겟 스피커와 동일 레이어 상의 부재 스피커 위치에 가상 스피커를 생성하여 배치한다.
렌더링부(750)는 배치된 가상 스피커에 기초하여 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링하고, 다운믹스부(760)는 렌더링된 채널 신호를 기 설치된 스피커에 대응하는 채널신호에 다운믹스한다.
이하에서는 도 8을 참조하여 오디오 신호 처리 장치(700)에서의 오디오 신호 처리 방법에 대하여 구체적으로 설명하도록 한다.
도 8은 본 발명의 일 실시예에 따른 오디오 신호 처리 방법의 순서도이다.
본 발명에 따른 오디오 신호 처리 방법은 먼저, 채널 신호가 포함된 오디오 비트열을 수신한다(S110). 이때, 채널 신호는 부재 스피커에 대응하는 채널 신호를 포함하며, 채널 신호는 22.2 채널 신호일 수 있다.
다음으로, 기 설치된 복수의 스피커의 위치 정보를 입력받고(S120), 부재 스피커 중 타겟 스피커의 위치를 설정한다(S130).
다음으로, 기 설치된 스피커의 위치 정보에 기초하여 타겟 스피커와 동일 레이어 상의 부재 스피커 위치에 가상 스피커를 배치한다(S140). 이때, 가상 스피커는 기 설치된 스피커와 동일 수직선 상에 위치한 부재 스피커의 위치에 배치될 수 있다. 예를 들어, 최상위 레이어에 부재 스피커가 존재하는 경우, 중간 레이어에 위치한 스피커와 동일 수직선 상에 위치한 최상위 레이어의 부재 스피커 위치에 가상 스피커가 배치될 수 있다. 이와 같은 가상 스피커는 부재 스피커 각각의 위치에 하나 이상 배치될 수 있다.
다음으로, 배치된 가상 스피커에 기초하여 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링한다(S150). 이때, 타겟 스피커와 동일 레이어 상에 기 설치된 스피커와 가상 스피커에 기초하여, 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링할 수 있다. 예를 들어, 최상위 레이어에 2개의 기 설치된 스피커가 존재하고, 2개의 가상 스피커가 배치된 경우, 타겟 스피커의 위치에 대응하는 채널 신호를 4개의 스피커에 렌더링 할 수 있다.
다음으로 기 설치된 스피커에 대응하는 채널 신호에 렌더링된 채널 신호를 다운믹스한다(S160). 이때, 타겟 스피커와 동일 레이어 상에 기 설치된 스피커에 렌더링된 채널 신호를 합성하는 단계를 더 포함할 수 있다. 이와 같이 타겟 스피커와 동일 레이어 상에 기 설치된 스피커에 할당된 채널 신호와, 렌더링된 채널 신호를 합성함으로써 기 설치된 스피커에서 예외 채널 신호에 해당하는 채널 신호를 출력할 수 있게 된다.
이와 더불어, 렌더링된 채널 신호를 다운믹스할 때, 기 저장된 머리 전달 함수(Head Related Transfer Function, HRTF)에 기초하여 다운믹스할 수 있다. 이때, 머리 전달 함수는 사용자별로 서로 다른 데이터 집합에 따른 개별적인 머리 전달 함수를 사용할 수 있으며, 사용되는 머리 전달 함수에 따라 각각 방위각별로 서로 다른 다운믹스가 수행될 수 있다.
한편, 타겟 스피커의 위치를 설정하는 단계는 기 설치된 스피커의 최상위 레이어 상에 타겟 스피커를 설정할 수 있다. 예를 들어, 입력된 채널 신호가 22.2 채널인 경우이고, 22.2채널에 해당하는 스피커를 모두 갖추고 있지 않은 스피커 환경에 있어서, 최상위 레이어의 정중앙 위치에 스피커가 부재한 경우 이를 타겟 스피커로 설정할 수 있다.
이 경우, 가상 스피커는 중간 레이어 상에 위치한 기 설치된 스피커와 동일 수직선 상에 위치하는 최상위 레이어 상의 부재 스피커 위치에 배치할 수 있다. 이에 따라, 최상위 레이어 상에 기 설치된 스피커 및 가상 스피커에 기초하여, 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링할 수 있다.
그리고 렌더링된 채널 신호는 최상위 레이어 상에 기 설치된 스피커의 채널 신호와 합성하고, 가상 스피커와 동일 수직선 상에 위치한 중간 레이어 상의 기 설치된 스피커에 대응하는 채널 신호에 가상 스피커에 대응되는 렌더링된 채널 신호를 다운믹스할 수 있다.
이하에서는, 도 9 내지 도 10을 참조하여 본 발명의 일 실시예에 따른 예외 채널 신호를 렌더링하는 방법에 대하여 구체적으로 설명하도록 한다.
도 9 및 도 10은 예외 채널 신호를 렌더링하는 방법을 설명하기 위한 도면이다.
멀티채널 오디오 시스템에서 청취자의 머리 위의 스피커인 TpC(Top Center) 채널은 흔히 신의 음성(Voice of God)이라 불린다. 이 채널이 신의 음성이라고 불리는 이유는 이 채널을 사용함으로써 얻을 수 있는 가장 극적인 상황이 신의 음성이 하늘에서 들리는 상황이기 때문이다. 예를 들어, 머리 바로 위에서 물체가 떨어지는 상황이나, 머리 바로 위에서 폭죽놀이가 진행되는 상황, 매우 높은 빌딩의 옥상에서 한 사람이 소리치는 상황이나, 혹은 비행기가 전방에서 시청자의 머리 위를 지나 후면으로 사라지는 장면처럼, TpC 채널은 다양한 장면(scene)에서 매우 필수적인 채널이라 할 수 있다. 이와 같이, TpC 채널을 사용함으로써 극적인 상황들에서 기존의 오디오 시스템이 제공하지 못했던 현실감있는 음장을 사용자에게 제공할 수 있다.
TpC 채널과 같은 예외 채널은 해당 위치에 스피커가 존재하지 않을 경우, 기존의 유연한 렌더링과 같은 방식으로 효과적으로 재생할 수 없게 된다. 따라서, 예외 채널이 부재한 경우 적은 수의 출력 채널을 통하여 이를 효과적으로 재생하는 방법이 필요하다.
한편, 멀티채널 컨텐츠를 그보다 적은 수의 출력 채널을 통해 재생하는 경우, 지금까지는 M-N 다운믹스 매트릭스(M: 입력 채널 수, N: 출력 채널 수)로 구현하는 것이 일반적이었다. 즉, 5.1 채널 컨텐츠를 스테레오 형태로 재생할 때, 주어진 수식에 의해 다운믹스를 수행하는 방식으로 구현된다. 이와 같은 다운믹스 구현 방법은 일반적으로 공간적 거리가 가까운 스피커들에 상대적인 다운믹스 가중치를 적용하여 합성하는 방법으로 수행한다.
예를 들어 도 2를 참조하면, 최상위 레이어의 TpFc 채널은 중간 레이어의 Fc(또는 FRc, FLc)로 다운믹스되어 합성될 수 있다. 즉, 이 스피커들(Fc, FRc, FLc)을 이용하여 가상의 TpFc를 생성함으로써 부재 스피커(TpFc)의 위치에 해당하는 소리를 재생할 수 있다.
그러나 TpC 채널 스피커의 경우 청취자를 기준으로 전후좌우의 방향성을 규정하기 모호하여 중간 레이어의 스피커들 중 이와 공간적으로 근접한 스피커 위치를 결정하기 어려운 문제가 있다. 이와 더불어, 비정형적인 스피커 배열 환경에서 TpC 채널 스피커에 할당된 신호를 다운믹스 렌더링하는 경우, 유연한 렌더링 기술과 연관하여 다운믹스 매트릭스의 형태를 유연하게 변화시키는 것이 효과적인 경우도 있다.
이에 따라, TpC 채널 스피커로 재생되는 음원이 VoG에 해당하는 객체로써, TpC 채널 스피커에서만 재생되는 객체이거나 TpC 채널 스피커를 중심으로 재생되는 객체라면 그에 맞게 다운믹스하는 것이 바람직하다. 그러나, 상위 레이어 전체에서 재생되는 객체의 일부이거나, TpFL의 위치에서 TpC를 통과하여 TpBR을 지나는 것처럼 비행기가 하늘을 지나가는 순간인 경우에는 그에 특화된 다운믹스 방법을 적용하는 것이 바람직하다.
이와 더불어, 스피커의 위치에 따라 소수의 제한된 숫자의 스피커를 이용해야만 하는 경우, 다양한 각도에서 음원을 위치시키기 위한 렌더링 방법이 고려되어야 한다.
한편, 사람이 음원의 높이를 인지하는 단서(elevation spectral cue)들이 존재하는, 이를 인위적으로 삽입함으로써 TpC 채널의 사운드 장면을 효과적으로 재현할 수 있다.
도 9를 참조하여 TpC 채널과 같이 예외 채널 신호가 다운믹스되는 과정을 설명하면 다음과 같다.
예외 채널 신호는 전송된 비트열의 특정 값 또는 신호의 특징을 분석하여 다운믹스될 수 있다. 예외 채널 신호의 실시예로써 위에서 설명한 바와 같이 청취자의 머리 위쪽에 존재하는 TpC 채널 신호를 들 수 있다. 이와 같은 TpC 채널 신호는 머리 위쪽에 정지되어 있거나 방향성이 모호한 앰비언트(ambient) 사운드의 경우 다수의 채널에 동일한 다운믹스 가중치를 적용할 수 있다. 이 경우, 기존의 일반적인 매트릭스 기반 다운믹서를 사용하여 TpC 채널 신호를 다운믹스할 수 있다.
이와 더불어, 이동성을 가지는 사운드 장면에서의 TpC 채널 신호는 앞에서 언급한 매트릭스 기반 다운믹서를 사용할 경우, 컨텐츠 제공자가 의도한 동적 사운드 장면은 보다 정적으로 전달될 수 있다. 이를 방지하기 위하여 채널 신호들을 분석하여 가변적 이득값을 가지는 다운믹스를 수행할 수 있다.
또한, 근방의 스피커만으로 원하는 사운드 효과를 충분히 얻을 수 없는 경우, 특정 N개의 스피커 출력 신호에 사람의 높이를 지각하는 스펙트럴 단서들을 사용할 수 있다.
이와 같은 세 가지 다운믹스 방법에 대하여 입력 비트열 정보를 이용하거나 입력 채널 신호들을 분석하여 어떤 방법을 사용할지 결정할 수 있다. 이렇게 선택된 다운믹스 방법에 따라 L, M 또는 N개의 채널 신호로 출력 신호가 결정되게 된다.
한편, 정중면(median plane)에서의 음상 정위는 수평면(horizontal plane)에서의 음상 정위와는 다른 양상을 가진다. 이러한 음상 정위의 부정확도를 측정하는 수치로는 정위 퍼짐(localization blur)이 있으며, 이는 특정 위치에서 음상의 위치가 구분이 가지 않는 범위를 각도로 나타낸 것이다.
일반적으로 정중면에서의 음성신호는 9도에서 17도에 해당하는 부정확도를 가지나, 수평면에서의 음성신호는 0.9도에서 1.5도의 부정확도를 갖는다. 이와 같이 정중면에서의 음상 정위는 매우 부정확하다는 것을 알 수 있다. 즉, 높은 고도를 가지는 음상의 경우 사람이 인지할 수 있는 정확도가 낮기 때문에 정교한 정위 방법보다는 매트릭스를 이용한 다운믹스가 효과적이다. 따라서, 위치가 크게 변하지 않는 음상의 경우 대칭적으로 스피커가 분포 되어있는 Top 채널들에 동등한 이득값을 분배함으로써 효과적으로 부재중인 TpC 채널을 복수 개의 채널로 업믹스 할 수 있다.
재생단의 채널 환경이 도 2의 구성에서 TpC채널을 제외하고 최상위 레이어는 동일하다고 가정하면, 최상위 레이어에 분배되는 채널 이득값은 동일한 값을 갖는다. 그러나 재생단에서 도 2와 같이 정형적인 채널 환경을 갖는 것이 어려운 것은 주지의 사실이다. 이에 따라, 비정형한 채널 환경에 있어서, 모든 채널에 일정 이득값을 배분할 경우 컨텐츠가 의도한 위치와 음상이 이루는 각도가 정위 퍼짐 수치보다 커질 수 있다. 이는 사용자로 하여금 잘못된 음상을 인지하게 할 수 있다. 이를 방지하기 위하여 비정형한 채널 환경에 있어서 이를 보상해주는 과정이 필요하다.
최상위 레이어에 위치하는 채널의 경우, 청자의 위치에서는 평면파로 도달한다고 가정할 수 있기 때문에 일정한 이득값을 설정하는 기존의 다운믹스 방법은 주변 채널을 이용하여 TpC 채널에서 발생하는 평면파를 재현한다 할 수 있다. 즉, 최상위 레이어를 포함하는 평면상에서 스피커들의 위치를 꼭지점으로 하는 다각형의 무게중심이 TpC채널의 위치와 같다. 따라서, 비정형적인 스피커 채널 환경의 경우 각 채널의 이득값은 이득값이 가중치로 부여된 각 채널의 최상위 레이어를 포함하는 평면 상에서의 2차원 위치벡터들의 무게중심 백터가 TpC채널 위치의 위치벡터와 같다는 수식으로 얻어질 수 있다.
그러나 이러한 수식적인 접근은 많은 연산량을 필요로 하며, 이후에 설명될 간략화된 방법에 비하여 성능 차이가 크지 않다. 간략화된 방법은 다음과 같다. 먼저, TpC 채널(820)을 중심으로 N개의 영역을 등각도로 나눈다. 등각도로 나눈 영역에는 동일한 이득값을 부여하고, 만일 영역 내에 2개 이상의 스피커가 위치할 경우 각 가중치의 제곱의 합이 상기 언급된 이득값과 같아지도록 설정한다. 즉, 상위 레이어를 포함하는 평면 상에 위치하는 스피커(810), TpC 채널 스피커(820), 상위 레이어를 포함하는 평면 밖에 위치하는 스피커(830)로 구성되는 스피커 배치를 갖는 다고 가정하고, 4개의 영역을 TpC채널(820)을 중심으로 90도의 등각도로 나누었을 때 각 영역에는 크기가 같으면서 제곱의 합이 1이 되도록 하는 이득값을 부여한다.
이 경우 4개의 영역으로 나뉘게 되므로 각 영역의 이득값은 0.5가 된다. 한 영역 상에 2개 이상의 스피커가 있는 경우 이 또한 제곱의 합이 영역의 이득값과 같아지도록 이득값을 설정한다. 따라서, 오른쪽 하단 영역(840)에 존재하는 2개의 스피커 출력의 이득값은 0.3536이 된다. 마지막으로 상위 레이어를 포함하는 평면 밖에 위치하는 스피커(830)의 경우 먼저 상위 레이어를 포함하는 평면에 투영시켰을 때의 이득값을 먼저 구하고, 평면과 스피커의 거리 차이를 이득값과 딜레이를 이용하여 보상하면 된다.
다음으로, 도 10을 참조하여 VoG와 같은 예외 채널을 렌더링하는 방법을 구체적으로 설명하도록 한다.
도 10은 7.1스피커 레이아웃을 나타내고 있다. 이와 같은 레이아웃을 가질 때, VoG가 포함된 채널 신호가 입력될 경우, 현재의 렌더링 방법에 따르면 최상위 레이어에 기 설치된 스피커(910)가 존재하는 TpFL과 TpFR로 VoG 채널 신호가 패닝된다. 이렇게 될 경우 청취자의 머리 위에서 제공될 소리가 전면 상단부에서 생성되는 불일치 현상이 발생하게 된다.
이에 대한 해결방안으로써, 본 발명은 가상 스피커(920)를 추가적으로 배치할 수 있다. 도 10과 같은 스피커 레이아웃 환경에서, 최상위 레이어에 중간 레이어에 존재하는 스피커의 방위각에 대응되는 스피커가 존재하지 않을 경우, 해당 위치에 가상 스피커(920)를 배치한다. 이에 따라 도 10의 경우 TpFC, TpBL, TpBR 에 가상 스피커(920)를 배치시킨다. 그 다음 가상 스피커(920)와 기 설치된 스피커(910)를 포함하여 5개의 최상위 레이어의 채널 스피커를 이용함으로써 렌더링을 수행할 수 있다.
이때, 렌더링 방법으로 최상위 레이어의 모든 스피커에 동일한 가중치 값을 갖도록 분배하거나, 상기 설명한 바와 같이 최상위 레이어의 영역별 가중치를 고려한 방법으로 구현할 수 있다.
최상위 레이어의 각 스피커로 분배된 신호에 대해, 기 설치된 스피커(910) 가 존재하는 경우, 기 설치된 스피커(910)에 위치한 기존 채널 신호에 렌더링된 채널 신호를 더해 재생을 한다. 이때, 가상 스피커(920)에 대응하는 채널 신호에 대해서는 각 방위각 포지션에 대응되는 중간 레이어의 스피커로 내리는 다운믹스를 수행한다.
이때, 다운믹스(또는, Top-to-Middle downmix)는 시간축에서의 단순 덧셈으로 구현할 수도 있으나, 청각 특성을 이용한 필터링 형태로 구현되는 것이 바람직하다. 또는, 일반화된 머리 전달 함수 혹은 제공된 개인화 된 머리 전달 함수를 이용하여 생성된 파라미터를 이용하여 구현할 수 있다.
일반화된 방법의 경우 파라미터는 결정이 되어 있고, 이때 파라미터는 특정 스펙트럼의 나치나 피크의 주파수 및 크기 정보 또는 특정 주파수의 양 이(inter-aural) 레벨차, 양 이 위상차가 될 수 있다. 따라서, 이와 같은 필터링은 현재 수행되는 신호의 영역이 QMF(Quadrature Mirror Filters) 도메인인 경우 QMF 도메인 필터링으로 구현되는 것이 바람직하다.
이에 대한 일실시예로서, 중간 레이어의 전면 중앙에 위치한 스피커에 최종적으로 재생되는 VoG 신호는 와 같은 값에 비례한 각 주파수 밴드 별 가중치 값으로 계산된다. 이때, CVoG는 VoG 원신호, K는 중간 레이어의 스피커 개수, cgain은 중간 레이어의 레이아웃 불일치에 따른 보상 가중치, 는 중간 레이어의 Front Center에 대응하는 머리 전달 함수, 는 최상위 레이어의 전면 중앙에 위치한 스피커 채널 신호에 대응하는 머리 전달 함수를 나타낸다.
한편, 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치 및 방법은 스피커의 재생 가능 범위를 벗어난 예외 객체 신호를 렌더링할 수 있는바, 이에 대하여 도 11 내지 도 14를 참조하여 설명하도록 한다.
도 11은 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치(1100)의 블록도이다.
본 발명에 따른 오디오 신호 처리 장치(1100)는 위치 정보 수신부(1110), 오디오 비트열 수신부(1120), 재생 가능 범위 정보 생성부(1130), 예외 객체 신호 판별부(1140) 및 렌더링부(1150)를 포함한다.
위치 정보 수신부(1110)는 복수의 스피커의 위치 정보를 수신한다. 이때, 스피커는 설치 규정에 따라 배치되어 있지 않을 수 있으며, 이 경우 사용자가 스피커의 위치 정보를 UI(User Interface)를 이용하여 직접 입력하거나, 주어진 보기 세트에서 선택하는 방법으로 입력할 수 있다. 또한, 원거리 위치 확인 기술 등 다양한 방법으로 스피커의 위치 정보를 입력할 수 있다.
오디오 비트열 수신부(1120)는 채널 신호 및 객체 신호를 포함하는 오디오 비트열을 수신한다. 이때, 객체 신호는 객체의 위치 정보를 함께 포함할 수 있다. 이와 같은 객체의 위치 정보에 기초하여 예외 객체 신호 판별부(1140)는 아래에서 설명하는 바와 같이 재생 가능 범위 정보와 비교하여 객체가 재생 가능 범위 밖에 위치한 예외 객체인지 여부를 판별하게 된다.
재생 가능 범위 정보 생성부(1130)는 위치 정보 수신부(1110)가 수신한 스피커의 위치 정보에 기초하여 스피커의 재생 가능 범위 정보를 생성한다. 스피커의 재생 가능 범위는 일반적으로 음원을 정위시키고자 하는 위치를 포함하는 가장 작은 크기의 삼각형을 구성할 수 있는 세 개의 스피커를 선택하는 방법인 VBAP(Vector Based Amplitude Panning)에 기초하여, 각각의 스피커를 연결한 선으로 구성될 수 있다.
일반적으로 스피커의 재생 가능 범위는 5.1 스피커 셋업의 경우 사용자의 귀높이에서의 좌우로 360도 평면상의 한정된 위치만을 포함하는 범위일 수 있다. 이와 달리, 빈틈없이 사용자 주변의 모든 위치에 음원을 정위시킬 수 있는 스피커 구성이 있는 경우 최대 재생 가능 범위를 가질 수 있다.
예외 객체 신호 판별부(1140)는 객체 신호가 스피커의 재생 가능 범위 내에 포함되지 않은 예외 객체에 해당하는지 여부를 판별한다.
렌더링부(1150)는 예외 객체 여부 판별 결과에 기초하여 객체 신호를 렌더링한다. 이때, 렌더링부(1150)는 예외 객체가 아닌 것으로 판별된 경우, 재생 가능 범위 내에 포함된 객체에 대응하는 객체 신호들을 일반적인 렌더링 방법에 따라 렌더링 할 수 있다. 즉, 렌더링부(1150)는 객체 신호를 복수의 스피커의 위치 정보에 기초하여 렌더링 할 수 있다.
이와 달리, 렌더링부(1150)는 객체 신호에 대응하는 객체가 스피커의 재생 가능 범위 내에 포함되지 않은 예외 객체로 판별된 경우 기존의 렌더링 방법과는 다른 방법으로 렌더링을 수행한다.
이하에서는, 도 12 및 도 13을 참조하여 본 발명의 다른 실시예에 따른 예외 객체에 대한 렌더링 방법의 제 1 실시예 및 제 2 실시예에 대하여 설명하도록 한다.
도 12는 본 발명의 제 1 실시예에 따른 예외 객체 렌더링 방법을 설명하기 위한 도면이다.
본 발명의 다른 실시예에 따른 렌더링부(1150)는 가상 스피커 생성부(1151), 진폭 패닝부(1153) 및 투영부(1155)를 더 포함할 수 있다.
가상 스피커 생성부(1151)는 복수의 스피커 각각을 기준으로 예외 객체와 동일한 높이를 가지는 복수의 가상 스피커를 생성할 수 있다. 예를 들어, 예외 객체 ‘S1’에 대한 객체 신호를 실제 스피커인 좌(L), 우(R) 스피커에서 재생시키기 위하여, 먼저 예외 객체 ‘S1’과 동일한 높이를 가지는 복수의 가상 스피커를 생성할 수 있다. 이때, 가상 스피커는 실제 스피커인 좌, 우 스피커와 각각 동일 수직선 상에 위치하게 된다. 스피커가 좌, 우 두 개의 경우가 아니라 실제 스피커가 3개인 경우, 실제 스피커 3개가 구성하는 평면과 평행인 평면 상에 가상 스피커를 생성할 수 있다.
진폭 패닝부(1153)는 예외 객체 신호를 복수의 가상 스피커 각각에 진폭 패닝할 수 있다. 도 12와 같이, 예외 객체 ‘S1’을 각각 좌, 우 실제 스피커에 대응하는 좌, 우 가상 스피커에 각각 진폭 패닝할 수 있다.
투영부(1155)는 진폭 패닝된 예외 객체 신호를 복수의 스피커 각각에 투영시킬 수 있다. 즉, 가상 스피커에 진폭 패닝된 예외 객체 신호를 가상 스피커와 동일 수직선 상에 있는 실제 스피커 상에 투영시킨다. 이때, 가상 스피커 ‘VL1’에서 실제 스피커로 투영시키기 위한 경우와, 가상 스피커 ‘VL2’에서 실제 스피커로 투영시키기 위한 경우는 서로 방위각이 다르기 때문에 각각에 적용되는 필터는 서로 다른 필터일 수 있다.
한편, 가상 스피커 생성부(1151)를 통해 재생시 누적되는 객체의 개수를 측정하여 측정된 객체의 개수가 기 설정된 임계값 이상인 경우, 제 1 실시예에 따른 렌더링 방법에 따라 렌더링을 수행할 수 있다. 즉, 가상 스피커에 대응되는 예외 객체의 수가 많은 경우 가상 스피커를 이용하여 렌더링하는 것이 연산량과 주변 객체와의 간섭 정도 측면에서 유리하므로, 임계값 이상의 객체가 측정되는 경우 제 1 실시예에 따른 렌더링 방법에 따라 렌더링을 수행할 수 있다. 다만, 가상 스피커에 대응하는 예외 객체의 수가 임계값 이상의 경우라 하더라도 반드시 제 1실시예로만 실시되어야 하는 것은 아니며, 아래에서 설명하는 제 2 실시예에 따라 렌더링 될 수도 있다.
도 13은 본 발명의 제 2 실시예에 따른 예외 객체 렌더링 방법을 설명하기 위한 도면이다.
도 12와 달리, 본 발명의 다른 실시예에 따른 렌더링부(1150)는 투영부(1155) 및 진폭 패닝부(1153)를 더 포함할 수 있다.
투영부(1155)는 복수의 스피커가 위치한 평면 상으로 예외 객체를 투영시킬 수 있다. 즉, 예외 객체 ‘S1’을 복수의 스피커와 동일 평면 상인 ‘P’의 위치에 투영시켜 스피커의 재생 가능 범위 내에 위치시킨다.
진폭 패닝부(1153)는 예외 객체에 대응하는 예외 객체 신호를 복수의 스피커 각각에 진폭 패닝할 수 있다. 즉, ‘P’에 위치한 예외 객체에 대한 예외 객체 신호를 좌(L), 우(R) 실제 스피커로 각각 진폭 패닝할 수 있다.
한편, 제 2 실시예에 따른 렌더링부(1150)는 가상 스피커 생성부(1151)를 더 포함할 수 있다. 가상 스피커 생성부(1151)는 복수의 스피커 각각을 기준으로 예외 객체와 동일한 높이를 가지는 복수의 가상 스피커를 생성할 수 있다. 이와 같은 가상 스피커 생성부(1151)를 통해 재생시 누적되는 객체의 개수가 기 설정된 임계값 미만인 경우 제 2 실시예에 따른 예외 객체 렌더링 방법으로 렌더링할 수 있다.
다만, 도 12에서 설명한 바와 같이, 가상 스피커에 대응하는 예외 객체의 수가 임계값 미만의 경우라 하더라도 반드시 제 2실시예로만 실시되어야 하는 것은 아니며, 제 1 실시예에 따라서도 렌더링 할 수 있다.
이와 같이, 본 발명에 따른 렌더링부(1150)는 도 12 및 도 13에 도시된 바와 같이 객체가 예외 객체에 해당하는 경우, 예외 객체를 연산량을 고려하여 두 가지 실시예에 따라 렌더링 할 수 있다.
이와 더불어, 도 12 및 도 13에 도시된 바처럼 동일 평면 상에 스피커가 위치하고, 서로 다른 높이에 위치한 예외 객체 ‘S1’, ‘S2’가 존재하는 경우, 기존의 렌더링 방법에 따르면 ‘S1’과 ‘S2’를 구별하지 못하는 문제가 발생한다. 즉, 좌(L), 우(R) 실제 스피커로 재생할 경우 높이 단서는 사라지고 ‘P’의 위치에 있는 객체와 동일한 소리를 제공하게 된다. 본 발명의 일 실시예에 따른 렌더링부(1150)는 이와 같이 예외 객체가 서로 다른 높이를 가지는 경우, 렌더링 과정을 통해 각각의 높이를 구별하여 실제 스피커에 소리를 재생시킬 수 있다.
한편, 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치(1100)에 적용된 렌더링 방법은 객체 대신 예외 스피커가 존재하는 경우, 예외 스피커의 위치를 ‘S1’ 또는 ‘S2’로 가정할 경우에도 동일한 방법에 의해 주어진 실제 스피커를 이용하여 렌더링을 할 수 있다.
이하에서는 도 14를 참조하여, 오디오 신호 처리 장치(1100)에서의 오디오 신호 처리 방법에 대하여 구체적으로 설명하도록 한다.
도 14는 본 발명의 다른 실시예에 따른 오디오 신호 처리 방법의 순서도이다.
본 발명의 다른 실시예에 따른 오디오 신호 처리 장치(1100)에서의 오디오 신호 처리 방법은 먼저, 스피커의 위치 정보에 기초하여 스피커의 재생 가능 범위 정보를 생성한다(S210). 재생 가능 범위 정보와 관련하여서는 도 11에서 설명하였으므로 구체적인 설명은 생략하도록 한다.
다음으로, 객체 신호가 재생 가능 범위에 포함되지 않는 예외 객체 신호에 해당하는지 여부를 판별하고(S220), 판별 결과에 기초하여 객체 신호를 렌더링한다(S230). 이때, 객체 신호를 렌더링하는 단계는, 객체 신호가 예외 객체 신호로 판별된 경우 복수의 스피커 각각을 기준으로 예외 객체와 동일한 높이를 가지는 복수의 가상 스피커를 생성한다. 그리고 복수의 가상 스피커를 통해 재생시 누적되는 객체의 개수와 미리 설정된 임계값을 비교하고, 그 결과에 기초하여 예외 객체 신호를 렌더링한다.
이때, 가상 스피커에 누적되는 객체의 개수가 임계값 이상인 경우, 예외 객체 신호를 복수의 가상 스피커 각각에 진폭 패닝하고, 진폭 패닝된 예외 객체 신호를 복수의 스피커 각각에 투영시킬 수 있다.
이와 달리, 가상 스피커에 누적되는 객체의 개수가 임계값 미만인 경우, 복수의 스피커가 위치한 평면 상으로 예외 객체를 투영시키고, 투영된 예외 객체에 대응하는 예외 객체 신호를 복수의 스피커 각각에 진폭 패닝할 수 있다.
즉, 가상 스피커에 누적되는 객체의 개수가 임계값 이상인 경우는 연산량이 많으므로 가상 스피커를 이용하여 예외 객체를 렌더링하고, 임계값 이하인 경우는 예외 객체를 투영시킨 후, 진폭 패닝하여 소리를 재생하게 된다.
다만, 가상 스피커에 대응하는 예외 객체의 수가 임계값 이상의 경우라 하더라도 반드시 가상 스피커에 진폭 패닝한 후 투영하는 단계를 통해 실시되어야만 하는 것은 아니고, 가상 스피커를 이용하지 않고도 실시될 수 있다. 또한, 임계값 미만인 경우라 하더라도 가상 스피커를 이용하여 실시될 수도 있다.
한편, 객체 신호가 예외 객체 신호가 아닌 것으로 판별된 경우, 즉 스피커 재생 가능 범위 내에 포함된 객체의 경우 기존 렌더링 방식에 의하여 렌더링 할 수 있다. 이 경우, 객체 신호를 복수의 스피커의 위치 정보에 기초하여 렌더링 할 수 있다.
이와 더불어, 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치(1100)에서의 오디오 신호 처리 방법은 복수의 스피커에 대한 위치 정보를 취득할 수 있다. 이때, 스피커는 규정된 위치가 아닌 임의의 위치에 배치될 수 있으며, 이 경우 사용자는 스피커의 위치 정보를 UI를 이용하여 입력하거나, 주어진 보기 세트에서 선택함으로써 위치 정보를 입력할 수 있다. 또는, 오디오 신호 처리 장치(1100)에 장착된 스피커 위치 파악 모듈에 의해 위치 정보를 취득할 수 있다. 스피커 위치 파악 모듈은 이를테면 각 스피커별로 장착된 적외선 센서, 초음파 센서 등을 이용한 측위 방법을 이용하거나, 카메라를 이용한 위치 파악 방법 등이 사용될 수 있다.
또한, 채널 신호 및 객체 신호를 포함하는 오디오 비트열을 수신하는 단계를 더 포함할 수 있으며 이때, 수신되는 객체 신호에는 객체의 위치 정보가 포함되어 있을 수 있다. 이와 같은 위치 정보에 기초하여 객체가 스피커의 재생 가능 범위 내에 포함되는지 여부를 판별할 수 있게 된다. 한편, 도 1 내지 도 14에서 설명한 본 발명예에 따른 오디오 신호 처리 장치 및 방법은 도 15에 도시된 오디오 재생 장치(1)에 의해 구현될 수 있는바, 이하에서 설명하도록 한다.
도 15는 본 발명에 따른 오디오 신호 처리 방법이 구현된 장치의 일 예시를 도시한 도면이다.
본 발명에 따른 오디오 재생 장치(1)는 유무선 통신부(10), 사용자 인증부(20), 입력부(30), 신호 코딩부(40), 제어부(50) 및 출력부(60)를 포함할 수 있다.
유무선 통신부(10)는 유무선 통신 방식을 통해서 오디오 비트열을 수신한다. 유무선 통신부(10)는 적외선 통신부, 블루투스부, 무선랜 통신부와 같은 구성을 포함할 수 있으며, 기타 여러가지 통신 방법으로 오디오 비트열을 수신할 수 있다.
사용자 인증부(20)는 사용자 정보를 입력 받아 사용자 인증을 수행한다. 이때, 사용자 인증부(20)는 지문 인식부, 홍채 인식부, 안면 인식부, 음성 인식부 중 하나 이상을 포함할 수 있다. 즉, 지문, 홍채 정보, 얼굴 윤곽 정보, 음성 정보를 입력받아 사용자 정보로 변환하고, 기 등록된 사용자 정보와의 매칭 여부를 판단함으로써 사용자 인증을 수행할 수 있다.
입력부(30)는 사용자가 여러 종류의 명령을 입력하기 위한 입력 장치로서, 키패드부, 터치패드부, 리모컨부 중 하나 이상을 포함할 수 있다.
신호 코딩부(40)는 유무선 통신부(10)를 통해 수신된 오디오 신호, 비디오 신호 또는 이들이 조합된 신호에 대하여 인코딩 또는 디코딩을 수행하고, 시간 도메인의 오디오 신호를 출력할 수 있다. 신호 코딩부(40)는 오디오 신호 처리 장치를 포함할 수 있으며, 오디오 신호 처리 장치에는 본 발명에 따른 오디오 신호 처리 방법이 적용될 수 있다.
제어부(50)는 입력 장치들로부터 입력 신호를 수신하고, 신호 코딩부(40)와 출력부(60)의 모든 프로세스를 제어한다. 출력부(60)는 신호 코딩부(40)에 의해 생성된 출력 신호 등이 출력되며, 스피커부, 디스플레이부와 같은 구성요소를 포함할 수 있다. 이때, 출력 신호가 오디오 신호일 경우 출력 신호는 스피커로 출력되고, 비디오 신호일 경우 디스플레이를 통해 출력될 수 있다.
참고로, 본 발명의 실시예에 따른 도 4, 도 6 내지 도 9, 도 11 및 도 15에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 구성 요소를 의미하며, 소정의 역할들을 수행한다.
그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.
구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.
한편, 본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
Claims (19)
- 오디오 신호 처리 장치에서의 오디오 신호 처리 방법에 있어서,채널 신호를 수신하는 단계,기 설치된 복수의 스피커의 위치 정보를 입력받는 단계,부재 스피커 위치 중 타겟 스피커의 위치를 설정하는 단계,상기 기 설치된 스피커의 위치 정보에 기초하여 상기 타겟 스피커와 동일 레이어 상의 부재 스피커 위치에 가상 스피커를 배치하는 단계,상기 배치된 가상 스피커에 기초하여 상기 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링하는 단계 및상기 기 설치된 스피커에 대응하는 채널 신호에 상기 렌더링된 채널 신호를 다운믹스하는 단계를 포함하되,상기 채널 신호는 부재 스피커에 대응하는 채널 신호를 포함하는 것인 오디오 신호 처리 방법.
- 제 1 항에 있어서,상기 렌더링하는 단계는,상기 타겟 스피커와 동일 레이어 상에 기 설치된 스피커와 상기 배치된 가상 스피커에 기초하여, 상기 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링하는 것인 오디오 신호 처리 방법.
- 제 2 항에 있어서,상기 다운믹스하는 단계는,상기 타겟 스피커와 동일 레이어 상에 기 설치된 스피커에 상기 렌더링된 채널 신호를 합성하는 단계를 더 포함하는 오디오 신호 처리 방법.
- 제 1 항에 있어서,상기 가상 스피커는 상기 기 설치된 스피커와 동일 수직선 상에 위치한 부재 스피커의 위치에 배치되는 것인 오디오 신호 처리 방법.
- 제 1 항에 있어서,상기 부재 스피커의 위치 중 타겟 스피커의 위치를 설정하는 단계는,상기 기 설치된 스피커의 최상위 레이어 상에 상기 타겟 스피커를 설정하되,상기 채널 신호는 22.2 채널 신호인 것인 오디오 신호 처리 방법.
- 제 5 항에 있어서,상기 가상 스피커를 배치하는 단계는,중간 레이어 상에 위치한 기 설치된 스피커와 동일 수직선 상에 위치한 최상위 레이어 상의 부재 스피커 위치에 가상 스피커를 배치하는 것인 오디오 신호 처리 방법.
- 제 5 항에 있어서,상기 렌더링 하는 단계는,상기 최상위 레이어 상에 기 설치된 스피커와 상기 가상 스피커에 기초하여, 상기 타겟 스피커의 위치에 대응하는 채널 신호를 렌더링하고,상기 다운믹스하는 단계는,상기 최상위 레이어 상의 기 설치된 스피커 채널 신호에 상기 렌더링된 채널 신호를 합성하며,상기 가상 스피커와 동일 수직선 상에 위치한 중간 레이어 상의 기 설치된 스피커에 대응하는 채널 신호에 상기 가상 스피커에 대응되는 렌더링된 채널 신호를 다운믹스하는 것인 오디오 신호 처리 방법.
- 제 1 항에 있어서,상기 렌더링된 채널 신호를 다운믹스하는 단계는,기 저장된 머리 전달 함수에 기초하여 다운믹스하는 것인 오디오 신호 처리 방법.
- 오디오 신호 처리 장치에서의 오디오 신호 처리 방법에 있어서,기 설치된 복수의 스피커의 위치 정보에 기초하여 상기 스피커의 재생 가능 범위 정보를 생성하는 단계,수신한 객체 신호가 상기 재생 가능 범위에 포함되지 않는 예외 객체 신호에 해당하는지 여부를 판별하는 단계 및상기 판별 결과에 기초하여 상기 객체 신호를 렌더링하는 단계를 포함하되,상기 객체 신호를 렌더링 하는 단계는,상기 객체 신호가 예외 객체 신호로 판별된 경우 상기 복수의 스피커 각각을 기준으로 상기 예외 객체와 동일한 레이어 상에 복수의 가상 스피커를 생성하고,상기 복수의 가상 스피커를 통해 재생시 누적되는 객체의 개수와 미리 설정된 임계값과의 비교 결과에 기초하여 상기 예외 객체 신호를 렌더링하는 것인 오디오 신호 처리 방법.
- 제 9 항에 있어서,상기 객체 신호가 예외 객체 신호로 판별된 경우, 상기 객체 신호를 렌더링 하는 단계는,상기 예외 객체 신호를 상기 복수의 가상 스피커 각각에 진폭 패닝하는 단계 및상기 진폭 패닝된 예외 객체 신호를 상기 복수의 스피커 각각에 투영시키는 단계를 더 포함하는 오디오 신호 처리 방법.
- 제 9 항에 있어서,상기 객체 신호가 예외 객체 신호로 판별된 경우, 상기 객체 신호를 렌더링 하는 단계는,복수의 스피커가 위치한 평면상으로 상기 예외 객체를 투영시키는 단계 및상기 투영된 예외 객체에 대응하는 예외 객체 신호를 상기 복수의 스피커 각각에 진폭 패닝하는 단계를 더 포함하는 오디오 신호 처리 방법.
- 제 9 항에 있어서,상기 객체 신호가 예외 객체 신호가 아닌 것으로 판별된 경우, 상기 객체 신호를 렌더링 하는 단계는,상기 객체 신호를 상기 복수의 스피커의 위치 정보에 기초하여 렌더링하는 것인 오디오 신호 처리 방법.
- 제 9 항에 있어서,상기 복수의 스피커에 대한 위치 정보를 취득하는 단계를 더 포함하는 오디오 신호 처리 방법.
- 오디오 신호 처리 장치에 있어서,기 설치된 복수의 스피커의 위치 정보를 수신하는 위치 정보 수신부,채널 신호 및 객체 신호를 포함하는 오디오 비트열을 수신하는 오디오 비트열 수신부,상기 스피커의 위치 정보에 기초하여 상기 스피커의 재생 가능 범위 정보를 생성하는 재생 가능 범위 정보 생성부,상기 객체 신호가 상기 재생 가능 범위 내에 포함되지 않은 예외 객체인지 여부를 판별하는 예외 객체 신호 판별부 및상기 판별 결과에 기초하여 상기 객체 신호를 렌더링하는 렌더링부를 포함하는 오디오 신호 처리 장치.
- 제 14 항에 있어서,상기 렌더링부는,상기 복수의 스피커 각각을 기준으로 상기 예외 객체와 동일한 레이어 상에 복수의 가상 스피커를 생성하는 가상 스피커 생성부,상기 예외 객체 신호를 상기 복수의 가상 스피커 각각에 진폭 패닝하는 진폭 패닝부 및상기 진폭 패닝된 예외 객체 신호를 상기 복수의 스피커 각각에 투영 시키는 투영부를 더 포함하는 오디오 신호 처리 장치.
- 제 15 항에 있어서,상기 렌더링부는,상기 복수의 가상 스피커를 통해 재생시 누적되는 객체의 개수가 기 설정된 임계값 이상인 경우 상기 객체 신호를 렌더링하는 것인 오디오 신호 처리 장치.
- 제 14 항에 있어서,상기 렌더링부는,복수의 스피커가 위치한 평면상으로 상기 예외 객체를 투영시키는 투영부 및상기 투영된 예외 객체에 대응하는 예외 객체 신호를 상기 복수의 스피커 각각에 진폭 패닝하는 진폭 패닝부를 더 포함하는 오디오 신호 처리 장치.
- 제 17 항에 있어서,상기 렌더링부는,상기 복수의 스피커 각각을 기준으로 상기 예외 객체와 동일한 레이어 상에 복수의 가상 스피커를 생성하는 가상 스피커 생성부를 더 포함하되,상기 복수의 가상 스피커를 통해 재생시 누적되는 객체의 개수가 기 설정된 임계값 미만인 경우 상기 예외 객체 신호를 렌더링하는 것인 오디오 신호 처리 장치.
- 제 14 항에 있어서,상기 렌더링부는,상기 객체 신호가 예외 객체 신호가 아닌 것으로 판별된 경우, 상기 객체 신호를 상기 복수의 스피커의 위치 정보에 기초하여 렌더링하는 것인 오디오 신호 처리 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/125,407 US20170086005A1 (en) | 2014-03-25 | 2015-01-19 | System and method for processing audio signal |
CN201580014892.3A CN106105270A (zh) | 2014-03-25 | 2015-01-19 | 用于处理音频信号的系统和方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140034592A KR20150111114A (ko) | 2014-03-25 | 2014-03-25 | 오디오 신호 처리 방법 |
KR10-2014-0034592 | 2014-03-25 | ||
KR10-2014-0034594 | 2014-03-25 | ||
KR1020140034594A KR20150111116A (ko) | 2014-03-25 | 2014-03-25 | 오디오 신호 처리 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015147435A1 true WO2015147435A1 (ko) | 2015-10-01 |
Family
ID=54195902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2015/000505 WO2015147435A1 (ko) | 2014-03-25 | 2015-01-19 | 오디오 신호 처리 시스템 및 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20170086005A1 (ko) |
CN (1) | CN106105270A (ko) |
WO (1) | WO2015147435A1 (ko) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10327067B2 (en) * | 2015-05-08 | 2019-06-18 | Samsung Electronics Co., Ltd. | Three-dimensional sound reproduction method and device |
CN106774930A (zh) * | 2016-12-30 | 2017-05-31 | 中兴通讯股份有限公司 | 一种数据处理方法、装置及采集设备 |
JP7132027B2 (ja) * | 2017-08-16 | 2022-09-06 | 日本放送協会 | 音響処理装置及びプログラム |
US10397725B1 (en) | 2018-07-17 | 2019-08-27 | Hewlett-Packard Development Company, L.P. | Applying directionality to audio |
CN109151660B (zh) * | 2018-09-04 | 2020-02-28 | 音王电声股份有限公司 | 一种数字影院还音系统 |
US10575094B1 (en) * | 2018-12-13 | 2020-02-25 | Dts, Inc. | Combination of immersive and binaural sound |
CN110493702B (zh) * | 2019-08-13 | 2021-06-04 | 广州飞达音响股份有限公司 | 六面声影院还音系统 |
CN112153525B (zh) * | 2020-08-11 | 2022-09-16 | 广东声音科技有限公司 | 多扬声器全景音效的定位方法及系统 |
CN113852892B (zh) * | 2021-09-07 | 2023-02-28 | 歌尔科技有限公司 | 音频系统及其控制方法、装置 |
WO2024013009A1 (en) * | 2022-07-12 | 2024-01-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Delay processing in audio rendering |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090006106A1 (en) * | 2006-01-19 | 2009-01-01 | Lg Electronics Inc. | Method and Apparatus for Decoding a Signal |
US20100092014A1 (en) * | 2006-10-11 | 2010-04-15 | Fraunhofer-Geselischhaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a number of loudspeaker signals for a loudspeaker array which defines a reproduction space |
WO2012051535A2 (en) * | 2010-10-14 | 2012-04-19 | Texas Instruments Incorporated | Generation of 3d sound with adjustable source positioning |
EP2541547A1 (en) * | 2011-06-30 | 2013-01-02 | Thomson Licensing | Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2194527A3 (en) * | 2008-12-02 | 2013-09-25 | Electronics and Telecommunications Research Institute | Apparatus for generating and playing object based audio contents |
KR20110049068A (ko) * | 2009-11-04 | 2011-05-12 | 삼성전자주식회사 | 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법 |
US9736609B2 (en) * | 2013-02-07 | 2017-08-15 | Qualcomm Incorporated | Determining renderers for spherical harmonic coefficients |
KR102332632B1 (ko) * | 2013-03-28 | 2021-12-02 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링 |
EP2830045A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
-
2015
- 2015-01-19 US US15/125,407 patent/US20170086005A1/en not_active Abandoned
- 2015-01-19 CN CN201580014892.3A patent/CN106105270A/zh active Pending
- 2015-01-19 WO PCT/KR2015/000505 patent/WO2015147435A1/ko active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090006106A1 (en) * | 2006-01-19 | 2009-01-01 | Lg Electronics Inc. | Method and Apparatus for Decoding a Signal |
US20100092014A1 (en) * | 2006-10-11 | 2010-04-15 | Fraunhofer-Geselischhaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a number of loudspeaker signals for a loudspeaker array which defines a reproduction space |
WO2012051535A2 (en) * | 2010-10-14 | 2012-04-19 | Texas Instruments Incorporated | Generation of 3d sound with adjustable source positioning |
EP2541547A1 (en) * | 2011-06-30 | 2013-01-02 | Thomson Licensing | Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation |
Non-Patent Citations (1)
Title |
---|
"Multichannel sound technology in home and broadcasting applications", ITU-R, BS.2159-0, 18 May 2010 (2010-05-18), Retrieved from the Internet <URL:http://www.itu.int/pub/R-REP-BS.2159> * |
Also Published As
Publication number | Publication date |
---|---|
US20170086005A1 (en) | 2017-03-23 |
CN106105270A (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2015147435A1 (ko) | 오디오 신호 처리 시스템 및 방법 | |
WO2014175669A1 (ko) | 음상 정위를 위한 오디오 신호 처리 방법 | |
US7876904B2 (en) | Dynamic decoding of binaural audio signals | |
WO2014021588A1 (ko) | 오디오 신호 처리 방법 및 장치 | |
WO2018056780A1 (ko) | 바이노럴 오디오 신호 처리 방법 및 장치 | |
WO2015147533A2 (ko) | 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
WO2015156654A1 (ko) | 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
WO2019004524A1 (ko) | 6자유도 환경에서 오디오 재생 방법 및 오디오 재생 장치 | |
WO2018147701A1 (ko) | 오디오 신호 처리 방법 및 장치 | |
WO2016089180A1 (ko) | 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법 | |
WO2015147619A1 (ko) | 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
WO2021118107A1 (en) | Audio output apparatus and method of controlling thereof | |
KR20070042104A (ko) | 화상 표시 장치 및 방법, 및 프로그램 | |
WO2017209477A1 (ko) | 오디오 신호 처리 방법 및 장치 | |
Lee | Multichannel 3D microphone arrays: A review | |
KR20160001712A (ko) | 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
KR102148217B1 (ko) | 위치기반 오디오 신호처리 방법 | |
US20170289724A1 (en) | Rendering audio objects in a reproduction environment that includes surround and/or height speakers | |
WO2017126895A1 (ko) | 오디오 신호 처리 장치 및 처리 방법 | |
WO2015152661A1 (ko) | 오디오 오브젝트를 렌더링하는 방법 및 장치 | |
KR102638946B1 (ko) | 정보 처리 장치 및 정보 처리 방법, 그리고 정보 처리 시스템 | |
JP5331805B2 (ja) | コンテンツ再生装置およびコンテンツ再生方法 | |
WO2015147434A1 (ko) | 오디오 신호 처리 장치 및 방법 | |
WO2014021586A1 (ko) | 오디오 신호 처리 방법 및 장치 | |
WO2019013400A1 (ko) | 비디오 화면 줌에 연동되는 오디오 출력 방법 및 출력 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15769651 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 15125407 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 15769651 Country of ref document: EP Kind code of ref document: A1 |