WO2015147433A1 - Apparatus and method for processing audio signal - Google Patents

Apparatus and method for processing audio signal Download PDF

Info

Publication number
WO2015147433A1
WO2015147433A1 PCT/KR2015/000452 KR2015000452W WO2015147433A1 WO 2015147433 A1 WO2015147433 A1 WO 2015147433A1 KR 2015000452 W KR2015000452 W KR 2015000452W WO 2015147433 A1 WO2015147433 A1 WO 2015147433A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
renderer
channel
channel signal
rendering
Prior art date
Application number
PCT/KR2015/000452
Other languages
French (fr)
Korean (ko)
Inventor
오현오
곽진삼
손주형
Original Assignee
인텔렉추얼디스커버리 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020140034597A external-priority patent/KR20150111119A/en
Priority claimed from KR1020140034595A external-priority patent/KR20150111117A/en
Application filed by 인텔렉추얼디스커버리 주식회사 filed Critical 인텔렉추얼디스커버리 주식회사
Publication of WO2015147433A1 publication Critical patent/WO2015147433A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation

Definitions

  • the present invention relates to an audio signal processing apparatus and method.
  • 3D audio is a set of signal processing, transmission, encoding, and playback methods for providing a realistic sound in three-dimensional space by providing another axis corresponding to the height direction to a sound scene (2D) on a horizontal plane provided by conventional surround audio. Also known as technology.
  • a rendering technique is required in which a sound image is formed at a virtual position in which no speaker exists even if a larger number of speakers or a smaller number of speakers are used.
  • 3D audio is expected to be an audio solution for future Ultra High Definition Television (UHDTV) applications, including sound from vehicles evolving into a high quality infotainment space, as well as theater sound, personal 3DTV, tablets, smartphones and cloud games. It is expected to be applied in various fields.
  • Ultra High Definition Television UHDTV
  • a channel based signal may exist or an object based signal may exist in the form of a sound source provided to 3D audio.
  • MPEG-H 3D audio for processing channel-based signals and object-based signals has various problems due to the performance difference between the channel renderer and the object renderer, and the sound scene does not play as intended due to the performance difference.
  • the distortion of the sound source is generated. Therefore, there is a need to solve the problem caused by the performance difference between the channel renderer and the object renderer.
  • the sound bar is an advantageous method for playing an exception channel, but has a disadvantage in that sound quality is degraded when playing a basic channel signal. Accordingly, it may be more preferable to use an audio reproducing apparatus having a structure in which a separate speaker reproducing apparatus such as a sound bar and a basic speaker apparatus are merged. Therefore, there is a need for an MPEG-H decoding method suitable for such a usage environment.
  • Korean Patent Laid-Open Publication No. 2011-0002504 name of the invention: improved coding and parameter representation of multi-channel downmixed object coding
  • a technique for generating a, and generating object parameters to generate an encoded audio object signal is disclosed.
  • Korean Patent Publication No. 2011-0002504 name of the invention: improved coding and parameter representation of multi-channel downmixed object coding
  • a technique for generating and generating object parameters to generate an encoded audio object signal is disclosed.
  • the present invention has been made to solve the above-mentioned problems of the prior art, and in some embodiments of the present invention, when an exception object signal corresponding to an exception object exists, the exception object is synthesized by rendering the rendered exception object signal into a channel signal and rendering the exception object signal.
  • An audio signal processing apparatus and method capable of processing a signal are provided.
  • an audio signal processing apparatus that can render the input audio bit string signal in the internal renderer and the external renderer, respectively, and simultaneously play them through a separate loudspeaker device such as a general loudspeaker and a headphone or sound bar. And methods.
  • the audio signal processing apparatus is an audio bit including a speaker information input unit, a channel signal and / or an object signal for receiving the user's usable speaker information
  • a receiver for receiving a column signal, a decoder for decoding the channel signal or an object signal included in the audio bit string signal, and an object discriminating unit for determining whether an object corresponding to the object signal is located in the usable speaker area
  • a renderer including a channel renderer and an object renderer for rendering the decoded channel signal and the decoded object signal, respectively, and a rendering setting unit configured to set a rendering method based on the determination result;
  • a synthesis unit for synthesizing the rendered object signals It should.
  • an audio signal processing method in an audio signal processing apparatus includes decoding a channel signal or an object signal from a received audio bit string, rendering the decoded channel signal or object signal; Synthesizing the rendered channel signal and the object signal.
  • the rendering may include: rendering the decoded channel signal, synthesizing the rendered channel signal and the rendered object signal, and synthesizing the rendered object signal with the channel signal;
  • one of the second methods of rendering the channel signal is not limited to rendering the channel signal.
  • an audio signal processing apparatus includes an internal renderer and an external renderer for rendering a decoded channel signal or a decoded object signal, and the decoded channel signal or object signal to the internal renderer and the external renderer.
  • the channel signal or the object signal rendered through the internal renderer or the external renderer are reproduced through separate playback units.
  • the audio signal processing method in the audio signal processing apparatus comprises the steps of: distributing at least one channel signal or object signal of the decoded channel signal or the decoded object signal to the internal renderer and the external renderer, respectively; Rendering channel signals or object signals distributed to the internal renderer and the external renderer, respectively, and reproducing the rendered channel signals or object signals.
  • the distributing step when the decoded channel signal or object signal is out of the usable speaker area, the decoded channel signal or object signal is distributed to the external renderer.
  • 1 is a view for explaining a viewing angle according to an image size at the same viewing distance.
  • FIG. 2 is a layout diagram of a 22.2 channel speaker as an example of a multi-channel audio environment.
  • FIG. 3 is a conceptual diagram illustrating positions of sound objects constituting a three-dimensional sound scene in a listening space.
  • FIG. 4 is a diagram illustrating the overall structure of a 3D audio decoder and a renderer including a channel or an object renderer.
  • 5 is a diagram in which 5.1 channels are arranged at positions and arbitrary positions according to the ITU-R Recommendation.
  • FIG. 6 is a diagram illustrating a coupled structure in which an object signal decoder and a flexible speaker renderer are combined.
  • FIG. 7 is a block diagram of an audio signal processing apparatus according to an embodiment of the present invention.
  • FIG. 8 is a diagram illustrating a process of rendering a channel signal or an object signal in an audio signal processing apparatus according to an embodiment of the present invention.
  • FIG. 9 is a flowchart of an audio signal processing method according to an embodiment of the present invention.
  • FIG. 10 is a block diagram of an audio signal processing apparatus according to another embodiment of the present invention.
  • FIG. 11 is a flowchart of a method of reproducing an audio signal according to another embodiment of the present invention.
  • FIG. 12 is a diagram illustrating an example of a device in which an audio signal processing method according to the present invention is implemented.
  • FIGS. 1 to 6 An environment for implementing an audio signal processing apparatus and an audio signal processing method according to the present invention will be described with reference to FIGS. 1 to 6.
  • FIG. 1 illustrates a viewing angle according to an image size (eg, UHDTV and HDTV) at the same viewing distance.
  • an image size eg, UHDTV and HDTV
  • the size of display images is becoming larger in accordance with consumer demand.
  • the UHDTV (7680 * 4320 pixel image, 110) is an image about 16 times larger than the HDTV (1920 * 1080 pixel image, 120).
  • the viewing angle may be about 30 degrees.
  • the UHDTV 110 is installed at the same viewing distance, the viewing angle reaches about 100 degrees.
  • a multi-channel audio environment is required, as well as a personal 3DTV, a smartphone TV, a 22.2 channel audio program, a car, a 3D video, a remote presence room, and a cloud-based game.
  • FIG. 2 is a layout diagram of a 22.2 channel speaker as an example of a multi-channel audio environment.
  • the 22.2 channel may be an example of a multichannel audio environment for enhancing the sound field, and the present invention is not limited to a specific number of channels or a specific speaker layout.
  • a total of nine channels may be arranged in the top layer 210.
  • the middle layer 220 has five speakers in front, two in the middle position, and three in the surround position, for a total of 10 speakers.
  • three channels are disposed on the front surface, and two LFE channels 240 are provided.
  • FIG. 3 is a conceptual diagram illustrating positions of sound objects constituting a three-dimensional sound scene in a listening space.
  • each sound object 310 constituting the three-dimensional sound scene is represented by a point source 310 as shown in FIG. 3. It can be distributed in various positions in the form.
  • each object is shown as a point source 310 for convenience of schematic, but in addition to the point source 310, a sound wave in the form of a plain wave or a full orientation capable of recognizing the space of a sound scene is shown.
  • a sound wave in the form of a plain wave or a full orientation capable of recognizing the space of a sound scene is shown.
  • FIG. 4 is a diagram illustrating the overall structure of a 3D audio decoder and a renderer including a channel or an object renderer.
  • the decoder system illustrated in FIG. 4 may be broadly divided into a 3D audio decoder 400 and a 3D audio renderer 450.
  • the 3D audio decoder 400 may include an individual object decoder 410, an individual channel decoder 420, a SAOC transducer 430, and an MPS decoder 440.
  • the individual object decoder 410 receives an object signal
  • the individual channel decoder 420 receives a channel signal.
  • the audio bit string may include only an object signal or only a channel signal, and may include both an object signal and a channel signal.
  • the 3D audio decoder 400 may receive a signal in which an object signal or a channel signal is waveform encoded or parametric encoded, respectively, through the SAOC transducer 430 and the MPS decoder 440.
  • the 3D audio renderer 450 may include a 3DA renderer 460, and may render a channel signal, an object signal, or a parametric coded signal through the 3DA renderer 460.
  • the 3D audio decoder 400 receives an object signal, a channel signal, or a combination of the signals output through the 3D audio decoder 400 and outputs sound in accordance with the environment of the speaker of the listening space where the listener is located.
  • the weights of the 3D audio decoder 400 and the 3D audio renderer 450 may be set based on the number and location information of the speaker in the listening space where the listener is located.
  • 5 is a diagram in which 5.1 channels are arranged at positions and arbitrary positions according to the ITU-R Recommendation.
  • the speaker 520 disposed in the actual living room has a problem in that both the direction angle and the distance are different from those of the ITU-R recommendation 510. That is, as the height and direction of the speaker are different from the speaker 510 according to the recommendation, it is difficult to provide an ideal 3D sound scene when the original signal is reproduced as it is at the changed speaker 520 position.
  • VBAP Amplitude Panning
  • VBAP which determines the direction information of the sound source between two speakers based on the magnitude of the signal
  • VBAP which is widely used to determine the direction of the sound source using three speakers in three-dimensional space
  • Vector-Based Amplitude Panning enables flexible rendering of object signals transmitted for each object. Therefore, by transmitting the object signal instead of the channel signal it is possible to easily provide a 3D sound scene even in an environment where the speaker is different.
  • FIG. 6 is a diagram illustrating a coupled structure in which an object signal decoder and a flexible speaker renderer are combined.
  • an object when used, an object may be positioned as a sound source according to a desired sound scene.
  • the first embodiment 600 and the second embodiment 601 in which the object signal decoder and the flexible renderer reflecting these advantages are combined will be described.
  • a mixer 620 receives an object signal from an object decoder 610 and receives position information represented by a mixing matrix to form a channel signal. Will output That is, the positional information on the sound scene is expressed as relative information from the speaker corresponding to the output channel.
  • the output channel signal is flexibly rendered through the flexible speaker renderer 630 and output. At this time, if the actual number and location of the speaker does not exist in the predetermined position can receive the position information of the speaker and perform flexible rendering.
  • the flexible speaker mixer 650 receives the audio bit string signal and performs flexible rendering.
  • the matrix updater 660 transfers the matrix reflecting the mixing matrix and the location information of the speaker to the flexible speaker mixer 650 to reflect the result when performing the flexible rendering.
  • Rendering the channel signal back to another type of channel signal like the first embodiment 600 is more difficult to implement than rendering the object directly to the final channel as in the second embodiment 601. This will be described in detail below.
  • a mixture is first performed on the channel signal without separately performing the flexible rendering on the object, and then the flexible rendering on the channel signal is performed.
  • the rendering using the HRTF Head Related Transfer Function
  • FIG. 7 is a block diagram of an audio signal processing apparatus 700 according to an embodiment of the present invention.
  • the audio signal processing apparatus 700 includes a speaker information input unit 710, an audio signal receiver 720, a decoder 730, an object discriminator 740, a renderer 750, and a synthesizer 760. It includes.
  • the speaker information input unit 710 receives user's usable speaker information.
  • the audio signal receiver 720 receives an audio bit string signal including a channel signal and / or an object signal. That is, the audio bit string may include only the channel signal and may include only the object signal. In addition, the audio bit string may include both a channel signal and an object signal.
  • the decoder 730 decodes a channel signal or an object signal included in the audio bit string.
  • the decoder 730 may decode metadata regarding the object signal.
  • the channel signal may be decoded by a core codec such as Unified Speech and Audio Coding (USAC).
  • the object signal may be decoded by a core codec such as USAC or may be a parametric object signal decoded by a parametric codec such as SAOC (Spatial Audio Object Coding).
  • the object determining unit 740 determines whether an object corresponding to the object signal is located within the available speaker area. That is, the object determining unit 740 determines whether the object to be rendered is located in the speaker area based on the available speaker information received from the speaker information input unit 710. In this case, the rendering setting unit 755 to be described below sets the rendering method according to whether the object is located in the speaker area.
  • the renderer 750 includes a channel renderer 751 that renders the decoded channel signal, and an object renderer 753 that renders the decoded object signal. And a rendering setting unit 755 for setting a rendering method based on a result determined by the object determining unit 740 as to whether the object is an exception object.
  • the rendering unit 750 when only the channel signal is included in the audio bit string signal, the rendering unit 750 renders the channel renderer 751 through channel rendering and transmits the rendering to the synthesis unit 760. Accordingly, the combiner 760 outputs the rendered channel signal.
  • the channel renderer 751 may be a format converter and may further include a spectral EQ.
  • the renderer 750 renders the object renderer 753 through object rendering and transmits the rendered object to the synthesizer 760. Accordingly, the combiner 760 outputs the rendered object signal.
  • the object renderer 753 may render through a virtual VBAP (Vector Based Amplitude Panning) method.
  • FIG. 8 is a diagram illustrating a process of rendering a channel signal or an object signal in the audio signal processing apparatus 700 according to an embodiment of the present invention.
  • the rendering setting unit 755 is an object located within a speaker area where the object is usable by the object determining unit 740.
  • the rendering method may be set based on the determination result of whether the object is an exception object.
  • the object renderer 753 renders an object signal and channels the rendered object signal. It passes to the renderer 751.
  • the channel renderer 751 may synthesize the received rendered object signal with the channel signal and render the synthesized channel signal.
  • a speaker located at the center of the top layer 210 is absent in 22.2 channels, and a sound such as VoG (Voice of God) played at a speaker located at the center of the top layer 210 is played.
  • VoG Voice of God
  • an object signal corresponding to VoG may be rendered to a pre-installed speaker of the uppermost layer 210, and the mixed object signal may be downmixed to the intermediate layer 220 to process an exception object signal.
  • a virtual speaker is created at the position of the speaker located at the front or surround surface to handle the exception object. can do. That is, the exception object signal is rendered to the virtual speaker of the top layer 210 and the pre-installed speaker, and the middle layer located on the same vertical line as the virtual speaker and the pre-installed speaker located in the top layer 210 that received the rendered signal.
  • the exception object may be processed by performing downmixing with the speaker on 220.
  • the exception object may be rendered by the VBAP rendering method between the virtual speaker and the pre-installed speaker.
  • the virtual object may be rendered using the virtual speaker, and the rendering method applied at this time is not limited to the above example and may be rendered by various methods.
  • the rendering setting unit 755 may set to select and render the first and second steps.
  • the first step causes the channel renderer 751 to render the channel signal, the object renderer 753 to render the object signal, and then combines each of the rendered channel signal and the rendered object signal. It can be passed to and synthesized.
  • the second step may synthesize the rendered object signal with the channel signal, and cause the channel renderer 751 to render the synthesized channel signal. That is, when the object is located within the available speaker area, it may be rendered not only by the rendering method according to the first step but also by the rendering method applied when it is determined that the object is an exception object.
  • the synthesizer 760 synthesizes the rendered channel signal and the rendered object signal. That is, the synthesizer 760 synthesizes both the rendered channel signal and the rendered object signal, and outputs the synthesized signal. In contrast, when only the channel signal or only the object signal is present, the channel signal or the object signal is output without any synthesis.
  • the object included in the audio bit string is a parametric object signal decoded by a parametric codec
  • the object may be processed by a method different from that when the individual object signal is included in the audio bit string. That is, in the case of the parametric object signal, the object parameter is applied to the parametric downmix channel signal and decoded according to the input target rendering matrix.
  • the output signal is a channel signal that can be directly mapped to the target flexible rendering channel. The output is based on. That is, when the output channel of the rendering matrix required in the parametric decoding process corresponds to the flexible rendering channel, the rendering may be directly performed in the target channel format similarly to the case of the individual object signal.
  • the channel renderer 751 is first applied after outputting a rendering matrix that can be synthesized with the channel signal. Can be rendered.
  • FIG. 9 is a flowchart of an audio signal processing method according to an embodiment of the present invention.
  • the audio signal processing method in the audio signal processing apparatus 700 may receive usable speaker information of a user, and also receive an audio bit string signal including at least one of a channel signal and an object signal. Can be. That is, the audio bit string may include only the channel signal or only the object signal, and may include both the channel signal and the object signal.
  • the audio signal processing method decodes the channel signal or the object signal from the received audio bit string signal (S110).
  • the channel signal may be decoded by a core codec such as USAC.
  • the object signal may be decoded with a core codec such as USAC and may also be a parametric object signal decoded with a parametric codec such as SAOC.
  • the decoded channel signal or object signal is rendered (S120).
  • the rendering may include the first method of rendering the decoded channel signal, synthesizing the rendered channel signal and the rendered object signal, and synthesizing the rendered object signal with the channel signal, and the synthesized channel. Any one of the second methods of rendering the signal is selectively performed.
  • the audio signal processing method may further include determining whether an object corresponding to the object signal is located within an available speaker area. That is, as to determine whether the object is an exception object outside the speaker area, the rendering is performed in different ways depending on whether the object is an exception object. This will be described in detail below.
  • the object renderer when determined as an exception object, the object renderer renders an object signal, and passes the rendered object signal to the channel renderer.
  • the channel renderer may synthesize the rendered object signal and the channel signal and render the synthesized channel signal.
  • the channel renderer may generate a virtual speaker corresponding to the location of the exception object and perform rendering based on the available speaker information and the virtual speaker. Since the method of rendering in the channel renderer has been described with reference to FIG. 8, a detailed description thereof will be omitted below.
  • the first method and the second method may be selected and rendered.
  • the first method may cause the channel renderer to render the channel signal as described above, cause the object renderer to render the object signal, and then synthesize each of the rendered channel signal and the rendered object signal.
  • the second method may synthesize the rendered object signal with the channel signal and cause the channel renderer to render the synthesized channel signal. That is, when not an exception object, not only the rendering method according to the first method, but also the rendering method applied when it is determined that it is an exception object can be rendered.
  • an embodiment may be a determination about rendering performance of the channel renderer. That is, the rendering performance of the channel renderer can be predicted according to the difference between the input channel format and the target speaker format. If this value is less than or equal to a preset reference value, the rendering by the second method is performed even if it is not an exception object. Can be.
  • the object renderer may select and render the first method for some object signals and the second method for some other object signals instead of selecting the first method and the second method for all input object signals. have.
  • the rendered channel signal and the object signal are synthesized (S130). That is, when both the rendered channel signal and the rendered object signal exist, they are synthesized and the synthesized signal is output. In contrast, when only the channel signal or only the object signal is present, the channel signal or the object signal is output without any synthesis.
  • the audio signal processing apparatus and method according to another embodiment of the present invention can render the audio bit string signal input by using an internal renderer and an external renderer, respectively, which is described with reference to FIGS. This will be described with reference.
  • FIG. 10 is a block diagram of an audio signal processing apparatus 1000 according to another embodiment of the present invention.
  • the audio signal processing apparatus 1000 includes an internal renderer 1030, an external renderer 1040, a distribution unit 1050, and a playback unit 1060.
  • the audio signal processing apparatus 1000 may further include an audio signal receiver 1010 and a decoder 1020.
  • the audio signal receiver 1010 may receive an audio bit string signal including at least one of one or more channel signals or object signals, and the decoder 1020 may decode a channel signal or object signal included in the audio bit string. have.
  • the decoder 1020 may decode metadata regarding the plurality of object signals.
  • the internal renderer 1030 renders the decoded channel signal or object signal
  • the external renderer 1040 also renders the decoded channel signal or object signal.
  • the internal renderer 1030 and the external renderer 1040 may render a channel signal or an object signal based on vector based amplitude panning (VBAP) rendering.
  • VBAP vector based amplitude panning
  • the internal renderer 1030 is a renderer corresponding to a standard renderer in the case of MPEG-H, and may be the 3DA renderer 460 illustrated in FIG. 4, and the external renderer 1040 may be a renderer included in a specific product or may be developed separately. It may be a renderer.
  • a speaker environment to which the internal renderer 1030 and the external renderer 1040 are applied will be described below.
  • the speaker environment of the audio signal processing apparatus 1000 according to the present invention may be reproduced through a general loudspeaker, for example, when the speaker system is provided with a separate playback system such as a general loudspeaker and a sound bar.
  • the sound source may be rendered through the internal renderer 1030, and the sound source reproduced through the sound bar may be rendered through the external renderer 1040.
  • the external renderer 1040 may be a binaural renderer. Accordingly, a signal rendered by the internal renderer 1030 may be reproduced in a general loudspeaker, and a signal binaurally rendered by the external renderer 1040 may be reproduced through a speaker environment such as headphones.
  • the speaker environment to which the internal renderer 1030 and the external renderer 1040 are applied is not limited thereto, and various rendering methods and speaker environments may be applied.
  • the distribution unit 1050 distributes the decoded channel signal or the object signal to the internal renderer 1030 and the external renderer 1040. In this case, the distribution unit 1050 distributes one or more channel signals or object signals among the decoded channel signals or object signals to the internal renderer 1030 and the external renderer 1040.
  • the distribution unit 1050 may overlap one or more channel signals or object signals among the decoded channel signals or object signals and distribute them to the internal renderer 1030 and the external renderer 1040. For example, when receiving the first to fifth channel signals, the distribution unit 1050 distributes the first to third channel signals to the internal renderer 1030 and distributes the third to fifth channel signals to the external renderer ( 1040, the third channel signal may be distributed to the internal renderer 1030 and the external renderer 1040 to overlap each other. In this case, when the maximum overlap occurs, the internal renderer 1030 and the external renderer 1040 receive the same channel signal or object signal. That is, the distribution unit 1050 may distribute the first to fifth channel signals to be commonly input to the internal renderer 1030 and the external renderer 1040.
  • the distribution unit 1050 may distribute the decoded channel signal or the object signal to the internal renderer 1030 and the external renderer 1040 so as not to overlap.
  • the first to third channel signals may be distributed to the internal renderer 1030
  • the fourth to fifth channel signals may be distributed to the external renderer 1040.
  • the playback unit 1060 reproduces the channel signal or the object signal rendered by the internal renderer 1030 and the external renderer 1040, respectively.
  • the channel signal or the object signal rendered through the internal renderer 1030 or the external renderer 1040 is reproduced through a separate playback unit 1060.
  • the audio signal processing apparatus 1000 may further include a delay compensator 1070, a weight adjuster 1080, and a speaker information input unit 1090.
  • the delay compensator 1070 may compensate for a time delay occurring between the internal renderer 1030 and the external renderer 1040. For example, when the external renderer 1040 generates an additional time delay than the internal renderer 1030, the delay compensator 1070 takes the delay time to synchronize the internal renderer 1030 and the external renderer 1040 in consideration of this. To compensate for this.
  • the weight adjusting unit 1080 may adjust the output weight of each of the internal renderer 1030 and the external renderer 1040 to adjust the sound intensity of the channel signal or the object signal. That is, since the channel signal or the object signal respectively rendered by the internal renderer 1030 and the external renderer 1040 are reproduced in the same space, the weight adjusting unit 1080 sounds the sound of the internal renderer 1030 and the external renderer 1040. You can synchronize by adjusting the intensity of.
  • the speaker information input unit 1090 may receive usable speaker information. At this time, if the location of the channel or object corresponding to the channel signal or the object signal is out of the available speaker area based on the input speaker information of the user, the distribution unit 1050 may receive the decoded channel signal or the object signal.
  • the external renderer 1040 may distribute to the external renderer 1040, and thus the external renderer 1040 may render a channel signal or an object signal deviating from the available speaker area.
  • FIG. 11 is a flowchart of an audio signal processing method according to another embodiment of the present invention.
  • the user's available speaker environment may include, for example, a general loudspeaker and a sound bar, or headphones that receive a rendered signal through binaural rendering instead of a sound bar.
  • the speaker information available through the UI or the like it is determined whether the position of the channel or the object corresponding to the channel signal or the object signal is out of the available speaker area based on the speaker information. If the determination result is out of the speaker region, the channel signal or the object signal is rendered through the external renderer 1040 as described below, and the rendered signal may be reproduced through a playback device such as a sound bar or headphones.
  • the speaker environment to which the audio signal processing method according to the present invention is applied is not limited to the above-described application example, and the audio signal processing method according to the present invention may be applied in various speaker environments.
  • the audio signal processing method may receive an audio bit string signal including at least one channel signal or object signal and decode the channel signal or object signal included in the received audio bit string (S230).
  • the metadata of the object signal may be decoded, and the decoded metadata may be distributed to the internal renderer 1030 or the external renderer 1040 based on this.
  • one or more channel or object signals of the decoded channel signal or object signal are distributed to the internal renderer 1030 and the external renderer 1040, respectively (S210).
  • the decoded channel signal or object signal is distributed to the external renderer 1040.
  • the distribution unit 1050 may distribute the channel signal or the object signal included in the audio bit stream so as to overlap the internal renderer 1030 and the external renderer 1040, otherwise the channel signal or object signal is distributed so as not to overlap You may. Since this has been described with reference to FIG. 10, a detailed description thereof will be omitted.
  • the channel signal or the object signal distributed to the internal renderer 1030 and the external renderer 1040 are respectively rendered (S220).
  • the internal renderer 1030 and the external renderer 1040 may render a channel signal or an object signal based on the VBAP rendering.
  • the internal renderer 1030 is a renderer corresponding to a standard renderer in the case of MPEG-H, and may be the 3DA renderer 460 illustrated in FIG. 4, and the external renderer 1040 may be a renderer included in a specific product or separately. It may be a developed renderer.
  • the rendered channel signal or object signal is reproduced (S230).
  • the channel signal or the object signal rendered through the internal renderer 1030 and the external renderer 1040 may be reproduced through separate playback units 1060. That is, the internal renderer 1030 may be reproduced through a general loudspeaker, and the external renderer 1040 may be reproduced through a separate playback unit 1060 such as a sound bar or headphones.
  • signals processed independently through the internal renderer 1030 and the external renderer 1040 may be simultaneously reproduced in the same space. In order to simultaneously play in the same space, a process of synchronizing the internal renderer 1030 and the external renderer 1040 is required.
  • the audio signal processing method according to the present invention may further include synchronizing the internal renderer 1030 and the external renderer 1040.
  • the method may further include compensating for a delay time occurring between the internal renderer 1030 and the external renderer 1040.
  • the two renderers may be synchronized by compensating for the time delay of the internal renderer 1030 in consideration of this.
  • the method may further include adjusting the intensity of the sound of the channel signal or the object signal by adjusting the output weight of each of the external renderer 1040 and the internal renderer 1030.
  • the output weights of the internal renderer 1030 and the external renderer 1040 are adjusted to adjust the intensity of the sound of the speaker that reproduces the signal rendered by the internal renderer 1030 and the speaker that reproduces the signal rendered by the external renderer 1040.
  • the audio signal processing apparatus and method according to the exemplary embodiments described with reference to FIGS. 1 to 11 may be implemented by the audio reproducing apparatus 1 shown in FIG. 12, which will be described below.
  • FIG. 12 is a diagram illustrating an example of a device in which an audio signal processing device and method according to the present invention are implemented.
  • the audio reproducing apparatus 1 may include a wired / wireless communication unit 10, a user authentication unit 20, an input unit 30, a signal coding unit 40, a control unit 50, and an output unit 60.
  • the wired / wireless communication unit 10 receives an audio bit string signal through a wired / wireless communication method.
  • the wired / wireless communication unit 10 may include a configuration such as an infrared communication unit, a Bluetooth unit, or a wireless LAN communication unit, and may receive an audio bit string signal through various other communication methods.
  • the user authentication unit 20 receives user information and performs user authentication.
  • the user authentication unit 20 may include one or more of a fingerprint recognition unit, an iris recognition unit, a face recognition unit, and a voice recognition unit. That is, the user authentication may be performed by receiving a fingerprint, iris information, facial outline information, and voice information, converting the user information into a user information, and determining whether or not matching with the registered user information is performed.
  • the input unit 30 is an input device for the user to input various types of commands, and may include one or more of a keypad unit, a touch pad unit, and a remote controller unit.
  • the signal coding unit 40 may encode or decode an audio signal, a video signal, or a combination thereof received through the wire / wireless communication unit 10 and output an audio signal of a time domain.
  • the signal coding unit 40 may include an audio signal processing apparatus, and the audio signal processing apparatus according to the present invention may be applied.
  • the controller 50 receives an input signal from the input devices and controls all processes of the signal coding unit 40 and the output unit 60.
  • the output unit 60 outputs an output signal generated by the signal coding unit 40, and may include components such as a speaker unit and a display unit. In this case, when the output signal is an audio signal, the output signal may be output to the speaker, and in the case of a video signal, the output signal may be output through the display.
  • components shown in FIGS. 4, 6 through 8, 10, and 12 may be software or hardware such as a field programmable gate array (FPGA) or an application specific integrated circuit (ASIC). Means a component, and plays a role.
  • FPGA field programmable gate array
  • ASIC application specific integrated circuit
  • 'components' are not meant to be limited to software or hardware, and each component may be configured to be in an addressable storage medium or may be configured to reproduce one or more processors.
  • a component may include components such as software components, object-oriented software components, class components, and task components, and processes, functions, properties, procedures, and subs. Routines, segments of program code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays, and variables.
  • Components and the functionality provided within those components may be combined into a smaller number of components or further separated into additional components.
  • an embodiment of the present invention may be implemented in the form of a recording medium including instructions executable by a computer, such as a program module executed by the computer.
  • Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • Computer readable media may include both computer storage media and communication media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically includes computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transmission mechanism, and includes any information delivery media.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

The present invention for an apparatus for processing an audio signal comprises: a speaker information input unit for receiving information regarding speakers a user can use; a reception unit for receiving an audio bit stream signal comprising a channel signal and/or an object signal; a decoding unit for decoding the channel signal or the object signal included in the audio bit stream signal; an object discernment unit for discerning whether an object corresponding to the object signal is located within a usable speaker region; a rendering unit comprising a channel renderer and an object renderer for rendering the decoded channel signal and the decoded object signal, respectively, and a rendering configuration unit for configuring a rendering method on the basis of the result of the discernment; and a compositing unit for compositing the rendered channel signal and the rendered object signal.

Description

오디오 신호 처리 장치 및 방법Audio signal processing apparatus and method
본 발명은 오디오 신호 처리 장치 및 방법에 관한 것이다.The present invention relates to an audio signal processing apparatus and method.
3D 오디오란 기존의 서라운드 오디오에서 제공하는 수평면 상의 사운드 장면(2D)에 높이 방향에 해당하는 또 다른 축을 제공함으로써, 3차원 공간 상에서 임장감있는 사운드를 제공하기 위한 일련의 신호 처리, 전송, 부호화 및 재생기술 등을 통칭한다. 특히, 3D 오디오를 제공하기 위해서는 종래보다 많은 수의 스피커를 사용하거나 혹은 적은 수의 스피커를 사용하더라도 스피커가 존재하지 않는 가상의 위치에서 음상이 맺히도록 하는 렌더링 기술이 요구된다.3D audio is a set of signal processing, transmission, encoding, and playback methods for providing a realistic sound in three-dimensional space by providing another axis corresponding to the height direction to a sound scene (2D) on a horizontal plane provided by conventional surround audio. Also known as technology. In particular, in order to provide 3D audio, a rendering technique is required in which a sound image is formed at a virtual position in which no speaker exists even if a larger number of speakers or a smaller number of speakers are used.
3D 오디오는 향후 출시될 초고해상도 TV(UHDTV)에 대응되는 오디오 솔루션이 될 것으로 예상되며, 고품질 인포테인먼트 공간으로 진화하고 있는 차량에서의 사운드를 비롯하여 그밖에 극장 사운드, 개인용 3DTV, 태블릿, 스마트폰 및 클라우드 게임 등 다양한 분야에서 응용될 것으로 예상된다.3D audio is expected to be an audio solution for future Ultra High Definition Television (UHDTV) applications, including sound from vehicles evolving into a high quality infotainment space, as well as theater sound, personal 3DTV, tablets, smartphones and cloud games. It is expected to be applied in various fields.
한편, 3D 오디오에 제공되는 음원의 형태로 채널 기반의 신호만이 존재하거나, 객체 기반의 신호만이 존재할 수 있다. 이뿐만 아니라, 채널 기반의 신호와 객체 기반의 신호가 혼합된 형태의 음원이 존재할 수 있으며, 이를 통해 사용자로 하여금 새로운 형태의 청취 경험을 제공할 수 있다.Meanwhile, only a channel based signal may exist or an object based signal may exist in the form of a sound source provided to 3D audio. In addition, there may be a sound source in which a channel-based signal and an object-based signal are mixed, thereby providing a user with a new listening experience.
이때, 채널 기반 신호 및 객체 기반 신호를 처리하기 위한 MPEG-H 3D 오디오는 채널 렌더러와 객체 렌더러의 성능 차이로 인하여 여러가지 문제점을 가지고 있으며, 이와 같은 성능 차이로 인해 사운드 신이 의도한대로 재생되지 않는 등, 음원의 왜곡이 발생하게 된다. 따라서, 채널 렌더러와 객체 렌더러의 성능 차이로 인해 발생하는 문제점을 해결할 필요가 있다.In this case, MPEG-H 3D audio for processing channel-based signals and object-based signals has various problems due to the performance difference between the channel renderer and the object renderer, and the sound scene does not play as intended due to the performance difference. The distortion of the sound source is generated. Therefore, there is a need to solve the problem caused by the performance difference between the channel renderer and the object renderer.
이와 더불어, 3D 오디오 재생시, 채널이 갖는 특수성과 재생단에서의 스피커 환경에 따라 기존의 재생 방식으로는 재생하기 어려운 예외 채널들이 존재할 수 있다. 객체 역시 재생단에서의 스피커 환경을 벗어나는 곳에 위치할 경우 이를 재생시 어려움이 있을 수 있다. 따라서, 재생단에서의 스피커 환경에 기초하여 효과적으로 예외 채널을 재현하는 기술이 필요하며, 이에 대한 실시예로 사운드 바(Sound bar)를 이용하는 경우를 들 수 있다. In addition, in 3D audio reproduction, there may be exception channels that are difficult to reproduce by the existing reproduction scheme depending on the specificity of the channel and the speaker environment at the reproduction stage. If an object is also located outside the speaker environment at the play end, it may be difficult to play it. Accordingly, there is a need for a technique for effectively reproducing an exception channel based on a speaker environment at a reproduction stage, and an example of using a sound bar is an example.
사운드 바는 예외 채널 재생에 유리한 방법이기는 하나, 기본 채널 신호 재생시 음질 열화를 가져오는 등의 단점이 있다. 이에 따라, 사운드 바와 같은 별도의 스피커 재생 장치와 기본 스피커 장치를 병합한 구조를 가진 오디오 재생 장치를 사용하는 것이 더 바람직할 수 있다. 따라서, 이와 같은 사용 환경에 적합한 MPEG-H 복호화 방법이 요구된다. The sound bar is an advantageous method for playing an exception channel, but has a disadvantage in that sound quality is degraded when playing a basic channel signal. Accordingly, it may be more preferable to use an audio reproducing apparatus having a structure in which a separate speaker reproducing apparatus such as a sound bar and a basic speaker apparatus are merged. Therefore, there is a need for an MPEG-H decoding method suitable for such a usage environment.
이와 관련하여 한국공개특허 제2011-0002504호(발명의 명칭: 멀티채널 다운믹스된 객체 코딩의 개선된 코딩 및 파라미터 표현)에는 복수의 오디오 객체를 적어도 두 개의 다운믹스 채널들로 분배하여 다운믹스 정보를 생성하고, 객체 파라미터들을 생성하여 인코딩된 오디오 객체 신호를 생성하는 기술이 개시되어 있다. In this regard, Korean Patent Laid-Open Publication No. 2011-0002504 (name of the invention: improved coding and parameter representation of multi-channel downmixed object coding) includes a plurality of audio objects divided into at least two downmix channels to provide downmix information. A technique for generating a, and generating object parameters to generate an encoded audio object signal is disclosed.
또한, 한국공개특허 제2011-0002504호(발명의 명칭: 멀티채널 다운믹스된 객체 코딩의 개선된 코딩 및 파라미터 표현)에는 복수의 오디오 객체를 적어도 두 개의 다운믹스 채널들로 분배하여 다운믹스 정보를 생성하고, 객체 파라미터들을 생성하여 인코딩된 오디오 객체 신호를 생성하는 기술이 개시되어 있다.In addition, Korean Patent Publication No. 2011-0002504 (name of the invention: improved coding and parameter representation of multi-channel downmixed object coding) includes distributing downmix information by distributing a plurality of audio objects to at least two downmix channels. A technique for generating and generating object parameters to generate an encoded audio object signal is disclosed.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 본 발명의 일부 실시예는 예외 객체에 대응하는 예외 객체 신호가 존재할 경우, 렌더링된 예외 객체 신호를 채널 신호에 합성하고 이를 렌더링함으로써 예외 객체 신호를 처리할 수 있는 오디오 신호 처리 장치 및 방법을 제공한다. SUMMARY OF THE INVENTION The present invention has been made to solve the above-mentioned problems of the prior art, and in some embodiments of the present invention, when an exception object signal corresponding to an exception object exists, the exception object is synthesized by rendering the rendered exception object signal into a channel signal and rendering the exception object signal. An audio signal processing apparatus and method capable of processing a signal are provided.
또한, 본 발명의 일부 실시예는 입력된 오디오 비트열 신호를 내부 렌더러 및 외부 렌더러에서 각각 렌더링하고, 이를 일반적인 라우드스피커 및 헤드폰 또는 사운드 바와 같은 별도의 스피커 장치를 통해 동시에 재생할 수 있는 오디오 신호 처리 장치 및 방법을 제공한다.In addition, some embodiments of the present invention, an audio signal processing apparatus that can render the input audio bit string signal in the internal renderer and the external renderer, respectively, and simultaneously play them through a separate loudspeaker device such as a general loudspeaker and a headphone or sound bar. And methods.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 오디오 신호 처리 장치는 사용자의 사용 가능한 스피커 정보를 입력받는 스피커 정보 입력부, 채널 신호 및/또는 객체 신호를 포함하는 오디오 비트열 신호를 수신하는 수신부, 상기 오디오 비트열 신호에 포함된 상기 채널 신호 또는 객체 신호를 복호화하는 복호화부, 상기 객체 신호에 대응하는 객체가 상기 사용 가능한 스피커 영역 내에 위치하는지 여부를 판별하는 객체 판별부, 상기 복호화된 채널 신호 및 상기 복호화된 객체 신호를 각각 렌더링하는 채널 렌더러 및 객체 렌더러를 포함하며, 상기 판별 결과에 기초하여 렌더링 방법을 설정하는 렌더링 설정부를 포함하는 렌더링부 및 상기 렌더링된 채널 신호 및 상기 렌더링된 객체 신호를 합성하는 합성부를 포함한다.As a technical means for achieving the above technical problem, the audio signal processing apparatus according to the first aspect of the present invention is an audio bit including a speaker information input unit, a channel signal and / or an object signal for receiving the user's usable speaker information A receiver for receiving a column signal, a decoder for decoding the channel signal or an object signal included in the audio bit string signal, and an object discriminating unit for determining whether an object corresponding to the object signal is located in the usable speaker area A renderer including a channel renderer and an object renderer for rendering the decoded channel signal and the decoded object signal, respectively, and a rendering setting unit configured to set a rendering method based on the determination result; A synthesis unit for synthesizing the rendered object signals It should.
또한, 본 발명의 제 2 측면에 따른 오디오 신호 처리 장치에서의 오디오 신호 처리 방법은 수신한 오디오 비트열로부터 채널 신호 또는 객체 신호를 복호화하는 단계, 상기 복호화된 채널 신호 또는 객체 신호를 렌더링하는 단계 및 상기 렌더링된 채널 신호 및 객체 신호를 합성하는 단계를 포함한다. 이때, 상기 렌더링하는 단계는, 상기 복호화된 채널 신호를 렌더링하고, 상기 렌더링된 채널 신호 및 렌더링된 객체 신호를 합성하는 제 1 방법 및 상기 렌더링된 객체 신호를 상기 채널 신호와 합성하고, 상기 합성된 채널 신호를 렌더링하는 제 2 방법 중 어느 하나를 선택적으로 수행한다.In addition, an audio signal processing method in an audio signal processing apparatus according to a second aspect of the present invention includes decoding a channel signal or an object signal from a received audio bit string, rendering the decoded channel signal or object signal; Synthesizing the rendered channel signal and the object signal. In this case, the rendering may include: rendering the decoded channel signal, synthesizing the rendered channel signal and the rendered object signal, and synthesizing the rendered object signal with the channel signal; Optionally, one of the second methods of rendering the channel signal.
또한, 본 발명의 제 3 측면에 따른 오디오 신호 처리 장치는 복호화된 채널 신호 또는 복호화된 객체 신호를 렌더링하는 내부 렌더러 및 외부 렌더러, 상기 복호화된 채널 신호 또는 객체 신호를 상기 내부 렌더러 및 상기 외부 렌더러로 분배하는 분배부 및 상기 내부 렌더러 및 외부 렌더러에서 각각 렌더링된 상기 채널 신호 또는 객체 신호를 재생하는 재생부를 포함한다. 이때, 상기 내부 렌더러 또는 상기 외부 렌더러를 통해 렌더링된 채널 신호 또는 객체 신호는 각각 별개의 재생부를 통해 재생된다. Also, an audio signal processing apparatus according to a third aspect of the present invention includes an internal renderer and an external renderer for rendering a decoded channel signal or a decoded object signal, and the decoded channel signal or object signal to the internal renderer and the external renderer. A distribution unit for distributing and a reproduction unit for reproducing the channel signal or the object signal rendered by the internal renderer and the external renderer, respectively. In this case, the channel signal or the object signal rendered through the internal renderer or the external renderer are reproduced through separate playback units.
또한, 본 발명의 제 4 측면에 따른 오디오 신호 처리 장치에서의 오디오 신호 처리 방법은 복호화된 채널 신호 또는 복호화된 객체 신호 중 하나 이상의 채널 신호 또는 객체 신호를 내부 렌더러 및 외부 렌더러로 각각 분배하는 단계, 상기 내부 렌더러 및 외부 렌더러에 분배된 채널 신호 또는 객체 신호를 각각 렌더링하는 단계 및 상기 렌더링된 채널 신호 또는 객체 신호를 재생하는 단계를 포함한다. 이때, 상기 분배하는 단계는, 상기 복호화된 채널 신호 또는 객체 신호가 상기 사용 가능한 스피커 영역을 벗어난 경우, 상기 복호화된 채널 신호 또는 객체 신호를 상기 외부 렌더러로 분배한다.In addition, the audio signal processing method in the audio signal processing apparatus according to the fourth aspect of the present invention comprises the steps of: distributing at least one channel signal or object signal of the decoded channel signal or the decoded object signal to the internal renderer and the external renderer, respectively; Rendering channel signals or object signals distributed to the internal renderer and the external renderer, respectively, and reproducing the rendered channel signals or object signals. In this case, in the distributing step, when the decoded channel signal or object signal is out of the usable speaker area, the decoded channel signal or object signal is distributed to the external renderer.
전술한 본 발명의 과제 해결 수단에 의하면, 예외 채널에 해당하는 스피커가 재생단에서 부재할 경우 효과적으로 다른 스피커들을 이용하여 재생할 수 있다.According to the above-described problem solving means of the present invention, when the speaker corresponding to the exception channel is absent from the playback stage, it can be effectively reproduced using other speakers.
또한, 객체 신호를 채널 신호에 합성하고 이를 채널 렌더러를 통해 렌더링함으로써 객체 렌더러와 채널 렌더러 간의 성능 차이로 인해 발생하는 음원의 왜곡 현상을 방지할 수 있다.In addition, by synthesizing the object signal to the channel signal and rendering it through the channel renderer, it is possible to prevent the distortion of the sound source caused by the performance difference between the object renderer and the channel renderer.
도 1은 동일한 시청 거리에서 영상 크기에 따른 시청 각도를 설명하기 위한 도면이다.1 is a view for explaining a viewing angle according to an image size at the same viewing distance.
도 2는 멀티채널 오디오 환경의 일 예시로서 22.2 채널 스피커의 배치 구성도이다.2 is a layout diagram of a 22.2 channel speaker as an example of a multi-channel audio environment.
도 3은 청취 공간상에서 3차원의 사운드 장면을 구성하는 각 사운드 객체들의 위치를 나타내는 개념도이다.3 is a conceptual diagram illustrating positions of sound objects constituting a three-dimensional sound scene in a listening space.
도 4는 채널 또는 객체 렌더러가 포함된 3D 오디오 디코더 및 렌더러의 전체 구조도를 도시한 도면이다.FIG. 4 is a diagram illustrating the overall structure of a 3D audio decoder and a renderer including a channel or an object renderer.
도 5는 ITU-R 권고안에 따른 위치 및 임의의 위치에 5.1채널을 배치한 도면이다.5 is a diagram in which 5.1 channels are arranged at positions and arbitrary positions according to the ITU-R Recommendation.
도 6은 객체 신호 디코더 및 플렉서블 스피커 렌더링부가 결합된 연결된 구조를 도시한 도면이다.6 is a diagram illustrating a coupled structure in which an object signal decoder and a flexible speaker renderer are combined.
도 7은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치의 블록도이다.7 is a block diagram of an audio signal processing apparatus according to an embodiment of the present invention.
도 8은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치에서 채널 신호 또는 객체 신호를 렌더링하는 과정을 설명하기 위한 도면이다.8 is a diagram illustrating a process of rendering a channel signal or an object signal in an audio signal processing apparatus according to an embodiment of the present invention.
도 9는 본 발명의 일 실시예에 따른 오디오 신호 처리 방법의 순서도이다.9 is a flowchart of an audio signal processing method according to an embodiment of the present invention.
도 10은 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치의 블록도이다.10 is a block diagram of an audio signal processing apparatus according to another embodiment of the present invention.
도 11은 본 발명의 다른 실시예에 따른 오디오 신호 재생 방법의 순서도이다.11 is a flowchart of a method of reproducing an audio signal according to another embodiment of the present invention.
도 12는 본 발명에 따른 오디오 신호 처리 방법이 구현된 장치의 일 예시를 도시한 도면이다.12 is a diagram illustrating an example of a device in which an audio signal processing method according to the present invention is implemented.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and like reference numerals designate like parts throughout the specification.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 본원 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.Throughout the specification, when a part is "connected" to another part, this includes not only "directly connected" but also "electrically connected" with another element in between. . In addition, when a part is said to "include" a certain component, which means that it may further include other components, except to exclude other components unless otherwise stated. As used throughout this specification, the term "step to" or "step of" does not mean "step for."
먼저, 도 1 내지 도 6을 참조하여 본 발명에 따른 오디오 신호 처리 장치 및 오디오 신호 처리 방법이 구현되기 위한 환경에 대하여 설명하도록 한다.First, an environment for implementing an audio signal processing apparatus and an audio signal processing method according to the present invention will be described with reference to FIGS. 1 to 6.
도 1은 동일한 시청 거리에서 영상 크기(예: UHDTV 및 HDTV)에 따른 시청 각도를 설명하기 위한 도면이다.FIG. 1 illustrates a viewing angle according to an image size (eg, UHDTV and HDTV) at the same viewing distance.
최근 디스플레이의 제작 기술이 발전됨에 따라, 소비자의 요구에 맞추어 UHDTV와 같이, 디스플레이 영상의 크기는 대형화가 되어가는 추세이다. 도 1에 도시된 바와 같이, UHDTV(7680*4320 픽셀영상, 110)는 HDTV(1920*1080 픽셀영상, 120)보다 약 16배가 커진 영상이다. HDTV(120)가 거실 벽면에 설치되고 시청자가 일정 시청거리를 두고 거실 쇼파에 앉은 경우 시청각도는 약 30도일 수 있다. 이와 동일한 시청거리에서 UHDTV(110)가 설치된 경우 시청각도는 약 100도에 이르게 된다. As display production technology has recently been developed, the size of display images, such as UHDTVs, is becoming larger in accordance with consumer demand. As shown in FIG. 1, the UHDTV (7680 * 4320 pixel image, 110) is an image about 16 times larger than the HDTV (1920 * 1080 pixel image, 120). When the HDTV 120 is installed on the living room wall and the viewer sits on the living room couch with a certain viewing distance, the viewing angle may be about 30 degrees. When the UHDTV 110 is installed at the same viewing distance, the viewing angle reaches about 100 degrees.
이와 같이 고화질 및 고해상도 대형 스크린이 설치된 경우, 대형 컨텐츠에 걸맞게 높은 현장감 및 임장감을 갖는 사운드가 제공되는 것이 바람직하다. 시청자가 마치 현장에 있는 것과 거의 동일한 환경을 제공하기 위해서는 1-2개의 서라운드 채널 스피커가 존재하는 것만으로는 부족할 수 있다. 따라서, 보다 많은 스피커 및 채널 수를 갖는 멀티채널 오디오 환경이 요구된다.When the high quality and high resolution large screen is installed as described above, it is desirable to provide a sound having a high sense of presence and presence for the large content. It may not be enough to have one or two surround channel speakers to provide a viewer almost as if they were in the field. Thus, there is a need for a multichannel audio environment with more speakers and channels.
상기 설명한 바와 같이 멀티채널 오디오 환경이 요구되는 환경으로 홈시어터 환경 이외에도 개인 3DTV, 스마트폰 TV, 22.2 채널 오디오 프로그램, 자동차, 3D 비디오, 원격 현장감 룸, 클라우드 기반 게임 등이 있다.As described above, in addition to a home theater environment, a multi-channel audio environment is required, as well as a personal 3DTV, a smartphone TV, a 22.2 channel audio program, a car, a 3D video, a remote presence room, and a cloud-based game.
도 2는 멀티채널 오디오 환경의 일 예시로서 22.2 채널 스피커의 배치 구성도이다.2 is a layout diagram of a 22.2 channel speaker as an example of a multi-channel audio environment.
22.2 채널은 음장감을 높이기 위한 멀티채널 오디오 환경의 일 예시일 수 있으며, 본 발명은 특정 채널 수 또는 특정 스피커의 배치에 한정되지 않는다. 도 2를 참조하면, 최상위 레이어(top layer, 210)에 총 9개의 채널이 배치될 수 있다. 전면에 3개, 중간 위치에 3개, 서라운드 위치에 3개가 배치되어 총 9개의 스피커가 배치되어 있다. 중간 레이어(middle layer, 220)에는 전면에 5개, 중간 위치에 2개, 서라운드 위치에 3개가 배치되어 총 10개의 스피커가 배치되어 있다. 최하위 레이어(bottom layer, 230)에는 전면에 3개의 채널이 배치되어 있고, 2개의 LFE 채널(240)이 설치되어 있다.The 22.2 channel may be an example of a multichannel audio environment for enhancing the sound field, and the present invention is not limited to a specific number of channels or a specific speaker layout. Referring to FIG. 2, a total of nine channels may be arranged in the top layer 210. There are three speakers in the front, three in the middle and three in the surround, for a total of nine speakers. The middle layer 220 has five speakers in front, two in the middle position, and three in the surround position, for a total of 10 speakers. In the bottom layer 230, three channels are disposed on the front surface, and two LFE channels 240 are provided.
이와 같이, 최대 수십 개 채널에 이르는 멀티채널 신호를 전송 및 재생하기 위해서는 높은 연산량이 요구된다. 또한, 통신 환경 등을 고려할 때 높은 압축률이 요구될 수 있다. 뿐만 아니라, 일반 가정에서는 22.2채널과 같은 멀티채널 스피커 환경을 구비하는 경우는 극히 드물고 2채널 또는 5.1채널 셋업을 갖는 청취자가 많기 때문에, 모든 유저에게 공통적으로 전송하는 신호가 멀티채널을 각각 인코딩하여 보내는 신호인 경우, 그 멀티채널 신호를 2채널 또는 5.1채널에 대응하도록 다시 변환하여 재생해야 된다. 이에 따라, 통신적인 비효율이 발생할 뿐만 아니라 22.2채널의 PCM 신호를 저장해야 하므로, 메모리 관리에 있어서 비효율적인 문제가 발생할 수 있다.As such, a high amount of computation is required to transmit and reproduce multichannel signals of up to several dozen channels. In addition, a high compression ratio may be required when considering a communication environment. In addition, in general homes, it is extremely rare to have a multi-channel speaker environment such as 22.2 channels, and many listeners have two-channel or 5.1-channel setups. In the case of a signal, the multi-channel signal must be converted and reproduced so as to correspond to two or 5.1 channels. Accordingly, not only communication inefficiency occurs but also 22.2 channel PCM signals need to be stored, which may cause inefficient problems in memory management.
도 3은 청취 공간상에서 3차원의 사운드 장면을 구성하는 각 사운드 객체들의 위치를 나타내는 개념도이다.3 is a conceptual diagram illustrating positions of sound objects constituting a three-dimensional sound scene in a listening space.
청자(320)가 3D 오디오를 청취하는 청취 공간상(300)에서, 3차원의 사운드 장면을 구성하는 각 사운드 객체(310)들의 위치는 도 3에 도시된 바와 같이 점 소스(point source, 310) 형태로 다양한 위치에 분포될 수 있다. In the listening space 300 where the listener 320 listens to 3D audio, the position of each sound object 310 constituting the three-dimensional sound scene is represented by a point source 310 as shown in FIG. 3. It can be distributed in various positions in the form.
한편, 도 3에서는 도식화의 편의상 각 객체들이 점 소스(310)인 것으로 나타냈으나, 점 소스(310) 이외에 평면파(plain wave) 형태의 음원이나, 사운드 장면의 공간을 인식할 수 있는 전 방위에 걸쳐 퍼져있는 여음인 앰비언트(ambient) 음원 등이 있을 수 있다.Meanwhile, in FIG. 3, each object is shown as a point source 310 for convenience of schematic, but in addition to the point source 310, a sound wave in the form of a plain wave or a full orientation capable of recognizing the space of a sound scene is shown. There may be an ambient sound source, which is a sound spread throughout.
도 4는 채널 또는 객체 렌더러가 포함된 3D 오디오 디코더 및 렌더러의 전체 구조도를 도시한 도면이다.FIG. 4 is a diagram illustrating the overall structure of a 3D audio decoder and a renderer including a channel or an object renderer.
도 4에 도시된 디코더 시스템은 크게 3D 오디오 디코더부(400) 및 3D 오디오 렌더링부(450)로 구분될 수 있다.The decoder system illustrated in FIG. 4 may be broadly divided into a 3D audio decoder 400 and a 3D audio renderer 450.
3D 오디오 디코더부(400)는 개별 객체 디코더(410), 개별 채널 디코더(420), SAOC 트랜스듀서(430) 및 MPS 디코더(440)을 포함할 수 있다. The 3D audio decoder 400 may include an individual object decoder 410, an individual channel decoder 420, a SAOC transducer 430, and an MPS decoder 440.
개별 객체 디코더(410)는 객체 신호를 입력받으며, 개별 채널 디코더(420)는 채널 신호를 입력받는다. 이때, 오디오 비트열은 객체 신호만을 포함하거나, 채널 신호만을 포함할 수 있으며, 이뿐만 아니라 객체 신호와 채널 신호를 모두 포함할 수 있다. The individual object decoder 410 receives an object signal, and the individual channel decoder 420 receives a channel signal. In this case, the audio bit string may include only an object signal or only a channel signal, and may include both an object signal and a channel signal.
또한, 3D 오디오 디코더부(400)는 SAOC 트랜스듀서(430) 및 MPS 디코더(440)를 통해 객체 신호 또는 채널 신호가 각각 웨이브폼 부호화되거나 파라메트릭 부호화된 신호를 입력 받을 수 있다. In addition, the 3D audio decoder 400 may receive a signal in which an object signal or a channel signal is waveform encoded or parametric encoded, respectively, through the SAOC transducer 430 and the MPS decoder 440.
3D 오디오 렌더링부(450)는 3DA 렌더러(460)을 포함하고 있으며, 3DA 렌더러(460)을 통해 채널 신호 또는 객체 신호, 또는 파라메트릭 부호화된 신호를 각각 렌더링할 수 있다. The 3D audio renderer 450 may include a 3DA renderer 460, and may render a channel signal, an object signal, or a parametric coded signal through the 3DA renderer 460.
그리고 3D 오디오 디코더부(400)를 통해 출력된 객체 신호, 채널 신호 또는 이들이 조합된 신호를 입력받아 청자가 있는 청취 공간의 스피커의 환경에 맞게 소리를 출력한다. 이때, 청자가 있는 청취 공간에서의 스피커의 개수 및 위치 정보 등에 기초하여 3D 오디오 디코더부(400) 및 3D 오디오 렌더링부(450)의 가중치를 설정할 수 있다.The 3D audio decoder 400 receives an object signal, a channel signal, or a combination of the signals output through the 3D audio decoder 400 and outputs sound in accordance with the environment of the speaker of the listening space where the listener is located. In this case, the weights of the 3D audio decoder 400 and the 3D audio renderer 450 may be set based on the number and location information of the speaker in the listening space where the listener is located.
한편, 3D 오디오를 위해 필요한 기술 중 하나로 유연한 렌더링이 있으며, 유연한 렌더링 기술은 3D 오디오의 품질을 최상으로 끌어올리기 위해 해결해야 할 중요한 과제 중 하나이다. 유연한 렌더링 기술이 필요한 이유는 다음과 같다.On the other hand, one of the technologies required for 3D audio is flexible rendering, which is one of the important tasks to be solved in order to maximize the quality of 3D audio. Reasons for flexible rendering techniques include:
거실의 구조, 가구의 배치에 따라 5.1 채널 스피커의 위치가 매우 비정형적인 것은 주지의 사실이다. 이와 같은 비정형적 위치에 스피커가 존재하더라도, 컨텐츠 제작자가 의도한 사운드 장면을 제공할 수 있어야 한다. 이를 위해서는 사용자마다 각각 상이한 재생 환경에서의 스피커 환경을 알아야 하는 것과 동시에, 규격에 따른 위치 대비 차이를 보정하기 위한 렌더링 기술이 필요하다. 즉, 전송된 비트열을 디코딩 방법에 따라 디코딩하는 것으로 코덱의 역할이 끝나는 것이 아니라, 이를 사용자의 재생 환경에 맞게 최적화 변형하는 과정에 대한 일련의 기술이 요구된다.It is well known that the location of 5.1-channel speakers is very irregular depending on the structure of the living room and the layout of the furniture. Even if the speaker exists at such an irregular location, it should be able to provide a sound scene intended by the content creator. To this end, a user needs to know a speaker environment in a different playback environment, and at the same time, a rendering technique for correcting a difference in position versus a specification is required. That is, the decoding of the transmitted bit string according to the decoding method does not end the role of the codec, but a series of techniques for the process of optimizing and transforming it to the user's playback environment is required.
도 5는 ITU-R 권고안에 따른 위치 및 임의의 위치에 5.1채널을 배치한 도면이다.5 is a diagram in which 5.1 channels are arranged at positions and arbitrary positions according to the ITU-R Recommendation.
실제 거실 환경에 배치된 스피커(520)는 ITU-R 권고안(510) 대비 방향각과 거리가 모두 달라지게 되는 문제가 발생한다. 즉, 스피커의 높이, 방향이 권고안에 따른 스피커(510)와 상이하게 배치됨에 따라 변경된 스피커(520)의 위치에서 원래 신호를 그대로 재생할 경우 이상적인 3D 사운드 장면을 제공하기 어렵게 된다.The speaker 520 disposed in the actual living room has a problem in that both the direction angle and the distance are different from those of the ITU-R recommendation 510. That is, as the height and direction of the speaker are different from the speaker 510 according to the recommendation, it is difficult to provide an ideal 3D sound scene when the original signal is reproduced as it is at the changed speaker 520 position.
이와 같은 상황에서, 신호의 크기를 기준으로 두 스피커 사이의 음원의 방향 정보를 결정하는 진폭 패닝(Amplitude Panning)이나 3차원 공간상에서 3개의 스피커를 이용하여 음원의 방향을 결정하는데 널리 사용되는 VBAP(Vector-Based Amplitude Panning)를 이용하면 객체별로 전송된 객체 신호에 대해서는 상대적으로 편리하게 유연한 렌더링을 구현할 수 있다. 따라서, 채널 신호 대신 객체 신호를 전송하여 스피커가 달라지는 환경에서도 용이하게 3D 사운드 장면을 제공할 수 있게 된다.In this situation, VBAP (Amplitude Panning), which determines the direction information of the sound source between two speakers based on the magnitude of the signal, or VBAP, which is widely used to determine the direction of the sound source using three speakers in three-dimensional space, Vector-Based Amplitude Panning) enables flexible rendering of object signals transmitted for each object. Therefore, by transmitting the object signal instead of the channel signal it is possible to easily provide a 3D sound scene even in an environment where the speaker is different.
도 6은 객체 신호 디코더 및 플렉서블 스피커 렌더링부가 결합된 연결된 구조를 도시한 도면이다. 6 is a diagram illustrating a coupled structure in which an object signal decoder and a flexible speaker renderer are combined.
도 5에서 설명한 바와 같이, 객체 신호를 이용할 경우 원하는 사운드 장면에 맞춰 객체를 음원으로 위치시키킬 수 있다는 장점이 있다. 이와 같은 장점이 반영된 객체 신호 디코더 및 플렉서블 렌더링부가 결합된 제 1 실시예(600) 및 제 2 실시예(601)를 설명하도록 한다.As described in FIG. 5, when an object signal is used, an object may be positioned as a sound source according to a desired sound scene. The first embodiment 600 and the second embodiment 601 in which the object signal decoder and the flexible renderer reflecting these advantages are combined will be described.
객체 신호 디코더 및 플렉서블 스피커 렌더링부가 결합된 제 1 실시예(600)는 믹스부(620)가 객체 디코더부(610)로부터 객체 신호를 전달받고, 믹싱 행렬로 표현된 위치정보를 입력받아 채널 신호 형태로 출력한다. 즉, 사운드 장면에 대한 위치 정보를 출력 채널에 대응되는 스피커로부터의 상대적인 정보로 표현되는 것이다. In a first embodiment 600 in which an object signal decoder and a flexible speaker renderer are combined, a mixer 620 receives an object signal from an object decoder 610 and receives position information represented by a mixing matrix to form a channel signal. Will output That is, the positional information on the sound scene is expressed as relative information from the speaker corresponding to the output channel.
출력된 채널 신호는 플렉서블 스피커 렌더링부(630)를 통해 플렉서블 렌더링되어 출력된다. 이때, 실제 스피커의 개수와 위치가 정해진 위치에 존재하지 않는 경우 해당 스피커의 위치정보를 입력받아 플렉서블 렌더링을 수행할 수 있다.The output channel signal is flexibly rendered through the flexible speaker renderer 630 and output. At this time, if the actual number and location of the speaker does not exist in the predetermined position can receive the position information of the speaker and perform flexible rendering.
이와 달리, 제 2 실시예(601)에서는 객체 디코더부(640)가 오디오 비트열 신호를 입력받아 객체 신호를 디코딩하면, 플렉서블 스피커 믹싱부(650)가 이를 전달받아 플렉서블 렌더링을 수행한다. 이때, 행렬 업데이트부(660)는 믹싱 행렬 및 스피커의 위치정보를 반영한 행렬을 플렉서블 스피커 믹싱부(650)에 전달함으로써 플렉서블 렌더링 수행시 이를 반영하게 된다. In contrast, in the second embodiment 601, when the object decoder 640 receives the audio bit string signal and decodes the object signal, the flexible speaker mixer 650 receives the audio bit string signal and performs flexible rendering. At this time, the matrix updater 660 transfers the matrix reflecting the mixing matrix and the location information of the speaker to the flexible speaker mixer 650 to reflect the result when performing the flexible rendering.
제 1 실시예(600)와 같이 채널 신호를 다시 다른 형태의 채널 신호로 렌더링하는 것은 제 2 실시예(601)와 같이 객체를 최종 채널에 직접 렌더링하는 경우보다 구현이 어렵다. 이와 관련하여 아래에서 구체적으로 설명하도록 한다.Rendering the channel signal back to another type of channel signal like the first embodiment 600 is more difficult to implement than rendering the object directly to the final channel as in the second embodiment 601. This will be described in detail below.
채널 신호가 입력으로 전송된 경우, 해당 채널에 대응되는 스피커의 위치가 임의의 위치로 변경되면 객체의 경우 같은 패닝 기법을 이용하여 구현되기 어려우므로 별도의 채널 매핑 프로세스가 필요하다. 이와 더불어, 객체 신호와 채널 신호에 대한 렌더링시 필요한 과정과 해결 방법이 다르기 때문에 객체 신호와 채널 신호가 동시에 전송되어 두 신호를 믹스한 형태의 사운드 장면을 연출하고자 하는 경우 공간의 부정합에 의한 왜곡이 발생하기 쉬운 문제가 발생한다.When a channel signal is transmitted as an input, when a speaker position corresponding to a corresponding channel is changed to an arbitrary position, an object cannot be implemented using the same panning technique, so a separate channel mapping process is required. In addition, since the process and solution required for rendering the object signal and the channel signal are different, when the object signal and the channel signal are transmitted at the same time to create a sound scene in which the two signals are mixed, distortion caused by the mismatch of the space Problems that are likely to arise.
이와 같은 문제를 해결하기 위하여 객체에 대한 유연한 렌더링을 별도로 수행하지 않고 채널 신호에 믹스를 먼저 수행한 후, 채널 신호에 대한 유연한 렌더링을 수행하도록 한다. 이때, HRTF(Head Related Transfer Function)을 이용한 렌더링 등도 위와 같은 방법과 마찬가지로 구현되는 것이 바람직하다.In order to solve such a problem, a mixture is first performed on the channel signal without separately performing the flexible rendering on the object, and then the flexible rendering on the channel signal is performed. In this case, the rendering using the HRTF (Head Related Transfer Function) is preferably implemented as in the above method.
이하에서는 도 7 내지 도 9를 참조하여 본 발명에 따른 오디오 신호 처리 장치 및 방법에 대하여 구체적으로 설명하도록 한다.Hereinafter, an audio signal processing apparatus and method according to the present invention will be described in detail with reference to FIGS. 7 to 9.
도 7은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치(700)의 블록도이다.7 is a block diagram of an audio signal processing apparatus 700 according to an embodiment of the present invention.
본 발명에 따른 오디오 신호 처리 장치(700)는 스피커 정보 입력부(710), 오디오 신호 수신부(720), 복호화부(730), 객체 판별부(740), 렌더링부(750) 및 합성부(760)를 포함한다.The audio signal processing apparatus 700 according to the present invention includes a speaker information input unit 710, an audio signal receiver 720, a decoder 730, an object discriminator 740, a renderer 750, and a synthesizer 760. It includes.
스피커 정보 입력부(710)는 사용자의 사용 가능한 스피커 정보를 입력받는다. The speaker information input unit 710 receives user's usable speaker information.
오디오 신호 수신부(720)는 채널신호 및/또는 객체 신호를 포함하는 오디오 비트열 신호를 수신한다. 즉, 오디오 비트열은 채널 신호만을 포함할 수 있으며, 객체 신호만을 포함할 수 있다. 또한, 오디오 비트열은 채널 신호와 객체 신호를 모두 포함할 수 있다.The audio signal receiver 720 receives an audio bit string signal including a channel signal and / or an object signal. That is, the audio bit string may include only the channel signal and may include only the object signal. In addition, the audio bit string may include both a channel signal and an object signal.
복호화부(730)는 오디오 비트열에 포함된 채널 신호 또는 객체 신호를 복호화한다. 이때, 복호화부(730)는 객체 신호에 대한 메타데이터를 복호화할 수 있다. 한편, 채널 신호는 USAC(Unified Speech and Audio Coding)와 같은 코어 코덱으로 복호화될 수 있다. 그리고 객체 신호는 USAC와 같은 코어 코덱으로 복호화될 수 있으며, 또한 SAOC(Spatial Audio Object Coding)와 같은 파라메트릭 코덱으로 복호화된 파라메트릭 객체 신호일 수 있다.The decoder 730 decodes a channel signal or an object signal included in the audio bit string. In this case, the decoder 730 may decode metadata regarding the object signal. Meanwhile, the channel signal may be decoded by a core codec such as Unified Speech and Audio Coding (USAC). The object signal may be decoded by a core codec such as USAC or may be a parametric object signal decoded by a parametric codec such as SAOC (Spatial Audio Object Coding).
객체 판별부(740)는 객체 신호에 대응하는 객체가 사용 가능한 스피커 영역 내에 위치하는지 여부를 판별한다. 즉, 객체 판별부(740)는 스피커 정보 입력부(710)에서 입력받은 사용 가능한 스피커 정보에 기초하여 렌더링할 객체가 스피커 영역 내에 위치하는지 여부를 판별한다. 이때, 하기에서 설명할 렌더링 설정부(755)는 객체가 스피커 영역 내에 위치하는지 여부에 따라 렌더링 방법을 설정하게 된다.The object determining unit 740 determines whether an object corresponding to the object signal is located within the available speaker area. That is, the object determining unit 740 determines whether the object to be rendered is located in the speaker area based on the available speaker information received from the speaker information input unit 710. In this case, the rendering setting unit 755 to be described below sets the rendering method according to whether the object is located in the speaker area.
렌더링부(750)는 복호화된 채널 신호를 렌더링하는 채널 렌더러(751), 복호화된 객체 신호를 렌더링하는 객체 렌더러(753)를 포함한다. 그리고 예외 객체인지 여부에 대하여 객체 판별부(740)에서 판별한 결과에 기초하여 렌더링 방법을 설정하는 렌더링 설정부(755)를 포함한다.The renderer 750 includes a channel renderer 751 that renders the decoded channel signal, and an object renderer 753 that renders the decoded object signal. And a rendering setting unit 755 for setting a rendering method based on a result determined by the object determining unit 740 as to whether the object is an exception object.
이때, 렌더링부(750)는 오디오 비트열 신호에 채널 신호만이 포함된 경우 채널 렌더러(751)로 하여금 채널 렌더링을 통해 렌더링을 하고 이를 합성부(760)에 전달한다. 이에 따라, 합성부(760)는 렌더링된 채널 신호를 출력한다. 채널 렌더러(751)는 포맷 컨버터(Format Converter)일 수 있으며, 스펙트럴 EQ를 더 포함할 수 있다.In this case, when only the channel signal is included in the audio bit string signal, the rendering unit 750 renders the channel renderer 751 through channel rendering and transmits the rendering to the synthesis unit 760. Accordingly, the combiner 760 outputs the rendered channel signal. The channel renderer 751 may be a format converter and may further include a spectral EQ.
이와 달리, 렌더링부(750)는 오디오 비트열 신호에 객체 신호만이 포함된 경우, 객체 렌더러(753)로 하여금 객체 렌더링을 통해 렌더링을 하고 이를 합성부(760)에 전달한다. 이에 따라, 합성부(760)는 렌더링된 객체 신호를 출력한다. 이때, 객체 렌더러(753)는 가상 VBAP(Vector Based Amplitude Panning) 방법을 통해 렌더링 할 수 있다. In contrast, when the audio bitstream signal includes only the object signal, the renderer 750 renders the object renderer 753 through object rendering and transmits the rendered object to the synthesizer 760. Accordingly, the combiner 760 outputs the rendered object signal. In this case, the object renderer 753 may render through a virtual VBAP (Vector Based Amplitude Panning) method.
이하에서는, 도 8을 참조하여 수신한 오디오 비트열 신호에 채널 신호와 객체 신호가 모두 포함된 경우에 대한 렌더링 방법을 설명하도록 한다.Hereinafter, a rendering method for a case in which both the channel signal and the object signal are included in the received audio bit string signal will be described with reference to FIG. 8.
도 8은 본 발명의 일 실시예에 따른 오디오 신호 처리 장치(700)에서 채널 신호 또는 객체 신호를 렌더링하는 과정을 설명하기 위한 도면이다.8 is a diagram illustrating a process of rendering a channel signal or an object signal in the audio signal processing apparatus 700 according to an embodiment of the present invention.
수신부(720)가 수신한 오디오 비트열 신호에 채널 신호 및 객체 신호가 모두 포함된 경우, 렌더링 설정부(755)는 객체 판별부(740)에서 객체가 사용 가능한 스피커 영역 내에 위치하는 객체인지 아니면, 예외 객체인지 여부에 대한 판별 결과에 기초하여 렌더링 방법을 설정할 수 있다.When the audio bit string signal received by the receiver 720 includes both a channel signal and an object signal, the rendering setting unit 755 is an object located within a speaker area where the object is usable by the object determining unit 740. The rendering method may be set based on the determination result of whether the object is an exception object.
먼저, 렌더링 설정부(755)는 객체 판별부(740)가 객체를 사용 가능한 스피커 영역 밖에 위치한 예외 객체인 것으로 판별한 경우, 객체 렌더러(753)는 객체 신호를 렌더링하고, 렌더링된 객체 신호를 채널 렌더러(751)에 전달한다. 채널 렌더러(751)는 전달받은 렌더링된 객체 신호를 채널 신호와 합성하고, 합성된 채널 신호를 렌더링할 수 있다. First, when the rendering setting unit 755 determines that the object determining unit 740 is an exception object located outside the available speaker area, the object renderer 753 renders an object signal and channels the rendered object signal. It passes to the renderer 751. The channel renderer 751 may synthesize the received rendered object signal with the channel signal and render the synthesized channel signal.
한편, 사용 가능한 스피커 영역 밖에 위치한 예외 객체의 경우, 기존 스피커만으로 재생할 경우 컨텐츠 제작자의 의도에 맞는 소리를 재생할 수 없다는 문제가 있다. 따라서, 예외 객체가 존재하는 경우 예외 객체의 위치에 대응하는 가상 스피커를 생성하고, 사용 가능한 스피커 정보 및 가상 스피커에 기초하여 렌더링을 수행할 수 있다. On the other hand, in the case of an exception object located outside the available speaker area, there is a problem in that when playing with the existing speaker only, the sound that is suitable for the intention of the content creator cannot be played. Therefore, when an exception object exists, a virtual speaker corresponding to the location of the exception object may be generated, and rendering may be performed based on available speaker information and the virtual speaker.
예를 들어 도 2를 참조하면, 22.2 채널에서 최상위 레이어(210)의 정중앙에 위치한 스피커가 부재하고, 최상위 레이어(210)의 정중앙에 위치한 스피커에서 재생되는 VoG(Voice of God)와 같은 소리를 재생하기 위한 신호가 수신될 경우, VoG에 해당하는 객체 신호를 최상위 레이어(210)의 기 설치된 스피커에 렌더링하고, 렌더링된 신호를 중간 레이어(220)에 다운믹스함으로써 예외 객체 신호를 처리할 수 있다.For example, referring to FIG. 2, a speaker located at the center of the top layer 210 is absent in 22.2 channels, and a sound such as VoG (Voice of God) played at a speaker located at the center of the top layer 210 is played. When receiving a signal for processing, an object signal corresponding to VoG may be rendered to a pre-installed speaker of the uppermost layer 210, and the mixed object signal may be downmixed to the intermediate layer 220 to process an exception object signal.
이와 더불어, 최상위 레이어(210)의 정중앙에 위치한 스피커뿐만 아니라 전면 또는 서라운드면에 위치한 스피커의 일부가 부재한 경우에도, 전면 또는 서라운드면에 부재한 스피커의 위치에 가상 스피커를 생성하여 예외 객체를 처리할 수 있다. 즉, 최상위 레이어(210)의 가상 스피커 및 기 설치된 스피커에 예외 객체 신호를 렌더링하고, 렌더링된 신호를 전달받은 최상위 레이어(210)에 위치한 가상 스피커 및 기 설치된 스피커와 동일 수직선 상에 위치한 중간 레이어(220) 상의 스피커로 다운믹스를 수행함으로써 예외 객체를 처리할 수 있다.In addition, even if a speaker located at the center of the top layer 210 as well as a part of the speaker located at the front or surround surface is absent, a virtual speaker is created at the position of the speaker located at the front or surround surface to handle the exception object. can do. That is, the exception object signal is rendered to the virtual speaker of the top layer 210 and the pre-installed speaker, and the middle layer located on the same vertical line as the virtual speaker and the pre-installed speaker located in the top layer 210 that received the rendered signal. The exception object may be processed by performing downmixing with the speaker on 220.
또한, 가상 스피커와 기 설치된 스피커 간의 VBAP 렌더링 방법에 의하여 예외 객체를 렌더링할 수 있다. 이와 같이, 예외 객체가 존재하는 경우 가상 스피커를 이용하여 렌더링할 수 있으며, 이때 적용되는 렌더링 방법은 위 예시에 한정되는 것은 아니고 다양한 방법에 의해 렌더링될 수 있다.In addition, the exception object may be rendered by the VBAP rendering method between the virtual speaker and the pre-installed speaker. As such, when an exception object exists, the virtual object may be rendered using the virtual speaker, and the rendering method applied at this time is not limited to the above example and may be rendered by various methods.
다시 도 8을 참조하면, 렌더링 설정부(755)는 객체 판별부(740)가 객체를 사용 가능한 스피커 영역 내에 위치한 것으로 판별한 경우, 제 1 단계 및 제 2 단계를 선택하여 렌더링하도록 설정할 수 있다. 이때, 제 1 단계는 채널 렌더러(751)로 하여금 채널 신호를 렌더링하고, 객체 렌더러(753)로 하여금 객체 신호를 렌더링하게 한 후, 렌더링된 채널 신호 및 렌더링된 객체 신호 각각을 합성부(760)에 전달하여 합성하게 할 수 있다. Referring back to FIG. 8, when the object determining unit 740 determines that the object is located within the available speaker area, the rendering setting unit 755 may set to select and render the first and second steps. In this case, the first step causes the channel renderer 751 to render the channel signal, the object renderer 753 to render the object signal, and then combines each of the rendered channel signal and the rendered object signal. It can be passed to and synthesized.
제 2 단계는 렌더링된 객체 신호를 채널 신호와 합성하고, 합성된 채널 신호를 채널 렌더러(751)로 하여금 렌더링하게 할 수 있다. 즉, 객체가 사용 가능한 스피커 영역 내에 위치한 경우, 제 1 단계에 따른 렌더링 방법뿐만 아니라, 예외 객체인 것으로 판별된 경우에 적용된 렌더링 방법에 의해서도 렌더링될 수 있다.The second step may synthesize the rendered object signal with the channel signal, and cause the channel renderer 751 to render the synthesized channel signal. That is, when the object is located within the available speaker area, it may be rendered not only by the rendering method according to the first step but also by the rendering method applied when it is determined that the object is an exception object.
다시 도 7을 참조하면, 합성부(760)는 렌더링된 채널 신호 및 렌더링된 객체 신호를 합성한다. 즉, 합성부(760)는 렌더링된 채널 신호와 렌더링된 객체 신호가 모두 존재하는 경우 이를 합성하고, 합성된 신호를 출력한다. 이와 달리, 채널 신호만이 존재하거나 객체 신호만이 존재하는 경우 별도의 합성 없이 채널 신호 또는 객체 신호를 출력한다.Referring back to FIG. 7, the synthesizer 760 synthesizes the rendered channel signal and the rendered object signal. That is, the synthesizer 760 synthesizes both the rendered channel signal and the rendered object signal, and outputs the synthesized signal. In contrast, when only the channel signal or only the object signal is present, the channel signal or the object signal is output without any synthesis.
한편, 오디오 비트열에 포함된 객체가 파라메트릭 코덱으로 복호화된 파라메트릭 객체 신호인 경우, 오디오 비트열에 개별 객체 신호가 포함된 경우와 상이한 방법에 의해 처리될 수 있다. 즉, 파라메트릭 객체 신호의 경우 파라매트릭 다운믹스 채널 신호에 객체 파라미터가 적용되고 입력된 타겟 렌더링 행렬에 맞춰 복호화 되는데, 이때, 출력되는 신호는 타겟이 되는 유연한 렌더링 채널에 바로 매핑될 수 있는 채널 신호로 출력되는 것을 기본으로 한다. 즉, 파라메트릭 복호화 과정에서 요구되는 렌더링 행렬의 출력 채널을 유연한 렌더링 채널에 대응되도록 할 경우 개별 객체 신호인 경우와 유사하게 타겟 채널 포맷으로 직접 렌더링이 구현될 수 있다. 이와 같이 얻게 되는 파라매트릭 객체의 공간 해상도가 채널 렌더러의 출력과 비교할 때 미스매치가 발생될 우려가 있는 경우는 마찬가지로 채널 신호에 합성할 수 있는 렌더링 행렬을 우선 적용하고 출력한 후, 채널 렌더러(751)로 하여금 렌더링하게 할 수 있다. Meanwhile, when the object included in the audio bit string is a parametric object signal decoded by a parametric codec, the object may be processed by a method different from that when the individual object signal is included in the audio bit string. That is, in the case of the parametric object signal, the object parameter is applied to the parametric downmix channel signal and decoded according to the input target rendering matrix. In this case, the output signal is a channel signal that can be directly mapped to the target flexible rendering channel. The output is based on. That is, when the output channel of the rendering matrix required in the parametric decoding process corresponds to the flexible rendering channel, the rendering may be directly performed in the target channel format similarly to the case of the individual object signal. If there is a risk of mismatching when the spatial resolution of the resulting parametric object is compared to the output of the channel renderer, the channel renderer 751 is first applied after outputting a rendering matrix that can be synthesized with the channel signal. Can be rendered.
이하에서는 도 9를 참조하여, 도 7 내지 8에서 설명한 오디오 신호 처리 장치(700)의 각 구성이 수행하는 단계에 대하여 설명하도록 한다.Hereinafter, with reference to FIG. 9, the steps performed by each component of the audio signal processing apparatus 700 described with reference to FIGS. 7 to 8 will be described.
도 9는 본 발명의 일 실시예에 따른 오디오 신호 처리 방법의 순서도이다.9 is a flowchart of an audio signal processing method according to an embodiment of the present invention.
본 발명에 따른 오디오 신호 처리 장치(700)에서의 오디오 신호 처리 방법은 사용자의 사용 가능한 스피커 정보를 입력받을 수 있으며, 또한, 채널 신호 또는 객체 신호 중 하나 이상을 포함하는 오디오 비트열 신호를 수신할 수 있다. 즉, 오디오 비트열은 채널 신호만을 포함하거나 객체 신호만을 포함할 수 있으며, 채널 신호 및 객체 신호를 모두 포함할 수 있다.The audio signal processing method in the audio signal processing apparatus 700 according to the present invention may receive usable speaker information of a user, and also receive an audio bit string signal including at least one of a channel signal and an object signal. Can be. That is, the audio bit string may include only the channel signal or only the object signal, and may include both the channel signal and the object signal.
이와 같이 오디오 비트열 신호를 수신하면, 본 발명에 따른 오디오 신호 처리 방법은 수신한 오디오 비트열 신호로부터 채널 신호 또는 객체 신호를 복호화한다(S110). 이때, 채널 신호는 USAC와 같은 코어 코덱으로 복호화될 수 있다. 객체 신호는 USAC와 같은 코어 코덱으로 복호화될 수 있으며, 또한 SAOC와 같은 파라메트릭 코덱으로 복호화된 파라메트릭 객체 신호일 수 있다.When the audio bit string signal is received as described above, the audio signal processing method according to the present invention decodes the channel signal or the object signal from the received audio bit string signal (S110). In this case, the channel signal may be decoded by a core codec such as USAC. The object signal may be decoded with a core codec such as USAC and may also be a parametric object signal decoded with a parametric codec such as SAOC.
다음으로, 복호화된 채널 신호 또는 객체 신호를 렌더링한다(S120). 이때, 상기 렌더링하는 단계는 상기 복호화된 채널 신호를 렌더링하고, 상기 렌더링된 채널 신호 및 렌더링된 객체 신호를 합성하는 제 1 방법 및 상기 렌더링된 객체 신호를 상기 채널 신호와 합성하고, 상기 합성된 채널 신호를 렌더링하는 제 2 방법 중 어느 하나를 선택적으로 수행하게 된다.Next, the decoded channel signal or object signal is rendered (S120). In this case, the rendering may include the first method of rendering the decoded channel signal, synthesizing the rendered channel signal and the rendered object signal, and synthesizing the rendered object signal with the channel signal, and the synthesized channel. Any one of the second methods of rendering the signal is selectively performed.
이와 같은 제 1 방법 및 제 2 방법을 선택하기 위해 본 발명에 따른 오디오 신호 처리 방법은 객체 신호에 대응하는 객체가 사용 가능한 스피커 영역 내에 위치하는지 여부를 판별하는 단계를 더 포함할 수 있다. 즉, 객체가 스피커 영역 밖에 있는 예외 객체인지 여부를 판별하는 것으로서, 예외 객체인지 여부에 따라 각각 상이한 방법으로 렌더링을 한다. 이에 대해 구체적으로 설명하면 다음과 같다.In order to select the first method and the second method, the audio signal processing method according to the present invention may further include determining whether an object corresponding to the object signal is located within an available speaker area. That is, as to determine whether the object is an exception object outside the speaker area, the rendering is performed in different ways depending on whether the object is an exception object. This will be described in detail below.
먼저, 예외 객체로 판별된 경우 객체 렌더러는 객체 신호를 렌더링하고, 렌더링된 객체 신호를 채널 렌더러에 전달한다. 채널 렌더러는 렌더링된 객체 신호와 채널 신호를 합성하고, 합성된 채널 신호를 렌더링할 수 있다. 이때, 채널 렌더러는 예외 객체의 위치에 대응하는 가상 스피커를 생성하고, 사용 가능한 스피커 정보 및 가상 스피커에 기초하여 렌더링을 수행할 수 있다. 채널 렌더러에서 렌더링하는 방법에 대해서는 도 8에서 설명하였으므로 구체적인 설명은 이하 생략하도록 한다.First, when determined as an exception object, the object renderer renders an object signal, and passes the rendered object signal to the channel renderer. The channel renderer may synthesize the rendered object signal and the channel signal and render the synthesized channel signal. In this case, the channel renderer may generate a virtual speaker corresponding to the location of the exception object and perform rendering based on the available speaker information and the virtual speaker. Since the method of rendering in the channel renderer has been described with reference to FIG. 8, a detailed description thereof will be omitted below.
이와 달리, 예외 객체가 아닌 것으로 판별된 경우 제 1 방법 및 제 2 방법을 선택하여 렌더링하도록 설정할 수 있다. 제 1 방법은 위에서 설명한 바와 같이 채널 렌더러로 하여금 채널 신호를 렌더링하고, 객체 렌더러로 하여금 객체 신호를 렌더링하게 한 후, 렌더링된 채널 신호 및 렌더링 된 객체 신호 각각을 합성하게 할 수 있다. Alternatively, when it is determined that the object is not an exception object, the first method and the second method may be selected and rendered. The first method may cause the channel renderer to render the channel signal as described above, cause the object renderer to render the object signal, and then synthesize each of the rendered channel signal and the rendered object signal.
제 2 방법은 렌더링된 객체 신호를 채널 신호와 합성하고, 합성된 채널 신호를 채널 렌더러로 하여금 렌더링하게 할 수 있다. 즉, 예외 객체가 아닌 경우, 제 1 방법에 따른 렌더링 방법뿐만 아니라, 예외 객체인 것으로 판별된 경우에 적용되는 렌더링 방법에 의해서도 렌더링하게 할 수 있다. 이때, 제 2 방법을 통한 렌더링 방법을 선택하는 방법으로써 일 실시예는 채널 렌더러의 렌더링 성능에 대한 판단이 될 수 있다. 즉, 채널 렌더러의 렌더링 성능은 입력 채널 포맷과 타겟 스피커 포맷의 상이성에 따라 예측이 가능한데, 이 값이 미리 설정한 기준 값 이하인 경우, 예외 객체가 아닌 경우라도 제 2 방법에 의한 렌더링을 수행하도록 할 수 있다. The second method may synthesize the rendered object signal with the channel signal and cause the channel renderer to render the synthesized channel signal. That is, when not an exception object, not only the rendering method according to the first method, but also the rendering method applied when it is determined that it is an exception object can be rendered. In this case, as a method of selecting a rendering method through the second method, an embodiment may be a determination about rendering performance of the channel renderer. That is, the rendering performance of the channel renderer can be predicted according to the difference between the input channel format and the target speaker format. If this value is less than or equal to a preset reference value, the rendering by the second method is performed even if it is not an exception object. Can be.
또한, 객체 렌더러는 모든 입력 객체 신호에 대해 일괄적으로 제 1 방법 및 제 2 방법을 선택하는 대신 일부 객체 신호에 대해서는 제 1 방법을, 다른 일부 객체 신호에 대해서는 제 2 방법을 선택하여 렌더링할 수 있다.In addition, the object renderer may select and render the first method for some object signals and the second method for some other object signals instead of selecting the first method and the second method for all input object signals. have.
다음으로, 렌더링된 채널 신호 및 객체 신호를 합성한다(S130). 즉, 렌더링된 채널 신호와 렌더링된 객체 신호가 모두 존재하는 경우 이를 합성하고, 합성된 신호를 출력한다. 이와 달리, 채널 신호만이 존재하거나 객체 신호만이 존재하는 경우 별도의 합성 없이 채널 신호 또는 객체 신호를 출력한다.Next, the rendered channel signal and the object signal are synthesized (S130). That is, when both the rendered channel signal and the rendered object signal exist, they are synthesized and the synthesized signal is output. In contrast, when only the channel signal or only the object signal is present, the channel signal or the object signal is output without any synthesis.
한편, 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치 및 방법은 내부 렌더러 및 외부 렌더러를 이용하여 입력된 오디오 비트열 신호를 각각 렌더링하고 이를 각각 재생할 수 있는바, 이에 대하여 도 10 내지 도 11을 참조하여 설명하도록 한다.On the other hand, the audio signal processing apparatus and method according to another embodiment of the present invention can render the audio bit string signal input by using an internal renderer and an external renderer, respectively, which is described with reference to FIGS. This will be described with reference.
도 10은 본 발명의 다른 실시예에 따른 오디오 신호 처리 장치(1000)의 블록도이다.10 is a block diagram of an audio signal processing apparatus 1000 according to another embodiment of the present invention.
본 발명에 따른 오디오 신호 처리 장치(1000)는 내부 렌더러(1030), 외부 렌더러(1040), 분배부(1050) 및 재생부(1060)를 포함한다.The audio signal processing apparatus 1000 according to the present invention includes an internal renderer 1030, an external renderer 1040, a distribution unit 1050, and a playback unit 1060.
먼저, 본 발명에 따른 오디오 신호 처리 장치(1000)는 오디오 신호 수신부(1010) 및 복호화부(1020)를 더 포함할 수 있다. 오디오 신호 수신부(1010)는 하나 이상의 채널 신호 또는 객체 신호 중 적어도 하나를 포함하는 오디오 비트열 신호를 수신할 수 있고, 복호화부(1020)는 오디오 비트열에 포함된 채널 신호 또는 객체 신호를 복호화할 수 있다. 이때, 복호화부(1020)는 복수의 객체 신호에 대한 메타데이터를 복호화할 수 있다.First, the audio signal processing apparatus 1000 according to the present invention may further include an audio signal receiver 1010 and a decoder 1020. The audio signal receiver 1010 may receive an audio bit string signal including at least one of one or more channel signals or object signals, and the decoder 1020 may decode a channel signal or object signal included in the audio bit string. have. In this case, the decoder 1020 may decode metadata regarding the plurality of object signals.
내부 렌더러(1030)는 복호화된 채널 신호 또는 객체 신호를 렌더링하며, 외부 렌더러(1040) 역시 복호화된 채널 신호 또는 객체 신호를 렌더링한다. 이때, 내부 렌더러(1030) 및 외부 렌더러(1040)는 VBAP(Vector Based Amplitude Panning) 렌더링에 기초하여 채널 신호 또는 객체 신호를 렌더링할 수 있다.The internal renderer 1030 renders the decoded channel signal or object signal, and the external renderer 1040 also renders the decoded channel signal or object signal. In this case, the internal renderer 1030 and the external renderer 1040 may render a channel signal or an object signal based on vector based amplitude panning (VBAP) rendering.
내부 렌더러(1030)는 MPEG-H의 경우 표준 렌더러에 대응하는 렌더러로서, 도 4에 도시된 3DA 렌더러(460)일 수 있으며, 외부 렌더러(1040)는 특정 제품에 포함된 렌더러이거나 개별적으로 개발된 렌더러일 수 있다. 내부 렌더러(1030) 및 외부 렌더러(1040)가 적용된 스피커 환경을 설명하면 다음과 같다.The internal renderer 1030 is a renderer corresponding to a standard renderer in the case of MPEG-H, and may be the 3DA renderer 460 illustrated in FIG. 4, and the external renderer 1040 may be a renderer included in a specific product or may be developed separately. It may be a renderer. A speaker environment to which the internal renderer 1030 and the external renderer 1040 are applied will be described below.
본 발명에 따른 오디오 신호 처리 장치(1000)의 스피커 환경은 예를 들어, 일반적인 라우드스피커(Loudspeaker)와 사운드 바(Sound bar)와 같이 별개의 재생 시스템을 구비하고 있는 경우, 일반적인 라우드스피커를 통해 재생되는 음원은 내부 렌더러(1030)를 통해 렌더링되고, 사운드 바를 통해 재생되는 음원은 외부 렌더러(1040)를 통해 렌더링될 수 있다. The speaker environment of the audio signal processing apparatus 1000 according to the present invention may be reproduced through a general loudspeaker, for example, when the speaker system is provided with a separate playback system such as a general loudspeaker and a sound bar. The sound source may be rendered through the internal renderer 1030, and the sound source reproduced through the sound bar may be rendered through the external renderer 1040.
또한, 외부 렌더러(1040)는 바이노럴 렌더러일 수 있다. 이에 따라 내부 렌더러(1030)에서 렌더링된 신호는 일반적인 라우드스피커에서 재생되고, 외부 렌더러(1040)에서 바이노럴 렌더링된 신호는 헤드폰과 같은 스피커 환경을 통해 재생될 수도 있다.In addition, the external renderer 1040 may be a binaural renderer. Accordingly, a signal rendered by the internal renderer 1030 may be reproduced in a general loudspeaker, and a signal binaurally rendered by the external renderer 1040 may be reproduced through a speaker environment such as headphones.
한편, 본 발명에 따른 오디오 신호 처리 장치(1000)에 있어서, 내부 렌더러(1030) 및 외부 렌더러(1040)가 적용된 스피커 환경은 이에 한정되는 것은 아니고, 다양한 렌더링 방법 및 스피커 환경이 적용될 수 있다.Meanwhile, in the audio signal processing apparatus 1000 according to the present invention, the speaker environment to which the internal renderer 1030 and the external renderer 1040 are applied is not limited thereto, and various rendering methods and speaker environments may be applied.
이와 같이 두 렌더러를 통해 독립적으로 처리된 신호는 같은 공간에서 동시에 재생될 수 있다. 이때, 렌더링된 신호가 동일 공간에서 동시에 재생되기 위해서는 내부 렌더러(1030) 및 외부 렌더러(1040)의 동기화가 필요하며, 이는 하기에서 설명할 지연 보상부(1070) 및 가중치 조절부(1080)를 통해 동시화시킬 수 있다.In this way, signals processed independently through two renderers may be reproduced simultaneously in the same space. In this case, in order for the rendered signal to be simultaneously reproduced in the same space, synchronization between the internal renderer 1030 and the external renderer 1040 is required, which is performed through the delay compensator 1070 and the weight adjusting unit 1080 to be described below. Can be synchronized.
분배부(1050)는 복호화된 채널 신호 또는 객체 신호를 내부 렌더러(1030) 및 외부 렌더러(1040)로 분배한다. 이때, 분배부(1050)는 복호화된 채널 신호 또는 객체 신호 중 하나 이상의 채널 신호 또는 객체 신호를 내부 렌더러(1030) 및 외부 렌더러(1040)에 분배한다.The distribution unit 1050 distributes the decoded channel signal or the object signal to the internal renderer 1030 and the external renderer 1040. In this case, the distribution unit 1050 distributes one or more channel signals or object signals among the decoded channel signals or object signals to the internal renderer 1030 and the external renderer 1040.
분배부(1050)는 복호화된 채널 신호 또는 객체 신호 중 하나 이상의 채널 신호 또는 객체 신호를 중복하여 내부 렌더러(1030) 및 외부 렌더러(1040)에 분배할 수 있다. 예를 들어, 제 1 내지 제 5 채널 신호를 수신한 경우, 분배부(1050)는 제 1 내지 제3 채널 신호를 내부 렌더러(1030)로 분배하고, 제 3 내지 제 5 채널 신호를 외부 렌더러(1040)에 분배하여, 제 3 채널 신호가 서로 중복되도록 내부 렌더러(1030) 및 외부 렌더러(1040)에 분배할 수 있다. 이때, 중복되는 경우가 최대인 경우, 내부 렌더러(1030) 및 외부 렌더러(1040)는 서로 같은 채널 신호 또는 객체 신호를 전달받게 된다. 즉, 분배부(1050)는 제 1 내지 제 5 채널 신호가 내부 렌더러(1030) 및 외부 렌더러(1040)에 공통적으로 입력되도록 분배할 수 있다.The distribution unit 1050 may overlap one or more channel signals or object signals among the decoded channel signals or object signals and distribute them to the internal renderer 1030 and the external renderer 1040. For example, when receiving the first to fifth channel signals, the distribution unit 1050 distributes the first to third channel signals to the internal renderer 1030 and distributes the third to fifth channel signals to the external renderer ( 1040, the third channel signal may be distributed to the internal renderer 1030 and the external renderer 1040 to overlap each other. In this case, when the maximum overlap occurs, the internal renderer 1030 and the external renderer 1040 receive the same channel signal or object signal. That is, the distribution unit 1050 may distribute the first to fifth channel signals to be commonly input to the internal renderer 1030 and the external renderer 1040.
이와 달리, 분배부(1050)는 내부 렌더러(1030) 및 외부 렌더러(1040)에 복호화된 채널 신호 또는 객체 신호가 중복되지 않도록 분배할 수 있다. 예를 들어, 제 1 내지 제 3 채널 신호는 내부 렌더러(1030)에 분배되고, 제 4 내지 제 5 채널 신호는 외부 렌더러(1040)에 분배되도록 할 수 있다.Alternatively, the distribution unit 1050 may distribute the decoded channel signal or the object signal to the internal renderer 1030 and the external renderer 1040 so as not to overlap. For example, the first to third channel signals may be distributed to the internal renderer 1030, and the fourth to fifth channel signals may be distributed to the external renderer 1040.
재생부(1060)는 내부 렌더러(1030) 및 외부 렌더러(1040)에서 각각 렌더링된 채널 신호 또는 객체 신호를 재생한다. 이때, 내부 렌더러(1030) 또는 외부 렌더러(1040)를 통해 렌더링된 채널 신호 또는 객체 신호는 각각 별개의 재생부(1060)를 통해 재생된다.The playback unit 1060 reproduces the channel signal or the object signal rendered by the internal renderer 1030 and the external renderer 1040, respectively. In this case, the channel signal or the object signal rendered through the internal renderer 1030 or the external renderer 1040 is reproduced through a separate playback unit 1060.
한편, 본 발명에 따른 오디오 신호 처리 장치(1000)는 지연 보상부(1070), 가중치 조절부(1080) 및 스피커 정보 입력부(1090)를 더 포함할 수 있다. Meanwhile, the audio signal processing apparatus 1000 according to the present invention may further include a delay compensator 1070, a weight adjuster 1080, and a speaker information input unit 1090.
지연 보상부(1070)는 내부 렌더러(1030)와 외부 렌더러(1040) 사이에 발생하는 시간 지연을 보상할 수 있다. 예를 들어, 외부 렌더러(1040)가 내부 렌더러(1030)보다 추가적인 시간 지연을 발생시킬 경우, 지연 보상부(1070)는 이를 고려하여 내부 렌더러(1030) 및 외부 렌더러(1040)가 동기화되도록 지연 시간을 보상하는 과정을 수행할 수 있다.The delay compensator 1070 may compensate for a time delay occurring between the internal renderer 1030 and the external renderer 1040. For example, when the external renderer 1040 generates an additional time delay than the internal renderer 1030, the delay compensator 1070 takes the delay time to synchronize the internal renderer 1030 and the external renderer 1040 in consideration of this. To compensate for this.
가중치 조절부(1080)는 내부 렌더러(1030) 및 외부 렌더러(1040) 각각의 출력 가중치를 조절하여 채널 신호 또는 객체 신호의 소리의 세기를 조절할 수 있다. 즉, 내부 렌더러(1030) 및 외부 렌더러(1040)를 통해 각각 렌더링된 채널 신호 또는 객체 신호는 동일한 공간에서 재생되므로, 가중치 조절부(1080)는 내부 렌더러(1030) 및 외부 렌더러(1040)의 소리의 세기를 조절하여 동기화시킬 수 있다.The weight adjusting unit 1080 may adjust the output weight of each of the internal renderer 1030 and the external renderer 1040 to adjust the sound intensity of the channel signal or the object signal. That is, since the channel signal or the object signal respectively rendered by the internal renderer 1030 and the external renderer 1040 are reproduced in the same space, the weight adjusting unit 1080 sounds the sound of the internal renderer 1030 and the external renderer 1040. You can synchronize by adjusting the intensity of.
스피커 정보 입력부(1090)는 사용자의 사용 가능한 스피커 정보를 입력받을 수 있다. 이때, 입력된 사용자의 사용 가능한 스피커 정보에 기초하여, 채널 신호 또는 객체 신호에 대응하는 채널 또는 객체의 위치가 사용 가능한 스피커 영역을 벗어난 경우, 분배부(1050)는 복호화된 채널 신호 또는 객체 신호를 외부 렌더러(1040)로 분배할 수 있고, 이에 따라, 외부 렌더러(1040)는 사용 가능한 스피커 영역에서 벗어난 채널 신호 또는 객체 신호를 렌더링할 수 있다.The speaker information input unit 1090 may receive usable speaker information. At this time, if the location of the channel or object corresponding to the channel signal or the object signal is out of the available speaker area based on the input speaker information of the user, the distribution unit 1050 may receive the decoded channel signal or the object signal. The external renderer 1040 may distribute to the external renderer 1040, and thus the external renderer 1040 may render a channel signal or an object signal deviating from the available speaker area.
이하에서는 도 11을 참조하여, 도 10에서 설명한 오디오 신호 처리 장치(1000)의 각 구성이 수행하는 단계에 대하여 설명하도록 한다.Hereinafter, with reference to FIG. 11, the steps performed by each component of the audio signal processing apparatus 1000 described with reference to FIG. 10 will be described.
도 11은 본 발명의 다른 실시예에 따른 오디오 신호 처리 방법의 순서도이다.11 is a flowchart of an audio signal processing method according to another embodiment of the present invention.
본 발명에 따른 오디오 신호 처리 장치(1000)에서의 오디오 신호 처리 방법은 먼저, 사용자의 사용 가능한 스피커 정보를 입력받을 수 있다. 이때, 사용자의 사용 가능한 스피커 환경은 예를 들어, 일반적인 라우드 스피커와 사운드 바로 이루어져 있을 수도 있고, 또는 사운드 바 대신 바이노럴 렌더링을 통한 렌더링된 신호를 입력받는 헤드폰일 수 있다. 사용자가 UI 등을 통해 사용 가능한 스피커 정보를 입력하면, 스피커 정보에 기초하여 채널 신호 또는 객체 신호에 대응하는 채널 또는 객체의 위치가 사용 가능한 스피커 영역에 벗어나는 것인지 여부를 판별하게 된다. 판별 결과 스피커 영역을 벗어난 경우 하기에서 설명하는 바와 같이 외부 렌더러(1040)를 통해 채널 신호 또는 객체 신호를 렌더링하고, 렌더링된 신호는 사운드 바 또는 헤드폰과 같은 재생 장치를 통해 재생될 수 있다.In the audio signal processing method of the audio signal processing apparatus 1000 according to the present invention, first, usable speaker information of a user may be input. In this case, the user's available speaker environment may include, for example, a general loudspeaker and a sound bar, or headphones that receive a rendered signal through binaural rendering instead of a sound bar. When the user inputs the speaker information available through the UI or the like, it is determined whether the position of the channel or the object corresponding to the channel signal or the object signal is out of the available speaker area based on the speaker information. If the determination result is out of the speaker region, the channel signal or the object signal is rendered through the external renderer 1040 as described below, and the rendered signal may be reproduced through a playback device such as a sound bar or headphones.
한편, 본 발명에 따른 오디오 신호 처리 방법이 적용되는 스피커 환경은 상기 설명한 적용예에 한정되는 것은 아니며, 본 발명에 따른 오디오 신호 처리 방법은 다양한 스피커 환경에서 적용될 수 있다.Meanwhile, the speaker environment to which the audio signal processing method according to the present invention is applied is not limited to the above-described application example, and the audio signal processing method according to the present invention may be applied in various speaker environments.
이와 더불어, 본 발명에 따른 오디오 신호 처리 방법은 하나 이상의 채널 신호 또는 객체 신호를 포함하는 오디오 비트열 신호를 수신하고, 수신한 오디오 비트열에 포함된 채널 신호 또는 객체 신호를 복호화할 수 있다(S230). 이때, 객체 신호에 대한 메타데이터를 복호화하고, 이에 기초하여 내부 렌더러(1030) 또는 외부 렌더러(1040)로 복호화된 메타데이터를 분배할 수 있다.In addition, the audio signal processing method according to the present invention may receive an audio bit string signal including at least one channel signal or object signal and decode the channel signal or object signal included in the received audio bit string (S230). . In this case, the metadata of the object signal may be decoded, and the decoded metadata may be distributed to the internal renderer 1030 or the external renderer 1040 based on this.
이와 같이 채널 신호 또는 객체 신호를 복호화한 뒤, 복호화된 채널 신호 또는 객체 신호 중 하나 이상의 채널 신호 또는 객체 신호를 내부 렌더러(1030) 및 외부 렌더러(1040)로 각각 분배한다(S210). 이때, 복호화된 채널 신호 또는 객체 신호가 사용 가능한 스피커 영역을 벗어난 경우, 복호화된 채널 신호 또는 객체 신호를 외부 렌더러(1040)로 분배한다.After decoding the channel signal or the object signal as described above, one or more channel or object signals of the decoded channel signal or object signal are distributed to the internal renderer 1030 and the external renderer 1040, respectively (S210). In this case, when the decoded channel signal or object signal is out of the available speaker area, the decoded channel signal or object signal is distributed to the external renderer 1040.
한편, 분배부(1050)는 오디오 비트열에 포함된 채널 신호 또는 객체 신호를 내부 렌더러(1030) 및 외부 렌더러(1040)에 중복되도록 분배할 수도 있고, 이와 달리 채널 신호 또는 객체 신호가 중복되지 않도록 분배할 수도 있다. 이에 대한 설명은 도 10에서 설명하였으므로, 구체적인 설명은 생략하도록 한다.On the other hand, the distribution unit 1050 may distribute the channel signal or the object signal included in the audio bit stream so as to overlap the internal renderer 1030 and the external renderer 1040, otherwise the channel signal or object signal is distributed so as not to overlap You may. Since this has been described with reference to FIG. 10, a detailed description thereof will be omitted.
다음으로, 내부 렌더러(1030) 및 외부 렌더러(1040)에 분배된 채널 신호 또는 객체 신호를 각각 렌더링한다(S220). 이때, 내부 렌더러(1030) 및 외부 렌더러(1040)는 VBAP 렌더링에 기초하여 채널 신호 또는 객체 신호를 렌더링할 수 있다. 한편, 내부 렌더러(1030)는 MPEG-H의 경우 표준 렌더러에 대응하는 렌더러로써, 도 4에 도시된 3DA 렌더러(460)일 수 있으며, 외부 렌더러(1040)는 특정 제품에 포함된 렌더러이거나 개별적으로 개발된 렌더러일 수 있다. Next, the channel signal or the object signal distributed to the internal renderer 1030 and the external renderer 1040 are respectively rendered (S220). In this case, the internal renderer 1030 and the external renderer 1040 may render a channel signal or an object signal based on the VBAP rendering. In the meantime, the internal renderer 1030 is a renderer corresponding to a standard renderer in the case of MPEG-H, and may be the 3DA renderer 460 illustrated in FIG. 4, and the external renderer 1040 may be a renderer included in a specific product or separately. It may be a developed renderer.
다음으로, 렌더링된 채널 신호 또는 객체 신호를 재생한다(S230). 이때, 내부 렌더러(1030) 및 외부 렌더러(1040)를 통해 렌더링된 채널 신호 또는 객체 신호는 각각 별개의 재생부(1060)를 통해 재생될 수 있다. 즉, 내부 렌더러(1030)는 일반적인 라우드스피커를 통해 재생될 수 있으며, 외부 렌더러(1040)는 사운드 바 또는 헤드폰과 같이 별도의 재생부(1060)를 통해 재생될 수 있다. 이와 같이 내부 렌더러(1030) 및 외부 렌더러(1040)를 통해 독립적으로 처리된 신호는 동일 공간 상에서 동시에 재생될 수 있다. 동일 공간에서 동시에 재생하기 위해서는 내부 렌더러(1030) 및 외부 렌더러(1040)를 동기화하는 과정이 필요하다.Next, the rendered channel signal or object signal is reproduced (S230). In this case, the channel signal or the object signal rendered through the internal renderer 1030 and the external renderer 1040 may be reproduced through separate playback units 1060. That is, the internal renderer 1030 may be reproduced through a general loudspeaker, and the external renderer 1040 may be reproduced through a separate playback unit 1060 such as a sound bar or headphones. As such, signals processed independently through the internal renderer 1030 and the external renderer 1040 may be simultaneously reproduced in the same space. In order to simultaneously play in the same space, a process of synchronizing the internal renderer 1030 and the external renderer 1040 is required.
따라서, 본 발명에 따른 오디오 신호 처리 방법은 내부 렌더러(1030) 및 외부 렌더러(1040)를 동기화하는 단계를 더 포함할 수 있다. Therefore, the audio signal processing method according to the present invention may further include synchronizing the internal renderer 1030 and the external renderer 1040.
구체적으로, 내부 렌더러(1030)와 외부 렌더러(1040) 사이에 발생하는 지연시간을 보상하는 단계를 더 포함할 수 있다. 예를 들어, 외부 렌더러(1040)가 내부 렌더러(1030)보다 추가적인 시간 지연을 야기하는 경우, 이를 고려하여 내부 렌더러(1030)의 시간 지연을 보상함으로써 두 렌더러가 동기화되도록 할 수 있다.Specifically, the method may further include compensating for a delay time occurring between the internal renderer 1030 and the external renderer 1040. For example, when the external renderer 1040 causes an additional time delay than the internal renderer 1030, the two renderers may be synchronized by compensating for the time delay of the internal renderer 1030 in consideration of this.
또한, 외부 렌더러(1040) 및 내부 렌더러(1030) 각각의 출력 가중치를 조절하여 채널 신호 또는 객체 신호의 소리의 세기를 조절하는 단계를 더 포함할 수 있다. 내부 렌더러(1030)에서 렌더링된 신호를 재생하는 스피커와 외부 렌더러(1040)에서 렌더링된 신호를 재생하는 스피커의 소리의 세기를 조절하기 위해 내부 렌더러(1030) 및 외부 렌더러(1040)의 출력 가중치를 조절함으로써, 동일한 공간상에서 재생될 때 소리가 왜곡되는 문제점을 해소할 수 있다.The method may further include adjusting the intensity of the sound of the channel signal or the object signal by adjusting the output weight of each of the external renderer 1040 and the internal renderer 1030. The output weights of the internal renderer 1030 and the external renderer 1040 are adjusted to adjust the intensity of the sound of the speaker that reproduces the signal rendered by the internal renderer 1030 and the speaker that reproduces the signal rendered by the external renderer 1040. By adjusting, it is possible to solve the problem that the sound is distorted when reproduced in the same space.
한편, 도 1 내지 도 11에서 설명한 본 발명예에 따른 오디오 신호 처리 장치 및 방법은 도 12에 도시된 오디오 재생 장치(1)에 의해 구현될 수 있는바, 이하에서 설명하도록 한다.Meanwhile, the audio signal processing apparatus and method according to the exemplary embodiments described with reference to FIGS. 1 to 11 may be implemented by the audio reproducing apparatus 1 shown in FIG. 12, which will be described below.
도 12는 본 발명에 따른 오디오 신호 처리 장치 및 방법이 구현된 장치의 일 예시를 도시한 도면이다.12 is a diagram illustrating an example of a device in which an audio signal processing device and method according to the present invention are implemented.
오디오 재생 장치(1)는 유무선 통신부(10), 사용자 인증부(20), 입력부(30), 신호 코딩부(40), 제어부(50) 및 출력부(60)를 포함할 수 있다.The audio reproducing apparatus 1 may include a wired / wireless communication unit 10, a user authentication unit 20, an input unit 30, a signal coding unit 40, a control unit 50, and an output unit 60.
유무선 통신부(10)는 유무선 통신 방식을 통해서 오디오 비트열 신호를 수신한다. 유무선 통신부(10)는 적외선 통신부, 블루투스부, 무선랜 통신부와 같은 구성을 포함할 수 있으며, 기타 여러가지 통신 방법으로 오디오 비트열 신호를 수신할 수 있다.The wired / wireless communication unit 10 receives an audio bit string signal through a wired / wireless communication method. The wired / wireless communication unit 10 may include a configuration such as an infrared communication unit, a Bluetooth unit, or a wireless LAN communication unit, and may receive an audio bit string signal through various other communication methods.
사용자 인증부(20)는 사용자 정보를 입력 받아 사용자 인증을 수행한다. 이때, 사용자 인증부(20)는 지문 인식부, 홍채 인식부, 안면 인식부, 음성 인식부 중 하나 이상을 포함할 수 있다. 즉, 지문, 홍채 정보, 얼굴 윤곽 정보, 음성 정보를 입력받아 사용자 정보로 변환하고, 기 등록된 사용자 정보와의 매칭 여부를 판단함으로써 사용자 인증을 수행할 수 있다.The user authentication unit 20 receives user information and performs user authentication. In this case, the user authentication unit 20 may include one or more of a fingerprint recognition unit, an iris recognition unit, a face recognition unit, and a voice recognition unit. That is, the user authentication may be performed by receiving a fingerprint, iris information, facial outline information, and voice information, converting the user information into a user information, and determining whether or not matching with the registered user information is performed.
입력부(30)는 사용자가 여러 종류의 명령을 입력하기 위한 입력 장치로서, 키패드부, 터치패드부, 리모컨부 중 하나 이상을 포함할 수 있다.The input unit 30 is an input device for the user to input various types of commands, and may include one or more of a keypad unit, a touch pad unit, and a remote controller unit.
신호 코딩부(40)는 유무선 통신부(10)를 통해 수신된 오디오 신호, 비디오 신호 또는 이들이 조합된 신호에 대하여 인코딩 또는 디코딩을 수행하고, 시간 도메인의 오디오 신호를 출력할 수 있다. 신호 코딩부(40)는 오디오 신호 처리 장치를 포함할 수 있으며, 오디오 신호 처리 장치는 본 발명에 따른 오디오 신호 처리 방법이 적용될 수 있다.The signal coding unit 40 may encode or decode an audio signal, a video signal, or a combination thereof received through the wire / wireless communication unit 10 and output an audio signal of a time domain. The signal coding unit 40 may include an audio signal processing apparatus, and the audio signal processing apparatus according to the present invention may be applied.
제어부(50)는 입력 장치들로부터 입력 신호를 수신하고, 신호 코딩부(40)와 출력부(60)의 모든 프로세스를 제어한다. 출력부(60)는 신호 코딩부(40)에 의해 생성된 출력 신호 등이 출력되며, 스피커부, 디스플레이부와 같은 구성요소를 포함할 수 있다. 이때, 출력 신호가 오디오 신호일 경우 출력 신호는 스피커로 출력되고, 비디오 신호일 경우 디스플레이를 통해 출력될 수 있다.The controller 50 receives an input signal from the input devices and controls all processes of the signal coding unit 40 and the output unit 60. The output unit 60 outputs an output signal generated by the signal coding unit 40, and may include components such as a speaker unit and a display unit. In this case, when the output signal is an audio signal, the output signal may be output to the speaker, and in the case of a video signal, the output signal may be output through the display.
참고로, 본 발명의 실시예에 따른 도 4, 도 6 내지 도 8, 도 10 및 도 12에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 구성 요소를 의미하며, 소정의 역할들을 수행한다.For reference, components shown in FIGS. 4, 6 through 8, 10, and 12 according to an embodiment of the present invention may be software or hardware such as a field programmable gate array (FPGA) or an application specific integrated circuit (ASIC). Means a component, and plays a role.
그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.However, 'components' are not meant to be limited to software or hardware, and each component may be configured to be in an addressable storage medium or may be configured to reproduce one or more processors.
따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.Thus, as an example, a component may include components such as software components, object-oriented software components, class components, and task components, and processes, functions, properties, procedures, and subs. Routines, segments of program code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays, and variables.
구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.Components and the functionality provided within those components may be combined into a smaller number of components or further separated into additional components.
한편, 본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.Meanwhile, an embodiment of the present invention may be implemented in the form of a recording medium including instructions executable by a computer, such as a program module executed by the computer. Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. In addition, computer readable media may include both computer storage media and communication media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. Communication media typically includes computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transmission mechanism, and includes any information delivery media.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The foregoing description of the present invention is intended for illustration, and it will be understood by those skilled in the art that the present invention may be easily modified in other specific forms without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are exemplary in all respects and not restrictive. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as distributed may be implemented in a combined form.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is shown by the following claims rather than the above description, and all changes or modifications derived from the meaning and scope of the claims and their equivalents should be construed as being included in the scope of the present invention. do.

Claims (21)

  1. 오디오 신호 처리 장치에 있어서,In the audio signal processing apparatus,
    사용자의 사용 가능한 스피커 정보를 입력받는 스피커 정보 입력부,Speaker information input unit for receiving the available speaker information of the user,
    채널 신호 및/또는 객체 신호를 포함하는 오디오 비트열 신호를 수신하는 수신부,A receiver configured to receive an audio bit string signal including a channel signal and / or an object signal;
    상기 오디오 비트열 신호에 포함된 상기 채널 신호 또는 객체 신호를 복호화하는 복호화부,A decoder which decodes the channel signal or the object signal included in the audio bit string signal;
    상기 객체 신호에 대응하는 객체가 상기 사용 가능한 스피커 영역 내에 위치하는지 여부를 판별하는 객체 판별부,An object discriminating unit determining whether an object corresponding to the object signal is located in the usable speaker area;
    상기 복호화된 채널 신호 및 상기 복호화된 객체 신호를 각각 렌더링하는 채널 렌더러 및 객체 렌더러를 포함하며, 상기 판별 결과에 기초하여 렌더링 방법을 설정하는 렌더링 설정부를 포함하는 렌더링부 및A rendering unit including a channel renderer and an object renderer for rendering the decoded channel signal and the decoded object signal, respectively, and a rendering setting unit configured to set a rendering method based on the determination result;
    상기 렌더링된 채널 신호 및 상기 렌더링된 객체 신호를 합성하는 합성부를 포함하는 오디오 신호 처리 장치.And a synthesizer configured to synthesize the rendered channel signal and the rendered object signal.
  2. 제 1 항에 있어서,The method of claim 1,
    상기 렌더링 설정부는,The rendering setting unit,
    상기 객체가 사용 가능한 스피커 영역 밖에 위치한 것으로 판별된 경우, If it is determined that the object is located outside the available speaker area,
    상기 렌더링된 객체 신호를 상기 채널 신호와 합성하고, 상기 합성된 채널 신호를 렌더링하는 것인 오디오 신호 처리 장치.And synthesize the rendered object signal with the channel signal and render the synthesized channel signal.
  3. 제 2 항에 있어서,The method of claim 2,
    상기 객체 렌더러는 상기 사용 가능한 스피커 영역 밖에 위치한 예외 객체에 대응하는 가상 스피커를 생성하고,The object renderer creates a virtual speaker corresponding to an exception object located outside the available speaker area,
    상기 사용 가능한 스피커 정보 및 상기 생성된 가상 스피커에 기초하여 상기 예외 객체를 렌더링하는 것인 오디오 신호 처리 장치.And render the exception object based on the available speaker information and the generated virtual speaker.
  4. 제 1 항에 있어서,The method of claim 1,
    상기 렌더링 설정부는,The rendering setting unit,
    상기 객체가 사용 가능한 스피커 영역 내에 위치한 것으로 판별된 경우, If it is determined that the object is located within the available speaker area,
    상기 채널 렌더러는 상기 채널 신호를 렌더링하고, 상기 합성부는 렌더링된 채널 신호 및 렌더링된 객체 신호를 합성하는 제 1 단계 및The channel renderer renders the channel signal, and the synthesis unit synthesizes the rendered channel signal and the rendered object signal;
    상기 렌더링된 객체 신호를 상기 채널 신호와 합성하고, 상기 합성된 채널 신호를 렌더링하는 제 2 단계 중 어느 하나를 선택적으로 수행하는 것인 오디오 신호 처리 장치.And synthesizing the rendered object signal with the channel signal, and selectively performing any one of a second step of rendering the synthesized channel signal.
  5. 제 1 항에 있어서,The method of claim 1,
    상기 복호화부는 상기 복수의 객체 신호에 대한 메타데이터를 복호화하는 것인 오디오 신호 처리 장치.And the decoder to decode metadata for the plurality of object signals.
  6. 오디오 신호 처리 장치에서의 오디오 신호 처리 방법에 있어서,An audio signal processing method in an audio signal processing apparatus,
    수신한 오디오 비트열로부터 채널 신호 또는 객체 신호를 복호화하는 단계,Decoding a channel signal or an object signal from the received audio bit stream;
    상기 복호화된 채널 신호 또는 객체 신호를 렌더링하는 단계 및Rendering the decoded channel signal or object signal; and
    상기 렌더링된 채널 신호 및 객체 신호를 합성하는 단계를 포함하되,Synthesizing the rendered channel signal and the object signal;
    상기 렌더링하는 단계는,The rendering step,
    상기 복호화된 채널 신호를 렌더링하고, 상기 렌더링된 채널 신호 및 렌더링된 객체 신호를 합성하는 제 1 방법 및 A first method of rendering the decoded channel signal and synthesizing the rendered channel signal and the rendered object signal; and
    상기 렌더링된 객체 신호를 상기 채널 신호와 합성하고, 상기 합성된 채널 신호를 렌더링하는 제 2 방법 중 어느 하나를 선택적으로 수행하는 것인 오디오 신호 처리 방법.And synthesizing the rendered object signal with the channel signal, and selectively performing any one of a second method of rendering the synthesized channel signal.
  7. 제 6 항에 있어서,The method of claim 6,
    사용자의 사용 가능한 스피커 정보를 입력받는 단계를 더 포함하되,Further comprising the step of receiving the available speaker information of the user,
    상기 객체가 사용 가능한 스피커 영역 밖에 위치한 것으로 판별된 경우, 상기 객체 신호는 제 2 방법에 따라 렌더링되는 것인 오디오 신호 처리 방법.And if it is determined that the object is located outside an available speaker area, the object signal is rendered according to a second method.
  8. 제 6 항에 있어서,The method of claim 6,
    상기 객체 신호에 대응하는 객체가 상기 사용 가능한 스피커 영역 내에 위치하는지 여부를 판별하는 단계를 더 포함하는 오디오 신호 처리 방법.And determining whether an object corresponding to the object signal is located in the usable speaker area.
  9. 제 6 항에 있어서,The method of claim 6,
    상기 채널 신호 또는 객체 신호 중 하나 이상을 포함하는 오디오 비트열 신호를 수신하는 단계를 더 포함하는 오디오 신호 처리 방법.And receiving an audio bit string signal comprising at least one of the channel signal and the object signal.
  10. 오디오 신호 처리 장치에 있어서,In the audio signal processing apparatus,
    복호화된 채널 신호 또는 복호화된 객체 신호를 렌더링하는 내부 렌더러 및 외부 렌더러,An internal renderer and an external renderer for rendering a decoded channel signal or a decoded object signal,
    상기 복호화된 채널 신호 또는 객체 신호를 상기 내부 렌더러 및 상기 외부 렌더러로 분배하는 분배부 및A distribution unit which distributes the decoded channel signal or object signal to the internal renderer and the external renderer;
    상기 내부 렌더러 및 외부 렌더러에서 각각 렌더링된 상기 채널 신호 또는 객체 신호를 재생하는 재생부를 포함하되,A reproduction unit for reproducing the channel signal or the object signal respectively rendered by the internal renderer and the external renderer,
    상기 내부 렌더러 또는 상기 외부 렌더러를 통해 렌더링된 채널 신호 또는 객체 신호는 각각 별개의 재생부를 통해 재생되는 것인 오디오 신호 처리 장치.And a channel signal or an object signal rendered through the internal renderer or the external renderer, respectively, through a separate playback unit.
  11. 제 10 항에 있어서,The method of claim 10,
    상기 내부 렌더러와 상기 외부 렌더러 사이에 발생하는 시간 지연을 보상하는 지연 보상부를 더 포함하는 오디오 신호 처리 장치.And a delay compensator for compensating for a time delay occurring between the internal renderer and the external renderer.
  12. 제 10 항에 있어서,The method of claim 10,
    상기 외부 렌더러 및 상기 내부 렌더러 각각의 출력 가중치를 조절하여 상기 채널 신호 또는 상기 객체 신호의 소리의 세기을 조절하는 가중치 조절부를 더 포함하는 오디오 신호 처리 장치.And a weight adjuster configured to adjust the output weight of each of the external renderer and the internal renderer to adjust the intensity of sound of the channel signal or the object signal.
  13. 제 10 항에 있어서,The method of claim 10,
    상기 분배부는 상기 복호화된 채널 신호 또는 상기 객체 신호 중 하나 이상의 채널 신호 또는 객체 신호를 중복하여 상기 내부 렌더러 및 외부 렌더러에 분배하는 것인 오디오 신호 처리장치.And the distribution unit distributes one or more channel signals or object signals of the decoded channel signal or the object signal to the internal renderer and the external renderer.
  14. 제 10 항에 있어서,The method of claim 10,
    상기 분배부는 상기 내부 렌더러 및 외부 렌더러에 상기 복호화된 채널 신호 또는 상기 객체 신호가 중복되지 않게 분배하는 것인 오디오 신호 처리장치.And the distribution unit distributes the decoded channel signal or the object signal to the internal renderer and the external renderer so that they do not overlap.
  15. 제 10 항에 있어서,The method of claim 10,
    사용자의 사용 가능한 스피커 정보를 입력받는 스피커 정보 입력부를 더 포함하되,Further comprising a speaker information input unit for receiving the user's available speaker information,
    상기 분배부는 상기 복호화된 채널 신호 또는 객체 신호가 상기 사용 가능한 스피커 영역을 벗어난 경우, 상기 복호화된 채널 신호 또는 객체 신호를 상기 외부 렌더러로 분배하는 것인 오디오 신호 처리 장치.And the distribution unit distributes the decoded channel signal or object signal to the external renderer when the decoded channel signal or object signal is out of the available speaker area.
  16. 제 10 항에 있어서,The method of claim 10,
    상기 복호화부는 상기 객체 신호에 대한 메타데이터를 복호화하는 것인 오디오 신호 처리장치.And the decoding unit decodes metadata about the object signal.
  17. 제 10 항에 있어서,The method of claim 10,
    상기 내부 렌더러 및 외부 렌더러는 VBAP 렌더링에 기초하여 상기 채널 신호 또는 객체 신호를 렌더링하는 것인 오디오 신호 처리 장치.And the inner renderer and the outer renderer render the channel signal or the object signal based on VBAP rendering.
  18. 오디오 신호 처리 장치에서의 오디오 신호 처리 방법에 있어서,An audio signal processing method in an audio signal processing apparatus,
    복호화된 채널 신호 또는 복호화된 객체 신호 중 하나 이상의 채널 신호 또는 객체 신호를 내부 렌더러 및 외부 렌더러로 각각 분배하는 단계,Distributing at least one channel signal or object signal of the decoded channel signal or the decoded object signal to the internal renderer and the external renderer, respectively;
    상기 내부 렌더러 및 외부 렌더러에 분배된 채널 신호 또는 객체 신호를 각각 렌더링하는 단계 및Rendering channel signals or object signals distributed to the internal renderer and the external renderer, respectively;
    상기 렌더링된 채널 신호 또는 객체 신호를 재생하는 단계를 포함하되,Reproducing the rendered channel signal or object signal,
    상기 분배하는 단계는,Distributing step,
    상기 복호화된 채널 신호 또는 객체 신호가 상기 사용 가능한 스피커 영역을 벗어난 경우, 상기 복호화된 채널 신호 또는 객체 신호를 상기 외부 렌더러로 분배하는 것인 오디오 신호 처리 방법.And if the decoded channel signal or object signal is out of the available speaker area, distributing the decoded channel signal or object signal to the external renderer.
  19. 제 18 항에 있어서,The method of claim 18,
    상기 내부 렌더러와 상기 외부 렌더러 사이에 발생하는 시간 지연을 보상하는 단계를 더 포함하는 오디오 신호 처리방법.Compensating for a time delay occurring between the internal renderer and the external renderer.
  20. 제 18 항에 있어서,The method of claim 18,
    상기 외부 렌더러 및 상기 내부 렌더러 각각의 출력 가중치를 조절하여 상기 채널 신호 또는 상기 객체 신호의 소리의 세기을 조절하는 단계를 더 포함하는 오디오 신호 처리 방법.And adjusting an output weight of each of the external renderer and the internal renderer to adjust the sound intensity of the channel signal or the object signal.
  21. 제 18 항에 있어서,The method of claim 18,
    사용자의 사용 가능한 스피커 정보를 입력받는 단계를 더 포함하는 오디오 신호 처리 방법.The audio signal processing method further comprising the step of receiving the available speaker information of the user.
PCT/KR2015/000452 2014-03-25 2015-01-15 Apparatus and method for processing audio signal WO2015147433A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2014-0034597 2014-03-25
KR1020140034597A KR20150111119A (en) 2014-03-25 2014-03-25 System and method for reproducing audio signal
KR1020140034595A KR20150111117A (en) 2014-03-25 2014-03-25 System and method for processing audio signal
KR10-2014-0034595 2014-03-25

Publications (1)

Publication Number Publication Date
WO2015147433A1 true WO2015147433A1 (en) 2015-10-01

Family

ID=54195900

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/000452 WO2015147433A1 (en) 2014-03-25 2015-01-15 Apparatus and method for processing audio signal

Country Status (1)

Country Link
WO (1) WO2015147433A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3833047A1 (en) * 2019-12-02 2021-06-09 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030018477A1 (en) * 2001-01-29 2003-01-23 Hinde Stephen John Audio User Interface
KR20080089308A (en) * 2007-03-30 2008-10-06 한국전자통신연구원 Apparatus and method for coding and decoding multi object audio signal with multi channel
US20090006106A1 (en) * 2006-01-19 2009-01-01 Lg Electronics Inc. Method and Apparatus for Decoding a Signal
US20100092014A1 (en) * 2006-10-11 2010-04-15 Fraunhofer-Geselischhaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a number of loudspeaker signals for a loudspeaker array which defines a reproduction space
WO2014014891A1 (en) * 2012-07-16 2014-01-23 Qualcomm Incorporated Loudspeaker position compensation with 3d-audio hierarchical coding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030018477A1 (en) * 2001-01-29 2003-01-23 Hinde Stephen John Audio User Interface
US20090006106A1 (en) * 2006-01-19 2009-01-01 Lg Electronics Inc. Method and Apparatus for Decoding a Signal
US20100092014A1 (en) * 2006-10-11 2010-04-15 Fraunhofer-Geselischhaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a number of loudspeaker signals for a loudspeaker array which defines a reproduction space
KR20080089308A (en) * 2007-03-30 2008-10-06 한국전자통신연구원 Apparatus and method for coding and decoding multi object audio signal with multi channel
WO2014014891A1 (en) * 2012-07-16 2014-01-23 Qualcomm Incorporated Loudspeaker position compensation with 3d-audio hierarchical coding

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3833047A1 (en) * 2019-12-02 2021-06-09 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
US11375265B2 (en) 2019-12-02 2022-06-28 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Similar Documents

Publication Publication Date Title
US9646620B1 (en) Method and device for processing audio signal
WO2018056780A1 (en) Binaural audio signal processing method and apparatus
JP5174527B2 (en) Acoustic signal multiplex transmission system, production apparatus and reproduction apparatus to which sound image localization acoustic meta information is added
WO2015147435A1 (en) System and method for processing audio signal
WO2014175669A1 (en) Audio signal processing method for sound image localization
WO2015105393A1 (en) Method and apparatus for reproducing three-dimensional audio
WO2015156654A1 (en) Method and apparatus for rendering sound signal, and computer-readable recording medium
WO2015147619A1 (en) Method and apparatus for rendering acoustic signal, and computer-readable recording medium
WO2014171706A1 (en) Audio signal processing method using generating virtual object
WO2014175668A1 (en) Audio signal processing method
JP2010258604A (en) Audio processor and audio processing method
WO2015037905A1 (en) Multi-viewer image and 3d stereophonic sound player system comprising stereophonic sound adjuster and method therefor
WO2014175591A1 (en) Audio signal processing method
WO2018101600A1 (en) Electronic apparatus and control method thereof
Jot et al. Beyond surround sound-creation, coding and reproduction of 3-D audio soundtracks
WO2019035622A1 (en) Audio signal processing method and apparatus using ambisonics signal
KR20140128567A (en) Audio signal processing method
WO2015147434A1 (en) Apparatus and method for processing audio signal
JP2009260458A (en) Sound reproducing device and video image sound viewing/listening system containing the same
WO2014021586A1 (en) Method and device for processing audio signal
WO2015147433A1 (en) Apparatus and method for processing audio signal
KR101949756B1 (en) Apparatus and method for audio signal processing
JP2008301149A (en) Sound field control method, sound field control program, and sound reproducing device
WO2013073810A1 (en) Apparatus for encoding and apparatus for decoding supporting scalable multichannel audio signal, and method for apparatuses performing same
US20190387272A1 (en) Display device and method of controlling display device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15768439

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15768439

Country of ref document: EP

Kind code of ref document: A1