WO2013183928A1 - 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기 - Google Patents

오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기 Download PDF

Info

Publication number
WO2013183928A1
WO2013183928A1 PCT/KR2013/004942 KR2013004942W WO2013183928A1 WO 2013183928 A1 WO2013183928 A1 WO 2013183928A1 KR 2013004942 W KR2013004942 W KR 2013004942W WO 2013183928 A1 WO2013183928 A1 WO 2013183928A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
frequency
time domain
window
resolution
Prior art date
Application number
PCT/KR2013/004942
Other languages
English (en)
French (fr)
Inventor
문한길
김현욱
이남숙
오은미
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to JP2015515943A priority Critical patent/JP2015525374A/ja
Priority to KR20137025181A priority patent/KR20150032614A/ko
Priority to CN201380041457.0A priority patent/CN104718572B/zh
Priority to EP13800468.4A priority patent/EP2860729A4/en
Publication of WO2013183928A1 publication Critical patent/WO2013183928A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Definitions

  • An object of the present invention is to provide a method and apparatus for avoiding unnecessary delay in performing time-frequency conversion processing / inverse conversion processing and a multimedia device employing the same.
  • An object of the present invention is to provide a method and apparatus for improving reconstructed sound quality while reducing processing delay by using a reduced overlap interval in performing time-frequency conversion processing / inverse conversion processing, and a multimedia device employing the same. have.
  • the audio signal encoding method may further include applying different block sizes in units of subbands corresponding to characteristics of the signal in the frequency domain in order to improve time-frequency resolution.
  • the performing of the analysis windowing may apply at least two windows designed to have the same overlap section except for the section having a window coefficient of 0 so as to be completely restored in the overlap section while having different lengths.
  • the audio signal decoding method may further include performing post-filtering corresponding to the pre-filtering performed in the encoding process on the signal in the time domain in which the synthesis windowing is performed, to restore the audio signal before resolution compensation. .
  • the performing of the composite windowing may apply at least two windows designed to have the same overlapping section except for the section having the window coefficient of 0 so as to allow full restoration in the overlapping section having different lengths.
  • an audio signal decoding apparatus comprising: a resolution restoring unit for restoring frequency resolution by demerging frequency bins on a subband basis with respect to a signal in a frequency domain decoded from a bitstream; An inverse transformer for inversely converting the signal in the frequency domain from which the resolution is restored to a signal in the time domain; A synthetic windowing unit performing synthesis windowing on the signal in the time domain by using a window designed to have an overlap period of less than 50%; And a post filtering unit configured to restore the audio signal before resolution compensation by performing post filtering corresponding to the pre-filtering performed in the encoding process on the signal in the time domain in which the synthesis windowing is performed.
  • time-frequency transform processing / inverse transform processing can be effectively applied in encoding and decoding of an audio signal.
  • time-frequency conversion processing / inverse conversion processing can be used without additional time delay in a high quality audio codec.
  • FIG. 1 is a block diagram showing the configuration of an audio encoding apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing the configuration of an audio decoding apparatus according to an embodiment of the present invention.
  • 3A and 3B are diagrams illustrating an example filter response of a prefilter or a post filter applied in the present invention.
  • FIG. 4 is a view for explaining an example of a window applied in the present invention.
  • 5A to 5C are diagrams for describing a time delay caused by encoding and decoding when using the window illustrated in FIG. 4.
  • 6A to 6C are diagrams for explaining examples of various windows applied in the present invention.
  • FIG. 7 illustrates an example in which the window illustrated in FIG. 6 is applied to each frame.
  • 8A and 8B illustrate the concept of resolution enhancement applied in the present invention.
  • FIG. 9 is a flowchart illustrating the operation of an audio encoding method according to an embodiment of the present invention.
  • FIG. 10 is a flowchart illustrating an operation of an audio decoding apparatus according to an embodiment of the present invention.
  • FIG. 12 is a block diagram showing a configuration of a multimedia device according to another embodiment of the present invention.
  • FIG. 13 is a block diagram showing the configuration of a multimedia device according to another embodiment of the present invention.
  • first and second may be used to describe various components, but the components should not be limited by the terms. The terms may be used only for the purpose of distinguishing one component from another component.
  • MPEG ACC series combines MDCT (filter bank) and psychoacoustic model to perform encoding.
  • ACC-ELD AAC-Enhanced Low Delay
  • Encoding is performed.
  • G.722.1 quantizes coefficients by applying MDCT to the entire band
  • WB Wide Band
  • WB Wide Band
  • the conversion unit 130 may generate a conversion coefficient of the frequency domain by converting the audio signal of the time domain in which the windowing process is performed in the analysis windowing unit 120.
  • the transform process may use DCT, Modified Discrete Cosine Transform (MDCT), or Fast Fourier Transform (FFT), but is not limited thereto.
  • the resolution enhancer 140 may adjust the time-frequency resolution in units of subbands with respect to the conversion coefficient of the frequency domain generated by the converter 130. For example, a relatively long block size is applied to the tone component or stationary component and a relatively short block size is applied to the frame where the tone component or stationary component and the transient component coexist. . As a result, the frequency resolution is increased while the tone resolution or stationary component is increased while the time resolution is decreased, and the frequency resolution is decreased while the time resolution is increased for the transient component, so that an adaptive resolution can be obtained. . Information on the applied block size may be included in the bitstream. In addition, the resolution enhancer 140 may merge the frequency bins in a low frequency band or a high frequency band on a subband basis.
  • a Walsh matrix of rank 2 n may be used to merge frequency bins existing in each subband.
  • the Walsh matrix may be derived from a Hadamard matrix of rank 2 n .
  • the resolution enhancer 140 may improve the frequency resolution of the low frequency band as a whole by merging frequency bins into the low frequency bands in units of subbands.
  • Other matrices may be used to merge the frequency bins present in each subband.
  • Information about the matrix used for merging the frequency bins may be included in the bitstream.
  • both the pre-filtering unit 110 and the resolution enhancing unit 140 may be used, or at least one may be used corresponding to the use of a device on which an encoding apparatus or a decoding apparatus is mounted. If necessary, a separate switching unit may be provided. When selectively used, a flag related to whether or not to perform pre-filtering or resolution enhancement may be added to the header of the bitstream so that a corresponding process may be performed in the decoding apparatus.
  • the decoder 210 may receive a bitstream and perform inverse quantization to obtain transform coefficients in a frequency domain.
  • the synthesis windowing unit 240 may perform synthesis windowing on the signal in the time domain provided from the inverse transform unit 230. To this end, the same window as the window applied by the analysis windowing unit 120 of the encoding apparatus 100 may be applied.
  • the synthesis windowing unit 240 may restore the signal in the time domain by performing an overlap and add process on the signal in the time domain to which the synthesis window is applied.
  • both the resolution reconstructor 220 and the post filter 250 may be used, or may be selectively used. For example, it may be selectively used by referring to a flag related to whether to perform pre-filtering or resolution enhancement included in the header of the bitstream.
  • the same window as that of the existing AAC codec is applied in the synthesis windowing unit 240 so as to correspond to the encoding apparatus 100, while the resolution reconstructing unit 220 and the post filtering unit 250 are additionally added. It is possible to improve the restored sound quality by including it and operating all or selectively.
  • the synthesis windowing unit 240 applies a single type of window, for example, a short window or a long window to be described later, so as to correspond to the encoding apparatus 100, and the resolution restoration unit 220
  • the post filtering unit 250 may be additionally included, and all or selectively may be operated to improve the restored sound quality.
  • FIG. 3 is a view illustrating an example of a filter response of a pre-filter or post-filter applied in the present invention, (a) is a filter response of a pre-filter implemented by a pole-zero comb filter, and (b) is a pre-filter of (a) Represents the filter response of the post filter corresponding to.
  • 3A may be used in an encoding apparatus
  • FIG. 3B may be used in a decoding apparatus.
  • the transfer function H pre (z) of the prefilter as shown in (a) of FIG. 3 and the post function H post (z) of the post filter as shown in (b) of FIG. It can be expressed as in Equation 1.
  • the encoder generates a modified audio signal by using a prefilter to attenuate noise components between the periodic components to emphasize the periodic components included in the audio signal, for example, harmonic components such as pitch. can do.
  • a prefilter to attenuate noise components between the periodic components to emphasize the periodic components included in the audio signal, for example, harmonic components such as pitch. can do.
  • an overall encoding process may be performed on the modified audio signal.
  • the decoding apparatus may perform overall decoding processing on the bitstream, and then restore the audio signal before prefiltering by using a post filter corresponding to the prefilter.
  • a window includes first and second zero intervals a1 and a2 having a window coefficient of zero, first and second edge sections W 1 and W 2 , and a first having a window coefficient of one. And second unity sections b1 and b2.
  • the second edge section W 2 of the window 410 and the first edge section W 1 of the window 430 may overlap.
  • the first and second edge sections W 1 and W 2 may be expressed as shown in Equation 3 below from the window function W (n) described in Equation 2 below.
  • n is the number of samples, and has a value of 0, ..., 2L-1, and L is the length of the overlap section, for example, 128 samples.
  • the first and second zero sections a1 and a2 and the first and second unit sections b1 and b2 are 448 samples. Can be.
  • a bitstream may be received and demultiplexed to extract transform coefficients of a coded frequency domain and parameters necessary for decoding.
  • steps 1030 and 1060 may be selectively or both performed in accordance with whether the encoding apparatus is processed.
  • the storage unit 1150 may store various programs required for the operation of the multimedia device 1100.
  • the communication unit 1210 receives at least one of an encoded bitstream and an audio signal provided from the outside or at least one of a reconstructed audio signal obtained as a result of decoding of the decoding module 1230 and an audio bitstream obtained as a result of encoding. You can send one. Meanwhile, the communication unit 1210 may be implemented substantially similarly to the communication unit 1110 of FIG. 11.
  • FIG. 13 is a block diagram illustrating a configuration of a multimedia apparatus including an encoding module and a decoding module according to an embodiment of the present invention.
  • a broadcast or music dedicated device including a voice communication terminal including a telephone, a mobile phone, a TV, an MP3 player, or the like, or a voice communication dedicated.
  • a terminal and a user terminal of a teleconferencing or interaction system may be included, but are not limited thereto.
  • the multimedia device 1100, 1200, 1300 may be used as a client, a server, or a transducer disposed between the client and the server.
  • the method according to the embodiments can be written in a computer executable program and can be implemented in a general-purpose digital computer operating the program using a computer readable recording medium.
  • data structures, program instructions, or data files that can be used in the above-described embodiments of the present invention can be recorded on a computer-readable recording medium through various means.
  • the computer-readable recording medium may include all kinds of storage devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include magnetic media, such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, floppy disks, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오신호 부호화방법은 프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하는 단계; 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하는 단계; 및 상기 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환하는 단계를 포함하고, 오디오신호 복호화방법은 비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하는 단계; 상기 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하는 단계; 및 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 시간 영역의 신호에 대하여 합성 윈도윙을 수행하는 단계를 포함한다.

Description

오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
본 발명은 오디오 신호의 부호화 및 복호화에 관한 것으로서, 좀 더 구체적으로는 시간 영역의 오디오 신호를 변환하고 부호화하여 주파수 영역의 변환계수를 생성하고, 주파수 영역의 변환계수를 복호화하고 역변환하여 시간 영역의 오디오 신호로 복원하는 방법 및 장치, 및 이를 채용하는 멀티미디어 기기에 관한 것이다.
최근 들어, VOIP(Voice Over Internet Protocol) 혹은 텔레컨퍼런싱 등과 같은 인터넷 기반 음성 통신 서비스뿐 아니라 클라우드 컴퓨팅과 같은 새로운 A/V 서비스에 대한 수요가 급증하고 있다. 이와 같이 미디어와 사용자간, 예를 들어 서버-클라이언트 환경에서의 인터랙티비티를 제공하는 새로운 A/V 서비스는 사용자의 몰입을 위하여 시간 지연을 줄일 필요가 있다.
그런데, 저지연과 고음질은 사실상 트레이드 오프 관계에 있다. 따라서, 새로운 A/V 서비스를 적절히 지원하기 위해서는, 사용자가 처해 있는 환경에 대응하여 복원 음질의 열화를 최소화시키면서 저지연을 달성하거나, 일정한 복원 음질을 유지하면서 저지연을 달성하거나, 복원 음질을 개선시키는 것과 동시에 저지연을 달성할 필요성이 크게 대두되고 있다.
본 발명의 기술적 과제는 오디오 신호의 부호화 및 복호화 과정에서 시간-주파수 변환 처리/역변환 처리를 효과적으로 적용하는 방법 및 장치와 이를 채용하는 멀티미디어 기기를 제공하는 데 있다.
본 발명의 기술적 과제는 시간-주파수 변환 처리/역변환 처리를 수행함에 있어서 불필요한 지연이 발생하지 않도록 하는 방법 및 장치와 이를 채용하는 멀티미디어 기기를 제공하는 데 있다.
본 발명의 기술적 과제는 시간-주파수 변환 처리/역변환 처리를 수행함에 있어서 감소된 오버랩 구간을 사용하여 처리지연을 줄이면서 복원 음질을 향상시킬 수 있는 방법 및 장치와 이를 채용하는 멀티미디어 기기를 제공하는 데 있다.
본 발명의 일실시 형태는 오디오신호 부호화방법으로서, 프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하는 단계; 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하는 단계; 및 상기 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환하는 단계를 포함할 수 있다.
상기 오디오신호 부호화방법은 상기 주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 신호에 대하여 서브밴드 단위로 저주파수 대역으로 주파수 빈들을 머징시키는 단계를 더 포함할 수 있다.
상기 오디오신호 부호화방법은 시간-주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 신호의 특성에 대응하여 서브밴드 단위로 서로 다른 블록 사이즈를 적용하는 단계를 더 포함할 수 있다.
상기 변형된 시간영역의 신호를 생성하는 단계는 프레임 단위로 주기적인 성분을 강조하면서 상기 주기적인 성분들 사이의 성분을 감쇠시킬 수 있다.
상기 분석 윈도윙을 수행하는 단계는 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 윈도우 계수가 0인 구간을 제외하고 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용할 수 있다.
본 발명의 다른 실시 형태는 오디오신호 복호화방법으로서, 비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하는 단계; 상기 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하는 단계; 및 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 시간 영역의 신호에 대하여 합성 윈도윙을 수행하는 단계를 포함할 수 있다.
상기 오디오신호 복호화방법은 상기 합성 윈도윙이 수행된 시간 영역의 신호에 대하여 부호화과정에서 수행된 프리 필터링에 대응되는 포스트 필터링을 수행하여 해상도 보상 이전의 오디오신호를 복원하는 단계를 더 포함할 수 있다.
상기 합성 윈도윙을 수행하는 단계는 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 윈도우 계수가 0인 구간을 제외하고 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용할 수 있다.
본 발명의 다른 실시 형태는 오디오신호 부호화장치로서, 프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하는 프리 필터링부; 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하는 분석 윈도윙부; 상기 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환하는 변환부; 및 상기 주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 신호에 대하여 서브밴드 단위로 저주파수 대역으로 주파수 빈들을 머징시키는 해상도 향상부를 포함할 수 있다.
본 발명의 다른 실시 형태는 오디오신호 복호화장치로서, 비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하는 해상도 복원부; 상기 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하는 역변환부; 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 시간 영역의 신호에 대하여 합성 윈도윙을 수행하는 합성 윈도윙부; 및 상기 합성 윈도윙이 수행된 시간 영역의 신호에 대하여 부호화과정에서 수행된 프리 필터링에 대응되는 포스트 필터링을 수행하여 해상도 보상 이전의 오디오신호를 복원하는 포스트 필터링부를 포함할 수 있다.
본 발명의 다른 실시 형태는 멀티미디어 기기로서, 오디오신호와 부호화된 비트스트림 중 적어도 하나를 수신하거나, 부호화된 오디오 신호와 복원된 오디오 중 적어도 하나를 송신하는 통신부; 및 비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하고, 상기 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하고, 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 시간 영역의 신호에 대하여 합성 윈도윙을 수행하는 복호화 모듈을 포함할 수 있다.
상기 멀티미디어 기기는 프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하고, 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하고, 상기 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환하는 부호화 모듈을 더 포함할 수 있다.
본 발명에 의하면, 오디오 신호의 부호화 및 복호화 과정에서 시간-주파수 변환 처리/역변환 처리를 효과적으로 적용할 수 있다.
본 발명에 의하면, 시간-주파수 변환 처리/역변환 처리를 수행함에 있어서 불필요한 지연이 발생하지 않도록 할 수 있다.
본 발명에 의하면, 시간-주파수 변환 처리/역변환 처리를 수행함에 있어서 감소된 오버랩 구간을 사용하여 처리 지연을 줄이면서 복원 음질을 향상시킬 수 있다.
본 발명에 의하면, 고성능의 오디오 코덱의 시간 지연을 줄일 수 있기 때문에 양방향 통신에서 시간-주파수 변환 처리/역변환 처리를 사용할 수 있다.
본 발명에 의하면, 고음질의 오디오 코덱에서 추가적인 시간 지연없이 시간-주파수 변환 처리/역변환 처리를 사용할 수 있다.
본 발명에 의하면, 기존의 오디오 코덱에서 다른 구성요소의 수정 혹은 변형없이 시간-주파수 변환 처리/역변환 처리와 관련된 시간 지연을 감소시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 오디오 부호화장치의 구성을 나타낸 블록도이다.
도 2는 본 발명의 일실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다.
도 3a 및 도 3b는 본 발명에서 적용된 프리 필터 혹은 포스트 필터의 필터 응답 예를 설명하는 도면이다.
도 4는 본 발명에서 적용되는 윈도우의 예를 설명하는 도면이다.
도 5a 내지 도 5c는 도 4에 도시된 윈도우를 사용하는 경우 부호화 및 복호화에 의해 발생하는 시간 지연을 설명하는 도면이다.
도 6a 내지 도 6c는 본 발명에서 적용되는 다양한 윈도우의 예를 설명하기 위한 도면이다.
도 7은 도 6에 도시된 윈도우가 각 프레임에 적용된 예를 설명하는 도면이다.
도 8a 및 도 8b는 본 발명에서 적용된 해상도 향상의 개념을 설명하는 도면이다.
도 9는 본 발명의 일실시예에 따른 오디오 부호화방법의 동작을 나타낸 플로우챠트이다.
도 10은 본 발명의 일실시예에 따른 오디오 복호화장치의 동작을 나타낸 플로우챠트이다.
도 11은 본 발명의 일실시예에 따른 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 12는 본 발명의 다른 실시예에 따른 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 13은 본 발명의 다른 실시예에 따른 멀티미디어 기기의 구성을 나타낸 블록도이다.
이하, 도면을 참조하여 본 발명의 실시 형태에 대하여 구체적으로 설명하기로 한다. 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하기로 한다.
어떤 구성요소가 다른 구성요소에 연결되어 있다거나 접속되어 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 수 있다.
실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성 단위로 이루어짐을 의미하지 않는다. 각 구성부는 설명의 편의상 각각의 구성부로 나열한 것으로, 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수개의 구성부로 나뉘어져 기능을 수행할 수 있다.
현재, 다수의 코덱 기술이 오디오 신호의 부호화/복호화에 이용되고 있다. 각 코덱 기술은 소정의 오디오 신호에 적합한 특성을 가지고, 해당 오디오 신호에 최적화되어 있기도 하다. 그 중에서도 MDCT(Modified Discrete Cosine Transform)가 사용되는 코덱으로는 MPEG의 AAC(Advanced Audio Coding) 시리즈, G.722.1, G.929.1, G.718, G.711.1, G.722 SWB, G.729.1/G718 SWB(Super Wide Band), G.722 SWB등이 있으며, 이들 코덱은 MDCT가 적용되는 필터 뱅크와 심리 음향 모델을 결합하여 부호화하는 지각적 코딩(perceptual coding) 방식에 기반하고 있다. MDCT는 오버랩 앤드 애드(overlap-and-add) 방식을 이용하여 시간 영역의 신호를 효과적으로 복원할 수 있다는 장점 때문에 오디오 코덱에서 널리 사용되고 있다.
이와 같이, MDCT를 이용한 다양한 코덱이 사용되고 있지만, 각 코덱은 구현하고자 하는 효과를 얻기 위해, 서로 다른 구조를 가지기도 한다. 예를 들어, MPEG의 ACC 시리즈는 MDCT(필터 뱅크)와 심리음향모델을 결합하여 부호화를 수행하며, 그 중 ACC-ELD(AAC-Enhanced Low Delay)는 저지연을 가지는 MDCT(필터 뱅크)를 이용하여 부호화를 수행한다. 또한, G.722.1은 전체 대역에 MDCT을 적용하여 그 계수를 양자화하며, G.718 WB(Wide Band)는 계층형 광대역(WB) 코덱 및 초광대역(SWB) 코덱에서 기본 코어의 양자화 오차를 입력으로 MDCT 기반의 향상 계층(enhanced layer)으로 부호화한다. 그 외에, EVRC(Enhanced Variable Rate Codec)-WB, G.729.1, G.718, G.711.1, G.718/G.729.1 SWB 등은 계층형 광대역 코덱 및 초광대역 코덱에서, 대역 분할된 신호를 입력으로 MDCT 기반의 향상 계층(enhanced layer)로 부호화한다.
도 1은 본 발명의 일실시예에 따른 오디오 부호화장치(100)의 구성을 나타낸 블록도이다.
도 1에 도시된 오디오 부호화장치(100)는 프리 필터링부(110), 분석 윈도윙부(120), 변환부(130), 해상도 향상부(140) 및 부호화부(150)를 포함할 수 있다. 부가경로(160)는 신호의 길이, 윈도우의 종류, 비트 할당 등 부호화를 위하여 필요로 하는 다양한 파라미터들이 부호화장치(100)의 각 구성부(110~150)에 전달될 수 있다. 실시예에서는 부가경로(160)가 존재하여 각 구성부(110~150)의 동작에 필요한 부가정보가 전달되도록 도시하였으나, 이는 설명의 편의를 위한 것으로서 별도의 부가경로(160)없이 도시된 각 구성부의 동작 순서를 따라서 신호와 함께 부가정보가 각 구성부 즉, 프리 필터링부(110), 분석 윈도윙부(120), 변환부(130), 해상도 향상부(140) 및 부호화부(150)에 순차적으로 전달될 수도 있다. 한편, 각 구성요소는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다. 여기서, 오디오는 음악 혹은 음성, 혹은 음악과 음성의 혼합신호를 의미할 수 있다.
도 1을 참조하면, 프리 필터링부(110)는 프레임 단위로 입력된 오디오 신호에 대하여 주기적인 성분을 검출하여 별도의 파라미터 형태로 표현하고 주기적인 성분이 제거된 변형된 오디오 신호를 생성할 수 있다. 여기서, 프레임은 통상적인 프레임, 프레임의 하위 프레임인 서브 프레임 혹은 서브 프레임의 하위 프레임을 지칭할 수 있다. 실시예에 따르면, 주기적인 성분은 피치와 같은 하모닉 성분을 포함할 수 있다. 주기적인 성분으로 피치를 예로 들 경우, 프리 필터링부(110)는 공지된 다양한 피치 검출 알고리즘을 이용하여 피치를 검출하고, 검출된 피치의 위치 및 진폭을 고려하여 필터계수를 설계하여 입력된 오디오 신호에 적용할 수 있다. 프리 필터링 처리는 모든 프레임에 대하여 적용하거나, 일차적으로 주기적인 성분이 검출된 프레임에 대하여 적용할 수 있다. 검출된 피치의 위치 및 진폭과 관련된 필터계수 및 파라미터는 비트스트림에 포함되어 전송될 수 있다.
분석 윈도윙부(120)는 프리 필터링부(110)로부터 제공되는 변형된 오디오 신호에 대하여 분석 윈도윙을 수행할 수 있다. 실시예에 따르면, 적용되는 윈도우는 50% 미만의 오버랩 구간을 가질 수 있다. 또한, 동일한 길이를 갖는 두개의 윈도우가 오버랩되거나, 서로 다른 길이를 갖는 두가지 윈도우가 오버랩되는 경우, 완전 복원(perfect reconstruction) 조건을 만족시키기 위하여 윈도우 계수가 0인 구간을 제외하고 오버랩 구간의 길이가 동일해지도록 설정할 수 있다. 이에 대해서는 도 4 내지 도 7을 참조하여 후술하기로 한다.
변환부(130)는 분석 윈도윙부(120)에서 윈도윙 처리가 수행된 시간 영역의 오디오 신호를 변환하여 주파수 영역의 변환계수를 생성할 수 있다. 변환 처리에는 DCT, MDCT(Modified Discrete Cosine Transform) 혹은 FFT(Fast Fourier Transform)를 사용할 수 있으나, 이에 한정되는 것은 아니다.
해상도 향상부(140)는 변환부(130)에서 생성되는 주파수 영역의 변환계수에 대하여 서브 밴드 단위로 시간-주파수 해상도를 조정할 수 있다. 예를 들어 톤 성분 혹은 스테이셔너리 성분과 트랜지언트 성분이 공존하는 프레임에 대하여 톤 성분 혹은 스테이셔너리 성분은 상대적으로 긴 블록 사이즈가 적용되고, 트랜지언트 성분은 상대적으로 짧은 블록 사이즈가 적용되도록 설정할 수 있다. 그 결과, 톤 성분 혹은 스테이셔너리 성분에 대해서는 주파수 해상도가 증가하는 한편 시간 해상도는 감소되고, 트랜지언트 성분에 대해서는 주파수 해상도는 감소되는 한편 시간 해상도는 증가되므로 신호 특성에 적응적인 해상도가 얻어질 수 있다. 적용된 블록 사이즈에 대한 정보는 비트스트림에 포함될 수 있다. 또한, 해상도 향상부(140)는 서브밴드 단위로 저주파수 대역 혹은 고주파수 대역으로 주파수 빈들을 머징시킬 수 있다. 각 서브밴드에 존재하는 주파수 빈들을 머징시키기 위하여 랭크 2n인 왈쉬 매트릭스(Walsh matrix)를 사용할 수 있다. 왈쉬 매트릭스는 랭크 2n 인 하다마드 매트릭스(Hadamard matrix)로부터 도출될 수 있다. 실시예에 따르면, 해상도 향상부(140)는 각 서브밴드 단위로, 저주파수 대역으로 주파수 빈들을 머징시킴으로써 프레임 전체적으로 저주파수 대역의 주파수 해상도를 향상시킬 수 있다. 각 서브밴드에 존재하는 주파수 빈들을 머징시키기 위하여 공지된 다른 매트릭스를 사용할 수도 있다. 주파수 빈들의 머징에 사용된 매트릭스에 대한 정보는 비트스트림에 포함될 수 있다.
부호화부(150)는 해상도 향상부(140)에서 해상도가 조정된 변환계수들에 대하여 양자화를 포함하는 부호화 처리를 수행할 수 있다. 부호화부(150)에서 부호화된 결과와 복호화를 위하여 필요로 하는 부호화 파라미터는 비트스트림을 형성하고, 비트스트림은 소정의 저장매체에 저장되거나 채널을 통하여 전송될 수 있다.
실시예에 따르면, 프리 필터링부(110)와 해상도 향상부(140)가 모두 사용될 수도 있고, 부호화장치 혹은 복호화장치가 탑재되는 기기의 용도에 대응하여 적어도 하나가 사용될 수 있으며, 이를 위하여 사용자의 선택을 필요로 하는 경우 별도의 절환부가 제공될 수도 있다. 선택적으로 사용된 경우에는, 복호화장치에서 대응하는 처리가 수행될 수 있도록 비트스트림의 헤더에 프리 필터링 처리 여부 혹은 해상도 향상 처리 여부와 관련된 플래그를 부가할 수 있다.
한편, 다른 실시예에 따르면 분석 윈도윙부(120)에서 기존의 AAC 코덱에서와 동일한 윈도우를 적용하는 한편, 프리 필터링부(110)와 해상도 향상부(140)를 추가적으로 포함시키고, 모두 혹은 선택적으로 동작시켜 복원 음질의 향상을 도모할 수 있다.
한편, 다른 실시예에 따르면, 분석 윈도윙부(120)에서 단일한 종류의 윈도우 예를 들면 후술하는 숏 윈도우 혹은 롱 윈도우를 적용하는 한편, 프리 필터링부(110)와 해상도 향상부(140)를 추가적으로 포함시키고, 모두 혹은 선택적으로 동작시켜 복원 음질의 향상을 도모할 수 있다.
도 2는 본 발명의 일실시예에 따른 오디오 복호화장치의 구성을 나타낸 블록도이다.
도 2에 도시된 오디오 복호화장치(200)는 복호화부(210), 해상도 복원부(220), 역변환부(230), 합성 윈도윙부(240) 및 포스트 필터링부(250)를 포함할 수 있다. 부가경로(260)는 신호의 길이, 윈도우의 종류, 비트 할당 등 복호화를 위하여 필요로 하는 다양한 파라미터들이 복호화장치(200)의 각 구성부(210~250)에 전달될 수 있다. 실시예에서는 부가경로(260)가 존재하여 각 구성부(210~250)의 동작에 필요한 부가정보가 전달되도록 도시하였으나, 이는 설명의 편의를 위한 것으로서 별도의 부가경로(260)없이 도시된 각 구성부의 동작 순서를 따라서 신호와 함께 부가정보가 각 구성부 즉, 복호화부(210), 해상도 복원부(220), 역변환부(230), 합성 윈도윙부(240) 및 포스트 필터링부(250) 에 순차적으로 전달될 수도 있다. 각 구성요소는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다. 여기서, 오디오는 음악 혹은 음성, 혹은 음악과 음성의 혼합신호를 의미할 수 있다.
도 2를 참조하면, 복호화부(210)는 비트스트림을 수신하여 역양자화를 수행하여 주파수 영역의 변환계수들을 얻을 수 있다.
해상도 복원부(220)는 복호화부(210)로부터 제공되는 주파수 영역의 변환계수들에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 해상도를 복원시킬 수 있다. 이를 위하여, 부호화장치(100)의 해상도 향상부(140)에서 주파수 빈들의 머징에 사용된 매트릭스의 역매트릭스를 사용할 수 있다.
역변환부(230)는 해상도 복원부(220)에 의해 해상도가 복원된 주파수 영역의 변환계수들을 역변환하여 시간 영역의 신호를 생성할 수 있다. 이를 위하여 부호화장치(100)의 변환부(130)에서 사용된 변환 처리에 대응되는 역변환 처리가 수행될 수 있다. 예를 들어, 부호화장치(100)의 변환부(130)에서 MDCT가 적용된 경우 역변환부(230)는 주파수 영역의 변환계수에 IMDCT를 적용하여 시간 영역의 신호로 변화할 수 있다
합성 윈도윙부(240)는 역변환부(230)로부터 제공되는 시간 영역의 신호에 대하여 합성 윈도윙을 수행할 수 있다. 이를 위하여, 부호화장치(100)의 분석 윈도윙부(120)에서 적용된 윈도우와 동일한 윈도우를 적용할 수 있다. 합성 윈도윙부(240)는 합성 윈도우가 적용된 시간 영역의 신호에 대하여 오버랩 앤드 애드 처리를 수행하여 시간 영역의 신호를 복원할 수 있다.
포스트 필터링부(250)는 합성 윈도윙부(240)로부터 제공되는 시간 영역의 신호에 대하여 포스트 필터링을 수행하여 부호화장치(100)에서의 프리 필터링 이전의 신호로 복원할 수 있다. 이를 위하여, 부호화장치(100)에서의 프리 필터링부(110)에서 사용된 프리 필터에 대응되는 포스트 필터를 사용할 수 있다. 즉, 이에 따르면 부호화장치(100)에서 제거된 주기적인 성분이 전송된 파라미터에 의해 복원될 수 있다.
실시예에 따르면, 해상도 복원부(220)와 포스트 필터링부(250)는 모두 사용될 수도 있고, 선택적으로 사용될 수도 있다. 예를 들면, 비트스트림의 헤더에 포함된 프리 필터링 처리 여부 혹은 해상도 향상 처리 여부와 관련된 플래그를 참조하여 선택적으로 사용할 수 있다.
한편, 다른 실시예에 따르면 합성 윈도윙부(240)에서 부호화장치(100)에 대응되도록 기존의 AAC 코덱에서와 동일한 윈도우를 적용하는 한편, 해상도 복원부(220)와 포스트 필터링부(250)를 추가적으로 포함시키고, 모두 혹은 선택적으로 동작시켜 복원 음질의 향상을 도모할 수 있다.
한편, 다른 실시예에 따르면, 합성 윈도윙부(240)에서 부호화장치(100)에 대응되도록 단일한 종류의 윈도우 예를 들면 후술하는 숏 윈도우 혹은 롱 윈도우를 적용하는 한편, 해상도 복원부(220)와 포스트 필터링부(250)를 추가적으로 포함시키고, 모두 혹은 선택적으로 동작시켜 복원 음질의 향상을 도모할 수 있다.
도 3은 본 발명에서 적용된 프리 필터 혹은 포스트 필터의 필터 응답 예를 설명하는 도면으로서, (a)는 pole-zero 콤 필터로 구현된 프리 필터의 필터 응답, (b)는 (a)의 프리 필터에 대응되는 포스트 필터의 필터 응답을 각각 나타낸다. 도 3의 (a)는 부호화장치, 도 3의 (b)는 복호화장치에서 사용될 수 있다.
도 3의 (a)에 도시된 바와 같은 프리 필터의 전달 함수(Hpre(z))와 도 3의 (b)에 도시된 바와 같은 포스트 필터의 전달 함수(Hpost(z))는 하기 수학식 1에서와 같이 나타낼 수 있다.
수학식 1
Figure PCTKR2013004942-appb-M000001
여기서, a, b 는 각각 콤 필터를 구현할 때 사용된 승산기의 승수를 나타낸다.
실시예에서는 프리 필터 및 포스트 필터를 pole-zero 콤 필터로 구현하였으나, 이에 한정되는 것은 아니다.
이와 같이 부호화장치에서는 프리 필터를 사용하여 오디오 신호에 포함되어 있는 주기적인 성분, 예를 들면 피치와 같은 하모닉 성분을 강조하기 위하여 주기적인 성분들 사이의 노이즈 성분을 감쇠시킴으로써, 변형된 오디오신호를 생성할 수 있다. 부호화장치에서는 변형된 오디오 신호에 대하여 전반적인 부호화 처리가 수행될 수 있다. 한편, 복호화장치에서는 비트스트림에 대한 전반적인 복호화 처리를 수행한 다음, 프리 필터에 대응되는 포스트 필터를 사용하여 프리 필터링 이전의 오디오 신호로 복원시킬 수 있다. 그 결과, 짧은 오버랩 구간의 윈도우를 사용하더라도 주파수 해상도를 향상시킬 수 있게 되어 복원된 오디오 신호의 지각적 품질의 열화를 방지할 수 있다.
도 4는 본 발명에서 적용되는 50% 미만의 오버랩 구간을 갖는 윈도우의 예를 설명하는 도면이다.
도 4를 참조하면, 윈도우는 0의 윈도우 계수를 갖는 제1 및 제2 제로 구간(a1, a2), 제1 및 제2 에지구간(W1, W2), 1의 윈도우 계수를 갖는 제1 및 제2 유니티 구간(b1, b2)으로 구성될 수 있다. 동일한 두개의 윈도우를 적용하는 경우, 윈도우(410)의 제2 에지구간(W2)과 윈도우(430)의 제1 에지구간(W1)이 오버랩될 수 있다. 이때, 제1 및 제2 에지구간(W1, W2)은 하기 수학식 2에 기재된 윈도우 함수(W(n))로부터 하기 수학식 3에서와 같이 나타낼 수 있다.
수학식 2
Figure PCTKR2013004942-appb-M000002
수학식 3
Figure PCTKR2013004942-appb-M000003
여기서 n은 샘플수로 0,...,2L-1의 값을 가지며, L은 오버랩 구간의 길이로서, 예를 들면 128 샘플을 나타낸다.
윈도우 함수(W(n))가 정현파 형태이기 때문에, 제1 및 제2 에지구간(W1, W2)은 하기 수학식 4 의 조건을 만족할 경우 오버랩 구간에서 완전 복원(perfect reconstruction)을 보장해 줄 수 있다.
수학식 4
Figure PCTKR2013004942-appb-M000004
한편, 상기 수학식 4의 조건을 만족하기 위해서는 윈도우의 제1 및 제2 제로구간(a1,a2)과 제1 및 제2 유니트 구간(b1,b2)은 다음 수학식 5로 나타낼 수 있다.
수학식 5
Figure PCTKR2013004942-appb-M000005
여기서, F는 윈도우의 프레임 사이즈를 나타내고, L은 오버랩 구간의 길이를 나타낸다.
이에 따르면, 윈도우의 프레임 사이즈가 1024 샘플인 경우 오버랩 구간의 길이가 128 샘플이므로, 제1 및 제2 제로구간(a1,a2)과 제1 및 제2 유니트 구간(b1,b2)는 448 샘플이 될 수 있다.
도 5는 도 4에 도시된 윈도우를 사용하는 경우 부호화 및 복호화에 의해 발생하는 시간 지연을 설명하는 도면이다.
도 5의 (a)는 부호화장치에 입력되는 오디오 신호를 나타내고, 도 5의 (b)는 부호화장치에 의해 수행되는 시간-주파수 변환을 나타내고, 도 5의 (c)는 복호화장치에 의해 수행되는 시간-주파수 역변환을 나타낸다.
일반적인 AAC 코덱에서는 부호화장치가 현재 프레임(510)에 적용할 윈도우(530)를 결정하기 위해 룩 어헤드(look-ahead) 샘플을 필요로 하였으나, 실시예에 따르면, 서로 다른 윈도우들간의 오버랩 구간의 길이를 모두 동일하게 설정함으로써, 현재 프레임(510)에 적용할 윈도우(530)를 결정하기 위한 룩 어헤드 샘플을 필요로 하지 않는다. 그 결과, 도 5의 (a)에 도시된 부호화장치에서는 시간-주파수 변환시 룩 어헤드 샘플에 의한 시간 지연이 발생하지 않는다.
한편 복호화장치를 살펴보면, 현재 프레임(510)을 시간-주파수 역변환하기 위하여 현재 프레임(510)과 오버랩되는 다음 프레임을 기다려야 한다. 일반적인 AAC 코덱에서는 오버랩 구간의 길이가 1024 샘플이므로 1024 샘플만큼의 시간 지연이 발생한다. 실시예에 따르면, 서로 다른 윈도우들간의 오버랩 구간의 길이를 128 샘플이라 할 경우 128 샘플만큼의 시간 지연이 발생할 수 있다.
또한, 현재 프레임(510)이 오디오 신호의 최초 프레임인 경우, 복호화장치는 기존 AAC 코덱에서와 마찬가지로 현재 프레임(510)을 처리하기 위한 1024 샘플의 시간 지연을 필요로 한다.
결론적으로 실시예에 따르면, 부호화 및 복호화에 의한 시간 지연(D)은 오버랩 구간에 의한 지연 및 현재 프레임(510)에 의한 지연을 포함하며, 샘플링 레이트를 48kHz라 할 때, 총 시간 지연은 24ms가 발생한다. 반면, 기존의 AAC 코덱의 부호화 및 복호화에 의한 시간 지연은 룩 어헤드 샘플에 의한 지연, 오버랩 구간에 의한 지연 및 현재 프레임(510)에 의한 자연을 포함하며, 샘플링 레이트를 48kHz라 할 때, 총 시간 지연은 54.7ms가 발생한다.
도 6은 본 발명에서 적용되는 다양한 윈도우의 예를 설명하기 위한 도면으로서, (a)는 숏 윈도우(short window)(이하 제1 윈도우라 칭함), (b)는 롱 윈도우(long window)(이하 제2 윈도우라 칭함), (c)는 미디엄 윈도우(medium window)(이하 제3 윈도우라 칭함)를 나타낸다. 여기서, 제2 윈도우는 도 4에 도시된 윈도우에 대응될 수 있다. 실시예에 따르면, 제1 윈도우와 제2 윈도우의 길이는 AAC 코덱에서 사용되는 숏 윈도우와 롱 윈도우의 길이와 동일하게 설정할 수 있다. 구체적으로, AAC 코덱을 예로 들면, 한 프레임의 길이가 1024 샘플인 경우, 숏 윈도우의 길이는 256 샘플이고, 롱 윈도우의 길이는 2048 샘플일 수 있으나, 당업자에게 자명한 범위내에서 다양하게 변경될 수 있다. 또한, 제3 윈도우는 제1 윈도우보다는 길고 제2 윈도우보다는 짧은 범위내에서, 오디오 신호의 특성에 따라서 다양한 길이를 갖도록 설계될 수 있다.
도 6의 (a)를 참조하면, 제1 윈도우는 0의 윈도우 계수를 갖는 제로 구간과 1의 윈도우 계수를 갖는 유니티 구간 없이 형성될 수 있다. 한편, 도 6의 (b)를 참조하면, 제2 윈도우는 50% 미만의 오버랩 구간을 가질 수 있다. 구체적으로, 제2 윈도우는 도 4에서와 같이 0의 윈도우 계수를 갖는 제1 및 제2 제로 구간(a1,a2) 및 1의 윈도우 계수를 갖는 제1 및 제2 유니티 구간(b1,b2)을 포함할 수 있다. 한편, 도 6의 (c)를 참조하면, 제3 윈도우는 제2 윈도우와 마찬가지로 50% 미만의 오버랩 구간을 가질 수 있다. 구체적으로, 제3 윈도우는 제1 및 제2 제로 구간(c1,c2), 및 제1 및 제2 유니티 구간(d1,d2)를 포함할 수 있다.
실시예에 따르면, 제3 윈도우는 제1 윈도우보다는 길고 제2 윈도우보다는 짧은 범위내에서 상기 수학식 5를 만족하도록 설계될 수 있다.
하기의 표 1은 제1 윈도우의 프레임 사이즈가 128 샘플이고, 제2 윈도우의 프레임 사이즈가 1024 샘플인 경우, 서로 다른 6가지의 제3 윈도우의 프레임 사이즈에 따른 제1 및 제2 제로구간과 제1 및 제2 유니트 구간의 길이를 나타낸 것이다.
표 1
윈도우 프레임 사이즈 (F) 제1 및 제2 제로구간 & 제1 및 제2 유니트구간 (R)
1024 (128 x 8) 448
896 (128 x 7) 384
768 (128 x 6) 320
640 (128 x 5) 256
512 (128 x 4) 192
384 (128 x 3) 128
256 (128 x 2) 64
128 (128 x 1) 0
일실시예에 따르면, 프레임의 길이, 제1 윈도우의 길이, 제2 윈도우의 길이, 및 제3 윈도우의 길이는 모두 2의 k 승으로 설정될 수 있다. 그 결과, 부호화 및 복호화에 필요로 하는 계산량을 감소시킬 수 있다.
도 7은 도 6에 도시된 각 윈도우(710, 720, 730, 740, 750)가 프레임에 적용된 예를 설명하는 도면이다. 프레임(N-1)은 제2 윈도우(720)가, 프레임(N)은 제1 윈도우(710)와 제3 윈도우(730)가, 프레임(N+1)은 두개의 제3 윈도우(740,750)가, 프레임(N+2)는 8개의 제1 윈도우(710)가 적용된 예를 보여준다.
실시예에 따르면 윈도우 계수가 0인 구간을 제외하고, 윈도우들 사이의 오버랩 구간의 길이가 모두 동일하도록 설정함으로써, 제1 윈도우(710)와 제2 윈도우(720)를 연결하는 롱 스타트 윈도우(long start window)와 롱 스톱 윈도우(long stop window)와 같은 트랜지션 윈도우를 필요로 하지 않게 된다. 그 결과, 윈도우 스위칭에 따른 시간 지연을 줄일 수 있다. 구체적으로, 제1 윈도우(710), 제2 윈도우(720), 제3 윈도우(730, 740, 750) 사이의 오버랩 구간의 길이는 제1 윈도우(710)의 길이의 1/2로 설정될 수 있다. AAC 코덱에서와 같이 제1 윈도우(710)의 길이가 256 샘플일 경우 제1 윈도우(710), 제2 윈도우(720), 제3 윈도우(730, 740, 750) 사이의 오버랩 구간의 길이는 128 샘플이 될 수 있다. 이와 같이, 윈도우들 사이의 오버랩 구간의 길이가 AAC 코덱에 비해 매우 작아지므로 오버랩 처리에 의한 시간 지연이 감소될 수 있다.
한편, 실시예에 따르면 트랜지언트가 존재하는 프레임의 경우, 프레임(N+2)에서와 같이 프레임 전체에 대하여 8개의 제1 윈도우를 적용할 수 있다. 다른 실시예에 따르면, 프레임(N)에서와 같이 트랜지언트 구간(t1)에 대하여 제1 윈도우(710)를 적용하고, 나머지 구간은 길이가 조정된 제3 윈도우(730)가 제1 윈도우(710)와 오버랩되도록 적용할 수 있다.
한편, 실시예에 따르면 신호의 특성이 변화하는 구간(t2)이 존재하는 프레임의 경우, 트랜지언트 구간(t1)이 존재하는 프레임에서와 같이 제1 윈도우와 제3 윈도우를 적용하거나, 2개의 제3 윈도우(740, 750)을 적용할 수 있다. 여기서, 신호의 특성은 오디오 신호의 주파수, 톤(tone), 세기 등을 포함할 수 있다. 신호의 특성이 변화하는 구간(t2)의 길이가 매우 짧으면, 두개의 제3 윈도우가 오버랩되도록 하여 부호화 효율을 향상시킬 수 있다. 이때, 하나의 제3 윈도우의 길이가 결정되면, 나머지 하나의 제3 윈도우의 길이는, 2 개의 제3 윈도우(740, 750)의 프레임 사이즈의 합이 제2 윈도우(720)의 프레임 사이즈와 동일하게 되도록 결정될 수 있다. 여기서, 제3 윈도우의 형태 또한 제2 윈도우와 마찬가지로 시간-주파수 변환의 완전 복원(perfect reconstruction) 조건을 만족하도록 결정될 수 있다.
도 8은 본 발명에 적용된 해상도 향상의 개념을 설명하는 도면으로서, (a)는 기존의 전체 밴드에 대하여 블록 사이즈가 적용된 예, (b)는 실시예에 따라서 서브 밴드 단위로 블록 사이즈가 적용된 예를 보여준다.
도 9는 본 발명의 일실시예에 따른 오디오 부호화방법의 동작을 나타낸 플로우챠트이다.
도 9를 참조하면, 910 단계에서는 프레임 단위로 시간영역의 신호를 수신할 수 있다.
920 단계에서는 수신된 시간영역의 신호에 대하여 프리 필터링을 수행할 수 있다. 이를 위하여, 오디오 신호에 대하여 중요하거나 지각적인 정보를 싣고 있는 하모닉 성분과 같은 주기적인 성분을 추출하고, 추출된 주기적인 성분을 강조하는 반면 주기적인 성분들 사이의 노이즈 성분을 감쇠시킬 수 있는 프리 필터를 사용할 수 있다. 프리 필터의 필터계수는 추출된 주기적인 성분의 위치 및 진폭에 따라서 결정될 수 있다. 프리 필터의 필터 계수는 미리 실험 혹은 시뮬레이션을 통하여 미리 결정되어 매 프레임에 대하여 적용될 수 있다.
930 단계에서는 프리 필터링 처리가 수행되어 변형된 시간영역의 신호에 대하여 분석 윈도윙을 수행할 수 있다. 분석 윈도윙을 위하여 도 6의 (a) 내지 (c)에 도시된 한가지 윈도우 혹은 두가지의 윈도우가 각 프레임에 적용될 수 있다.
940 단계에서는 분석 윈도윙 처리가 수행된 시간영역의 신호를 변환하여 주파수 영역의 변환계수들을 생성할 수 있다.
950 단계에서는 주파수 영역의 변환계수들에 대하여 시간-주파수 해상도 향상 처리를 수행할 수 있다. 이때, 신호의 특성에 적응적인 블록 사이즈를 적용하여 신호의 특성에 따라서 시간 해상도 혹은 주파수 해상도를 향상시키거나, 서브 밴드 단위로 저주파수 대역으로 주파수 빈들을 머징시켜 주파수 해상도를 향상시킬 수 있다.
960 단계에서는 해상도 향상 처리가 수행된 주파수 영역의 변환계수들을 양자화 및 엔트로피 부호화하고, 복호화에 필요한 파라미터들과 함께 다중화하여 비트스트림을 생성할 수 있다.
여기서, 920 단계와 950 단계는 모두 수행되거나, 선택적으로 수행될 수 있다.
도 10은 본 발명의 일실시예에 따른 오디오 복호화장치의 동작을 나타낸 플로우챠트이다.
도 10을 참조하면, 1010 단계에서는 비트스트림을 수신하여 역다중화하여 부호화된 주파수 영역의 변환계수와 복호화에 필요한 파라미터를 추출할 수 있다.
1020 단계에서는 1010 단계에서 제공되는 주파수 영역의 변환계수들에 대하여 엔트로피 복호화 및 역양자화를 수행할 수 있다. 이때 서브 밴드 단위로 서로 다른 블록 사이즈가 할당된 경우, 블록 사이즈에 대응하여 엔트로피 복호화 및 역양자화를 수행할 수 있다.
1030 단계에서는 역양자화된 주파수 영역의 변환계수들에 대하여 부호화장치에서의 해상도 향상 처리시 사용된 매트릭스의 역 매트릭스를 사용하여 해상도 향상 처리 이전의 상태로 해상도를 복원할 수 있다.
1040 단계에서는 해상도가 복원된 주파수 영역의 변환계수를 역변환하여 시간 영역의 신호를 생성할 수 있다.
1050 단계에서는 시간 영역의 신호에 대하여 합성 윈도윙을 수행할 수 있다. 이때, 각 프레임에 대하여 부호화장치에서의 분석 윈도윙에 사용된 윈도우와 동일한 윈도우를 적용할 수 있다. 합성 윈도윙 처리는 오버랩 앤드 애드 처리를 포함할 수 있다.
1060 단계에서는 부호화장치에서의 프리 필터링 이전의 상태로 복원시키기 위하여, 합성 윈도윙이 수행된 시간 영역의 신호에 대하여 포스트 필터링을 수행할 수 있다.
여기서, 1030 단계와 1060 단계는 부호화장치에서의 처리 여부에 대응하여 선택적으로 혹은 모두 수행될 수 있다.
상기한 실시예들은 바람직하게로는 MPEG(Moving Picture Expert Group) AAC(Advanced Audio Coding), MPEG AAC-LD(Low Delay) 혹은 MPEG AAC-ELD(Enhanced Low Delay)를 채용하는 코어 코더에 적용될 수 있으나, 변환 부호화를 채용하는 모든 코덱에 적용될 수 있다.
도 11은 본 발명의 일실시예에 따른 부호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 11에 도시된 멀티미디어 기기(1100)는 통신부(1110)와 부호화모듈(1130)을 포함할 수 있다. 또한, 부호화 결과 얻어지는 오디오 비트스트림의 용도에 따라서, 오디오 비트스트림을 저장하는 저장부(1150)을 더 포함할 수 있다. 또한, 멀티미디어 기기(1100)는 마이크로폰(1170)을 더 포함할 수 있다. 즉, 저장부(1150)와 마이크로폰(1170)은 옵션으로 구비될 수 있다. 한편, 도 11에 도시된 멀티미디어 기기(1100)는 임의의 복호화모듈(미도시), 예를 들면 일반적인 복호화 기능을 수행하는 복호화모듈 혹은 본 발명의 일실시예에 따른 복호화모듈을 더 포함할 수 있다. 여기서, 부호화모듈(1130)은 멀티미디어 기기(1100)에 구비되는 다른 구성요소(미도시)와 함께 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다.
도 11을 참조하면, 통신부(1110)는 외부로부터 제공되는 오디오와 부호화된 비트스트림 중 적어도 하나를 수신하거나, 복원된 오디오와 부호화모듈(1130)의 부호화결과 얻어지는 오디오 비트스트림 중 적어도 하나를 송신할 수 있다.
통신부(1110)는 무선 인터넷, 무선 인트라넷, 무선 전화망, 무선 랜(LAN), 와이파이(Wi-Fi), 와이파이 다이렉트(WFD, Wi-Fi Direct), 3G(Generation), 4G(4 Generation), 블루투스(Bluetooth), 적외선 통신(IrDA, Infrared Data Association), RFID(Radio Frequency Identification), UWB(Ultra WideBand), 지그비(Zigbee), NFC(Near Field Communication)와 같은 무선 네트워크 또는 유선 전화망, 유선 인터넷과 같은 유선 네트워크를 통해 외부의 멀티미디어 기기 혹은 서버와 데이터를 송수신할 수 있도록 구성된다.
부호화모듈(1130)은 일실시예에 따르면, 통신부(1110) 혹은 마이크로폰(1170)을 통하여 제공되는 시간 영역의 신호를 프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하고, 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하고, 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환할 수 있다. 또한, 주파수 해상도를 향상시키기 위하여, 주파수 영역의 신호에 대하여 서브밴드 단위로 저주파수 대역으로 주파수 빈들을 머징시킬 수 있다. 또한, 시간-주파수 해상도를 향상시키기 위하여, 주파수 영역의 신호의 특성에 대응하여 서브밴드 단위로 서로 다른 블록 사이즈를 적용할 수 있다. 변형된 시간영역의 신호는 프레임 단위로 주기적인 성분을 강조하면서 상기 주기적인 성분들 사이의 성분을 감쇠시켜 생성할 수 있다. 또한, 분석 윈도윙을 수행함에 있어서, 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용할 수 있다.
저장부(1150)는 멀티미디어 기기(1100)의 운용에 필요한 다양한 프로그램을 저장할 수 있다.
마이크로폰(1170)은 사용자 혹은 외부의 오디오신호를 부호화모듈(930)로 제공할 수 있다.
도 12는 본 발명의 일실시예에 따른 복호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 12에 도시된 멀티미디어 기기(1200)는 통신부(1210)와 복호화모듈(1230)을 포함할 수 있다. 또한, 복호화 결과 얻어지는 복원된 오디오신호의 용도에 따라서, 복원된 오디오신호를 저장하는 저장부(1250)을 더 포함할 수 있다. 또한, 멀티미디어 기기(1200)는 스피커(1270)를 더 포함할 수 있다. 즉, 저장부(1250)와 스피커(1270)는 옵션으로 구비될 수 있다. 한편, 도 12에 도시된 멀티미디어 기기(1200)는 임의의 부호화모듈(미도시), 예를 들면 일반적인 부호화 기능을 수행하는 부호화모듈 혹은 본 발명의 일실시예에 따른 부호화모듈을 더 포함할 수 있다. 여기서, 복호화모듈(1230)은 멀티미디어 기기(1200)에 구비되는 다른 구성요소(미도시)와 함께 일체화되어 적어도 하나의 이상의 프로세서(미도시)로 구현될 수 있다.
도 12를 참조하면, 통신부(1210)는 외부로부터 제공되는 부호화된 비트스트림과 오디오 신호 중 적어도 하나를 수신하거나 복호화 모듈(1230)의 복호화결과 얻어지는 복원된 오디오 신호와 부호화결과 얻어지는 오디오 비트스트림 중 적어도 하나를 송신할 수 있다. 한편, 통신부(1210)는 도 11의 통신부(1110)와 실질적으로 유사하게 구현될 수 있다.
복호화 모듈(1230)은 일실시예에 따르면, 통신부(1210)를 통하여 제공되는 비트스트림을 수신하고, 비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하고, 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하고, 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 시간 영역의 신호에 대하여 합성 윈도윙을 수행할 수 있다. 또한, 합성 윈도윙이 수행된 시간 영역의 신호에 대하여 부호화과정에서 수행된 프리 필터링에 대응되는 포스트 필터링을 수행하여 해상도 보상 이전의 오디오신호를 복원할 수 있다. 또한, 합성 윈도윙을 수행함에 있어서, 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용할 수 있다.
저장부(1250)는 복호화 모듈(1230)에서 생성되는 복원된 오디오신호를 저장할 수 있다. 한편, 저장부(1250)는 멀티미디어 기기(1200)의 운용에 필요한 다양한 프로그램을 저장할 수 있다.
스피커(1270)는 복호화 모듈(1230)에서 생성되는 복원된 오디오신호를 외부로 출력할 수 있다.
도 13은 본 발명의 일실시예에 따른 부호화모듈과 복호화모듈을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 13에 도시된 멀티미디어 기기(1300)는 통신부(1310), 부호화모듈(1320)과 복호화모듈(1330)을 포함할 수 있다. 또한, 부호화 결과 얻어지는 오디오 비트스트림 혹은 복호화 결과 얻어지는 복원된 오디오신호의 용도에 따라서, 오디오 비트스트림 혹은 복원된 오디오신호를 저장하는 저장부(1340)을 더 포함할 수 있다. 또한, 멀티미디어 기기(1300)는 마이크로폰(1350) 혹은 스피커(1360)를 더 포함할 수 있다. 여기서, 부호화모듈(1320)과 복호화모듈(1330)은 멀티미디어 기기(1300)에 구비되는 다른 구성요소(미도시)와 함께 일체화되어 적어도 하나 이상의 프로세서(미도시)로 구현될 수 있다.
도 13에 도시된 각 구성요소는 도 11에 도시된 멀티미디어 기기(1100)의 구성요소 혹은 도 12에 도시된 멀티미디어 기기(1200)의 구성요소와 중복되므로, 그 상세한 설명은 생략하기로 한다.
도 11 내지 도 13에 도시된 멀티미디어 기기(1100, 1200, 1300)에는, 전화, 모바일 폰 등을 포함하는 음성통신 전용단말, TV, MP3 플레이어 등을 포함하는 방송 혹은 음악 전용장치, 혹은 음성통신 전용단말과 방송 혹은 음악 전용장치의 융합 단말장치, 텔레컨퍼런싱 혹은 인터랙션 시스템의 사용자 단말이 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 멀티미디어 기기(1100, 1200, 1300)는 클라이언트, 서버 혹은 클라이언트와 서버 사이에 배치되는 변환기로서 사용될 수 있다.
한편, 멀티미디어 기기(1100, 1200, 1300)가 예를 들어 모바일 폰인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 유저 인터페이스 혹은 모바일 폰에서 처리되는 정보를 디스플레이하는 디스플레이부, 모바일 폰의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, 모바일 폰은 촬상 기능을 갖는 카메라부와 모바일 폰에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함할 수 있다.
한편, 멀티미디어 기기(1100, 1200, 1300)가 예를 들어 TV인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 수신된 방송정보를 디스플레이하는 디스플레이부, TV의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, TV는 TV에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함할 수 있다.
상기 실시예들에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예들에서 사용될 수 있는 데이터 구조, 프로그램 명령, 혹은 데이터 파일은 컴퓨터로 읽을 수 있는 기록매체에 다양한 수단을 통하여 기록될 수 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함할 수 있다. 컴퓨터로 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 또한, 컴퓨터로 읽을 수 있는 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 전송 매체일 수도 있다. 프로그램 명령의 예로는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상과 같이 본 발명의 일실시예는 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 일실시예는 상기 설명된 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 스코프는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 이의 균등 또는 등가적 변형 모두는 본 발명 기술적 사상의 범주에 속한다고 할 것이다.

Claims (20)

  1. 프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하는 단계;
    50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하는 단계; 및
    상기 분석 윈도윙이 수행된 시간 영역의 신호를 변환하여 주파수 영역의 변환계수들을 생성하는 단계를 포함하는 오디오신호 부호화방법.
  2. 제1 항에 있어서, 상기 방법은 상기 주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 변환계수들에 대하여 서브밴드 단위로 저주파수 대역으로 주파수 빈들을 머징시키는 단계를 더 포함하는 오디오 신호 부호화방법.
  3. 제1 항 또는 제2 항에 있어서, 상기 방법은 시간-주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 변환계수들의 특성에 대응하여 서브밴드 단위로 서로 다른 블록 사이즈를 적용하는 단계를 더 포함하는 오디오 신호 부호화방법.
  4. 제1 항에 있어서, 상기 변형된 시간영역의 신호를 생성하는 단계는 프레임 단위로 주기적인 성분들을 제거하는 오디오신호 부호화방법.
  5. 제1 항에 있어서, 상기 분석 윈도윙을 수행하는 단계는 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 윈도우 계수가 0인 구간을 제외하고 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용하는 오디오신호 부호화방법.
  6. 서로 다른 길이를 가지면서 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 이용하여, 시간 영역의 신호에 대하여 프레임 단위로 분석 윈도윙을 수행하는 단계;
    상기 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환하는 단계; 및
    주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 신호에 대하여 서브밴드 단위로 저주파수 대역으로 주파수 빈들을 머징시키는 단계를 포함하는 오디오신호 부호화방법.
  7. 제6 항에 있어서, 상기 방법은 시간-주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 신호의 특성에 대응하여 서브밴드 단위로 서로 다른 블록 사이즈를 적용하는 단계를 더 포함하는 오디오 신호 부호화방법.
  8. 제7 항에 있어서, 상기 프레임 단위로 주기적인 성분을 강조하기 위하여 상기 주기적인 성분들을 제거시켜 변형된 시간영역의 신호를 생성하고, 상기 변형된 시간영역의 신호를 상기 시간영역의 신호 대신 상기 분석 윈도윙을 위하여 제공하는 단계를 더 포함하는 오디오신호 부호화방법.
  9. 비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하는 단계;
    상기 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하는 단계; 및
    50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 시간 영역의 신호에 대하여 합성 윈도윙을 수행하는 단계를 포함하는 오디오신호 복호화방법.
  10. 제9 항에 있어서, 상기 방법은 상기 합성 윈도윙이 수행된 시간 영역의 신호에 대하여 부호화과정에서 수행된 프리 필터링에 대응되는 포스트 필터링을 수행하여 해상도 보상 이전의 오디오신호를 복원하는 단계를 더 포함하는 오디오신호 복호화방법.
  11. 제9 항에 있어서, 상기 합성 윈도윙을 수행하는 단계는 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 윈도우 계수가 0인 구간을 제외하고 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용하는 오디오신호 복호화방법.
  12. 프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하는 프리 필터링부;
    50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하는 분석 윈도윙부;
    상기 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환하는 변환부; 및
    상기 주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 신호에 대하여 서브밴드 단위로 저주파수 대역으로 주파수 빈들을 머징시키는 해상도 향상부를 포함하는 오디오신호 부호화장치.
  13. 제12 항에 있어서, 상기 해상도 향상부는 시간-주파수 해상도를 향상시키기 위하여, 상기 주파수 영역의 신호의 특성에 대응하여 서브밴드 단위로 서로 다른 블록 사이즈를 적용하는 오디오 신호 부호화장치.
  14. 제12 항에 있어서, 상기 분석 윈도윙부는 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 윈도우 계수가 0인 구간을 제외하고 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용하는 오디오신호 부호화장치.
  15. 비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하는 해상도 복원부;
    상기 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하는 역변환부;
    50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 시간 영역의 신호에 대하여 합성 윈도윙을 수행하는 합성 윈도윙부; 및
    상기 합성 윈도윙이 수행된 시간 영역의 신호에 대하여 부호화과정에서 수행된 프리 필터링에 대응되는 포스트 필터링을 수행하여 해상도 보상 이전의 오디오신호를 복원하는 포스트 필터링부를 포함하는 오디오신호 복호화장치.
  16. 제16 항에 있어서, 상기 합성 윈도윙부는 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 윈도우 계수가 0인 구간을 제외하고 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용하는 오디오신호 복호화장치.
  17. 오디오신호와 부호화된 비트스트림 중 적어도 하나를 수신하거나, 부호화된 오디오 신호와 복원된 오디오 중 적어도 하나를 송신하는 통신부; 및
    비트스트림으로부터 복호화된 주파수 영역의 신호에 대하여 서브밴드 단위로 주파수 빈들을 역머징시켜 주파수 해상도를 복원하고, 상기 해상도가 복원된 주파수 영역의 신호를 시간 영역의 신호로 역변환하고, 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 시간 영역의 신호에 대하여 합성 윈도윙을 수행하는 복호화 모듈을 포함하는 멀티미디어 기기.
  18. 제17 항에 있어서, 상기 멀티미디어 기기는 프레임 단위로 주파수 해상도를 보상시키기 위하여 변형된 시간 영역의 신호를 생성하고, 50% 미만의 오버랩 구간을 갖도록 설계되는 윈도우를 이용하여 상기 변형된 시간 영역의 신호에 대하여 분석 윈도윙을 수행하고, 상기 분석 윈도윙이 수행된 시간 영역의 신호를 주파수 영역의 신호로 변환하는 부호화 모듈을 더 포함하는 멀티미디어 기기.
  19. 제18 항에 있어서, 상기 분석 윈도윙 및 합성 윈도윙은 서로 다른 길이를 가지면서 오버랩 구간에서 완전 복원이 가능하도록 윈도우 계수가 0인 구간을 제외하고 동일한 오버랩 구간을 가지도록 설계되는 적어도 두가지의 윈도우를 적용하여 수행되는 멀티미디어 기기.
  20. 제1 항 내지 제11 항 중 어느 한 항에 기재된 방법을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2013/004942 2012-06-04 2013-06-04 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기 WO2013183928A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2015515943A JP2015525374A (ja) 2012-06-04 2013-06-04 オーディオ符号化方法及びその装置、オーディオ復号化方法及びその装置、並びにそれを採用するマルチメディア機器
KR20137025181A KR20150032614A (ko) 2012-06-04 2013-06-04 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
CN201380041457.0A CN104718572B (zh) 2012-06-04 2013-06-04 音频编码方法和装置、音频解码方法和装置及采用该方法和装置的多媒体装置
EP13800468.4A EP2860729A4 (en) 2012-06-04 2013-06-04 METHOD AND DEVICE FOR AUDIO CODING, METHOD AND DEVICE FOR AUDIO DECODING, AND MULTIMEDIA DEVICE EMPLOYING THEM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201261655269P 2012-06-04 2012-06-04
US61/655,269 2012-06-04

Publications (1)

Publication Number Publication Date
WO2013183928A1 true WO2013183928A1 (ko) 2013-12-12

Family

ID=49712271

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/004942 WO2013183928A1 (ko) 2012-06-04 2013-06-04 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기

Country Status (6)

Country Link
US (1) US20140046670A1 (ko)
EP (1) EP2860729A4 (ko)
JP (1) JP2015525374A (ko)
KR (1) KR20150032614A (ko)
CN (1) CN104718572B (ko)
WO (1) WO2013183928A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150069919A (ko) * 2013-12-16 2015-06-24 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
JP2017528752A (ja) * 2014-07-28 2017-09-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ハーモニックフィルタツールのハーモニック依存制御
CN112289343A (zh) * 2020-10-28 2021-01-29 腾讯音乐娱乐科技(深圳)有限公司 音频修复方法、装置及电子设备和计算机可读存储介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105378835B (zh) 2013-02-20 2019-10-01 弗劳恩霍夫应用研究促进协会 使用依赖瞬态位置的重叠对音频信号编码或译码的设备及方法
KR102231756B1 (ko) 2013-09-05 2021-03-30 마이클 안토니 스톤 오디오 신호의 부호화, 복호화 방법 및 장치
US20150100324A1 (en) * 2013-10-04 2015-04-09 Nvidia Corporation Audio encoder performance for miracast
KR102546098B1 (ko) * 2016-03-21 2023-06-22 한국전자통신연구원 블록 기반의 오디오 부호화/복호화 장치 및 그 방법
CN110870006B (zh) * 2017-04-28 2023-09-22 Dts公司 对音频信号进行编码的方法以及音频编码器
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
US10580424B2 (en) * 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
CN110830884B (zh) * 2018-08-08 2021-06-25 瑞昱半导体股份有限公司 音频处理方法与音频均衡器
WO2020094263A1 (en) 2018-11-05 2020-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
JP7416816B2 (ja) * 2019-03-06 2024-01-17 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン ダウンミキサ及びダウンミックス方法
CN113129910A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 音频信号的编解码方法和编解码装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
US20090299754A1 (en) * 2008-05-30 2009-12-03 Microsoft Corporation Factorization of overlapping tranforms into two block transforms
US20100250265A1 (en) * 2007-08-27 2010-09-30 Telefonaktiebolaget L M Ericsson (Publ) Low-Complexity Spectral Analysis/Synthesis Using Selectable Time Resolution
WO2011013981A2 (en) * 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US20120022881A1 (en) * 2009-01-28 2012-01-26 Ralf Geiger Audio encoder, audio decoder, encoded audio information, methods for encoding and decoding an audio signal and computer program

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8500843A (nl) * 1985-03-22 1986-10-16 Koninkl Philips Electronics Nv Multipuls-excitatie lineair-predictieve spraakcoder.
US5222189A (en) * 1989-01-27 1993-06-22 Dolby Laboratories Licensing Corporation Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio
US5899969A (en) * 1997-10-17 1999-05-04 Dolby Laboratories Licensing Corporation Frame-based audio coding with gain-control words
CN1296888C (zh) * 1999-08-23 2007-01-24 松下电器产业株式会社 音频编码装置以及音频编码方法
JP3566220B2 (ja) * 2001-03-09 2004-09-15 三菱電機株式会社 音声符号化装置、音声符号化方法、音声復号化装置及び音声復号化方法
JP5205373B2 (ja) * 2006-06-30 2013-06-05 フラウンホーファーゲゼルシャフト・ツア・フェルデルング・デア・アンゲバンテン・フォルシュング・エー・ファウ 動的可変ワーピング特性を有するオーディオエンコーダ、オーディオデコーダ及びオーディオプロセッサ
DE102006051673A1 (de) * 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
JP2008126382A (ja) * 2006-11-24 2008-06-05 Toyota Motor Corp 脚式移動ロボット、及びその制御方法
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
PL4231291T3 (pl) * 2008-12-15 2024-04-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder powiększania szerokości pasma audio, powiązany sposób oraz program komputerowy
JP5707842B2 (ja) * 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070083365A1 (en) * 2005-10-06 2007-04-12 Dts, Inc. Neural network classifier for separating audio sources from a monophonic audio signal
US20100250265A1 (en) * 2007-08-27 2010-09-30 Telefonaktiebolaget L M Ericsson (Publ) Low-Complexity Spectral Analysis/Synthesis Using Selectable Time Resolution
US20090299754A1 (en) * 2008-05-30 2009-12-03 Microsoft Corporation Factorization of overlapping tranforms into two block transforms
US20120022881A1 (en) * 2009-01-28 2012-01-26 Ralf Geiger Audio encoder, audio decoder, encoded audio information, methods for encoding and decoding an audio signal and computer program
WO2011013981A2 (en) * 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2860729A4 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150069919A (ko) * 2013-12-16 2015-06-24 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
WO2015093742A1 (en) 2013-12-16 2015-06-25 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding an audio signal
EP3069337A4 (en) * 2013-12-16 2017-05-10 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding an audio signal
US10186273B2 (en) 2013-12-16 2019-01-22 Samsung Electronics Co., Ltd. Method and apparatus for encoding/decoding an audio signal
KR102251833B1 (ko) * 2013-12-16 2021-05-13 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
JP2017528752A (ja) * 2014-07-28 2017-09-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ハーモニックフィルタツールのハーモニック依存制御
US10083706B2 (en) 2014-07-28 2018-09-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Harmonicity-dependent controlling of a harmonic filter tool
US11581003B2 (en) 2014-07-28 2023-02-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Harmonicity-dependent controlling of a harmonic filter tool
CN112289343A (zh) * 2020-10-28 2021-01-29 腾讯音乐娱乐科技(深圳)有限公司 音频修复方法、装置及电子设备和计算机可读存储介质
CN112289343B (zh) * 2020-10-28 2024-03-19 腾讯音乐娱乐科技(深圳)有限公司 音频修复方法、装置及电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
JP2015525374A (ja) 2015-09-03
CN104718572B (zh) 2018-07-31
CN104718572A (zh) 2015-06-17
EP2860729A4 (en) 2016-03-02
EP2860729A1 (en) 2015-04-15
US20140046670A1 (en) 2014-02-13
KR20150032614A (ko) 2015-03-27

Similar Documents

Publication Publication Date Title
WO2013183928A1 (ko) 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
KR102081043B1 (ko) 향상된 스펙트럼 확장을 사용하여 양자화 잡음을 감소시키기 위한 압신 장치 및 방법
WO2009110751A2 (ko) 오디오 신호 처리 방법 및 장치
WO2013141638A1 (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
Allamanche et al. MPEG-4 low delay audio coding based on the AAC codec
WO2006049204A1 (ja) 符号化装置、復号化装置、符号化方法及び復号化方法
JP4980325B2 (ja) 広帯域オーディオ信号の符号化/復号化装置およびその方法
WO2012053798A2 (en) Apparatus and method for determining weighting function having low complexity for linear predictive coding (lpc) coefficients quantization
KR20130025963A (ko) 대역폭 확장을 위한 스펙트럼 평탄도 제어
WO2010008175A2 (ko) 음성/오디오 통합 신호의 부호화/복호화 장치
JP2004173250A (ja) 複数因子分解可逆変換(multiplefactorizationreversibletransform)を用いたプログレッシブ・ツー・ロスレス埋込みオーディオ・コーダ(ProgressivetoLosslessEmbeddedAudioCoder:PLEAC)
JPWO2007088853A1 (ja) 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
KR20070070189A (ko) 음성 부호화 장치 및 음성 부호화 방법
WO2011002185A2 (ko) 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
TWI555010B (zh) 音訊編碼方法及裝置、音訊解碼方法以及非暫時性電腦可讀記錄媒體
WO2015037969A1 (ko) 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
WO2014092460A1 (en) Method of encoding and decoding audio signal and apparatus for encoding and decoding audio signal
WO2015037961A1 (ko) 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치
CN113314132A (zh) 一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置
JP2001242891A (ja) 符号化音声信号形式変換装置
KR101108955B1 (ko) 오디오 신호 처리 방법 및 장치
WO2015133795A1 (ko) 대역폭 확장을 위한 고주파 복호화 방법 및 장치
KR20090122143A (ko) 오디오 신호 처리 방법 및 장치
WO2012177067A2 (ko) 오디오 신호 처리방법 및 장치와 이를 채용하는 단말기
US20050209847A1 (en) System and method for time domain audio speed up, while maintaining pitch

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 20137025181

Country of ref document: KR

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13800468

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015515943

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE