KR20220005379A - 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법 - Google Patents
천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법 Download PDFInfo
- Publication number
- KR20220005379A KR20220005379A KR1020200186628A KR20200186628A KR20220005379A KR 20220005379 A KR20220005379 A KR 20220005379A KR 1020200186628 A KR1020200186628 A KR 1020200186628A KR 20200186628 A KR20200186628 A KR 20200186628A KR 20220005379 A KR20220005379 A KR 20220005379A
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- time
- domain
- frequency
- lpc
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 230000007704 transition Effects 0.000 title abstract description 8
- 238000007493 shaping process Methods 0.000 claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 claims abstract description 14
- 230000002123 temporal effect Effects 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 2
- 101100206286 Caenorhabditis elegans tns-1 gene Proteins 0.000 description 24
- 238000010586 diagram Methods 0.000 description 18
- 238000013139 quantization Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법이 개시된다. 오디오 부호화 방법은 입력 신호를 T/F(time-to-frequency) 변환하여 주파수 영역 신호를 출력하는 단계; 상기 주파수 영역 신호에 FDNS(frequency domain noise shaping) 부호화를 적용하여 상기 주파수 영역 신호에서 주파수축 포락선이 제거된 주파수 영역 잔차 신호를 출력하는 단계; 상기 주파수 영역 잔차 신호를 기초로 LPC(linear prediction coefficient) 분석을 수행하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및 상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계를 포함할 수 있다.
Description
본 발명은 오디오 부호화/복호화 장치 및 방법에 관한 것으로, 보다 구체적으로는 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 기술에 관한 장치 및 방법에 관한 것이다.
오디오 부호화 과정에서 천이구간 발생시 부호화 효율 저하 및 음질 왜곡이 발생할 수 있다. 예를 들어, 피아노 악기와 기타 연주가 동시에 발생하는 상황에서 두 악기의 소리가 천이 되거나 중첩된 구간을 부호화 하기 위해서는 다양한 부호화 방식이 적용되어야 하며, 많은 비트를 소진하게 된다.
종래의 오디오 부호화 방법은 천이구간이 발생할 경우 분석단위 프레임 길이를 달리 하거나, TNS (temporal noise shaping) 기술을 적용하여 천이 구간을 부분적으로 억제하였으나, 여전히 많은 비트 소진과 음질 왜곡을 발생시키고 있는 실정이다.
따라서, 천이구간의 발생에 따른 부호화 효율 감소 및 음질 손실을 최소화하는 방법이 요청되고 있다.
본 발명은 천이구간이 발생하여도 예외처리 없이 동일한 프레임워크로 동작 시켜 부호화를 진행함으로써 부호화 효율을 높이고 음질 손실을 최소화하는 하는 장치 및 방법을 제공한다.
본 발명의 일실시예에 따른 오디오 부호화 방법은 입력 신호를 T/F(time-to-frequency) 변환하여 주파수 영역 신호를 출력하는 단계; 상기 주파수 영역 신호에 FDNS(frequency domain noise shaping) 부호화를 적용하여 상기 주파수 영역 신호에서 주파수축 포락선이 제거된 주파수 영역 잔차 신호를 출력하는 단계; 상기 주파수 영역 잔차 신호를 기초로 LPC(linear prediction coefficient) 분석을 수행하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및 상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 주파수 영역 잔차 신호를 출력하는 단계는, 상기 입력 신호로부터 LPC 정보를 획득하는 단계; 상기 LPC 정보로부터 주파수축 포락선 정보를 획득하는 단계; 및 상기 주파수 영역 신호로부터 주파수축 포락선 정보를 제거하여 상기 주파수 영역 잔차 신호를 생성하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 주파수 영역 잔차 신호를 출력하는 단계는, LPC 정보를 주파수 영역의 LPC 주파수 정보로 변환하는 단계를 더 포함하고, 상기 포락선 정보를 획득하는 단계는, 상기 LPC 주파수 정보의 절대값을 상기 포락선 정보로 획득할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 시간 영역 잔차 신호를 출력하는 단계는, 상기 주파수 영역 잔차 신호로부터 LPC 계수를 획득하는 단계; 및 상기 LPC 계수로 상기 주파수 영역 잔차 신호를 LPC 분석하여 주파수축 포락선 정보와 시간축 포락선 정보가 제거된 시간 영역 잔차 신호를 출력하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법은 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력하는 단계; 상기 시간 영역 잔차 신호를 LPC 분석하여 주파수 영역 잔차 신호를 출력하는 단계; 상기 주파수 영역 잔차 신호에 FDNS 복호화를 수행하여 주파수 영역 신호를 출력하는 단계; 주파수 영역 신호를 F/T (frequency-to-time) 변환하여 시간 영역 신호를 출력하는 단계; 및 상기 시간 영역 신호에 TDAC(time domain aliasing cancellation)를 수행하여 입력 신호를 복원하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 수신 신호는, 오디오 부호화 장치에 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 주파수 영역 잔차 신호로부터 획득한 LPC 계수, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고, 상기 시간 영역 잔차 신호를 출력하는 단계는, 상기 비트스트림을 역양자화하여 상기 시간 영역 잔차 신호를 복원할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 주파수 영역 잔차 신호를 출력하는 단계는, 상기 수신 신호에 포함된 LPC 계수로 상기 시간 영역 잔차 신호를 LPC 합성하여 시간축 포락선 정보가 복원된 주파수 영역 잔차 신호를 출력할 수 있다.]
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 주파수 영역 신호를 출력하는 단계는, 상기 수신 신호에 포함된 LPC 주파수 정보로부터 주파수축 포락선 정보를 획득하고, 상기 주파수 영역 잔차 신호에 상기 주파수축 포락선 정보를 복원하여 상기 주파수 영역 신호를 출력할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법은 입력 신호를 T/F 변환하여 주파수 영역 신호를 출력하는 단계; 상기 주파수 영역 신호에 FDNS 부호화를 적용하여 상기 입력 신호에서 주파수축 포락선이 제거된 주파수 영역 잔차 신호를 출력하는 단계; 상기 주파수 영역 잔차 신호를 F/T 변환하여 시간 영역 신호를 출력하는 단계; 상기 시간 영역 신호에 TDAC를 적용하는 단계; TDAC가 적용된 시간 영역 신호를 TNS(temporal noise shaping)-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및 상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 시간 영역 잔차 신호를 출력하는 단계는, 상기 TDAC가 적용된 시간 영역 신호에 힐버트 변환을 수행하여 분석폼(analytic form)으로 변환하는 단계; 상기 분석폼에 DFT(discrete Fourier transform)를 수행하여 복소수 LPC를 획득하는 단계; 상기 복소수 LPC에 IDFT(inverse DFT) 및 ABS(Absolute Value) 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및 TDAC가 적용된 시간 영역 신호에서 상기 시간축 포락선 정보를 제거하여 시간 영역 잔차 신호를 획득하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 시간 영역 잔차 신호를 출력하는 단계는, 상기 TDAC가 적용된 시간 영역 신호에 힐버트 변환을 수행하여 분석폼으로 변환하는 단계; 상기 분석폼에 DFT를 수행하여 복소수 LPC를 획득하는 단계; 상기 TDAC가 적용된 시간 영역 신호에 DFT을 수행하여 주파수 영역 잔차 신호 2를 출력하는 단계; 상기 복소수 LPC로 상기 주파수 영역 잔차 신호 2를 LPC 분석하여 시간축 포락선 정보를 제거하는 단계; 및 시간축 포락선 정보가 제거된 주파수 영역 잔차 신호 2에 IDFT를 적용하여 시간 영역 잔차 신호를 획득하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법은 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력하는 단계; 상기 시간 영역 잔차 신호를 TNS-2 복호화하여 시간 영역 신호를 출력하는 단계; 시간 영역 신호를 T/F 변환하여 주파수 영역 잔차 신호를 출력하는 단계; 상기 주파수 영역 잔차 신호에 FDNS 복호화를 수행하여 주파수 영역 신호를 출력하는 단계; 주파수 영역 신호를 F/T (frequency-to-time) 변환하여 시간 영역 신호 2를 출력하는 단계; 및 상기 시간 영역 신호 2에 TDAC(time domain aliasing cancellation)를 수행하여 입력 신호를 복원하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 수신 신호는, 오디오 부호화 장치에서 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 시간 영역 신호로부터 획득한 복소수 LPC, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고, 상기 시간 영역 잔차 신호를 출력하는 단계는, 상기 비트스트림을 역양자화하여 상기 시간 영역 잔차 신호를 복원할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 시간 영역 신호를 출력하는 단계는, 상기 복소수 LPC에 IDFT 및 ABS 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및 상기 시간 영역 잔차 신호에 상기 시간축 포락선 정보를 복원하여 상기 시간 영역 신호를 출력하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 시간 영역 신호를 출력하는 단계는, 상기 시간 영역 잔차 신호에 DFT를 수행하여 주파수 영역 잔차 신호 2를 출력하는 단계; 상기 복소수 LPC로 상기 주파수 영역 잔차 신호 2를 LPC 분석하여 시간축 포락선 정보를 복원하는 단계; 및 시간축 포락선 정보가 복원된 주파수 영역 잔차 신호 2에 IDFT를 적용하여 시간 영역 신호를 획득하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법은 입력 신호를 LPC 분석하여 주파수축 포락선이 제거된 시간 영역 신호를 출력하는 단계; 상기 시간 영역 신호를 TNS(temporal noise shaping)-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및 상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 시간 영역 잔차 신호를 출력하는 단계는, 상기 시간 영역 신호에 힐버트 변환을 수행하여 분석폼으로 변환하는 단계; 상기 분석폼에 DFT를 수행하여 복소수 LPC를 획득하는 단계; 상기 복소수 LPC에 IDFT 및 ABS 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및 상기 시간 영역 신호에서 상기 시간축 포락선 정보를 제거하여 시간 영역 잔차 신호를 획득하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법은 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력하는 단계; 상기 시간 영역 잔차 신호를 TNS-2 복호화하여 시간 영역 신호를 출력하는 단계; 오디오 부호화 장치로부터 수신한 LPC 정보와 상기 시간 영역 신호를 합성하여 입력 신호를 복원하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 수신 신호는, 오디오 부호화 장치에서 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 시간 영역 신호로부터 획득한 복소수 LPC, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고, 상기 시간 영역 잔차 신호를 출력하는 단계는, 상기 비트스트림을 역양자화하여 상기 시간 영역 잔차 신호를 복원할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 시간 영역 신호를 출력하는 단계는, 상기 복소수 LPC에 IDFT 및 ABS 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및 상기 시간 영역 잔차 신호에 상기 시간축 포락선 정보를 복원하여 상기 시간 영역 신호를 출력하는 단계를 포함할 수 있다.
본 발명의 일실시예에 의하면, FDNS 부호화를 적용하여 출력된 주파수 영역 잔차 신호에 시간축 정보를 평탄화 하는 TNS 기술을 적용함으로써, 부호화 효율을 증가시킬 수 있다.
또한, 본 발명의 일실시예에 의하면, 주파수 포락선이 제거된 주파수 영역 잔차 신호를 시간 영역 신호로 변환한 후, TNS-2 부호화하여 시간축 포락선을 제거함으로써, 부호화 효율을 높일 수 있다.
그리고, LPC 분석을 수행하여 주파수 포락선을 제거하고, 주파수 포락선이 제거된 주파수 영역 잔차 신호를 시간 영역 신호로 변환한 후, TNS-2 부호화하여 시간축 포락선을 제거함으로써, 부호화 효율을 높일 수 있다.
도 1은 본 발명의 제1실시예에 따른 오디오 부호화/복호화 장치를 도시한 도면이다.
도 2는 TDAC 동작의 원리를 나타내는 도면이다.
도 3은 본 발명의 제1실시예에 따른 오디오 부호화 장치의 상세 구성을 도시한 도면이다.
도 4는 본 발명의 제1실시예에 따른 오디오 복호화 장치의 상세 구성을 도시한 도면이다.
도 5는 본 발명의 제2실시예에 따른 오디오 부호화 장치를 도시한 도면이다.
도 6은 본 발명의 제2실시예에 따른 오디오 부호화 장치의 상세 구성의 일례이다.
도 7은 본 발명의 제2실시예에 따른 오디오 부호화 장치의 상세 구성의 다른 일례이다.
도 8은 본 발명의 제2실시예에 따른 오디오 복호화 장치를 도시한 도면이다.
도 9는 본 발명의 제2실시예에 따른 오디오 복호화 장치의 상세 구성의 일례이다.
도 10은 본 발명의 제2실시예에 따른 오디오 복호화 장치의 상세 구성의 다른 일례이다.
도 11은 본 발명의 제3실시예에 따른 오디오 부호화/복호화 장치를 도시한 도면이다.
도 12은 본 발명의 제3실시예에 따른 오디오 부호화 장치의 상세 구성을 도시한 도면이다.
도 13은 본 발명의 제3실시예에 따른 오디오 복호화 장치의 상세 구성을 도시한 도면이다.
도 14는 본 발명의 일실시예에 따른 오디오 부호화 장치의 성능 비교 결과의 일례이다.
도 15는 본 발명의 제1 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
도 16은 본 발명의 제1 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
도 17은 본 발명의 제2 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
도 18은 본 발명의 제2 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
도 19는 본 발명의 제3 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
도 20은 본 발명의 제3 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
도 2는 TDAC 동작의 원리를 나타내는 도면이다.
도 3은 본 발명의 제1실시예에 따른 오디오 부호화 장치의 상세 구성을 도시한 도면이다.
도 4는 본 발명의 제1실시예에 따른 오디오 복호화 장치의 상세 구성을 도시한 도면이다.
도 5는 본 발명의 제2실시예에 따른 오디오 부호화 장치를 도시한 도면이다.
도 6은 본 발명의 제2실시예에 따른 오디오 부호화 장치의 상세 구성의 일례이다.
도 7은 본 발명의 제2실시예에 따른 오디오 부호화 장치의 상세 구성의 다른 일례이다.
도 8은 본 발명의 제2실시예에 따른 오디오 복호화 장치를 도시한 도면이다.
도 9는 본 발명의 제2실시예에 따른 오디오 복호화 장치의 상세 구성의 일례이다.
도 10은 본 발명의 제2실시예에 따른 오디오 복호화 장치의 상세 구성의 다른 일례이다.
도 11은 본 발명의 제3실시예에 따른 오디오 부호화/복호화 장치를 도시한 도면이다.
도 12은 본 발명의 제3실시예에 따른 오디오 부호화 장치의 상세 구성을 도시한 도면이다.
도 13은 본 발명의 제3실시예에 따른 오디오 복호화 장치의 상세 구성을 도시한 도면이다.
도 14는 본 발명의 일실시예에 따른 오디오 부호화 장치의 성능 비교 결과의 일례이다.
도 15는 본 발명의 제1 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
도 16은 본 발명의 제1 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
도 17은 본 발명의 제2 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
도 18은 본 발명의 제2 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
도 19는 본 발명의 제3 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
도 20은 본 발명의 제3 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
예를 들어, 본 발명의 일실시예에서 사용하는 LPC 분석은 수학식 1을 이용하여 수행될 수 있다.
또한, 본 발명의 일실시예에서 사용하는 LPC 합성은 수학식 1을 이용하여 수행될 수 있다.
도 1은 본 발명의 제1실시예에 따른 오디오 부호화/복호화 장치를 도시한 도면이다.
오디오 부호화 장치(110)는 도 1에 도시된 바와 같이 T/F변환기(111), FDNS인코더(112), TNS-1 인코더(113), 및 양자화기(114)를 포함할 수 있다. 이때, T/F변환기(111), FDNS인코더(112), TNS-1 인코더(113), 및 양자화기(114)는 서로 다른 프로세서, 또는 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수 있다. 예를 들어, 오디오 부호화 장치(110)는 부호화기일 수 있다.
T/F변환기(111)는 입력 신호를 T/F(time-to-frequency) 변환하여 주파수 영역 신호를 출력할 수 있다. 예를 들어, T/F변환기(111)는 MDCT(modified discrete cosine transform)를 이용하여 입력 신호를 주파수 영역 신호로 T/F 변환할 수 있다. 또한, 입력 신호인 x(b)는 블록 단위 벡터이며, 수학식 3과 같이 정의될 수 있다.
FDNS인코더(112)는 T/F변환기(111)에서 출력된 주파수 영역 신호에 FDNS(frequency domain noise shaping) 부호화를 적용하여 주파수 영역 잔차 신호를 출력할 수 있다. 이때, 주파수 영역 잔차 신호는 주파수 영역 신호에서 주파수축 포락선이 제거된 신호일 수 있다.
TNS-1 인코더(113)는 FDNS인코더(112)에서 출력된 주파수 영역 잔차 신호를 기초로 LPC(linear prediction coefficient) 분석을 수행하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력할 수 있다. 이때, TNS-1 인코더(113)는 주파수 영역에서 LPC 계수를 예측하고, 예측 결과에 따라 잔차 신호를 생성하는 TNS (temporal noise shaping)-1 부호화 기술을 사용할 수 있다. 또한, 오디오 부호화 장치(110)는 실시예에 따라 LPC 분석을 수행하는 다른 인코더를 이용하여 주파수 영역 잔차 신호를 부호화할 수도 있다.
오디오 부호화 장치(110)는 FDNS 부호화를 적용하여 출력된 주파수 영역 잔차 신호에 시간축 정보를 평탄화 하는 TNS 기술을 적용함으로써, 부호화 효율을 증가시킬 수 있다.
양자화기(114)는 TNS-1 인코더(113)에서 출력된 시간 영역 잔차 신호를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(120)로 전송할 수 있다.
오디오 부호화 장치(110)의 세부 구성 및 동작은 이하 도 3을 참조하여 상세히 설명한다.
오디오 복호화 장치(120)는 도 1에 도시된 바와 같이 역 양자화기(121), TNS-1 디코더(122), FDNS 디코더(123), F/T 변환기(124),TDAC(125)를 포함할 수 있다. 이때, 역 양자화기(121), TNS-1 디코더(122), FDNS 디코더(123), F/T 변환기(124),TDAC(125) 는 서로 다른 프로세서, 또는 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수 있다.
역 양자화기(121)는 오디오 부호화 장치(110)로부터 수신한 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력할 수 있다.
이때, 수신 신호는, 오디오 부호화 장치(110)에 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 주파수 영역 잔차 신호로부터 획득한 LPC 계수, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함할 수 있다. 그리고, 역 양자화기(121)는 비트스트림을 역양자화하여 시간 영역 잔차 신호를 복원할 수 있다.
TNS-1 디코더(122)는 역 양자화기(121)에서 출력된 시간 영역 잔차 신호를 LPC 분석하여 주파수 영역 잔차 신호를 출력할 수 있다. 이때, TNS-1 디코더(122)는 TNS (temporal noise shaping)-1 복호화 기술을 사용하여 시간 영역 잔차 신호를 복호화할 수 있다. 또한, 오디오 복호화 장치(120)는 실시예에 따라 LPC 분석을 수행하는 다른 디코더를 이용하여 주파수 영역 잔차 신호를 복호화할 수도 있다.
FDNS 디코더(123)는 TNS-1 디코더(122)에서 출력된 주파수 영역 잔차 신호에 FDNS 복호화를 수행하여 주파수 영역 신호를 출력할 수 있다.
F/T 변환기(124)는 FDNS 디코더(123)에서 출력된 주파수 영역 신호를 F/T (frequency-to-time) 변환하여 시간 영역 신호를 출력할 수 있다. 예를 들어, F/T 변환기(124)는 IMDCT(Inverse modified discrete cosine transform)를 이용하여 주파수 영역 신호를 시간 영역 신호로 F/T 변환할 수 있다.
TDAC(125)는 F/T 변환기(124)에서 출력된 시간 영역 신호에 TDAC(time domain aliasing cancellation)를 수행하여 입력 신호를 복원할 수 있다. 이때, TDAC(125)는 MDCT 특성에 의하여 발생하는 시간 도메인 에일리어싱(Time domain aliasing_을 제거하기 위하여 TDAC를 수행하는 구성이다. 따라서, F/T 변환기(124)가 시간 도메인 에일리어싱을 발생시키지 않는 변환기인 경우, 오디오 복호화 장치(120)는 TDAC(125)를 포함하지 않고, F/T 변환기(124)는 주파수 영역 신호를 F/T 변환하여 입력 신호를 복원할 수도 있다.
오디오 복호화 장치(120)의 세부 구성 및 동작은 이하 도 3을 참조하여 상세히 설명한다.
도 2는 TDAC 동작의 원리를 나타내는 도면이다.
TDAC(time domain aliasing cancellation)는 도 2에 도시된 바와 같이 현재 프레임(220)을 폴딩 포인트(folding point)를 중심으로 이웃 프레임들과 50% 오버렙 에드(overlap add)를 수행함으로써, 시간 도메인 에일리어싱이 제거된 신호(240)를 출력할 수 있다. 이때, 이웃 프레임은 현재 프레임(220)의 이전 프레임(210), 및 이후 프레임(230)일 수 있다. 또한, 폴딩 포인트는 변환 크기(transform size)의 1/4 되는 양 지점이며, 도 2에서는 각 프레임들의 축에 수직선으로 도시되었다.
도 3은 본 발명의 제1실시예에 따른 오디오 부호화 장치의 상세 구성을 도시한 도면이다.
FDNS인코더(112)는 입력 신호 x(b)로부터 LPC 정보를 획득할 수 있다. 다음으로, FDNS인코더(112)는 LPC 주파수 정보로부터 주파수축 포락선 정보를 획득할 수 있다. 그 다음으로, FDNS인코더(112)는 주파수 영역 신호로부터 주파수축 포락선 정보를 제거하여 주파수 영역 잔차 신호를 생성할 수 있다.
이때, FDNS인코더(112)는 도 3에 도시된 바와 같이 FDNS LPC(310), DFT(320), ABS(330), 및 ENV 쉐이핑(340)를 포함할 수 있다.
FDNS LPC(310)는 입력 신호 x(b)로부터 LPC를 획득할 수 있다. 그리고, FDNS LPC(310)는 획득한 LPC를 FDNS의 LPC 정보로 정의할 수 있다.
DFT(320)는 LPC 정보에 DFT(discrete Fourier transform)을 수행하여 주파수 영역의 LPC 주파수 정보로 변환할 수 있다.
ABS(330)는 LPC 주파수 정보에 ABS(Absolute Value) 연산을 수행하여 LPC 주파수 정보의 절대값을 계산할 수 있다.
ENV 쉐이핑(340)은 LPC 주파수 정보의 절대값을 포락선 정보로 획득할 수 있다. 그리고, ENV 쉐이핑(340)은 주파수 영역 신호로부터 주파수축 포락선 정보를 제거하여 주파수 영역 잔차 신호인 rf(b)를 생성할 수 있다. 예를 들어, ENV 쉐이핑(340)은 입력 신호 x(b)가 MDCT 변환된 주파수 영역 신호 xf(b)를 포락선 정보인 envf(b)로 나눔으로써, 주파수 영역 잔차 신호인 rf(b)를 출력할 수 있다. 즉, rf(b) = xf(b)/envf(b)일 수 있다.
이때, TNS-1 인코더(113)는 도 3에 도시된 바와 같이 LPC 분석기(350)과 TNS-1 LPC(360)를 포함할 수 있다.
LPC 분석기(350)는 주파수 영역 잔차 신호인 rf(b)로부터 LPC 계수를 획득할 수 있다. 그리고, LPC 분석기(350)는 획득한 LPC 계수를 TNS-1 LPC로 정의할 수 있다.
TNS-1 LPC(360)는 LPC 분석기(350)가 획득한 LPC 계수로 주파수 영역 잔차 신호를 LPC 분석하여 주파수축 포락선 정보와 시간축 포락선 정보가 제거된 시간 영역 잔차 신호인 rrf(b)를 출력할 수 있다. 예를 들어, TNS-1 LPC(360)는 주파수 영역 잔차 신호인 rf(b)와 LPC 계수 간의 복적분 연산을 통하여 시간 영역 잔차 신호인 rrf(b)를 출력할 수 있다.
도 4는 본 발명의 제1실시예에 따른 오디오 복호화 장치의 상세 구성을 도시한 도면이다.
TNS-1 디코더(122)는 도 4에 도시된 바와 같이 LPC합성기(410)와 TNS-1 LPC(420)를 포함할 수 있다.
TNS-1 LPC(420)는 오디오 부호화 장치(110)의 LPC 계수를 획득할 수 있다. 이때, TNS-1 LPC(420)는 수신 신호에 포함된 LPC 계수를 추출할 수도 있고, 오디오 부호화 장치(110)의 TNS-1 LPC(360)로부터 LPC 계수를 수신할 수도 있다.
LPC합성기(410)는 TNS-1 LPC(420)가 획득한 LPC 계수로 시간 영역 잔차 신호 를 LPC 합성하여 시간축 포락선 정보가 복원된 주파수 영역 잔차 신호 를 출력할 수 있다.
FDNS 디코더(123)는 도 4에 도시된 바와 같이 FDNS LPC(430), DFT(440), ABS(450) 및 ENV 쉐이핑(450)를 포함할 수 있다.
FDNS LPC(430)는 FDNS의 LPC 정보를 획득할 수 있다. 이때, FDNS LPC(430)는 수신 신호에 포함된 LPC 정보를 추출할 수도 있고, 오디오 부호화 장치(110)의 FDNS LPC(310)로부터 LPC 정보를 수신할 수도 있다.
DFT(430)는 LPC 정보에 DFT을 수행하여 주파수 영역의 LPC 주파수 정보로 변환할 수 있다.
ABS(440)는 LPC 주파수 정보에 ABS 연산을 수행하여 LPC 주파수 정보의 절대값을 계산할 수 있다.
ENV 쉐이핑(450)은 LPC 주파수 정보의 절대값을 포락선 정보인 envf(b)로 획득할 수 있다. 그리고, ENV 쉐이핑(450)은 주파수 영역 잔차 신호 에 주파수축 포락선 정보인 envf(b)를 복원하여 주파수 영역 신호인 를 생성할 수 있다. 예를 들어, 일 수 있다.
F/T 변환기(124)는 FDNS 디코더(123)에서 출력된 주파수 영역 신호인 를 F/T변환하여 시간 영역 신호를 출력하고, TDAC(125)는 F/T 변환기(124)에서 출력된 시간 영역 신호에 TDAC를 수행하여 복원된 입력 신호 를 출력할 수 있다.
도 5는 본 발명의 제2실시예에 따른 오디오 부호화 장치를 도시한 도면이다.
오디오 부호화 장치(500)는 도 5에 도시된 바와 같이 제1 T/F변환기(510), FDNS인코더(520), F/T 변환기(530), TDAC(540), TNS-2 인코더(550), 제2 T/F변환기(560), 및 양자화기(570)를 포함할 수 있다. 이때, 제1 T/F변환기(510), FDNS인코더(520), F/T 변환기(530), TDAC(540), TNS-2 인코더(550), 제2 T/F변환기(560), 및 양자화기(570)는 서로 다른 프로세서, 또는 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수 있다. 예를 들어, 오디오 부호화 장치(500)는 부호화기일 수 있다. 또한, 제1 T/F변환기(510), FDNS인코더(520)는 도 1의 T/F변환기(111), FDNS인코더(112)와 동일한 구성이므로 상세한 설명은 생략한다.
F/T 변환기(530)는 FDNS인코더(520)에서 출력된 주파수 영역 잔차 신호를 F/T 변환하여 시간 영역 신호를 출력할 수 있다.
TDAC(540)는 F/T 변환기(530)에서 출력된 시간 영역 신호에 TDAC를 적용하여 시간 도메인 에일리어싱을 제거할 수 있다.
TNS-2 인코더(550)는 TDAC가 적용된 시간 영역 신호를 TNS(temporal noise shaping)-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력할 수 있다.
양자화기(570)는 TNS-2 인코더(550)에서 출력된 시간 영역 잔차 신호를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(800)로 전송할 수 있다. 이때, 양자화기(570)가 시간 영역 양자화를 수행하는 경우, 오디오 부호화 장치(500)는 제2 T/F변환기(560)를 포함하지 않을 수 있다.
또한, 양자화기(570)가 주파수 영역 양자화를 수행하는 경우, 오디오 부호화 장치(500)는 제2 T/F변환기(560)를 포함할 수 있다. 이때, 제2 T/F변환기(560)는 TNS-2 인코더(550)에서 출력된 시간 영역 잔차 신호를 T/F 변환하여 주파수 영역 신호 2를 출력할 수 있다. 이때, 주파수 영역 신호 2는 주파수축 포락선과 시간축 포락선이 모두 제거된 신호일 수 있다. 그리고, 양자화기(570)는 주파수 영역 신호 2를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(800)로 전송할 수 있다.
본 발명의 제2실시예에 따른 오디오 부호화 장치(500)는 주파수 포락선이 제거된 주파수 영역 잔차 신호를 시간 영역 신호로 변환한 후, TNS-2 부호화하여 시간축 포락선을 제거함으로써, 오디오 부호화 장치(110)보다 부호화 효율을 높일 수 있다.
오디오 부호화 장치(500)의 세부 구성 및 동작은 이하 도 6 및 도 7을 참조하여 상세히 설명한다.
도 6은 본 발명의 제2실시예에 따른 오디오 부호화 장치의 상세 구성의 일례이다.
FDNS인코더(520)는 도 6에 도시된 바와 같이 FDNS LPC(610), DFT(620), ABS(630), 및 ENV 쉐이핑(640)를 포함할 수 있다. 이때, FDNS LPC(610), DFT(620), ABS(630), 및 ENV 쉐이핑(640)는 도 3의 FDNS LPC(310), DFT(320), ABS(330), 및 ENV 쉐이핑(340)과 동일한 구성이므로 상세한 설명은 생략한다.
TNS-2 인코더(550)는 타입 1인 경우, HT(650), DFT(660), TNS-2 LPC(670), IDFT&ABS(680), T-ENV 쉐이핑(690)을 포함할 수 있다.
HT(650)는 시간 영역 신호 에 힐버트 변환(Hilbert transform)을 수행하여 분석폼(analytic form)인 로 변환할 수 있다. 예를 들어, 일 수 있다. 또한, 는 복소수일 수 있다.
TNS-2 LPC(670)는 복소수 형태의 주파수 계수로부터 복소수 LPC를 획득할 수 있다.
도 7은 TNS-2 인코더(550)가 타입 2인 경우의 오디오 부호화 장치(500)의 상세 구성이다.
타입 2인 TNS-2 인코더(550)는 TDAC(710), HT(720), DFT(730), TNS-2 LPC(740), DFT(750), LPC 분석기(760) IDFT(770)을 포함할 수 있다. 이때, TDAC(710)는 도 5의 TDAC(540)과 동일한 구성이므로 상세한 설명은 생략한다.
TNS-2 LPC(740)는 복소수 형태의 주파수 계수로부터 복소수 LPC를 획득할 수 있다.
LPC 분석기(760)는 복소수 LPC로 주파수 영역 잔차 신호 2를 LPC 분석하여 시간축 포락선 정보를 제거할 수 있다.
이때, 양자화기(570)가 시간 영역 양자화를 수행하는 경우, IDFT(770)는 시간 영역 잔차 신호 를 양자화기(570)로 전송할 수 있다. 그리고, 양자화기(570)는 시간 영역 잔차 신호 를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(800)로 전송할 수 있다.
또한, 양자화기(570)가 주파수 영역 양자화를 수행하는 경우, IDFT(770)는 시간 영역 잔차 신호 를 제2 T/F변환기(560)로 전송할 수 있다 그리고, 제2 T/F변환기(560)는 시간 영역 잔차 신호 를 T/F 변환하여 주파수 영역 신호 2를 출력할 수 있다. 다음으로, 양자화기(570)는 주파수 영역 신호 2를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(800)로 전송할 수 있다.
도 8은 본 발명의 제2실시예에 따른 오디오 복호화 장치를 도시한 도면이다.
오디오 복호화 장치(800)는 도 8에 도시된 바와 같이 역 양자화기(810), 제1 F/T 변환기(820), 제1 TDAC(830), TNS-2 디코더(840), T/F변환기(850), FDNS 디코더(860), 제2 F/T 변환기(870),제2 TDAC(880)를 포함할 수 있다. 이때, 역 양자화기(810), 제1 F/T 변환기(820), 제1 TDAC(830), TNS-2 디코더(840), T/F변환기(850), FDNS 디코더(860), 제2 F/T 변환기(870),제2 TDAC(880)는 서로 다른 프로세서, 또는 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수 있다.
오디오 부호화 장치(500)가 시간축에서 양자화를 수행한 경우, 역 양자화기(810)는 수신 신호를 시간축에서 역 양자화하여 시간 영역 잔차 신호 를 출력할 수 있다. 수신 신호는, 부호화기에서 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 시간 영역 신호로부터 획득한 복소수 LPC, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고, 역 양자화기(810)는 비트스트림을 역양자화하여 시간 영역 잔차 신호 를 복원할 수 있다.
반면, 오디오 부호화 장치(500)가 주파수축에서 양자화를 수행한 경우, 역 양자화기(810)는 주파수축에서 역 양자화한 신호를 제1 F/T 변환기(820)로 전송할 수 있다.
제1 F/T 변환기(820)는 역양자화기(810)로부터 수신한 신호를 F/T 변환하여 출력할 수 있다.
오디오 복호화 장치(800)의 세부 구성 및 동작은 이하 도 9 및 도 10을 참조하여 상세히 설명한다.
도 9는 본 발명의 제2실시예에 따른 오디오 복호화 장치의 상세 구성의 일례이다.
TNS-2 디코더(550)는 타입 1인 경우, TNS-2 LPC(910), IDFT&ABS(920), T-ENV 합성기(930)을 포함할 수 있다.
TNS-2 LPC(910)는 오디오 부호화 장치(500)의 복소수 LPC를 획득할 수 있다. 이때, TNS-2 LPC(910)는 수신 신호에 포함된 복소수 LPC를 추출할 수도 있고, 오디오 부호화 장치(800)의 TNS-2 LPC(670)로부터 복소수 LPC를 수신할 수도 있다.
FDNS 디코더(860)는 도 8에 도시된 바와 같이 FDNS LPC(940), DFT(950), ABS(960) 및 ENV 쉐이핑(970)을 포함할 수 있다. FDNS LPC(940), DFT(950), ABS(960) 및 ENV 쉐이핑(970)는 도 4에 도시된 바와 같이 FDNS LPC(430), DFT(440), ABS(450) 및 ENV 쉐이핑(450)와 동일한 구성이므로 상세한 설명은 생략한다.
도 10은 TNS-2 디코더(840)가 타입 2인 경우의 오디오 부호화 장치(800)의 상세 구성이다.
타입 2인 TNS-2 디코더(840)는 TNS-2 LPC(1010), DFT(1020), LPC 합성기(1030) IDFT(1040)을 포함할 수 있다.
TNS-2 LPC(1010)는 오디오 부호화 장치(500)의 복소수 LPC를 획득할 수 있다. 이때, TNS-2 LPC(1010)는 수신 신호에 포함된 복소수 LPC를 추출할 수도 있고, 오디오 부호화 장치(800)의 TNS-2 LPC(740)로부터 복소수 LPC를 수신할 수도 있다.
LPC 합성기(1030)는 복소수 LPC로 주파수 영역 잔차 신호 2를 LPC 분석하여 시간축 포락선 정보를 복원할 수 있다.
도 11은 본 발명의 제3실시예에 따른 오디오 부호화/복호화 장치를 도시한 도면이다.
오디오 부호화 장치(1110)는 도 11에 도시된 바와 같이 LPC 분석기(1111), TNS-2 인코더(1112), T/F변환기(1113), 및 양자화기(1114)를 포함할 수 있다. 이때, LPC 분석기(1111), TNS-2 인코더(1112), T/F변환기(1113), 및 양자화기(1114)는 서로 다른 프로세서, 또는 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수 있다. 예를 들어, 오디오 부호화 장치(110)는 부호화기일 수 있다.
LPC 분석기(1111)는 입력 신호를 LPC 분석하여 주파수축 포락선이 제거된 시간 영역 신호를 출력할 수 있다. 이때, LPC 분석기(1111)는 시간축 상에서 LPC 잔차 신호 복적분(convolution)을 통해 시간 영역 신호를 획득할 수 있다.
TNS-2 인코더(1112)는 시간 영역 신호를 TNS(temporal noise shaping)-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력할 수 있다.
양자화기(1114)는 시간 영역 잔차 신호를 양자화하여 전송할 수 있다.
양자화기(1114)는 TNS-2 인코더(1113)에서 출력된 시간 영역 잔차 신호를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(1120)로 전송할 수 있다. 이때, 양자화기(1114)가 시간 영역 양자화를 수행하는 경우, 오디오 부호화 장치(1110)는 T/F변환기(1113)를 포함하지 않을 수 있다.
또한, 양자화기(1114)가 주파수 영역 양자화를 수행하는 경우, 오디오 부호화 장치(1110)는 T/F변환기(1113)를 포함할 수 있다. 이때, T/F변환기(1113)는 TNS-2 인코더(1113)에서 출력된 시간 영역 잔차 신호를 T/F 변환하여 주파수 영역 신호 2를 출력할 수 있다. 이때, 주파수 영역 신호 2는 주파수축 포락선과 시간축 포락선이 모두 제거된 신호일 수 있다. 그리고, 양자화기(1114)는 주파수 영역 신호 2를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(1120)로 전송할 수 있다.
본 발명의 제3실시예에 따른 오디오 부호화 장치(1110)는 LPC 분석을 수행하여 주파수 포락선을 제거하고, 주파수 포락선이 제거된 주파수 영역 잔차 신호를 시간 영역 신호로 변환한 후, TNS-2 부호화하여 시간축 포락선을 제거함으로써, 오디오 부호화 장치(110)보다 부호화 효율을 높일 수 있다.
오디오 부호화 장치(1110)의 세부 구성 및 동작은 이하 도 12를 참조하여 상세히 설명한다.
오디오 복호화 장치(1120)는 도 11에 도시된 바와 같이 역 양자화기(1121), F/T 변환기(1122), TDAC(1123), TNS-2 디코더(1124), 및 LPC 합성기(1125)를 포함할 수 있다. 이때, 역 양자화기(1121), F/T 변환기(1122), TDAC(1123), TNS-2 디코더(1124), 및 LPC 합성기(1125)는 서로 다른 프로세서, 또는 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수 있다.
역 양자화기(1121)는 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력할 수 있다.
오디오 부호화 장치(1110)가 시간축에서 양자화를 수행한 경우, 역 양자화기(1121)는 수신 신호를 시간축에서 역 양자화하여 시간 영역 잔차 신호 를 출력할 수 있다. 수신 신호는, 부호화기에서 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 시간 영역 신호로부터 획득한 복소수 LPC, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고, 역 양자화기(1121)는 비트스트림을 역양자화하여 시간 영역 잔차 신호 를 복원할 수 있다.
반면, 오디오 부호화 장치(1110)가 주파수축에서 양자화를 수행한 경우, 역 양자화기(1121)는 주파수축에서 역 양자화한 신호를 F/T 변환기(1122)로 전송할 수 있다.
F/T 변환기(1122)는 역양자화기(1121)로부터 수신한 신호를 F/T 변환하여 출력할 수 있다.
LPC 합성기(1125)는 오디오 부호화 장치(1110)로부터 수신한 LPC 정보와 TNS-2 디코더(1124)에서 출력된 시간 영역 신호를 합성하여 입력 신호를 복원할 수 있다.
오디오 복호화 장치(1120)의 세부 구성 및 동작은 이하 도 13을 참조하여 상세히 설명한다.
도 12은 본 발명의 제3실시예에 따른 오디오 부호화 장치의 상세 구성을 도시한 도면이다.
LPC 분석기(1111)는 입력 신호를 LPC 분석하여 주파수축 포락선이 제거된 시간 영역 신호 을 출력할 수 있다. 이때, 오디오 부호화 장치(1110)는 시간축에서 LPC 분석을 하여 주파수축 포락선이 제거된 시간 영역 신호 를 획득하였으므로, TDAC를 적용없이 바로 TNS-2 부호화를 적용할 수 있다.
TNS-2 인코더(1112)는 타입 1인 경우, HT(1210), DFT(1220), TNS-2 LPC(1230), IDFT&ABS(1240), T-ENV 쉐이핑(1250)을 포함할 수 있다.
HT(1210)는 시간 영역 신호 에 힐버트 변환(Hilbert transform)을 수행하여 분석폼(analytic form)인 로 변환할 수 있다. 예를 들어, 일 수 있다. 또한, 는 복소수일 수 있다.
TNS-2 LPC(1230)는 복소수 형태의 주파수 계수로부터 복소수 LPC를 획득할 수 있다.
도 13은 본 발명의 제3실시예에 따른 오디오 복호화 장치의 상세 구성을 도시한 도면이다.
TNS-2 디코더(1124)는 타입 1인 경우, TNS-2 LPC(1310), IDFT&ABS(1320), T-ENV 합성기(1330)을 포함할 수 있다.
TNS-2 LPC(1310)는 오디오 부호화 장치(1110)의 복소수 LPC를 획득할 수 있다. 이때, TNS-2 LPC(1310)는 수신 신호에 포함된 복소수 LPC를 추출할 수도 있고, 오디오 부호화 장치(1110)의 TNS-2 LPC(1230)로부터 복소수 LPC를 수신할 수도 있다.
LPC 합성기(1125)는 오디오 부호화 장치(1110)로부터 수신한 LPC 정보와 TNS-2 디코더(1124)에서 출력된 시간 영역 신호 를 합성하여 주파수 포락선 정보를 복원함으로써, 복원된 입력 신호 를 출력할 수 있다.
도 14는 본 발명의 일실시예에 따른 오디오 부호화 장치의 성능 비교 결과의 일례이다.
본 발명의 일실시예에 따른 오디오 부호화 장치 및 종래의 오디오 부호화 장치에서 각각 부호화한 오디오를 이용한 청취 테스트 결과의 일례이다.
테스트 시스템은 하기 4개이다.
Hidden : hidden reference로 original 신호이며, 피험자의 평가 결과 hidden을 90 점 이하일 때, post-screen을 통하여 결과 통계 집계에 반영하지 않음
Lp35: anchor 신호로, 3.5 kHz로 low-pass-filter를 적용하여 최소 음질에 대한 지각적 판단을 돕고자 테스트 시스템으로 포함시킴
Ours: 본 발명의 일실시예에 따른 오디오 부호화 장치
USAC: Unified Speech and Audio Coding 기술로 최고 성능의 오디오 코덱 기술을 적용한 오디오 부호화 장치.
도 14에 도시된 결과에 따르면, 본 발명의 일실시예에 따른 오디오 부호화 방법이 종래의 오디오 부호화 장치 중에서 최고의 성능을 가지는 USAC 보다 성능이 향상된 것을 확인할 수 있다.
도 15는 본 발명의 제1 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
단계(1510)에서 T/F변환기(111)는 입력 신호를 T/F변환하여 주파수 영역 신호를 출력할 수 있다. 예를 들어, T/F변환기(111)는 MDCT를 이용하여 입력 신호를 주파수 영역 신호로 T/F 변환할 수 있다.
단계(1520)에서 FDNS인코더(112)는 단계(1510)에서 출력된 주파수 영역 신호에 FDNS 부호화를 적용하여 주파수 영역 잔차 신호를 출력할 수 있다.
단계(1530)에서 TNS-1 인코더(113)는 단계(1520)에서 출력된 주파수 영역 잔차 신호를 기초로 LPC분석을 수행하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력할 수 있다.
단계(1540)에서 양자화기(114)는 단계(1530)에서 출력된 시간 영역 잔차 신호를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(120)로 전송할 수 있다.
도 16은 본 발명의 제1 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
단계(1610)에서 역 양자화기(121)는 오디오 부호화 장치(110)로부터 수신한 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력할 수 있다. 이때, 수신 신호는, 오디오 부호화 장치(110)에 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 주파수 영역 잔차 신호로부터 획득한 LPC 계수, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함할 수 있다. 그리고, 역 양자화기(121)는 비트스트림을 역양자화하여 시간 영역 잔차 신호를 복원할 수 있다.
단계(1620)에서 TNS-1 디코더(122)는 단계(1610)에서 출력된 시간 영역 잔차 신호를 LPC 분석하여 주파수 영역 잔차 신호를 출력할 수 있다.
단계(1630)에서 FDNS 디코더(123)는 단계(1620)에서 출력된 주파수 영역 잔차 신호에 FDNS 복호화를 수행하여 주파수 영역 신호를 출력할 수 있다.
단계(1640)에서 F/T 변환기(124)는 단계(1630)에서 출력된 주파수 영역 신호를 F/T 변환하여 시간 영역 신호를 출력할 수 있다. 예를 들어, F/T 변환기(124)는 IMDCT를 이용하여 주파수 영역 신호를 시간 영역 신호로 F/T 변환할 수 있다.
단계(1650)에서 TDAC(125)는 단계(1640)에서 출력된 시간 영역 신호에 TDAC를 수행하여 입력 신호를 복원할 수 있다.
도 17은 본 발명의 제2 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
단계(1710)에서 T/F변환기(111)는 입력 신호를 T/F변환하여 주파수 영역 신호를 출력할 수 있다. 예를 들어, T/F변환기(111)는 MDCT를 이용하여 입력 신호를 주파수 영역 신호로 T/F 변환할 수 있다.
단계(1720)에서 FDNS인코더(112)는 단계(1510)에서 출력된 주파수 영역 신호에 FDNS 부호화를 적용하여 주파수 영역 잔차 신호를 출력할 수 있다.
단계(1730)에서 F/T 변환기(530)는 단계(1720)에서 출력된 주파수 영역 잔차 신호를 F/T 변환하여 시간 영역 신호를 출력할 수 있다.
단계(1740)에서 TDAC(540)는 단계(1730)에서 출력된 시간 영역 신호에 TDAC를 적용하여 시간 도메인 에일리어싱을 제거할 수 있다.
단계(1750)에서 TNS-2 인코더(550)는 TDAC가 적용된 시간 영역 신호를 TNS(temporal noise shaping)-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력할 수 있다.
단계(1760)에서 양자화기(570)는 단계(1750)에서 출력된 시간 영역 잔차 신호를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(800)로 전송할 수 있다.
도 18은 본 발명의 제2 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
단계(1850)에서 제2 F/T 변환기(870)는 단계(1840)에서 출력된 주파수 영역 신호 를 F/T (frequency-to-time) 변환하여 시간 영역 신호 2를 출력할 수 있다.
도 19는 본 발명의 제3 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
단계(1910)에서 LPC 분석기(1111)는 입력 신호를 LPC 분석하여 주파수축 포락선이 제거된 시간 영역 신호를 출력할 수 있다.
단계(1910)에서 TNS-2 인코더(1112)는 단계(1910)에서 출력된 시간 영역 신호를 TNS-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력할 수 있다.
단계(1930)에서 양자화기(1114)는 단계(1910)에서 출력된 시간 영역 잔차 신호를 양자화하여 전송할 수 있다.
도 20은 본 발명의 제3 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
단계(2010)에서 역 양자화기(1121)는 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력할 수 있다.
단계(2030)에서 LPC 합성기(1125)는 오디오 부호화 장치(1110)로부터 수신한 LPC 정보와 단계(2020)에서 TNS-2 디코더(1124)에서 출력된 시간 영역 신호를 합성하여 입력 신호를 복원할 수 있다.
오디오 부호화 장치(110)는 FDNS 부호화를 적용하여 출력된 주파수 영역 잔차 신호에 시간축 정보를 평탄화 하는 TNS 기술을 적용함으로써, 부호화 효율을 증가시킬 수 있다.
오디오 부호화 장치(500)는 주파수 포락선이 제거된 주파수 영역 잔차 신호를 시간 영역 신호로 변환한 후, TNS-2 부호화하여 시간축 포락선을 제거함으로써, 오디오 부호화 장치(110)보다 부호화 효율을 높일 수 있다.
오디오 부호화 장치(1110)는 LPC 분석을 수행하여 주파수 포락선을 제거하고, 주파수 포락선이 제거된 주파수 영역 잔차 신호를 시간 영역 신호로 변환한 후, TNS-2 부호화하여 시간축 포락선을 제거함으로써, 오디오 부호화 장치(110)보다 부호화 효율을 높일 수 있다.
한편, 본 발명에 따른 오디오 부호화/복호화 장치 또는 오디오 부호화/복호화 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체)에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.
110: 오디오 부호화 장치
112: FDNS 인코더
113: TNS-1 인코더
112: FDNS 인코더
113: TNS-1 인코더
Claims (20)
- 입력 신호를 T/F(time-to-frequency) 변환하여 주파수 영역 신호를 출력하는 단계;
상기 주파수 영역 신호에 FDNS(frequency domain noise shaping) 부호화를 적용하여 상기 주파수 영역 신호에서 주파수축 포락선이 제거된 주파수 영역 잔차 신호를 출력하는 단계;
상기 주파수 영역 잔차 신호를 기초로 LPC(linear prediction coefficient) 분석을 수행하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및
상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계
를 포함하는 오디오 부호화 방법. - 제1항에 있어서,
상기 주파수 영역 잔차 신호를 출력하는 단계는,
상기 입력 신호로부터 LPC 정보를 획득하는 단계;
상기 LPC 정보로부터 주파수축 포락선 정보를 획득하는 단계; 및
상기 주파수 영역 신호로부터 주파수축 포락선 정보를 제거하여 상기 주파수 영역 잔차 신호를 생성하는 단계
를 포함하는 오디오 부호화 방법. - 제2항에 있어서,
상기 주파수 영역 잔차 신호를 출력하는 단계는,
LPC 정보를 주파수 영역의 LPC 주파수 정보로 변환하는 단계;
를 더 포함하고,
상기 포락선 정보를 획득하는 단계는,
상기 LPC 주파수 정보의 절대값을 상기 포락선 정보로 획득하는 오디오 부호화 방법. - 제1항에 있어서,
상기 시간 영역 잔차 신호를 출력하는 단계는,
상기 주파수 영역 잔차 신호로부터 LPC 계수를 획득하는 단계; 및
상기 LPC 계수로 상기 주파수 영역 잔차 신호를 LPC 분석하여 주파수축 포락선 정보와 시간축 포락선 정보가 제거된 시간 영역 잔차 신호를 출력하는 단계
를 포함하는 오디오 부호화 방법. - 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력하는 단계;
상기 시간 영역 잔차 신호를 LPC 분석하여 주파수 영역 잔차 신호를 출력하는 단계;
상기 주파수 영역 잔차 신호에 FDNS 복호화를 수행하여 주파수 영역 신호를 출력하는 단계;
주파수 영역 신호를 F/T (frequency-to-time) 변환하여 시간 영역 신호를 출력하는 단계; 및
상기 시간 영역 신호에 TDAC(time domain aliasing cancellation)를 수행하여 입력 신호를 복원하는 단계
를 포함하는 오디오 복호화 방법. - 제5항에 있어서,
상기 수신 신호는,
오디오 부호화 장치에 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 주파수 영역 잔차 신호로부터 획득한 LPC 계수, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고,
상기 시간 영역 잔차 신호를 출력하는 단계는,
상기 비트스트림을 역양자화하여 상기 시간 영역 잔차 신호를 복원하는 오디오 복호화 방법. - 제6항에 있어서,
상기 주파수 영역 잔차 신호를 출력하는 단계는,
상기 수신 신호에 포함된 LPC 계수로 상기 시간 영역 잔차 신호를 LPC 합성하여 시간축 포락선 정보가 복원된 주파수 영역 잔차 신호를 출력하는 오디오 복호화 방법. - 제6항에 있어서,
상기 주파수 영역 신호를 출력하는 단계는,
상기 수신 신호에 포함된 LPC 주파수 정보로부터 주파수축 포락선 정보를 획득하고, 상기 주파수 영역 잔차 신호에 상기 주파수축 포락선 정보를 복원하여 상기 주파수 영역 신호를 출력하는 오디오 복호화 방법. - 입력 신호를 T/F 변환하여 주파수 영역 신호를 출력하는 단계;
상기 주파수 영역 신호에 FDNS 부호화를 적용하여 상기 입력 신호에서 주파수축 포락선이 제거된 주파수 영역 잔차 신호를 출력하는 단계;
상기 주파수 영역 잔차 신호를 F/T 변환하여 시간 영역 신호를 출력하는 단계;
상기 시간 영역 신호에 TDAC를 적용하는 단계;
TDAC가 적용된 시간 영역 신호를 TNS(temporal noise shaping)-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및
상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계
를 포함하는 오디오 부호화 방법. - 제9항에 있어서,
상기 시간 영역 잔차 신호를 출력하는 단계는,
상기 TDAC가 적용된 시간 영역 신호에 힐버트 변환을 수행하여 분석폼(analytic form)으로 변환하는 단계;
상기 분석폼에 DFT(discrete Fourier transform)를 수행하여 복소수 LPC를 획득하는 단계;
상기 복소수 LPC에 IDFT(inverse DFT) 및 ABS(Absolute Value) 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및
TDAC가 적용된 시간 영역 신호에서 상기 시간축 포락선 정보를 제거하여 시간 영역 잔차 신호를 획득하는 단계
를 포함하는 오디오 부호화 방법. - 제9항에 있어서,
상기 시간 영역 잔차 신호를 출력하는 단계는,
상기 TDAC가 적용된 시간 영역 신호에 힐버트 변환을 수행하여 분석폼으로 변환하는 단계;
상기 분석폼에 DFT를 수행하여 복소수 LPC를 획득하는 단계;
상기 TDAC가 적용된 시간 영역 신호에 DFT을 수행하여 주파수 영역 잔차 신호 2를 출력하는 단계;
상기 복소수 LPC로 상기 주파수 영역 잔차 신호 2를 LPC 분석하여 시간축 포락선 정보를 제거하는 단계; 및
시간축 포락선 정보가 제거된 주파수 영역 잔차 신호 2에 IDFT를 적용하여 시간 영역 잔차 신호를 획득하는 단계
를 포함하는 오디오 부호화 방법. - 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력하는 단계;
상기 시간 영역 잔차 신호를 TNS-2 복호화하여 시간 영역 신호를 출력하는 단계;
시간 영역 신호를 T/F 변환하여 주파수 영역 잔차 신호를 출력하는 단계;
상기 주파수 영역 잔차 신호에 FDNS 복호화를 수행하여 주파수 영역 신호를 출력하는 단계;
주파수 영역 신호를 F/T (frequency-to-time) 변환하여 시간 영역 신호 2를 출력하는 단계; 및
상기 시간 영역 신호 2에 TDAC(time domain aliasing cancellation)를 수행하여 입력 신호를 복원하는 단계
를 포함하는 오디오 복호화 방법. - 제12항에 있어서,
상기 수신 신호는,
오디오 부호화 장치에서 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 시간 영역 신호로부터 획득한 복소수 LPC, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고,
상기 시간 영역 잔차 신호를 출력하는 단계는,
상기 비트스트림을 역양자화하여 상기 시간 영역 잔차 신호를 복원하는 오디오 복호화 방법. - 제13항에 있어서,
상기 시간 영역 신호를 출력하는 단계는,
상기 복소수 LPC에 IDFT 및 ABS 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및
상기 시간 영역 잔차 신호에 상기 시간축 포락선 정보를 복원하여 상기 시간 영역 신호를 출력하는 단계
를 포함하는 오디오 복호화 방법. - 제13항에 있어서,
상기 시간 영역 신호를 출력하는 단계는,
상기 시간 영역 잔차 신호에 DFT를 수행하여 주파수 영역 잔차 신호 2를 출력하는 단계;
상기 복소수 LPC로 상기 주파수 영역 잔차 신호 2를 LPC 분석하여 시간축 포락선 정보를 복원하는 단계; 및
시간축 포락선 정보가 복원된 주파수 영역 잔차 신호 2에 IDFT를 적용하여 시간 영역 신호를 획득하는 단계
를 포함하는 오디오 복호화 방법. - 입력 신호를 LPC 분석하여 주파수축 포락선이 제거된 시간 영역 신호를 출력하는 단계;
상기 시간 영역 신호를 TNS(temporal noise shaping)-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및
상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계
를 포함하는 오디오 부호화 방법. - 제16항에 있어서,
상기 시간 영역 잔차 신호를 출력하는 단계는,
상기 시간 영역 신호에 힐버트 변환을 수행하여 분석폼으로 변환하는 단계;
상기 분석폼에 DFT를 수행하여 복소수 LPC를 획득하는 단계;
상기 복소수 LPC에 IDFT 및 ABS 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및
상기 시간 영역 신호에서 상기 시간축 포락선 정보를 제거하여 시간 영역 잔차 신호를 획득하는 단계
를 포함하는 오디오 부호화 방법. - 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력하는 단계;
상기 시간 영역 잔차 신호를 TNS-2 복호화하여 시간 영역 신호를 출력하는 단계;
오디오 부호화 장치로부터 수신한 LPC 정보와 상기 시간 영역 신호를 합성하여 입력 신호를 복원하는 단계
를 포함하는 오디오 복호화 방법. - 제18항에 있어서,
상기 수신 신호는,
오디오 부호화 장치에서 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 시간 영역 신호로부터 획득한 복소수 LPC, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고,
상기 시간 영역 잔차 신호를 출력하는 단계는,
상기 비트스트림을 역양자화하여 상기 시간 영역 잔차 신호를 복원하는 오디오 복호화 방법. - 제19항에 있어서,
상기 시간 영역 신호를 출력하는 단계는,
상기 복소수 LPC에 IDFT 및 ABS 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및
상기 시간 영역 잔차 신호에 상기 시간축 포락선 정보를 복원하여 상기 시간 영역 신호를 출력하는 단계
를 포함하는 오디오 복호화 방법.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202180047761.0A CN116018640A (zh) | 2020-07-06 | 2021-07-02 | 对过渡段编码失真具有鲁棒性的音频编码/解码设备和方法 |
US18/014,924 US20240087577A1 (en) | 2020-07-06 | 2021-07-02 | Apparatus and method for audio encoding/decoding robust to transition segment encoding distortion |
PCT/KR2021/008417 WO2022010189A1 (ko) | 2020-07-06 | 2021-07-02 | 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR20200083086 | 2020-07-06 | ||
KR1020200083086 | 2020-07-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220005379A true KR20220005379A (ko) | 2022-01-13 |
Family
ID=79342223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200186628A KR20220005379A (ko) | 2020-07-06 | 2020-12-29 | 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240087577A1 (ko) |
KR (1) | KR20220005379A (ko) |
CN (1) | CN116018640A (ko) |
WO (1) | WO2022010189A1 (ko) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5790759A (en) * | 1995-09-19 | 1998-08-04 | Lucent Technologies Inc. | Perceptual noise masking measure based on synthesis filter frequency response |
JP3681488B2 (ja) * | 1996-11-19 | 2005-08-10 | 三井・デュポンポリケミカル株式会社 | エチレン共重合体組成物及びそれを用いた易開封性シール材料 |
KR20060131766A (ko) * | 2003-12-01 | 2006-12-20 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 오디오 코딩 |
KR100813259B1 (ko) * | 2005-07-13 | 2008-03-13 | 삼성전자주식회사 | 입력신호의 계층적 부호화/복호화 장치 및 방법 |
KR101176703B1 (ko) * | 2008-12-03 | 2012-08-23 | 한국전자통신연구원 | 음원 위치 단서 기반의 멀티 채널 오디오 복호화 장치 및 방법 |
-
2020
- 2020-12-29 KR KR1020200186628A patent/KR20220005379A/ko active Search and Examination
-
2021
- 2021-07-02 WO PCT/KR2021/008417 patent/WO2022010189A1/ko active Application Filing
- 2021-07-02 US US18/014,924 patent/US20240087577A1/en active Pending
- 2021-07-02 CN CN202180047761.0A patent/CN116018640A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022010189A1 (ko) | 2022-01-13 |
CN116018640A (zh) | 2023-04-25 |
US20240087577A1 (en) | 2024-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101373004B1 (ko) | 고주파수 신호 부호화 및 복호화 장치 및 방법 | |
US9728196B2 (en) | Method and apparatus to encode and decode an audio/speech signal | |
CN105518777B (zh) | 用频谱域智能间隙填充编码或解码音频信号的设备及方法 | |
JP4950210B2 (ja) | オーディオ圧縮 | |
US8891776B2 (en) | Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation | |
JP5140730B2 (ja) | 切り換え可能な時間分解能を用いた低演算量のスペクトル分析/合成 | |
CN112767954B (zh) | 音频编解码方法、装置、介质及电子设备 | |
US7805314B2 (en) | Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data | |
EP2849180B1 (en) | Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal | |
JP5873936B2 (ja) | 知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御 | |
KR20080027129A (ko) | 대역폭 확장 기법 및 스테레오 부호화 기법을 이용한오디오 신호의 부호화/복호화 방법 및 장치 | |
JP2019074755A (ja) | 独立したノイズ充填を用いた強化された信号を生成するための装置および方法 | |
JP2006201785A (ja) | デジタル信号の符号化/復号化方法及びその装置並びに記録媒体 | |
JP6148342B2 (ja) | 低または中ビットレートに対する知覚品質に基づくオーディオ分類 | |
CN106030704B (zh) | 用于对音频信号进行编码/解码的方法和设备 | |
KR20220151953A (ko) | 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기 | |
KR20220048252A (ko) | 학습 모델을 이용한 오디오 신호의 부호화 및 복호화 방법 및 장치와 학습 모델의 트레이닝 방법 및 장치 | |
KR20210067488A (ko) | 이전 프레임의 정보를 사용한 오디오 신호 부호화/복호화 장치 및 방법 | |
KR20220005379A (ko) | 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법 | |
KR20220118158A (ko) | 주파수 대역의 확장을 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기 | |
KR20210158108A (ko) | 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기 | |
KR20210133551A (ko) | 적응형 주파수 복원 기법 기반 오디오 부호화 방법 | |
KR20210067502A (ko) | 필터뱅크를 이용한 오디오 신호 부호화/복호화 장치 및 방법 | |
WO2019173195A1 (en) | Signals in transform-based audio codecs | |
US20170206905A1 (en) | Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |