KR20220005379A - 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법 - Google Patents

천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법 Download PDF

Info

Publication number
KR20220005379A
KR20220005379A KR1020200186628A KR20200186628A KR20220005379A KR 20220005379 A KR20220005379 A KR 20220005379A KR 1020200186628 A KR1020200186628 A KR 1020200186628A KR 20200186628 A KR20200186628 A KR 20200186628A KR 20220005379 A KR20220005379 A KR 20220005379A
Authority
KR
South Korea
Prior art keywords
signal
time
domain
frequency
lpc
Prior art date
Application number
KR1020200186628A
Other languages
English (en)
Inventor
백승권
성종모
이미숙
이태진
임우택
장인선
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to CN202180047761.0A priority Critical patent/CN116018640A/zh
Priority to US18/014,924 priority patent/US20240087577A1/en
Priority to PCT/KR2021/008417 priority patent/WO2022010189A1/ko
Publication of KR20220005379A publication Critical patent/KR20220005379A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법이 개시된다. 오디오 부호화 방법은 입력 신호를 T/F(time-to-frequency) 변환하여 주파수 영역 신호를 출력하는 단계; 상기 주파수 영역 신호에 FDNS(frequency domain noise shaping) 부호화를 적용하여 상기 주파수 영역 신호에서 주파수축 포락선이 제거된 주파수 영역 잔차 신호를 출력하는 단계; 상기 주파수 영역 잔차 신호를 기초로 LPC(linear prediction coefficient) 분석을 수행하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및 상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계를 포함할 수 있다.

Description

천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법{APPARATUS AND METHOD FOR ENCODING/DECODING AUDIO THAT IS ROBUST AGAINST CODING DISTORTION IN TRANSITION SECTION}
본 발명은 오디오 부호화/복호화 장치 및 방법에 관한 것으로, 보다 구체적으로는 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 기술에 관한 장치 및 방법에 관한 것이다.
오디오 부호화 과정에서 천이구간 발생시 부호화 효율 저하 및 음질 왜곡이 발생할 수 있다. 예를 들어, 피아노 악기와 기타 연주가 동시에 발생하는 상황에서 두 악기의 소리가 천이 되거나 중첩된 구간을 부호화 하기 위해서는 다양한 부호화 방식이 적용되어야 하며, 많은 비트를 소진하게 된다.
종래의 오디오 부호화 방법은 천이구간이 발생할 경우 분석단위 프레임 길이를 달리 하거나, TNS (temporal noise shaping) 기술을 적용하여 천이 구간을 부분적으로 억제하였으나, 여전히 많은 비트 소진과 음질 왜곡을 발생시키고 있는 실정이다.
따라서, 천이구간의 발생에 따른 부호화 효율 감소 및 음질 손실을 최소화하는 방법이 요청되고 있다.
본 발명은 천이구간이 발생하여도 예외처리 없이 동일한 프레임워크로 동작 시켜 부호화를 진행함으로써 부호화 효율을 높이고 음질 손실을 최소화하는 하는 장치 및 방법을 제공한다.
본 발명의 일실시예에 따른 오디오 부호화 방법은 입력 신호를 T/F(time-to-frequency) 변환하여 주파수 영역 신호를 출력하는 단계; 상기 주파수 영역 신호에 FDNS(frequency domain noise shaping) 부호화를 적용하여 상기 주파수 영역 신호에서 주파수축 포락선이 제거된 주파수 영역 잔차 신호를 출력하는 단계; 상기 주파수 영역 잔차 신호를 기초로 LPC(linear prediction coefficient) 분석을 수행하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및 상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 주파수 영역 잔차 신호를 출력하는 단계는, 상기 입력 신호로부터 LPC 정보를 획득하는 단계; 상기 LPC 정보로부터 주파수축 포락선 정보를 획득하는 단계; 및 상기 주파수 영역 신호로부터 주파수축 포락선 정보를 제거하여 상기 주파수 영역 잔차 신호를 생성하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 주파수 영역 잔차 신호를 출력하는 단계는, LPC 정보를 주파수 영역의 LPC 주파수 정보로 변환하는 단계를 더 포함하고, 상기 포락선 정보를 획득하는 단계는, 상기 LPC 주파수 정보의 절대값을 상기 포락선 정보로 획득할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 시간 영역 잔차 신호를 출력하는 단계는, 상기 주파수 영역 잔차 신호로부터 LPC 계수를 획득하는 단계; 및 상기 LPC 계수로 상기 주파수 영역 잔차 신호를 LPC 분석하여 주파수축 포락선 정보와 시간축 포락선 정보가 제거된 시간 영역 잔차 신호를 출력하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법은 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력하는 단계; 상기 시간 영역 잔차 신호를 LPC 분석하여 주파수 영역 잔차 신호를 출력하는 단계; 상기 주파수 영역 잔차 신호에 FDNS 복호화를 수행하여 주파수 영역 신호를 출력하는 단계; 주파수 영역 신호를 F/T (frequency-to-time) 변환하여 시간 영역 신호를 출력하는 단계; 및 상기 시간 영역 신호에 TDAC(time domain aliasing cancellation)를 수행하여 입력 신호를 복원하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 수신 신호는, 오디오 부호화 장치에 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 주파수 영역 잔차 신호로부터 획득한 LPC 계수, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고, 상기 시간 영역 잔차 신호를 출력하는 단계는, 상기 비트스트림을 역양자화하여 상기 시간 영역 잔차 신호를 복원할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 주파수 영역 잔차 신호를 출력하는 단계는, 상기 수신 신호에 포함된 LPC 계수로 상기 시간 영역 잔차 신호를 LPC 합성하여 시간축 포락선 정보가 복원된 주파수 영역 잔차 신호를 출력할 수 있다.]
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 주파수 영역 신호를 출력하는 단계는, 상기 수신 신호에 포함된 LPC 주파수 정보로부터 주파수축 포락선 정보를 획득하고, 상기 주파수 영역 잔차 신호에 상기 주파수축 포락선 정보를 복원하여 상기 주파수 영역 신호를 출력할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법은 입력 신호를 T/F 변환하여 주파수 영역 신호를 출력하는 단계; 상기 주파수 영역 신호에 FDNS 부호화를 적용하여 상기 입력 신호에서 주파수축 포락선이 제거된 주파수 영역 잔차 신호를 출력하는 단계; 상기 주파수 영역 잔차 신호를 F/T 변환하여 시간 영역 신호를 출력하는 단계; 상기 시간 영역 신호에 TDAC를 적용하는 단계; TDAC가 적용된 시간 영역 신호를 TNS(temporal noise shaping)-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및 상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 시간 영역 잔차 신호를 출력하는 단계는, 상기 TDAC가 적용된 시간 영역 신호에 힐버트 변환을 수행하여 분석폼(analytic form)으로 변환하는 단계; 상기 분석폼에 DFT(discrete Fourier transform)를 수행하여 복소수 LPC를 획득하는 단계; 상기 복소수 LPC에 IDFT(inverse DFT) 및 ABS(Absolute Value) 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및 TDAC가 적용된 시간 영역 신호에서 상기 시간축 포락선 정보를 제거하여 시간 영역 잔차 신호를 획득하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 시간 영역 잔차 신호를 출력하는 단계는, 상기 TDAC가 적용된 시간 영역 신호에 힐버트 변환을 수행하여 분석폼으로 변환하는 단계; 상기 분석폼에 DFT를 수행하여 복소수 LPC를 획득하는 단계; 상기 TDAC가 적용된 시간 영역 신호에 DFT을 수행하여 주파수 영역 잔차 신호 2를 출력하는 단계; 상기 복소수 LPC로 상기 주파수 영역 잔차 신호 2를 LPC 분석하여 시간축 포락선 정보를 제거하는 단계; 및 시간축 포락선 정보가 제거된 주파수 영역 잔차 신호 2에 IDFT를 적용하여 시간 영역 잔차 신호를 획득하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법은 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력하는 단계; 상기 시간 영역 잔차 신호를 TNS-2 복호화하여 시간 영역 신호를 출력하는 단계; 시간 영역 신호를 T/F 변환하여 주파수 영역 잔차 신호를 출력하는 단계; 상기 주파수 영역 잔차 신호에 FDNS 복호화를 수행하여 주파수 영역 신호를 출력하는 단계; 주파수 영역 신호를 F/T (frequency-to-time) 변환하여 시간 영역 신호 2를 출력하는 단계; 및 상기 시간 영역 신호 2에 TDAC(time domain aliasing cancellation)를 수행하여 입력 신호를 복원하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 수신 신호는, 오디오 부호화 장치에서 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 시간 영역 신호로부터 획득한 복소수 LPC, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고, 상기 시간 영역 잔차 신호를 출력하는 단계는, 상기 비트스트림을 역양자화하여 상기 시간 영역 잔차 신호를 복원할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 시간 영역 신호를 출력하는 단계는, 상기 복소수 LPC에 IDFT 및 ABS 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및 상기 시간 영역 잔차 신호에 상기 시간축 포락선 정보를 복원하여 상기 시간 영역 신호를 출력하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 시간 영역 신호를 출력하는 단계는, 상기 시간 영역 잔차 신호에 DFT를 수행하여 주파수 영역 잔차 신호 2를 출력하는 단계; 상기 복소수 LPC로 상기 주파수 영역 잔차 신호 2를 LPC 분석하여 시간축 포락선 정보를 복원하는 단계; 및 시간축 포락선 정보가 복원된 주파수 영역 잔차 신호 2에 IDFT를 적용하여 시간 영역 신호를 획득하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법은 입력 신호를 LPC 분석하여 주파수축 포락선이 제거된 시간 영역 신호를 출력하는 단계; 상기 시간 영역 신호를 TNS(temporal noise shaping)-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및 상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 부호화 방법의 상기 시간 영역 잔차 신호를 출력하는 단계는, 상기 시간 영역 신호에 힐버트 변환을 수행하여 분석폼으로 변환하는 단계; 상기 분석폼에 DFT를 수행하여 복소수 LPC를 획득하는 단계; 상기 복소수 LPC에 IDFT 및 ABS 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및 상기 시간 영역 신호에서 상기 시간축 포락선 정보를 제거하여 시간 영역 잔차 신호를 획득하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법은 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력하는 단계; 상기 시간 영역 잔차 신호를 TNS-2 복호화하여 시간 영역 신호를 출력하는 단계; 오디오 부호화 장치로부터 수신한 LPC 정보와 상기 시간 영역 신호를 합성하여 입력 신호를 복원하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 상기 수신 신호는, 오디오 부호화 장치에서 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 시간 영역 신호로부터 획득한 복소수 LPC, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고, 상기 시간 영역 잔차 신호를 출력하는 단계는, 상기 비트스트림을 역양자화하여 상기 시간 영역 잔차 신호를 복원할 수 있다.
본 발명의 일실시예에 따른 오디오 복호화 방법의 시간 영역 신호를 출력하는 단계는, 상기 복소수 LPC에 IDFT 및 ABS 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및 상기 시간 영역 잔차 신호에 상기 시간축 포락선 정보를 복원하여 상기 시간 영역 신호를 출력하는 단계를 포함할 수 있다.
본 발명의 일실시예에 의하면, FDNS 부호화를 적용하여 출력된 주파수 영역 잔차 신호에 시간축 정보를 평탄화 하는 TNS 기술을 적용함으로써, 부호화 효율을 증가시킬 수 있다.
또한, 본 발명의 일실시예에 의하면, 주파수 포락선이 제거된 주파수 영역 잔차 신호를 시간 영역 신호로 변환한 후, TNS-2 부호화하여 시간축 포락선을 제거함으로써, 부호화 효율을 높일 수 있다.
그리고, LPC 분석을 수행하여 주파수 포락선을 제거하고, 주파수 포락선이 제거된 주파수 영역 잔차 신호를 시간 영역 신호로 변환한 후, TNS-2 부호화하여 시간축 포락선을 제거함으로써, 부호화 효율을 높일 수 있다.
도 1은 본 발명의 제1실시예에 따른 오디오 부호화/복호화 장치를 도시한 도면이다.
도 2는 TDAC 동작의 원리를 나타내는 도면이다.
도 3은 본 발명의 제1실시예에 따른 오디오 부호화 장치의 상세 구성을 도시한 도면이다.
도 4는 본 발명의 제1실시예에 따른 오디오 복호화 장치의 상세 구성을 도시한 도면이다.
도 5는 본 발명의 제2실시예에 따른 오디오 부호화 장치를 도시한 도면이다.
도 6은 본 발명의 제2실시예에 따른 오디오 부호화 장치의 상세 구성의 일례이다.
도 7은 본 발명의 제2실시예에 따른 오디오 부호화 장치의 상세 구성의 다른 일례이다.
도 8은 본 발명의 제2실시예에 따른 오디오 복호화 장치를 도시한 도면이다.
도 9는 본 발명의 제2실시예에 따른 오디오 복호화 장치의 상세 구성의 일례이다.
도 10은 본 발명의 제2실시예에 따른 오디오 복호화 장치의 상세 구성의 다른 일례이다.
도 11은 본 발명의 제3실시예에 따른 오디오 부호화/복호화 장치를 도시한 도면이다.
도 12은 본 발명의 제3실시예에 따른 오디오 부호화 장치의 상세 구성을 도시한 도면이다.
도 13은 본 발명의 제3실시예에 따른 오디오 복호화 장치의 상세 구성을 도시한 도면이다.
도 14는 본 발명의 일실시예에 따른 오디오 부호화 장치의 성능 비교 결과의 일례이다.
도 15는 본 발명의 제1 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
도 16은 본 발명의 제1 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
도 17은 본 발명의 제2 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
도 18은 본 발명의 제2 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
도 19는 본 발명의 제3 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
도 20은 본 발명의 제3 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
예를 들어, 본 발명의 일실시예에서 사용하는 LPC 분석은 수학식 1을 이용하여 수행될 수 있다.
Figure pat00001
또한, 본 발명의 일실시예에서 사용하는 LPC 합성은 수학식 1을 이용하여 수행될 수 있다.
Figure pat00002
이때. LPC 계수는 p차의
Figure pat00003
이며, 양자화 되어 적용될 수 있다.
도 1은 본 발명의 제1실시예에 따른 오디오 부호화/복호화 장치를 도시한 도면이다.
오디오 부호화 장치(110)는 도 1에 도시된 바와 같이 T/F변환기(111), FDNS인코더(112), TNS-1 인코더(113), 및 양자화기(114)를 포함할 수 있다. 이때, T/F변환기(111), FDNS인코더(112), TNS-1 인코더(113), 및 양자화기(114)는 서로 다른 프로세서, 또는 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수 있다. 예를 들어, 오디오 부호화 장치(110)는 부호화기일 수 있다.
T/F변환기(111)는 입력 신호를 T/F(time-to-frequency) 변환하여 주파수 영역 신호를 출력할 수 있다. 예를 들어, T/F변환기(111)는 MDCT(modified discrete cosine transform)를 이용하여 입력 신호를 주파수 영역 신호로 T/F 변환할 수 있다. 또한, 입력 신호인 x(b)는 블록 단위 벡터이며, 수학식 3과 같이 정의될 수 있다.
Figure pat00004
FDNS인코더(112)는 T/F변환기(111)에서 출력된 주파수 영역 신호에 FDNS(frequency domain noise shaping) 부호화를 적용하여 주파수 영역 잔차 신호를 출력할 수 있다. 이때, 주파수 영역 잔차 신호는 주파수 영역 신호에서 주파수축 포락선이 제거된 신호일 수 있다.
TNS-1 인코더(113)는 FDNS인코더(112)에서 출력된 주파수 영역 잔차 신호를 기초로 LPC(linear prediction coefficient) 분석을 수행하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력할 수 있다. 이때, TNS-1 인코더(113)는 주파수 영역에서 LPC 계수를 예측하고, 예측 결과에 따라 잔차 신호를 생성하는 TNS (temporal noise shaping)-1 부호화 기술을 사용할 수 있다. 또한, 오디오 부호화 장치(110)는 실시예에 따라 LPC 분석을 수행하는 다른 인코더를 이용하여 주파수 영역 잔차 신호를 부호화할 수도 있다.
오디오 부호화 장치(110)는 FDNS 부호화를 적용하여 출력된 주파수 영역 잔차 신호에 시간축 정보를 평탄화 하는 TNS 기술을 적용함으로써, 부호화 효율을 증가시킬 수 있다.
양자화기(114)는 TNS-1 인코더(113)에서 출력된 시간 영역 잔차 신호를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(120)로 전송할 수 있다.
오디오 부호화 장치(110)의 세부 구성 및 동작은 이하 도 3을 참조하여 상세히 설명한다.
오디오 복호화 장치(120)는 도 1에 도시된 바와 같이 역 양자화기(121), TNS-1 디코더(122), FDNS 디코더(123), F/T 변환기(124),TDAC(125)를 포함할 수 있다. 이때, 역 양자화기(121), TNS-1 디코더(122), FDNS 디코더(123), F/T 변환기(124),TDAC(125) 는 서로 다른 프로세서, 또는 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수 있다.
역 양자화기(121)는 오디오 부호화 장치(110)로부터 수신한 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력할 수 있다.
이때, 수신 신호는, 오디오 부호화 장치(110)에 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 주파수 영역 잔차 신호로부터 획득한 LPC 계수, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함할 수 있다. 그리고, 역 양자화기(121)는 비트스트림을 역양자화하여 시간 영역 잔차 신호를 복원할 수 있다.
TNS-1 디코더(122)는 역 양자화기(121)에서 출력된 시간 영역 잔차 신호를 LPC 분석하여 주파수 영역 잔차 신호를 출력할 수 있다. 이때, TNS-1 디코더(122)는 TNS (temporal noise shaping)-1 복호화 기술을 사용하여 시간 영역 잔차 신호를 복호화할 수 있다. 또한, 오디오 복호화 장치(120)는 실시예에 따라 LPC 분석을 수행하는 다른 디코더를 이용하여 주파수 영역 잔차 신호를 복호화할 수도 있다.
FDNS 디코더(123)는 TNS-1 디코더(122)에서 출력된 주파수 영역 잔차 신호에 FDNS 복호화를 수행하여 주파수 영역 신호를 출력할 수 있다.
F/T 변환기(124)는 FDNS 디코더(123)에서 출력된 주파수 영역 신호를 F/T (frequency-to-time) 변환하여 시간 영역 신호를 출력할 수 있다. 예를 들어, F/T 변환기(124)는 IMDCT(Inverse modified discrete cosine transform)를 이용하여 주파수 영역 신호를 시간 영역 신호로 F/T 변환할 수 있다.
TDAC(125)는 F/T 변환기(124)에서 출력된 시간 영역 신호에 TDAC(time domain aliasing cancellation)를 수행하여 입력 신호를 복원할 수 있다. 이때, TDAC(125)는 MDCT 특성에 의하여 발생하는 시간 도메인 에일리어싱(Time domain aliasing_을 제거하기 위하여 TDAC를 수행하는 구성이다. 따라서, F/T 변환기(124)가 시간 도메인 에일리어싱을 발생시키지 않는 변환기인 경우, 오디오 복호화 장치(120)는 TDAC(125)를 포함하지 않고, F/T 변환기(124)는 주파수 영역 신호를 F/T 변환하여 입력 신호를 복원할 수도 있다.
오디오 복호화 장치(120)의 세부 구성 및 동작은 이하 도 3을 참조하여 상세히 설명한다.
도 2는 TDAC 동작의 원리를 나타내는 도면이다.
TDAC(time domain aliasing cancellation)는 도 2에 도시된 바와 같이 현재 프레임(220)을 폴딩 포인트(folding point)를 중심으로 이웃 프레임들과 50% 오버렙 에드(overlap add)를 수행함으로써, 시간 도메인 에일리어싱이 제거된 신호(240)를 출력할 수 있다. 이때, 이웃 프레임은 현재 프레임(220)의 이전 프레임(210), 및 이후 프레임(230)일 수 있다. 또한, 폴딩 포인트는 변환 크기(transform size)의 1/4 되는 양 지점이며, 도 2에서는 각 프레임들의 축에 수직선으로 도시되었다.
도 3은 본 발명의 제1실시예에 따른 오디오 부호화 장치의 상세 구성을 도시한 도면이다.
FDNS인코더(112)는 입력 신호 x(b)로부터 LPC 정보를 획득할 수 있다. 다음으로, FDNS인코더(112)는 LPC 주파수 정보로부터 주파수축 포락선 정보를 획득할 수 있다. 그 다음으로, FDNS인코더(112)는 주파수 영역 신호로부터 주파수축 포락선 정보를 제거하여 주파수 영역 잔차 신호를 생성할 수 있다.
이때, FDNS인코더(112)는 도 3에 도시된 바와 같이 FDNS LPC(310), DFT(320), ABS(330), 및 ENV 쉐이핑(340)를 포함할 수 있다.
FDNS LPC(310)는 입력 신호 x(b)로부터 LPC를 획득할 수 있다. 그리고, FDNS LPC(310)는 획득한 LPC를 FDNS의 LPC 정보로 정의할 수 있다.
DFT(320)는 LPC 정보에 DFT(discrete Fourier transform)을 수행하여 주파수 영역의 LPC 주파수 정보로 변환할 수 있다.
ABS(330)는 LPC 주파수 정보에 ABS(Absolute Value) 연산을 수행하여 LPC 주파수 정보의 절대값을 계산할 수 있다.
ENV 쉐이핑(340)은 LPC 주파수 정보의 절대값을 포락선 정보로 획득할 수 있다. 그리고, ENV 쉐이핑(340)은 주파수 영역 신호로부터 주파수축 포락선 정보를 제거하여 주파수 영역 잔차 신호인 rf(b)를 생성할 수 있다. 예를 들어, ENV 쉐이핑(340)은 입력 신호 x(b)가 MDCT 변환된 주파수 영역 신호 xf(b)를 포락선 정보인 envf(b)로 나눔으로써, 주파수 영역 잔차 신호인 rf(b)를 출력할 수 있다. 즉, rf(b) = xf(b)/envf(b)일 수 있다.
이때, TNS-1 인코더(113)는 도 3에 도시된 바와 같이 LPC 분석기(350)과 TNS-1 LPC(360)를 포함할 수 있다.
LPC 분석기(350)는 주파수 영역 잔차 신호인 rf(b)로부터 LPC 계수를 획득할 수 있다. 그리고, LPC 분석기(350)는 획득한 LPC 계수를 TNS-1 LPC로 정의할 수 있다.
TNS-1 LPC(360)는 LPC 분석기(350)가 획득한 LPC 계수로 주파수 영역 잔차 신호를 LPC 분석하여 주파수축 포락선 정보와 시간축 포락선 정보가 제거된 시간 영역 잔차 신호인 rrf(b)를 출력할 수 있다. 예를 들어, TNS-1 LPC(360)는 주파수 영역 잔차 신호인 rf(b)와 LPC 계수 간의 복적분 연산을 통하여 시간 영역 잔차 신호인 rrf(b)를 출력할 수 있다.
도 4는 본 발명의 제1실시예에 따른 오디오 복호화 장치의 상세 구성을 도시한 도면이다.
역 양자화기(121)는 오디오 부호화 장치(110)로부터 수신한 수신 신호를 역 양자화하여 시간 영역 잔차 신호인
Figure pat00005
를 출력할 수 있다.
TNS-1 디코더(122)는 도 4에 도시된 바와 같이 LPC합성기(410)와 TNS-1 LPC(420)를 포함할 수 있다.
TNS-1 LPC(420)는 오디오 부호화 장치(110)의 LPC 계수를 획득할 수 있다. 이때, TNS-1 LPC(420)는 수신 신호에 포함된 LPC 계수를 추출할 수도 있고, 오디오 부호화 장치(110)의 TNS-1 LPC(360)로부터 LPC 계수를 수신할 수도 있다.
LPC합성기(410)는 TNS-1 LPC(420)가 획득한 LPC 계수로 시간 영역 잔차 신호
Figure pat00006
를 LPC 합성하여 시간축 포락선 정보가 복원된 주파수 영역 잔차 신호
Figure pat00007
를 출력할 수 있다.
FDNS 디코더(123)는 도 4에 도시된 바와 같이 FDNS LPC(430), DFT(440), ABS(450) 및 ENV 쉐이핑(450)를 포함할 수 있다.
FDNS LPC(430)는 FDNS의 LPC 정보를 획득할 수 있다. 이때, FDNS LPC(430)는 수신 신호에 포함된 LPC 정보를 추출할 수도 있고, 오디오 부호화 장치(110)의 FDNS LPC(310)로부터 LPC 정보를 수신할 수도 있다.
DFT(430)는 LPC 정보에 DFT을 수행하여 주파수 영역의 LPC 주파수 정보로 변환할 수 있다.
ABS(440)는 LPC 주파수 정보에 ABS 연산을 수행하여 LPC 주파수 정보의 절대값을 계산할 수 있다.
ENV 쉐이핑(450)은 LPC 주파수 정보의 절대값을 포락선 정보인 envf(b)로 획득할 수 있다. 그리고, ENV 쉐이핑(450)은 주파수 영역 잔차 신호
Figure pat00008
에 주파수축 포락선 정보인 envf(b)를 복원하여 주파수 영역 신호인
Figure pat00009
를 생성할 수 있다. 예를 들어,
Figure pat00010
일 수 있다.
F/T 변환기(124)는 FDNS 디코더(123)에서 출력된 주파수 영역 신호인
Figure pat00011
를 F/T변환하여 시간 영역 신호를 출력하고, TDAC(125)는 F/T 변환기(124)에서 출력된 시간 영역 신호에 TDAC를 수행하여 복원된 입력 신호
Figure pat00012
를 출력할 수 있다.
도 5는 본 발명의 제2실시예에 따른 오디오 부호화 장치를 도시한 도면이다.
오디오 부호화 장치(500)는 도 5에 도시된 바와 같이 제1 T/F변환기(510), FDNS인코더(520), F/T 변환기(530), TDAC(540), TNS-2 인코더(550), 제2 T/F변환기(560), 및 양자화기(570)를 포함할 수 있다. 이때, 제1 T/F변환기(510), FDNS인코더(520), F/T 변환기(530), TDAC(540), TNS-2 인코더(550), 제2 T/F변환기(560), 및 양자화기(570)는 서로 다른 프로세서, 또는 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수 있다. 예를 들어, 오디오 부호화 장치(500)는 부호화기일 수 있다. 또한, 제1 T/F변환기(510), FDNS인코더(520)는 도 1의 T/F변환기(111), FDNS인코더(112)와 동일한 구성이므로 상세한 설명은 생략한다.
F/T 변환기(530)는 FDNS인코더(520)에서 출력된 주파수 영역 잔차 신호를 F/T 변환하여 시간 영역 신호를 출력할 수 있다.
TDAC(540)는 F/T 변환기(530)에서 출력된 시간 영역 신호에 TDAC를 적용하여 시간 도메인 에일리어싱을 제거할 수 있다.
TNS-2 인코더(550)는 TDAC가 적용된 시간 영역 신호를 TNS(temporal noise shaping)-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력할 수 있다.
양자화기(570)는 TNS-2 인코더(550)에서 출력된 시간 영역 잔차 신호를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(800)로 전송할 수 있다. 이때, 양자화기(570)가 시간 영역 양자화를 수행하는 경우, 오디오 부호화 장치(500)는 제2 T/F변환기(560)를 포함하지 않을 수 있다.
또한, 양자화기(570)가 주파수 영역 양자화를 수행하는 경우, 오디오 부호화 장치(500)는 제2 T/F변환기(560)를 포함할 수 있다. 이때, 제2 T/F변환기(560)는 TNS-2 인코더(550)에서 출력된 시간 영역 잔차 신호를 T/F 변환하여 주파수 영역 신호 2를 출력할 수 있다. 이때, 주파수 영역 신호 2는 주파수축 포락선과 시간축 포락선이 모두 제거된 신호일 수 있다. 그리고, 양자화기(570)는 주파수 영역 신호 2를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(800)로 전송할 수 있다.
본 발명의 제2실시예에 따른 오디오 부호화 장치(500)는 주파수 포락선이 제거된 주파수 영역 잔차 신호를 시간 영역 신호로 변환한 후, TNS-2 부호화하여 시간축 포락선을 제거함으로써, 오디오 부호화 장치(110)보다 부호화 효율을 높일 수 있다.
오디오 부호화 장치(500)의 세부 구성 및 동작은 이하 도 6 및 도 7을 참조하여 상세히 설명한다.
도 6은 본 발명의 제2실시예에 따른 오디오 부호화 장치의 상세 구성의 일례이다.
FDNS인코더(520)는 도 6에 도시된 바와 같이 FDNS LPC(610), DFT(620), ABS(630), 및 ENV 쉐이핑(640)를 포함할 수 있다. 이때, FDNS LPC(610), DFT(620), ABS(630), 및 ENV 쉐이핑(640)는 도 3의 FDNS LPC(310), DFT(320), ABS(330), 및 ENV 쉐이핑(340)과 동일한 구성이므로 상세한 설명은 생략한다.
F/T 변환기(530)는 FDNS인코더(520)에서 출력된 주파수 영역 잔차 신호
Figure pat00013
를 F/T 변환하여 시간 영역 신호를 출력할 수 있다.
TDAC(540)는 F/T 변환기(530)에서 출력된 시간 영역 신호에 TDAC를 적용하여 시간 도메인 에일리어싱이 제거된 시간 영역 신호
Figure pat00014
를 출력할 수 있다.
TNS-2 인코더(550)는 타입 1인 경우, HT(650), DFT(660), TNS-2 LPC(670), IDFT&ABS(680), T-ENV 쉐이핑(690)을 포함할 수 있다.
HT(650)는 시간 영역 신호
Figure pat00015
에 힐버트 변환(Hilbert transform)을 수행하여 분석폼(analytic form)인
Figure pat00016
로 변환할 수 있다. 예를 들어,
Figure pat00017
일 수 있다. 또한,
Figure pat00018
는 복소수일 수 있다.
DFT(660)는 분석폼인
Figure pat00019
에 DFT(discrete Fourier transform)를 수행하여 복소수 형태의 주파수 계수를 획득할 수 있다.
TNS-2 LPC(670)는 복소수 형태의 주파수 계수로부터 복소수 LPC를 획득할 수 있다.
IDFT&ABS(680)는 복소수 LPC에 IDFT(inverse DFT) 및 ABS(Absolute Value) 연산을 적용하여 시간축 포락선 정보인
Figure pat00020
를 획득할 수 있다.
T-ENV 쉐이핑(690)은 시간 영역 신호
Figure pat00021
에서 상기 시간축 포락선 정보인
Figure pat00022
를 제거하여 시간 영역 잔차 신호인
Figure pat00023
를 획득할 수 있다. 예를 들어,
Figure pat00024
일 수 있다.
도 7은 TNS-2 인코더(550)가 타입 2인 경우의 오디오 부호화 장치(500)의 상세 구성이다.
타입 2인 TNS-2 인코더(550)는 TDAC(710), HT(720), DFT(730), TNS-2 LPC(740), DFT(750), LPC 분석기(760) IDFT(770)을 포함할 수 있다. 이때, TDAC(710)는 도 5의 TDAC(540)과 동일한 구성이므로 상세한 설명은 생략한다.
HT(720)는 시간 영역 신호
Figure pat00025
에 힐버트 변환을 수행하여 분석폼(analytic form)인
Figure pat00026
로 변환할 수 있다.
DFT(730)는 분석폼인
Figure pat00027
에 DFT를 수행하여 복소수 형태의 주파수 계수를 획득할 수 있다.
TNS-2 LPC(740)는 복소수 형태의 주파수 계수로부터 복소수 LPC를 획득할 수 있다.
DFT(750)는 시간 영역 신호
Figure pat00028
에 DFT을 수행하여 주파수 영역 잔차 신호 2를 출력할 수 있다.
LPC 분석기(760)는 복소수 LPC로 주파수 영역 잔차 신호 2를 LPC 분석하여 시간축 포락선 정보를 제거할 수 있다.
IDFT(770)는 시간축 포락선 정보가 제거된 주파수 영역 잔차 신호 2에 IDFT를 적용하여 시간 영역 잔차 신호
Figure pat00029
를 획득할 수 있다.
이때, 양자화기(570)가 시간 영역 양자화를 수행하는 경우, IDFT(770)는 시간 영역 잔차 신호
Figure pat00030
를 양자화기(570)로 전송할 수 있다. 그리고, 양자화기(570)는 시간 영역 잔차 신호
Figure pat00031
를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(800)로 전송할 수 있다.
또한, 양자화기(570)가 주파수 영역 양자화를 수행하는 경우, IDFT(770)는 시간 영역 잔차 신호
Figure pat00032
를 제2 T/F변환기(560)로 전송할 수 있다 그리고, 제2 T/F변환기(560)는 시간 영역 잔차 신호
Figure pat00033
를 T/F 변환하여 주파수 영역 신호 2를 출력할 수 있다. 다음으로, 양자화기(570)는 주파수 영역 신호 2를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(800)로 전송할 수 있다.
도 8은 본 발명의 제2실시예에 따른 오디오 복호화 장치를 도시한 도면이다.
오디오 복호화 장치(800)는 도 8에 도시된 바와 같이 역 양자화기(810), 제1 F/T 변환기(820), 제1 TDAC(830), TNS-2 디코더(840), T/F변환기(850), FDNS 디코더(860), 제2 F/T 변환기(870),제2 TDAC(880)를 포함할 수 있다. 이때, 역 양자화기(810), 제1 F/T 변환기(820), 제1 TDAC(830), TNS-2 디코더(840), T/F변환기(850), FDNS 디코더(860), 제2 F/T 변환기(870),제2 TDAC(880)는 서로 다른 프로세서, 또는 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수 있다.
오디오 부호화 장치(500)가 시간축에서 양자화를 수행한 경우, 역 양자화기(810)는 수신 신호를 시간축에서 역 양자화하여 시간 영역 잔차 신호
Figure pat00034
를 출력할 수 있다. 수신 신호는, 부호화기에서 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 시간 영역 신호로부터 획득한 복소수 LPC, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고, 역 양자화기(810)는 비트스트림을 역양자화하여 시간 영역 잔차 신호
Figure pat00035
를 복원할 수 있다.
반면, 오디오 부호화 장치(500)가 주파수축에서 양자화를 수행한 경우, 역 양자화기(810)는 주파수축에서 역 양자화한 신호를 제1 F/T 변환기(820)로 전송할 수 있다.
제1 F/T 변환기(820)는 역양자화기(810)로부터 수신한 신호를 F/T 변환하여 출력할 수 있다.
제1 TDAC(830)는 제1 F/T 변환기(820)에서 출력된 신호에 TDAC를 적용하여 시간 도메인 에일리어싱을 제거함으로써, 시간 영역 잔차 신호
Figure pat00036
를 복원할 수 있다.
TNS-2 디코더(840)는 시간 영역 잔차 신호
Figure pat00037
를 TNS-2 복호화하여 시간 영역 신호
Figure pat00038
를 출력할 수 있다.
T/F변환기(850)는 시간 영역 신호
Figure pat00039
를 T/F 변환하여 주파수 영역 잔차 신호를 출력할 수 있다.
FDNS 디코더(860)는 주파수 영역 잔차 신호에 FDNS 복호화를 수행하여 주파수 영역 신호
Figure pat00040
를 출력할 수 있다.
제2 F/T 변환기(870)는 주파수 영역 신호
Figure pat00041
를 F/T (frequency-to-time) 변환하여 시간 영역 신호 2를 출력할 수 있다.
제2 TDAC(880)는 시간 영역 신호 2에 TDAC를 수행하여 복원된 입력 신호
Figure pat00042
를 출력할 수 있다.
오디오 복호화 장치(800)의 세부 구성 및 동작은 이하 도 9 및 도 10을 참조하여 상세히 설명한다.
도 9는 본 발명의 제2실시예에 따른 오디오 복호화 장치의 상세 구성의 일례이다.
TNS-2 디코더(550)는 타입 1인 경우, TNS-2 LPC(910), IDFT&ABS(920), T-ENV 합성기(930)을 포함할 수 있다.
TNS-2 LPC(910)는 오디오 부호화 장치(500)의 복소수 LPC를 획득할 수 있다. 이때, TNS-2 LPC(910)는 수신 신호에 포함된 복소수 LPC를 추출할 수도 있고, 오디오 부호화 장치(800)의 TNS-2 LPC(670)로부터 복소수 LPC를 수신할 수도 있다.
IDFT&ABS(920)는 복소수 LPC에 IDFT 및 ABS 연산을 적용하여 시간축 포락선 정보
Figure pat00043
를 획득할 수 있다.
T-ENV 합성기(synthesis)(930)는 시간 영역 잔차 신호
Figure pat00044
에 시간축 포락선 정보
Figure pat00045
를 복원하여 시간 영역 신호
Figure pat00046
를 출력할 수 있다. 예를 들어,
Figure pat00047
일 수 있다.
FDNS 디코더(860)는 도 8에 도시된 바와 같이 FDNS LPC(940), DFT(950), ABS(960) 및 ENV 쉐이핑(970)을 포함할 수 있다. FDNS LPC(940), DFT(950), ABS(960) 및 ENV 쉐이핑(970)는 도 4에 도시된 바와 같이 FDNS LPC(430), DFT(440), ABS(450) 및 ENV 쉐이핑(450)와 동일한 구성이므로 상세한 설명은 생략한다.
도 10은 TNS-2 디코더(840)가 타입 2인 경우의 오디오 부호화 장치(800)의 상세 구성이다.
타입 2인 TNS-2 디코더(840)는 TNS-2 LPC(1010), DFT(1020), LPC 합성기(1030) IDFT(1040)을 포함할 수 있다.
TNS-2 LPC(1010)는 오디오 부호화 장치(500)의 복소수 LPC를 획득할 수 있다. 이때, TNS-2 LPC(1010)는 수신 신호에 포함된 복소수 LPC를 추출할 수도 있고, 오디오 부호화 장치(800)의 TNS-2 LPC(740)로부터 복소수 LPC를 수신할 수도 있다.
DFT(1020)는 시간 영역 잔차 신호
Figure pat00048
에 DFT를 수행하여 주파수 영역 잔차 신호 2를 출력할 수 있다.
LPC 합성기(1030)는 복소수 LPC로 주파수 영역 잔차 신호 2를 LPC 분석하여 시간축 포락선 정보를 복원할 수 있다.
IDFT(1040)는 시간축 포락선 정보가 복원된 주파수 영역 잔차 신호 2에 IDFT를 적용하여 시간 영역 신호
Figure pat00049
를 획득할 수 있다.
도 11은 본 발명의 제3실시예에 따른 오디오 부호화/복호화 장치를 도시한 도면이다.
오디오 부호화 장치(1110)는 도 11에 도시된 바와 같이 LPC 분석기(1111), TNS-2 인코더(1112), T/F변환기(1113), 및 양자화기(1114)를 포함할 수 있다. 이때, LPC 분석기(1111), TNS-2 인코더(1112), T/F변환기(1113), 및 양자화기(1114)는 서로 다른 프로세서, 또는 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수 있다. 예를 들어, 오디오 부호화 장치(110)는 부호화기일 수 있다.
LPC 분석기(1111)는 입력 신호를 LPC 분석하여 주파수축 포락선이 제거된 시간 영역 신호를 출력할 수 있다. 이때, LPC 분석기(1111)는 시간축 상에서 LPC 잔차 신호 복적분(convolution)을 통해 시간 영역 신호를 획득할 수 있다.
TNS-2 인코더(1112)는 시간 영역 신호를 TNS(temporal noise shaping)-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력할 수 있다.
양자화기(1114)는 시간 영역 잔차 신호를 양자화하여 전송할 수 있다.
양자화기(1114)는 TNS-2 인코더(1113)에서 출력된 시간 영역 잔차 신호를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(1120)로 전송할 수 있다. 이때, 양자화기(1114)가 시간 영역 양자화를 수행하는 경우, 오디오 부호화 장치(1110)는 T/F변환기(1113)를 포함하지 않을 수 있다.
또한, 양자화기(1114)가 주파수 영역 양자화를 수행하는 경우, 오디오 부호화 장치(1110)는 T/F변환기(1113)를 포함할 수 있다. 이때, T/F변환기(1113)는 TNS-2 인코더(1113)에서 출력된 시간 영역 잔차 신호를 T/F 변환하여 주파수 영역 신호 2를 출력할 수 있다. 이때, 주파수 영역 신호 2는 주파수축 포락선과 시간축 포락선이 모두 제거된 신호일 수 있다. 그리고, 양자화기(1114)는 주파수 영역 신호 2를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(1120)로 전송할 수 있다.
본 발명의 제3실시예에 따른 오디오 부호화 장치(1110)는 LPC 분석을 수행하여 주파수 포락선을 제거하고, 주파수 포락선이 제거된 주파수 영역 잔차 신호를 시간 영역 신호로 변환한 후, TNS-2 부호화하여 시간축 포락선을 제거함으로써, 오디오 부호화 장치(110)보다 부호화 효율을 높일 수 있다.
오디오 부호화 장치(1110)의 세부 구성 및 동작은 이하 도 12를 참조하여 상세히 설명한다.
오디오 복호화 장치(1120)는 도 11에 도시된 바와 같이 역 양자화기(1121), F/T 변환기(1122), TDAC(1123), TNS-2 디코더(1124), 및 LPC 합성기(1125)를 포함할 수 있다. 이때, 역 양자화기(1121), F/T 변환기(1122), TDAC(1123), TNS-2 디코더(1124), 및 LPC 합성기(1125)는 서로 다른 프로세서, 또는 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수 있다.
역 양자화기(1121)는 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력할 수 있다.
오디오 부호화 장치(1110)가 시간축에서 양자화를 수행한 경우, 역 양자화기(1121)는 수신 신호를 시간축에서 역 양자화하여 시간 영역 잔차 신호
Figure pat00050
를 출력할 수 있다. 수신 신호는, 부호화기에서 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 시간 영역 신호로부터 획득한 복소수 LPC, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고, 역 양자화기(1121)는 비트스트림을 역양자화하여 시간 영역 잔차 신호
Figure pat00051
를 복원할 수 있다.
반면, 오디오 부호화 장치(1110)가 주파수축에서 양자화를 수행한 경우, 역 양자화기(1121)는 주파수축에서 역 양자화한 신호를 F/T 변환기(1122)로 전송할 수 있다.
F/T 변환기(1122)는 역양자화기(1121)로부터 수신한 신호를 F/T 변환하여 출력할 수 있다.
TDAC(1123)는 F/T 변환기(1122)에서 출력된 신호에 TDAC를 적용하여 시간 도메인 에일리어싱을 제거함으로써, 시간 영역 잔차 신호
Figure pat00052
를 복원할 수 있다.
TNS-2 디코더(1124)는 시간 영역 잔차 신호
Figure pat00053
를 TNS-2 복호화하여 시간 영역 신호를 출력할 수 있다.
LPC 합성기(1125)는 오디오 부호화 장치(1110)로부터 수신한 LPC 정보와 TNS-2 디코더(1124)에서 출력된 시간 영역 신호를 합성하여 입력 신호를 복원할 수 있다.
오디오 복호화 장치(1120)의 세부 구성 및 동작은 이하 도 13을 참조하여 상세히 설명한다.
도 12은 본 발명의 제3실시예에 따른 오디오 부호화 장치의 상세 구성을 도시한 도면이다.
LPC 분석기(1111)는 입력 신호를 LPC 분석하여 주파수축 포락선이 제거된 시간 영역 신호
Figure pat00054
을 출력할 수 있다. 이때, 오디오 부호화 장치(1110)는 시간축에서 LPC 분석을 하여 주파수축 포락선이 제거된 시간 영역 신호
Figure pat00055
를 획득하였으므로, TDAC를 적용없이 바로 TNS-2 부호화를 적용할 수 있다.
TNS-2 인코더(1112)는 타입 1인 경우, HT(1210), DFT(1220), TNS-2 LPC(1230), IDFT&ABS(1240), T-ENV 쉐이핑(1250)을 포함할 수 있다.
HT(1210)는 시간 영역 신호
Figure pat00056
에 힐버트 변환(Hilbert transform)을 수행하여 분석폼(analytic form)인
Figure pat00057
로 변환할 수 있다. 예를 들어,
Figure pat00058
일 수 있다. 또한,
Figure pat00059
는 복소수일 수 있다.
DFT(1220)는 분석폼인
Figure pat00060
에 DFT(discrete Fourier transform)를 수행하여 복소수 형태의 주파수 계수를 획득할 수 있다.
TNS-2 LPC(1230)는 복소수 형태의 주파수 계수로부터 복소수 LPC를 획득할 수 있다.
IDFT&ABS(1240)는 복소수 LPC에 IDFT(inverse DFT) 및 ABS(Absolute Value) 연산을 적용하여 시간축 포락선 정보인
Figure pat00061
를 획득할 수 있다.
T-ENV 쉐이핑(1250)은 시간 영역 신호
Figure pat00062
에서 상기 시간축 포락선 정보인
Figure pat00063
를 제거하여 시간 영역 잔차 신호인
Figure pat00064
를 획득할 수 있다. 예를 들어,
Figure pat00065
일 수 있다.
도 13은 본 발명의 제3실시예에 따른 오디오 복호화 장치의 상세 구성을 도시한 도면이다.
TNS-2 디코더(1124)는 타입 1인 경우, TNS-2 LPC(1310), IDFT&ABS(1320), T-ENV 합성기(1330)을 포함할 수 있다.
TNS-2 LPC(1310)는 오디오 부호화 장치(1110)의 복소수 LPC를 획득할 수 있다. 이때, TNS-2 LPC(1310)는 수신 신호에 포함된 복소수 LPC를 추출할 수도 있고, 오디오 부호화 장치(1110)의 TNS-2 LPC(1230)로부터 복소수 LPC를 수신할 수도 있다.
IDFT&ABS(1320)는 복소수 LPC에 IDFT 및 ABS 연산을 적용하여 시간축 포락선 정보
Figure pat00066
를 획득할 수 있다.
T-ENV 합성기(synthesis)(1330)는 시간 영역 잔차 신호
Figure pat00067
에 시간축 포락선 정보
Figure pat00068
를 복원하여 시간 영역 신호
Figure pat00069
를 출력할 수 있다. 예를 들어,
Figure pat00070
일 수 있다.
LPC 합성기(1125)는 오디오 부호화 장치(1110)로부터 수신한 LPC 정보와 TNS-2 디코더(1124)에서 출력된 시간 영역 신호
Figure pat00071
를 합성하여 주파수 포락선 정보를 복원함으로써, 복원된 입력 신호
Figure pat00072
를 출력할 수 있다.
도 14는 본 발명의 일실시예에 따른 오디오 부호화 장치의 성능 비교 결과의 일례이다.
본 발명의 일실시예에 따른 오디오 부호화 장치 및 종래의 오디오 부호화 장치에서 각각 부호화한 오디오를 이용한 청취 테스트 결과의 일례이다.
테스트 시스템은 하기 4개이다.
Hidden : hidden reference로 original 신호이며, 피험자의 평가 결과 hidden을 90 점 이하일 때, post-screen을 통하여 결과 통계 집계에 반영하지 않음
Lp35: anchor 신호로, 3.5 kHz로 low-pass-filter를 적용하여 최소 음질에 대한 지각적 판단을 돕고자 테스트 시스템으로 포함시킴
Ours: 본 발명의 일실시예에 따른 오디오 부호화 장치
USAC: Unified Speech and Audio Coding 기술로 최고 성능의 오디오 코덱 기술을 적용한 오디오 부호화 장치.
도 14에 도시된 결과에 따르면, 본 발명의 일실시예에 따른 오디오 부호화 방법이 종래의 오디오 부호화 장치 중에서 최고의 성능을 가지는 USAC 보다 성능이 향상된 것을 확인할 수 있다.
도 15는 본 발명의 제1 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
단계(1510)에서 T/F변환기(111)는 입력 신호를 T/F변환하여 주파수 영역 신호를 출력할 수 있다. 예를 들어, T/F변환기(111)는 MDCT를 이용하여 입력 신호를 주파수 영역 신호로 T/F 변환할 수 있다.
단계(1520)에서 FDNS인코더(112)는 단계(1510)에서 출력된 주파수 영역 신호에 FDNS 부호화를 적용하여 주파수 영역 잔차 신호를 출력할 수 있다.
단계(1530)에서 TNS-1 인코더(113)는 단계(1520)에서 출력된 주파수 영역 잔차 신호를 기초로 LPC분석을 수행하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력할 수 있다.
단계(1540)에서 양자화기(114)는 단계(1530)에서 출력된 시간 영역 잔차 신호를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(120)로 전송할 수 있다.
도 16은 본 발명의 제1 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
단계(1610)에서 역 양자화기(121)는 오디오 부호화 장치(110)로부터 수신한 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력할 수 있다. 이때, 수신 신호는, 오디오 부호화 장치(110)에 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 주파수 영역 잔차 신호로부터 획득한 LPC 계수, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함할 수 있다. 그리고, 역 양자화기(121)는 비트스트림을 역양자화하여 시간 영역 잔차 신호를 복원할 수 있다.
단계(1620)에서 TNS-1 디코더(122)는 단계(1610)에서 출력된 시간 영역 잔차 신호를 LPC 분석하여 주파수 영역 잔차 신호를 출력할 수 있다.
단계(1630)에서 FDNS 디코더(123)는 단계(1620)에서 출력된 주파수 영역 잔차 신호에 FDNS 복호화를 수행하여 주파수 영역 신호를 출력할 수 있다.
단계(1640)에서 F/T 변환기(124)는 단계(1630)에서 출력된 주파수 영역 신호를 F/T 변환하여 시간 영역 신호를 출력할 수 있다. 예를 들어, F/T 변환기(124)는 IMDCT를 이용하여 주파수 영역 신호를 시간 영역 신호로 F/T 변환할 수 있다.
단계(1650)에서 TDAC(125)는 단계(1640)에서 출력된 시간 영역 신호에 TDAC를 수행하여 입력 신호를 복원할 수 있다.
도 17은 본 발명의 제2 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
단계(1710)에서 T/F변환기(111)는 입력 신호를 T/F변환하여 주파수 영역 신호를 출력할 수 있다. 예를 들어, T/F변환기(111)는 MDCT를 이용하여 입력 신호를 주파수 영역 신호로 T/F 변환할 수 있다.
단계(1720)에서 FDNS인코더(112)는 단계(1510)에서 출력된 주파수 영역 신호에 FDNS 부호화를 적용하여 주파수 영역 잔차 신호를 출력할 수 있다.
단계(1730)에서 F/T 변환기(530)는 단계(1720)에서 출력된 주파수 영역 잔차 신호를 F/T 변환하여 시간 영역 신호를 출력할 수 있다.
단계(1740)에서 TDAC(540)는 단계(1730)에서 출력된 시간 영역 신호에 TDAC를 적용하여 시간 도메인 에일리어싱을 제거할 수 있다.
단계(1750)에서 TNS-2 인코더(550)는 TDAC가 적용된 시간 영역 신호를 TNS(temporal noise shaping)-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력할 수 있다.
단계(1760)에서 양자화기(570)는 단계(1750)에서 출력된 시간 영역 잔차 신호를 양자화한 후 비트스트림으로 변환하여 오디오 복호화 장치(800)로 전송할 수 있다.
도 18은 본 발명의 제2 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
단계(1810)에서 역 양자화기(810)는 수신 신호를 시간축에서 역 양자화하여 시간 영역 잔차 신호
Figure pat00073
를 출력할 수 있다.
단계(1820)에서 TNS-2 디코더(840)는 단계(1810)에서 출력된 시간 영역 잔차 신호
Figure pat00074
를 TNS-2 복호화하여 시간 영역 신호
Figure pat00075
를 출력할 수 있다.
단계(1830)에서 T/F변환기(850)는 단계(1820)에서 출력된 시간 영역 신호
Figure pat00076
를 T/F 변환하여 주파수 영역 잔차 신호를 출력할 수 있다.
단계(1840)에서 FDNS 디코더(860)는 단계(1830)에서 출력된 주파수 영역 잔차 신호에 FDNS 복호화를 수행하여 주파수 영역 신호
Figure pat00077
를 출력할 수 있다.
단계(1850)에서 제2 F/T 변환기(870)는 단계(1840)에서 출력된 주파수 영역 신호
Figure pat00078
를 F/T (frequency-to-time) 변환하여 시간 영역 신호 2를 출력할 수 있다.
단계(1860)에서 제2 TDAC(880)는 단계(1850)에서 출력된 시간 영역 신호 2에 TDAC를 수행하여 복원된 입력 신호
Figure pat00079
를 출력할 수 있다.
도 19는 본 발명의 제3 실시예에 따른 오디오 부호화 방법을 도시한 플로우차트이다.
단계(1910)에서 LPC 분석기(1111)는 입력 신호를 LPC 분석하여 주파수축 포락선이 제거된 시간 영역 신호를 출력할 수 있다.
단계(1910)에서 TNS-2 인코더(1112)는 단계(1910)에서 출력된 시간 영역 신호를 TNS-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력할 수 있다.
단계(1930)에서 양자화기(1114)는 단계(1910)에서 출력된 시간 영역 잔차 신호를 양자화하여 전송할 수 있다.
도 20은 본 발명의 제3 실시예에 따른 오디오 복호화 방법을 도시한 플로우차트이다.
단계(2010)에서 역 양자화기(1121)는 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력할 수 있다.
단계(2020)에서 TNS-2 디코더(1124)는 단계(2010)에서 출력된 시간 영역 잔차 신호
Figure pat00080
를 TNS-2 복호화하여 시간 영역 신호를 출력할 수 있다.
단계(2030)에서 LPC 합성기(1125)는 오디오 부호화 장치(1110)로부터 수신한 LPC 정보와 단계(2020)에서 TNS-2 디코더(1124)에서 출력된 시간 영역 신호를 합성하여 입력 신호를 복원할 수 있다.
오디오 부호화 장치(110)는 FDNS 부호화를 적용하여 출력된 주파수 영역 잔차 신호에 시간축 정보를 평탄화 하는 TNS 기술을 적용함으로써, 부호화 효율을 증가시킬 수 있다.
오디오 부호화 장치(500)는 주파수 포락선이 제거된 주파수 영역 잔차 신호를 시간 영역 신호로 변환한 후, TNS-2 부호화하여 시간축 포락선을 제거함으로써, 오디오 부호화 장치(110)보다 부호화 효율을 높일 수 있다.
오디오 부호화 장치(1110)는 LPC 분석을 수행하여 주파수 포락선을 제거하고, 주파수 포락선이 제거된 주파수 영역 잔차 신호를 시간 영역 신호로 변환한 후, TNS-2 부호화하여 시간축 포락선을 제거함으로써, 오디오 부호화 장치(110)보다 부호화 효율을 높일 수 있다.
한편, 본 발명에 따른 오디오 부호화/복호화 장치 또는 오디오 부호화/복호화 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체)에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.
110: 오디오 부호화 장치
112: FDNS 인코더
113: TNS-1 인코더

Claims (20)

  1. 입력 신호를 T/F(time-to-frequency) 변환하여 주파수 영역 신호를 출력하는 단계;
    상기 주파수 영역 신호에 FDNS(frequency domain noise shaping) 부호화를 적용하여 상기 주파수 영역 신호에서 주파수축 포락선이 제거된 주파수 영역 잔차 신호를 출력하는 단계;
    상기 주파수 영역 잔차 신호를 기초로 LPC(linear prediction coefficient) 분석을 수행하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및
    상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계
    를 포함하는 오디오 부호화 방법.
  2. 제1항에 있어서,
    상기 주파수 영역 잔차 신호를 출력하는 단계는,
    상기 입력 신호로부터 LPC 정보를 획득하는 단계;
    상기 LPC 정보로부터 주파수축 포락선 정보를 획득하는 단계; 및
    상기 주파수 영역 신호로부터 주파수축 포락선 정보를 제거하여 상기 주파수 영역 잔차 신호를 생성하는 단계
    를 포함하는 오디오 부호화 방법.
  3. 제2항에 있어서,
    상기 주파수 영역 잔차 신호를 출력하는 단계는,
    LPC 정보를 주파수 영역의 LPC 주파수 정보로 변환하는 단계;
    를 더 포함하고,
    상기 포락선 정보를 획득하는 단계는,
    상기 LPC 주파수 정보의 절대값을 상기 포락선 정보로 획득하는 오디오 부호화 방법.
  4. 제1항에 있어서,
    상기 시간 영역 잔차 신호를 출력하는 단계는,
    상기 주파수 영역 잔차 신호로부터 LPC 계수를 획득하는 단계; 및
    상기 LPC 계수로 상기 주파수 영역 잔차 신호를 LPC 분석하여 주파수축 포락선 정보와 시간축 포락선 정보가 제거된 시간 영역 잔차 신호를 출력하는 단계
    를 포함하는 오디오 부호화 방법.
  5. 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력하는 단계;
    상기 시간 영역 잔차 신호를 LPC 분석하여 주파수 영역 잔차 신호를 출력하는 단계;
    상기 주파수 영역 잔차 신호에 FDNS 복호화를 수행하여 주파수 영역 신호를 출력하는 단계;
    주파수 영역 신호를 F/T (frequency-to-time) 변환하여 시간 영역 신호를 출력하는 단계; 및
    상기 시간 영역 신호에 TDAC(time domain aliasing cancellation)를 수행하여 입력 신호를 복원하는 단계
    를 포함하는 오디오 복호화 방법.
  6. 제5항에 있어서,
    상기 수신 신호는,
    오디오 부호화 장치에 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 주파수 영역 잔차 신호로부터 획득한 LPC 계수, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고,
    상기 시간 영역 잔차 신호를 출력하는 단계는,
    상기 비트스트림을 역양자화하여 상기 시간 영역 잔차 신호를 복원하는 오디오 복호화 방법.
  7. 제6항에 있어서,
    상기 주파수 영역 잔차 신호를 출력하는 단계는,
    상기 수신 신호에 포함된 LPC 계수로 상기 시간 영역 잔차 신호를 LPC 합성하여 시간축 포락선 정보가 복원된 주파수 영역 잔차 신호를 출력하는 오디오 복호화 방법.
  8. 제6항에 있어서,
    상기 주파수 영역 신호를 출력하는 단계는,
    상기 수신 신호에 포함된 LPC 주파수 정보로부터 주파수축 포락선 정보를 획득하고, 상기 주파수 영역 잔차 신호에 상기 주파수축 포락선 정보를 복원하여 상기 주파수 영역 신호를 출력하는 오디오 복호화 방법.
  9. 입력 신호를 T/F 변환하여 주파수 영역 신호를 출력하는 단계;
    상기 주파수 영역 신호에 FDNS 부호화를 적용하여 상기 입력 신호에서 주파수축 포락선이 제거된 주파수 영역 잔차 신호를 출력하는 단계;
    상기 주파수 영역 잔차 신호를 F/T 변환하여 시간 영역 신호를 출력하는 단계;
    상기 시간 영역 신호에 TDAC를 적용하는 단계;
    TDAC가 적용된 시간 영역 신호를 TNS(temporal noise shaping)-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및
    상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계
    를 포함하는 오디오 부호화 방법.
  10. 제9항에 있어서,
    상기 시간 영역 잔차 신호를 출력하는 단계는,
    상기 TDAC가 적용된 시간 영역 신호에 힐버트 변환을 수행하여 분석폼(analytic form)으로 변환하는 단계;
    상기 분석폼에 DFT(discrete Fourier transform)를 수행하여 복소수 LPC를 획득하는 단계;
    상기 복소수 LPC에 IDFT(inverse DFT) 및 ABS(Absolute Value) 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및
    TDAC가 적용된 시간 영역 신호에서 상기 시간축 포락선 정보를 제거하여 시간 영역 잔차 신호를 획득하는 단계
    를 포함하는 오디오 부호화 방법.
  11. 제9항에 있어서,
    상기 시간 영역 잔차 신호를 출력하는 단계는,
    상기 TDAC가 적용된 시간 영역 신호에 힐버트 변환을 수행하여 분석폼으로 변환하는 단계;
    상기 분석폼에 DFT를 수행하여 복소수 LPC를 획득하는 단계;
    상기 TDAC가 적용된 시간 영역 신호에 DFT을 수행하여 주파수 영역 잔차 신호 2를 출력하는 단계;
    상기 복소수 LPC로 상기 주파수 영역 잔차 신호 2를 LPC 분석하여 시간축 포락선 정보를 제거하는 단계; 및
    시간축 포락선 정보가 제거된 주파수 영역 잔차 신호 2에 IDFT를 적용하여 시간 영역 잔차 신호를 획득하는 단계
    를 포함하는 오디오 부호화 방법.
  12. 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력하는 단계;
    상기 시간 영역 잔차 신호를 TNS-2 복호화하여 시간 영역 신호를 출력하는 단계;
    시간 영역 신호를 T/F 변환하여 주파수 영역 잔차 신호를 출력하는 단계;
    상기 주파수 영역 잔차 신호에 FDNS 복호화를 수행하여 주파수 영역 신호를 출력하는 단계;
    주파수 영역 신호를 F/T (frequency-to-time) 변환하여 시간 영역 신호 2를 출력하는 단계; 및
    상기 시간 영역 신호 2에 TDAC(time domain aliasing cancellation)를 수행하여 입력 신호를 복원하는 단계
    를 포함하는 오디오 복호화 방법.
  13. 제12항에 있어서,
    상기 수신 신호는,
    오디오 부호화 장치에서 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 시간 영역 신호로부터 획득한 복소수 LPC, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고,
    상기 시간 영역 잔차 신호를 출력하는 단계는,
    상기 비트스트림을 역양자화하여 상기 시간 영역 잔차 신호를 복원하는 오디오 복호화 방법.
  14. 제13항에 있어서,
    상기 시간 영역 신호를 출력하는 단계는,
    상기 복소수 LPC에 IDFT 및 ABS 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및
    상기 시간 영역 잔차 신호에 상기 시간축 포락선 정보를 복원하여 상기 시간 영역 신호를 출력하는 단계
    를 포함하는 오디오 복호화 방법.
  15. 제13항에 있어서,
    상기 시간 영역 신호를 출력하는 단계는,
    상기 시간 영역 잔차 신호에 DFT를 수행하여 주파수 영역 잔차 신호 2를 출력하는 단계;
    상기 복소수 LPC로 상기 주파수 영역 잔차 신호 2를 LPC 분석하여 시간축 포락선 정보를 복원하는 단계; 및
    시간축 포락선 정보가 복원된 주파수 영역 잔차 신호 2에 IDFT를 적용하여 시간 영역 신호를 획득하는 단계
    를 포함하는 오디오 복호화 방법.
  16. 입력 신호를 LPC 분석하여 주파수축 포락선이 제거된 시간 영역 신호를 출력하는 단계;
    상기 시간 영역 신호를 TNS(temporal noise shaping)-2 부호화하여 시간축 포락선이 제거된 시간 영역 잔차 신호를 출력하는 단계; 및
    상기 시간 영역 잔차 신호를 양자화하여 전송하는 단계
    를 포함하는 오디오 부호화 방법.
  17. 제16항에 있어서,
    상기 시간 영역 잔차 신호를 출력하는 단계는,
    상기 시간 영역 신호에 힐버트 변환을 수행하여 분석폼으로 변환하는 단계;
    상기 분석폼에 DFT를 수행하여 복소수 LPC를 획득하는 단계;
    상기 복소수 LPC에 IDFT 및 ABS 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및
    상기 시간 영역 신호에서 상기 시간축 포락선 정보를 제거하여 시간 영역 잔차 신호를 획득하는 단계
    를 포함하는 오디오 부호화 방법.
  18. 수신 신호를 역 양자화하여 시간 영역 잔차 신호를 출력하는 단계;
    상기 시간 영역 잔차 신호를 TNS-2 복호화하여 시간 영역 신호를 출력하는 단계;
    오디오 부호화 장치로부터 수신한 LPC 정보와 상기 시간 영역 신호를 합성하여 입력 신호를 복원하는 단계
    를 포함하는 오디오 복호화 방법.
  19. 제18항에 있어서,
    상기 수신 신호는,
    오디오 부호화 장치에서 입력된 입력 신호로부터 추출한 LPC 정보, 입력 신호의 시간 영역 신호로부터 획득한 복소수 LPC, 및 입력 신호의 시간 영역 잔차 신호가 양자화된 후 변환된 비트스트림 중 적어도 하나를 포함하고,
    상기 시간 영역 잔차 신호를 출력하는 단계는,
    상기 비트스트림을 역양자화하여 상기 시간 영역 잔차 신호를 복원하는 오디오 복호화 방법.
  20. 제19항에 있어서,
    상기 시간 영역 신호를 출력하는 단계는,
    상기 복소수 LPC에 IDFT 및 ABS 연산을 적용하여 시간축 포락선 정보를 획득하는 단계; 및
    상기 시간 영역 잔차 신호에 상기 시간축 포락선 정보를 복원하여 상기 시간 영역 신호를 출력하는 단계
    를 포함하는 오디오 복호화 방법.
KR1020200186628A 2020-07-06 2020-12-29 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법 KR20220005379A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202180047761.0A CN116018640A (zh) 2020-07-06 2021-07-02 对过渡段编码失真具有鲁棒性的音频编码/解码设备和方法
US18/014,924 US20240087577A1 (en) 2020-07-06 2021-07-02 Apparatus and method for audio encoding/decoding robust to transition segment encoding distortion
PCT/KR2021/008417 WO2022010189A1 (ko) 2020-07-06 2021-07-02 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200083086 2020-07-06
KR1020200083086 2020-07-06

Publications (1)

Publication Number Publication Date
KR20220005379A true KR20220005379A (ko) 2022-01-13

Family

ID=79342223

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200186628A KR20220005379A (ko) 2020-07-06 2020-12-29 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법

Country Status (4)

Country Link
US (1) US20240087577A1 (ko)
KR (1) KR20220005379A (ko)
CN (1) CN116018640A (ko)
WO (1) WO2022010189A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790759A (en) * 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
JP3681488B2 (ja) * 1996-11-19 2005-08-10 三井・デュポンポリケミカル株式会社 エチレン共重合体組成物及びそれを用いた易開封性シール材料
KR20060131766A (ko) * 2003-12-01 2006-12-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
KR100813259B1 (ko) * 2005-07-13 2008-03-13 삼성전자주식회사 입력신호의 계층적 부호화/복호화 장치 및 방법
KR101176703B1 (ko) * 2008-12-03 2012-08-23 한국전자통신연구원 음원 위치 단서 기반의 멀티 채널 오디오 복호화 장치 및 방법

Also Published As

Publication number Publication date
WO2022010189A1 (ko) 2022-01-13
CN116018640A (zh) 2023-04-25
US20240087577A1 (en) 2024-03-14

Similar Documents

Publication Publication Date Title
KR101373004B1 (ko) 고주파수 신호 부호화 및 복호화 장치 및 방법
US9728196B2 (en) Method and apparatus to encode and decode an audio/speech signal
CN105518777B (zh) 用频谱域智能间隙填充编码或解码音频信号的设备及方法
JP4950210B2 (ja) オーディオ圧縮
US8891776B2 (en) Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation
JP5140730B2 (ja) 切り換え可能な時間分解能を用いた低演算量のスペクトル分析/合成
CN112767954B (zh) 音频编解码方法、装置、介质及电子设备
US7805314B2 (en) Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data
EP2849180B1 (en) Hybrid audio signal encoder, hybrid audio signal decoder, method for encoding audio signal, and method for decoding audio signal
JP5873936B2 (ja) 知覚的オーディオコーデックにおけるハーモニック信号のための位相コヒーレンス制御
KR20080027129A (ko) 대역폭 확장 기법 및 스테레오 부호화 기법을 이용한오디오 신호의 부호화/복호화 방법 및 장치
JP2019074755A (ja) 独立したノイズ充填を用いた強化された信号を生成するための装置および方法
JP2006201785A (ja) デジタル信号の符号化/復号化方法及びその装置並びに記録媒体
JP6148342B2 (ja) 低または中ビットレートに対する知覚品質に基づくオーディオ分類
CN106030704B (zh) 用于对音频信号进行编码/解码的方法和设备
KR20220151953A (ko) 부가 정보를 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기
KR20220048252A (ko) 학습 모델을 이용한 오디오 신호의 부호화 및 복호화 방법 및 장치와 학습 모델의 트레이닝 방법 및 장치
KR20210067488A (ko) 이전 프레임의 정보를 사용한 오디오 신호 부호화/복호화 장치 및 방법
KR20220005379A (ko) 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법
KR20220118158A (ko) 주파수 대역의 확장을 이용한 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기
KR20210158108A (ko) 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기
KR20210133551A (ko) 적응형 주파수 복원 기법 기반 오디오 부호화 방법
KR20210067502A (ko) 필터뱅크를 이용한 오디오 신호 부호화/복호화 장치 및 방법
WO2019173195A1 (en) Signals in transform-based audio codecs
US20170206905A1 (en) Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model

Legal Events

Date Code Title Description
A201 Request for examination