KR20210158108A - 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기 - Google Patents

양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기 Download PDF

Info

Publication number
KR20210158108A
KR20210158108A KR1020200076467A KR20200076467A KR20210158108A KR 20210158108 A KR20210158108 A KR 20210158108A KR 1020200076467 A KR1020200076467 A KR 1020200076467A KR 20200076467 A KR20200076467 A KR 20200076467A KR 20210158108 A KR20210158108 A KR 20210158108A
Authority
KR
South Korea
Prior art keywords
residual signal
linear prediction
time domain
frequency domain
envelope
Prior art date
Application number
KR1020200076467A
Other languages
English (en)
Inventor
백승권
성종모
이미숙
이태진
임우택
장인선
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020200076467A priority Critical patent/KR20210158108A/ko
Priority to US17/331,416 priority patent/US11580999B2/en
Publication of KR20210158108A publication Critical patent/KR20210158108A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명의 일실시예에 따른 부호화기에서 수행되는 오디오 신호의 부호화 방법은 시간 도메인의 오디오 신호를 블록 단위로 식별하는 단계; i) 상기 오디오 신호의 현재 원본 블록과 ii) 상기 현재 원본 블록과 시간 순으로 인접한 이전 원본 블록을 결합함으로써 결합 블록을 생성하는 단계; 시간 도메인의 선형 예측 코딩을 이용하여 상기 결합 블록으로부터 주파수 도메인의 제1 잔차 신호를 추출하는 단계; 시간 도메인으로 변환된 상기 제1 잔차 신호들 중 시간순으로 인접한 제1 잔차 신호들을 오버랩하는 단계; 주파수 도메인의 선형 예측 코딩을 이용하여 상기 오버랩된 제1 잔차 신호로부터 추출한 시간 도메인의 제2 잔차 신호를 주파수 도메인으로 변환하여 양자화하는 단계; 및 상기 양자화된 시간 도메인의 선형 예측 계수, 상기 양자화된 주파수 도메인의 선형 예측 계수 및 상기 양자화된 제2 잔차 신호를 비트스트림으로 부호화하는 단계를 포함할 수 있다.

Description

양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기{METHOD AND APPARATUS FOR ENCODING AND DECODING AUDIO SIGNAL TO REDUCE QUANTIZTATION NOISE}
본 발명은 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기에 관한것으로, 보다 구체적으로는 이중으로 잔차 신호를 생성함으로써 양자화 과정에서 발생하는 잡음을 줄일 수 있는 기술에 관한 것이다.
USAC(Unified Speech and Audio Coding)은 4세대 오디오 코딩 기술로서 MPEG에서 이전까지 다루지 않던 저 비트율 음성의 음질의 개선을 위해 개발되었다. 그리고, USAC은 음성과 음악에 대해 양질의 음질을 제공하는 최신 오디오 코딩 기술로 현재 활용되고 있다.
USAC이나 다른 오디오 코딩 기술에서 오디오 신호를 부호화함에 있어, 선형 예측 코딩(Linear Predictive Coding)을 통한 양자화 과정을 거친다. 선형 예측 코딩은 오디오 신호를 구성하는 오디오 샘플들에서 현재 샘플과 이전 샘플의 차이인 잔차 신호를 부호화함으로써 오디오 신호를 부호화하는 기술이다.
다만, 기존에 부호화기술은 프레임의 크기가 증가할수록 양자화 과정에서 잡음으로 인하여 음질의 왜곡 현상이 크게 발생하는 문제점이 있다. 따라서, 이러한 양자화 과정의 잡음을 줄일 수 있는 기술이 요구된다.
본 발명은 오디오 신호를 부호화함에 있어, 이중으로 잔차 신호를 생성함으로써 양자화 과정에서 발생하는 잡음을 줄일 수 있는 방법 및 이를 수행하는 부호화기와 복호화기를 제공한다.
본 발명의 일실시예에 따른 부호화기에서 수행되는 오디오 신호의 부호화 방법은 시간 도메인의 오디오 신호를 블록 단위로 식별하는 단계; i) 상기 오디오 신호의 현재 원본 블록과 ii) 상기 현재 원본 블록과 시간 순으로 인접한 이전 원본 블록을 결합함으로써 결합 블록을 생성하는 단계; 시간 도메인의 선형 예측 코딩을 이용하여 상기 결합 블록으로부터 주파수 도메인의 제1 잔차 신호를 추출하는 단계; 시간 도메인으로 변환된 상기 제1 잔차 신호들 중 시간순으로 인접한 제1 잔차 신호들을 오버랩하는 단계; 주파수 도메인의 선형 예측 코딩을 이용하여 상기 오버랩된 제1 잔차 신호로부터 추출한 시간 도메인의 제2 잔차 신호를 주파수 도메인으로 변환하여 양자화하는 단계; 및 상기 양자화된 시간 도메인의 선형 예측 계수, 상기 양자화된 주파수 도메인의 선형 예측 계수 및 상기 양자화된 제2 잔차 신호를 비트스트림으로 부호화하는 단계를 포함할 수 있다.
상기 오디오 신호의 결합 블록으로부터 추출한 시간 도메인의 선형 예측 계수를 양자화하는 단계; 및 상기 시간 도메인의 선형 예측 계수를 역양자화하여 주파수 포락선을 생성하는 단계를 더 포함할 수 있다.
상기 제1 잔차 신호를 추출하는 단계는, 상기 주파수 포락선에 기초하여 주파수 도메인으로 변환된 상기 결합 블록으로부터 제1 잔차 신호를 생성하고, 상기 비트스트림으로 부호화하는 단계는, 양자화된 상기 시간 도메인의 선형 예측 계수를 추가로 비트스트림으로 부호화할 수 있다.
주파수 도메인의 선형 예측 코딩을 이용하여 상기 오버랩된 제1 잔차 신호로부터 추출한 주파수 도메인의 선형 예측 계수를 양자화하는 단계; 상기 주파수 도메인의 선형 예측 계수를 역양자화하여 시간 포락선을 생성하는 단계; 및 상기 시간 포락선에 기초하여 상기 오버랩된 제1 잔차 신호로부터 시간 도메인의 제2 잔차 신호를 추출하는 단계를 더 포함하고, 상기 비트스트림으로 부호화하는 단계는, 양자화된 상기 주파수 도메인의 선형 예측 계수를 추가로 비트스트림으로 부호화할 수 있다.
상기 주파수 도메인의 선형 예측 계수를 양자화하는 단계는, 상기 오버랩된 제1 잔차 신호를 힐베르트 변환(Hilbert Transform)하는 단계; 상기 힐베르트 변환된 제1 잔차 신호와 상기 오버랩된 제1 잔차 신호를 주파수 도메인으로 변환하는 단계; 선형 예측 코딩을 이용하여 상기 오버랩된 제1 잔차 신호와 상기 힐베르트 변환된 제1 잔차 신호에 대응하는 주파수 도메인의 선형 예측 계수를 추출하는 단계; 및 상기 주파수 도메인의 선형 예측 계수를 양자화할 수 있다.
상기 제2 잔차 신호를 추출하는 단계는, 대칭 윈도잉(symmetric windowing)을 이용하여 시간 포락선으로부터 보간(interpolated)된 현재 포락선을 생성하는 단계; 및 상기 현재 포락선에 기초하여 상기 오버랩된 제1 잔차 신호로부터 시간 도메인의 제2 잔차 신호를 추출하는 단계를 포함하는 부호화할 수 있다.
상기 제1 잔차 신호는, 시간순으로 인접한 두 개의 원본 블록에 대응하고, 상기 제1 잔차 신호를 오버랩하는 단계는, 시간순으로 인접하는 제1 잔차 신호들 중 특정 시간에 속하는 원본 블록에 대응하는 두 개의 제1 잔차 신호들을 오버랩할 수 있다.
상기 주파수 포락선을 생성하는 단계는, 상기 역양자화된 시간 도메인의 선형 예측 계수를 주파수 도메인으로 변환하는 단계; 상기 변환된 시간 도메인의 선형 예측 계수를 서브 대역 별로 그룹화하는 단계; 및 상기 그룹화된 시간 도메인의 선형 예측 계수들의 에너지를 계산함으로써 상기 결합 블록에 대응하는 주파수 포락선을 생성하는 단계를 포함할 수 있다.
상기 제2 잔차 신호를 양자화하는 단계는, 상기 제2 잔차 신호를 서브 대역 별로 그룹화하고, 상기 그룹화된 잔차 신호 마다 양자화를 위한 스케일 팩터를 결정하는 단계; 및 상기 스케일 팩터를 이용하여 상기 제2 잔차 신호를 양자화하는 단계를 포함할 수 있다.
상기 스케일 팩터를 결정하는 단계는, 상기 제2 잔차 신호에 대응하는 주파수 포락선의 중간값으로 결정하거나, 상기 제2 잔차 신호의 양자화에 이용가능한 비트 수에 기초하여 결정할 수 있다.
본 발명의 일실시예에 따른 복호화기에서 수행되는 오디오 신호의 복호화 방법은 부호화기로부터 수신한 비트스트림으로부터 양자화된 시간 도메인의 선형 예측 계수, 양자화된 주파수 도메인의 선형 예측 계수 및 양자화된 주파수 도메인의 제2 잔차 신호를 추출하는 단계; 상기 시간 도메인의 선형 예측 계수를 역양자화하여 생성한 시간 포락선에 기초하여 시간 도메인으로 변환된 상기 제2 잔차 신호로부터 시간 도메인의 제1 잔차 신호를 생성하는 단계; 및 상기 주파수 도메인의 선형 예측 계수를 역양자화하여 생성한 주파수 포락선에 기초하여 상기 주파수 도메인으로 변환된 상기 제1 잔차 신호로부터 오디오 신호의 결합 블록을 복원하는 단계를 포함할 수 있다.
시간순으로 인접하는 상기 복원된 결합 블록들에 포함된 원본 블록들 중 동일한 시점에 대응하는 원본 블록들을 오버랩하여 복원 블록을 생성하는 단계를 더 포함할 수 있다.
상기 제1 잔차 신호를 생성하는 단계는, 대칭 윈도잉(symmetric windowing)을 이용하여 시간 포락선으로부터 보간(interpolated)된 현재 포락선을 생성하는 단계; 상기 제2 잔차 신호를 역양자화하여 시간 도메인으로 변환하는 단계; 및 상기 현재 포락선을 이용하여 상기 변환된 제2 잔차 신호로부터 상기 제1 잔차 신호를 생성하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 오디오 신호의 부호화 방법을 수행하는 부호화기에 있어서, 상기 부호화기는 프로세서를 포함하고, 상기 프로세서는, 시간 도메인의 오디오 신호를 블록 단위로 식별하고, i) 상기 오디오 신호의 현재 원본 블록과 ii) 상기 현재 원본 블록과 시간 순으로 인접한 이전 원본 블록을 결합함으로써 결합 블록을 생성하고, 시간 도메인의 선형 예측 코딩을 이용하여 상기 결합 블록으로부터 주파수 도메인의 제1 잔차 신호를 추출하고, 시간 도메인으로 변환된 상기 제1 잔차 신호들 중 시간순으로 인접한 제1 잔차 신호들을 오버랩하고, 주파수 도메인의 선형 예측 코딩을 이용하여 상기 오버랩된 제1 잔차 신호로부터 추출한 시간 도메인의 제2 잔차 신호를 주파수 도메인으로 변환하여 양자화하고, 상기 양자화된 시간 도메인의 선형 예측 계수, 상기 양자화된 주파수 도메인의 선형 예측 계수 및 상기 양자화된 제2 잔차 신호를 비트스트림으로 부호화할 수 있다.
상기 프로세서는, 상기 오디오 신호의 결합 블록으로부터 추출한 시간 도메인의 선형 예측 계수를 양자화하고, 상기 시간 도메인의 선형 예측 계수를 역양자화하여 주파수 포락선을 생성하고, 상기 주파수 포락선에 기초하여 주파수 도메인으로 변환된 상기 결합 블록으로부터 제1 잔차 신호를 생성하고, 양자화된 상기 시간 도메인의 선형 예측 계수를 추가로 비트스트림으로 부호화할 수 있다.
상기 프로세서는, 주파수 도메인의 선형 예측 코딩을 이용하여 상기 오버랩된 제1 잔차 신호로부터 추출한 주파수 도메인의 선형 예측 계수를 양자화하고, 상기 주파수 도메인의 선형 예측 계수를 역양자화하여 시간 포락선을 생성하고, 상기 시간 포락선에 기초하여 상기 오버랩된 제1 잔차 신호로부터 시간 도메인의 제2 잔차 신호를 추출하고, 양자화된 상기 주파수 도메인의 선형 예측 계수를 추가로 비트스트림으로 부호화할 수 있다.
상기 프로세서는, 상기 오버랩된 제1 잔차 신호를 힐베르트 변환(Hilbert Transform)하고, 상기 힐베르트 변환된 제1 잔차 신호와 상기 오버랩된 제1 잔차 신호를 주파수 도메인으로 변환하고, 선형 예측 코딩을 이용하여 상기 오버랩된 제1 잔차 신호와 상기 힐베르트 변환된 제1 잔차 신호에 대응하는 주파수 도메인의 선형 예측 계수를 추출하고, 상기 주파수 도메인의 선형 예측 계수를 양자화할 수 있다.
상기 프로세서는, 대칭 윈도잉(symmetric windowing)을 이용하여 시간 포락선으로부터 보간(interpolated)된 현재 포락선을 생성하고, 상기 현재 포락선에 기초하여 상기 오버랩된 제1 잔차 신호로부터 시간 도메인의 제2 잔차 신호를 추출할 수 있다.
상기 제1 잔차 신호는, 시간순으로 인접한 두 개의 원본 블록에 대응하고, 상기 프로세서는, 시간순으로 인접하는 제1 잔차 신호들 중 특정 시간에 속하는 원본 블록에 대응하는 두 개의 제1 잔차 신호들을 오버랩할 수 있다.
상기 프로세서는, 상기 역양자화된 시간 도메인의 선형 예측 계수를 주파수 도메인으로 변환하고, 상기 변환된 시간 도메인의 선형 예측 계수를 서브 대역 별로 그룹화하고, 상기 그룹화된 시간 도메인의 선형 예측 계수들의 에너지를 계산함으로써 상기 결합 블록에 대응하는 주파수 포락선을 생성할 수 있다.
상기 프로세서는, 상기 제2 잔차 신호를 서브 대역 별로 그룹화하고, 상기 그룹화된 잔차 신호 마다 양자화를 위한 스케일 팩터를 결정하고, 상기 스케일 팩터를 이용하여 상기 제2 잔차 신호를 양자화할 수 있다.
상기 프로세서는, 상기 제2 잔차 신호에 대응하는 주파수 포락선의 중간값으로 결정하거나, 상기 제2 잔차 신호의 양자화에 이용가능한 비트 수에 기초하여 결정할 수 있다.
본 발명의 일실시예에 따른 오디오 신호의 복호화 방법을 수행하는 복호화기에 있어서, 상기 복호화기는 프로세서를 포함하고, 상기 프로세서는, 부호화기로부터 수신한 비트스트림으로부터 양자화된 시간 도메인의 선형 예측 계수, 양자화된 주파수 도메인의 선형 예측 계수 및 양자화된 주파수 도메인의 제2 잔차 신호를 추출하고, 상기 시간 도메인의 선형 예측 계수를 역양자화하여 생성한 시간 포락선에 기초하여 시간 도메인으로 변환된 상기 제2 잔차 신호로부터 시간 도메인의 제1 잔차 신호를 생성하고, 상기 주파수 도메인의 선형 예측 계수를 역양자화하여 생성한 주파수 포락선에 기초하여 상기 주파수 도메인으로 변환된 상기 제1 잔차 신호로부터 오디오 신호의 결합 블록을 복원할 수 있다.
상기 프로세서는, 시간순으로 인접하는 상기 복원된 결합 블록들에 포함된 원본 블록들 중 동일한 시점에 대응하는 원본 블록들을 오버랩하여 복원 블록을 생성할 수 있다.
상기 프로세서는, 대칭 윈도잉(symmetric windowing)을 이용하여 시간 포락선으로부터 보간(interpolated)된 현재 포락선을 생성하고, 상기 제2 잔차 신호를 역양자화하여 시간 도메인으로 변환하고, 상기 현재 포락선을 이용하여 상기 변환된 제2 잔차 신호로부터 상기 제1 잔차 신호를 생성할 수 있다.
본 발명의 일실시예에 따르면 오디오 신호를 부호화함에 있어, 이중으로 잔차 신호를 생성함으로써 양자화 과정에서 발생하는 잡음을 줄일 수 있다.
도 1은 본 발명의 일실시예에 따른 부호화기와 복호화기를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 부호화기의 동작을 나타낸 도면이다.
도 3은 본 발명의 일실시예에 따른 선형 예측 계수를 이용하여 주파수 포락선을 생성하는 과정을 플로우 차트로 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 잔차 신호를 결합하는 과정을 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 주파수 도메인의 선형 예측 코딩의 구체적인 과정을 플로우 차트로 도시한 도면이다.
도 6은 본 발명의 일실시예에 따른 현재 포락선을 생성하는 과정을 도시한 도면이다.
도 7은 본 발명의 일실시예에 따른 스케일 팩터를 이용하여 잔차 신호를 양자화하는 과정을 플로우 차트로 도시한 도면이다.
도 8은 본 발명의 일실시예에 따른 복호화기의 동작을 나타낸 도면이다.
도 9는 본 발명의 일실시예에 따른 복원된 오디오 신호를 결합하는 과정을 도시한 도면이다.
도 10은 본 발명의 일실시예에 따른 실험 결과에 대한 그래프를 도시한 도면이다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일실시예에 따른 부호화기와 복호화기를 도시한 도면이다.
본 발명은 오디오 신호를 부호화함에 있어, 음질 왜곡을 줄이기 위해 선형 예측 코딩(Linear Predictive Coding)을 수행하여 오디오 신호로부터 이중으로 추출한 잔차 신호(residual signal)를 양자화하여 오디오 신호의 부호화를 수행한다.
구체적으로, 본 발명은 시간 도메인의 선형 예측 코딩을 이용하여 생성한 주파수 포락선에 기초하여 주파수 도메인의 잔차 신호를 생성하고, 주파수 도메인의 선형 예측 코딩을 이용하여 생성된 잔차 신호로부터 새로운 잔차 신호를 생성함으로써 이중으로 잔차 신호를 추출하여 오디오 신호의 부호화를 수행한다.
포락선이란 잔차 신호의 파형을 둘러싸는 형상을 가진 곡선을 의미하고, 주파수 포락선은 주파수 도메인의 잔차 신호에 대한 개략적인 외형을 나타낸다. 시간 포락선은 시간 도메인의 잔차 신호에 대한 개략적인 외형을 나타낸다.
그리고, 본 발명은 잔차 신호의 양자화 과정에서 멀티 대역(multi-band) 양자화 스케일 팩터(Scale-Factor)를 추정하고, 추정된 스케일 팩터를 통해 효율적으로 잔차 신호의 양자화를 수행할 수 있다.
본 발명의 부호화 방법 및 복호화 방법 각각을 수행하는 부호화기(101) 및 복호화기(102)는 각각 프로세서에 대응한다. 이 때, 부호화기(101) 및 복호화기(102)는 동일한 프로세서에 대응하거나 서로 다른 프로세서에 대응할 수 있다.
도 1을 참조하면, 부호화기(101)는 오디오 신호를 처리하여 비트스트림으로 변환하고 이를 복호화기(102)로 전송한다. 복호화기(102)는 수신한 비트스트림을 이용하여 오디오 신호를 복원한다.
부호화기(101) 및 복호화기(102)는 오디오 신호를 블록 단위로 처리한다. 오디오 신호는 시간 도메인의 오디오 샘플로 구성되며, 오디오 신호의 원본 블록은 일정한 시간 구간에 속하는 복수의 오디오 샘플로 구성될 수 있다. 오디오 신호는 복수의 연속되는 원본 블록들로 구성될 수 있다. 그리고, 오디오 신호의 원본 블록은 오디오 신호의 프레임에 대응한다.
본 발명에서 시간순으로 인접한 원본 블록들은 결합되어 결합 블록으로 부호화될 수 있다. 일례로, 결합 블록은 시간순으로 인접한 2개의 원본 블록으로 구성된다. 특정 시점의 결합 블록이 현재 원본 블록과 이전 원본 블록을 포함할 때, 특정 시점의 다음 시점에 대응하는 결합 블록은 특정 시점의 결합 블록에 포함된 현재 원본 블록을 이전 원본 블록으로 포함한다.
생성된 결합 블록을 부호화하는 구체적인 과정은 도 2에서 후술한다.
도 2는 본 발명의 일실시예에 따른 부호화기의 동작을 나타낸 도면이다.
도 2를 참조하면, x(b)는 오디오 신호의 원본 블록을 의미한다. b는 원본 블록의 인덱스를 낸다. 일례로, 원본 블록의 인덱스는 시간에 따라 증가하도록 결정될 수 있다. x(b)는 N개의 오디오 샘플로 구성된다. 결합 과정(201)에서, 부호화기(101)는 시간순으로 인접한 원본 블록들을 결합함으로써 결합 블록을 생성한다.
구체적으로, x(b)가 현재 원본 블록일 때, x(b-1)은 이전 원본 블록이고, 결합 과정(201)에서, 부호화기(101)는 현재 원본 블록과 이전 원본 블록을 결합함으로써 결합 블록을 생성한다. 이 때, 현재 원본 블록과 이전 원본 블록은 시간순으로 인접하며, 현재 원본 블록은 특정 시점의 원본 블록을 의미한다. 결합 블록(X(b))은 아래 수학식 1로 나타낼 수 있다.
Figure pat00001
결합 블록은 하나의 원본 블록 간격으로 생성된다. 일례로, b번째 결합 블록(X(b))은 b번째 원본 블록(x(b))과, b-1번째 원본 블록(x(b-1))으로 구성된다. 그리고, b-1번째 결합 블록(X(b-1))은 b-1번째 원본 블록(x(b-1))과, b-2번째 원본 블록(x(b-2))으로 구성된다. 부호화기(101)는 시간순으로 연속된 오디오 신호가 입력되고, 결합 블록을 생성함에 있어, 특정 시점의 결합 블록의 현재 원본 블록을 다음 시점의 결합 블록의 이전 원본 블록으로 이용하기 위하여 버퍼를 이용한다.
그리고, 시간 도메인의 선형 예측 코딩 과정(202)에서, 부호화기(101)는 시간 도메인의 선형 예측 코딩을 이용하여 결합 블록으로부터 시간 도메인의 선형 예측 계수를 추출한다.
구체적으로, 부호화기(101)는 아래 수학식 2를 이용하여 결합 블록으로부터 시간 도메인의 선형 예측 계수를 생성한다. 선형 예측 계수를 계산하는 과정은 기재된 예시로 한정되지 않는다.
Figure pat00002
위 수학식 2에서, lpctd()는 결합 블록에 대응하는 시간 도메인의 선형 예측 계수를 의미한다. 부호화기(101)는 위 수학식 2를 이용하여 결합 블록으로부터 시간 도메인의 선형 예측 계수([lpctd(b), lpctd(b-1)])를 결정할 수 있다. p는 선형 예측 계수의 개수를 의미한다.
그리고, 양자화 과정(203)을 통해 시간 도메인의 선형 예측 계수는 양자화되어 비트스트림 변환 과정(215)에서 비트스트림으로 변환되고 복호화기로 전송된다. 시간 도메인의 선형 예측 계수를 양자화하는 방법은 특정한 방법으로 제한되지 않고, 여러 방법이 이용될 수 있다.
주파수 포락선 생성 과정(204)에서, 부호화기(101)는 양자화된 시간 도메인의 선형 예측 계수를 역양자화하여 주파수 포락선(Frequency Envelope)의 생성에 이용한다. 구체적으로, 부호화기(101)는 시간 도메인의 선형 예측 계수를 주파수 도메인으로 변환한다. 일례로, 부호화기(101)는 2N-point인 DFT(Discrete Fourier Transform)를 수행함으로써 시간 도메인의 선형 예측 계수를 주파수 도메인으로 변환한다.
구체적으로, 수학식 3을 통해 시간 도메인의 선형 예측 계수가 주파수 도메인으로 변환된다.
Figure pat00003
수학식 3에서, lpctd,f(b)는, 주파수 도메인으로 변환된 시간 도메인의 선형 예측 계수 중 b번째 결합 블록에 대응하는 선형 예측 계수를 의미하며, CutN은 N point 만큼 잘라내는 함수를 의미한다. DFT2N()은 2N-point DFT로 변환하는 함수를 의미한다. lpctd(b)은 시간 도메인의 선형 예측 계수 중 b번째 원본 블록에 대응하는 선형 예측 계수를 의미한다. 2N-point DFT로 변환된 결과는 대칭적이기 때문에, 부호화기(101)는 2N-point DFT로 변환된 결과에서 N-point를 잘라내는 작업을 수행한다.
그리고, 부호화기(101)는 주파수 도메인으로 변환된 시간 도메인의 선형 예측 계수의 절대값을 계산하고, 서브 대역(sub-band) 별로 주파수 포락선을 결정한다. 구체적으로, 부호화기(101)는 아래 수학식 4를 통해 주파수 포락선의 서브 대역 별 값을 결정함으로써 주파수 포락선을 생성할 수 있다.
Figure pat00004
위 수학식 4에서, envfd(k)는 k번째 서브 대역에 대응하는 주파수 포락선의 값을 의미한다. A()는 서브 대역들의 경계에 대응하는 오디오 샘플의 인덱스를 의미한다. 즉, A(k)는 k번째 서브 대역에 대응하는 오디오 샘플을 의미하고, A(k+1)-A(k)+1은 k번째 서브 대역에 대응하는 오디오 샘플의 수를 나타낸다. kk는 k번째 서브 대역의 구간에 속하는 서브 대역의 인덱스를 나타낸다. abs()는 절대값을 계산하는 함수이다. K는 서브 대역의 개수를 의미한다.
즉, 부호화기(101)는 서브 대역 별로 주파수 도메인으로 변환된 시간 도메인의 선형 예측 계수의 절대값의 평균을 계산함으로써 서브 대역 별 주파수 포락선을 결정할 수 있다.
s_lpctd,f()는 주파수 도메인으로 변환된 시간 도메인의 선형 예측 계수를 스무딩(smoothing) 처리한 선형 예측 계수이다. 일례로, 스무딩 처리는 아래 수학식 5에 따라 수행된다.
Figure pat00005
수학식 5에서, b는 현재 원본 블록의 인덱스를 나타낸다. kk는 k번째 서브 대역의 구간에 속하는 서브 대역의 인덱스를 나타낸다. lpctd,f(kk, b)는 k번째 서브 대역의 구간에 속하는 특정 서브 대역에 대응하고, 주파수 도메인으로 변환된 시간 도메인의 선형 예측 계수 중 b번째 원본 블록에 대응하는 선형 예측 계수를 나타낸다.
Figure pat00006
는 1에서 0 사이의 임의의 값으로 결정될 수 있다.
즉, 스무딩 처리는 i) 현재 원본 블록에 대응하는 주파수 도메인으로 변환된 시간 도메인의 선형 예측 계수와 ii) 이전 원본 블록에 대응하는 주파수 도메인으로 변환된 시간 도메인의 선형 예측 계수를 선형 보간함으로써 수행된다.
일례로,
Figure pat00007
가 0.5 인 경우, 동일한 비율로 스무딩이 수행되며,
Figure pat00008
가 0인 경우, 현재 원본 블록에 대한 시간 도메인의 선형 예측 계수만을 활용한다. 스무딩 과정은 MDCT와 같은 주파수 도메인으로 변환하는 과정에서 위신호 현상(aliasing)으로 인한 신호의 왜곡을 줄이기 위함이다.
제1 잔차 신호 생성 과정(206)에서, 부호화기(101)는 주파수 포락선에 기초하여 주파수 도메인으로 변환된 결합 블록으로부터 주파수 도메인의 제1 잔차 신호를 생성한다. 주파수 도메인 변환 과정(205)이 선행된다.
주파수 도메인 변환 과정(205)에서, 부호화기(101)는 시간 도메인의 결합 블록을 주파수 도메인으로 변환한다. 일례로, 주파수 도메인으로 변환은 MDCT (Modified Discrete Cosine Transform)나, DFT(Discrete Fourier Transform)가 이용될 수 있다.
제1 잔차 신호 생성 과정(206)에서, 부호화기(101)는 아래 수학식 6-8을 통해 주파수 도메인의 결합 블록으로부터 주파수 포락선을 이용하여 제1 잔차 신호를 추출할 수 있다.
Figure pat00009
Figure pat00010
Figure pat00011
위 수학식 6에서, A(k)는 k번째 서브 대역에 대응하는 원본 블록의 오디오 샘플들의 인덱스를 나타낸다. 그리고, 부호화기(101)는 주파수 도메인으로 변환된 결합 블록에서 k번째 서브 대역에 대응하는 오디오 신호(Xf[A(k):A(k+1)])의 절대값을 결정한다. 부호화기(101)는 결정된 절대값과 k번째 서브 대역에 대응하는 주파수 포락선(envfd(k))의 차이를 계산하여, k번째 서브 대역에 대응하는 주파수 도메인의 제1 잔차 신호(restdlp,f(A(k):A(k+1)))의 절대값을 획득할 수 있다.
위 수학식 7에서 angle()는 앵글 함수를 의미하고, 입력 값에 대한 위상 각을 반환하는 함수이다. 즉, 부호화기(101)는 k번째 서브 대역에 대응하는 결합 블록(Xf[A(k):A(k+1)])의 위상 각으로부터 k번째 서브 대역에 대응하는 제1 잔차 신호의 위상 각(restdlp,f(A(k):A(k+1)))을 계산할 수 있다.
부호화기(101)는 위 수학식 8에 따라 계산된 제1 잔차 신호의 위상 각과 제1 잔차 신호의 절대값으로부터 제1 잔차 신호를 획득할 수 있다. 구체적으로, 부호화기(101)는 k번째 서브 대역에 대응하는 제1 잔차 신호의 위상 각에 대한 지수 함수(exp()))의 출력 값과 k번째 서브 대역에 대응하는 제1 잔차 신호의 절대 값을 곱하여 제1 잔차 신호를 결정할 수 있다. j는 복소수를 나타내기 위한 변수이다.
그리고, 시간 도메인 변환 과정(207)에서, 부호화기(101)는 제1 잔차 신호 restdlp,f(A(k):A(k+1))를 시간 도메인으로 변환한다. 일례로, 부호화기(101)는 IMDCT(Inverse-MDCT)를 이용하여 주파수 도메인의 제1 잔차 신호(restdlp,f(A(k):A(k+1))를 시간 도메인의 제1 잔차 신호(restdlp(A(k):A(k+1))로 변환한다.
오버랩 과정(208)에서, 부호화기(101)는 시간 도메인으로 변환된 제1 잔차 신호들 중 시간순으로 인접한 제1 잔차 신호들을 오버랩(overlap)한다. 부호화기(101)는 시간 도메인의 위신호 현상(aliasing)을 제거하기 위하여, 오버랩-애드(Overlap-add) 연산을 이용하여 시간순으로 인접한 제1 잔차 신호들을 결합한다.
구체적으로, 제1 잔차 신호는 2개의 원본 블록을 포함하는 결합 블록에 대응한다. 특정 시점의 결합 블록의 현재 원본 블록은 다음 시점의 결합 블록의 이전 원본 블록과 동일한 시점에 대응하는 원본 블록이기 때문에, 인접한 제1 잔차 신호들은 2개 중 하나의 원본 블록이 동일한 시점에 대응한다. 즉, 부호화기(101)는 시간순으로 인접하는 제1 잔차 신호들 중 특정 시간에 속하는 원본 블록에 대응하는 두 개의 제1 잔차 신호들을 오버랩한다.
일례로, 부호화기(101)는 원본 블록인 x(b-1), x(b)에 대응하는 제1 잔차 신호와 x(b-2), x(b-1)에 대응하는 제1 잔차 신호를 결합하고, 신호와 x(b-2), x(b-1)에 대응하는 잔차 신호와 신호와 x(b-3), x(b-2)에 대응하는 제1 잔차 신호를 결합함으로써 제1 잔차 신호들 간에 오버랩되는 x(b-1), x(b-2)에 대응하는 제1 잔차 신호를 생성할 수 있다. 따라서, 부호화기(101)는 2개의 원본 블록을 지연 처리함으로써 오버랩된 제1 잔차 신호를 획득할 수 있다. 이와 관련된 설명은 도 4에서 후술한다.
주파수 도메인의 선형 예측 코딩 과정(209)에서, 부호화기(101)는 주파수 도메인의 선형 예측 코딩을 이용하여 오버랩된 제1 잔차 신호로부터 주파수 도메인의 선형 예측 계수를 추출한다.
구체적으로, 부호화기(101)는 오버랩된 제1 잔차 신호와 힐베르트 변환(Hilbert Transform)된 오버랩된 제1 잔차 신호를 주파수 도메인으로 변환한다. 그리고, 부호화기(101)는 선형 예측 코딩을 이용하여 오버랩된 제1 잔차 신호와 힐베르트 변환된 오버랩된 제1 잔차 신호에 대응하는 시간 도메인의 선형 예측 계수를 추출한다.
주파수 도메인의 선형 예측 코딩의 보다 구체적인 과정은 도 5에서 후술한다.
양자화 과정(210)에서, 부호화기(101)는 주파수 도메인의 선형 예측 계수를 양자화한다. 부호화기(101)는 양자화된 주파수 도메인의 선형 예측 계수를 비트스트림 변환 과정(215)에서 비트스트림으로 변환하고 복호화기로 전송한다. 주파수 도메인의 선형 예측 계수를 양자화하는 방법은 특정한 방법으로 제한되지 않고, 여러 방법이 이용될 수 있다.
시간 포락선 생성 과정(211)에서, 부호화기(101)는 양자화된 주파수 도메인의 선형 예측 계수를 역양자화하여 시간 포락선(Time Envelope)의 생성에 이용한다. 구체적으로, 수학식 9에 따라, 부호화기(101)는 양자화된 선형 예측 계수를 역양자화하고, 주파수 도메인의 선형 예측 계수를 시간 도메인으로 변환하고, 시간 도메인으로 변환된 주파수 도메인의 선형 예측 계수에 기초하여 시간 포락선을 생성한다.
Figure pat00012
수학식 9에서, envtd(b)는 결합 블록에 대한 시간 포락선에서 b번째 결합 블록에 대응하는 시간 포락선의 값을 나타낸다. abs()는 입력값에 대한 절대값을 출력하는 함수이다. lpcfdlp,c(b)는 주파수 도메인의 선형 예측 계수 중 b번째 결합 블록에 대응하는 선형 예측 계수의 복소수 값을 나타낸다. IDFT{lpcfdlp,c(b), 2N}는 lpcfdlp,c(b)에 대한 2N-point IDFT(inverse-DFT) 변환된 결과를 출력하는 함수이다. N은 원본 블록에 포함된 오디오 샘플의 수를 나타낸다.
제2 잔차 신호 생성 과정(212)에서, 부호화기(101)는 시간 포락선에 기초하여 오버랩된 제1 잔차 신호로부터 시간 도메인의 제2 잔차 신호를 추출한다. 제2 잔차 신호를 추출하기 위해서, 부호화기(101)는 대칭 윈도잉(symmetric windowing)을 이용하여 시간 포락선으로부터 보간(interpolated)된 현재 포락선을 생성한다.
현재 포락선을 생성하는 구체적인 과정은 도 6에서 후술한다. 그리고, 부호화기(101)는 수학식 10-12에 따라, 현재 포락선을 이용하여 오버랩된 제1 잔차 신호로부터 시간 도메인의 제2 잔차 신호를 추출한다.
Figure pat00013
Figure pat00014
Figure pat00015
위 수학식 10에서, b는 현재 원본 블록의 인덱스를 나타낸다. cur_en(b)는 현재 원본 블록에 대응하는 현재 포락선을 나타낸다. prestdlp(b)는 오버랩된 제1 잔차 신호에서 b번째 원본 블록에 대응하는 제1 잔차 신호를 나타낸다. presfdlp(b)는 시간 도메인의 제2 잔차 신호에서 b번째 원본 블록에 대응하는 제2 잔차 신호를 나타낸다. 부호화기(101)는 오버랩된 제1 잔차 신호의 절대값을 결정한다. 부호화기(101)는 결정된 절대값과 현재 포락선의 차이를 계산하여, 시간 도메인의 제2 잔차 신호의 절대값을 획득할 수 있다.
위 수학식 11에서 angle()는 앵글 함수를 의미하고, 입력 값에 대한 위상 각을 반환하는 함수이다. 즉, 부호화기(101)는 오버랩된 제1 잔차 신호의 위상 각으로부터 제2 잔차 신호의 위상 각을 계산할 수 있다.
부호화기(101)는 위 수학식 12에 따라 계산된 제2 잔차 신호의 위상 각과 제2 잔차 신호의 절대값으로부터 제2 잔차 신호를 결정할 수 있다. 구체적으로, 부호화기(101)는 제2 잔차 신호의 위상 각에 대한 지수 함수(exp()))의 출력 값과 제2 잔차 신호의 절대 값을 곱하여 제2 잔차 신호를 결정할 수 있다. j는 복소수를 나타내기 위한 변수이다.
그리고, 제2 잔차 신호는 결합 블록에 대응하므로 시간순으로 인접하는 2개의 원본 블록에 대응한다. 일례로, 양자화되는 제2 잔차 신호([presfdlp(b-1), presfdlp(b)]T)는 b-1번째 원본 블록에 대응하는 제2 잔차 신호(presfdlp(b-1))와 b번째 원본 블록에 대응하는 제2 잔차 신호(presfdlp(b))로 구성된다. 이를 통해, 원본 블록 간에 발생하는 양자화 잡음의 차이를 줄여 음질 왜곡을 줄일 수 있다.
주파수 도메인 변환 과정(213)에서, 부호화기(101)는 시간 도메인의 제2 잔차 신호를 주파수 도메인으로 변환한다 일례로, 부호화기(101)는 2N-point DFT를 이용하여 제2 잔차 신호를 주파수 도메인으로 변환할 수 있다. 주파수 도메인의 변환된 제2 잔차 신호는 양자화 과정(214)을 통해 양자화되어 비트스트림으로 변환되고, 복호화기로 전송된다.
양자화 과정(214)에서, 부호화기(101)는 제2 잔차 신호를 양자화한다. 구체적으로, 부호화기(101)는 서브 대역 별로 제2 잔차 신호를 그룹화하고, 그룹화된 제2 잔차 신호 마다 스케일 팩터를 결정한다. 부호화기(101)는 결정된 스케일 팩터를 이용하여 제2 잔차 신호를 양자화한다.
부호화기(101)는 잔차 신호의 양자화 과정에서 양자화에 이용될 수 있는 비트 수에 따라 서브 대역 별로 결정된 스케일 팩터를 잔차 신호에서 차감함으로써 양자화 효율을 높인다. 스케일 팩터는 서브 대역 별로 결정되고, 잔차 신호의 양자화 과정에서 양자화에 이용되는 비트 수를 고려하여 잔차 신호의 주파수 성분을 줄이는데 이용된다. 스케일 팩터를 결정하는 구체적인 방법은 도 4에서 후술한다.
결과적으로, 부호화기(101)는 도 2와 같이 오디오 신호의 원본 블록으로부터 생성한 i) 양자화된 시간 도메인의 선형 예측 계수, ii) 양자화된 주파수 도메인의 선형 예측 계수 및 iii) 양자화된 주파수 도메인의 제2 잔차 신호를 비트스트림으로 변환 또는 부호화하여 복호화기로 송신한다.
도 3은 본 발명의 일실시예에 따른 선형 예측 계수를 이용하여 주파수 포락선을 생성하는 과정을 플로우 차트로 도시한 도면이다.
주파수 포락선 생성 과정에서, 부호화기는 양자화된 시간 도메인의 선형 예측 계수를 역양자화하고, 주파수 포락선의 생성에 이용한다. 단계(301)에서, 부호화기는 시간 도메인의 선형 예측 계수를 주파수 도메인으로 변환한다. 일례로, 부호화기는 2N-point인 DFT(Discrete Fourier Transform)를 수행함으로써 시간 도메인의 선형 예측 계수를 주파수 도메인으로 변환한다.
단계(302)에서, 부호화기는 주파수 도메인으로 변환된 시간 도메인의 선형 예측 계수의 절대값을 계산한다. 그리고, 서브 대역(sub-band) 별로 주파수 포락선을 결정한다.
단계(302)에서, 주파수 도메인으로 변환된 시간 도메인의 선형 예측 계수를 이용함에 있어, 부호화기는 주파수 도메인으로 변환된 시간 도메인의 선형 예측 계수를 스무딩 처리한 후 절대값을 계산할 수 있다.
구체적으로, 스무딩 처리는 i) 현재 원본 블록에 대응하는 주파수 도메인으로 변환된 시간 도메인의 선형 예측 계수와 ii) 이전 원본 블록에 대응하는 주파수 도메인으로 변환된 시간 도메인의 선형 예측 계수를 선형 보간함으로써 수행된다. 스무딩 과정은 MDCT와 같은 주파수 도메인으로 변환하는 과정에서 위신호 현상(aliasing)으로 인한 신호의 왜곡을 줄이기 위함이다.
단계(303)에서, 부호화기는 수학식 4에 따라 주파수 포락선의 서브 대역 별 값을 결정함으로써 주파수 포락선을 생성할 수 있다. 구체적으로, 부호화기는 서브 대역 별로 주파수 도메인으로 변환된 시간 도메인의 선형 예측 계수의 절대값의 평균을 계산함으로써 서브 대역 별 주파수 포락선을 결정할 수 있다.
도 4는 본 발명의 일실시예에 따른 잔차 신호를 결합하는 과정을 도시한 도면이다.
제1 잔차 신호는 2개의 원본 블록을 포함하는 결합 블록에 대응한다. 특정 시점의 결합 블록의 현재 원본 블록은 다음 시점의 결합 블록의 이전 원본 블록과 동일한 시점에 대응하는 원본 블록이기 때문에, 인접한 제1 잔차 신호들은 2개 중 하나의 원본 블록이 동일한 시점에 대응한다.
도 4를 참조하면, 시간 순으로 인접하는 제1 잔차 신호들(410, 420, 430)은 각각 2개의 원본 블록에 대응하는 잔차 신호이고, 제1 잔자 신호(430)의 현재 원본 블록(432)은 제1 잔자 신호(430)와 시간순으로 인접한 제1 잔차 신호(420)의 이전 원본 블록(421)과 대응한다. 결합 블록도 도 4와 같이 2개의 원본 블록을 포함하나, 하나의 원본 블록 간격으로 생성되며, 인접한 결합 블록 간에는 동일 시간 구간에 대응하는 원본 블록을 포함한다.
따라서, 특정 시간에 속하는 원본 블록이 있을 때, 특정 시간에 속하는 원본 블록을 포함하는 2개의 결합 블록이 생성될 수 있고, 결합 블록에 따른 제1 잔차 신호가 생성될 수 있다. 도 4를 참조하면, 부호화기는 시간순으로 인접하는 제1 잔차 신호들 중 특정 시간에 속하는 원본 블록에 대응하는 두 개의 제1 잔차 신호들을 오버랩한다.
그리고, 도 4를 참조하면, 오버랩된 제1 잔차 신호(440)도 2개의 원본 블록(441, 442)에 대응하는 길이의 잔차 신호이다. 오버랩된 제1 잔차 신호(440)를 생성하기 위해서 부호화기는 2개 이상의 원본 블록에 대응하는 제1 잔차 신호(430, 420)을 버퍼에 저장해야 하므로 2개의 원본 블록에 대응하는 시간 길이만큼 지연 처리가 발생한다.
오버랩 연산은 구체적으로 Overlap-add 연산을 의미하며, 온전한 시간 도메인의 잔차 신호를 얻기 위해 수행되고, MDCT/IMDCT 과정에서 발생하는 TDA(Time Domain Aliasing)를 제거하기 위해 이용된다.
도 5는 본 발명의 일실시예에 따른 주파수 도메인의 선형 예측 코딩의 구체적인 과정을 플로우 차트로 도시한 도면이다.
단계(501)에서, 부호화기는 힐베르트 변환(Hilbert Transform)을 이용하여 오버랩된 제1 잔차 신호를 분석 신호로 변환한다. 분석 신호는 아래 수학식 13으로 정의된다.
Figure pat00016
수학식 13에서, prestdlp(b)는 오버랩된 제1 잔차 신호를 나타내고, HT{}는 힐베르트 변환을 수행하는 함수를 나타내고, j는 복소수를 나타내기 위한 임의의 변수를 의미한다. resc(b)는 분석 신호를 나타낸다. 분석 신호는 오버랩된 제1 잔차 신호(prestdlp(b))와 힐베르트 변환된 제1 잔차 신호(
Figure pat00017
)를 의미한다.
단계(502)에서, 부호화기는 분석 신호를 주파수 도메인으로 변환한다. 일례로, 부호화기는 DFT를 이용하여 아래 수학식 14에 따라 분석 신호를 주파수 도메인으로 변환한다.
Figure pat00018
수학식 14에서,
Figure pat00019
은 주파수 도메인으로 변환된 분석 신호를 의미하고, DFT2N{}은 2N-point DFT로 변환한 결과를 출력하는 함수를 나타낸다. c는 복소수(complex)를 의미하는 변수이다.
단계(503)에서, 부호화기는 선형 예측 코딩을 이용하여 주파수 도메인으로 변환된 분석 신호로부터 주파수 도메인의 선형 예측 계수를 결정할 수 있다. 구체적으로, 부호화기는 수학식 15, 16에 따라 선형 예측 계수를 결정할 수 있다.
Figure pat00020
Figure pat00021
위 수학식 15, 16에서, p는 선형 예측 계수의 개수를 의미하고, lpcfdlp()는 주파수 도메인의 선형 예측 계수를 의미하고, c는 복소수를 의미하는 변수이다. 수학식 15은 값이 복소수 형태로 계산되기 때문에, 수학식 16에 따라 실수(real) 값으로 주파수 도메인의 선형 예측 계수를 추출할 수 있다. 수학식 16에서, real{}은 입력 값에서 실수 값을 추출한 결과를 출력하는 함수를 나타낸다. k는 주파수의 빈(bin) 인덱스를 의미하고, N은 주파수 빈의 최대 범위를 나타낸다.
부호화기는 수학식 2에 따라 시간 도메인의 선형 예측 계수를 결정함으로써 부호화되는 데이터의 양을 줄일 수 있다. 다만, 수학식 2에 따라 오디오 신호를 부호화하는 경우, 시간 포락선에 대한 예측이 정확하지 않기 때문에, 본 발명의 부호화기는 주파수 도메인의 선형 예측 계수를 이용하여 시간 포락선을 생성하고, 제2 잔차 신호를 추출함으로써 시간 도메인에서 발생하는 위신호 현상을 방지할 수 있다.
도 6은 본 발명의 일실시예에 따른 현재 포락선을 생성하는 과정을 도시한 도면이다.
제2 잔차 신호 생성 과정에서, 부호화기는 시간 포락선에 기초하여 오버랩된 제1 잔차 신호로부터 시간 도메인의 제2 잔차 신호를 추출한다. 먼저, 부호화기는 대칭 윈도잉(symmetric windowing)을 이용하여 시간 포락선(610, 620)으로부터 보간(interpolated)된 현재 포락선(630)을 생성한다.
시간 포락선(620)은 결합 블록에 포함된 원본 블록에 대응하여 생성된다. b-1번째 원본 블록에 대응하는 시간 포락선(623)의 값(621)과 b번째 원본 블록에 대응하는 시간 포락선의 값(622)이 있을 때, 부호화기는 대칭 윈도우를 이용하여 특정 원본 블록에 대응하는 시간 포락선의 값을 대칭시킨 결과(613)와, 대칭시키기 전 시간 포락선(623)의 값(621)을 결합하여 현재 포락선(630)을 생성할 수 있다.
다른 실시예에서, 즉, 부호화기는 한 원본 블록(612)에 대응하는 구간만큼 이동시키고 이동된 시간 포락선(610)과 이동 전 시간 포락선(620)을 결합함으로써 현재 포락선을 생성할 수 있다. 현재 포락선을 생성하는 이유는 시간 포락선을 스무딩함으로써 오디오 신호가 급격히 변하는 구간에 대한 불안정한 처리 과정을 보정해 줄 수 있다.
도 7은 본 발명의 일실시예에 따른 스케일 팩터를 이용하여 잔차 신호를 양자화하는 과정을 플로우 차트로 도시한 도면이다.
단계(701)에서, 부호화기는 제2 잔차 신호를 서브 대역 별로 그룹화한다. 단계(701)에서 그룹화는 서브 대역 별로 양자화에 이용되는 비트 수를 달리하기 위해서 수행된다. 이 때, 양자화에 이용되는 비트 수는 서브 대역이 저대역일수록 많이 할당되고, 고대역일수록 적게 할당된다. 양자화에 이용되는 비트 수는 양자화의 분해능을 의미한다.
k번째 서브 대역에 대응하는 제2 잔차 신호는 아래 수학식 7에 따라 정의될 수 있다.
Figure pat00022
수학식 17에서, B는 서브 대역의 개수를 의미하다. k는 구분된 서브 대역의 인덱스를 의미한다. B(k)는 k번째 서브 대역에 대응하는 오디오 샘플을 의미한다. 원본 블록이 N개의 오디오 샘플로 구성될 때, B(B)는 2/N이고, B(0)는 0이다. 따라서, 서브 대역의 양자화 과정에서, res(k)는 k번째 서브 대역에 속하는 오디오 샘플에 대응하는 제2 잔차 신호를 의미한다.
단계(702)에서, 부호화기는 그룹화된 제2 잔차 신호 마다 양자화를 위한 스케일 팩터를 결정한다. 즉, 부호화기는 서브 대역 별로 스케일 팩터를 추정한다. 부호화기는 스케일 팩터를 제2 잔차 신호의 중간값으로 결정하거나, 제2 잔차 신호의 양자화에 이용가능한 비트 수에 기초하여 결정한다.
제2 잔차 신호의 양자화에 이용가능한 비트 수에 기초하여 스케일 팩터를 결정하는 경우, 부호화기는 서브 대역 별로 양자화에 이용가능한 비트 수를 할당한다. 양자화에 이용되는 비트 수는 서브 대역이 저대역일수록 많이 할당되고, 고대역일수록 적게 할당된다.
부호화기는 서브 대역 별로 아래 수학식 18에 따라 제2 잔차 신호의 전체 에너지를 계산하고, 계산된 전체 에너지와 양자화에 이용되는 비트 수를 비교하여 스케일 팩터를 결정할 수 있다. 이 때, 전체 에너지와 양자화에 이용되는 비트 수를 비교하기 위해서, 부호화기는 전체 에너지를 기준 데시벨(dB/bit)로 나누어 양자화에 이용되는 비트 수와 비교할 수 있다. 일례로, 기준 데시벨은 6dB/bit 일 수 있다.
Figure pat00023
수학식 8에서, energy는 특정 서브 대역에서 잔차 신호의 전체 에너지를 의미한다. K는 서브 대역의 개수를 의미한다. k는 구분된 서브 대역 중 어느 하나를 의미한다. Ab()는 서브 대역들의 경계에 대응하는 인덱스를 의미하고, Ab(0)는 0이다. 부호화기는 k번째 서브 대역에 대응하는 잔차 신호(res(k))의 절대값들을 합하여 전체 에너지를 계산할 수 있다. 구체적으로, 부호화기는 k번째 서브 대역에 대응하는 잔차 신호(res(k))의 절대값들의 합을 k번째 서브 대역의 범위로 나누어 전체 에너지를 계산한다.
부호화기는 전체 에너지를 기준 데시벨로 나눈 결과가 양자화에 이용되는 비트 수보다 큰 경우, 부호화기는 전체 에너지를 기준 데시벨의 두배로 나누어 양자화에 이용되는 비트 수와 비교한다.
이 때, 전체 에너지를 기준 데시벨의 두배로 나눈 결과가 양자화에 이용되는 비트 수보다 작은 경우, 부호화기는 기준 데시벨보다 크고 기준 데시벨의 두배보다 작은 후보 데시벨들 중 전체 에너지를 후보 데시벨로 나눈 결과가 i) 양자화에 이용되는 비트 수보다 작고, ii) 양자화에 이용되는 비트 수와 차이가 가장 작게 하는 후보 데시벨을 스케일 팩터로 결정할 수 있다.
그리고, 전체 에너지를 기준 데시벨의 두배로 나눈 결과가 양자화에 이용되는 비트 수보다 큰 경우, 부호화기는 전체 에너지를 기준 데시벨의 4배로 나누어 위 과정을 수행한다.
또한, 전체 에너지를 기준 데시벨로 나눈 결과가 양자화에 이용되는 비트 수보다 작은 경우, 부호화기는 전체 에너지를 기준 데시벨의 1/2배로 나누어 양자화에 이용되는 비트 수와 비교한다.
이 때, 전체 에너지를 기준 데시벨의 1/2배로 나눈 결과가 양자화에 이용되는 비트 수보다 작은 경우, 부호화기는 기준 데시벨보다 작고 기준 데시벨의 1/2배보다 큰 후보 데시벨들 중 전체 에너지를 후보 데시벨로 나눈 결과가 i) 양자화에 이용되는 비트 수보다 작고, ii) 양자화에 이용되는 비트 수와 차이가 가장 작게 하는 후보 데시벨을 스케일 팩터로 결정할 수 있다.
그리고, 전체 에너지를 기준 데시벨의 두배로 나눈 결과가 양자화에 이용되는 비트 수보다 큰 경우, 부호화기는 전체 에너지를 기준 데시벨의 1/4배로 나누어 위 과정을 수행한다.
예를 들어, 기준 데시벨이 6dB이고, 양자화에 이용되는 비트 수가 전체 에너지를 기준 데시벨로 나눈 결과보다 큰 경우, 부호화기는 3dB로 전체 에너지를 나눈 결과와 양자화에 이용되는 비트 수를 비교한다. 부호화기는 3dB보다 크고 6dB보다 작은 후보 데시벨들 중 전체 에너지를 후보 데시벨로 나눈 결과와 양자화에 이용되는 비트 수의 차이가 가장 작게 하는 후보 데시벨을 스케일 팩터로 결정할 수 있다. 이 때, 부호화기는 최소 0.125dB로 전체 에너지를 나누어 양자화에 이용되는 비트 수와 비교할 수 있다.
다른 예로, 양자화에 이용되는 비트 수가 N인 경우, 양자화에 이용되는 비트 로부터 표현 가능한 데시벨은 대략 6*N dB이다. 부호화기는 6*N dB과 서브 대역 별 전체 에너지를 비교하여 전체 에너지가 6*N dB로 표현될 수 있도록 하는 스케일 팩터를 결정한다. N=2bit이고, 서브 대역의 전체 에너지가 20dB인 경우, N*6 dB인 12dB로 표현되기 어렵기 때문에 서브 대역의 전체 에너지를 12dB까지 낮추는 스케일 팩터를 바이너리한 과정으로 결정한다.
즉, 부호화기는 서브 대역 별 전체 에너지를 후보 데시벨로 나눈 결과가 서브 대역 별 양자화에 이용되는 비트 수와 가장 차이가 작게 하는 후보 데시벨을 서브 대역 별 스케일 팩터를 결정할 수 있다.
단계(703)에서, 부호화기는 결정된 스케일 팩터를 이용하여 제2 잔차 신호를 양자화할 수 있다. 구체적으로 수학식 19-21을 통해 양자화된 제2 잔차 신호를 획득할 수 있다.
Figure pat00024
Figure pat00025
Figure pat00026
수학식 19에서 SF(k)는 k번째 서브 대역에 대해 결정된 스케일 팩터를 의미한다. B(k):B(k+1)은 k번째 서브 대역에 대응하는 원본 블록의 오디오 샘플을 의미한다. resQ는 양자화된 제2 잔차 신호를 의미한다. resf는 제2 잔차 신호를 의미한다. 나머지 변수 및 함수들은 수학식 1-20에서 설명한 것과 동일하다.
부호화기는 위 수학식 19에 따라 서브 대역 별로 제2 잔차 신호를 데시벨로 변환하고 스케일 팩터를 차감하여 서브 대역 별 양자화된 제2 잔차 신호의 절대 값을 획득할 수 있다.
부호화기는 위 수학식 20에 따라 k번째 서브 대역에 대응하는 제2 잔차 신호(resf(B(k):B(k+1)))의 위상 각을 통해 양자화된 제2 잔차 신호의 위상 각(resQ(B(k):B(k+1)))을 계산할 수 있다.
부호화기는 위 수학식 21에 따라 양자화된 제2 잔차 신호의 위상 각과 절대값으로부터 양자화된 제2 잔차 신호를 획득할 수 있다. 부호화기는 양자화된 제2 잔차 신호의 위상 각(angle(resQ(B(k):B(k+1))))에 대한 지수 함수(exp()))의 출력 값과 양자화된 제2 잔차 신호의 절대 값(abs(resQ(B(k):B(k+1))))을 곱하여 제2 잔차 신호를 결정할 수 있다. 그리고, 부호화기는 버림 또는 반올림 등의 연산 방법을 통해 양자화된 제2 잔차 신호의 정수 값을 획득할 수 있다.
도 8은 본 발명의 일실시예에 따른 복호화기의 동작을 나타낸 도면이다.
추출 과정(800)에서, 복호화기(102)는 부호화기로부터 수신한 비트스트림으로부터 양자화된 시간 도메인의 선형 예측 계수, 양자화된 주파수 도메인의 선형 예측 계수 및 양자화된 주파수 도메인의 제2 잔차 신호를 추출한다.
그리고, 복호화기(102)는 부호화기로부터 수신한 비트스트림으로부터 스케일 팩터를 추출할 수 있다. 추출 과정(800)은 일반적으로 이용되는 복호화 기법이 이용될 수 있고, 특정한 실시예로 제한되지 않는다.
잔차 신호 역양자화 과정(801)에서, 복호화기(102)는 제2 잔차 신호를 역양자화한다. 역양자화 과정은 양자화 과정을 역으로 수행함으로써 이루어진다. 구체적으로, 복호화기(102)는 아래 수학식 22-24를 통해 양자화된 잔차 신호를 역양자화할 수 있다.
Figure pat00027
Figure pat00028
Figure pat00029
수학식 22에서,
Figure pat00030
은 역양자화된 제2 잔차 신호를 의미하고, 나머지 변수, 함수들은 위 수학식1-21에서 설명한 바와 동일하다. 즉, 복호화기(102)는 서브 대역 별로 양자화된 제2 잔차 신호를 변환한 결과에 스케일 팩터를 합하여 역양자화된 제2 잔차 신호의 절대 값을 계산할 수 있다.
그리고, 수학식 23을 통해 복호화기(102)는 서브 대역 별로 양자화된 제2 잔차 신호의 위상 각을 이용하여 역양자화된 제2 잔차 신호의 위상 각을 획득할 수 있다. 복호화기(102)는 위 수학식 24에 따라 역양자화된 제2 잔차 신호의 위상 각과 절대값으로부터 역양자화된 제2 잔차 신호를 복원할 수 있다.
시간 도메인 변환 과정(802)에서, 복호화기(102)는 역양자화된 제2 잔차 신호를 시간 도메인으로 변환한다. 복호화기(102)는 IDFT 또는 IMDCT를 이용하여 제2 잔차 신호를 시간 도메인으로 변환할 수 있다. 다만, 시간 도메인으로 변환하는 방법은 위 방법으로 제한되지 않고, 다른 방법도 이용 가능하다.
그리고, 제1 잔차 신호 복원 과정(805)에서, 복호화기(102)는 시간 포락선을 이용하여 시간 도메인으로 변환된 제2 잔차 신호로부터 시간 도메인의 제1 잔차 신호를 생성한다. 복호화기(102)는 선형 예측 계수 역양자화 과정(803) 및 시간 포락선 생성 과정(804)를 통해 양자화된 시간 도메인의 선형 예측 계수로부터 시간 포락선을 생성한다.
구체적으로, 선형 예측 계수 역양자화 과정(803)에서, 복호화기(102)는 양자화된 시간 도메인의 선형 예측 계수를 역양자화하여 시간 도메인의 선형 예측 계수를 복원할 수 있다. 시간 도메인의 선형 예측 계수를 역양자화는 시간 도메인의 선형 예측 계수를 양자화 하는 과정의 역으로 수행되며, 통상적으로 이용되는 양자화 방법이 이용될 수 있다.
그리고, 시간 포락선 생성 과정(804)에서, 복호화기(102)는 역양자화된 시간 도메인의 선형 예측 계수를 이용하여 시간 포락선을 생성한다. 구체적으로, 복호화기(102)는 시간 도메인의 선형 예측 계수의 절대값을 계산하고, 서브 대역 별로 시간 포락선을 결정한다. 복호화기(102)는 아래 수학식 25를 이용하여 시간 포락선의 서브 대역 별 값을 결정함으로써 시간 포락선을 복원할 수 있다.
Figure pat00031
위 수학식 25에서, envtd(k)는 k번째 서브 대역에 대응하는 시간 포락선의 값을 의미한다. A()는 서브 대역들의 경계에 대응하는 오디오 샘플의 인덱스를 의미한다. 즉, A(k)는 k번째 서브 대역에 대응하는 오디오 샘플을 의미하고, A(k+1)-A(k)+1은 k번째 서브 대역에 대응하는 오디오 샘플의 수를 나타낸다. kk는 k번째 서브 대역의 구간에 속하는 서브 대역의 인덱스를 나타낸다. abs()는 절대값을 계산하는 함수이다. K는 서브 대역의 개수를 의미한다.
즉, 복호화기(102)는 서브 대역 별로 시간 도메인의 선형 예측 계수의 절대값의 평균을 계산함으로써 서브 대역 별 시간 포락선을 결정할 수 있다. s_lpctd()는 시간 도메인의 선형 예측 계수를 스무딩 처리한 선형 예측 계수이다. 일례로, 스무딩 처리는 위 수학식 5에 따라 수행된다. 스무딩 처리는 i) 현재 원본 블록에 대응하는 시간 도메인의 선형 예측 계수와 ii) 이전 원본 블록에 대응하는 시간 도메인의 선형 예측 계수를 선형 보간함으로써 수행된다.
제1 잔차 신호 복원 과정(805)에서, 복호화기(102)는 생성된 시간 포락선을 이용하여 제2 잔차 신호로부터 제1 잔차 신호를 복원할 수 있다. 구체적으로, 아래 수학식 26-28을 통해 제2 잔차 신호로부터 제1 잔차 신호를 복원할 수 있다.
Figure pat00032
Figure pat00033
Figure pat00034
위 수학식 26에서, b는 현재 원본 블록의 인덱스를 나타낸다. cur_en(b)는 현재 원본 블록에 대응하는 현재 포락선을 나타낸다.
Figure pat00035
는 제2 잔차 신호에서 b번째 원본 블록에 대응하는 제2 잔차 신호를 나타낸다.
Figure pat00036
는 제1 잔차 신호에서 b번째 원본 블록에 대응하는 제1 잔차 신호를 나타낸다. 복호화기(102)는 제2 잔차 신호의 절대값을 결정한다. 복호화기(102)는 결정된 절대값과 현재 포락선의 합을 계산하여, 시간 도메인의 복원된 제1 잔차 신호의 절대값을 획득할 수 있다.
위 수학식 27에서, 복호화기(102)는 제2 잔차 신호의 위상 각으로부터 제1 잔차 신호의 위상 각을 계산할 수 있다. 복호화기(102)는 위 수학식 28에 따라 계산된 제1 잔차 신호의 위상 각과 제1 잔차 신호의 절대값으로부터 제1 잔차 신호를 결정할 수 있다.
구체적으로, 복호화기(102)는 제1 잔차 신호의 위상 각에 대한 지수 함수(exp()))의 출력 값과 제1 잔차 신호의 절대 값을 곱하여 제1 잔차 신호를 결정할 수 있다. j는 복소수를 나타내기 위한 변수이다.
그리고, 결합 과정(806)에서, 복호화기(102)는 아래 수학식 29와 같이 복원된 제1 잔차 신호([
Figure pat00037
]T)는 b-1번째 원본 블록에 대응하는 제2 잔차 신호(
Figure pat00038
)와 b번째 원본 블록에 대응하는 제1 잔차 신호(
Figure pat00039
)를 결합함으로써 제1 잔차 신호(
Figure pat00040
)결정한다. 이 때, 제1 잔차 신호는 주파수 도메인으로 나타난다.
Figure pat00041
시간 도메인 변환 과정(807)에서, 복호화기(102)는 제1 잔차 신호를 시간 도메인으로 변환한다 일례로, 복호화기(102)는 IMDCT를 이용하여 제1 잔차 신호를 시간 도메인으로 변환할 수 있다. 시간 도메인의 변환된 제1 잔차 신호(
Figure pat00042
)는 아래 수학식 30에 의해 결정된다. 시간 도메인의 변환된 제1 잔차 신호(
Figure pat00043
)은 b번째 결합 블록에 대응한다.
Figure pat00044
그리고, 오디오 신호 복원 과정(810)에서, 복호화기(102)는 주파수 포락선을 이용하여 제1 잔차 신호로부터 오디오 신호의 결합 블록들을 복원한다. 주파수 포락선은 선형 예측 계수의 역양자화 과정(808)과 주파수 포락선 생성 과정(809)를 통해 생성된다.
구체적으로, 선형 예측 계수의 역양자화 과정(808)에서, 복호화기(102)는 비트스트림으로 추출한 주파수 도메인의 선형 예측 계수를 역양자화한다. 역양자화 과정은 양자화 과정으로 역순으로 이루어지며, 통상적으로 이용되는 양자화 과정이 적용될 수 있다.
그리고, 주파수 포락선 생성 과정(809)에서, 복호화기(102)는 주파수 도메인의 선형 예측 계수를 이용하여 주파수 포락선을 생성한다. 구체적으로, 복호화기(102)는 주파수 도메인의 선형 예측 계수를 시간 도메인으로 변환하고, 시간 도메인으로 변환된 주파수 도메인의 선형 예측 계수에 기초하여 시간 포락선을 생성한다.
이 때, 복호화기(102)는 위 수학식 9와 동일하게 주파수 도메인의 선형 예측 계수로부터 시간 포락선을 생성할 수 있다. 오디오 신호 복원 과정(810)에서, 복호화기(102)는 시간 포락선에 기초하여 복원된 제1 잔차 신호로부터 오디오 신호의 결합 블록들을 추출한다. 결합 블록들을 추출하기 위해서, 복호화기(102)는 대칭 윈도잉(symmetric windowing)을 이용하여 시간 포락선으로부터 보간(interpolated)된 현재 포락선을 생성한다.
시간 포락선들을 결합하여 현재 포락선을 생성하는 구체적인 과정은 도 9에서 후술한다. 그리고, 복호화기(102)는 수학식 31-33에 따라, 현재 포락선을 이용하여 제1 잔차 신호로부터 오디오 신호의 결합 블록을 추출한다.
Figure pat00045
Figure pat00046
Figure pat00047
위 수학식 31-33에서,
Figure pat00048
는 복원된 주파수 도메인의 결합 블록을 나타낸다. K는 서브 대역의 개수를 의미한다.
Figure pat00049
는 주파수 포락선에서 k번째 서브 대역에 대응하는 값을 의미한다. 나머지 변수, 함수들은 위 수학식1-33에서 설명한 바와 동일하다.
즉, 복호화기(102)는 k번째 서브 대역에 대응하는 제1 잔차 신호의 절대 값
Figure pat00050
을 변환한 결과
Figure pat00051
에 주파수 포락선의 값(
Figure pat00052
)을 합하여 결합 블록의 절대값(
Figure pat00053
)을 획득할 수 있다. 그리고, 수학식 32을 통해, 복호화기(102)는 제1 잔차 신호의 위상 각(
Figure pat00054
)으로 결합 블록의 위상 각을 계산할 수 있다.
또한, 복호화기(102)는 위 수학식 33에 따라 결합 블록의 위상 각과 절대값으로부터 오디오 신호의 결합 블록을 획득할 수 있다. 복호화기(102)는 오디오 신호의 위상 각(
Figure pat00055
)에 대한 지수 함수(exp()))의 출력 값과 양자화된 잔차 신호의 절대 값(
Figure pat00056
)을 곱하여 서브 대역 별 결합 블록을 획득할 수 있다.
그리고, 시간 도메인 변환 과정(811)에서, 복호화기(102)는 획득한 결합 블록을 시간 도메인으로 변환하여 오디오 신호를 복호화할 수 있다. 일례로, 복호화기(102)는 아래 수학식 34에 따라 IMDCT (Inverse MDCT)나, i-DFT(inverse DFT)를 이용하여 복원한 결합 블록을 시간 도메인으로 변환할 수 있다.
Figure pat00057
수학식 33에서,
Figure pat00058
은 시간 도메인으로 변환된 b번째 결합 블록이고,
Figure pat00059
주파수 도메인의 b번째 결합 블록이다. 최종적으로, OLA 과정(912)에서, 복호화기(102)는 결합 블록에 대해 OLA(Overlap-add) 연산을 이용함으로써 TDA(Time Domain Aliasing)가 제거된 최종적인 결합 블록을 획득할 수 있고, b번째 결합 블록은 복원된 원본 블록(
Figure pat00060
(b))을 포함한다.
도 9는 본 발명의 일실시예에 따른 복원된 오디오 신호를 결합하는 과정을 도시한 도면이다.
도 9는 도 8의 OLA 과정(912)을 구체적으로 도시한 도면이다. 도 9의
Figure pat00061
은 시간 도메인으로 변환된 b번째 결합 블록(910)이고,
Figure pat00062
은 시간 도메인으로 변환된 b-1번째 결합 블록(920)이다.
b번째 결합 블록(910)은 b번째 원본 블록(911)과 b-1번째 원본 블록(912)을 포함하고, b번째 결합 블록(910)은 b-2번째 원본 블록(921)과 b-1번째 원본 블록(922)을 포함한다. 다만, 도 9에서, 결합 블록(910, 920)에 포함된 원본 블록(911, 912, 921, 922)들은 현재 원본 블록(b), 이전 원본 블록(b-1)로 나타냈다.
복호화기는 b번째 결합 블록과 b-1번째 결합 블록을 결합함으로써 TDA가 제거된 b번째 원본 블록(930)을 생성할 수 있다.
도 10은 본 발명의 일실시예에 따른 실험 결과에 대한 그래프를 도시한 도면이다.
도 10은 복호화된 오디오 신호의 음질에 대해 본 발명의 방법과 기존 기술의 absolute score를 비교한 그래프이다. 도 10에서, vDualss는 본 발명에 따라 부호화 및 복호화된 결과를 나타내고, arm-wb+, usac은 종래 오디오 코딩 기술을 적용한 결과이다. 도 10은 복수의 서로 다른 아이템(es01, Harry Portter, …)에 대해서 실험한 결과를 나타낸다.
한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.
101: 부호화기
102: 복호화기

Claims (20)

  1. 부호화기에서 수행되는 오디오 신호의 부호화 방법에 있어서,
    시간 도메인의 오디오 신호를 블록 단위로 식별하는 단계;
    i) 상기 오디오 신호의 현재 원본 블록과 ii) 상기 현재 원본 블록과 시간 순으로 인접한 이전 원본 블록을 결합함으로써 결합 블록을 생성하는 단계;
    시간 도메인의 선형 예측 코딩을 이용하여 상기 결합 블록으로부터 주파수 도메인의 제1 잔차 신호를 추출하는 단계;
    시간 도메인으로 변환된 상기 제1 잔차 신호들 중 시간순으로 인접한 제1 잔차 신호들을 오버랩하는 단계;
    주파수 도메인의 선형 예측 코딩을 이용하여 상기 오버랩된 제1 잔차 신호로부터 추출한 시간 도메인의 제2 잔차 신호를 주파수 도메인으로 변환하여 양자화하는 단계; 및
    상기 양자화된 시간 도메인의 선형 예측 계수, 상기 양자화된 주파수 도메인의 선형 예측 계수 및 상기 양자화된 제2 잔차 신호를 비트스트림으로 부호화하는 단계
    를 포함하는 부호화 방법.
  2. 제1항에 있어서,
    상기 오디오 신호의 결합 블록으로부터 추출한 시간 도메인의 선형 예측 계수를 양자화하는 단계; 및
    상기 시간 도메인의 선형 예측 계수를 역양자화하여 주파수 포락선을 생성하는 단계를 더 포함하고,
    상기 제1 잔차 신호를 추출하는 단계는, 상기 주파수 포락선에 기초하여 주파수 도메인으로 변환된 상기 결합 블록으로부터 제1 잔차 신호를 생성하고,
    상기 비트스트림으로 부호화하는 단계는, 양자화된 상기 시간 도메인의 선형 예측 계수를 추가로 비트스트림으로 부호화하는, 부호화 방법.
  3. 제1항에 있어서,
    주파수 도메인의 선형 예측 코딩을 이용하여 상기 오버랩된 제1 잔차 신호로부터 추출한 주파수 도메인의 선형 예측 계수를 양자화하는 단계;
    상기 주파수 도메인의 선형 예측 계수를 역양자화하여 시간 포락선을 생성하는 단계; 및
    상기 시간 포락선에 기초하여 상기 오버랩된 제1 잔차 신호로부터 시간 도메인의 제2 잔차 신호를 추출하는 단계를 더 포함하고,
    상기 비트스트림으로 부호화하는 단계는, 양자화된 상기 주파수 도메인의 선형 예측 계수를 추가로 비트스트림으로 부호화하는, 부호화 방법.
  4. 제3항에 있어서,
    상기 주파수 도메인의 선형 예측 계수를 양자화하는 단계는,
    상기 오버랩된 제1 잔차 신호를 힐베르트 변환(Hilbert Transform)하는 단계;
    상기 힐베르트 변환된 제1 잔차 신호와 상기 오버랩된 제1 잔차 신호를 주파수 도메인으로 변환하는 단계;
    선형 예측 코딩을 이용하여 상기 오버랩된 제1 잔차 신호와 상기 힐베르트 변환된 제1 잔차 신호에 대응하는 주파수 도메인의 선형 예측 계수를 추출하는 단계; 및
    상기 주파수 도메인의 선형 예측 계수를 양자화하는, 부호화 방법.
  5. 제3항에 있어서,
    상기 제2 잔차 신호를 추출하는 단계는,
    대칭 윈도잉(symmetric windowing)을 이용하여 시간 포락선으로부터 보간(interpolated)된 현재 포락선을 생성하는 단계; 및
    상기 현재 포락선에 기초하여 상기 오버랩된 제1 잔차 신호로부터 시간 도메인의 제2 잔차 신호를 추출하는 단계
    를 포함하는 부호화 방법.
  6. 제1항에 있어서,
    상기 제1 잔차 신호는, 시간순으로 인접한 두 개의 원본 블록에 대응하고,
    상기 제1 잔차 신호를 오버랩하는 단계는,
    시간순으로 인접하는 제1 잔차 신호들 중 특정 시간에 속하는 원본 블록에 대응하는 두 개의 제1 잔차 신호들을 오버랩하는, 부호화 방법.
  7. 제2항에 있어서,
    상기 주파수 포락선을 생성하는 단계는,
    상기 역양자화된 시간 도메인의 선형 예측 계수를 주파수 도메인으로 변환하는 단계;
    상기 변환된 시간 도메인의 선형 예측 계수를 서브 대역 별로 그룹화하는 단계; 및
    상기 그룹화된 시간 도메인의 선형 예측 계수들의 에너지를 계산함으로써 상기 결합 블록에 대응하는 주파수 포락선을 생성하는 단계
    를 포함하는 부호화 방법.
  8. 제1항에 있어서,
    상기 제2 잔차 신호를 양자화하는 단계는,
    상기 제2 잔차 신호를 서브 대역 별로 그룹화하고, 상기 그룹화된 잔차 신호 마다 양자화를 위한 스케일 팩터를 결정하는 단계; 및
    상기 스케일 팩터를 이용하여 상기 제2 잔차 신호를 양자화하는 단계
    를 포함하는 부호화 방법.
  9. 제8항에 있어서,
    상기 스케일 팩터를 결정하는 단계는,
    상기 제2 잔차 신호에 대응하는 주파수 포락선의 중간값으로 결정하거나, 상기 제2 잔차 신호의 양자화에 이용가능한 비트 수에 기초하여 결정하는, 부호화 방법.
  10. 복호화기에서 수행되는 오디오 신호의 복호화 방법에 있어서,
    부호화기로부터 수신한 비트스트림으로부터 양자화된 시간 도메인의 선형 예측 계수, 양자화된 주파수 도메인의 선형 예측 계수 및 양자화된 주파수 도메인의 제2 잔차 신호를 추출하는 단계;
    상기 시간 도메인의 선형 예측 계수를 역양자화하여 생성한 시간 포락선에 기초하여 시간 도메인으로 변환된 상기 제2 잔차 신호로부터 시간 도메인의 제1 잔차 신호를 생성하는 단계; 및
    상기 주파수 도메인의 선형 예측 계수를 역양자화하여 생성한 주파수 포락선에 기초하여 상기 주파수 도메인으로 변환된 상기 제1 잔차 신호로부터 오디오 신호의 결합 블록을 복원하는 단계
    를 포함하는 복호화 방법.
  11. 제10항에 있어서,
    시간순으로 인접하는 상기 복원된 결합 블록들에 포함된 원본 블록들 중 동일한 시점에 대응하는 원본 블록들을 오버랩하여 복원 블록을 생성하는 단계
    를 더 포함하는 복호화 방법.
  12. 제10항에 있어서,
    상기 제1 잔차 신호를 생성하는 단계는,
    대칭 윈도잉(symmetric windowing)을 이용하여 시간 포락선으로부터 보간(interpolated)된 현재 포락선을 생성하는 단계;
    상기 제2 잔차 신호를 역양자화하여 시간 도메인으로 변환하는 단계; 및
    상기 현재 포락선을 이용하여 상기 변환된 제2 잔차 신호로부터 상기 제1 잔차 신호를 생성하는 단계
    를 포함하는 복호화 방법.
  13. 오디오 신호의 부호화 방법을 수행하는 부호화기에 있어서,
    상기 부호화기는 프로세서를 포함하고,
    상기 프로세서는,
    시간 도메인의 오디오 신호를 블록 단위로 식별하고, i) 상기 오디오 신호의 현재 원본 블록과 ii) 상기 현재 원본 블록과 시간 순으로 인접한 이전 원본 블록을 결합함으로써 결합 블록을 생성하고, 시간 도메인의 선형 예측 코딩을 이용하여 상기 결합 블록으로부터 주파수 도메인의 제1 잔차 신호를 추출하고, 시간 도메인으로 변환된 상기 제1 잔차 신호들 중 시간순으로 인접한 제1 잔차 신호들을 오버랩하고, 주파수 도메인의 선형 예측 코딩을 이용하여 상기 오버랩된 제1 잔차 신호로부터 추출한 시간 도메인의 제2 잔차 신호를 주파수 도메인으로 변환하여 양자화하고, 상기 양자화된 시간 도메인의 선형 예측 계수, 상기 양자화된 주파수 도메인의 선형 예측 계수 및 상기 양자화된 제2 잔차 신호를 비트스트림으로 부호화하는,
    부호화기.
  14. 제13항에 있어서,
    상기 프로세서는,
    상기 오디오 신호의 결합 블록으로부터 추출한 시간 도메인의 선형 예측 계수를 양자화하고, 상기 시간 도메인의 선형 예측 계수를 역양자화하여 주파수 포락선을 생성하고, 상기 주파수 포락선에 기초하여 주파수 도메인으로 변환된 상기 결합 블록으로부터 제1 잔차 신호를 생성하고, 양자화된 상기 시간 도메인의 선형 예측 계수를 추가로 비트스트림으로 부호화하는, 부호화기.
  15. 제13항에 있어서,
    상기 프로세서는,
    주파수 도메인의 선형 예측 코딩을 이용하여 상기 오버랩된 제1 잔차 신호로부터 추출한 주파수 도메인의 선형 예측 계수를 양자화하고, 상기 주파수 도메인의 선형 예측 계수를 역양자화하여 시간 포락선을 생성하고, 상기 시간 포락선에 기초하여 상기 오버랩된 제1 잔차 신호로부터 시간 도메인의 제2 잔차 신호를 추출하고, 양자화된 상기 주파수 도메인의 선형 예측 계수를 추가로 비트스트림으로 부호화하는, 부호화기.
  16. 제15항에 있어서,
    상기 프로세서는,
    상기 오버랩된 제1 잔차 신호를 힐베르트 변환(Hilbert Transform)하고, 상기 힐베르트 변환된 제1 잔차 신호와 상기 오버랩된 제1 잔차 신호를 주파수 도메인으로 변환하고, 선형 예측 코딩을 이용하여 상기 오버랩된 제1 잔차 신호와 상기 힐베르트 변환된 제1 잔차 신호에 대응하는 주파수 도메인의 선형 예측 계수를 추출하고, 상기 주파수 도메인의 선형 예측 계수를 양자화하는, 부호화기.
  17. 제15항에 있어서,
    상기 프로세서는,
    대칭 윈도잉(symmetric windowing)을 이용하여 시간 포락선으로부터 보간(interpolated)된 현재 포락선을 생성하고, 상기 현재 포락선에 기초하여 상기 오버랩된 제1 잔차 신호로부터 시간 도메인의 제2 잔차 신호를 추출하는, 부호화기.
  18. 제13항에 있어서,
    상기 제1 잔차 신호는, 시간순으로 인접한 두 개의 원본 블록에 대응하고,
    상기 프로세서는,
    시간순으로 인접하는 제1 잔차 신호들 중 특정 시간에 속하는 원본 블록에 대응하는 두 개의 제1 잔차 신호들을 오버랩하는, 부호화기.
  19. 제14항에 있어서,
    상기 프로세서는,
    상기 역양자화된 시간 도메인의 선형 예측 계수를 주파수 도메인으로 변환하고, 상기 변환된 시간 도메인의 선형 예측 계수를 서브 대역 별로 그룹화하고, 상기 그룹화된 시간 도메인의 선형 예측 계수들의 에너지를 계산함으로써 상기 결합 블록에 대응하는 주파수 포락선을 생성하는, 부호화기.
  20. 오디오 신호의 복호화 방법을 수행하는 복호화기에 있어서,
    상기 복호화기는 프로세서를 포함하고,
    상기 프로세서는,
    부호화기로부터 수신한 비트스트림으로부터 양자화된 시간 도메인의 선형 예측 계수, 양자화된 주파수 도메인의 선형 예측 계수 및 양자화된 주파수 도메인의 제2 잔차 신호를 추출하고, 상기 시간 도메인의 선형 예측 계수를 역양자화하여 생성한 시간 포락선에 기초하여 시간 도메인으로 변환된 상기 제2 잔차 신호로부터 시간 도메인의 제1 잔차 신호를 생성하고, 상기 주파수 도메인의 선형 예측 계수를 역양자화하여 생성한 주파수 포락선에 기초하여 상기 주파수 도메인으로 변환된 상기 제1 잔차 신호로부터 오디오 신호의 결합 블록을 복원하는,
    복호화기.
KR1020200076467A 2020-06-23 2020-06-23 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기 KR20210158108A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200076467A KR20210158108A (ko) 2020-06-23 2020-06-23 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기
US17/331,416 US11580999B2 (en) 2020-06-23 2021-05-26 Method and apparatus for encoding and decoding audio signal to reduce quantization noise

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200076467A KR20210158108A (ko) 2020-06-23 2020-06-23 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기

Publications (1)

Publication Number Publication Date
KR20210158108A true KR20210158108A (ko) 2021-12-30

Family

ID=79022419

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200076467A KR20210158108A (ko) 2020-06-23 2020-06-23 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기

Country Status (2)

Country Link
US (1) US11580999B2 (ko)
KR (1) KR20210158108A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11682406B2 (en) * 2021-01-28 2023-06-20 Sony Interactive Entertainment LLC Level-of-detail audio codec

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101649376B1 (ko) * 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
KR101137652B1 (ko) 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
AU2010309838B2 (en) 2009-10-20 2014-05-08 Dolby International Ab Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
PL2491555T3 (pl) 2009-10-20 2014-08-29 Fraunhofer Ges Forschung Wielotrybowy kodek audio
US20130132100A1 (en) 2011-10-28 2013-05-23 Electronics And Telecommunications Research Institute Apparatus and method for codec signal in a communication system
TWI812658B (zh) * 2017-12-19 2023-08-21 瑞典商都比國際公司 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統
US10741192B2 (en) * 2018-05-07 2020-08-11 Qualcomm Incorporated Split-domain speech signal enhancement

Also Published As

Publication number Publication date
US11580999B2 (en) 2023-02-14
US20210398547A1 (en) 2021-12-23

Similar Documents

Publication Publication Date Title
ES2375192T3 (es) Codificación por transformación mejorada de habla y señales de audio.
EP2991075B1 (en) Speech coding method and speech coding apparatus
JP6144773B2 (ja) 時間雑音/パッチ整形を用いる符号化オーディオ信号の符号化および復号化装置および方法
KR100803205B1 (ko) 저비트율 오디오 신호 부호화/복호화 방법 및 장치
CA2853987C (en) Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
JP2010538314A (ja) 切り換え可能な時間分解能を用いた低演算量のスペクトル分析/合成
EP1852851A1 (en) An enhanced audio encoding/decoding device and method
EP2525355B1 (en) Audio encoding apparatus and audio encoding method
KR20080044707A (ko) 오디오/스피치 신호 부호화 및 복호화 방법 및 장치
US10783892B2 (en) Audio encoding apparatus and method, and audio decoding apparatus and method
JP2019074755A (ja) 独立したノイズ充填を用いた強化された信号を生成するための装置および方法
KR20210158108A (ko) 양자화 잡음을 줄이는 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기
KR100911994B1 (ko) Hht를 이용한 음성 및 오디오 신호의 부호화/복호화장치 및 방법
KR20210133554A (ko) 선형 예측 코딩을 이용한 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기
KR20220009563A (ko) 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기
KR20220066749A (ko) 잔차 신호의 생성 방법과 그 방법을 수행하는 부호화기 및 복호화기
KR20220005379A (ko) 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법
EP3335216B1 (en) Method and apparatus for sinusoidal encoding and decoding
KR20230018838A (ko) 벡터 양자화된 잔여오차 특징을 사용한 오디오 부호화/복호화 장치 및 그 방법
KR20240066586A (ko) 복소수 양자화를 이용하는 오디오 신호의 부호화 및 복호화 방법 및 장치
Nagisetty et al. Super-wideband fine spectrum quantization for low-rate high-quality MDCT coding mode of the 3GPP EVS codec
KR20210086394A (ko) 오디오 신호의 부호화 및 복호화 방법 및 장치
Reyes et al. A new perceptual entropy-based method to achieve a signal adapted wavelet tree in a low bit rate perceptual audio coder