KR101847213B1 - 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치 - Google Patents

쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치 Download PDF

Info

Publication number
KR101847213B1
KR101847213B1 KR1020110097636A KR20110097636A KR101847213B1 KR 101847213 B1 KR101847213 B1 KR 101847213B1 KR 1020110097636 A KR1020110097636 A KR 1020110097636A KR 20110097636 A KR20110097636 A KR 20110097636A KR 101847213 B1 KR101847213 B1 KR 101847213B1
Authority
KR
South Korea
Prior art keywords
codebook
fixed codebook
frame data
audio signal
shaping
Prior art date
Application number
KR1020110097636A
Other languages
English (en)
Other versions
KR20120032443A (ko
Inventor
이미숙
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to PCT/KR2011/007147 priority Critical patent/WO2012044066A1/ko
Priority to US13/876,691 priority patent/US20130191134A1/en
Publication of KR20120032443A publication Critical patent/KR20120032443A/ko
Application granted granted Critical
Publication of KR101847213B1 publication Critical patent/KR101847213B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 쉐이핑 함수를 이용한 오디오 신호의 디코딩 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 따른 오디오 신호를 디코딩하는 방법은, 오디오 신호의 프레임 데이터를 입력받는 단계, 랜덤 함수를 이용하여 프레임 데이터의 고정 코드북을 복원하는 단계, 프레임 데이터의 적응 코드북을 이용하여 쉐이핑 함수를 계산하는 단계, 쉐이핑 함수를 이용하여 복원된 고정 코드북을 쉐이핑하는 단계 및 쉐이핑된 고정 코드북 및 적응 코드북을 이용하여, 프레임 데이터로부터 오디오 신호를 합성하는 단계를 포함한다. 본 발명에 의하면 프레임 데이터 손실이 발생했을 경우, 적응 코드북을 기반으로 계산된 쉐이핑 함수를 이용하여 고정 코드북을 복원함으로써, 피치 주기를 강조하고 피치 주기 사이의 고정 코드북 영향을 줄여 합성된 신호의 품질 저하를 줄일 수 있는 효과가 있다.

Description

쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치{METHOD AND APPARATUS FOR DECODING AUDIO SIGNAL USING SHAPING FUNCTION}
본 발명은 오디오 신호를 디코딩하는 방법 및 장치에 관한 것으로, 보다 상세하게는 쉐이핑 함수를 이용한 오디오 신호의 디코딩 방법 및 장치에 관한 것이다.
음성(오디오) 통화를 위한 음성(오디오) 신호를 통신망으로 전송하기 위해서, 디지털 신호로 변환된 오디오 신호를 압축하는 인코더와 인코딩된 데이터로부터 오디오 신호를 복원하는 디코더가 사용된다. 가장 널리 사용되는 음성 코덱(인코더와 디코더) 기술 중 하나는 CELP(Code Excited Linear Prediction)이다. CELP 코덱은 성도를 모델링하는 합성 필터와 이 합성 필터의 입력 신호로 오디오 신호를 표현한다.
대표적인 CELP 코덱으로는 G.729와 AMR(Adaptive Multi-Rate)코덱이 있다. 이들 코덱의 인코더는 10 또는 20 msec에 해당하는 한 프레임의 입력 신호로부터 합성 필터의 계수를 추출하고, 이 프레임을 다시 5 msec의 서브프레임으로 나누어 적응 코드북의 피치 인덱스와 이득, 그리고 고정 코드북의 펄스 인덱스와 이득을 구한다. 또한 디코더는 적응 코드북의 피치 인덱스와 이득, 고정 코드북의 펄스 인덱스와 이득을 이용하여 여기 신호를 만들고, 이 여기 신호를 합성 필터로 필터링함으로써 오디오 신호를 복원한다.
인코더에서 출력되는 프레임 데이터를 전송하는 과정에서, 통신망의 상태에 따라 프레임 손실이 발생할 수 있다. 이러한 프레임 손실로 인한 합성 신호의 품질 저하를 줄이기 위해, 프레임 손실 은닉 알고리즘이 사용된다. CELP 코덱의 프레임 손실 은닉 알고리즘에서는 일반적으로 프레임 손실이 발생한 프레임 이전의 정상 프레임 데이터, 랜덤함수 그리고 스케일링 값을 이용하여 손실된 프레임을 복원한다.
본 발명은 프레임 데이터 손실이 발생했을 경우, 적응 코드북을 기반으로 계산된 쉐이핑 함수를 이용하여 고정 코드북을 복원함으로써, 피치 주기를 강조하고, 피치 주기 사이의 고정 코드북 영향을 줄임으로써 합성된 신호의 품질 저하를 줄일 수 있는 오디오 신호 디코딩 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
이러한 목적을 달성하기 위한 본 발명은 오디오 신호를 디코딩하는 방법에 있어서, 오디오 신호의 프레임 데이터를 입력받는 단계, 랜덤 함수를 이용하여 프레임 데이터의 고정 코드북을 복원하는 단계, 프레임 데이터의 적응 코드북을 이용하여 쉐이핑 함수를 계산하는 단계, 쉐이핑 함수를 이용하여 복원된 고정 코드북을 쉐이핑하는 단계 및 쉐이핑된 고정 코드북 및 적응 코드북을 이용하여, 프레임 데이터로부터 오디오 신호를 합성하는 단계를 포함하는 것을 일 특징으로 한다.
또한 본 발명은 오디오 신호를 디코딩하는 장치에 있어서, 오디오 신호의 프레임 데이터를 입력받는 입력부, 랜덤 함수를 이용하여 프레임 데이터의 고정 코드북을 복원하는 고정 코드북 복원부, 프레임 데이터의 적응 코드북을 이용하여 쉐이핑 함수를 계산하고, 쉐이핑 함수를 이용하여 복원된 고정 코드북을 쉐이핑하는 쉐이핑부 및 쉐이핑된 고정 코드북 및 적응 코드북을 이용하여, 프레임 데이터로부터 오디오 신호를 합성하는 오디오 신호 합성부를 포함하는 것을 다른 특징으로 한다.
전술한 바와 같은 본 발명에 의하면, 프레임 데이터 손실이 발생했을 경우, 적응 코드북을 기반으로 계산된 쉐이핑 함수를 이용하여 고정 코드북을 복원함으로써, 피치 주기를 강조하고 피치 주기 사이의 고정 코드북 영향을 줄여 합성된 신호의 품질 저하를 줄일 수 있는 효과가 있다.
도 1은 CELP 인코더의 구성을 나타내는 구성도.
도 2는 CELP 디코더의 구성을 나타내는 구성도.
도 3은 정상적으로 수신된 유성음 신호 프레임의 적응 코드북 그래프.
도 4는 정상적으로 수신된 유성음 신호 프레임의 고정 코드북 그래프.
도 5는 프레임 손실이 발생했을 때, 기존 알고리즘에 의해 복원된 고정 코드북 그래프.
도 6은 프레임 손실이 발생했을 때, 본 발명에 의한 오디오 신호의 디코딩 방법에 의해 계산된 고정 코드북의 그래프.
도 7은 CELP 디코더에 의한 오디오 신호의 디코딩 방법의 흐름도.
도 8은 본 발명의 일 실시예에 의한 디코딩 알고리즘의 흐름도.
도 9는 본 발명의 일 실시예에 의한 오디오 신호 디코딩 장치의 구성도.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.
도 1은 CELP 인코더의 구성을 나타내는 구성도이다.
전처리 필터(102)는 입력 신호를 스케일링하고, 고대역 통과 필터링을 수행한다. 이 때 입력 신호는 10msec 또는 20msec의 길이를 가질 수 있으며, 복수의 서브프레임으로 구성된다. 이 때 서브프레임은 일반적으로 5msec의 길이를 갖는다.
LPC 획득부(104)는 전처리된 입력 신호로부터, 합성 필터의 계수에 해당하는 선형 예측 계수(Linear Prediction Coefficient: LPC)를 추출한다. 그리고 나서 LPC 획득부(104)는 추출된 LPC를 양자화하고, 이전 프레임의 LPC와 인터폴레이션하여 각 서브프레임의 합성 필터 계수를 획득한다.
피치 분석부(106)는 서브프레임 단위로 입력 신호의 피치를 분석하여 적응 코드북의 피치 인덱스와 이득을 획득한다. 획득된 피치 인덱스는 적응 코드북 모듈(112)에서 적응 코드북 값을 재생하는데 사용된다. 그리고 고정 코드북 검색부(108)는 서브프레임 단위로 입력 신호의 고정 코드북을 검색하여 고정 코드북의 펄스 인덱스와 이득을 획득한다. 획득된 펄스 인덱스는 고정 코드북 모듈(110)에서 고정 코드북 값을 재생하는데 사용된다. 적응 코드북 이득과 고정 코드북 이득은 이득 양자화부(122)에 의해 양자화된다.
펄스 인덱스에 의해 재생된 고정 코드북 모듈(110)의 출력은 양자화된 고정 코드북 이득과 곱해진다(114). 그리고 피치 인덱스에 의해 재생된 적응 코드북 모듈(112)의 출력은 양자화된 적응 코드북 이득과 곱해진다(116). 이렇게 이득이 곱해진 적응 코드북 값과 고정 코드북 값이 더해져서 여기 신호가 생성된다.
생성된 여기 신호는 합성 필터(118)로 입력된다. 이후, 전처리부(102)에서 전처리된 입력 신호와 합성 필터(118)의 출력 신호의 오차를 사람의 청각적 특성을 반영한 인지 가중 필터(120)로 필터링한 후, 이 오차 신호가 가장 작아지는 피치 인덱스와 양자화된 이득, 그리고 펄스 인덱스와 양자화된 이득을 구하여 파라미터 인코딩부(124)로 전달한다. 파라미터 인코딩부(124)에서는 적응 코드북의 피치 인덱스, 고정 코드북의 펄스 인덱스, 그리고 이득 양자화부(122)의 출력 및 LPC 파라미터를 전송에 적합한 형태로 인코딩하여 프레임 데이터를 출력한다. 출력된 프레임 데이터는 네트워크 등을 통해 디코더로 전송된다.
도 2는 CELP 디코더의 구성을 나타내는 구성도이다.
디코더는 인코더로부터 전송된 펄스 인덱스와 피치 인덱스를 통해 각각 고정 코드북(202)과 적응 코드북(204)을 복원한다. 그리고 나서, 고정 코드북(202)의 출력에 고정 코드북 이득이 곱해지고(206), 적응 코드북(204)의 출력에 적응 코드북 이득이 곱해진다(208). 이렇게 이득이 곱해진 적응 코드북 값과 고정 코드북 값이 더해져서 여기 신호가 복원된다. 복원된 여기 신호는 인코더로부터 전송된 LPC 계수를 인터폴레이션해서 만든 계수로 이루어진 합성 필터(210)에서 필터링된다. 합성 필터(205)의 출력은 후처리부(212)에서 후처리되어 오디오 신호가 복원된다.
한편, 도 1의 인코더를 통해 출력된 프레임 데이터가 도 2의 디코더로 전송되는 과정에서, 네트워크의 상태에 따라 프레임 데이터의 손실이 발생할 수 있다. 이러한 프레임 데이터 손실은 결과적으로 디코더에서 합성된 오디오 신호의 품질 저하로 이어진다. 이러한 오디오 신호의 품질 저하를 줄이기 위해, 대부분의 코덱에는 프레임 손실 은닉 알고리즘이 내장되어 있다.
예를 들어, 인코더의 프레임 데이터 전송 중 N-1번째 프레임 데이터는 정상적으로 수신되고, N번째 프레임 데이터가 손실되었을 때, 기존의 알고리즘에 따르면 다음과 같이 프레임 손실을 처리한다. 먼저 N-1번째 프레임의 합성필터 계수를 이용하여 N번째 프레임의 합성필터 계수를 복원한다. 그리고 적응 코드북의 피치 인덱스는 N-1번째 프레임의 마지막 서브프레임의 피치 인덱스를 그대로 사용하거나, 이전 서브프레임들의 피치 인덱스를 이용하여 복원한다. 또한 적응 코드북과 고정 코드북의 이득은 이전 서브프레임들의 이득을 바탕으로 구한 후 스케일링하여 사용한다. 그리고 고정 코드북은 펄스 인덱스 대신 랜덤 함수를 이용하여 복원한다. 이렇게 복원된 데이터를 이용하여 손실된 프레임의 오디오 신호를 합성한다.
합성 필터로 입력되는 여기 신호 중에서, 적응 코드북은 주기적인 성분인 피치를 모델링하고, 고정 코드북은 피치 성분이 제거된 나머지 신호를 모델링한다. 그런데, 유성음의 경우에는 고정 코드북에 어느 정도의 피치 성분이 남게 된다. 도 3은 정상적으로 수신된 유성음 신호 프레임의 적응 코드북 그래프를 나타내고, 도 4는 정상적으로 수신된 유성음 신호 프레임의 고정 코드북 그래프를 나타낸다. 도 4를 참조하면, 고정 코드북에도 피치 주기 성분이 어느 정도 남아 있음을 알 수 있다.
도 5는 프레임 손실이 발생했을 때, 기존 알고리즘에 의해 복원된 고정 코드북 그래프를 나타낸다. 도 5를 참조하면, 기존 알고리즘에 의해 복원된 고정 코드북에는 피치 주기 성분이 남아 있지 않음을 알 수 있다.
본 발명은 프레임 손실 은닉 알고리즘의 성능 향상을 위해, 랜덤 함수를 이용하여 복원된 고정 코드북을 쉐이핑(shaping)한다. 본 발명은 특히 유성음 구간의 프레임 손실에 대해 보다 효과적이다.
도 6은 본 발명에 의한 오디오 신호의 디코딩 방법에 의해 계산된 고정 코드북의 그래프이다. 도 4에 나타나 있는 정상적으로 수신된 프레임 데이터의 고정 코드북과, 도 5의 기존 알고리즘으로 복원한 고정 코드북, 그리고 본 발명에 의해 복원한 고정 코드북의 그래프인 도 6을 비교해보면, 기존 알고리즘에 의해 복원된 고정 코드북보다 본 발명에 의해 복원된 고정 코드북이 원래의 고정 코드북에 더 근접한 모양을 갖는 것을 알 수 있다.
도 7은 CELP 디코더에 의한 오디오 신호 디코딩 방법의 흐름도이다.
먼저 인코더에 의해 생성된 프레임 데이터를 입력받아 프레임 데이터가 정상인지 여부를 판단한다(701). 만약 입력된 프레임 데이터가 정상이면, 도 2를 통해 설명한 바와 같이 피치 인덱스를 디코딩한 후(702), 이 피치 인덱스를 이용하여 적응 코드북을 하며(703), 고정 코드북을 복원한다(704). 그리고 각 코드북의 이득을 디코딩한 후(705), 이 값들을 이용하여 여기 신호를 합성한다(706). 그리고 여기 신호를 합성필터로 필터링하여(707) 오디오 신호를 재생한다.
만약 단계 701에서, 입력된 프레임 데이터가 비정상 프레임이라면, 먼저 이전 정상 프레임 피치 인덱스로부터 손실된 프레임의 피치 인덱스를 복원하고(708), 이를 이용하여 적응 코드북 값을 복원한다(709). 그리고 랜덤 함수를 이용하여 고정 코드북 값을 복원한다(710). 그리고 이전 정상 프레임의 코드북 이득 값을 이용하여 적응 코드북과 고정 코드북의 이득을 복원한다(711). 이후에는 정상 프레임 디코딩과 마찬가지로, 복원된 코드북 값과 이득을 이용하여 여기 신호를 합성하고, 합성된 여기 신호를 합성 필터로 필터링하여 오디오 신호를 출력한다. 비정상 프레임의 경우, 합성 필터의 계수 또한 이전 정상 프레임의 필터 계수를 이용하여 복원된다.
도 8은 본 발명의 일 실시예에 의한 디코딩 알고리즘의 흐름도이다.
단계 801에서, 입력된 프레임 데이터가 비정상 또는 손실된 데이터라면, 피치를 복원하고(802) 복원된 피치를 이용하여 적응 코드북을 복원한다(804). 그리고 랜덤 함수를 생성하고, 생성된 랜덤 함수를 이용하여 고정 코드북을 복원한다(804). 이 때 고정 코드북 복원(804)은 서브프레임 단위로 이루어질 수 있다. 이렇게 복원된 고정 코드북은 도 5와 같은 모양을 가질 수 있다.
다음으로, 적응 코드북을 이용하여 쉐이핑 함수를 계산한다(805). 이 때 쉐이핑 함수 계산(805)은 서브프레임 단위로 이루어질 수 있다. 본 발명의 다른 실시예에서는, 해당 프레임의 적응 코드북에서 최대 값을 찾고, 이 최대 값을 이용하여 해당 서브프레임의 적응 코드북을 노멀라이징(normalizing)하여 쉐이핑 함수를 계산할 수 있다. 또한 본 발명의 다른 실시예에서는, 계산된 쉐이핑 함수값을 미리 정해진 기준값과 비교하고, 비교 결과 쉐이핑 함수값이 기준값보다 작은 경우 해당 함수값을 0으로 설정할 수 있다. 이렇게 함수값을 0으로 설정하는 것은 고정 코드북의 펄스 수를 조정하기 위해서이다.
그리고 나서, 계산된 쉐이핑 함수를 이용하여, 복원된 고정 코드북을 쉐이핑한다(806). 본 발명의 다른 실시예에서, 쉐이핑 함수를 이용한 고정 코드북의 쉐이핑(806)은 안정적인 유성음 구간에서만 수행될 수 있다.
이후, 적응 코드북과 고정 코드북 이득을 복원하고(807), 여기 신호를 합성한다(808). 그리고 합성 필터를 통해 오디오 신호를 출력한다(809).
도 7과 도 8을 통해 알 수 있듯이, 본 발명은 프레임 손실이 발생하였을 경우, 랜덤 함수에 의해 복원된 고정 코드북에 피치 쉐이핑 함수를 적용하여 주기성을 강조하고, 랜덤 함수를 고정 코드북으로 사용함으로써 발생할 수 있는 잡음을 줄일 수 있다.
도 9는 본 발명의 일 실시예에 의한 오디오 신호 디코딩 장치의 구성도이다.
본 발명의 일 실시예에 의한 오디오 신호 디코딩 장치(902)는 고정 코드북 복원부(904), 적응 코드북 복원부(906), 쉐이핑부(908)를 포함한다. 또한 도 9에는 도시되지 않았으나, 오디오 신호 디코딩 장치(902)는 오디오 신호의 프레임 데이터를 입력받고, 입력된 프레임 데이터가 정상 데이터인지 여부를 판단하는 입력부를 더 포함할 수 있다.
고정 코드북 복원부(904)는 랜덤 함수를 이용하여 고정 코드북을 복원한다. 이 때 고정 코드북 복원은 서브프레임 단위로 이루어질 수 있다. 이렇게 복원된 고정 코드북은 도 5와 같은 모양을 가질 수 있다. 그리고 적응 코드북 복원부(906)는 오디오 신호 합성을 위한 적응 코드북을 복원한다.
쉐이핑부(908)는 적응 코드북 복원부(906)를 통해 복원된 적응 코드북을 이용하여 쉐이핑 함수를 계산한다. 이 때 쉐이핑 함수 계산은 서브프레임 단위로 이루어질 수 있다. 본 발명의 다른 실시예에서, 쉐이핑부(908)는 해당 서브프레임의 적응 코드북에서 최대값을 획득하고, 이 최대값을 이용하여 해당 서브프레임의 적응 코드북을 노멀라이징(normalizing)하여 쉐이핑 함수를 계산할 수 있다. 또한 본 발명의 다른 실시예에서, 쉐이핑부(908)는 계산된 쉐이핑 함수값을 미리 정해진 기준값과 비교하고, 비교 결과 쉐이핑 함수값이 기준값보다 작은 경우 해당 함수값을 0으로 설정할 수 있다. 이렇게 함수값을 0으로 설정하는 것은 고정 코드북의 펄스 수를 조정하기 위해서이다.
다음으로, 쉐이핑부(908)는 계산된 쉐이핑 함수를 이용하여, 복원된 고정 코드북을 쉐이핑한다. 본 발명의 다른 실시예에서, 쉐이핑부(908)는 안정적인 유성음 구간에서만 쉐이핑을 수행할 수 있다.
적응 코드북 복원부(906)를 통해 복원된 적응 코드북과, 쉐이핑부(908)를 통해 출력된 고정 코드북은 이후 도 2와 같은 디코딩 모듈에서 오디오 신호를 합성하는데 이용될 수 있다. 도 9에는 도시되지 않았으나, 오디오 신호 디코딩 장치(902)는 적응 코드북 복원부(906)를 통해 복원된 적응 코드북과, 쉐이핑부(908)를 통해 출력된 고정 코드북을 이용하여 오디오 신호를 합성하는 오디오 신호 합성부를 더 포함할 수 있다.
이와 같이 본 발명에서는 랜덤함수로 복원한 고정 코드북에 쉐이핑 함수를 이용한 쉐이핑을 적용한다. 이에 따라 고정 코드북에 피치 성분을 부여함으로써, 손실된 프레임 데이터로부터 합성된 오디오 신호의 품질을 향상시킬 수 있다. 다시 말해서, 본 발명은 프레임 데이터 손실이 발생했을 경우, 적응 코드북을 기반으로 계산된 쉐이핑 함수를 이용하여 고정 코드북을 복원함으로써, 피치 주기를 강조하고 피치 주기 사이의 고정 코드북 영향을 줄여 합성된 신호의 품질 저하를 줄일 수 있는 효과가 있다.
전술한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims (10)

  1. 오디오 신호를 디코딩하는 방법에 있어서,
    상기 오디오 신호의 프레임 데이터를 입력받는 단계;
    상기 입력된 오디오 신호의 프레임 데이터가 손실되었는지 여부를 판단하는 단계;
    상기 입력된 오디오 신호의 프레임 데이터가 손실된 경우, (ㄱ) 내지 (ㅂ) 단계를 수행하는 단계;
    (ㄱ) 손실된 프레임 데이터의 피치 인덱스를 복원하는 단계;
    (ㄴ) 상기 피치 인덱스를 이용하여 적응 코드북을 복원하는 단계;
    (ㄷ) 랜덤 함수를 이용하여 상기 프레임 데이터의 고정 코드북을 복원하는 단계;
    (ㄹ) 상기 프레임 데이터의 적응 코드북을 이용하여 쉐이핑 함수를 계산하는 단계;
    (ㅁ) 상기 쉐이핑 함수를 이용하여 상기 복원된 고정 코드북을 쉐이핑하는 단계; 및
    (ㅂ) 상기 쉐이핑된 고정 코드북의 이득과 및 상기 적응 코드북의 이득을 복원하는 단계;
    (ㅅ) 상기 복원된 고정 코드북의 이득과 적응 코드북의 이득을 이용하여 여기 신호를 합성하는 단계;
    (ㅇ) 상기 합성된 여기 신호를 합성 필터로 필터링하는 단계
    상기 입력된 오디오 신호의 프레임 데이터가 손실되지 않은 경우, (ㅈ) 내지 (ㅍ) 단계를 수행하는 단계;
    (ㅈ) 프레임 데이터의 피치 인덱스를 디코딩하는 단계;
    (ㅊ) 상기 디코딩된 피치 인덱스를 이용하여 적응 코드북 및 고정 코드북을 복원하는 단계;
    (ㅋ) 상기 적응 코드북의 이득과 상기 고정 코드북의 이득을 디코딩하는 단계;
    (ㅌ) 상기 디코딩된 적응 코드북의 이득과 상기 고정 코드북의 이득을 이용하여 여기 신호를 합성하는 단계
    (ㅍ) 상기 합성된 여기 신호를 합성 필터로 필터링하는 단계
    를 포함하고,
    (ㅇ) 단계 또는 (ㅍ) 단계의 수행 결과를 이용하여 상기 오디오 신호를 합성하는 단계
    를 포함하고,
    상기 적응 코드북은,
    상기 합성 필터로 입력되는 여기 신호 중에서, 주기적인 성분인 피치를 모델링하고,
    상기 고정 코드북은,
    상기 여기 신호 중에서 피치가 제거된 나머지를 모델링하는 오디오 신호의 디코딩 방법.
  2. 제1항에 있어서,
    상기 고정 코드북을 복원하는 단계는
    상기 프레임 데이터의 서브프레임 단위로 상기 고정 코드북을 복원하는 단계를
    포함하는 오디오 신호의 디코딩 방법.
  3. 제1항에 있어서,
    상기 쉐이핑 함수를 계산하는 단계는
    상기 프레임 데이터의 서브프레임의 적응 코드북의 최대값을 획득하는 단계;
    상기 최대값을 이용하여 상기 서브프레임의 적응 코드북을 노말라이징하는 단계; 및
    상기 노말라이징된 적응 코드북을 이용하여 상기 쉐이핑 함수를 계산하는 단계를
    포함하는 오디오 신호의 디코딩 방법.
  4. 제1항에 있어서,
    상기 쉐이핑 함수를 계산하는 단계는
    상기 쉐이핑 함수를 계산하는 과정을 통해 획득된 함수값을 미리 정해진 기준값과 비교하는 단계; 및
    상기 함수값과 기준값의 비교 결과에 따라 상기 함수값이 상기 기준값보다 작으면 상기 함수값을 0으로 설정하는 단계를
    포함하는 오디오 신호의 디코딩 방법.
  5. 제1항에 있어서,
    상기 복원된 고정 코드북을 쉐이핑하는 단계는
    상기 오디오 신호의 유성음 구간에 대해서만 상기 복원된 고정 코드북을 쉐이핑하는 단계
    를 포함하는 오디오 신호의 디코딩 방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
KR1020110097636A 2010-09-28 2011-09-27 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치 KR101847213B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2011/007147 WO2012044066A1 (ko) 2010-09-28 2011-09-28 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치
US13/876,691 US20130191134A1 (en) 2010-09-28 2011-09-28 Method and apparatus for decoding an audio signal using a shaping function

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20100093921 2010-09-28
KR1020100093921 2010-09-28

Publications (2)

Publication Number Publication Date
KR20120032443A KR20120032443A (ko) 2012-04-05
KR101847213B1 true KR101847213B1 (ko) 2018-04-11

Family

ID=46135535

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110097636A KR101847213B1 (ko) 2010-09-28 2011-09-27 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치

Country Status (2)

Country Link
US (1) US20130191134A1 (ko)
KR (1) KR101847213B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102601194B1 (ko) 2021-09-29 2023-11-13 한국전자통신연구원 오디오 신호의 저복잡도 피치 시프팅 장치 및 그 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
KR100346729B1 (ko) * 1995-11-29 2002-12-26 삼성전자 주식회사 코드여기선형예측부호화의잡음코드북작성방법
US6449313B1 (en) * 1999-04-28 2002-09-10 Lucent Technologies Inc. Shaped fixed codebook search for celp speech coding
US6775649B1 (en) * 1999-09-01 2004-08-10 Texas Instruments Incorporated Concealment of frame erasures for speech transmission and storage system and method
US7324937B2 (en) * 2003-10-24 2008-01-29 Broadcom Corporation Method for packet loss and/or frame erasure concealment in a voice communication system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ITU-T Recommendation G.729. Coding of Speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear-prediction (CS-ACELP). ITU-T. 1996.03.

Also Published As

Publication number Publication date
KR20120032443A (ko) 2012-04-05
US20130191134A1 (en) 2013-07-25

Similar Documents

Publication Publication Date Title
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
EP1899962B1 (en) Audio codec post-filter
JP5203929B2 (ja) スペクトルエンベロープ表示のベクトル量子化方法及び装置
JP5607365B2 (ja) フレームエラー隠匿方法
US10431233B2 (en) Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
JP3483958B2 (ja) 広帯域音声復元装置及び広帯域音声復元方法及び音声伝送システム及び音声伝送方法
JPH0353300A (ja) 音声符号化装置
RU2644123C2 (ru) Принцип для кодирования аудиосигнала и декодирования аудиосигнала с использованием детерминированной и шумоподобной информации
CN115171709B (zh) 语音编码、解码方法、装置、计算机设备和存储介质
KR100651712B1 (ko) 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법
JP6644848B2 (ja) ベクトル量子化装置、音声符号化装置、ベクトル量子化方法、及び音声符号化方法
KR101847213B1 (ko) 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치
US9087510B2 (en) Method and apparatus for decoding speech signal using adaptive codebook update
KR20100006491A (ko) 무성음 부호화 및 복호화 방법 및 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant