KR100788706B1 - 광대역 음성 신호의 부호화/복호화 방법 - Google Patents

광대역 음성 신호의 부호화/복호화 방법 Download PDF

Info

Publication number
KR100788706B1
KR100788706B1 KR1020060118546A KR20060118546A KR100788706B1 KR 100788706 B1 KR100788706 B1 KR 100788706B1 KR 1020060118546 A KR1020060118546 A KR 1020060118546A KR 20060118546 A KR20060118546 A KR 20060118546A KR 100788706 B1 KR100788706 B1 KR 100788706B1
Authority
KR
South Korea
Prior art keywords
phase
linear prediction
signal
frequency
damping element
Prior art date
Application number
KR1020060118546A
Other languages
English (en)
Inventor
이인성
김종학
정규혁
서상원
Original Assignee
삼성전자주식회사
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 충북대학교 산학협력단 filed Critical 삼성전자주식회사
Priority to KR1020060118546A priority Critical patent/KR100788706B1/ko
Priority to US11/838,268 priority patent/US8271270B2/en
Priority to PCT/KR2007/005768 priority patent/WO2008066268A1/en
Priority to CN2007800440207A priority patent/CN101542599B/zh
Application granted granted Critical
Publication of KR100788706B1 publication Critical patent/KR100788706B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Abstract

광대역 음성 신호의 부호화/복호화 방법이 개시된다. 본 발명에 따르면, 광대역 음성 신호로부터 선형 예측 계수를 추출하는 단계; 상기 선형 예측 계수를 이용하여 상기 음성 신호로부터 포락선이 제거된 선형 예측 잔여 신호를 출력하는 단계; 상기 선형 예측 잔여 신호의 스펙트럼을 피치 검색하는 단계; 매칭 퍼슈잇(Matching Pursuit) 알고리즘에 댐핑 요소(damping factor)를 첨가하여, 상기 댐핑 요소에 해당하는 선형 예측 잔여 신호의 스펙트럼의 크기와 위상을 추출하는 단계; 추출된 스펙트럼 크기와 위상 중에서 선형 예측 잔여 신호의 파워값이 가장 작은 경우의 제1 스펙트럼 크기와 제1 위상을 구하는 단계; 상기 제1 스펙트럼 크기와 상기 제1 위상을 양자화 시키는 단계; 및 상기 광대역 음성 신호를 복호화시키는 단계를 포함함으로써, 기존의 정현파 모델에서 발생하는 프레임간 불연속 및 음성 파형의 왜곡 문제를 해결하고, 양자화 에러를 최소화 함으로써 높은 음질 및 낮은 복잡도의 성능에 장점이 있다. 그리고 SNR 확장 기능을 제공함으로써 주어진 채널 환경에서 최적의 통신이 가능하도록 하는 효과가 있다.

Description

광대역 음성 신호의 부호화/복호화 방법{Method for encoding and decoding of broadband voice signal}
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 실시예에 따른 광대역 음성 부호화 및 복호화 시스템의 구성을 나타내는 도면이다.
도 2는 본 발명의 실시예에 따른 정현파 분석기(140)의 구성을 나타내는 도면이다.
도 3a 내지 도 3b는 본 발명의 실시예에 따른 정현파 크기/위상 탐색부(143)에서 첫번째 로테이션을 수행했을 때의, 신호의 파형 및 크기를 나타낸 도면이다.
도 4a 내지 도 4b는 본 발명의 실시예에 따른 정현파 크기/위상 탐색부(143)에서 두번째 로테이션을 수행했을 때의, 신호의 파형 및 크기를 나타낸 도면이다.
도 5a및 도 5b는 각각 본 발명의 실시예에 따른 스펙트럼 크기 양자화기(160a)의 부호화단과 복호화단을 나타내는 도면이다.
도 6은 본 발명의 실시예에 따른 위상 양자화기(160b)의 구성을 나타내는 도면이다.
본 발명은 광대역 음성 신호의 부호화/복호화 방법에 관한 것으로, 더욱 상세하게는 Damping 요소를 첨가한 매칭 퍼슈잇 정현파 모델을 이용하여 광대역 음성을 부호화/복호화하는 장치에 관한 것이다.
최근 음성 통신의 응용 분야가 다양해지고 네트워크의 전송속도가 향상됨으로 인해 고품질의 음성 통신에 대한 필요성이 크게 부각되고 있다. 이와 같은 고품질에 대한 요구를 만족하기 위하여 기존의 전화 대역인 300-3400Hz에 비해 자연성과 명료성 등 다양한 측면에서 우수한 성능을 보이는 50-7000Hz의 대역폭을 가지는 광대역 음성 신호의 전달이 필요하고, 이러한 대역의 음성 신호를 효과적으로 압축하기 위한 새로운 광대역 음성 압축기의 개발이 필요하다.
특히, 디지털 통신은 데이터와의 통합을 위하여 패킷 스위칭 방식을 사용한다. 이 방식은 채널의 정체 현상을 초래할 수 있으며, 이로 인한 패킷 손실과 음질 저하가 발생할 수 있다. 이를 해결하기 위하여 손상된 패킷을 은닉하는 기술도 사용이 되지만 이는 근본적인 해결이 될 수 없다. 그래서 최근의 음성 압축기는 확장 기능을 이용하여 트래픽을 줄여서 이를 해결하는 것을 시도하고 있다.
이때, 확장 기능이란 음성 데이터를 패킷화 할 때, 여러 계층으로 구성한 후, 정체 현상의 정도에 따라 전달하는 계층의 양을 조절하여 주어진 채널 환경에서 최적의 통신이 가능하도록 하는 것을 의미한다. 이 기능은 패킷 네트워크를 통한 음성 통신에서 필수적인 것이며, 네트워크 상황에 따라 최적의 통신을 제공할 수 있다. 더욱이 비트율이 서로 다른 채널을 통해 음성 패킷을 전달할 경우, 확장 기능이 제공된다면 더블 코딩(double coding)을 사용하지 않고 전송 계층을 조절하여 전달하는 tandem-free 통신이 가능하게 된다.
따라서, 확장 기능을 갖는 음성 부호화/복호화에 관한 연구가 진행 중이며, 보다 상세하게는 16비트 선형 pulse code modulation(이하 "PCM"이라함) 형식의 음성 신호를 정현파 합성 모델을 이용하여 부호화/복호화 하도록 한다. 정현파 모델은 낮은 비트 전송률로 음성 신호를 부호화하는 효율적인 기술로서, 최근에는 음성 변환이나 음질 개선, 그리고 저 전송률의 오디오 부호화에서도 이용되고 있으며, 또한 배경 잡음과 비음성 신호에 강인한 특성으로 인해 비디오 신호, 생체 신호등 분석과 합성이 필요한 디지털 신호처리 분야에서 이용되고 있다.
하지만, 음성 신호의 모델링에 사용되는 일반적인 정현파 모델은 한 프레임 안에서 기본 주파수의 배수상에서 정현파 파라미터가 일정한 값을 가진다고 가정을 한다. 이때, time varying 특성을 가지는 음성 신호는 이와 같은 가정때문에 복호화단에서의 합성시 time varying한 신호의 특성을 왜곡시키고 프레임간의 불연속을 발생시킨다. 이와 같은 문제점을 해결하기 위해 파라미터 보간법이나 파형 보간법을 복호화단에서 사용하게 되는데 이는 음성파형의 변형을 가져오게 되어 non-stationary 구간에서 파형의 왜곡이 발생한다. 특히 onset이나 offset같은 전이구간 신호에서 파형의 왜곡으로 음질저하가 뚜렷하게 나타난다는 문제점이 있다.
그밖에, 저전송률 음성 부호화기에서 사용되어 오던 일반적인 harmonic 부호화 방법은 위상의 전송을 피하기 위해 제로위상이 되도록 한 후 FFT(Fast Fourier Transform)를 통한 피크 검출 방법을 이용하여 harmonic 크기를 검출한다. 하지만 이러한 방식은 복잡도와 전송률의 제약 때문에 주파수 해상도를 512point 이하로 적용할 수 밖에 없는 한계가 있다. 이러한 해상도의 감소와 위상 파라미터 전송 제약은 정확한 harmonic 피크 검출을 방해하기도 하지만 결과적으로 합성된 음성 신호의 펄스 위치의 딜레이와 프레임 간의 위상 오차로 인해 음성 부호화기의 성능을 저하시키는 문제점이 있다.
본 발명이 이루고자 하는 기술적 과제는 광대역 음성을 부호화하기 위하여 기존의 정현파 모델 방법을 개선 시키고, 양자화 에러를 줄임으로써 우수한 성능으로 광대역 음성을 부호화하면서 SNR 확장성을 지원하는 것이다.
상기와 같은 목적을 달성하기 위해, 본 발명에 따르면, 광대역 음성 신호로부터 선형 예측 계수를 추출하는 단계; 상기 선형 예측 계수를 이용하여 상기 음성 신호로부터 포락선이 제거된 선형 예측 잔여 신호를 출력하는 단계; 상기 선형 예측 잔여 신호의 스펙트럼을 피치 검색하는 단계; 매칭 퍼슈잇(Matching Pursuit) 알고리즘에 댐핑 요소(damping factor)를 첨가하여, 상기 댐핑 요소에 해당하는 선형 예측 잔여 신호의 스펙트럼의 크기와 위상을 추출하는 단계; 추출된 스펙트럼 크기와 위상 중에서 선형 예측 잔여 신호의 파워값이 가장 작은 경우의 제1 스펙트럼 크기와 제1 위상을 구하는 단계; 상기 제1 스펙트럼 크기와 상기 제1 위상을 양자화 시키는 단계; 및 상기 광대역 음성 신호를 복호화시키는 단계를 포함하는 것 을 특징으로 한다.
여기서, 상기 댐핑 요소는 상기 선형 예측 잔여 신호의 스펙트럼 크기 댐핑 요소와 주파수 댐핑 요소를 포함하는 것을 특징으로 한다.
여기서, 상기 선형 예측 잔여 신호의 스펙트럼의 크기와 위상을 추출하는 단계는, 상기 주파수 댐핑 요소를 이용하여, 상기 선형 예측 잔여 신호에서 피치 검색된 각각의 주파수에 대하여 복수의 후보 주파수를 설정하는 단계; 상기 피치 검색된 주파수 각각에 대하여, 상기 후보 주파수 중에서 에러값이 최소가 되게 하는 주파수와 위상을 구하여 정현파 사전(Sinsodial dictionary)값을 구하고, 상기 피치 검색된 주파수 각각에 대하여 생성된 정현파 사전값을 누적하는 단계; 상기 목적 신호에서 상기 누적된 정현파 사전값을 뺄셈하여 최종 잔여 신호를 생성하는 단계; 및 상기 최종 잔여 신호의 상기 피치 검색된 각각의 주파수에 대하여 파워값이 최소가 되게 하는 상기 제1 스펙트럼 크기와 제1 위상에 해당하는 주파수 댐핑 요소를 검출하는 단계를 포함하는 것을 특징으로 한다.
여기서, 상기 복수의 후보 주파수를 설정하는 단계는, 상기 선형 예측 잔여 신호에서 기본 주파수의 n배에 해당하는 피치 검색된 주파수에 대하여, 상기 주파수 댐핑 요소를 이용하여, 기본 주파수의 (n-1)배에 해당하는 주파수와 기본 주파수의 (n+1)배에 해당하는 주파수 사이에서 복수의 후보 주파수를 설정하는 것을 특징으로 한다.
여기서, 상기 누적되는 정현파 사전의 개수는 상기 광대역 음성 신호의 스펙트럼 개수와 일치하는 것을 특징으로 한다.
여기서, 상기 제1 스펙트럼 크기와 제1 위상을 이용하여 상기 스펙트럼 크기 댐핑 요소를 구하고 양자화하는 것을 특징으로 한다.
여기서, 상기 제1 스펙트럼의 크기를 DCT(Discrete Cosine Transform)을 이용하여 양자화하는 것을 특징으로 한다.
여기서, 상기 제1 위상을 양자화하는 방법은, 상기 제1 위상과 상기 제1 위상으로부터 생성된 제1 코드북 위상의 차이를 구하여 상기 제1 위상에 대응하는 포락선값을 곱하고, 각각을 합산하여 거리값을 구하는 단계; 상기 거리값이 최소가 되는 제1 코드북 위상을 검출하여 출력하는 단계; 상기 제1 코드북 위상과 상기 제1 위상의 차이로부터 생성된 위상에러벡터를 조정하여 제2 위상을 생성하고, 상기 제2 위상과 상기 제2 위상으로부터 생성된 제2 코드북 위상 차이를 구하여 상기 제2 위상에 대응하는 포락선값을 곱하고, 각각을 합산하여 거리값을 구하는 단계; 및 상기 거리값이 최소가 되는 제2 코드북 위상을 검출하여 출력하는 단계를 포함하는 것을 특징으로 한다.
여기서, 다양한 전송률에 따른 모드 정보에 의해 비트 할당을 결정하여 상기 댐핑 요소, 상기 스펙트럼의 크기, 위상 및 피치를 양자화하는 것을 특징으로 한다.
여기서, 상기 광대역 음성 신호를 복호화하는 단계는, 상기 양자화된 제1 스펙트럼 크기와 상기 제1 위상을 복호화하는 단계; 상기 양자화된 댐핑요소를 복호화하는 단계; 상기 제1 스펙트럼 크기, 상기 제1 위상, 상기 댐핑요소 및 피치값 중 적어도 하나를 이용하여 선형 예측 잔여 신호를 합성하는 단계; 및 상기 선형 예측 잔여 신호로부터 광대역 음성 신호를 복호화하는 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 광대역 음성 부호화 시스템의 광대역 음성 신호의 부호화 장치는, 상기 광대역 음성 신호로부터 선형 예측 계수를 추출하는 LPC(Linear Prediction Coefficient) 분석기; 상기 선형 예측 계수를 이용하여 상기 음성 신호로부터 포락선이 제거된 선형 예측 잔여 신호를 출력하는 LPC 역필터; 상기 선형 예측 잔여 신호의 스펙트럼을 피치 검색하는 피치 검색기; 매칭 퍼슈잇(Matching Pursuit) 알고리즘에 댐핑 요소(damping factor)를 첨가하여, 상기 댐핑 요소에 해당하는 선형 예측 잔여 신호의 스펙트럼의 크기와 위상을 추출하고, 추출된 상기 스펙트럼 크기와 위상 중에서 선형 예측 잔여 신호의 파워값이 가장 작은 경우의 제1 스펙트럼 크기와 제1 위상을 구하는 정현파 분석기; 및 상기 제1 스펙트럼 크기와 상기 제1 위상을 양자화 시키는 위상/스펙트럼 크기 양자화기를 포함하는 것을 특징으로 한다.
여기서, 상기 정현파 분석기는, 상기 주파수 댐핑 요소를 이용하여, 상기 선형 예측 잔여 신호에서 피치 검색된 각각의 주파수에 대하여 복수의 후보 주파수를 설정하는 주파수 댐핑 요소 적용부; 상기 피치 검색된 주파수 각각에 대하여, 상기 후보 주파수 중에서 에러값이 최소가 되게 하는 주파수와 위상을 구하는 에러 최소화부; 상기 에러 최소화부에서 출력된 주파수와 위상을 통하여 정현파 사전(Sinsodial dictionary)값을 구하는 사전 성분 생성부; 상기 피치 검색된 주파수 각각에 대하여 생성된 정현파 사전값을 상기 사전 성분 생성부로부터 수신하여 누적하는 누적부; 상기 선형 예측 잔여 신호에서 상기 누적된 정현파 사전값을 뺄셈하여 최종 잔여 신호를 생성하는 연산부; 및 상기 최종 잔여 신호의 상기 피치 검색된 주파수에 각각의 주파수에 대하여 파워값이 최소가 되게 하는 상기 제1 스펙트럼 크기와 제1 위상에 해당하는 주파수 댐핑 요소를 검출하는 댐핑 요소 선택부를 포함하는 것을 특징으로 한다.
또한, 본 발명의 실시예에 따른 광대역 음성 부호화 및 복호화 시스템은, 광대역 음성 신호로부터 추출된 선형 예측 계수를 이용하여 상기 음성 신호로부터 포락선이 제거된 선형 예측 잔여 신호를 구하고, 매칭 퍼슈잇(Matching Pursuit) 알고리즘에 댐핑 요소(damping factor)를 첨가하여, 상기 댐핑 요소에 해당하는 선형 예측 잔여 신호의 스펙트럼의 크기와 위상을 추출하고, 추출된 상기 스펙트럼 크기와 위상 중에서 선형 예측 잔여 신호의 파워값이 가장 작은 경우의 제1 스펙트럼 크기와 제1 위상을 구하여 양자화 시키는 광대역 음성 신호의 부호화 장치; 및 상기 양자화된 상기 제1 스펙트럼 크기와 상기 제1 위상 및 댐핑 요소를 복호화하고 상기 선형 예측 잔여 신호를 합성하여 상기 광대역 음성 신호를 복호화하는 광대역 음성 신호의 복호화 장치를 포함하는 것을 특징으로 한다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 도면에 기재된 내용을 참조하여야 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 실시예에 따른 광대역 음성 부호화 및 복호화 시스템의 구성을 나타내는 도면이다.
도 1에서 보는 바와 같이, 광대역 음성 부호화 및 복호화 시스템은 광대역 음성 부호화기(100) 및 복호화기(200)를 포함한다.
그리고, 광대역 음성 부호화기(100)는 LPC 분석기(105), LSP 변환기(110), LSP 보간기(113), LSP 양자화기(115), 지각 가중치 필터(120), LPC 역필터(125), 정수 피치 검색기(130), 정현파 분석기(140), 분수 피치 검색기(150), 댐핑요소 벡터 양자화기(155), 위상/스펙트럼 크기 양자화기(160), 피치 양자화기(170), 파라미터 할당기(180) 및 MUX(190)를 포함한다.
먼저, LPC 분석기(105), 지각 가중치 필터(120), 그리고 정수 피치 검색기(130)에 매 20ms 프레임에 대해서 50Hz에서 7,000Hz의 광대역폭을 가지는 음성 신호가 각각 입력된다. LPC 분석기(105)는 매 프레임마다, 해밍 윈도우가 씌어진 입력신호에 자기상관 방법을 사용하여 16차 LPC(Linear Prediction Coefficient) 파라미터를 출력한다.
그리고, LSP 변환기(110)는 시간 도메인의 LPC 파라미터를 주파수 도메인의 LSP(Line Spectral Pairs) 파라미터로 변환하여 비트 전송률을 줄이고, LSP 보간기(113)는 2개의 부프레임의 LPC 필터를 통해 과거 LSP값을 보간하고, 다시 LPC로 변화시켜 2개의 부프레임을 위한 2쌍의 LPC를 출력한다. 그리고, LSP 양자화기(115)는 전송받은 LSP 파라미터를 양자화한다.
그리고 지각 가중치 필터(120)는 광대역 음성과 LPC 파라미터를 포함한 선형 예측 계수들을 수신하여, 음성 신호를 인간 청각의 인지 특성에 맞게 양자화되었던 선형예측계수를 이용하여 수정한다. 그리고, LPC 역필터(125)를 통해 스펙트럼상에서 포락선이 제거된 LP 잔여 신호를 출력한다. 이때 사용되는 LP 잔여 신호는 LSP 보간기(113)에서 출력된 LPC 신호를 이용한다.
이때, LP 잔여 신호는 피치 검색(pitch search)에 사용되고, 또한 정현파 분석기(140)를 통해 댐핑 요소(damping factor)가 첨가된 매칭 퍼슈잇(matching pursuit) 정현파 모델링이 수행된다.
정현파 분석기(140)는 파라미터 할당기(180)에서의 정보를 바탕으로 음성 신호의 스펙트럼 크기와 위상이 기본 주파수의 배수가 되는 위치를 기준점으로 하여 LP 잔여 신호의 모델링을 수행하고, 모델링을 통해 댐핑 요소를 구한다.
즉, 정현파 분석기(140)는 LP 잔여 신호를 입력받아, 댐핑 요소를 이용하여 매칭 퍼슈잇 정현파 모델에 의하여 LP 잔여 신호를 모델링한다. 이후, 위상/스펙트럼 크기 양자화기(160)는 DCT를 이용하여, LP 잔여 신호의 스펙트럼 크기를 양자화하고 순환특성을 이용하여 위상을 양자화한다. 이때, 위상/스펙트럼 크기 양자화기(160)의 기본 구조는 다단계 구조를 가진다.
이때, 스펙트럼 크기는 DCT를 이용한 양자화기에 의해 양자화되고, 위상은 순환 가중치 양자화기를 이용하여 양자화되며, 댐핑 요소는 벡터 양자화기에 의하여 양자화된다. 정현파 분석기(140)가 댐핑 요소를 추출하는 방법은 도 2와 함께 상세하게 설명하기로 하며, 정현파 분석기(140)에 의해 분석된 스펙트럼의 크기와 위상에 대한 양자화에 대해서는 도 5, 도 6과 함께 상세하게 설명하기로 한다.
한편, 피치 검색은 정수 피치 검색과 분수 피치 검색의 2단계로 이루어 진다. 즉, 정수 피치 검색기(130)가 LP 잔여 신호와 음성 신호를 입력받아 FFT 계수 값의 자기 상관 근사값을 이용하여 정수 피치 검색을 하여, LP 잔여 신호의 피크 주기를 구한다. 그리고 분수 피치 검색기(150)는 피치값의 근사값 중 교차 상관값이 최대가 되는 피치값을 구하여 소수점 단위로 정밀하게 피치 검색을 한다.
이와 같은 피치 검색 방법은 FFT를 통해 얻은 계산값을 이용하여 자기 상관 근사값을 계산하는 Open-loop 피치 검색을 이용한다. 즉, FFT를 통해 대략의 피치값을 얻고, 피치값의 근처값 중 교차 상관값이 최대가 되는 피치값을 구하여, 정확한 피치값을 얻을 수 있다. 이와 같이 얻어진 피치값을 피치 양자화기(170)를 통해 양자화 시킨다. 그리고 MUX(190)는 스펙트럼의 크기, 위상, 댐핑요소 및 피치값의 코드북 인덱스를 패킷화하여 출력한다.
출력된 코드북 인덱스 및 양자화된 부호는 고대역 음성 복호화기(200)로 제공되고, 고대역 음성 복호화기(200)는 고대역 음성 부호화기(100)와 역과정을 통해 고대역 음성 신호를 복원하고, 복원된 고대역 음성 신호를 출력한다.
즉, 양자화된 제1 스펙트럼 크기와 위상, 댐핑요소, 피치값을 이용하여 LP 잔여 신호를 합성하고, 합성된 LP 잔여 신호로부터 광대역 음성 신호를 복호화하여, 고대역 음성 신호를 출력한다.
한편 계층형 광대역 음성 부호화기를 위해 기본 계층을 8kit/s로 하고, 기본계층에 각각 4kbit/s, 12kbit/s, 8kbit/s의 전송률을 갖는 계층을 합산하여 부호화한다.
따라서, 파라미터 할당기(180)는 채널 상태에 따른 모드 정보에 의해 아래의 표 1에서와 같이 파라미터의 선택과 그에 따른 비트 할당을 결정하여 각각의 세부 정보를 정현파 분석기(140), 댐핑요소 벡터 양자화기(155), 위상/스펙트럼 크기 양자화기(160) 및 피치 양자화기(170)로 전달한다.
각각의 계층은 damping 요소를 첨가한 정현파 모델에서 기본주파수의 인접 주파수를 모델링 함으로써 기본계층에 세부 정보를 제공한다.
표 1은 32kbit/s, 24kbit/s, 12kbit/s, 그리고 8kbit/s 모드의 파라미터에 따른 비트 할당을 예시적으로 나타낸 것이다.
Mode Parameter 1 st subframe 2 nd subframe total per frame
Mode 2
32 kbit /s LSP 46
Pitch delay 30
Harmonic Magnitude 100 100 200
Harmonic Phase 40 40 80
Damping Factor 15 15 30
Adding Harmonic Magnitude(4) 90 90 180
Adding Harmonic Phase(4) 36 36 72
Total 640
Mode 2
24 kbit /s LSP 46
Pitch delay 30
Harmonic Magnitude 90 90 180
Harmonic Phase 35 35 70
Damping Factor 15 15 30
Adding Harmonic Magnitude(2) 40 40 80
Adding Harmonic Phase(2) 21 21 42
Total 480
Mode 2
12 kbit /s LSP 46
Pitch delay 15 15 30
Harmonic Magnitude 30 30 60
Harmonic Phase 14 14 28
Damping Factor 5 5 10
Adding Harmonic Magnitude(1) 20 20 40
Adding Harmonic Phase(1) 12 12 24
Total 240
Mode 2
8 kbit /s LSP 46
Pitch delay 8 8 16
Harmonic Magnitude 30 30 60
Harmonic Phase 13 13 26
Damping Factor 5 5 10
Total 170
이하에서는, 도 2를 참조하여 정현파 분석기(140)를 통하여 댐핑 요소를 첨가한 매칭 퍼슈잇 정현파 모델 방법에 대하여 더욱 상세히 설명하기로 한다.
본원 발명은, 일반적인 정현파 모델에 간단한 제약 조건을 두어 damping 요소라 명명하는 2개의 전송 파라미터(스펙트럼 크기 댐핑요소;gl k, 주파수 댐핑요소; cl k)를 추출하여 보다 효율적으로 모델링을 가능하게 한다. 즉, 음성 신호의 특성상 현재 프레임과 과거 프레임 사이에는 어느 정도 상관성을 가지고 신호가 변화하게 되므로, 음성 샘플간의 상관성에 대하여 제약 조건을 두게 된다.
먼저 본 발명의 실시예를 설명하기에 앞서, 댐핑 요소에 대하여 설명하기로 한다.
과거 프레임의 파라미터에 대한 현재 프레임의 파라미터의 비를 댐핑 요소라고 정의하고, 프레임간의 스펙트럼의 크기와 주파수를 수학식 1과 같이 표현한다.
Figure 112006088096012-pat00001
여기서 Al k,wl k는 k번째 프레임의 l번째 스펙트럼 크기와 주파수를 나타낸다. 즉, 스펙트럼 크기와 주파수에 대한 현재 프레임의 댐핑 요소를 각각 gl k, cl k로 나타낸다. 그리고 매칭 퍼슈잇 정현파 모델을 통해 분석된 스펙트럼의 크기와 위상은 프레임간의 불연속을 방지하기 위해 파라미터 보간을 하게 되는데, 이때 스펙트럼 크기에 대해서는 수학식 2의 첫째줄을 이용하여 보간을 수행하고, 위상에 대해서는 수학식 3의 첫째줄에 나타낸 식을 이용하여 보간을 수행한다. 이때 과거 프레임의 스펙트럼의 크기를 보간하여 합성된 스펙트럼 크기를 스펙트럼 크기 댐핑 요소인 gl k 를 사용하여 수학식 2의 둘째줄과 같이 나타낼 수 있다. 또한, 과거 프레임의 위상과 보간된 합성된 위상은 스펙트럼의 위상 변화율 α값과 주파수 댐핑 요소인 cl k 를 이용하여 수학식 3과 같이 나타낼 수 있다.
Figure 112006088096012-pat00002
Figure 112006088096012-pat00003
여기서 N 은 프레임 길이를 나타낸다. 이때, α 값은 과거 프레임의 스펙트럼의 위상을 2차 보간하여 합성된 스펙트럼의 위상 변화율로서, 주파수 댐핑 요소인 cl k 를 이용하여 수학식 3과 같이 나타낼 수 있다.
도 2는 본 발명의 실시예에 따른 정현파 분석기(140)의 구성을 나타내는 도면이다.
도 2에서 보는 바와 같이, 정현파 분석기(140)는 정현파 크기/위상 탐색 부(143), 주파수 댐핑 요소 적용부(145), 댐핑 요소 선택부(147) 및 댐핑 요소 합성부(149)를 포함한다.
이때, 댐핑 요소를 첨가한 매칭 퍼슈잇 정현파 모델의 특성상 합성시 보간을 사용하지 않고 스펙트럼 크기/주파수 댐핑 요소를 사용하므로 별도의 윈도윙 블록을 사용할 필요가 없다.
먼저, LPC 역필터(125)에서 출력된 LP 잔여 신호인 목적신호(r[n])는 정현파 크기/위상 탐색부(143)에 입력되어 매칭 퍼슈잇(Matching Pursuit) 알고리즘을 통해 스펙트럼 크기와 위상이 탐색된다. 즉, 정현파 크기/위상 탐색부(143)는 Damping 요소를 첨가한 매칭 퍼슈잇 정현파 모델을 통해 파라미터의 예측과 합성시의 보간법을 통합한다.
정현파 크기/위상 탐색부(143)는 Calculator 블록, Error minimization 블록, Dictionary element generator 블록, Accumulator 블록이 로테이션 형태로 연결되어 있다. 이때, 스펙트럼 크기 댐핑 요소인 gl k를 1로 고정하고 로테이션 형태로 주파수 댐핑 요소 적용부(145)로부터 cl k 각각의 후보에 대응되는 스펙트럼 크기와 위상쌍을 검출한다. 아래의 설명해서는 cl k를 초기치로 고정한 상태, 즉 검출 주파수가 기본주파의 배수가 되는 부분에 대해서만 설명한다.
먼저, LP 잔여 신호인 첫번째 목적 신호(r[n])가 정현파 크기/위상 탐색부(143)의 Calculator 블록으로 입력되고, Calculator 블록은 첫번째 목적 신 호(rl[n])와 Accumulator 블록에서 출력되는 rl -1[n]신호 사이의 차이에 해당하는 rl[n] 신호를 새로운 목적 신호로 하여 Error minimization 블록으로 출력한다.
이때, Error minimization 블록에는 정수 피치 검색기(130)와 분수 피치 검색기(150)로부터 검색된 피치로부터 기본 주파수 wo값과 새로운 목적 신호()가 입력된다.
Error minimization 블록은 생성된 새로운 목적신호(rl[n])를 이용하여 다음의 수학식 4를 통해 정현파 사전의 크기와 위상을 탐색한다.
Figure 112006088096012-pat00004
여기서 r 는 l 번째 목적 신호, E 는 r 와 l 번째 정현파 사전과의 mean squared error를 나타낸다. l가 0이면 r 는 LP 잔여신호와 같다. 이때, 위에서 설명된것과 같이 gl k를 1로 가정하면, 수학식 2에서 합성된 스펙트럼 크기
Figure 112006088096012-pat00005
는 현재 프레임의 스펙트럼 크기 Al k와 같게 된다.
그리고, Error minimization 블록은 수학식 5를 통해 에러(E )가 최소가 되 는 A 와 θl를 구한다. E 가 최소가 되는 A 와 θl을 구하는 것을 정리하여 나타내면 수학식 5와 같이 나타낼 수 있다.
Figure 112006088096012-pat00006
여기서, Error minimization 블록은 θk는 주파수 댐핑 요소인 cl k의 후보값에 따라 결정되고 E 가 최소가 되는 A 와 θl을 선택한다. 여기서는 cl k가 초기값을 사용하였고, 검출하는 주파수 점은 기본 주파수의 배수되는 부분이다.
이와 같이, Error minimization 블록은 l번째 스펙트럼에 해당하는 l*wo,Al,
Figure 112006088096012-pat00007
값을 Dictionary element generator 블록으로 출력하고, Dictionary element generator 블록은 다음의 수학식 6과 같은 정현파 사전(Sinsodial dictionary) dl k를 생성한다.
Figure 112006088096012-pat00008
이때, 정현파 사전 dl k는 k번째 프레임에서 l번째에 해당하는 시간파형이라 볼 수 있다.
이와 같이, Dictionary element generator 블록은 출력된 파라미터를 통해, 시간 영역에서 l번째 스펙트럼 만으로 합성된 시간 파형 dl k를 생성한다.
다음으로, Accumulator 블록에서는 l번째까지 만들어진 합성신호 dl k들을 선형합하여 다음과 같은 합성된 신호(
Figure 112006088096012-pat00009
)를 생성한다.
Figure 112006088096012-pat00010
여기서 L은 피치를 2로 나누어 정수화 한 값, 즉 하모닉 개수를 나타낸다.
이와 같이, Accumulator 블록에서 합성 신호인
Figure 112006088096012-pat00011
신호를 출력하면, Calculator 블록은 목적 신호(r[n])로부터 합성 신호
Figure 112006088096012-pat00012
를 차감하여, 새로운 목적 신호(rl[n])를 생성한다. 그리고 최종 로테이션에서는 기본 주파수의 배수되는 부분에서 검출된 스펙트럼 크기와 위상을 합성한다.
그리고, 댐핑 요소 선택부(147)는 각각의 주파수에 따른 최종 잔여 신호의 파워값을 구하여, 파워값이 최소가 되도록 하는 최적의 파라미터를 선택하여, 댐핑 요소 합성부(149)로 출력한다.
이와 같이, 반복되는 매칭 퍼슈잇 알고리즘을 통해 구한 최적의 파라미터를 이용하여 댐핑 요소 합성부(149)는 LP 잔여 신호를 합성한다.
이하에서는, 본 발명의 실시예에 따른 매칭 퍼슈잇(Matching Pursuit) 알고리즘에 대해 도 2 내지 도 4b를 통해 더욱 상세히 설명하도록 한다.
도 3a 내지 도 3b는 본 발명의 실시예에 따른 정현파 크기/위상 탐색부(143)에서 첫번째 로테이션을 수행했을 때의, 신호의 파형 및 크기를 나타낸 도면이다.
도 3a는 본 발명의 실시예에 따른 LP 잔여신호인 목적신호(r[n])(a 신호)와 Accumulator 블록에서 출력되는 첫번째 합성신호
Figure 112006088096012-pat00013
(b 신호)의 크기(magnitude)를 나타낸 것이고, 도 3b는 본 발명의 실시예에 따른 a 신호에서 b 신호를 차감하여 생성한, 새로운 목적 신호(r1[n])(c 신호)의 크기(magnitude)를 각각 주파수 도메인에서 나타낸 것이다.
먼저, LP 잔여 신호인 첫번째 목적 신호(r[n])가 정현파 크기/위상 탐색부(143)의 Calculator 블록으로 입력되어 Error minimization 블록으로 전달된다. 이때, Error minimization 블록에는 피치 검색을 통해 기본 주파수(wo)가 동시에 입력된다.
Error minimization 블록은 첫번째 목적 신호(r[n])에 대해, 수학식 5에서 설명한 최소화 과정을 통해 기본 주파수(wo)에서의 정현파 크기(A1)와 위상(θ1)을 구하게 된다.
이때, 주파수 댐핑 요소 적용부(145)에서 출력된 cl k의 후보값들에 대해 정현파 크기/위상 탐색부(143)가 추가적으로 동작되어 cl k의 각 후보값에 따른 주파수와 스펙트럼 크기 그리고 위상 파라미터들을 검출한다.
이하에서는, 주파수 댐핑 요소 적용부(145)에서 나온 cl k의 후보값들에 대하여 정현파 크기/위상 탐색부(143)의 동작에 대하여 더욱 상세히 설명하기로 한다.
먼저, Error minimization 블록에서는 기본 주파수(wo)와 주파수 댐핑 요소 적용부(145)에서 출력하는 α 값을 이용하여, (1-2α*n)* wo, (1-α*n)*wo,wo , (1+ α *n)*wo, (1+ 2α *n)*wo 각각의 주파수에 대하여 에러를 최소화 할 수 있는 정현파 크기(A1)와 위상(
Figure 112006088096012-pat00014
)을 탐색하게 된다. 즉, 수학식 3에서, cl k에 과거와 현재 프레임의 기본 주파수의 차를 기준으로 n/2(n=-2,-1,0,1,2) 을 곱하여, 5개의 후보가 되는 주파수인 (1-2α*n)* wo, (1-α*n)*wo, wo, (1+ α *n)*wo, (1+ 2α *n)*wo를 설정한다.
예를 들어, 댐핑 요소 α 값을 0으로 설정하게 되면, Error minimization 블록은 기본 주파수(wo)에 대하여 에러를 최소화 할 수 있는 있는 정현파 크기(Al)와 위상(θl)을 구하게 된다.
따라서, 이와 같은 방법으로, Error minimization 블록은 첫번째 로테이션에서, (1-2α*n)* wo, (1-α*n)*wo, wo, (1+ α *n)*wo, (1+ 2α *n)*wo 각각의 주파수에 대하여 에러가 최소가 되도록 하는 정현파 크기(Al)와 위상(θl)을 구하게 되고, 각 주파수에 대응하는 정현파 크기와 위상의 쌍(Al,
Figure 112006088096012-pat00015
)을 댐핑 요소 선택부(147)로 전달한다.
그리고, Dictionary element generator 블록은 정현파 크기(Al)와 위상(
Figure 112006088096012-pat00016
)이 입력되면 수학식 8과 같은 정현파 사전 dl k 신호를 생성하여 Accumulator 블록으로 출력한다.
Figure 112006088096012-pat00017
이때, α 값은 과거 프레임의 스펙트럼의 위상을 2차 보간하여 합성된 스펙트럼의 위상 변화율로서, 주파수 댐핑 요소 적용부(145)로부터 입력된 주파수 댐핑 요소인 cl k 를 이용하여 위의 수학식 3과 같이 구할 수 있다.
따라서, 수학식 3 에서 보는 바와 같이, cl k 값에 따라 α값이 결정되고, α값 에 따라 (1-2α*n)*wo, (1-α*n)*wo, wo, (1+ α *n)*wo, (1+ 2α *n)*wo의 검출하는 주파수 포인트를 계산한다.
Accumulator 블록은 dl k들을 선형합하여 합성된 신호 합성신호
Figure 112007006734056-pat00018
(도 3a에서의 b 신호)를 생성하는 블록이다. 이때, 첫번째 로테이션이므로, Accumulator 블록에는 dl k신호만 생성된다. 이때, Accumulator 블록은 dl k 신호를 시간 도메인에서 합성하여 생성되는 신호(
Figure 112007006734056-pat00019
)를 출력한다. 이때, Calculator 블록은 LP 잔여신호인 목적신호(r[n])(도 3a 에서 a 신호)로부터 합성 신호(
Figure 112007006734056-pat00020
)(도 3a에서의 b 신호)를 차감하여, 새로운 목적신호(r[n])(도 3b에서 c 신호)를 생성하고 두 번째 로테이션을 수행한다.
이때, 도 3a에서 보는 것과 같이, 기본 주파수(wo)에서 목적신호(r[n])(a 신호)와 합성 신호(
Figure 112006088096012-pat00021
)(b 신호)가 모두 피크 값을 형성하여, 도 3b에서 보는 바와 같이, 기본 주파수(wo)에서 새로운 목적신호(r1[n])(c 신호)의 크기가 0에 가깝게 되는 경우, 다른 주파수에서보다 기본 주파수(wo)에서의 에러값이 가장 적게 된다.
이와 같이, 기본 주파수(wo) 및 주변 주파수에 대한 검색을 위한 첫번째 로테이션이 종료되면, 새로운 목적신호(rl[n])에 대하여 두번째 로테이션이 수행된다.
도 4a 내지 도 4b는 본 발명의 실시예에 따른 정현파 크기/위상 탐색부(143)에서 두번째 로테이션을 수행했을 때의, 신호의 파형 및 크기를 나타낸 도면이다.
도 4a는 본 발명의 실시예에 따른 LP 잔여신호인 목적신호(r[n])(a 신호)와 Accumulator 블록에서 출력되는 두번째 합성신호
Figure 112006088096012-pat00022
(b 신호)의 크기(magnitude)를 나타낸 것이고, 도 4b는 본 발명의 실시예에 따른 새로운 목적 신호(r2[n])(c 신호)의 크기(magnitude)를 각각 주파수 도메인에서 나타낸 것이다.
두번째 로테이션에서는 기본 주파수의 2배에 해당하는 주파수(2*wo)와 그 주변의 주파수에 대하여 에러를 최소화하는 정현파 크기(A2)와 위상(
Figure 112006088096012-pat00023
)을 탐색하게 된다.
마찬가지로 두번째 목적 신호(rl[n])가 Error minimization 블록으로 전달될 때, Error minimization 블록에는 피치 검색을 통해 기본 주파수의 2배에 해당하는 주파수(2*wo)가 동시에 입력된다.
Error minimization 블록은 두번째 목적 신호(r1[n])에 대해, 수학식 5의 최소화 과정을 통해 주파수(2*wo)과 그 주변의 주파수에서의 정현파 크기(A2)와 위 상(
Figure 112006088096012-pat00024
)을 각각 구하게 되고, Dictionary element generator 블록으로 출력한다.
즉, Error minimization 블록에서는 첫번째 로테이션과 마찬가지로 댐핑 요소 α 값을 이용하여 (1-2α*n)*wo, (1-α*n)*wo, wo, (1+ α *n)*wo, (1+ 2α *n)*wo 각각의 주파수에 대하여 에러를 최소화 할 수 있는 정현파 크기(A2)와 위상(
Figure 112007006734056-pat00025
)을 탐색하게 된다.
Dictionary element generator 블록은 정현파 크기(A2)와 위상(
Figure 112006088096012-pat00026
)이 입력되면 수학식 9와 같은 정현파 사전 d2 k을 생성하여 Accumulator 블록으로 출력한다.
Figure 112006088096012-pat00027
이때, 첫번째 로테이션과 마찬가지로, 탐색된 정현파 크기(A2)와 위상(
Figure 112006088096012-pat00028
)에 따라서, 정현파 사전 d2 k값은 달라지게 된다.
그리고, Accumulator 블록은 dl k들을 선형합하여 합성된 신호를 생성하는 블록으로서, 첫번째 로테이션에서 생성된 dl k값과 두번째 로테이션에서 생성된 시간파 형 d2 k을 누적시킨다.
따라서, Accumulator 블록은 dl k+d2 k 값을 시간 영역에서 생성된 합성신호(
Figure 112006088096012-pat00029
)를 출력한다.
마찬가지로, 세번째 로테이션에서는 목적신호(r[n])(도 4a 에서의 a 신호)에서 합성신호
Figure 112006088096012-pat00030
(도 4a에서의 b 신호)를 뺀 값이 세번째 목적신호(r2[n])(도 4b 에서의 c 신호)가 된다.
이때, 도 4a에서 보는 바와 같이, 주파수(2*wo)에서 첫번째 목적신호(r[n])의 스펙트럼과 d2 k 신호의 스펙트럼의 피크값이 일치하지 않을 수가 있다. 따라서, Error minimization 블록에서는 (1-2α*n)*2*wo, (1-α*n)*2*wo, 2*wo, (1+ α *n)*2*wo, (1+ 2α *n)*2*wo 각각의 주파수에 대하여 에러를 최소화하는 정현파 크기(A2)와 위상(
Figure 112007006734056-pat00031
)을 구하게 되어, 각 주파수에 대응하는 정현파 크기와 위상의 쌍(A2,
Figure 112007006734056-pat00032
)을 댐핑 요소 선택부(147)로 전달한다.
즉, LP 잔여 신호가 wo의 정수배에서 피크값을 형성하지 않고, wo의 정수배 근처에서 피크값을 형성하게 되면, 프레임간의 불연속이 생기게 되므로, 이를 방지하기 위하여, 피크에 해당하는 주파수를 검색하여 오차를 최대한 줄이도록 한다.
따라서, 두번째 로테이션을 통해 기본 주파수의 2배가 되는 곳에서 분석된 파라미터로 합성한 신호를 차감하여 다시 새로운 신호를 만들고, 다음 번 로테이션에서는 기본 주파수의 3배가 되는 곳에서 분석된 파라미터로 합성한 신호를 빼서 다시 새로운 신호를 생성하는 것을 반복한다.
이와 같은 방식으로, 첫번째 목적신호(r[n])의 스펙트럼 개수(l)만큼 로테이션이 수행되면, 기본 주파수(wo)의 정수배에 해당하는 주파수의 주변 주파수에 대한 정현파의 크기와 위상쌍들이 댐핑 요소 선택부(147)로 출력되어 저장된다.
이때, 스펙트럼 개수는 도 1의 피치 검색부(130, 150)에서 구해진 피치를 2로 나눔으로써 수학식 10과 같이 계산된다.
Figure 112006088096012-pat00033
여기서
Figure 112006088096012-pat00034
은 스펙트럼 의 개수를 나타내고 p는 피치주기를 나타낸다.
댐핑 요소 선택부(147)는 각각의 주파수에 따른 최종 잔여 신호의 파워값을 구하여, 파워값이 최소가 되도록 하는 최적의 cl k 값을 선택하여, 최적의 cl k 값에 해당하는 Ak
Figure 112006088096012-pat00035
값을 댐핑 요소 합성부(149)로 출력한다.
즉, 최종적으로 스펙트럼 개수(l)만큼 로테이션이 수행되면 Accumulator 블 록에서는
Figure 112006088096012-pat00036
=dl k+d2 k+...+ dl k이 출력되고, Calculator 블록에서 첫번째 목적신호(r[n])에서
Figure 112006088096012-pat00037
을 빼주게 되면 최종 목적신호(rl +1[n])가 생성된다.
이때, 최종 목적신호(rl +1[n])는 현재까지의 로테이션을 통해 첫번째 목적신호(r[n])에서 합성 신호를 빼고 남은 최종 잔여신호라고도 할 수 있다.
즉, 정현파 크기/위상 탐색부(143)의 매칭 퍼슈잇 알고리즘은 원신호에서 에너지가 가장 큰 주파수에서 정현파 사전을 빼고 목적신호를 생성한 후, 두번째로 에너지가 큰 주파수에서 정현파 사전을 다시 뺄셈하여, 새로운 목적신호를 합성하는 방식을 스펙트럼 개수만큼 반복적으로 수행하게 된다.
이때, 스펙트럼 개수만큼 로테이션이 이루어지기 때문에, 각 cl k 값에 대응하여, E k 가 최소가 되도록 하는 A k
Figure 112006088096012-pat00038
가 각각 스펙트럼 개수만큼 생성된다.
이와 같이 생성된 E k 가 최소가 되도록 하는 A l
Figure 112006088096012-pat00039
는 주파수 댐핑 요소 선택부(147)에 각 댐핑요소 cl k 값과 함께 저장된다.
그리고, 댐핑 요소 선택부(147)는 cl k 의 각 후보값에 따른 최종 로테이션에서는 남아있는 최종 잔여 신호의 파워값을 구하여, 파워값이 최소가 되도록 하는 최적의 파라미터를 선택하여, 댐핑 요소 합성부(149)로 출력한다.
이와 같이, 반복되는 매칭 퍼슈잇 알고리즘을 통해 구한 최적의 파라미터를 이용하여 댐핑 요소 합성부(149)는 LP 잔여 신호를 합성한다.
댐핑 요소 합성부(149)에서 합성된 LP잔여신호는 최적의 cl k 값과 이 값에 따른 주파수에서의 스펙트럼 크기와 위상에 의해 합성된 신호이다. 이때 스펙트럼 크기 댐핑 요소 gl k는 1로 고정되어 스펙트럼 크기 댐핑 요소는 고려되지 않은 상태이고 주파수 댐핑 요소만이 고려된 신호이다.
이때, 댐핑 요소 선택부(147)는 최종 목적신호(
Figure 112007006734056-pat00040
)로부터 (1-2α*n)*l*wo, (1-α*n)*l*wo, l*wo, (1+ α *n)*l*wo, (1+ 2α *n)*l*wo 각각의 주파수에 대하여 에러를 최소화하는 정현파 크기(Al)와 위상(
Figure 112007006734056-pat00041
)을 구하게 되어, 각 주파수에 대응하는 정현파 크기와 위상의 쌍(Al ,
Figure 112007006734056-pat00042
)을 저장한다.
이때, 5개의 cl k 값에 최종 로테이션의 잔여 신호의 파워값을 구하여, 파워값이 가장 적게 하는 최적의 cl k 값을 선택하여, 최적의 cl k 값에 해당하는 A l
Figure 112006088096012-pat00043
값을 댐핑 요소 합성부(149)로 출력한다.
이때 파워값은 최종 로테이션의 잔여 신호의 스펙트럼을 제곱하여 누적하여 구한다.
댐핑 요소 합성부(149)는 댐핑 요소 선택부(147)로부터 최적의 cl k 값과, 최적의 cl k 값에 해당하는 A l
Figure 112006088096012-pat00044
값을 전달받고, 다음의 수학식 11을 이용하여 LP 잔여 신호를 합성한다.
Figure 112006088096012-pat00045
여기서 윗첨자 물결표시는 Damping 요소의 영향을 고려한 스펙트럼의 크기와 위상을 나타낸다.
또한 댐핑 요소 합성부(149)는 수학식 12내지 14를 이용하여 스펙트럼 크기 댐핑 요소 gl k를 결정한다. 전송률의 제약을 고려하여 gl k를 go k로 가정하고 go k값을 추정하면 다음과 같다.
Figure 112006088096012-pat00046
마지막으로 go k의 최적 해는
Figure 112006088096012-pat00047
일 때 구해지므로, 수학식 12을 정리하면 다음의 수학식 13과 같이 정리된다.
Figure 112006088096012-pat00048
수학식 13을 go k에 관해 정리하면 수학식 14와 같이 된다.
Figure 112006088096012-pat00049
이렇게 최종적으로 예측된 파라미터는 스펙트럼 크기와 위상 그리고 damping 요소인 go k,co k가 정현파 합성식에 사용된다.
즉, 주파수 댐핑 요소인 cl k를 통해 피크 펄스의 위치를 조정하고, 스펙트럼 크기의 댐핑요소인 go k를 통해 과거 프레임의 마지막 피크 펄스 크기와 현재 프레임의 첫번째 피크 펄스 크기의 기울기가 선형이 되도록 조절하며 현재 프렘임의 피크 펄스들 간의 기울기 역시 조절하여 불연속적인 음성 신호를 개선한다.
이하에서는, 도 5a 및 도 5b를 참조하여 위상/스펙트럼 크기 양자화기(160)를 통하여 정현파 분석기(140)에서 출력된 LP 잔여 신호의 스펙트럼 크기 및 댐핑 요소를 양자화하는 방법에 대하여 더욱 상세히 설명하기로 한다.
위상/스펙트럼 크기 양자화기(160)는 스펙트럼 크기 양자화기(160a)와 위상 양자화기(160b)로 나뉜다.
도 5a및 도 5b는 각각 본 발명의 실시예에 따른 스펙트럼 크기 양자화기(160a)의 부호화단과 복호화단을 나타내는 도면이다.
도 5a와 같이, 스펙트럼 크기 양자화기(160a)의 부호화단은 정규화 블록(161), DCT 블록(162), 1차 가변 벡터 매칭부(163), 벡터 버퍼(164) 및 2차 가변 벡터 매칭부(165)를 포함한다.
하모닉 크기 값들은 약 6-120개 사이의 개수를 갖는데, 이러한 가변 개수의 스펙트럼 크기(하모닉 값과 비하모니 값)들을 양자화 하기 위해 DCT(Discrete Cosine Transform) 함수가 사용된다. 변환된 DCT 값들은 Split 벡터 양자화 방법 및 Multi-stage 벡터 양자화 방법에 의해 양자화 된다. DCT 양자화기의 분석과정은 먼저 하모닉 개수를 앞서 설명한 수학식 10과 같이 구한다.
이때, 정규화 블록(161)은 각각의 스펙트럼 크기값들을 수학식 15와 같은 스펙트럼 크기의 평균 에너지에 의해서 정규화시킨다. 이는 음성 신호의 에너지에 따라 검출되는 스펙트럼 크기값들의 변동폭이 크기 때문에 양자화 효율을 위해 일정 범위로 줄이는 역할을 한다.
Figure 112006088096012-pat00050
그리고, DCT 블록(162)은 이와 같이 정규화된 스펙트럼 값들을 수학식 16과 같이 MDCT(Modify Discrete Cosine Transform)로 변환시킨다.
Figure 112006088096012-pat00051
1차 가변 벡터 매칭부(163)는 DCT 계수들이 유크리디언 거리가 최소가 되도록 코드북(CODEBOOK) 중 후보 벡터 N개를 선택하여 벡터 버퍼(164)에 저장시킨다.
그리고, 2차 가변 벡터 매칭부(165)는 이러한 N개의 후보 벡터들에 대한 차이값을 구하고, 각각 N개에 대한 코드북 후보 벡터들을 선택한 후, 최종적으로 원본 DCT 계수 값과 유클리디언 거리가 최소가 되는 값을 선택하도록 한다.
도 5b와 같이, 스펙트럼 크기 양자화기(160a)의 복호화단은 IDCT 블록(166)을 포함하며, 복호화단에서 선택된 코드북값에 대하여 IDCT 블록(166)을 통하여 IMDCT(Inverse Modified Discrete Cosine Transfrom)를 취하여 역 양자화된 값과 원본 스펙트럼 크기값을 얻는다.
이하에서는, 도 6을 참조하여 도 2의 Damping 요소를 첨가한 매칭 퍼슈잇 정현파 모델에서 추출된 파라미터 중 위상의 양자화 방법에 대하여 설명하기로 한다.
도 6은 본 발명의 실시예에 따른 위상 양자화기(160b)의 구성을 나타내는 도면이다.
도 6과 같이, 위상 양자화기(160b)는 거리 계산 블록(167), 가중치 함수 블록(168) 및 최소화 블록(169)을 포함한다.
이때, 도 6에서 위상 양자화기(160b)는 1 stage의 양자화기로 도시하였으나, 2개 이상의 양자화기를 병렬로 연결하여, 이전 계층의 양자화 오차를 줄이거나 양자화되는 위상 개수를 조정함으로써, 전송 레이트를 조정한다. 즉, 전송 레이트 별로 양자화 개수가 달라지고 전송 레이트에서 보낸 위상의 양자화 에러를 다시 양자화하게 된다.
먼저, 거리 계산 블록(167)은 타겟이 되는 위상(Target Phase)을 입력받아, 원 위상과 원 위상으로부터 생성된 코드북 위상의 거리값을 구한다. 즉, 모든 벡터 양자화에서는 양자화할 목적신호와 양자화된 신호들의 코드북 인덱스 중 차이가 최소가 되는 양자화 값을 찾는 방법을 취하며, 여기서 차이가 가장 작은 값이 원 타겟 위상과 가장 유사하기 때문에 양자화 에러가 적게 된다.
각각의 차원의 에러는 수직선상에서 스칼라 양자화에 의한다면 최대 2π가 되지만 위상의 modular 2π의 순환 특성을 이용하여 극좌표 상에서 에러를 구하게 되면 최대 에러는 π가 된다. 이러한 순환 구조를 이용하면 비트를 효율적으로 줄일 수 있다. 또한 목적 양자화 신호와 코드북 위상의 관계는 수학식 17과 수학식 18과 같이 표현된다.
Figure 112006088096012-pat00052
Figure 112006088096012-pat00053
여기서
Figure 112006088096012-pat00054
은 n번째 차원의 목적 위상이며,
Figure 112006088096012-pat00055
은 n 번째 차원의 1st stage 코드북 위상을 나타내며,
Figure 112006088096012-pat00056
은 n 번째 차원의 1st stage 에러 위상을 나타낸다.
Figure 112006088096012-pat00057
을 수학식 15와 같이 표현하기 위해서
Figure 112006088096012-pat00058
은 수학식 16과 같이 목적 신호와 코드북 인덱스의 부호에 따라 각각의 경우에 다르게 표현해야 한다. 이러한 관계를 수학식 19에 나타내었다.
Figure 112006088096012-pat00059
또한 순환 구조와 더불어 입력 음성의 스펙트럼 크기에 따라 위상 코드북에서의 에러 가중치를 다르게 하여 합성된 음성이 시간축에서 원본 음성과 가장 가깝게 표현 되기 위한 가중치 필터의 설계가 요구된다. 가중치 함수 블록(168)은 LPC 계수에 의한 포락선과 LP 잔여 신호의 스펙트럼 크기를 이용하여 같은 차원의 위상에 대하여 같은 차원을 가지는 가중치 함수 PW(N)을 구한다.
최소화 블록(169)은 가중치 함수 블록(168)로부터 전달받은 가중치 함수와 수학식 20에서 구한 MSE(Mean Square Error)를 이용하여 최적의 위상 인덱스(Phase index)를 찾아서 MUX(190)로 전송하게 된다.
Figure 112006088096012-pat00060
여기서 PW(N)은 n번째 차원의 입력 음성신호의 스펙트럼 크기이며,
Figure 112007006734056-pat00061
은 코드북에 의해 합성된 합성 위상이다.
이와 같이, 본 발명은 이러한 문제점을 해결하고 음성 신호의 효율적인 정현파 모델링을 위하여 주파수의 해상도가 뛰어난 매칭 퍼슈잇 방법을 개선 발전시킨 확장된 정현파 모델과 이러한 모델을 이용한 광대역 음성 부호화기에 관한 것이다. 그리고 이러한 모델의 파라미터를 효율적으로 양자화하기 위하여 DCT를 이용한 Harmonic 양자화기 및 순환 가중치 Phase 양자화기를 사용한다. 또한 계층에 따라 전 계층의 파라미터 양자화 오류를 전송하거나 파라미터 수를 증가시킴으로써 SNR 확장성을 지원할 수 있다.
한편, 본 발명에 따른 광대역 음성 신호의 부호화/복호화 방법은 컴퓨터 프로그램으로 작성 가능하다. 상기 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 의해 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 광대역 음성 신호의 부호화/복호화 방법을 구현한다. 상기 정보저장매체는 자기 기록 매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한다.
이상에서와 같이 도면과 명세서에서 최적 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해 져야 할 것이다.
상술한 바와 같이 본 발명에 따른 광대역 음성 신호의 부호화/복호화 방법은, 기존의 정현파 모델에서 발생하는 프레임간 불연속 및 음성 파형의 왜곡 문제를 해결하고, 양자화 에러를 최소화 함으로써 높은 음질 및 낮은 복잡도의 성능에 장점이 있다. 그리고 SNR 확장 기능을 제공함으로써 주어진 채널 환경에서 최적의 통신이 가능하도록 하는 효과가 있다.

Claims (22)

  1. 광대역 음성 신호로부터 선형 예측 계수를 추출하는 단계;
    상기 선형 예측 계수를 이용하여 상기 음성 신호로부터 포락선이 제거된 선형 예측 잔여 신호를 출력하는 단계;
    상기 선형 예측 잔여 신호의 스펙트럼을 피치 검색하는 단계;
    매칭 퍼슈잇(Matching Pursuit) 알고리즘에 댐핑 요소(damping factor)를 첨가하여, 상기 댐핑 요소에 해당하는 선형 예측 잔여 신호의 스펙트럼의 크기와 위상을 추출하는 단계;
    추출된 스펙트럼 크기와 위상 중에서 선형 예측 잔여 신호의 파워값이 가장 작은 경우의 제1 스펙트럼 크기와 제1 위상을 구하는 단계;
    상기 제1 스펙트럼 크기와 상기 제1 위상을 양자화 시키는 단계; 및
    상기 광대역 음성 신호를 복호화시키는 단계를 포함하는 것을 특징으로 하는 광대역 음성 신호의 복호화/부호화 방법.
  2. 제1항에 있어서,
    상기 댐핑 요소는 상기 선형 예측 잔여 신호의 스펙트럼 크기 댐핑 요소와 주파수 댐핑 요소를 포함하는 것을 특징으로 하는 광대역 음성 신호의 복호화/부호화 방법.
  3. 제2항에 있어서,
    상기 선형 예측 잔여 신호의 스펙트럼의 크기와 위상을 추출하는 단계는,
    상기 주파수 댐핑 요소를 이용하여, 상기 선형 예측 잔여 신호에서 피치 검색된 각각의 주파수에 대하여 복수의 후보 주파수를 설정하는 단계;
    상기 피치 검색된 주파수 각각에 대하여, 상기 후보 주파수 중에서 에러값이 최소가 되게 하는 주파수와 위상을 구하여 정현파 사전(Sinsodial dictionary)값을 구하고, 상기 피치 검색된 주파수 각각에 대하여 생성된 정현파 사전값을 누적하는 단계;
    상기 목적 신호에서 상기 누적된 정현파 사전값을 뺄셈하여 최종 잔여 신호를 생성하는 단계; 및
    상기 최종 잔여 신호의 상기 피치 검색된 각각의 주파수에 대하여 파워값이 최소가 되게 하는 상기 제1 스펙트럼 크기와 제1 위상에 해당하는 주파수 댐핑 요소를 검출하는 단계를 포함하는 것을 특징으로 하는 광대역 음성 신호의 복호화/부호화 방법.
  4. 제3항에 있어서,
    상기 복수의 후보 주파수를 설정하는 단계는,
    상기 선형 예측 잔여 신호에서 기본 주파수의 n배에 해당하는 피치 검색된 주파수에 대하여, 상기 주파수 댐핑 요소를 이용하여, 기본 주파수의 (n-1)배에 해당하는 주파수와 기본 주파수의 (n+1)배에 해당하는 주파수 사이에서 복수의 후보 주파수를 설정하는 것을 특징으로 하는 광대역 음성 신호의 복호화/부호화 방법.
  5. 제4항에 있어서,
    상기 누적되는 정현파 사전의 개수는 상기 광대역 음성 신호의 스펙트럼 개수와 일치하는 것을 특징으로 하는 광대역 음성 신호의 복호화/부호화 방법.
  6. 제3항에 있어서,
    상기 제1 스펙트럼 크기와 제1 위상을 이용하여 상기 스펙트럼 크기 댐핑 요소를 구하고 양자화하는 것을 특징으로 하는 광대역 음성 신호의 복호화/부호화 방법.
  7. 제6항에 있어서,
    상기 제1 스펙트럼의 크기를 DCT(Discrete Cosine Transform)을 이용하여 양자화하는 것을 특징으로 하는 광대역 음성 신호의 복호화/부호화 방법.
  8. 제7항에 있어서,
    상기 제1 위상을 양자화하는 방법은,
    상기 제1 위상과 상기 제1 위상으로부터 생성된 제1 코드북 위상의 차이를 구하여 상기 제1 위상에 대응하는 포락선값을 곱하고, 각각을 합산하여 거리값을 구하는 단계;
    상기 거리값이 최소가 되는 제1 코드북 위상을 검출하여 출력하는 단계;
    상기 제1 코드북 위상과 상기 제1 위상의 차이로부터 생성된 위상에러벡터를 조정하여 제2 위상을 생성하고, 상기 제2 위상과 상기 제2 위상으로부터 생성된 제2 코드북 위상 차이를 구하여 상기 제2 위상에 대응하는 포락선값을 곱하고, 각각을 합산하여 거리값을 구하는 단계; 및
    상기 거리값이 최소가 되는 제2 코드북 위상을 검출하여 출력하는 단계를 포함하는 것을 특징으로 하는 광대역 음성 신호의 복호화/부호화 방법.
  9. 제8항에 있어서,
    다양한 전송률에 따른 모드 정보에 의해 비트 할당을 결정하여 상기 댐핑 요소, 상기 스펙트럼의 크기, 위상 및 피치를 양자화하는 것을 특징으로 하는 광대역 음성 신호의 복호화/부호화 방법.
  10. 제6항에 있어서,
    상기 광대역 음성 신호를 복호화하는 단계는,
    상기 양자화된 제1 스펙트럼 크기와 상기 제1 위상을 복호화하는 단계;
    상기 양자화된 댐핑요소를 복호화하는 단계;
    상기 제1 스펙트럼 크기, 상기 제1 위상, 상기 댐핑요소 및 피치값 중 적어도 하나를 이용하여 선형 예측 잔여 신호를 합성하는 단계; 및
    상기 선형 예측 잔여 신호로부터 광대역 음성 신호를 복호화하는 단계를 포함하는 것을 특징으로 하는 광대역 음성 신호의 복호화/부호화 방법.
  11. 광대역 음성 부호화 시스템의 광대역 음성 신호의 부호화 장치에 있어서,
    상기 광대역 음성 신호로부터 선형 예측 계수를 추출하는 LPC(Linear Prediction Coefficient) 분석기;
    상기 선형 예측 계수를 이용하여 상기 음성 신호로부터 포락선이 제거된 선형 예측 잔여 신호를 출력하는 LPC 역필터;
    상기 선형 예측 잔여 신호의 스펙트럼을 피치 검색하는 피치 검색기;
    매칭 퍼슈잇(Matching Pursuit) 알고리즘에 댐핑 요소(damping factor)를 첨가하여, 상기 댐핑 요소에 해당하는 선형 예측 잔여 신호의 스펙트럼의 크기와 위상을 추출하고, 추출된 상기 스펙트럼 크기와 위상 중에서 선형 예측 잔여 신호의 파워값이 가장 작은 경우의 제1 스펙트럼 크기와 제1 위상을 구하는 정현파 분석기; 및
    상기 제1 스펙트럼 크기와 상기 제1 위상을 양자화 시키는 위상/스펙트럼 크기 양자화기를 포함하는 것을 특징으로 하는 광대역 음성 신호의 부호화 장치.
  12. 제11항에 있어서,
    상기 댐핑 요소는 상기 선형 예측 잔여 신호의 스펙트럼 크기 댐핑 요소와 주파수 댐핑 요소를 포함하는 것을 특징으로 하는 광대역 음성 신호의 부호화 장치.
  13. 제12항에 있어서,
    상기 정현파 분석기는,
    상기 주파수 댐핑 요소를 이용하여, 상기 선형 예측 잔여 신호에서 피치 검색된 각각의 주파수에 대하여 복수의 후보 주파수를 설정하는 주파수 댐핑 요소 적용부;
    상기 피치 검색된 주파수 각각에 대하여, 상기 후보 주파수 중에서 에러값이 최소가 되게 하는 주파수와 위상을 구하는 에러 최소화부;
    상기 에러 최소화부에서 출력된 주파수와 위상을 통하여 정현파 사전(Sinsodial dictionary)값을 구하는 사전 성분 생성부;
    상기 피치 검색된 주파수 각각에 대하여 생성된 정현파 사전값을 상기 사전 성분 생성부로부터 수신하여 누적하는 누적부;
    상기 선형 예측 잔여 신호에서 상기 누적된 정현파 사전값을 뺄셈하여 최종 잔여 신호를 생성하는 연산부; 및
    상기 최종 잔여 신호의 상기 피치 검색된 주파수에 각각의 주파수에 대하여 파워값이 최소가 되게 하는 상기 제1 스펙트럼 크기와 제1 위상에 해당하는 주파수 댐핑 요소를 검출하는 댐핑 요소 선택부를 포함하는 것을 특징으로 하는 광대역 음성 신호의 부호화 장치.
  14. 제13항에 있어서,
    상기 주파수 댐핑 요소 적용부는
    상기 선형 예측 잔여 신호에서 기본 주파수의 n배에 해당하는 피치 검색된 주파수에 대하여, 상기 주파수 댐핑 요소를 이용하여, 기본 주파수의 (n-1)배에 해당하는 주파수와 기본 주파수의 (n+1)배에 해당하는 주파수 사이에서 복수의 후보 주파수를 설정하는 것을 특징으로 하는 광대역 음성 신호의 부호화 장치.
  15. 제14항에 있어서,
    상기 누적되는 정현파 사전의 개수는 상기 광대역 음성 신호의 스펙트럼 개수와 일치하는 것을 특징으로 하는 광대역 음성 신호의 부호화 장치.
  16. 제13항에 있어서,
    상기 광대역 음성 신호의 부호화 장치는,
    상기 제1 스펙트럼 크기와 제1 위상을 이용하여 상기 스펙트럼 크기 댐핑 요소를 구하는 댐핑 요소 합성부를 더 포함하는 것을 특징으로 하는 광대역 음성 신호의 부호화 장치.
  17. 제16항에 있어서,
    상기 위상/스펙트럼 크기 양자화기는,
    상기 제1 스펙트럼의 크기를 DCT(Discrete Cosine Transform)을 이용하여 양자화하는 것을 특징으로 하는 광대역 음성 신호의 부호화 장치.
  18. 제17항에 있어서,
    상기 위상/스펙트럼 크기 양자화기는,
    상기 제1 위상과 상기 제1 위상으로부터 생성된 제1 코드북 위상의 차이를 구하여 상기 제1 위상에 대응하는 포락선값을 곱하고, 각각을 합산하여 거리값을 구하는 거리 계산 블록;
    상기 거리값이 최소가 되는 제1 코드북 위상을 검출하며, 상기 제1 코드북 위상과 상기 제1 위상의 차이로부터 생성된 위상에러벡터에 가중치 함수를 연산하여 제2 위상을 출력하는 최소화 블록;
    상기 최소화 블록으로 상기 스펙트럼 크기와 피치에 대한 상기 가중치 함수를 출력하는 가중치 함수 블록을 포함하는 것을 특징으로 하는 광대역 음성 신호의 부호화 장치.
  19. 제18항에 있어서,
    복수의 상기 위상/스펙트럼 크기 양자화기가 병렬로 연결되어 상기 제1 위상을 양자화하는 것을 특징으로 하는 광대역 음성 신호의 부호화 장치.
  20. 제18항에 있어서,
    상기 광대역 음성 신호의 부호화 장치는,
    다양한 전송률에 따른 모드 정보에 의해 비트 할당을 결정하여 상기 댐핑 요소, 상기 스펙트럼의 크기, 위상 및 피치를 양자화하는 것을 특징으로 하는 광대역 음성 신호의 부호화 장치.
  21. 광대역 음성 신호로부터 추출된 선형 예측 계수를 이용하여 상기 음성 신호로부터 포락선이 제거된 선형 예측 잔여 신호를 구하고, 매칭 퍼슈잇(Matching Pursuit) 알고리즘에 댐핑 요소(damping factor)를 첨가하여, 상기 댐핑 요소에 해당하는 선형 예측 잔여 신호의 스펙트럼의 크기와 위상을 추출하고, 추출된 상기 스펙트럼 크기와 위상 중에서 선형 예측 잔여 신호의 파워값이 가장 작은 경우의 제1 스펙트럼 크기와 제1 위상을 구하여 양자화 시키는 광대역 음성 신호의 부호화 장치; 및
    상기 양자화된 상기 제1 스펙트럼 크기와 상기 제1 위상 및 댐핑 요소를 복호화하고 상기 선형 예측 잔여 신호를 합성하여 상기 광대역 음성 신호를 복호화하는 광대역 음성 신호의 복호화 장치를 포함하는 것을 특징으로 하는 광대역 음성 부호화 및 복호화 시스템.
  22. 제1항 내지 제10항에 기록된 방법 중 하나를 컴퓨터에 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020060118546A 2006-11-28 2006-11-28 광대역 음성 신호의 부호화/복호화 방법 KR100788706B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020060118546A KR100788706B1 (ko) 2006-11-28 2006-11-28 광대역 음성 신호의 부호화/복호화 방법
US11/838,268 US8271270B2 (en) 2006-11-28 2007-08-14 Method, apparatus and system for encoding and decoding broadband voice signal
PCT/KR2007/005768 WO2008066268A1 (en) 2006-11-28 2007-11-16 Method, apparatus, and system for encoding and decoding broadband voice signal
CN2007800440207A CN101542599B (zh) 2006-11-28 2007-11-16 用于编码和解码宽带语音信号的方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060118546A KR100788706B1 (ko) 2006-11-28 2006-11-28 광대역 음성 신호의 부호화/복호화 방법

Publications (1)

Publication Number Publication Date
KR100788706B1 true KR100788706B1 (ko) 2007-12-26

Family

ID=39147993

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060118546A KR100788706B1 (ko) 2006-11-28 2006-11-28 광대역 음성 신호의 부호화/복호화 방법

Country Status (4)

Country Link
US (1) US8271270B2 (ko)
KR (1) KR100788706B1 (ko)
CN (1) CN101542599B (ko)
WO (1) WO2008066268A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011087332A3 (ko) * 2010-01-15 2011-12-01 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466673B (en) * 2009-01-06 2012-11-07 Skype Quantization
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
JP2012032648A (ja) * 2010-07-30 2012-02-16 Sony Corp 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置
KR101747917B1 (ko) 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
KR102048076B1 (ko) * 2011-09-28 2019-11-22 엘지전자 주식회사 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치
CN102737647A (zh) * 2012-07-23 2012-10-17 武汉大学 双声道音频音质增强编解码方法及装置
JP6248190B2 (ja) * 2013-06-21 2017-12-13 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ信号の置換フレームのためのスペクトル係数を得るための方法および装置、オーディオデコーダ、オーディオ受信機ならびにオーディオ信号を送信するためのシステム
US10074375B2 (en) * 2014-01-15 2018-09-11 Samsung Electronics Co., Ltd. Weight function determination device and method for quantizing linear prediction coding coefficient
KR102298767B1 (ko) * 2014-11-17 2021-09-06 삼성전자주식회사 음성 인식 시스템, 서버, 디스플레이 장치 및 그 제어 방법
US10531099B2 (en) * 2016-09-30 2020-01-07 The Mitre Corporation Systems and methods for distributed quantization of multimodal images
CN111812603B (zh) * 2020-07-17 2021-04-09 中国人民解放军海军航空大学 一种反舰导弹雷达导引头动态性能验证系统
CN114360559B (zh) * 2021-12-17 2022-09-27 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259190A (ja) 1999-03-09 2000-09-22 Matsushita Electric Ind Co Ltd オーディオ信号圧縮方法及びオーディオ信号復号方法とオーディオ信号圧縮装置
KR20000074088A (ko) * 1999-05-18 2000-12-05 윤종용 음성 코딩/디코딩 장치 및 그 방법
KR20020022257A (ko) * 2000-09-19 2002-03-27 오길록 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법
JP2002149198A (ja) 2000-11-13 2002-05-24 Matsushita Electric Ind Co Ltd 音声符号化装置及び音声復号化装置
US20030187635A1 (en) 2002-03-28 2003-10-02 Ramabadran Tenkasi V. Method for modeling speech harmonic magnitudes
KR20050113744A (ko) * 2004-05-31 2005-12-05 에스케이 텔레콤주식회사 음성 코드북 구축 시스템 및 방법

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5630011A (en) * 1990-12-05 1997-05-13 Digital Voice Systems, Inc. Quantization of harmonic amplitudes representing speech
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
JPH10124092A (ja) * 1996-10-23 1998-05-15 Sony Corp 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置
JPH11219199A (ja) * 1998-01-30 1999-08-10 Sony Corp 位相検出装置及び方法、並びに音声符号化装置及び方法
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
JP4244223B2 (ja) 1998-10-13 2009-03-25 日本ビクター株式会社 音声符号化方法及び音声復号方法
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
CN1216366C (zh) * 2000-11-03 2005-08-24 皇家菲利浦电子有限公司 基于正弦模型的音频信号编码
CN1408146A (zh) * 2000-11-03 2003-04-02 皇家菲利浦电子有限公司 音频信号的参数编码
JP3639216B2 (ja) 2001-02-27 2005-04-20 三菱電機株式会社 音響信号符号化装置
KR100462611B1 (ko) * 2002-06-27 2004-12-20 삼성전자주식회사 하모닉 성분을 이용한 오디오 코딩방법 및 장치
CN1717718A (zh) * 2002-11-27 2006-01-04 皇家飞利浦电子股份有限公司 正弦波音频编码
US7523032B2 (en) * 2003-12-19 2009-04-21 Nokia Corporation Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal
KR20070029751A (ko) * 2004-06-22 2007-03-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 인코딩 및 디코딩
MX2007003063A (es) * 2004-09-17 2007-05-16 Koninkl Philips Electronics Nv Codificacion combinada de audio que minimiza la distorsion perceptual.
US20090138271A1 (en) * 2004-11-01 2009-05-28 Koninklijke Philips Electronics, N.V. Parametric audio coding comprising amplitude envelops
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
KR100707186B1 (ko) * 2005-03-24 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
US8892448B2 (en) * 2005-04-22 2014-11-18 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259190A (ja) 1999-03-09 2000-09-22 Matsushita Electric Ind Co Ltd オーディオ信号圧縮方法及びオーディオ信号復号方法とオーディオ信号圧縮装置
KR20000074088A (ko) * 1999-05-18 2000-12-05 윤종용 음성 코딩/디코딩 장치 및 그 방법
KR20020022257A (ko) * 2000-09-19 2002-03-27 오길록 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법
JP2002149198A (ja) 2000-11-13 2002-05-24 Matsushita Electric Ind Co Ltd 音声符号化装置及び音声復号化装置
US20030187635A1 (en) 2002-03-28 2003-10-02 Ramabadran Tenkasi V. Method for modeling speech harmonic magnitudes
KR20050113744A (ko) * 2004-05-31 2005-12-05 에스케이 텔레콤주식회사 음성 코드북 구축 시스템 및 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Damping 요소를 첨가한 매칭 퍼슈잇 정현파 모델링, 대한전자공학회논문지SP, 2007, 44(1), pp.105-113
G.723.1,G.729 부호화기와 MLT 방법을 이용한 광대역 음성 부호화기 설계,대한전자공학회:학술대회지,pp.939-942, 2001
광대역 음성부호화기를 위한 매칭퍼슈잇 알고리즘과 CELP 방법을 이용한 고대역 부호화 방법, 한국음향학회지, 2006, 25(1), pp.21-29
정현파 모델 부호화기를 위한 MP(Matching Pursuit) 알고리즘과 파라미터 양자화기, 한국음향학회지, 2005, 24(7), pp.402-409

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011087332A3 (ko) * 2010-01-15 2011-12-01 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN102870155A (zh) * 2010-01-15 2013-01-09 Lg电子株式会社 处理音频信号的方法和装置
US9305563B2 (en) 2010-01-15 2016-04-05 Lg Electronics Inc. Method and apparatus for processing an audio signal
KR101764633B1 (ko) * 2010-01-15 2017-08-04 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US9741352B2 (en) 2010-01-15 2017-08-22 Lg Electronics Inc. Method and apparatus for processing an audio signal

Also Published As

Publication number Publication date
US8271270B2 (en) 2012-09-18
US20080126084A1 (en) 2008-05-29
CN101542599A (zh) 2009-09-23
WO2008066268A1 (en) 2008-06-05
CN101542599B (zh) 2013-08-21

Similar Documents

Publication Publication Date Title
KR100788706B1 (ko) 광대역 음성 신호의 부호화/복호화 방법
RU2696292C2 (ru) Аудиокодер и декодер
JP4731775B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
KR100804461B1 (ko) 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치
EP0673014B1 (en) Acoustic signal transform coding method and decoding method
KR100304092B1 (ko) 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
US7792679B2 (en) Optimized multiple coding method
US20010016817A1 (en) CELP-based to CELP-based vocoder packet translation
US6094629A (en) Speech coding system and method including spectral quantizer
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
JP2001222297A (ja) マルチバンドハーモニック変換コーダ
JPH11143499A (ja) 切替え型予測量子化の改良された方法
JPH08263099A (ja) 符号化装置
KR20070070174A (ko) 스케일러블 부호화 장치, 스케일러블 복호 장치 및스케일러블 부호화 방법
BRPI0714825A2 (pt) Sistemas e métodos para incluir um identificador a um pacote associado a um sinal de fala
JP2004526213A (ja) 音声コーデックにおける線スペクトル周波数ベクトル量子化のための方法およびシステム
KR20070083856A (ko) 스케일러블 부호화 장치, 스케일러블 복호화 장치 및이러한 방법
JP2003323199A (ja) 符号化装置、復号化装置及び符号化方法、復号化方法
JPWO2009125588A1 (ja) 符号化装置および符号化方法
JP2006171751A (ja) 音声符号化装置及び方法
KR100460109B1 (ko) 음성패킷 변환을 위한 lsp 파라미터 변환장치 및 방법
WO2011118977A2 (ko) 오디오 신호 처리 방법 및 장치
JP4574320B2 (ja) 音声符号化方法、広帯域音声符号化方法、音声符号化装置、広帯域音声符号化装置、音声符号化プログラム、広帯域音声符号化プログラム及びこれらのプログラムを記録した記録媒体
KR100712409B1 (ko) 벡터의 차원변환 방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20141127

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20151127

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20161129

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20171129

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20181129

Year of fee payment: 12