KR19990065424A - 저지연 다중밴드 여기 보코더를 위한 피치 결정방식 - Google Patents

저지연 다중밴드 여기 보코더를 위한 피치 결정방식 Download PDF

Info

Publication number
KR19990065424A
KR19990065424A KR1019980000697A KR19980000697A KR19990065424A KR 19990065424 A KR19990065424 A KR 19990065424A KR 1019980000697 A KR1019980000697 A KR 1019980000697A KR 19980000697 A KR19980000697 A KR 19980000697A KR 19990065424 A KR19990065424 A KR 19990065424A
Authority
KR
South Korea
Prior art keywords
pitch
candidate
error amount
vocoder
spectrum
Prior art date
Application number
KR1019980000697A
Other languages
English (en)
Inventor
조용덕
김홍국
김무영
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR1019980000697A priority Critical patent/KR19990065424A/ko
Priority to US09/148,777 priority patent/US6119081A/en
Publication of KR19990065424A publication Critical patent/KR19990065424A/ko

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명은 다중밴드여기 보코더에서의 피치를 결정하는 방법에 관한 것으로서, 피치 결정 방법은 입력음성 크기 스펙트럼으로부터 소정의 피치 영역에서의 각각의 피치 후보에 대한 오차량을 구하는 제1 단계; 각각의 피치 후보들에 대한 가중함수를 구하는 제2 단계; 각각의 피치 후보들에 대한 가중화된 오차량을 구하는 제3 단계; 및 각각의 피치 후보들에 대한 가중화된 오차량 중에서 최소 오차량을 갖는 후보 피치를 추정 피치로 결정하는 제4 단계를 포함함을 특징으로 한다.
본 발명에 의하면, 다중밴드여기 방식의 보코더에 있어서, 피치 트랙킹 방식을 사용하지 않고도 그로스 피치 오차를 제거할 수 있으므로 지연시간이 짧아 높은 통화품질을 얻을 수 있다.

Description

저지연 다중밴드여기 보코더를 위한 피치 결정 방식
본 발명은 보코더(vocoder)에 관한 것으로서, 특히 다중밴드여기(Multiband Excitation, MBE) 방식의 보코더에서의 피치(pitch) 결정 방법에 관한 것이다.
보코더 (vocoder) 혹은 음성부호화기는 일반적으로 통신망에서 음성을 전송할 때 상기 음성신호를 압축하는 장치이다. 따라서, 음성부호화기의 성능에 따라 통화품질에 상당한 차이가 발생한다.
통화품질은 크게 두가지 요소에 의하여 결정되는데, 그 중 하나는 음성부호화기의 복원음질이고, 다른 하나는 음질 복원을 위한 지연시간이다. 특히, 음질 복원을 위한 지연시간이 길어지면 에코우(echo) 등이 발생하여, 통화가 자연스럽지 못하게 된다. 따라서, 음성부호화기에서는 저지연의 음질 복원이 요구된다.
최근, 음성부호화 기술에서는 다중밴드여기방식이 저전송률(대개, 1~4 kbit/s)의 음성부호화기로 널리 사용되고 있다. 다중밴드여기 방식은 저전송률에서 고음질을 재생한다고 널리 알려져 있다. 그러나, 상기 다중밴드여기방식은 지연시간이 길어 위성통신 외에 지상의 셀룰러망 등에서는 사용하기가 곤란하다. 상기 다중밴드여기 방식에서 지연시간이 길어지는 것은 피치결정과정 때문이다.
일반적으로, 음성신호의 피치추정과정에서는 그로스 피치 오차(gross pitch error)와 파인 피치 오차(fine pitch error)의 두가지 종류의 에러를 고려한다. 상기 그로스 피치 오차는 원래의 피치와 추정 피치 간의 차가 상당히 큰 경우의 피치 오차로서, 상기 추정 피치가 상기 원래의 피치의 두 배로 되거나(pitch doubling), 반으로 되는 경우(pitch halving)가 이에 해당된다. 상기 파인 피치 오차는 피치를 표현하는 해상도(resolution)의 한계로 인하여 발생한다.
종래의 MBE 보코더에서는 다음과 같은 스펙트럴 분석-합성법(spectral analysis-by-synthesis)에 의한 단편(fractional) 피치 탐색을 함으로서 상기 파인 피치 오차에 관한 문제를 해결한다.
상기 스펙트럴 분석-합성법에 의한 피치추정법에 의하면, 주어진 크기(magnitude) 스펙트럼 |S(ω)|에 대해서 추정 피치 τ*는 다음의 에러량 ζ(τ) 을 최소화함으로서 구할 수 있다.
(여기서,는 소정의 피치 영역에서의 각각의 피치 후보 τ에서 합성된 크기 스펙트럼이고, B(τ)는 오차량의 바이어싱 값이다.)
상기 스펙트럴 분석-합성법에 의하면, 도 2a에서와 같은 긴 피치 구간을 갖는 입력음성에 대해서는 도 2b에 도시된 바와 같이 정교한 피치 추정이 가능하다(원으로 표시된 위치가 추정된 피치의 위치이다). 그렇지만, 도 3a와 같이 피치 구간이 짧으면서 상당히 주기성이 높은 음성에 대해서는 피치의 정수배에서 오차가 비슷하여 도 3b에 도시된 바와 같이 정확한 피치 추정이 어렵다. 따라서, 종래의 스펙트럴 분석-합성법에 의한 피치 추정 방식에 의하면, 그로스 피치 오차를 야기시킬 가능성이 크고, 복원음성의 음질이 저하되는 경우가 많다.
이를 극복하기 위하여, 종래의 스펙트럴 분석-합성법을 채택한 MBE 보코더에서는 피치 트랙킹(pitch tracking) 방식을 사용한다. 하지만, 상기 피치 트랙킹 방식은 긴 룩어헤드(lookahead)(일반적으로 약 80 ms)를 필요로 하므로, 종래의 MBE 보코더를 저지연 부호화기로 사용하기는 곤란하다.
본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, 다중밴드여기 방식의 보코더에 있어서, 통화품질을 높이기 위하여 피치 트랙킹 방식을 사용하지 않고도 짧은 지연시간 내에 그로스 피치 오차를 제거할 수 있는 저지연 다중밴드여기 보코더를 위한 피치 결정 방법을 제공함을 그 목적으로 한다.
도 1은 본 발명에 의한 다중밴드여기 보코더에서의 피치 결정 과정을 도시한 흐름도이다.
도 2a는 긴 피치 구간을 갖는 남성의 시간 영역에서의 음성 파형의 일예를 도시한 것이다.
도 2b는 도 2a에 도시된 음성 파형에 대한 종래의 스펙트럴 분석-합성 방식에 의한 오차량을 도시한 것이다.
도 2c는 도 2a에 도시된 음성 파형에 대한 정규화된 스펙트럴 코베리언스를 도시한 것이다.
도 2d는 도 2a에 도시된 음성 파형에 대한 본 발명에 의한 가중화된 오차량을 도시한 것이다.
도 3a는 짧은 피치 구간을 갖는 여성의 시간 영역에서의 음성 파형의 일예를 도시한 것이다.
도 3b는 도 3a에 도시된 음성 파형에 대한 종래의 스펙트럴 분석-합성 방식에 의한 오차량을 도시한 것이다.
도 3c는 도 3a에 도시된 음성 파형에 대한 정규화된 스펙트럴 코베리언스를 도시한 것이다.
도 3d는 도 3a에 도시된 음성 파형에 대한 본 발명에 의한 가중화된 오차량을 도시한 것이다.
도 4a는 한국 여성의 시간 영역에서의 음성 파형의 일예를 도시한 것이다.
도 4b는 도 4a에 도시된 음성 파형에 대한 종래의 스펙트럴 분석-합성 방식에 의한 피치 윤곽을 도시한 것이다.
도 4c는 도 4a에 도시된 음성 파형에 대한 본 발명에 의한 피치 윤곽을 도시한 것이다.
상기의 목적을 달성하기 위하여, 본 발명에 의한 다중밴드여기 보코더에서의 피치(pitch)를 결정하는 방법은 입력음성 크기 스펙트럼으로부터 소정의 피치 영역에서의 각각의 피치 후보에 대해 합성된 크기 스펙트럼과 오차량의 바이어싱 값을 구하고, 상기 각각의 피치 후보 τ들에 대한 오차량 ζ(τ)을 구하는 제1 단계; 상기 각각의 피치 후보 τ들에 대한 가중함수 W(τ)를 구하는 제2 단계; 상기 제1 단계에서 구한 오차량 ζ(τ)에 상기 제2 단계에서 구한 가중함수 W(τ)를 곱하여, 상기 각각의 피치 후보 τ들에 대한 가중화된 오차량 ζW(τ)을 구하는 제3 단계; 및 상기 제3 단계에서 구한 상기 각각의 피치 후보 τ들에 대한 가중화된 오차량 ζW(τ) 중에서 최소 오차량을 갖는 후보 피치를 추정 피치로 결정하는 제4 단계를 포함함을 특징으로 한다.
이하에서 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
본 발명은 종래 기술에 의한 스펙트럴 분석-합성법을 보정하기 위하여, 정규화된 스펙트럴 코베리언스(normalized spectral covariance)를 제안한다. 소정의 피치 영역에서의 각각의 피치 후보 τ에서 정규화된 스펙트럴 코베리언스 C(τ)는 다음과 같이 정의한다.
(여기에서 ωτ= 2π/τ이고, 는 여기 스펙트럼의 평균이 0가 되도록 수정된 스펙트럼이다)
수정된 스펙트럼는 다음과 같이 구하여진다.
상기 수학식 4에 포함된 여기 스펙트럼(excitation spectrum) |E(ω)|은 입력된 음성 크기 스펙트럼 |S(ω)|에서 스펙트럴 엔벨로프 |A(ω)|의 영향을 제거하여 구하여진다. 즉, |E(ω)| =|S(ω)|/|A(ω)|.
도 3a와 같은 입력음성 신호에 대해서, 소정의 피치 영역에 따른 정규화된 스펙트럴 코베리언스는 도 3c와 같이 도시된다. 도 3c에 의하면, 하나의 피치에서 정규화된 스펙트럴 코베리언스 값이 상당히 높게 나타난다. 따라서, 정규화된 스펙트럴 코베리언스는 그로스 피치 오차를 제거하는데 매우 유용하다.
그렇지만, 상기 정규화된 스펙트럴 코베리언스만으로는 추정 피치를 결정하는데 문제가 있다. 도 2c에 도시된 바와 같이, 피치 해상도가 낮을 뿐만 아니라, 정수로 나눠지는 (integer division) 피치에서도 코베리언스의 값이 매우 높게 나타남을 알 수 있다. 따라서, 상기 정규화된 코베리언스에 의한 방식은 피치 추정을 위해 독립적으로 사용할 수는 없고, 다른 피치 추정 방식과 결합하여 사용해야 유용하다.
그로스 피치 오차를 제거하면서 높은 해상도의 피치를 얻기 위하여, 종래의 스펙트럴 분석-합성법과 상기 정규화된 스펙트럴 코베리언스 방식을 결합하여, 본 발명에 의한 가중된 스펙트럴 분석-합성법을 정의한다. 이를 위하여, 정규화된 스펙트럴 코베리언스 C(τ)는 가중함수 W(τ)로 다음과 같이 변환한다.
그리고, 상기 수학식 1에 의해 구한 에러량 ζ(τ)과 상기 수학식 5에 의해 구한 가중함수 W(τ)를 결합함으로서, 가중화된 에러량 ζW(τ)를 다음과 같이 정의한다.
상기 수학식 6에서, 상기 에러량 ζW(τ)에서 ζ(τ)는 피치 해상도를 높이게 하고, W(τ)는 그로스 피치 오차를 제거하는 역활을 한다.
도 2d와 도 3d에서는 가중화된 스펙트럴 분석-합성 방식이 정확한 피치 결정을 함을 보여준다.
도 1에 의하면, 본 발명에 의한 다중밴드여기 보코더에서의 피치를 결정하는 과정은 다음과 같다.
먼저, 입력된 음성 크기 스펙트럼에서 소정의 피치 영역에서의 각각의 피치 후보에 대해 합성된 크기 스펙트럼과 오차량의 바이어싱 값을 구하고, 소정의 피치 영역에서의 각각의 피치 후보 τ들에 대한 오차량 ζ(τ)을 상기 수학식 1에 의해 구한다(100 단계).
다음, 상기 각각의 피치 후보 τ들에 대한 가중함수 W(τ)를 상기 수학식 5에 의해 구한다(110 단계).
다음, 상기 각각의 피치 후보 τ들에 대한 가중화된 오차량 ζW(τ)을 상기 수학식 6에 의해 구한다(120 단계).
그리고, 상기 120 단계에서 구한 상기 각각의 피치 후보 τ들에 대한 가중화된 오차량 ζW(τ) 중에서 최소 오차량을 갖는 후보 피치를 추정 피치로 결정한다(130 단계).
도 4a 내지 도 4c는 1초간 발성된 여성 음성에 대하여, 종래의 스펙트럴 분석-합성 방식에 의한 피치 윤곽과 본 발명에 의한 피치 윤곽을 도시한 것이다. 상기 도면들을 상호 비교하여 보면, 종래의 방식은 그로스 피치 오차를 자주 야기하지만 본 발명에 의하면 그로스 피치 오차가 없음을 알 수 있다.
본 발명에 의하면, 다중밴드여기 방식의 보코더에 있어서, 피치 트랙킹 방식을 사용하지 않고도 그로스 피치 오차를 제거할 수 있으므로 지연시간이 짧아 높은 통화품질을 얻을 수 있다.

Claims (5)

  1. 다중밴드여기 보코더에서의 피치(pitch)를 결정하는 방법에 있어서,
    입력음성 크기 스펙트럼으로부터 소정의 피치 영역에서의 각각의 피치 후보에 대해 합성된 크기 스펙트럼과 오차량의 바이어싱 값을 구하고, 상기 각각의 피치 후보 τ에 대한 오차량 ζ(τ)을 구하는 제1 단계;
    상기 각각의 피치 후보 τ들에 대한 가중함수 W(τ)를 구하는 제2 단계;
    상기 제1 단계에서 구한 오차량 ζ(τ)에 상기 제2 단계에서 구한 가중함수 W(τ)를 곱하여, 상기 각각의 피치 후보 τ들에 대한 가중화된 오차량 ζW(τ)을 구하는 제3 단계; 및
    상기 제3 단계에서 구한 상기 각각의 피치 후보 τ들에 대한 가중화된 오차량 ζW(τ) 중에서 최소 오차량을 갖는 후보 피치를 추정 피치로 결정하는 제4 단계를 포함함을 특징으로 하는 저지연 다중밴드여기 보코더를 위한 피치 결정 방식.
  2. 제1항에 있어서, 상기 제1 단계에서 상기 각각의 피치 후보 τ들에 대한 오차량 ζ(τ)은 수학식
    (여기에서, |S(ω)|는 입력음성 크기 스펙트럼이고,는 상기 각각의 피치 후보 τ에서 합성된 크기 스펙트럼이고, B(τ)는 상기 각각의 피치 후보 τ에 대한 오차량의 바이어싱 값이다)에 의해 구하는 것을 특징으로 하는 저지연 다중밴드여기 보코더를 위한 피치 결정 방식.
  3. 제1항에 있어서, 상기 제2 단계에서 상기 각각의 피치 후보 τ들에 대한 가중함수 W(τ)은 수학식
    (여기에서, C(τ)는 상기 각각의 피치 후보 τ들에 대한 스펙트럴 코베리언스이다)에 의해 구하는 것을 특징으로 하는 저지연 다중밴드여기 보코더를 위한 피치 결정 방식.
  4. 제3항에 있어서, 상기 각각의 피치 후보 τ들에 대한 스펙트럴 코베리언스 C(τ)는 수학식
    (여기에서, ωτ=2π/τ이고,는 여기 스펙트럼의 평균이 0가 되도록 수정된 스펙트럼이다)에 의해 구하는 것을 특징으로 하는 저지연 다중밴드여기 보코더를 위한 피치 결정 방식.
  5. 제4항에 있어서, 상기 수정된 스펙트럼는 수학식
    (여기에서, E(ω)는 입력음성 크기 스펙트럼 |S(ω)|에서 스펙트럴 엔벨로프 |A(ω)|의 영향을 제거하여 얻는 여기 스펙트럼이다)에 의해 구하는 것을 특징으로 하는 저지연 다중밴드여기 보코더를 위한 피치 결정 방식.
KR1019980000697A 1998-01-13 1998-01-13 저지연 다중밴드 여기 보코더를 위한 피치 결정방식 KR19990065424A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019980000697A KR19990065424A (ko) 1998-01-13 1998-01-13 저지연 다중밴드 여기 보코더를 위한 피치 결정방식
US09/148,777 US6119081A (en) 1998-01-13 1998-09-04 Pitch estimation method for a low delay multiband excitation vocoder allowing the removal of pitch error without using a pitch tracking method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980000697A KR19990065424A (ko) 1998-01-13 1998-01-13 저지연 다중밴드 여기 보코더를 위한 피치 결정방식

Publications (1)

Publication Number Publication Date
KR19990065424A true KR19990065424A (ko) 1999-08-05

Family

ID=19531356

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980000697A KR19990065424A (ko) 1998-01-13 1998-01-13 저지연 다중밴드 여기 보코더를 위한 피치 결정방식

Country Status (2)

Country Link
US (1) US6119081A (ko)
KR (1) KR19990065424A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114556473A (zh) * 2019-10-19 2022-05-27 谷歌有限责任公司 自监督音高估计

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5226084A (en) * 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
US5247579A (en) * 1990-12-05 1993-09-21 Digital Voice Systems, Inc. Methods for speech transmission
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
US5517511A (en) * 1992-11-30 1996-05-14 Digital Voice Systems, Inc. Digital transmission of acoustic signals over a noisy communication channel
US5574823A (en) * 1993-06-23 1996-11-12 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Communications Frequency selective harmonic coding
US5754974A (en) * 1995-02-22 1998-05-19 Digital Voice Systems, Inc Spectral magnitude representation for multi-band excitation speech coders

Also Published As

Publication number Publication date
US6119081A (en) 2000-09-12

Similar Documents

Publication Publication Date Title
JP3936139B2 (ja) オーバーサンプリングされた合成広帯域信号の高周波数成分回復の方法および装置
Campbell Jr et al. The DoD 4.8 kbps standard (proposed federal standard 1016)
US7191123B1 (en) Gain-smoothing in wideband speech and audio signal decoder
KR100389179B1 (ko) 압축음성정보의제1및제2연속적인각프레임의적어도일부를신뢰성있게수신하지못한경우,상기벡터신호를디코드된음성신호를발생하는데사용하는,음성디코더내에서이용하기위한방법
KR100389178B1 (ko) 음성디코더및그의이용을위한방법
EP3336843B1 (en) Speech coding method and speech coding apparatus
US6681202B1 (en) Wide band synthesis through extension matrix
US20040153313A1 (en) Method for enlarging the band width of a narrow-band filtered voice signal, especially a voice signal emitted by a telecommunication appliance
Kroon et al. Linear predictive analysis by synthesis coding
KR100446242B1 (ko) 음성 부호화기에서 하모닉 추정 방법 및 장치
US5924063A (en) Celp-type speech encoder having an improved long-term predictor
US6113653A (en) Method and apparatus for coding an information signal using delay contour adjustment
McAulay et al. Sine-wave phase coding at low data rates
KR19990065424A (ko) 저지연 다중밴드 여기 보코더를 위한 피치 결정방식
Stegmann et al. Robust classification of speech based on the dyadic wavelet transform with application to CELP coding
KR20010080646A (ko) 강화된 파형 보간 코더
Kuroiwa et al. An improvement of LPC based on noise reduction using pitch synchronous addition
KR100416754B1 (ko) 다중 밴드 여기 음성 부호화기에서 매개변수 추정 장치 및 방법
Lee An enhanced ADPCM coder for voice over packet networks
EP0520462B1 (en) Speech coders based on analysis-by-synthesis techniques
Zhang et al. Performance and optimization of the SEEVOC algorithm.
Marković et al. Robust LPC parameter estimation in standard CELP 4800 bit/s speech coder
Kroon et al. Linear predictive analysis by synthesis coding
KR100337293B1 (ko) 음성부호화기에서 고조파 추정 방법
Kroon et al. A low-complexity toll-quality variable bit rate coder for CDMA cellular systems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
WITB Written withdrawal of application