KR100225687B1 - 음성 분석 및 음성 합성 방법 - Google Patents

음성 분석 및 음성 합성 방법 Download PDF

Info

Publication number
KR100225687B1
KR100225687B1 KR1019930700834A KR930700834A KR100225687B1 KR 100225687 B1 KR100225687 B1 KR 100225687B1 KR 1019930700834 A KR1019930700834 A KR 1019930700834A KR 930700834 A KR930700834 A KR 930700834A KR 100225687 B1 KR100225687 B1 KR 100225687B1
Authority
KR
South Korea
Prior art keywords
pitch
segment
estimate
current segment
voiced
Prior art date
Application number
KR1019930700834A
Other languages
English (en)
Other versions
KR930702743A (ko
Inventor
존씨. 하드위크
임.재에스.
Original Assignee
존 씨. 하드웍
디지탈 보이스 시스템즈 인코퍼레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 존 씨. 하드웍, 디지탈 보이스 시스템즈 인코퍼레이티드 filed Critical 존 씨. 하드웍
Publication of KR930702743A publication Critical patent/KR930702743A/ko
Application granted granted Critical
Publication of KR100225687B1 publication Critical patent/KR100225687B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

부분 정수 분해 피치값은 초기 피치 산정을 취하여 산정되며, 상기 부분 정수 피치값은 정수값들 사이에 중간 변수를 보간함으로써 바람직하게 산정된다. 피치 영역은 초기 피치 산정을 실행하는데 필요한 계산의 양을 감소시키기 위해 사용된다. 피치 종속 분해는 피치의 작은 값으로 사용되는 높은 분해로 초기 피치 산정을 실행하기 위해 사용된다.

Description

[발명의 명칭]
음성 분석 및 음성 합성 방법
[발명의 배경]
본 발명은 음성을 부호화하고 합성하는 방법에 관한 것이다.
관련 문헌으로는 1972년 Flanagan에 의해 발표된 Springer-Verlag, pp. 378∼386의 음성 분석, 합성 및 인식(Speech Analysis, Synthesis and Perception)(주파수에 기초한 음성 분석합성 시스템의 위상 보코더(Vocoder; 전기적 음성분석 합성 장치)에 관해 개시됨); 1986년 12월 Quatieri 등에 의해 발표된 IEEE TASSP, Vol, ASSP34, No. 6, pp.1449∼1986의 사인파 표시에 기초한 음성 변환(Speech Transformations Based on a Sinusoidal Representation)(사인파의 표시에 의한 분석 합성 기술에 관해 개시됨); 1987년 Griffin 등에 의해 발표된 Ph. D. Thesis, T.I.T., pp. 75∼77의 다대역 여자 보코더(Multiband Excitation Vocoder)(다대역 여자 분석 합성에 관해 개시됨); 1984년 9월 5∼8일 이탈리아, 플로렌스, DSP 국제 회의에서 Griffin 등에 의해 발표된 새로운 피치 검출 알고리즘(A New Pitch Detection Algorithm)(피치 개산에 관해 개시됨);1985년 3월 26∼29일 Griffin 등에 의해 발표된 FL., Tampa, Proc ICASSP 85, pp.513∼516의 새로운 모델의 음성 분석/합성 시스템(A New Moderl-Basde Speech Analysis/Synthesis Synthesis System)(또다른 피치형 기능 및 음성 측정에 관해 개시됨); 1988년 5월 Hardwick에 의해 발표된 S.M.Thesis, M.I.T의 4.8 kbps 다대역 여자 음성 코더(A 4.8 kbps Multi-Band Excitation Speech Coder)(다대역 여자 음성 모델에 기초한 4.8 kbps 음성 코더에 관해 개시됨); 1985년 3월 26∼29일 McAulay 등에 의해 발표된 FL., Tampa, Proc. ICASSP 85, pp.945∼948의 음성의 사인파 표시에 기초한 중간 비율 부호화(Mid-Rate Coding Based on a Sinusoidal Representation of Speech)(사인파 표시에 기초한 음성 부호화에 의해 개시됨); 1983년 9월 스페인, Sitges에서 Almieda 등에 의해 발표된 신호 처리 및 그 응용에 관한 1983스페인 워크숍의 가변 주파수 합성을 갖는 조파 부호화(Harmonic Coding with Variable Frequency Synthesis)(시간 영역 음성 합성에 관해 개시됨); 1984년 캘리포니아 샌디애고에서 Almieda 등에 의해 발표된 ICASSP 84, pp.289∼292의 가변 주파수 합성; 개량된 조파 부호화 구조(시간 영역 음성 합성에 관해 개시됨); 1988년 4월 뉴욕에서 McAulay 등에 의해 발표된 ICASSP 88, pp.370∼373의 사인파 변환 부호화에 대해 계산적으로 유효한 사인파 합성 및 그 응용(주파수 영역 음성 합성에 관해 개시됨); 1984년 4월 Griffin 등에 의해 발표된 IEEE TASSP, Vol. 32, No. 2, pp.236∼243의 변경된 단시간 푸리에 변환으로부터의 신호 산정 (가중 오버랩 부가 합성에 관해 개시됨)등을 예로 들 수 있다.
이들 문헌의 내용은 본원 명세서에서 참고로 결합되어 사용될 수 있다.
음성을 분석 및 합성하는 방법과 관련해서는 많은 분야에서 응용 가능하며, 그에 따라 상기 문헌들에 대해 상당한 관심이 기울여지고 있다. 음성 분석/합성 시스템(보코더)의 한 부류는 폭넓게 연구되고 있고, 실제로 하부 음성 모델을 기초하여 사용되고 있다. 상기 보코더(voclder)의 예로는 선형 예측 보코더, 동형의 보코더 및 채널 보코더를 들 수 있다. 이들 보코더에 있어서, 음성은 선형 시스템에 응답하여 무성음(unvoiced sound)에 대해 유성음(voiced sound) 또는 랜덤 잡음의 주기적인 임펄스 열에 의해 여자됨으로써, 단시간에 모델링되고 있다. 이러한 종류의 보코더에 대해, 음성은 해밍 윈도우(Hamming window)와 같은 윈도우를 사용하여 제1세그멘트 음성에 의해 분석된다. 이어서, 각 음성 세그멘트에 대해, 여자 파라미터(excitation parameter) 및 시스템 파라미터가 결정된다. 상기 여자 파라미터는 유성음/무성음 결정 및 피치 주기를 포함한다. 상기 시스템 파라미터는 스펙트럼형 엔벌로프 또는 시스템의 임펄스 응답을 포함한다. 음성을 합성하기 위하여, 상기 여자 파라미터는 유성음 영역 또는 무성음 영역내의 랜덤 잡음내에 주기적인 임펄스 열을 포함하는 여자 신호를 합성하기 위해 사용된다. 이와 같은 여자 신호는 산정된 시스템 파라미터를 사용하여 필터링된다.
상기 하부 음성 모델에 의한 보코더가 명료한 음성을 합성하는데 성공적 일지라도, 그들은 고품질 음성을 합성할 수는 없을 것이다. 그결과, 그들은 음성의 시간 변경, 음성 증대 또는 고품질 음성 부호화와 같은 응용 분야에서 폭넓게 사용 할 수 없는 문제가 있다. 합성된 음성의 불량한 품질은 피치의 부정확한 산정으로 인하여 중요한 음성 모델 파라미터이 부분이 된다.
피치 검출의 성능을 개량하기 위해 새로운 방법이 1984Griffin 및 Lim에 이해 개발되었다. 이 방법은 1988년에 Griffin과 Lim에 이해 다시 개량되었다. 이 방법은 여러 가지의 상이한 보코더에 유용한 것으로, 특히 다대역 여자(MBE; Multi Band Excitation)보코더에 유용한 것이다.
s(n)은 아날로그 음성 신호를 샘플링함으로써 얻어지는 음성 신호를 나타낸다.
샘프링 비율은 6khz ∼ 10 khz 사이의 음성 부호화 응용 영역에 대해 통상적으로 사용된다. 상기 방법은 이 방법에서 사용되는 여러 가지 파라미터의 대응하는 변화를 갖는 임의의 샘플링 비율에 대해서도 잘 동작한다. 윈도우 신호 sω(n)을 얻기 위하여 s(n)을 윈도우ω(n)과 곱한다. 상기 윈도우는 해밍 윈도우(Hamming window) 또는 카이저 윈도우(Kaiser window)를 통상적으로 사용한다. 상기 윈도우 동작은s(n)의 작은 세그멘트를 골라낸다. 음성 세그멘트는 음성 프레임으로도 칭한다.
피치 검출의 목적은 세그멘트 sω(n)에 대응하는 피치를 산정하기 위해서 사용된다. sω(n)을 현재의 음성 세그멘트로서 칭하고, 현재의 음성 세그멘트에 대응하는 피치는 PO로 나타내는데, 여기서, O은 현재의 음성 세그멘트를 칭한다. 또한 편이를 위해 PO를 나타내기 위해 P를 사용할 것이다. 이어서 상기 윈도우를 통상적으로 20 msec 정도 만큼 슬라이드시키는 경우, 새로운 음성 프레임을 얻으며, 새로운 프레임에 대해 피치를 산정한다. 이 새로운 음성 세그멘트의 피치를 P1으로 나타낸다. 유사한 방법으로, P-1을 과거의 음성 세그멘트의 피치로서 칭한다. 상세한 설명에서 사용하는 표시법으로는 현재 프레임의 피치에 대응하는 PO, 과거의 2개의 연속 음성 프레임의 피치에 대응하는 P-2및P-1, 장래의 음성 프레임의 피치에 대응하는 P1및P2가 사용된다.
신디사이저(Synthesizer)에서 sω(n)에 대응하는 합성 음성은(n)으로 나타낼 것이다. sω(n) 및(n)의 푸리에 변환은 Sω(ω) 및(ω)로 나타낸다. 전체 피치 검출 방법은 제1도에 도시하고 있다. 피치 P는 2단계의 처리 과정을 사용하여 산정된다. 먼저로 나타낸 초기 피치 산정을 얻는다. 초기 산정은 정수값으로 제한된다. 이어서, 비정수값이 될 수 있는 최종 산정을 얻기 위해 초기 산정에 대하여 상세히 논의된다. 상기 2단계의 처리 과정은 관련된 계산의 양을 감소시킨다.
초기 피치 산정을 얻기 위해, 피치의 함수로서 피치형 함수 E(P)를 결정한다. 이 함수는 후보 피치값의 수치 비교를 위한 수단을 제공하다. 피치 트랙킹은 제2도에 도시된 바와 같이 이 피치형 함수에 사용된다. 초기 피치 산정 P는 정수값으로 제한된다. 함수 E(P)는 다음식 (1)에 의해 구해지며,
여기서, r(n)은 다음식 (2)에 의해 제공되는 자동 상관 함수이다.
식(1) 및 식(2)는 P의 정수값만으로 E(P)를 결정하기 위해 사용될 수 있으며, s(n) 및 ω(n)은 불연속 신호이다.
상기 피치형 함수 E(P)는 에러 함수로서 관찰될 수 있으며, 통상적으로 E(P)가 작도록 피치 산정을 선택하는 것이 바람직하다. E(P)를 최소화하는 P를 간단히 선택할 수는 없다. E(P)는 피치를 산정하기 위해 사용될 수 있는 피치형 함수의 일예임을 주목한다. 다른 합리적인 함수가 사용될 수도 있다.
피치 트랙킹은 연속 프레임간의 피치 변화량을 제한하기 위해 시도함으로써 피치 산정을 개량할 수 있도록 사용된다. 피치 산정이 E(P)를 엄격히 최소화하기 위해 선택되면, 상기 피치 산정은 후속 프레임 사이에서 급격히 변화될 수도 있다. 이와 같은 피치의 급격한 변화는 합성된 음성의 감손을 가져올 수 있다. 또한, 피치는 통상적으로 천천히 변화하며, 그에 따라 인접한 프레임으로부터의 피치 산정은 현재의 프레임의 피치를 산정하는데 도움을 줄 수 있다.
룩 백 트랙킹(Look-back tracking)은 과거 프레임으로부터 P의 연속 상태를 유지하기 위해 사용된다. 과거 프레임의 임의의 수가 사용될 수 있을지라도 여기서는 2개의 과거 프레임을 사용할 것이다.
는 P-1및 P-2의 초기 피치 산정을 나타낸다. 현재의 프레임 처리에 있어서,는 사전 분석으로부터 이미 이용하고 있다. E-1(P) 및 E-2(P)는 사전에 2개의 프레임으로부터 얻어진 방정식(1)의 함수를 나타낸다. 이어서 E-1() 및 E-1()는 특정값을 갖는다.
P의 연속 상태를 원함에 따라근처의 영역에 P를 고려한다. 통상적으로 사용되는 영역은 다음의 수학식(4)와 같다.
여기서, α는 상수이다.
식(4)에 주어진P의 영역내에서 최소 E(P)를 갖는 P를 선택할 수 있다.
이 P는 P*로서 나타낸다. 다음의 판단 규칙을 사용한다.
임계치 이면,
이며, 여기서는 P의 초기 피치 산정이다. .......(5)
식 (5)이 조건이 만족되면, 현재 초기 피치 산정를 갖는다. 상기 조건을 만족하지 않으면, 룩 어헤드 트랙킹(look-ahead tracking)으로 이동한다.
룩 어헤드 트랙킹은 장래의 프레임을 갖는 P의 연속 상태를 유지하기 위해 시도된다. 비록 많은 프레임들이 바람직스럽게 사용될 수 있을지라도, 여기서는 2개의 장래의 프레임을 사용할 것이다. 현재의 프레임으로부터 E(P)를 갖는다. 또한 다음의 2개의 장래의 프레임에 대해 이 함수를 계산할 수 있다. 이들 함수는 E1(P) 및 E2(P) 로서 나타낸다. 이것은 2개의 장래의 프레임에 대응하는 양만큼 처리중에 지연될 수 있음을 의미한다.
인간의 음성에 대응하는 P의 모든 값을 필연적으로 커버하는 P의 적당한 영역을 고려한다. 8 khz 비율로 샘플링된 음성에 대해 각각의 피치 주기내에 다수의 음성 샘플로서 표현된 P의 양호한 영역은 22≤ P < 115이다.
이 영역내의 각각의 P에 대해, 다음의 식(6)과 같이 CE(P)가 최소화되도록 P1과 P2를 선택한다.
P1이 P에 근접하고, P2가 P1에 근접하도록 제한된다. 통상적으로 이들 근접 제한은 다음의 식 (7) 및 (8)로 나타낸다.
이 처리 과정은 제3도에 도시하고 있다. 통상 α 및 β의 값은 α= β=0.2이다
각각의 P에 대해, CE(P)를 달성하기 위해 상기 절차를 사용할 수 있다. P의 함수로서 CE(P)를 갖는다. 누적된 에러를 나타내기 위해 CE 표시법을 사용한다.
최소 CE(P)를 제공하기 위해서는 당연히 P를 선택할 것이다. 그러나, 소위 피치 배가 문제 라고 하는 문제에 접하게 된다. 상기 피치 배가 문제는 CE(P)가 작을 때 CE(2P)가 작기 때문에 발생한다. 따라서, CE(·) 함수를 엄격히 최소화하는 방법은 P의 올바른 선택을 통해 피치로서 2P를 선택할 수 있다. 상기 피치 배가 문제가 발생하면, 합성된 음성의 품질에 큰 감손이 일어난다. 상기 피치 배가 문제는 이하에 개시되는 방법을 사용함으로써 예방할 수 있다. 최소 CE(P)를 제공하기 위해 P'를 P의 값으로 가정한다. 이어서 P의 허용된 영역(통상 22≤ P < 115) 내에서 P = P', P'/2, P'/3, P'/4, …를 고려한다. 만일 P'/2, P'/3, P'/4,…가 정수가 아니라면, 그들에 가장 근접한 정수를 선택한다. P', P'/2및 P'/3는 적당한 영역내에 존재한다. P의 가장 작은값, 이경우에 P'/3로 시작하면, 다음의 식(9)에 나타낸 규칙을 사용한다.
여기서는 다음의 룩 어헤드 특성으로부터 산정한다.
α1, α2, β1, β2의 통상적인 값은 α1=0.15, α2=50, β1=0.75, β2=2.0을 갖는다.
만일 P'/3이 상기 규칙에 따라 선택되지 않으면, 다음의 가장 낮은, 상기 예에서 P'/2로 진행한다. 결국에 하나가 선택되거나 혹은 P=P'에 이르게 된다. P=P'가 임의의 선택이 없이 도달하게 되면,는 P'으로 주어진다.
최종 단계는 룩 백 트랙킹(look-back tracking)(P*)으로부터 얻어지는 산정값과를 비교한다.또는 P*가 초기 피치 산정로서 선택되면, 이러한 결정의 결과에 의존한다. 하나의 통상의 세트의 결정 규칙은 2개의 피치 산정을 비교하기 위해 사용된다.
다른 결정 규칙은 2개의 후보 피치값을 비교하기 위해 사용될 수 있다.
전술한 초기 피치 산정 방법은 피치의 정수값을 발생시킨다. 이 방법의 블록도는 제4도에 도시하고 있다. 피치 정밀도는 높은 부분 정수 분해로 피치 산정의 분해를 증가시킨다. 통상적으로 상기 정교한 피치는 ¼ 정수 또는 ⅛ 정수 분해를 갖는다.
P 부근에의 큰 값의 작은수(통상 4내지 8)를 고려한다.
Er(P)는 다음의 식(13)으로 주어진다.
여기서, G(ω)는 임의의 가중 함수이고,
파라미터 ωo=2π/P는 기본 주파수이고, Wr(ω)는 피치 정밀도 윈도우의 푸리에 변환ωr(n)이다(제1도 참조). 복합 계수 (AM)는 식 (16)에서 ωO의 조파에서 복합 진폭을 나타낸다. 이들 계수는 다음의 식 (16)으로 주어진다.
여기서, aM= (m-0.5)ωO및 bM=(m+0.5)ωO
의 형태는 유성음 또는 주기적인 스펙트럼에 대응하여 식 (15)로 주어진다.
다른 합리적인 에러 함수는 식 (13)의 위치에 예컨대, 다음의 식 (18)이 사용될 수 있다.
통상적으로 윈도우 함수 ωr(n)은 초기 피치 산정 단계에서 사용되는 윈도우 함수와는 상이하다.
중요한 음성 모델 파라미터는 유성음/무성음 정보이다. 이러한 정보는 음성이 단일 기본 주파수(유성음)의 조파로 주로 구성되거나 또는 광대역잡음 형'에너지(무성음)으로 구성될지의 합성 여부를 결정한다. 선형 예측 보코더 또는 동형의 보코더와 같은 많은 이전의 보코더에 있어서, 각각의 음성 프레임은 전체가 유성음이거나 또는 전체가 무성음으로서 분류된다. MBE 보코더에 있어서, 음성 스펙트럼 Sω(ω)는 다스의 분리된 주파수 대역으로 분할되고, 단일 유성음/무성음(V/UV) 결정은 각각의 대역에 대해 구성된다.
MBE 보코더에서 유성음/무성음 결정은 제5도에 도시한 바와 같이 주파수영역 0 ≤ω ≤π를 L 대역으로 분할함으로써 결정된다. 그 내용, 즉 Ω0〓0, Ω1, …, ΩL-1, ΩL〓π는 L 주파수 대역 사이의 경계선이다. 각각이 대역내에서, V/UV 결정은 공지된 임계치와 일부 유성음 측정값을 비교함으로서 완성된다. 하나의 통상의 유성음 측정은 다음의 식(19)로 주어진다.
여기서,는 식 (15)∼(17)로 주어진다. 다른 유성음 측정은 식(19)로 사용될 수 있다. 또다른 유성음 측정의 일예는 다음의 식(20)으로 주어진다.
식(19)에서 정의된 음성 측정에 대응하는 i번째 주파수 대역을 통한 Sω(ω)와간의 차이이다.은 임계치 함수에 대하여 비교된다.이 임계치 함수 보다 작으면, i번째 주파수 대역은 음성화되도록 결정된다. 그 밖이 i번째 주파수 대역은 무성음화 되도록 결정된다. 상기 임계치 함수는 피치와 각 대역의 중심 주파수에 통상적으로 의존한다.
MBE 보코더, 사인파 변환 코더 및 조파 코더를 포함한 다수의 보코더에 있어서, 합성된 음성은 단일 기본 주파수의 조파의 합만큼 전체 또는 부분적으로 발생된다. 상기 MBE 보코더에서는 합성된 음성 υ(n)의 유성음 부분을 포함한다. 상기 합성된 음성의 무성음 부분은 개별적으로 발생되어, 완전히 합성된 음성 신호를 제공하기 위해 상기 유성음 부분에 부가된다.
유성음 음성 신호를 합성하기 위하여 과거에는 2개의 상이한 방법이 사용되고 있었다. 제1방법은 사인파 발진기의 뱅크를 사용하는 시간 영역내에서 각각의 조파를 개별적으로 합성하는 방법이다. 각각의 발진기의 위상은 산정된 파라미터들 사이에 원활하게 보간되는 하위 차수 구분적 위상 다항식(low-order piecewise phase polyno
mial)으로부터 발생된다. 이 방법은 음성 품질이 매우 높다고 하는 장점이 있다. 각각의 사인파 발진기를 발생시키기 위해 다수의 많은 계산이 필요하다고 하는 단점이 있다. 이 방법의 계산 비용은 다수의 많은 조파가 합성되면 엄청나게 비싸게 될 것이다.
제2방법은 주파수 영역내에서 모든 조파를 합성할 수 있도록 유성음 신호를 합성하기 위해 사용되는 방법이고, 모든 합성된 조파를 시간 영역 내부로 동시에 변환하기 위해 고속 푸리에 변환(FFT)을 사용한다. 가중 오버랩부가 방법은 음성 프레임 사이에 FFT의 출력을 완만하게 보간하기 위해 사용된다. 이 방법은 사인파 발진기의 발생으로 수반되는 계산이 필요하지 않기 때문에 전술한 시간 영역 방법보다 더욱 효율적이다. 이 방법의 단점은 프레임 비율이 음성 부호화(20∼30ms)로 사용되는데 있으며, 그 유성음 품질은 시간 영역 방법과 비교하여 감소된다.
[발명의 개요]
본 발명의 제1특징은 초기 피치 산정을 수행하는 부분 정수 분해 피치값의 개량된 피치 산정 방법에 있다. 양호한 실시예에서, 부분 정수 분해 피치값으로 사용되는 중간 자동 상관 함수의 비정수값은 자동 상관 함수의 정수값 사이에 보관함으로써 산정된다.
본 발명의 제2특징은 초기 피치 산정을 수행하는데 필요한 계산의 양을 감소시키기 위해 피치 영역이 사용을 특징으로 한다. 허용된 피치의 영역은 복수의 피치 값과 복수의 영역으로 분할된다. 모든 영역은 적어도 하나의 피치값을 포함하고, 적어도 하나의 영역은 복수의 피치값을 포함한다. 각각의 영역에 대해 피치형 함수(또는 에러 함수)는 그 영역내에 모든 피치값을 통해 최소화되며, 최소값에 대응하는 피치값과 에러 함수의 관련값은 저장된다. 현재의 세그멘트의 피치는 룩 백 트랙킹을 사용하여 선택되고, 현재의 세그멘트에 대한 피치 선택은 상기 에러 함수를 최소화하는 값이며, 사전 세그멘트의 영역 이상이거나 또는 그 이하의 소정의 제1영역의 범위내에 존재한다. 또한, 룩 어헤드 트랙킹은 룩 백 트랙킹과 관련하여 자체적으로 사용될 수 있고, 현재의 세그멘트에 대한 피치 선택은 누적 에러 함수를 최소화하는 값이다. 상기 누적 에러 함수는 현재의 세그멘트와 추가의 세그멘트의 누적 에러의 산정을 제공하고, 장래의 세그멘트의 피치는 현재의 세그멘트의 영역 이상이거나 또는 그 이하의 소정의 제2영역의 범위 이내로 제한된다. 상기 영역은 불균일한 피치폭을 가질 수 있다(즉, 영역내의 피치의 범위는 모든 영역에 대해 동일한 크기가 아니다).
본 발명의 제3특징은 피치 종속 분해가 피치의 다른값(통상 피치의 큰값)보다 피치의 일부값(통상 피치의 작은값)으로 사용하는 높은 분해능을 갖는 초기 피치 산정의 실행에 사용되는 개량된 피치 산정 방법에 있다.
본 발명의 제4특징은 최근의 사전 세그멘트의 에너지와 관련한 현재의 세그멘트의 에너지에 따른 결정을 취함으로서 유성음/무성음 결정의 정확도를 개량하는데 있다. 만일 상대 에너지가 낮으면, 현재의 세그멘트는 무성음 결정을 지지하며, 상대 에너지가 높으면, 현재의 세그멘트는 유성음 결정을 지지하게 된다.
본 발명의 제5특징은 합성된 음성의 유성음 부분을 합성하는데 사용되는 조파를 생성하는 개량된 방법에 있다. 일부 유성음 조파(통상 저주파 조파)는 시간 영역내에서 발생하고, 나머지 유성음 조파는 주파수 영역내에서 발생한다. 이것은 주파수 영역 방법의 다수의 계산 절약을 유지하는 한편, 시간 영역 방법의 음성 품질을 유지할 수 있다.
본 발명의 제6특징은 주파수 영역에 있어서의 유성음 조파를 발생시키는 개량된 방법에 있다. 선형 주파수 스케일링은 유성음 조파의 주파수를 변경하기 위해 사용되고, 역 이산 푸리에 변환(DFT)은 주파수 조파를 시간 영역으로 전환하기 위해 사용된다. 이어서 보간 및 시간 스케일링은 선형 주파수 스케일링의 효과를 정정하기 위해 사용된다. 이 방법은 개량된 주파수 정확도의 장점을 갖는다.
본 발명의 다른 특징 및 장점은 이하의 바람직한 실시예의 상세한 설명 및 특허 청구의 범위로부터 명확히 이해될 수 있을 것이다.
[도면의 간단한 설명]
제1도 내지 제5도는 종래의 피치 산정 방법을 도시하는 도면이다.
제6도는 부분 정수 분해 피치값이 산정되는 본 발명에 따른 바람직한 실시예를 도시하는 플로우 챠트이다.
제7도는 피치 영역이 피치 산정시에 사용되는 본 발명에 따른 바람직한 실시예를 도시하는 플로우 챠트이다.
제8도는 피치 종속 분해가 피치 산정시에 사용되는 본 발명에 따른 바람직한 실시예를 도시하는 플로우 챠트이다.
제9도는 유성음/무성음 결정이 현재의 세그멘트와 최근의 세그멘트의 상대 에너지에 따라 구성되는 본 발명에 따른 바람직한 실시예를 도시하는 플로우 챠트이다.
제10째 도는 하이브리드 시간 및 주파수 영역 합성 방법이 사용되는 본 발명의 바람직한 실시예를 도시한 블록도이다.
제11도는 변경된 주파수 영역 합성이 사용되는 본 발명의 바람직한 실시예를 도시하는 블록도이다.
[본 발명의 바람직한 실시예의 설명]
종래 기술에서, 초기 피치 산정은 정수 분해에 의해 산정된다. 상기 방법의 실행은 부분 정수 분해(즉, ½ 정수의 분해)를 사용함으로써 크게 개량될 수 있다. 이것은 상기 방법의 변경을 필요로 한다. 에러 기준으로서 식 (1)에서 E(P)가 사용되면, 예컨대 비정수 P에 대한 E(P)의 계산은 n의 비정수값에 대해 식 (2)의 r(n)의 계산을 필요로 한다. 이것은 다음 식 (21)에 의해 달성될 수 있다.
식 (21)은 간단한 선형 보간식이다. 그러나, 보간이 다른 형태는 선형 보간 대신에 사용될 수 있다. 그 목적은 부분 정수 분해를 위해 초기 피치 산정을 필요로 하고, 식(1)의 E(P)의 계산을 위해 식(21)을 사용한다. 이 절차는 제6도에 도시되어 있다.
초기 피치 산정에 있어서, 종래의 기술은 P의 상이한 값(22≤ P < 115)을 통상적으로 대략 100으로 고려한다. 만일 부분 정수 분해가 가능하다면, ½ 정수를 가정하여 P의 상이한 값을 186으로 고려한다. 이것은 많은 양의 계산, 특히 룩 어헤드 트랙킹에 필요하다. 계산을 감소시키기 위해 P의 허용 범위를 다수의 작은 불균일한 영역으로 분할할 수 있다. 적당한 수는 20이다. 20개의 불균일한 영역의 예는 다음과 같다.
각 영역내에서, E(P)가 최소이고, E(P)의 대응값인 P의 값을 유지한다. E(P)와 관련한 모든 다른 정보는 폐기한다. 피치 트랙킹 방법(룩 백 및 룩 어헤드)은 초기 피치 산정 ()을 결정하기 위해 이들 값을 사용한다. 상기 피치 연속성의 제한은 피치가 룩 백 트랙킹 또는 룩 어헤드 트랙킹중 하나로 고정된 다수의 영역에 의해 변화 가능하도록 변경된다.
예컨대, 피치 영역 3에서 P-1=26이면, P는 피치 영역 2, 3또는 4내에 있도록 제한 될 수 있다. 이것은 룩 백피치 트랙킹내에서 영역 1의 허용 가능한 피치 차에 대응한다.
유사하게, 피치 영역 3에서 P=26이면, P1는 피치 영역 1, 2, 3, 4또는 5내에 있도록 제한될 수 있다. 이것은 룩 어헤드피치 트랙킹내에서 영역 2의 허용 가능한 피치 차에 대응한다. 허용 가능한 피치 차는 룩 백 트랙킹에서 보다 룩 어헤드 트랙킹에서 서로 상이하게 나타난다. 영역 20에 대해 P의 값이 약200으로의 감소는 실행에 다소 차이가 있는 크기 순서로 룩 어헤드 피치 트랙킹동안 계산 요구를 감소시킨다. 또한 저장 요구가 감소되고, 단지 E(P) 만이 100∼200에서보다 20정도 상이한 P1의 값으로 저장될 필요가 있다.
다수의 영역이 실질적인 감소는 계산을 감소시킬 수 있지만 성능을 저하시킬 것이다.2개의 후보 피치가 동일 영역내에서 하강하면, 예컨대 2개의 피치 사이의 선택은 낮은 E(P)에 따라 기능을 엄격하게 할 것이다. 이 경우에 피치 트랙킹의 이점은 손실될 것이다. 제7도는 초기 피치를 산정하기 위해 피치 영역을 사용하는 피치 산정 방법의 플로우 챠트를 도시하고 있다.
다대역 여자(MBE ; Multi Band Excitation) 보코더 및 선형 예측 부호화(LPC ; Linear Predictive Coding) 보코더와 같은 각종 보코더(vocoder; 전기적 음성 분석 합성 장치)에서, 산정된 피치는 고정 분해, 정수 샘플 분해 또는 ½샘플 분해를 갖는다. 기본 주파수(ω0)는 피치 P에 반비례하고, 고정 피치 분해는 큰 P 보다 작은 P에 대해 기본 주파수 분해에 대응한다. P의 함수로서 P의 분해 변화는 기본 주파수 분해의 피치 의존도의 일부를 제거함으로써 시스템 성능을 개량할 수 있다. 통상적으로 이것은 P의 큰값에서 보다 P의 작은값에 대해 높은 피치 분해를 사용함으로써 달성할 수 있다. 예컨대, 함수 E(P)는 22≤ P < 60의 범위내에서 피치값에 대한 ½ 샘플 분해와 60 ≤ P < 115의 범위내에서 피치값에 대한 정수 심플 분해로 평가될수 있다. 또다른 예는 22≤ P <40의 범위내에서 ½ 샘플 분해로 E(P)를 평가하고, 42≤ P < 80 범위내에서 정수 샘플 분해로 E(P)를 평가하며, 80 ≤ P < 115의 범위내에서 분해 2(즉 P의 값)로 E(P)를 평가할 수 있다. 본 발명은 E(P)가 피치 배가 문제에 가장 민감한 P의 값에 대해서만 많은 분해로 평가됨으로써 계산의 절약을 실현하는 장점을 갖는다. 제8도는 피치 종속 분해를 사용하는 피치 산정 방법의 플로우 챠트를 도시하고 있다.
피치 종속 분해의 방법은 피치 영역을 사용하는 피치 산정 방법과 결합될 수 있다. 피치 영역에 기초한 피치 트랙킹 방법은 각 영역내에서 E(P)의 최소값을 찾을 수 있을 때 정확한 분해(즉, 피치 종속)로 E(P)를 평가하기 위해 수정될 수 있다.
종래의 보코더 실행에 있어서, 각 주파수 대역에 대한 V/UV 결정은 일부 임계치로사이의 차이의 측정을 비교함으로써 행할 수 있다. 그 임계치는 통상의 대역내에서 피치 P와 주파수의 함수이다. 그 성능은 피치 P 및 대역내에서 주파수 뿐만 아니라 신호의 에너지(제9도에 도시됨)의 함수인 임계치를 사용함으로서 크게 개선될 수 있다. 신호 에너지를 트랙킹함으로써, 최근의 사전 히스토리에 대한 현재의 프레임의 신호 에너지를 평가할 수 있다. 상대 에너지가 낮으면, 신호는 무성음으로 되어, 그 임계치는 편향 결정의 무성음을 제공하도록 조절된다. 상대 에너지가 높으면, 신호는 유성음으로 되어, 그 임계치는 편향 결정의 유성음을 제공하도록 조절된다. 상기 에너지 종속 유성음 임계치는 다음과 같이 실행된다. 에너지 측정 ξ0는 다음의 식(22)와 같이 계산될 수 있다.
여기서는 식(14)로 한정되고, H(ω)는 주파수 종속 가중 함수이다. 각종 다른 에너지 측정은 식(22) 대신에 다음 식(23)으로 사용될 수 있다.
본 발명은 각 음성 세그멘트의 상대 밀도를 나타내는 측정을 위해 사용한다.
평균 국부 에너지, 최대 국부 에너지 및 최소 국부 에너지에 대응하는 3가지 특성은 다음의 규칙에 따라 각각의 음성 프레임을 갱신한다.
제1음성 프레임에 대해 ξavg, ξmax, 및 ξmin의 값은 임의의 양수로 초기화 된다. 상수 γ0, γ1, ...γ4및 μ는 방법의 적응도를 제어한다.
특정값은 다음과 같다.
γ0=0.067, γ1=0.5, γ2=0.01,γ3=0.5, γ4=0.025, μ=2.0
식(24), (25) 및 (26)의 함수는 단지 일예이고, 다른 함수도 가능하다. ξ0av
gmin및ξmax의 값은 다음과 같이 V/UV 임계치 함수에 영향을 주게된다. Τ(P,ω)는 피치 및 주파수 종속 임계치가 된다. 새로운 에너지 종속 임계치는 다음의 식(27)로 정의된다.
여기서, Μ(ξ0, ξavg, ξmin, ξmax)는 다음의 식(28)로 주어진다.
상수 λ0, λ1, λ2및 ξsilence의 통상적인 값은 다음과 같다.
λ0=0.5, λ1=2.0, λ2=0.0075, ξsilence=200.0
상기 V/UV 정보는 에너지 종속 임계치와, 식 (19)에서 정의된 Di을 비교함으로써 결정된다. 만일 Di이 임계치보다 작으면, i번째 주파수 대역은 유성음이 되도록 결정된다. 그렇지 않으면 i번째 주파수 대역은 무성음이 되도록 결정된다.
식(27)에서 Τ(P,ω)는 본 발명이 특징에 영향을 주지 않고 피치 및 주파수와 다른 종속 변수를 포함하도록 변경될 수 있다. 또한, Τ(P,ω)의 피치 종속 및 주파수 종속은 본 발명의 특징에 영향을 주지 않고 가장 간단한 형태 Τ(P,ω)가 상수가 될 수 있도록 제거될 수 있다.
본 발명의 다른 특징으로, 새로운 하이브리드 유성음 음성 합성 방법은 전술한 시간 영역 방법과 주파수 영역 방법 양쪽의 장점을 결합하는데 있다. 시간 영역방법이 작은 수의 저주파 조파로 사용되고, 주파수 영역 방법이 음성 품질에 적은 손실을 갖는 나머지 조파로 사용되는 경우에 발견할 수 있다. 작은 수의 조파만이 시간 영역 방법으로 발생되기 때문에 새로운 방법은 전체 주파수 영역 방법에 의해 계산의 수가 단축될 수 있다. 하이브리드 유성음 합성 방법은 제10도에 도시하고 있다.
새로운 하이브리드 유성음 합성 방법은 다음의 방법으로 동작한다. 유성음 음성 신호 υ(n)은 다음 식(29)에 따라 합성된다.
여기서 υ1(n)은 시간 영역 유성음 합성 방법으로 발생되는 저주파 성분이고, υ2(n)은 주파수 영역 합성 방법으로 발생된 고주파 성분이다.
통상적으로, 저주파 성분 υ1(n)은 다음의 식(30)으로 합성된다.
여기서, ak(n)은 구분적 선형 다항식이고, θk(n)은 하위 차수 구분적 위상 다항식이다. 식(30)에서 Κ의 값은 시간 영역에서 합성되는 조파의 최대수를 제어한다. Κ의 값은 4≤Κ ≤12의 범위내에서 통상 사용한다. 나머지 고주파 유성음 조파는 주파수 영역 유성음 합성 방법을 사용하여 합성된다.
본 발명의 또다른 특징으로, McAulay 및 Quatieri의 주파수 영역 방법 보다 최상의 주파수 정확도를 가지며 보다 효과적인 새로운 주파수 영역 합성 방법을 제공하는데 있다. 새로운 방법에서 유성음 조파는 ω0=2π/L에 따라 스케일링되는 선형 주파수로서, 여기서 L은 작은 정수(통상 L < 1000)이다. 이 선형 주파수 스케일링은 주파수ωk=k·ω0로부터 k 번째 조파의 주파수를 변화시키는데, ω0는 기본 주파수이고, 새로운 주파수는 2πk/L이다. 주파수 2πk/L가 L 지점 이산푸리에 변환(DFT)의 샘플 주파수에 대응하기 때문에, L 지점 반전 DFT는 매핑된 모든 조파를 시간 영역 신호으로 동시 변환되도록 사용될 수 있다. 다수의 효율적인 알고리즘은 반전 DFT를 계산하므로서 존재한다. 그 예로는 고속 푸리에 변환(FFT), 위노그래드 푸리에 변환(Winograd Fourier Transform) 및 프라임 펙터 알고리즘(Prime Factor Algorithm)을 들 수 있다. 이들 각 알고리즘은 허용 가능한 L의 값에 따라 서로 제한되어 위치한다. 예컨대, 상기 FFT는 27, 35, 24, 32등과 같이 합성수가 크게 되도록 L이 요구된다.
선형 주파수 스케일링에 의해은 소정의 신호υ2(n)의 시간 스케일링된 버전이다. 따라서, υ2(n)은 선형 보간 및의 시간 스케일링에 대응하는 식(31)∼(3
3)을 통해으로부터 복구시킬 수 있다.
여기서,
보간의 다른 형태들이 선형 보간 대신에 사용될 수도 있다. 이 처리 과정은 제11도에 도시되어 있다.
본 발명의 다른 실시예는 다음의 특허 청구 범위내에서 기술하고 있다. 특허청구의 범위에서 사용되는 에러 함수는 폭넓은 의미를 가지며, 피치형 함수를 포함한다.

Claims (78)

  1. 음향 신호의 개별 시간 세그멘트의 피치가 산정되는 음향 신호를 처리하는 방법에 있어서, 미리선택된 허용 가능한 피치의 범위를 부분 정수 분해로 이루어진 복수의 피치값으로 분할하는 단계와, 초소한 몇 개의 상기 피치값에 대해 현재의 세그멘트에 대한 상기 피치값을 비교하는 수치 수단을 제공하는 에러 함수를 평가하는 단계와, 사전 세그멘트의 피치 산정을 소정의 제1범위 이상 또는 그 이하의 범위내에서 상기 에러 함수를 감소시키는 피치값을 현재의 세그멘트에 대한 피치 산정으로서 선택하기 위해 룩 백 트랙킹을 사용하는 단계를 포함하고, 상기 음향 신호의 세그멘트의 산정된 피치를 나타내는 피치 산정값을 결정하여 저장하는 단계와; 상기 음향 신호를 처리하기 위해 상기 피치 산정값을 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
  2. 제1항에 있어서, 누적된 에러 함수가 현재의 세그멘트의 피치 산정의 함수로서 현재의 세그멘트 및 미래의 세그멘트이 누적 에러의 산정을 제공하며, 미래의 세그멘트의 피치 산정이 사전 세그멘트의 피치 산정이 소정의 제2범위 내에 있도록 제한되어, 상기 누적된 에러 함수를 감소시키는 피치값을 현재의 시간 세그멘트에 대한 피치 산정으로서 선택하도록 룩 어헤드 트랙킹을 사용하는 단계와; 현재 세그멘트의 피치 산정으로서 사용하기 위해 룩 백 트랙킹 또는 룩 어헤드 트랙킹 중 어느 하나를 선택하여 상기 피치 산정을 결정하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
  3. 제2항에 있어서, 현재의 세그멘트와 선택된 사전 세그멘트에 대한 룩 백 트랙킹을 위해 사용되는 에러 함수로부터 유도되는 에러의 합이 소정의 임계치 보다 작을 경우에는, 현재의 세그멘트의 피치 산정은 룩 백 트랙킹으로 선택되는 피치 산정과 동일하고; 현재의 세그멘트와 사전 선택된 세그멘트에 대한 룩 백 트랙킹을 위해 사용되는 에러 함수로부터 유도되는 에러의 합이 룩 어헤드 트랙킹을 위해 사용되는 누적 에러 함수로부터 유도되는 누적 에러보다 작을 경우에는, 현재의 세그맨트의 피치 산정은 룩 백 트랙킹으로 선택되는 피치 산정과 동일하며; 그렇지 않은 경우에는 현재의 세그멘트의 피치 산정은 룩 어헤드 트랙킹으로 선택되는 피치 산정과 동일한 것을 특징으로 하는 음향 신호 처리 방법.
  4. 제1항 또는 제2항에 있어서, 상기 룩 백 트랙킹은 상기 에러 함수를 최소화하는 피치 산정을 선택하기 위해 사용되는 것을 특징으로 하는 음향신호 처리 방법.
  5. 제1항 또는 제2항에 있어서, 상기 룩 백 트랙킹은 상기 에러 함수를 최소화하는 피치 산정을 선택하기 위해 사용되고, 상기 에러 함수는 자동 상관 함수에 의존하며, 상기 자동 상관 함수는 이 자동 상관 함수의 값들 사이에서 정수로 보간함으로써 비정수 값에 대해 산정되는 것을 특징으로 하는 음향 신호 처리 방법.
  6. 제5항에 있어서, 비정수 값에 대한 상기 자동 상관 함수는 상기 자동 상관 함수의 정수값들 사이에서 보간함으로써 산정되는 것을 특징으로 하는 음향 신호 처리 방법.
  7. 음향 신호의 개별 시간 세그멘트의 피치가 산정되는 음향 신호를 처리하는 방법에 있어서, 미리선택된 허용 가능한 피치의 범위를 부분 정수 분해로 이루어진 복수의 피치값으로 분할하는 단계와, 최소한 몇개의 상기 피치값에 대해 현재의 세그멘트에 대한 상기 피치값을 비교하는 수치 수단을 제공하는 에러 함수를 평가하는 단계와, 누적 에러 함수가 현재 세그켄트의 피치 산정이 함수와 미래 세그멘트에 대한 에러 함수의 값으로서 현재의 세그멘트 및 미래의 세그멘트의 누적 에러의 산정을 제공하며, 미래 세그멘트의 피치 산정이 사전 세그멘트의 피치 산정의 소정의 제2범위 내에 있도록 제한되어, 상기 누적 에러 함수를 감소시키는 피치그값을 현재의 시간 세그멘트에 대한 피치 산정으로서 선택하기 위해 룩 어헤드 트랙킹을 사용하는 단계를 포함하고, 상기 음향 신호의 세그멘트의 산정된 피치를 나타내는 피치 산정값을 결정하여 저장하는 단계와; 상기 음향 신호를 처리하기 위해 상기 피치 산정값을 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
  8. 제1항 또는 제2항에 있어서, 피치 P의 에러 함수는 다음 식,
    으로 나타내는데, 여기서, r(n)은 다음 식,
    에 의해 제공 자동 상관 함수이며,
    인 것을 특징으로 하는 음향 신호 처리 방법.
  9. 제8항에 있어서, 비정수값에 대한 자동 상관 함수 r(n)은 이 자동 함수 r(n)의 정수값들 사이에서 보간함으로써 산정하는 것을 특징으로 하는 음향 신호 처리 방법.
  10. 제9항에 있어서, 상기 보간은 다음식,
    을 사용하여 실행되는 것을 특징으로 하는 음향 신호 처리 방법.
  11. 제1항, 제2항 또는 제3항중 어느 한항에 있어서, 상기 피치 산정을 정제하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
  12. 제7항에 있어서, 상기 룩 어헤드 트랙킹은 상기 누적 에러 함수를 최소화하는 피치 산정을 선택하기 위해 사용되는 것을 특징으로 하는 음향 신호 처리 방법.
  13. 제7항에 있어서, 상기 룩 어헤드 트랙킹은 상기 누적 에러 함수를 최소화하는 피치 산정을 선택하기 위해 사용되고, 상기 누적 에러 함수는 자동 상관 함수에 의존하며, 상기 자동 상관 함수는 이 자동 상관 함수의 값들 사이에서 정수로 보간함으로써 비정수 값에 대해 산정되는 것을 특징으로 하는 음향 신호 처리 방법.
  14. 음향 신호의 개별 시간 세그멘트의 피치가 산정되는 음향 신호를 처리하는 방법에 있어서, 미리선택된 허용 가능한 피치의 범위를 복수의 피치값으로 분할하는 단계와, 모든 영역이 최소한 하나의 피치값을 포함하고, 최소한 하나의 영역이 복수의 상기 피치값을 포함하며, 사전 선택된 허용 가능한 피치의 범위를 복수의 영역으로 분할하는 단계와, 최소한 몇 개의 상기 피치값에 대해 현재의 세그멘트에 대한 상기 피치값을 비교하는 수치 수단을 제공하는 에러 함수를 평가하는 단계와, 복수의 영역내에 모든 피치값에 걸친 에러 함수를 최소화하는 피치값의 최소한 몇 개의 상기 영역을 찾아내어 상기 영역내에 에러 함수의 관련값을 저장하는 단계와, 상기 에러 함수를 최소화 하고 사전 세그멘트의 피치 산정을 포함하는 영역을 소정의 제1범위 이상 또는 그 이하의 범위내에 존재하는 상기 발견된 피치 값중 하나를 현재의 세그멘트에 대한 피치 산정으로서 선택하기 위해 룩 백 트랙킹을 사용하는 단계를 포함하고, 상기 음향 신호의 세그멘트의 산정된 피치를 나타내는 피치 산정값을 결정하여 저장하는 단계와; 상기 음향 신호를 처리하기 위해 상기 피치 산정값을 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
  15. 제14항에 있어서, 누적된 에러 함수가 현재 세그멘트의 피치 산정의 함수로서 현재의 세그멘트 및 미래의 세그멘트의 누적 에러의 산정을 제공하며, 미래의 세그멘트의 피치 산정이 사전 세그멘트의 피치 산정을 포함하는 영역을 소정의 제2범위 이상 또는 그 이하의 범위내에 있도록 제한되어, 상기 누적된 에러 함수로 감소시키는 피치 값을 산정 또는 현재의 세그멘트로서 선택하도록 룩 어헤드 트랙킹을 사용하는 단계와; 현재의 세그멘트의 피치 산정으로서 사용하기 위해 상기 피치 산정을룩 백 트랙킹 또는 룩 어헤드 트랙킹중 어느 하나를 선택하여 결정하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
  16. 제15항에 있어서, 현재의 세그멘트와 선택된 사전 세그멘트에 대한 룩 백 트랙킹을 위해 사용되는 에러 함수로부터 유도되는 에러의 합이 소정이 임계치 보다 작을 경우에는, 현재의 세그멘트의 피치 산정은 룩 백 트랙킹으로 선택되는 피치 산정과 동일하고; 현재의 세그멘트와 사전 선택된 세그멘트에 대한 룩 백 트랙킹을 위해 사용되는 에러 함수로부터 유도되는 누적 에러 보다 작을 경우에는, 현재의 세그멘트의 피치 산정은 룩 백 트랙킹으로 선택되는 피치 산정과 동일하며; 그렇지 않은 경우에는 현재의 세그멘트의 피치 산정은 룩 어헤드 트랙킹으로 선택되는 피치 산정과 동일한 것을 특징으로 하는 음향 신호 처리 방법.
  17. 제15항 또는 제16항에 있어서, 상기 제1및 제2범위는 상이한 수의 영역에 걸쳐서 연장되는 것을 특징으로 하는 음향 신호 처리 방법.
  18. 음향 신호의 개별 시간 세그멘트의 피치가 산정되는 음향 신호를 처리하는 방법에 있어서, 사전 선택된 허용 가능한 피치의 범위를 복수의 피치값으로 분할하는 단계와, 모든 영역이 최소한 하나의 피치값을 포함하고 하나의 영역이 복수의 피치값을 포함하며 사전 선택된 허용 가능한 하나의 영역이 복수의 피치값을 포함하며 사전 선택된 허용 가능한 피치의 범위를 복수의 영역으로 분할하는 단계와, 최소한 몇 개의 상기 피치값에 대해 현재의 세그멘트에 대한 상기 피치값을 비교하는 수치 수단을 제공하는 에러 함수를 평가하는 단계와, 복수의 영역내에 모든 피치값에 걸친 에러 함수를 최소화하는 피치값의 최소한 몇 개의 상기 영역을 찾는 단계와, 누적 에러 함수가 현재 세그멘트의 피치 산정의 함수로서 현재의 세그멘트 및 미래의 세그멘트의 누적 에러의 산정을 제공하며, 미래의 세그멘트의 피치 산정이 선행 세그멘트의 피치 산정을 포함하는 영역을 소정의 제2범위 이상 또는 그 이하 내에 있도록 제한되어, 상기 누적 에러 함수를 최소화하는 피치값중 하나를 현재의 세그멘트에 대한 피치 산정으로서 선택하기 위해 룩 어헤드 트랙킹을 사용하는 단계를 포함하고, 상기 음향 신호의 세그멘트의 산정된 피치를 나타내는 피치 산정값을 결정하여 저장하는 단계와; 상기 음향 신호를 처리하기 위해 상기 피치 산정값을 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
  19. 제14항 또는 제15항에 있어서, 상기 복수의 영역내의 피치값의 수는 영역들 사이에서 변화하는 것을 특징으로 하는 음향 신호 처리 방법.
  20. 제14항 또는 제15항에 있어서, 상기 피치 산정을 정제하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
  21. 제14항 또는 제15항에 있어서, 상기 허용 가능한 피치의 범위는 부분 정수 분해를 갖는 복수의 피치값으로 분할되는 것을 특징으로 하는 음향 신호 처리 방법.
  22. 제21항에 있어서, 상기 에러 함수는 자동 상관 함수에 의존하는 것을 특징으로 하는 음향 신호 처리 방법.
  23. 제14항 또는 제15항에 있어서, 상기 허용 가능한 피치의 범위는 부분 정수 분해를 갖는 복수의 피치값으로 분할되고, 상기 누적 에러 함수는 자동 상관 함수에 의존하며, 상기 자동 상관 함수는 그 자동 상관 함수의 값들 사이에서 정수로 보간함으로써 비정수값에 대해 산정되는 것을 특징으로 하는 음향 신호 처리 방법.
  24. 제14항 또는 제15항에 있어서, 상기 허용 가능한 피치의 범위는 피치 종속 분해를 사용하는 복수의 피치값으로 분할되는 것을 특징으로 하는 음향 신호 처리 방법.
  25. 제24항에 있어서, 상기 피치값이 작은 값은 높은 분해를 갖는 것을 특징으로 하는 음향 신호 처리 방법.
  26. 제25항에 있어서, 상기 피치값의 작은 값은 부분 정수 분해를 갖는 것을 특징으로 하는 음향 신호 처리 방법.
  27. 제25항에 있어서, 상기 피치값의 큰 값은 정수 분해보다 큰 것을 특징으로 하는 음향 신호 처리 방법.
  28. 음향 신호의 개별 세그멘트의 피치가 산정되는 음향 신호를 처리하는 방법에 있어서, 최소한 몇 개의 피치값이 부분 정수 분해를 처리하며, 미리선택된 허용 가능한 피치의 범위를 피치 종속 분해를 사용하는 소정의 복수의 피치값으로 분할하는 단계와, 최소한 몇 개의 상기 피치값에 대해 현재의 세그멘트에 대한 상기 피치값을 비교하는 수치 수단을 제공하는 에러 함수를 평가하는 단계와, 상기 에러 함수를 감소시키는 피치값을 현재의 세그멘트의 산정된 피치로 선택하는 단계를 포함하고, 상기 음향 신호의 세그멘트의 산정된 피치를 나타내는 피치 산정값을 결정하여 저장하는 단계와; 상기 음향 신호를 처리하기 위해 상기 피치 산정값을 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
  29. 음향 신호의 개별 시간 세그멘트의 피치가 산정되는 음향 신호를 처리하는 방법에 있어서, 미리선택된 허용 가능한 피치의 범위를 피치 종속 분해를 사용하는 소정의 복수의 피치값으로 분할하는 단계와, 최소한 몇 개의 상기 피치값에 대해 현재의 세그멘트에 대한 상기 피치값을 비교하는 수치 수단을 제공하는 에러 함수를 평가하는 단계와, 사전 세그멘트의 피치 산정을 소정의 제1범위 이상 또는 그 이하의 범위내에 상기 에러 함수를 감소시키는 피치값을 현재의 시간 세그멘트에 대한 피치 산정으로서 선택하도록 룩 백 트랙킹을 사용하는 단계를 포함하고, 상기 음향 신호의 세그멘트의 산정된 피치를 나타내는 피치 산정값을 결정하여 저장하는 단계와; 상기 음향 신호를 처리하기 위해 상기 피치 산정값을 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
  30. 제29항에 있어서, 누적된 에러 함수가 현재 세그멘트의 피치 산정의 함수로서 현재의 세그멘트 및 미래의 세그멘트의 누적 에러의 산정을 제공하며, 미래의 세그멘트의 피치 산정이 사전 세그멘트의 피치 산정의 소정의 제2범위내에 있도록 제한되어, 상기 누적된 에러 함수를 감소시키는 피치값을 현재의 시간 세그멘트에 대한 피치 산정으로서 선택하도록 룩 어헤드 트랙킹을 사용하는 단계와; 현재의 세그멘트의 산정된 피치로서 사용하기 위해 룩 백 트랙킹 또는 룩 어헤드 트랙킹중 어느 하나를 선택하여 상기 피치 산정을 결정하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
  31. 제30항에 있어서, 현재의 세그멘트와 선택된 사전 세그멘트에 대한 룩 백 트랙킹을 위해 사용되는 에러 함수로부터 유도되는 에러의 합이 소정이 임계치 보다 작을 경우에는, 현재의 세그멘트의 산정된 피치는 룩 백 트랙킹으로 선택되는 피치 산정과 동일하고; 현재의 세그멘트와 사전 선택된 세그멘트에 대한 룩 백 트랙킹을 위해 사용되는 에러 함수로부터 유도되는 에러의 합이 룩 어헤드 트랙킹을 위해 사용되는 누적 에러 함수로부터 유도되는 누적 에러 보다 작을 경우에는, 현재의 세그멘트의 산정된 피치는 룩 백 트랙킹으로 선택되는 피치 산정과 동일하며; 그렇지 않은 경우에는 현재 세그멘트의 산정된 피치는 룩 어헤드 트랙킹으로 선택되는 피치 산정과 동일한 것을 특징으로 하는 음향 신호 처리 방법.
  32. 제28항에 있어서, 상기 룩 백 트랙킹은 상기 에러 함수를 최소화하는 피치값으로 선택하기 위해 사용되는 것을 특징으로 하는 음향 신호 처리 방법.
  33. 음향 신호의 개별 시간 세그멘트의 피치가 산정되는 음향 신호를 처리하는 방법에 있어서, 미리선택된 허용 가능한 피치 종속 분해를 사용하는 복수의 피치값으로 분할하는 단계와, 최소한 몇 개의 상기 피치값에 대해 현재의 세그멘트에 대한 상기 피치값을 비교하는 수치 수단을 제공하는 에러 함수를 평가하는 단계와, 누적 에러 함수가 현재 피치의 함수로서 현재의 세그멘트 및 미래의 세그멘트의 누적 에러의 산정을 제공하며, 미래 세그멘트의 피치 산정이 사전 세그멘트의 피치 산정의 소정의 제2범위내에 있도록 제한되어, 상기 누적 에러 함수를 감소시키는 피치값을 현재의 시간 세그멘트에 대한 피치 산정으로서 선택하도록 룩 어헤드 트랙킹을 사용하는 단계를 포함하고, 상기 음향 신호의 세그멘트의 산정된 피치를 나타내는 피치 산정값을 결정하여 저장하는 단계와; 상기 음향 신호를 처리하기 위해 상기 피치 산정값을 사용하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
  34. 제33항에 있어서, 상기 룩 어헤드 트랙킹은 상기 누적 에러 함수를 최소화하는 피치 산정을 선택하기 위해 사용되는 것을 특징으로 하는 음향 신호 처리 방법.
  35. 제28항에 있어서, 상기 피치값의 작은 값은 높은 분해를 갖는 것을 특징으로 하는 음향 신호 처리 방법.
  36. 제35항에 있어서, 상기 피치값의 작은 값은 부분 정수 분해를 갖는 것을 특징으로 하는 음향 신호 처리 방법.
  37. 제35항에 있어서, 상기 피치값의 큰값은 정수 분해보다 큰 것을 특징으로 하는 음향 신호 처리 방법.
  38. 제1항에 있어서, 상기 음향 신호 처리 방법은 음성 부호화를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
  39. 제28항에 있어서, 모든 영역이 최소한 하나의 피치값을 포함하고 최소한 하나의 영역이 복수의 상기 피치값을 포함하며 사전 선택된 허용 가능한 피치의 범위를 복수의 영역으로 분할하는 단계와; 복수의 영역내에 모든 피치값에 걸친 에러 함수를 최소화하는 피치값의 최소한 몇 개의 영역을 찾는 단계와; 상기 복수의 영역의 하나가 선택된 피치 산정을 현재의 세그멘트의 산정된 피치로 선택하는 단계를 포함하는 것을 특징으로 하는 음향 신호 처리 방법.
  40. 제1항 내지 제3항중 어느 한항에 있어서, 상기 음향 신호 처리 방법은 음성 부호화를 포함하고, 기본 주파수에 대해 다대역 여기 음성 모델에 따른 현재의 시간 세그멘트를 분석하는 단계를 추가로 포함하며, 상기 기본 주파수는 현재의 세그멘트에 대한 피치 산정의 함수로서 선택되는 것을 특징으로 하는 음향 신호 처리 방법.
  41. 음향 신호를 부호화하는 방법에 있어서, 상기 음향 신호를 연속 시간 구간중 한 구간을 나타내는 각각의 세그멘트로 분할하는 단계와; 상기 세그멘트의 각각을 복수의 주파수 대역으로 분할하는 단계와; 상기 세그멘트의 각각을 현재의 세그멘트로 간주하여 상기 현재의 세그멘트의 복수의 주파수 대역이 각각에 대해 유성음/무성음 결정을 행하도록 하는 단계를 포함하며, 상기 유성음/무성음 결정 단계는, 상기 주파수 대역에 대해 유성음 측정을 평가하는 단계와; 상기 유성음 측정과 임계치간의 비교에 기초하여 상기 주파수 대역에 대한 유성음/무성음 결정을 행하는 단계와; 상기 현재의 세그멘트의 에너지 측정을 결정하는 단계와; 하나 또는 그 이상의 최근의 이전 세그멘트의 신호 에너지 측정을 결정하는 단계와; 현재의 세그멘트의 에너지 측정이 상기 하나 또는 그 이상의 최근의 이전 세그멘트의 신호 에너지의 측정과 비교하는 단계와; 상기 현재의 세그멘트의 에너지 측정이 상기 하나 또는 그 이상의 최근의 이전 세그멘트의 신호 에너지 측정 보다 큰 경우에는 유성음 결정을 내리도록 임계치를 조절하는 단계를 포함한 것을 특징으로 하는 음향 신호 부호화 방법.
  42. 음향 신호를 부호화하는 방법에 있어서, 상기 음향 신호를 연속 시간 구간중 한 구간을 나타내는 각각의 세그멘트로 분할하는 단계와; 상기 세그멘트의 각각을 복수의 주파수 대역으로 분할하는 단계와; 상기 세그메트의 각각을 현재의 세그멘트로 간주하여 상기 현재의 세그멘트의 복수의 주파수 대역의 각각에 대해 유성음/무성음 결정을 행하도록 하는 단계를 포함하며, 상기 유성음/무성음 결정 단계는, 상기 주파수 대역에 대해 유성음 측정을 평가하는 단계와; 상기 유성음 측정과 임계치간의 비교에 기초하여 상기 주파수 대역에 대한 유성음/무성음 결정을 행하는 단계와; 상기 현재의 세그멘트 에너지 측정을 결정하는 단계와; 하나 또는 그 이상의 최근의 이전 세그멘트의 신호 에너지의 측정을 결정하는 단계와; 현재의 세그멘트의 에너지 측정을 상기 하나 또는 그 이상의 최근의 이전 세그멘트의 신호 에너지의 측정과 비교하는 단계와; 상기 현재의 세그멘트의 에너지 측정이 상기 하나 또는 그 이상의 최근의 이전 세그멘트의 신호 에너지의 측정치 이하일 경우에는 무성음 결정을 내리도록 임계치를 조정하는 단계를 포함하는 것을 특징으로 하는 음향 신호 부호화 방법.
  43. 제42항에 있어서, 상기 현재의 세그멘트의 에너지 측정이 상기 하나 또는 그 이상의 최근의 이전 세그멘트의 신호 에너지의 측정치 보다 큰 경우에는 유성음 결정을 내리도록 임계치를 조정하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호 부호화 방법.
  44. 제42항 또는 제43항에 있어서, 상기 현재의 세그멘트의 에너지 측정치 ξ0는 다음 식,
    으로 구해지며, 여기서, ω는 주파수이고, H(ω)는 주파수 종속 가중 함수이며, Sω(ω)는 음향 신호의 푸리에 변환인 것을 특징으로 하는 음향 신호 부호화 방법.
  45. 제42항 또는 제43항에 있어서, 상기 유성음 측정치 Di은 다음 식,
    으로 구해지며, 여기서, ω는 윈도우 함수이고, Sω(ω)는 음향 신호의 푸리에 변환이며,는 음향 신호를 모델링하기 위해 사용된 유성음 스펙트럼이고, ω는 주파수이고, Ω1는 주파수 대역의 경계인 것을 특징으로 하는 음향 신호 부호화 방법.
  46. 제42항 또는 제43항에 있어서, 상기 임계치 Τξ(P,ω)는 다음 식,
    에 따라 갱신되며, 여기서, ξ0는 현재 세그멘트의 측정치이고, ξavg는 순환 방정식 ξavg= (1-γ0avg+ γ0·ξ0에 따라 계산된 평국 국부 에너지이며, ξmax다음의 순환 방정식,
    에 따라 계산된 최대 국부 에너지이며, ξmin은 다음의 순환 방정식,
    에 따라 계산된 최소 국부 에너지이며 Μ(ξ0, ξavg, ξmin, ξmax)은 다음 식,
    에 따라 계산되며, 여기서 P는 피치이고 λ0, λ1, λ2, μ, ξsilence, γ01, γ2, γ3, γ4는 상수인 것을 특징으로 하는 음향 신호 부호화 방법.
  47. 음향 신호를 부호화하는 방법에 있어서, 상기 음향 신호를 연속 시간 구간중 한 구간을 나타내는 각각의 세그멘트로 분할하는 단계와; 상기 세그멘트의 각각을 현재의 세그멘트로 간주하여 상기 현재의 세그멘트의 적어도 하나의 주파수 대역에 대한 유성음/무성음 결정을 행하도록 하는 단계를 포함하며, 상기 유성음/무성음 결정 단계는, 상기 주파수 대역에 대한 유성음 측정을 평가하는 단계와; 상기 유성음 측정과 임계치간의 비교에 기초하여 상기 주파수 대역에 대해 유성음/무성음 결정을 행하는 단계와; 상기 현재의 세그멘트의 에너지 측정을 결정하는 단계와; 하나 또는 그 이상의 연속적인 후속 세그멘트의 신호 에너지의 측정을 결정하는 단계와; 현재의 세그멘트의 에너지 측정을 상기 연속적인 후속 세그멘트의 신호 에너지의 측정과 비교하는 단계와; 상기 현재의 세그멘트의 에너지 측정이 상기 후속 세그멘트의 신호 에너지의 측정치보다 큰 경우에는 유성음 결정을 내리도록 임계치를 조정하는 단계를 포함하는 것을 특징으로 하는 음향 신호 부호화 방법.
  48. 음향 신호를 부호화하는 방법에 있어서, 상기 음향 신호를 연속 시간 구간중 한 구간을 나타내는 각각의 세그멘트로 분할하는 단계와; 상기 세그멘트의 각각을 현재의 세그멘트로 간주하여 상기 현재의 세그멘트의 적어도 하나의 주파수 대역에 대한 유성음/무성음 결정을 행하도록 하는 단계를 포함하며, 상기 유성음/무성음 결정 단계는, 상기 주파수 대역에 대한 유성음 측정을 평가하는 단계와; 상기 유성음 측정과 임계치간의 비교에 기초하여 상기 주파수 대역에 대해 유성음/무성음 결정을 행하는 단계와; 상기 현재의 세그멘트의 에너지 측정을 결정하는 단계와; 하나 또는 그 이상의 연속적인 후속 세그멘트의 신호 에너지의 측정을 결정하는 단계와; 현재의 세그멘트의 에너지 측정을 상기 후속 세그멘트의 신호 에너지의 측정과 비교하는 단계와; 상기 현재의 세그멘트의 에너지 측정이 상기 후속 세그멘트의 신호 에너지의 측정치이하일 경우에는 무성음 결정을 내리도록 임계치를 조정하는 단계를 포함하는 것을 특징으로 하는 음향 신호 부호화 방법.
  49. 제96항에 있어서, 상기 현재의 세그멘트의 에너지 측정이 상기 후속 세그멘트의 신호 에너지의 측정치 보다 큰 경우에는 유성음 결정을 내리도록 임계치를 조정하는 단계를 추가로 포함하는 것을 특징으로 하는 음향 신호 부호화 방법.
  50. 제48항 또는 제49항에 있어서, 상기 후속 세그멘트는 상기 현재 세그멘트를 즉각적으로 후속하는 세그멘트인 것을 특징으로 하는 음향 신호 부호화 방법.
  51. 유성음 조파로부터의 합성에 의해 생성된 유형의 음성 신호의 유성음부를 생성하기 위한 방법에 있어서, 상기 유성음 조파의 제1및 제2그룹에 대한 정보를 포함하는 복수의 유성음 조파에 대한 정보를 갖는 신호를 수신하는 단계와; 시간 영역 합성 방법을 사용하여 상기 제1그룹의 유성음 조파를 생성하는 단계와; 주파수 영역 합성 방법을 사용하여 상기 제2그룹의 유성음 조파를 생성하는 단계와; 상기 음성 신호의 유성음부를 생성하기 위해 상기 제1및 제2그룹의 유성음 조파를 결합하는 단계를 포함하는 것을 특징으로 하는 방법.
  52. 제51항에 있어서, 상기 제1그룹은 저주파 조파를 포함하는 것을 특징으로 하는 방법.
  53. 제51항 또는 제52항에 있어서, 상기 제2그룹은 고주파 조파를 포함하는 것을 특징으로 하는 방법.
  54. 제53항에 있어서, 상기 시간 영역 합성은 하위 차수 구분적 위상 다항식을 생성함으로써 실행되는 것을 특징으로 하는 방법.
  55. 제53항에 있어서, 상기 주파수 영역 합성은, 주파수 스케일링된 조파를 생성하기 위해 맵핑(여기서, L은 작은 정수)에 따라 상기 유성음 조파에 대한 정보를 선형적으로 주파수 스케일링하는 단계와; 상기 주파수 스케일링된 조파를 시간 영역으로 동시에 변환하기 위해 L-지점 역 이상 푸리에 변환(DFT)을 실행하는 단계와; 상기 제2그룹의 유성음 조파를 생성하기 위해 보간 및 시간 스케일링을 실행하는 단계를 포함하는 방법을 사용하여 실행되는 것을 특징으로 하는 방법.
  56. 제51항에 있어서, 상기 시간 영역 합성은 하위 차수 구분적 위상 다항식을 생성함으로써 실행되는 것을 특징으로 하는 방법.
  57. 유성음 조파로부터의 합성에 의해 생성된 유형의 음성 신호의 유성음부를 생성하기 위한 방법에 있어서, 복수의 유성음 조파에 대한 정보를 포함하는 신호를 수신하는 단계와; 주파수 스케일링된 조파를 생성하기 위해 맵핑(여기서, L은 작은 정수)에 따라 상기 유성음 조파에 대한 정보를 선형적으로 주파수 스케일링하는 단계와; 상기 주파수 스케일링된 조파를 시간 영역으로 동시에 변환하기 위해 L-지점 역 이산 푸리에 변환(DFT)을 실행하는 단계와; 상기 복수의 유성음 조파를 생성하기 위해 보간 및 시간 스케일링을 실행하는 단계와; 상기 음성 신호의 유성음부를 생성하기 위해 상기 유성음 조파를 결합하는 단계를 포함하는 것을 특징으로 하는 방법.
  58. 제55항에 있어서, 상기 DFT는 고속 푸리에 변환으로 계산되며, L은 복잡한 합성수인 것을 특징으로 하는 방법.
  59. 제55항에 있어서, 상기 보간은 선형 보간으로 실행되는 것을 특징으로 하는 방법.
  60. 조파로부터의 음성 신호의 일부 또는 전부를 합성하기 위한 방법에 있어서, 상기 조파의 적어도 2개의 그룹으로 구성되는 복수의 조파에 대한 정보를 포함하는 신호를 처리하는 단계와; 시간 영역 합성 방법을 사용하여 상기 신호로부터 제1그룹의 조파를 생성하는 단계와; 주파수 영역 합성 방법을 사용하여 제2그룹의 조파에 대한 정보로부터 제2신호를 생성하는 단계와; 상기 음성 신호의 일부 또는 전부를 생성하기 위해 상기 생성된 제1그룹의 조파와 상기 생성된 제2신호를 결합하는 단계를 포함하는 것을 특징으로 하는 방법.
  61. 제60항에 있어서, 상기 제1그룹은 저주파 조파를 포함하는 것을 특징으로 하는 방법.
  62. 제60항에 있어서, 상기 제2그룹은 고주파 조파를 포함하는 것을 특징으로 하는 방법.
  63. 제60항에 있어서, 상기 시간 영역 합성은 하위 차수 구분적 위상 다항식을 생성함으로써 실행되는 것을 특징으로 하는 방법.
  64. 제60항에 있어서, 상기 주파수 영역 합성은, 주파수 스케일링된 조파를 생성하기 위해 맵핑(여기서, L은 작은 정수)에 따라 상기 유성음 조파에 대한 정보를 선형적으로 주파수 스케일링하는 단계와; 상기 주파수 스케일링된 조파를 시간 영역으로 동시에 변환하기 위해 L-지점 역 이산 푸리에 변환(DFT)을 실행하는 단계와; 상기 제2신호를 생성하기 위해 보간 및 시간 스케일링을 실행하는 단계를 포함하는 방법을 사용하여 실행되는 것을 특징으로 하는 방법.
  65. 제60항 또는 제64항에 있어서, 상기 합성된 음성은 다대역 여기(MBE) 음성 코더의 유성음부인 것을 특징으로 하는 방법.
  66. 제60항 또는 제64항에 있어서, 상기 복수의 조파에 대한 상기 정보는 사인 변환 코더의 파라미터를 나타내는 것을 특징으로 하는 방법.
  67. 조파로부터의 음성 신호의 일부 또는 전부를 합성하기 위한 방법에 있어서, 상기 조파의 적어도 2개의 그룹으로 구성되는 복수의 조파에 대한 정보를 포함하는 신호를 처리하는 단계와; 시간 영역 합성 방법을 사용하여 제1그룹의 조파로부터 제1신호를 생성하는 단계와; 주파수 영역 합성 방법을 사용하여 제2그룹의 조파로부터 제2신호를 생성하는 단계와; 상기 음성 신호의 일부 또는 전부를 생성하기 위해 상기 제1신호와 상기 제2신호를 결합하는 단계를 포함하는 것을 특징으로 하는 방법.
  68. 제67항에 있어서, 상기 제1그룹은 저주파 조파를 포함하는 것을 특징으로 하는 방법.
  69. 제67항에 있어서, 상기 제2그룹은 고주파 조파를 포함하는 것을 특징으로 하는 방법.
  70. 제67항에 있어서, 상기 시간 영역 합성은 하위 차수 구분적 위상 다항식을 생성함으로써 실행되는 것을 특징으로 하는 방법.
  71. 제67항에 있어서, 상기 주파수 영역 합성은, 주파수 스케일링된 조파를 생성하기 위해 맵핑(여기서, L은 작은 정수)에 따라 상기 유성음 조파에 대한 정보를 선형적으로 주파수 스케일링하는 단계와; 상기 주파수 스케일링된 조파를 시간 영역으로 동시에 변환하기 위해 L-지점 역 이산 푸리에 변환(DFT)을 실행하는 단계와; 상기 제2신호를 생성하기 위해 보간 및 시간 스케일링을 실행하는 단계를 포함하는 방법을 사용하여 실행되는 것을 특징으로 하는 방법.
  72. 제67항 또는 제71항에 있어서, 상기 합성된 음성은 다대역 여기(MBE) 음성 코더의 유성음부인 것을 특징으로 하는 방법.
  73. 제67항 또는 제71항에 있어서, 상기 복수의 조파에 대한 상기 정보는 사인 변환 코더의 파라미터를 나타내는 것을 특징으로 하는 방법.
  74. 조파로부터의 음성 신호의 일부 또는 전부를 합성하기 위한 방법에 있어서, 복수의 조파에 대한 정보를 포함하는 신호를 처리하는 단계와; 주파수 스케일링된 조파를 생성하기 위해 맵핑(여기서, L은 작은 정수)에 따라 상기 유성음 조파에 대한 정보를 선형적으로 주파수 스케일링하는 단계와; 상기 주파수 스케일링된 조파를 시간 영역으로 동시에 변환하기 위해 L-지점 역 이산 푸리에 변환(DFT)을 실행하는 단계와; 상기 음성 신호의 일부 또는 전부를 생성하기 위해 시간 영역으로 변환된 상기 주파수 스케일링된 조파에 대한 보간 및 시간 스케일링을 실행하는 단계를 포함하는 것을 특징으로 하는 방법.
  75. 제74항에 있어서, 상기 합성된 음성은 다대역 여기(MBE) 음성 코더의 유성음부인 것을 특징으로 하는 방법.
  76. 제74항에 있어서, 상기 복수의 조파에 대한 상기 정보는 사인 변환 코더의 파라미터를 나타내는 것을 특징으로 하는 방법.
  77. 제71항에 있어서, 상기 DFT는 고속 푸리에 변환으로 계산되는 것을 특징으로 하는 방법.
  78. 제71항에 있어서, 상기 보간은 선형 보간으로 실행되는 것을 특징으로 하는 방법.
KR1019930700834A 1990-09-20 1991-09-21 음성 분석 및 음성 합성 방법 KR100225687B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US585,830 1990-09-20
US07/585,830 US5226108A (en) 1990-09-20 1990-09-20 Processing a speech signal with estimated pitch
PCT/US1991/006853 WO1992005539A1 (en) 1990-09-20 1991-09-20 Methods for speech analysis and synthesis

Publications (2)

Publication Number Publication Date
KR930702743A KR930702743A (ko) 1993-09-09
KR100225687B1 true KR100225687B1 (ko) 1999-10-15

Family

ID=24343133

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019930700834A KR100225687B1 (ko) 1990-09-20 1991-09-21 음성 분석 및 음성 합성 방법

Country Status (8)

Country Link
US (3) US5226108A (ko)
EP (1) EP0549699B1 (ko)
JP (1) JP3467269B2 (ko)
KR (1) KR100225687B1 (ko)
AU (1) AU658835B2 (ko)
CA (1) CA2091560C (ko)
DE (1) DE69131776T2 (ko)
WO (1) WO1992005539A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100393899B1 (ko) * 2001-07-27 2003-08-09 어뮤즈텍(주) 2-단계 피치 판단 방법 및 장치

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5517511A (en) * 1992-11-30 1996-05-14 Digital Voice Systems, Inc. Digital transmission of acoustic signals over a noisy communication channel
US5574823A (en) * 1993-06-23 1996-11-12 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Communications Frequency selective harmonic coding
JP2658816B2 (ja) * 1993-08-26 1997-09-30 日本電気株式会社 音声のピッチ符号化装置
US6463406B1 (en) * 1994-03-25 2002-10-08 Texas Instruments Incorporated Fractional pitch method
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters
DE69615227T2 (de) * 1995-01-17 2002-04-25 Nec Corp Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
US5754974A (en) * 1995-02-22 1998-05-19 Digital Voice Systems, Inc Spectral magnitude representation for multi-band excitation speech coders
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6591240B1 (en) * 1995-09-26 2003-07-08 Nippon Telegraph And Telephone Corporation Speech signal modification and concatenation method by gradually changing speech parameters
JP3680374B2 (ja) * 1995-09-28 2005-08-10 ソニー株式会社 音声合成方法
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
US5684926A (en) * 1996-01-26 1997-11-04 Motorola, Inc. MBE synthesizer for very low bit rate voice messaging systems
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
US5806038A (en) * 1996-02-13 1998-09-08 Motorola, Inc. MBE synthesizer utilizing a nonlinear voicing processor for very low bit rate voice messaging
US6035007A (en) * 1996-03-12 2000-03-07 Ericsson Inc. Effective bypass of error control decoder in a digital radio system
US5696873A (en) * 1996-03-18 1997-12-09 Advanced Micro Devices, Inc. Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
US5774836A (en) * 1996-04-01 1998-06-30 Advanced Micro Devices, Inc. System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
SE506341C2 (sv) * 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
US5960386A (en) * 1996-05-17 1999-09-28 Janiszewski; Thomas John Method for adaptively controlling the pitch gain of a vocoder's adaptive codebook
JPH10105194A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
JPH10105195A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US5946650A (en) * 1997-06-19 1999-08-31 Tritech Microelectronics, Ltd. Efficient pitch estimation method
CN1231050A (zh) * 1997-07-11 1999-10-06 皇家菲利浦电子有限公司 具有改进谐波语音编码器的发射机
US6233550B1 (en) 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US5999897A (en) * 1997-11-14 1999-12-07 Comsat Corporation Method and apparatus for pitch estimation using perception based analysis by synthesis
US6199037B1 (en) 1997-12-04 2001-03-06 Digital Voice Systems, Inc. Joint quantization of speech subframe voicing metrics and fundamental frequencies
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
KR19990065424A (ko) * 1998-01-13 1999-08-05 윤종용 저지연 다중밴드 여기 보코더를 위한 피치 결정방식
US6064955A (en) 1998-04-13 2000-05-16 Motorola Low complexity MBE synthesizer for very low bit rate voice messaging
US6438517B1 (en) * 1998-05-19 2002-08-20 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
US6463407B2 (en) * 1998-11-13 2002-10-08 Qualcomm Inc. Low bit-rate coding of unvoiced segments of speech
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6298322B1 (en) 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
US6470311B1 (en) 1999-10-15 2002-10-22 Fonix Corporation Method and apparatus for determining pitch synchronous frames
US6868377B1 (en) * 1999-11-23 2005-03-15 Creative Technology Ltd. Multiband phase-vocoder for the modification of audio or speech signals
US6377916B1 (en) 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
US6975984B2 (en) * 2000-02-08 2005-12-13 Speech Technology And Applied Research Corporation Electrolaryngeal speech enhancement for telephony
US6564182B1 (en) * 2000-05-12 2003-05-13 Conexant Systems, Inc. Look-ahead pitch determination
CN1193347C (zh) * 2000-06-20 2005-03-16 皇家菲利浦电子有限公司 正弦编码
US6587816B1 (en) 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
KR100367700B1 (ko) * 2000-11-22 2003-01-10 엘지전자 주식회사 음성부호화기의 유/무성음정보 추정방법
ES2280370T3 (es) * 2001-04-24 2007-09-16 Nokia Corporation Metodos para cambiar el tamaño de una memoria intermedia de fluctuacion y para la alineacion temporal, un sistema de comunicaciones, un extremo receptor, y un transcodificador.
KR100347188B1 (en) * 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
US6912495B2 (en) * 2001-11-20 2005-06-28 Digital Voice Systems, Inc. Speech model and analysis, synthesis, and quantization methods
JP2004054526A (ja) * 2002-07-18 2004-02-19 Canon Finetech Inc 画像処理システム、印刷装置、制御方法、制御コマンド実行方法、プログラムおよび記録媒体
US7970606B2 (en) * 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
US7251597B2 (en) * 2002-12-27 2007-07-31 International Business Machines Corporation Method for tracking a pitch signal
US7634399B2 (en) * 2003-01-30 2009-12-15 Digital Voice Systems, Inc. Voice transcoder
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
US8359197B2 (en) * 2003-04-01 2013-01-22 Digital Voice Systems, Inc. Half-rate vocoder
US7373294B2 (en) * 2003-05-15 2008-05-13 Lucent Technologies Inc. Intonation transformation for speech therapy and the like
US8310441B2 (en) * 2004-09-27 2012-11-13 Qualcomm Mems Technologies, Inc. Method and system for writing data to MEMS display elements
US7319426B2 (en) * 2005-06-16 2008-01-15 Universal Electronics Controlling device with illuminated user interface
US8036886B2 (en) * 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
WO2009078093A1 (ja) * 2007-12-18 2009-06-25 Fujitsu Limited 非音声区間検出方法及び非音声区間検出装置
US20110046957A1 (en) * 2009-08-24 2011-02-24 NovaSpeech, LLC System and method for speech synthesis using frequency splicing
US8767978B2 (en) 2011-03-25 2014-07-01 The Intellisis Corporation System and method for processing sound signals implementing a spectral motion transform
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US8620646B2 (en) 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
CN103325384A (zh) 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
EP2828855B1 (en) 2012-03-23 2016-04-27 Dolby Laboratories Licensing Corporation Determining a harmonicity measure for voice processing
KR101475894B1 (ko) * 2013-06-21 2014-12-23 서울대학교산학협력단 장애 음성 개선 방법 및 장치
US9583116B1 (en) * 2014-07-21 2017-02-28 Superpowered Inc. High-efficiency digital signal processing of streaming media
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US10431236B2 (en) * 2016-11-15 2019-10-01 Sphero, Inc. Dynamic pitch adjustment of inbound audio to improve speech recognition
EP3447767A1 (en) * 2017-08-22 2019-02-27 Österreichische Akademie der Wissenschaften Method for phase correction in a phase vocoder and device
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3706929A (en) * 1971-01-04 1972-12-19 Philco Ford Corp Combined modem and vocoder pipeline processor
US3982070A (en) * 1974-06-05 1976-09-21 Bell Telephone Laboratories, Incorporated Phase vocoder speech synthesis system
US3995116A (en) * 1974-11-18 1976-11-30 Bell Telephone Laboratories, Incorporated Emphasis controlled speech synthesizer
US4004096A (en) * 1975-02-18 1977-01-18 The United States Of America As Represented By The Secretary Of The Army Process for extracting pitch information
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer
US4076958A (en) * 1976-09-13 1978-02-28 E-Systems, Inc. Signal synthesizer spectrum contour scaler
JPS597120B2 (ja) * 1978-11-24 1984-02-16 日本電気株式会社 音声分析装置
FR2494017B1 (fr) * 1980-11-07 1985-10-25 Thomson Csf Procede de detection de la frequence de melodie dans un signal de parole et dispositif destine a la mise en oeuvre de ce procede
US4441200A (en) * 1981-10-08 1984-04-03 Motorola Inc. Digital voice processing system
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
DE3370423D1 (en) * 1983-06-07 1987-04-23 Ibm Process for activity detection in a voice transmission system
AU2944684A (en) * 1983-06-17 1984-12-20 University Of Melbourne, The Speech recognition
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
US4879748A (en) * 1985-08-28 1989-11-07 American Telephone And Telegraph Company Parallel processing pitch detector
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
DE3640355A1 (de) * 1986-11-26 1988-06-09 Philips Patentverwaltung Verfahren zur bestimmung des zeitlichen verlaufs eines sprachparameters und anordnung zur durchfuehrung des verfahrens
NL8701798A (nl) * 1987-07-30 1989-02-16 Philips Nv Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal.
US4809334A (en) * 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100393899B1 (ko) * 2001-07-27 2003-08-09 어뮤즈텍(주) 2-단계 피치 판단 방법 및 장치

Also Published As

Publication number Publication date
KR930702743A (ko) 1993-09-09
WO1992005539A1 (en) 1992-04-02
US5195166A (en) 1993-03-16
DE69131776D1 (de) 1999-12-16
JP3467269B2 (ja) 2003-11-17
US5581656A (en) 1996-12-03
JPH06503896A (ja) 1994-04-28
CA2091560C (en) 2003-01-07
US5226108A (en) 1993-07-06
CA2091560A1 (en) 1992-03-21
AU8629891A (en) 1992-04-15
DE69131776T2 (de) 2004-07-01
EP0549699A4 (ko) 1995-04-26
EP0549699B1 (en) 1999-11-10
AU658835B2 (en) 1995-05-04
EP0549699A1 (en) 1993-07-07

Similar Documents

Publication Publication Date Title
KR100225687B1 (ko) 음성 분석 및 음성 합성 방법
US5216747A (en) Voiced/unvoiced estimation of an acoustic signal
US6526376B1 (en) Split band linear prediction vocoder with pitch extraction
US5787387A (en) Harmonic adaptive speech coding method and system
US5890108A (en) Low bit-rate speech coding system and method using voicing probability determination
US7092881B1 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
EP0337636B1 (en) Harmonic speech coding arrangement
US5081681A (en) Method and apparatus for phase synthesis for speech processing
US5781880A (en) Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US6188979B1 (en) Method and apparatus for estimating the fundamental frequency of a signal
KR100388387B1 (ko) 여기파라미터의결정을위한디지탈화된음성신호의분석방법및시스템
US8280724B2 (en) Speech synthesis using complex spectral modeling
JP4100721B2 (ja) 励起パラメータの評価
US20030074192A1 (en) Phase excited linear prediction encoder
WO2008157296A1 (en) Signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP1313091B1 (en) Methods and computer system for analysis, synthesis and quantization of speech
JP2000514207A (ja) 音声合成システム
JP3321933B2 (ja) ピッチ検出方法
KR100624439B1 (ko) 유/무성음 합성방법
KR100628170B1 (ko) 음성을 코딩하기 위한 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110712

Year of fee payment: 13

EXPY Expiration of term