KR0141158B1 - 음성 부호화의 피치 추정방법 - Google Patents

음성 부호화의 피치 추정방법

Info

Publication number
KR0141158B1
KR0141158B1 KR1019950009128A KR19950009128A KR0141158B1 KR 0141158 B1 KR0141158 B1 KR 0141158B1 KR 1019950009128 A KR1019950009128 A KR 1019950009128A KR 19950009128 A KR19950009128 A KR 19950009128A KR 0141158 B1 KR0141158 B1 KR 0141158B1
Authority
KR
South Korea
Prior art keywords
pitch
closed loop
candidate
frame
satisfied
Prior art date
Application number
KR1019950009128A
Other languages
English (en)
Other versions
KR960039666A (ko
Inventor
하남규
김홍국
Original Assignee
김광호
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김광호, 삼성전자주식회사 filed Critical 김광호
Priority to KR1019950009128A priority Critical patent/KR0141158B1/ko
Publication of KR960039666A publication Critical patent/KR960039666A/ko
Application granted granted Critical
Publication of KR0141158B1 publication Critical patent/KR0141158B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 음성 부호화의 피치추정방법을 공개한다. 그 방법은 피치를 구할 현재 프레임의 피치를 추정하기 위해서 먼저, 프레임의 페쇠 루프로부터 4개의 피치를 구하고, 과거 두개의 프레임들과 이들 프레임의 선형성을 이용하여 예측된 후보피치를 구한 후, 4개의 폐쇠 루프 피치들중 후보피치보다 0.8배 크거나 같고, 1.2배 작거나 같은 폐쇠 루프 피치를 현재 프레임의 추정된 피치로 결정함으로서, 피치 추정의 정확도가 향상되고,피치 추정을 위하여 미래의 프레임 정보를 참조하지 않게 때문에 프레임 지연시간이 발생하지 않으며, 피치 추정 알고리즘의 처리시간이 단축되는 효과가 있다.

Description

음성 부호화의 피치 추정방법
제1도는 종래의 피치추정방법을 설명하기 위한 플로우 차트이다.
제2도는 본 발명에 의한 음성부호화의 피치 추정방법을 설명하기 위한 플로우차트이다.
제3도는 제2도에 도시된 방법을 세부적으로 설명하기 위한 플로우 차트이다.
본 발명은 음성부호화에 관한 것으로, 특히 음성부호화에 있어서 피치를 추정하는 방법에 관한 것이다.
음성을 저장하거나 전송하는데 사용되는 음성보호화기는 매우 다양하다. 이 중 최근의 통신 시스템에서 주목되고 있는 혼합 부호화 방식인 CELP(Code Excited Linear Prediction)형 부호화기는 낮은 전송률에서 우수한 성능을 가진 음성부호화기로서 디지탈 이동통신 시스템에서 최근에 각광을 받고 있다. 이러한 부호화기의 특징은 음성 전송에 있어서, 부호화기의 속도를 높이면서 음질의 저하를 초래하지 않고 낮은 전송속도로 높은 수준의 음질을 전송시킬 수 있는 고도의 음성 압축 기술을 요구한다는 것이다.
피치 검색과정은 원래음성과 합성된 음성간의 피치지연조건을 최적으로 만족하는 값을 반복적인 비교를 통해 결정하는 과정이다. 즉, 이것은 원래의 음성신호에 대해 시간지연을 점차 변경하면서 자기 상관관계치를 검출하고, 이들 중 최대의 상관관계를 나타내는 시간지연을 피치 주기로 검축하는 과정이 된다.
제1도는 종래의 피치 추정방법을 설명하기 위한 플로우 차트이다.
이하, 제1도를 참조하여 종래의 피치 추정방법을 다음과 같이 설명한다.
초기 추정 피치(Initial Pitch Estimate), PI',를 구하기 위하여 에러함수,E(P),를 집합 {21, 21.5, -----121.5, 122}의 안에 있는 모든 피치(P)들에 대해서 평가한다(제200단계). 에러 함수는 다음식(1)에 의하여 구한다.
여기서, 는는 X와 같거나 적은 수들 중 가장 큰 정수, 즉 트렁케이션값, 를 의미하며, i 및 j는 변수이며, Wi(j)는 윈도우 함수로서, 제한요건을 충족시키기 위하여 다음 식(2)와 같이 평준화된다.
함수 r(t)는 다음 식 (3)과 같이 정의된다.
여기서 t는 정수이다. 함수 r(t)는 정수가 아닌 t에 대해서는 선형 보간을 통해서 다음 식(4)와 같이 평가된다.
SLPF(n)는 저역 통과 필터된 음성신호로서 다음 식(5)와 같다.
여기서, hLPF(n)는 유한 임펄스 응답 필터(FIR:Finite Impulse Response Filter)필터이다.
이상으로부터 종래의 피치 추정방법을 사용할 경우 에러함수가 복잡하여 계산량이 많이 요구되는 문제점이 있음을 알 수 있다.
제200단계후에 피치를 트랙킹한다(제202단계). 제202단계후에 추정한 피치들을 비교하여(204단계) 에러함수가 적은 피치를 최종적으로 추정된 피치로 선택한다(제206단계).
제202단계의 피치 트래킹은 연속하는 프레임들간의 피치 편차를 제한함에 있어서, 피치 추정을 향상시키기 위해서 사용한다. 그리고, 각 음성프레임 당(當) 두개의 다른 추정된 피치들이 계산된다. 이러한 피치 추정에는 두가지의 방법이 있으며, 이는 과거의 음성프레임들과의 피치 연속성을 유지하는 후진(Backward)피치 추정, PB,과 앞으로 피치가 추정될 미래의 음성프레임들과의 피치 연속성을 유지하는 전진(Forward)피치 추정, PF, 이다.
여기서 전진피치 추정은 피치를 추정할 미래의 음성프레임들 각각에 대해서 피치를 추정하여 에러함후가 가장 적은 피치를 최종적으로 추정된 피치로 하기 때문에 프레임 지연시간이 많이 발생하는 문제점이 있다.
본 발명의 목적은 상기의 문제점을 해결하기 위하여 선형 예측과 과거의 프레임들을 이용하여 피치를 찾는 음성부호화의 피치 추정방법을 제공하는데 있다.
상기 목적을 달성하기 위하여 본 발명에 의한 음성부호화의 피치 추정방법은 음성을 부호화함에 있어서, 음성 프레임을 분석하여 각부프레임별로 구해진 N개의 폐쇠 루프 피치들로부터 선형회귀법에 의해 상기 음성 프레임의 후보피치를 구하는 후보피치단계와, 곱셈인자(M[x])의 변수(x)를 초기화하고, 상기 곱셈인자의 승산순서를 정하는 곱셈인자단계와, 상기 곱셈인자를 상기 후보피치에 곱하여 새로운 후보피치(P')를 구하는 피치곱셈단계와, 상기 N개의 폐쇠 루프 피치들 중 하나의 폐쇠 루프 피치가 상기 후보피치(P')의 0.8배보다 크거나 같고, 1.2배보다 적거나 같은가를 판단하는 제1판단단계와, 상기 제1판단단계를 만족하면 상기 변수(x)를 초기화하고, 상기 제1판단단계에서 판단된 상기 폐쇠 루프 피치를 상기 프레임의 피치로 추정하는 피치추정단계와, 상기 제1판단단계를 만족하지 않으면 상기 제1판단단계에서 상기 폐쇠 푸프 피치들이 모두 판단되었는가를 판단하는 제2판단단계와, 상기 제2판단단계를 만족하기 않으면 다음에 판단할 폐쇠 루프 피치를 지정하여 상기 제1판단단계로 진행하는 인자 지정단계와, 상기 제2판단단계를 만족하면 상기 변수(x)를 1만큼 증가시켜 상기 피치곱셈단계로 진행하는 변소증가단계를 구비하는 것을 특징으로 한다.
제2도는 본 발명에 의한 음성부호화의 피치 추정방법을 설명하기 위한 플로우차트이다.
제3도는 제2도에 도시된 방법을 세부적으로 설명하기 위한 플로우차트이다.
이하, 본 발명에 의한 음성부호화의 피치 추정방법을 도면 제1 및 제2도를 참조하여 다음과 같이 상세히 설명한다.
우선 피치가 구해질 음성 프레임을 구한다(제600단계), 제400단계후에 폐쇠-회로(또는 루프) 피치(Clise-loop pitch)를 각부프레임마다 1개씩 적응 부호화 코드북을 이용하여 4개를 구한다(제602단계). 제602단계후에 구한 4개의 폐쇠호로피치들을 분류하여 저장한다(제604단계). 제604단계후에 선형회귀법을 이용하여 프레임별로 후보피치(P') 를 구한다(제606단계). 이 선형회귀법이란 과거의 두번째 프레임의 피치(P2)와 첫번째 프레임의 피치(P1)가 X 및 Y좌표상에서 차지하는 좌표들, 즉 각각(0,P2)와 (1, P1)을 직선으로 연결한 후 그 직선상위에 있는 한 점의 피치좌표(2, P')를 구한 뒤 후보피치(P')를 얻는 것을 의미한다. 제600단계부터 제606단계는 본 발명에 의한 제2도에 도시된 프레임별 후보피치를 구하는 단계(제400단계)에 해당한다. 제 606단계후에 곱셈인자의 변수, X,를 초기화하고, 곱셈인자, M(X),의 값과, 곱셈인자들이 승산될 순서를 한다(제402 또는 608단계). 즉, 제608단계에서 곱셈인자란 폐쇠 회로 피치에 곱하여 지는 값을 말하며 여기서는 임의로 변수가 0인 경우 1을 폐쇠 회로 피치에 곱하고, 변수가 1인 경우 2를 폐쇠 회로 피치에 곱하고, 변수가 2인 경우 3을 폐쇠 회로 피치에 곱하고, 변수가 3인 경우 1/2를 폐쇠호로 피치에 곱하고, 변수가 4인 경우 1/3을 폐쇠 회로 피치에 곱하기 위해서 정의된 인자들이다. 즉 변수가 0부터 4까지 변할 때, 폐쇠 회로 피치에 곱하여 지는 값은 각각 달라진다. 여기서 변수는 피치에 곱셈인자가 승산되는 순서를 설명하기 위해서 정의되었다. 제608단계후에 곱셈인자를 후보피치에 곱한 값을 새로운 후보피치로 정한다(제404단계 또는 제610단계). 폐쇠회로 피치를 P(N)이라 할 경우, N은 폐쇠회로 피치의 변수를 나타낸다. 즉 여기서는 4개의 피치를 구하였으므로 N은 4가 되고, 폐쇠회로의 피치, P(N), 들을 각각 후보피치, P',와 비교한다. 비교하는 순서는 제3도에 도시된 바와 같이P(1), P(2), P(0), P(3)의 순서로 비교하며, 여기서 4개의 후보피치중에서 P(1)을 제1후보피치로, P(2)를 제2후보피치로, P(0)을 제3후보피치로, P(3)을 제4후보피치로 가정한다. 먼저, P(1), 폐쇠 회로 피치. 이후보피치보다 0.8배 크거나 같고, 1.2배보다 작거나 같은가를 판단한다(제612단계). 제612단계를 만족하면 변수, X,의 값을 초기화하고, 프레임의 피치가 제1폐쇠회로 피치인 것으로 추정하여 피치의 추정을 끝낸다(제614단계). 제612단계를 만족하지 않으면 계속해서P(2), P(0), P(3)의 순서대로 각각을 제612단계와 같이 비교하여 프레임의 피치를 추정해 나간다(제616단계와 제618단계, 제620단계와 제622단계 및 제 624단계와 제 626단계). 제612단계에서부터 제626단계는 제2도에 도시된 플로우차트에서 제 406단계, 제408단계, 제410단계 및 제412단계의 과정에 해당함을 알 수 있다.
한편, 제624단계를 만족하지 않으면 변수, X,를 1증가시킨다(제414단계 또는 제628단계). 그리고 제628단계후에 제610단계로 진행한다.
곱셈변수를 이용하여 폐쇠회로 피치들을 계속적으로 다른 값을 곱하여 제612단계, 제616단계, 제620단계 및 제624단계에서 비교하는 이유는 만약 P(0), P(1), P(2 및 P(3)의 현재 피치 추정치인 후보피치, P'.가 일정범위│P(N)━P'│≤0.2P'를 벗어난 경우에는 실제 피치가 예측된 후보 피치의 정수(k)배가 되는 경우가 잇으며, 이 경우는 │P(N)━kP'│≤0.2kP'을 조사하여 현재 피치, P(N),를 1≤N≤4중에서 선택한다. 반대로 예측된 후보피치가 실제 피치의 역정수부 배수로 나타날 수가 있으며 이경우에는 │P(N)━(1/k)P'│≤0.2(1/k)P'를 조사한 후 현재피치, P'를 1≤N≤4중에서 선택한다. 이런경우에는 프레임간의 피치가 급격히 바뀌게 되는 변이구간에서 많이 발생할 수 있다.
그리고 폐쇠 회로피치가 후보피치보다 0.8배 크거나 같고, 1.2배보다 작거나 같은가 판단하여 같으면 그 피치를 프레임의 피치로 추정하는 이유는 만약 이 범위를 벗어나면 피치가 정수배가 될 확률이 크기 때문이다. 그래서 후보피치의 정수배에 가장 가까운 피치를 현재의 피치 후보로 하고 피치 오차 한계의 식을 만족하는가를 검사한다.
이상에서 살펴본 바와 같이 본 발명에 의한 음성 부호화의 피치 추정방법을 과거 2개의 프레임의 피치 정보로부터 폐쇠 루프에서 생성한 피치들 중에서 현재 프레임의 피치를 추정함으로서 피치 추정의 정확도를 향상시키고, 피치 추정을 위하여 미래의 프레임 정보를 참조하지 않게 때문에 프레임 지연시간이 발생하지 않을 뿐만 아니라 피치 추정 알고리즘의 처리시간이 단축되는 효과가 있다.

Claims (5)

  1. 음성부호화함에 있어서, 음성 프레임을 분석하여 각 부프레임별로 구해진 N개의 폐쇠 루프피치들로부터 선형회귀법에 의해 상기 음성 프레임의 후보피치를 구하는 후보피치단계; 곱셈인자(M[x])의 변수 (x)를 초기화하고, 상기 곱셈인자의 승산순서를 정하는 곱셈인자단계; 상기 곱셈인자를 상기 후보피치에 곱사여 새로운 후보피치(P')를 구한는 피치곱셈단계;상기 N개의 폐쇠 루프 피치들 중 하나의 폐쇠 루프 피치가 상기 후보피치(P')의 제1소정수배보다 크거나 같고, 제2소수정수배보다 적거나 같은가를 판단하는 제1판단단계; 상기 제1판단단계를 만족하면 상기 변수(x)를 초기화하고, 상기 제1판단단계에서 판단된 상기 폐쇠 루프 피치를 상기 프레임의 피치로 추정하는 피치추정단계; 상기 제1판단단계를 만족하지 않으면 상기 제1판단단계에서 상기 폐쇠 루프 피치들이 모두 판단되었는가를 한탄하는 제2판단단계; 상기 제2판단단계를 만족하지 않으면 다음게 판단할 폐쇠루프 피치를 지정하여 상기 제1판단단계로 진행하는 인자 지정단계 : 상기 제2판단단계를 만족하면 상기 변수(x)를 1만큼증가시켜 상기 피치곱셈단계로 진행하는 변수증가단계를 구비하는 것을 특징으로 하는 음성 부호화의 피치 추정방버.
  2. 제1항에 있어서, 후보피치단계는 상기 피치를 추적할 상기 음성프레임을 구하는 프레임단계;상기 프레임별로 상기 폐쇠 루프 피치를 계산하는 피치계산단계; 계산된 상기 폐쇠 루프 피치들을 분류하는 피치분류단계;상기 선형회귀법을 이용하여 상기 프레임별로 상기 후보피치를 구하는 후보피치계산단계를 구비하는 것을 특징으로 하는 음성 부호화의 피치 추정방법.
  3. 제1항에 있어서, 음성 부호화의 피치 추정방법은 상기 피치 곱셈단계후에 상기 페쇠 루프 피치들 중 제1폐쇠 루프 피치가 상기 후보피치보다 제1소정수배 크거나 같고, 제2소정수배보다 적거나 같은가를 판단하는 제3판단단계; 상기 제3판단단계를 만족하면 상기 변수를 초기화하고, 상기 제1폐쇠 루프 피치를 상기 프레임을 피치로 추정하는 제1피치 추정단계; 상기 제3판단단계를 만족하지 않으면 상기 폐쇠루프 피치들 중 제2폐쇠 루프 피치가 상기 후보피치보다 제1소정수배보다 크거나 같고, 제2소정수배보다 적거나 같은가를 판단하는 제4판단단계; 상기 제4판단단계를 만족하면 상기 변수를 초기화하고, 상기 제2페루프 피치를 상기 프레임의 피치로 추정하는 제2피치 추정단계; 상기 제4판단단계를 만족하지 않으면 상기 폐쇠 루프 피치들 중 제3폐쇠 루프 피치가 상기 후보피치보다 제1소정수배보다 크거나 같고, 제2소정수배보다 적거나 같은가를 판단하는 제5판단단계; 상기 제5판단단계를 만족하면 상기 변수를 초기화하고, 상기 제3폐쇠 루프 피치를 상기 프레임의 피치로 추정하는 제3피치 추정단계; 상기 제5판단단계를 만족하지 않으면 상기 폐쇠 루프 피치들 중 제4폐쇠 루프 피치가 상기 후보피치보다 제1소정수배보다 크거나 같고, 제2소정수배보다 적거나 같은가를 판단하여 만족하지 않으면 상기 변수증가단계로 진행하는 제6판단단계; 상기 제6판단단계를 만족하면 상기 변수를 초기화하고, 상기 제4폐쇠 루프 피치를 상기 프레임의 피치로 추정하는 제4피치 추정단계를 구비하는 것을 특징으로 하는 음성 부호화의 피치 추정방법.
  4. 제1항에 있어서, 상기 선형회귀법은 과거 두개의 프레임들의 선형성을 이용하여 상기 후보피치를 구하는 것을 특징으로 하는 음성 부호화의 피치 추정방법.
  5. 제1항에 있어서, 상기 제1소정수는 0.8이고, 상기 제2소정수는 1.2인것을 특징으로 하는 음성 부호화의 피치 추정방법.
KR1019950009128A 1995-04-18 1995-04-18 음성 부호화의 피치 추정방법 KR0141158B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019950009128A KR0141158B1 (ko) 1995-04-18 1995-04-18 음성 부호화의 피치 추정방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019950009128A KR0141158B1 (ko) 1995-04-18 1995-04-18 음성 부호화의 피치 추정방법

Publications (2)

Publication Number Publication Date
KR960039666A KR960039666A (ko) 1996-11-25
KR0141158B1 true KR0141158B1 (ko) 1998-07-15

Family

ID=19412452

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019950009128A KR0141158B1 (ko) 1995-04-18 1995-04-18 음성 부호화의 피치 추정방법

Country Status (1)

Country Link
KR (1) KR0141158B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100773000B1 (ko) * 2003-03-31 2007-11-05 인터내셔널 비지네스 머신즈 코포레이션 음성 신호에 대한 주파수 영역 피치 추출법과 시간 영역피치 추출법을 결합한 시스템 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100773000B1 (ko) * 2003-03-31 2007-11-05 인터내셔널 비지네스 머신즈 코포레이션 음성 신호에 대한 주파수 영역 피치 추출법과 시간 영역피치 추출법을 결합한 시스템 및 방법

Also Published As

Publication number Publication date
KR960039666A (ko) 1996-11-25

Similar Documents

Publication Publication Date Title
US7191120B2 (en) Speech encoding method, apparatus and program
US7155386B2 (en) Adaptive correlation window for open-loop pitch
JP3197155B2 (ja) ディジタル音声コーダにおける音声信号ピッチ周期の推定および分類のための方法および装置
US5819213A (en) Speech encoding and decoding with pitch filter range unrestricted by codebook range and preselecting, then increasing, search candidates from linear overlap codebooks
US20040258154A1 (en) System and method for multi-stage predictive motion estimation
US7957466B2 (en) Adaptive area of influence filter for moving object boundaries
EP1581928B1 (en) Reducing scale factor transmission cost for mpeg-2 aac using a lattice
US20070064804A1 (en) Adaptive motion estimation for temporal prediction filter over irregular motion vector samples
JP3565869B2 (ja) 伝送エラーの修正を伴う音声信号の復号方法
JPH08263099A (ja) 符号化装置
CN105408954B (zh) 利用改进的音调滞后估计的似acelp隐藏中的自适应码本的改进隐藏的装置及方法
US5313553A (en) Method to evaluate the pitch and voicing of the speech signal in vocoders with very slow bit rates
KR20040042903A (ko) 일반화된 분석에 의한 합성 스피치 코딩 방법 및 그방법을 구현하는 코더
US5696873A (en) Vocoder system and method for performing pitch estimation using an adaptive correlation sample window
US20070064807A1 (en) Adaptive area of influence filter
KR0141158B1 (ko) 음성 부호화의 피치 추정방법
US5671327A (en) Speech encoding apparatus utilizing stored code data
JPH1097294A (ja) 音声符号化装置
FR2716556A1 (fr) Procédé de codage source, pour subdiviser une image en des plages d'image de taille fixée.
CN114757350B (zh) 一种基于强化学习的卷积网络通道裁剪方法及系统
JP2004532558A (ja) 高速ロバストデータ圧縮方法及びシステム
JP2002368625A (ja) 符号量予測装置、符号化選択装置および符号化装置ならびにその方法
CN115101088A (zh) 音频信号恢复方法、装置、电子设备及介质
JP3435310B2 (ja) 音声符号化方法および装置
WO2002056298A1 (en) Linking of signal components in parametric encoding

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070105

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee