KR100552693B1 - 피치검출방법 및 장치 - Google Patents

피치검출방법 및 장치 Download PDF

Info

Publication number
KR100552693B1
KR100552693B1 KR1020030074923A KR20030074923A KR100552693B1 KR 100552693 B1 KR100552693 B1 KR 100552693B1 KR 1020030074923 A KR1020030074923 A KR 1020030074923A KR 20030074923 A KR20030074923 A KR 20030074923A KR 100552693 B1 KR100552693 B1 KR 100552693B1
Authority
KR
South Korea
Prior art keywords
pitch
voice data
segment correlation
peak
single frame
Prior art date
Application number
KR1020030074923A
Other languages
English (en)
Other versions
KR20050039454A (ko
Inventor
오광철
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020030074923A priority Critical patent/KR100552693B1/ko
Priority to US10/968,942 priority patent/US7593847B2/en
Publication of KR20050039454A publication Critical patent/KR20050039454A/ko
Application granted granted Critical
Publication of KR100552693B1 publication Critical patent/KR100552693B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

피치검출방법 및 장치가 개시된다. 피치검출장치는 단일 프레임에 포함된 음성데이터의 중심피크를 기준으로 하여 음성데이터를 재배열하기 위한 데이터 재배열 유니트, 재배열된 음성데이터를 중심피크를 기준으로 하여 우수 대칭성분으로 분해하는 분해유니트 및 우수 대칭성분에 대하여 기준포인트와 적어도 하나 이상의 로컬피크간의 세그먼트 상관치를 구하고, 구해진 세그먼트 상관치 중 최대 세그먼트 상관치에 대응하는 로컬피크의 위치를 피치주기로 결정하는 피치결정 유니트로 이루어진다.

Description

피치검출방법 및 장치{Pitch detection method and apparatus}
도 1은 본 발명에 따른 피치검출장치의 일실시예의 구성을 나타내는 블럭도,
도 2의 (a) 내지 (c)는 도 1에 도시된 각 부의 파형도, 및
도 3은 본 발명에 따른 피치검출방법의 일실시예의 동작을 설명하는 흐름도이다.
본 발명은 피치검출에 관한 것으로서, 보다 구체적으로는 음성데이터를 우수 대칭성분으로 분해한 다음 세그먼트 상관치를 구하여 피치를 검출하는 방법 및 장치에 관한 것이다.
음성 인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 기본 주파수, 즉 피치 주기를 정확히 검출하는 것은 중요하다. 만일 음성신호의 기본 주파수를 정확히 검출할 수 있다면 음성인식에 있어서 화자에 따른 영향을 줄일 수 있기 때문에 인식의 정확도를 높일 수 있고, 음성합성시에 자연성과 개성을 쉽게 변경하거나 유지할 수 있다. 또한 음성분석시 피치에 동기시켜 분석하면 성문의 영향이 제거된 정확한 성도 파라미터를 얻을 수 있다.
이와 같이 음성신호에서 피치 검출을 수행하는 것은 중요한 작업이므로 이를 위한 방법들이 다양하게 제안되었다. 그것은 시간영역 검출방법, 주파수영역 검출방법, 시간-주파수영역 검출방법으로 구분할 수 있는데, 시간 영역 검출방법은 파형의 주기성을 강조한 후에 결정 논리에 의해 피치를 검출하는 방법으로 병렬처리법, 평균 진폭차 함수(Average Magnitude Difference Function: 이하 AMDF라 함)법, 자기상관법(Auto-Correlation Method: 이하 ACM이라 함) 등이 있다. 이러한 방법은 보통 시간영역에서 수행되므로 영역의 변환이 불필요하고, 합, 차, 비교 논리 등 간단한 연산만 필요하게 된다. 그러나, 음소가 천이구간에 걸쳐 있는 경우에는 프레임 내의 레벨 변화가 심하고 피치 주기가 변동하기 때문에 피치 검출이 어렵고, 포만트에 의해 영향을 많이 받게 된다. 특히 잡음이 섞인 음성의 경우에는 피치 검출을 위한 결정 논리가 복잡해져서 검출 오류가 증가되는 단점이 있다. 특히, ACM법에서는 피치 더블링(pitch doubling), 피치 하빙(pitch halving), 제1 포만트를 피치로 오판하는 등과 같은 피치결정오류가 빈번히 유발될 가능성이 있다.
주파수영역의 피치검출 방법은 음성 스펙트럼의 고조파 간격을 측정하여 유성음의 기본 주파수를 검출하는 방법으로 고조파 분석법, 리프터(Lifter)법, 콤필터링(Comb-filtering)법 등이 제안되어 있다. 일반적으로 스펙트럼은 한 프레임(20∼40ms) 단위로 구해지므로, 이 구간에서 음소의 천이나 변동이 일어나거나 배경 잡음이 발생하여도 평균화되므로 그 영향을 적게 받는다. 그러나 처리 과정상 주파수 영역으로의 변환 과정이 필요함으로 계산이 복잡하며, 기본 주파수의 정밀성을 높이기 위해 FFT의 포인터 수를 늘리면 그만큼 처리 시간이 길어지고 변화 특성에 둔해지게 된다.
시간-주파수 혼성영역 검출방법은 시간 영역법의 계산 시간 절감과 피치의 정밀성, 그리고 주파수 영역법의 배경 잡음이나 음소 변화에 대해서도 피치를 정확히 구할 수 있는 장점을 취한 것이다. 이러한 방법으로는 켑스트럼(Cepstrum)법, 스펙트럼 비교법 등이 있고, 이 방법은 시간과 주파수 영역을 왕복할 때 오차가 가중되어 나타나므로 피치 추출의 영향을 받을 수 있고, 또한 시간과 주파수 영역을 동시에 적용하기 때문에 계산 과정이 복잡하다는 단점이 있다.
본 발명이 이루고자 하는 기술적 과제는 단일 프레임에 포함된 음성데이터를 우수 대칭성분으로 분해한 다음, 기준포인트와 각 로컬피크 간의 최대 세그먼트 상관치를 피치 주기로 결정하기 위한 피치검출방법 및 장치를 제공하는데 있다.
상기 기술적 과제를 달성하기 위하여 본 발명에 따른 피치검출장치는 단일 프레임에 포함된 음성데이터의 중심피크를 기준으로 하여 음성데이터를 재배열하기 위한 데이터 재배열수단; 상기 재배열된 음성데이터를 상기 중심피크를 기준으로 하여 우수 대칭성분으로 분해하는 분해수단; 및 상기 우수 대칭성분에 대하여 기준포인트와 적어도 하나 이상의 로컬피크간의 세그먼트 상관치를 구하고, 구해진 세그먼트 상관치 중 최대 세그먼트 상관치에 대응하는 로컬피크의 위치를 피치주기로 결정하는 피치결정수단을 포함한다.
상기 기술적 과제를 달성하기 위하여 본 발명에 따른 피치검출방법은 (a) 단 일 프레임에 포함된 음성데이터의 중심피크를 기준으로 하여 음성데이터를 우수 대칭성분으로 분해하는 단계; 및 (b) 상기 우수 대칭성분에 대하여 기준포인트와 적어도 하나 이상의 로컬피크간의 세그먼트 상관치를 구하고, 구해진 세그먼트 상관치 중 최대 세그먼트 상관치에 대응하는 로컬피크의 위치를 피치주기로 결정하는 단계를 포함한다.
상기 방법은 바람직하게는 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명하기로 한다.
도 1은 본 발명에 따른 피치검출장치의 일실시예의 구성을 나타내는 블럭도로서, 데이터 재배열 유니트(110), 분해부(120)와 피치결정 유니트(130)로 이루어진다. 데이터 재배열 유니트(110)는 필터부(111), 프레임 구성부(113), 중심피크 결정부(115) 및 데이터 천이부(117)로 이루어지고, 피치결정 유니트(130)는 로컬피크 검출부(131), 상관치 계산부(133) 및 피치주기 결정부(135)로 이루어진다. 도 1에 도시된 피치검출장치의 동작을 도 2에 도시된 파형도와 결부시켜 설명하면 다음과 같다.
도 1을 참조하면, 데이터 재배열 유니트에 있어서, 필터부(111)는 IIR(Infinite Impulse Response) 또는 FIR(Finite Impulse Response) 디지털 필터로서, 예를 들면 컷오프 주파수가 230 Hz의 주파수특성을 가지는 저역통과필터이 다. 필터부(111)는 아날로그/디지털 변환되어 제공되는 음성데이터에 대하여 저역통과필터링을 수행하여 고역성분을 제거하고, 결국 도 2의 (a)에 도시된 바와 같은 파형의 음성데이터를 출력한다.
프레임 구성부(113)는 필터부(111)로부터 제공되는 음성데이터를 소정 단위시간으로 분할하여 프레임 단위로 구성한다. 예를 들어, 아날로그/디지털 변환시 샘플링 레이트가 20 kHz 인 경우 40 msec 를 소정 단위시간으로 설정하면 총 800개의 샘플이 1 프레임을 구성하게 된다. 통상 피치는 50 Hz 내지 400 Hz 에 존재하므로 피치를 검출하는데 필요로 하는 샘플수 즉, 단위시간은 바람직하게는 50 Hz의 두배 즉 25 Hz 즉, 40 msec 로 설정하게 된다. 이때 인접하는 프레임간의 간격은 10 msec임이 바람직하다. 상기한 예에서 프레임 구성부(113)는 샘플링 레이트가 20 kHz 인 경우 음성데이터에 대하여 800 개의 샘플을 첫번째 프레임으로 구성하고, 첫번째 프레임내에서 200 개의 샘플을 건너뛴 다음 600 개의 샘플과 다음번 새로운 200 개의 샘플을 합한 800 개의 샘플을 두번째 프레임으로 구성하게 된다.
중심피크 결정부(115)는 프레임 단위로 제공되는 도 2의 (a)와 같은 음성데이터에 대하여 시간 도메인에서의 소정의 가중치 윈도우 함수(weight window fuction)를 곱하고, 곱한 결과값의 절대값이 최대인 지점을 중심피크로 결정한다. 사용가능한 가중치 윈도우의 종류에는 삼각(Triangular), 해닝(Hanning), 해밍(Hamming), 블랙만(Blackmann), 웰치(Welch) 또는 블랙만-해리스(Blackmann-Harris) 윈도우를 들 수 있다.
데이터 천이부(117)는 중심피크 결정부(115)에서 결정된 중심피크를 기준으 로 중심피크가 데이터의 가운데에 오도록 도 2의 (a)에 도시된 음성데이터를 쉬프트시켜 도 2의 (b)와 같은 파형의 신호를 출력한다.
분해부(120)는 데이터 천이부(117)를 통해 재배열된 음성데이터를 중심피크를 기준으로 우수 대칭성분으로 분해하고, 도 2의 (c)와 같은 파형의 신호를 출력한다. 이를 좀 더 세부적으로 설명하면 다음과 같다.
먼저, x(n)을 프레임 구성부(113)로부터 제공되어 데이터 천이부(117)에서 재배열된 음성데이타로서, 주기 N0를 갖는 주기적인 신호라 한다. 즉, 모든 정수 k에 대하여 x(n±kN0) = x(n)이 된다. 이와 같은 주기적인 신호는 우수 및 기수 대칭성분으로 분해할 수 있으며, s(n)을 대칭신호라 할 경우 다음 수학식 1이 성립한다.
Figure 112003039971040-pat00001
여기서, xe(n)은 우수 대칭성분을 나타내며, 다음 수학식 2와 같이 나타낼 수 있다. 여기서, N은 1 프레임의 전체 샘플수를 나타낸다.
Figure 112003039971040-pat00002
상기 수학식 1에 의해 생성된 신호 s(n)은 프레임 길이 N에 대하여 뿐만 아니라 주기 N0에 대해서도 대칭적이고, 주기 N0를 갖는 주기적인 신호가 된다. 즉, 주기적인 신호 x(n)과 마찬가지로 s(n±kN0) = s(n)이 된다. 이는 다음 수학식 3을 통해 증명되어질 수 있다.
Figure 112003039971040-pat00003
한편, 주기 N0 내에서 s(n)의 대칭성을 보다 쉽게 설명하기 위하여 s(n)=s(N0 -n) 이 아닌 s(N/2+n)=s(N/2+N0-n) 즉, 한 프레임의 중심부에 대하여 대칭적이면서 주기적인 신호임을 증명하기로 한다. s(N/2+n)과 s(N/2+N0-n)을 각각 x(n)으로 설명하면 다음 수학식 4 및 수학식 5와 같이 나타낼 수 있다.
Figure 112003039971040-pat00004
Figure 112003039971040-pat00005
즉, 수학식 4의 우변은 수학식 5의 우변과 동일함을 알 수 있다. 따라서, 주기적인 신호 x(n)의 우수 대칭성분은 한 주기 내에서 대칭이면서 주기적인 신호 가 됨을 알 수 있다.
한편, 분해부(120)에서는 데이터 천이부(117)를 통해 재배열된 음성데이터에 대하여 다음 검출되는 피치주기가 처음 검출되는 피치주기의 배수가 되는 피치 더블링의 가능성을 배제하기 위하여 소정의 가중치 윈도우 함수를 곱한 다음, 중심피크를 기준으로 우수 대칭성분으로 분해할 수 있다. 이때, 사용되는 가중치 윈도우 함수로는 해밍 윈도우 또는 해닝 윈도우가 될 수 있다. 도 2의 (c)에서와 같이 이후 처리에서 정보 중복을 피하기 위해 전체 우수대칭성분 중 반만을 사용한다.
피치결정 유니트(130)에 있어서 로컬피크 검출부(131)에서는 분해부(120)로부터 제공되는 도 2의 (c)와 같은 우수 대칭성분에 대하여 '0'보다 큰 값을 갖는 로컬피크들, 즉 후보피치들을 검출한다. 만약, 중심피크 결정부(115)에서 결정된 중심피크의 실제 값이 음수인 경우에는 우수 대칭성분에 대하여 '-1'을 곱한 다음 '0'보다 큰 값을 갖는 로컬피크들, 즉 후보피치들을 검출한다.
상관치 계산부(133)에서는 기준포인트 즉, 샘플위치 '0'와 로컬피크 검출부(131)에서 검출된 각 로컬피크(L)간에 세그먼트 상관치, ρ(L)를 구한다. 이때, Y. Medan, E. Yair 과 D. Chazan에 의한 논문 "Super resolution pitch determination of sppech signals"(IEEE Trans. Signal Processing, ASSP-39(1), pp. 40-48, 1991)에 개시된 방법과 P.C. Bagshaw, S.M. Hiller 및 M.A. Jack에 의한 논문 "Enhanced pitch tracking and the processing of F0 contours for computer aided intonation teaching"(pp. 1003-1006, Proc. 3rd. Euroupean Conference on Speech Communication and Technology, vol 2, Berlin)에 개시된 방법 중 어느 하나를 적용하여 세그먼트 상관치를 구할 수 있다. Y. Medan et al에 개시된 방법을 사용할 경우 다음 수학식 6과 같이 나타낼 수 있다.
Figure 112003039971040-pat00006
여기서, L은 각 로컬피크의 위치 즉, 샘플 위치를 나타낸다.
피치주기 결정부(135)에서는 상관치 계산부(133)에서 계산된 기준포인트와 각 로컬피크에 대한 세그먼트 상관치 중에서 최대 세그먼트 상관치를 선택하고, 최대 세그먼트 상관치가 소정의 임계치보다 큰 경우 최대 세그먼트 상관치를 얻는데 사용된 로컬피크의 위치를 피치 주기로 결정한다. 한편, 최대 세그먼트 상관치가 소정의 임계치보다 크면 해당 프레임의 음성신호를 유성음으로 판단한다.
도 3은 본 발명에 따른 피치검출방법의 일실시예의 동작을 설명하는 흐름도로서, 음성데이터 재배열단계(310), 분해단계(320), 최대 세그먼트 상관치 검출단계(330) 및 피치주기 결정단계(340)로 이루어진다.
도 3을 참조하면, 음성데이터 재배열단계(310)에 있어서, 311 단계에서는 입 력되는 음성데이터를 프레임 단위로 구성한다. 이때 한 프레임은 최소 피치주기의 두배에 해당하는 40 ms 정도가 바람직하다. 313 단계에서는 프레임번호를 1로 설정하여 첫번째 프레임의 음성데이터에 대하여 이후 단계를 진행하도록 한다. 315 단계에서는 단일 프레임 내에서 중심피크를 결정하는데, 이를 위하여 단일 프레임내의 음성데이터에 소정의 가중치 윈도우 함수를 곱한 다음, 그 절대값이 최대가 되는 지점을 중심피크로 결정한다. 317 단계에서는 중심피크를 기준으로 단일 프레임내의 음성데이터를 쉬프트하여 음성데이터를 재배열한다. 도시되지 않았으나, 311 단계 이전에 입력되는 음성데이터에 대하여 저역통과필터링을 수행할 수 있다.
분해단계(320)에서는 310 단계에서 재배열된 음성데이터를 중심피크를 기준으로 우수대칭성분으로 분해한다. 다른 실시예로는, 310 단계에서 재배열된 음성데이터에 소정의 가중치 윈도우 함수를 곱한 다음, 중심피크를 기준으로 우수대칭성분으로 분해할 수 있다. 이 경우 피치 더블링과 같은 피치결정오류를 대폭 감소시킬 수 있다.
최대 세그먼트 상관치 검출단계(330)에 있어서, 331 단계에서는 320 단계에서 분해된 우수대칭성분에 대하여 로컬 피크들을 검출한다. 만약, 중심피크의 값이 음수인 경우 로컬피크들은 '0' 보다 작은 값을 갖는 샘플위치가 되고, 중심피크의 값이 양수인 경우 로컬피크들은 '0' 보다 큰 값을 갖는 샘플위치가 된다. 333 단계에서는 기준포인트 즉, 샘플위치 '0'와 각 로컬피크에 해당하는 샘플위치 간의 세그먼트 상관치를 계산한다. 335 단계에서는 모든 로컬피크에 대한 세그먼트 상관치 중 최대 세그먼트 상관치를 검출한다.
피치주기 결정단계(340)에 있어서, 341 단계에서는 330 단계에서 검출된 최대 세그먼트 상관치가 소정의 임계치보다 큰지를 판단하고, 판단결과 최대 세그먼트 상관치가 소정의 임계치보다 작거나 같은 경우, 해당 프레임에 대해서는 피치주기가 검출되지 않았음을 의미하므로 347 단계로 이행한다. 한편, 343 단계에서는 341 단계에서의 판단결과 최대 세그먼트 상관치가 소정의 임계치보다 큰 경우 최대 세그먼트 상관치에 대응하는 로컬피크의 위치 즉, 샘플위치를 피치주기로 결정한다. 345 단계에서는 343 단계에서 결정된 피치주기를 현재 프레임에 대한 피치주기로 저장한다. 347 단계에서는 음성데이터 입력이 종료되었는지를 판단하고, 347 단계에서의 판단결과 음성데이터 입력이 종료된 경우에는 본 흐름도를 종료하고, 음성입력이 종료되지 않은 경우에는 349 단계로 이행하여 프레임번호를 1 만큼 증가시킨 다음, 315 단계로 복귀하여 다음 프레임에 대한 피치주기를 찾는다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
상술한 바와 같은 본 발명에 따른 피치검출방법의 성능평가를 위한 실험환경을 살펴보면, 사용된 음성시료의 샘플링 레이트는 20 kHz 이고, 아날로그/디지탈 변환의 해상도는 16 비트이며, 음성시료의 예로 든 5명의 남성화자와 5명의 여성화자가 각각 발화한 음성의 특징은 다음 표 1 및 표 2에 나타낸 바와 같다.
남성화자 전체길이(초) 유성음구간(초) 평균피치(Hz) 최소피치(Hz) 최대피치(Hz)
M1 37.4 18.4 100 57 180
M2 31.9 14.0 134 53 232
M3 27.2 14.6 135 58 183
M4 33.7 16.3 94 57 259
M5 40.3 20.7 107 59 182
여성화자 전체길이(초) 유성음구간(초) 평균피치(Hz) 최소피치(Hz) 최대피치(Hz)
F1 32.2 15.1 195 63 263
F2 33.7 19.0 228 68 333
F3 30.5 15.0 192 78 286
F4 31.6 17.8 233 56 400
F5 38.7 18.6 229 78 351
사용된 저역통과필터의 컷 오프 주파수가 460 Hz인 경우 표 1 및 표 2에 보여진 음성시료에 대하여 본 발명에 따른 피치검출방법과 세그먼트 상관을 이용한 종래방법 1(SegCor), 개선된 세그먼트 상관을 이용한 종래방법 2(E_SegCor)을 각각 적용하여 피치를 검출한 결과를 VER(Voiced Error Rate)과 GER(Global Error Rate)로 나타내면 표 3과 같다. 여기서, SegCor은 전술한 Y. Medan, E. Yair 과 D. Chazan에 의한 논문에 개시된 방법, E_SegCor은 전술한 P.C. Bagshaw, S.M. Hiller 및 M.A. Jack에 의한 논문에 개시된 방법을 각각 예를 든 것이다.
종래방법 1 (SegCor) 종래방법 2 (E_SegCor) 본 발명
VER GER VER GER VER GER
남성화자 10.91 3.97 11.18 3.15 3.22 1.97
여성화자 3.79 8.77 4.16 3.21 0.75 2.12
평균 7.32 6.49 7.64 3.18 1.97 2.05
표 3을 살펴보면, 본 발명에 의한 피치검출방법을 적용시 종래방법 1과 종래방법 2에 비하여 VER은 각각 73%와 74% 감소하였고, GER은 각각 68%와 36% 감소하였음을 알 수 있다.
다음, 사용된 저역통과필터의 컷 오프 주파수가 230 Hz인 경우 표 1 및 표 2에 보여진 음성시료에 대하여 본 발명에 따른 피치검출방법과 세그먼트 상관을 이용한 종래방법 1(SegCor), 개선된 세그먼트 상관을 이용한 종래방법 2(E_SegCor)을 각각 적용하여 피치를 검출한 결과를 VER(Voiced Error Rate)과 GER(Global Error Rate)로 나타내면 표 4와 같다.
종래방법 1 (SegCor) 종래방법 2 (E_SegCor) 본 발명
VER GER VER GER VER GER
남성화자 5.46 4.84 7.20 2.55 3.22 1.97
여성화자 2.65 10.8 2.78 2.17 0.75 2.12
평균 4.04 7.90 4.97 2.35 1.97 2.05
표 4를 살펴보면, 본 발명에 의한 피치검출방법을 적용시 종래방법 1과 종래방법 2에 비하여 VER은 각각 51%와 60% 감소하였고, GER은 각각 74%와 13% 감소하였음을 알 수 있다.
상술한 바와 같이 본 발명에 따르면, 음성데이터에 대한 우수 대칭성분을 이용하여 피치 검출을 수행함으로써 단일 프레임내에서 분석되는 샘플 수가 감소되어 피치검출의 정확도를 대폭 높일 수 있으므로 피치검출에 의존하는 유성음 판단 오류율(VER) 및 글로벌 오류율(GER)을 현저하게 낮출 수 있다. 또한, 기준포인트와 로컬피치에 대하여 세그먼트 상관을 수행함으로써 세그먼트 상관시 사용되는 세그먼트의 수가 종래에 비하여 감소되기 때문에 계산의 복잡도가 감소되고 수행시간이 단축될 수 있다.
본 발명에 대해 상기 실시예를 참고하여 설명하였으나, 이는 예시적인 것에 불과하며, 본 발명에 속하는 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (14)

  1. (a) 단일 프레임에 포함된 음성데이터에 대하여 제1 가중치 윈도우 함수를 곱한 다음, 그 결과값의 절대값이 최대인 중심피크를 기준으로 하여 음성데이터를 우수 대칭성분으로 분해하는 단계; 및
    (b) 상기 우수 대칭성분에 대하여 기준포인트와 적어도 하나 이상의 로컬피크간의 세그먼트 상관치를 구하고, 구해진 세그먼트 상관치 중 최대 세그먼트 상관치에 대응하는 로컬피크의 위치를 피치주기로 결정하는 단계를 포함하는 것을 특징으로 하는 피치 검출방법.
  2. 제1 항에 있어서, 상기 (a) 단계는
    (a1) 상기 단일 프레임의 음성데이터에 대하여 상기 제1 가중치 윈도우 함수를 곱한 다음, 그 결과값의 절대값이 최대인 상기 중심피크를 검출하는 단계;
    (a2) 상기 중심피크를 기준으로 하여 상기 단일 프레임의 음성데이터를 쉬프트시키는 단계; 및
    (a3) 상기 중심피크를 기준으로 하여 상기 단일 프레임의 음성데이터를 우수 대칭성분으로 분해하는 단계를 구비하는 것을 특징으로 하는 피치 검출방법.
  3. 제1 항에 있어서, 상기 (a) 단계는
    (a1) 상기 단일 프레임의 음성데이터에 대하여 상기 제1 가중치 윈도우 함수를 곱한 다음, 그 결과값의 절대값이 최대인 중심피크를 검출하는 단계;
    (a2) 상기 중심피크를 기준으로 하여 상기 단일 프레임의 음성데이터를 쉬프트시키는 단계; 및
    (a3) 상기 단일 프레임의 음성데이터에 대하여 제2 가중치 윈도우 함수를 곱한 다음, 상기 중심피크를 기준으로 하여 상기 제2 가중치 윈도우 함수가 곱해진 단일 프레임의 음성데이터를 우수 대칭성분으로 분해하는 단계를 구비하는 것을 특징으로 하는 피치 검출방법.
  4. 제1 항 내지 제3 항 중 어느 한 항에 있어서, 상기 제1 가중치 윈도우 함수는 삼각, 해닝, 해밍, 블랙만, 웰치 또는 블랙만-해리스 윈도우 함수 중 어느 하나인 것을 특징으로 하는 피치 검출방법.
  5. 제3 항에 있어서, 상기 제2 가중치 윈도우 함수는 해닝 또는 해밍 윈도우 함수 중 어느 하나인 것을 특징으로 하는 피치 검출방법.
  6. 제2 항 또는 제3 항에 있어서, 상기 (a) 단계 이전에 입력되는 음성데이터에 대하여 저역통과필터링을 수행하는 단계를 더 구비하는 것을 특징으로 하는 피치 검출방법.
  7. 제1 항에 있어서, 상기 (b) 단계는
    (b1) 상기 우수 대칭성분에 대하여 적어도 하나 이상의 로컬피크를 검출하는 단계;
    (b2) 기준포인트와 상기 각 로컬피크간의 세그먼트 상관치를 구하고, 구해진 세그먼트 상관치 중 최대 세그먼트 상관치를 선택하는 단계;
    (b3) 상기 최대 세그먼트 상관치와 소정의 임계치를 비교하는 단계; 및
    (b4) 상기 최대 세그먼트 상관치가 상기 임계치보다 큰 경우 상기 최대 세그먼트 상관치에 대응하는 로컬피크의 위치를 피치주기로 결정하는 단계를 구비하는 것을 특징으로 하는 피치검출방법.
  8. 제7 항에 있어서, 상기 로컬피크는 상기 중심피크의 값에 따라서 음수 영역과 양수 영역 중 어느 하나의 영역에서 검출되는 것을 특징으로 하는 피치검출방 법.
  9. 제1 항 내지 제3 항, 제5 항, 제7 항 및 제8 항 중 어느 한 항에 기재된 방법을 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  10. 단일 프레임에 포함된 음성데이터에 대하여 제1 가중치 윈도우 함수를 곱한 다음, 그 결과값의 절대값이 최대인 중심피크를 기준으로 하여 우수 대칭성분으로 분해하는 분해수단; 및
    상기 우수 대칭성분에 대하여 기준포인트와 적어도 하나 이상의 로컬피크간의 세그먼트 상관치를 구하고, 구해진 세그먼트 상관치 중 최대 세그먼트 상관치에 대응하는 로컬피크의 위치를 피치주기로 결정하는 피치결정수단을 포함하는 것을 특징으로 하는 피치 검출장치.
  11. 제10 항에 있어서, 상기 장치는
    상기 단일 프레임에 포함된 음성데이터의 중심피크를 기준으로 하여 음성데이터를 재배열하고, 재배열된 음성데이터를 상기 분해수단의 입력으로 제공하기 위한 데이터 재배열수단을 더 포함하며, 상기 데이터 재배열수단은
    상기 단일 프레임의 음성데이터에 대하여 상기 제1 가중치 윈도우 함수를 곱한 다음, 그 결과값의 절대값이 최대인 상기 중심피크를 결정하는 중심피크 결정부; 및
    상기 중심피크를 기준으로 하여 상기 단일 프레임의 음성데이터를 쉬프트시키는 데이터 천이부를 구비하는 것을 특징으로 하는 피치 검출장치.
  12. 제10 항에 있어서, 상기 분해수단은 상기 단일 프레임의 음성데이터에 대하여 제2 가중치 윈도우 함수를 곱한 다음, 상기 중심피크를 기준으로 하여 상기 제2 가중치 윈도우 함수가 곱해진 단일 프레임의 음성데이터를 우수 대칭성분으로 분해하는 것을 특징으로 하는 피치 검출장치.
  13. 제10 항에 있어서, 상기 피치결정수단은
    상기 우수 대칭성분에 대하여 적어도 하나 이상의 로컬피크를 검출하는 로컬피크 검출부;
    기준포인트와 상기 각 로컬피크간의 세그먼트 상관치를 구하는 상관치 계산부; 및
    상기 구해진 세그먼트 상관치 중 최대 세그먼트 상관치를 선택하고, 상기 최대 세그먼트 상관치가 소정의 임계치보다 큰 경우 상기 최대 세그먼트 상관치에 대응하는 로컬피크의 위치를 피치주기로 결정하는 피치주기 결정부를 구비하는 것을 특징으로 하는 피치 검출장치.
  14. 제13 항에 있어서, 상기 로컬피크는 상기 중심피크의 값에 따라서 음수 영역과 양수 영역 중 어느 하나의 영역에서 검출되는 것을 특징으로 하는 피치검출장치.
KR1020030074923A 2003-10-25 2003-10-25 피치검출방법 및 장치 KR100552693B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020030074923A KR100552693B1 (ko) 2003-10-25 2003-10-25 피치검출방법 및 장치
US10/968,942 US7593847B2 (en) 2003-10-25 2004-10-21 Pitch detection method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020030074923A KR100552693B1 (ko) 2003-10-25 2003-10-25 피치검출방법 및 장치

Publications (2)

Publication Number Publication Date
KR20050039454A KR20050039454A (ko) 2005-04-29
KR100552693B1 true KR100552693B1 (ko) 2006-02-20

Family

ID=34511092

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020030074923A KR100552693B1 (ko) 2003-10-25 2003-10-25 피치검출방법 및 장치

Country Status (2)

Country Link
US (1) US7593847B2 (ko)
KR (1) KR100552693B1 (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7598447B2 (en) * 2004-10-29 2009-10-06 Zenph Studios, Inc. Methods, systems and computer program products for detecting musical notes in an audio signal
US8093484B2 (en) * 2004-10-29 2012-01-10 Zenph Sound Innovations, Inc. Methods, systems and computer program products for regenerating audio performances
US7933767B2 (en) * 2004-12-27 2011-04-26 Nokia Corporation Systems and methods for determining pitch lag for a current frame of information
GB2433150B (en) * 2005-12-08 2009-10-07 Toshiba Res Europ Ltd Method and apparatus for labelling speech
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
US8010350B2 (en) * 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
US8386246B2 (en) * 2007-06-27 2013-02-26 Broadcom Corporation Low-complexity frame erasure concealment
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
CN102016530B (zh) * 2009-02-13 2012-11-14 华为技术有限公司 一种基音周期检测方法和装置
US8666734B2 (en) * 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values
US9082416B2 (en) * 2010-09-16 2015-07-14 Qualcomm Incorporated Estimating a pitch lag
US8949118B2 (en) * 2012-03-19 2015-02-03 Vocalzoom Systems Ltd. System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise
US9548067B2 (en) 2014-09-30 2017-01-17 Knuedge Incorporated Estimating pitch using symmetry characteristics
US9396740B1 (en) * 2014-09-30 2016-07-19 Knuedge Incorporated Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
US9756281B2 (en) 2016-02-05 2017-09-05 Gopro, Inc. Apparatus and method for audio based video synchronization
US9697849B1 (en) 2016-07-25 2017-07-04 Gopro, Inc. Systems and methods for audio based synchronization using energy vectors
US9640159B1 (en) 2016-08-25 2017-05-02 Gopro, Inc. Systems and methods for audio based synchronization using sound harmonics
US9653095B1 (en) * 2016-08-30 2017-05-16 Gopro, Inc. Systems and methods for determining a repeatogram in a music composition using audio features
US9916822B1 (en) 2016-10-07 2018-03-13 Gopro, Inc. Systems and methods for audio remixing using repeated segments
EP3382704A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
KR101956339B1 (ko) * 2017-04-14 2019-03-08 성균관대학교산학협력단 다중 폴딩에 기반한 p코드 직접 획득 방법 및 수신기

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4829576A (en) * 1986-10-21 1989-05-09 Dragon Systems, Inc. Voice recognition system
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
GB2297465B (en) * 1995-01-25 1999-04-28 Dragon Syst Uk Ltd Methods and apparatus for detecting harmonic structure in a waveform
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US5805775A (en) * 1996-02-02 1998-09-08 Digital Equipment Corporation Application user interface
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
US5812977A (en) * 1996-08-13 1998-09-22 Applied Voice Recognition L.P. Voice control computer interface enabling implementation of common subroutines
US5893063A (en) * 1997-03-10 1999-04-06 International Business Machines Corporation Data processing system and method for dynamically accessing an application using a voice command
US6125376A (en) * 1997-04-10 2000-09-26 At&T Corp Method and apparatus for voice interaction over a network using parameterized interaction definitions
US6108629A (en) * 1997-04-25 2000-08-22 At&T Corp. Method and apparatus for voice interaction over a network using an information flow controller
US6012030A (en) * 1998-04-21 2000-01-04 Nortel Networks Corporation Management of speech and audio prompts in multimodal interfaces
JP4036528B2 (ja) * 1998-04-27 2008-01-23 富士通株式会社 意味認識システム
US6434524B1 (en) * 1998-09-09 2002-08-13 One Voice Technologies, Inc. Object interactive user interface using speech recognition and natural language processing
US6226606B1 (en) * 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking
US6192343B1 (en) * 1998-12-17 2001-02-20 International Business Machines Corporation Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms
US6175820B1 (en) * 1999-01-28 2001-01-16 International Business Machines Corporation Capture and application of sender voice dynamics to enhance communication in a speech-to-text environment
US6615176B2 (en) * 1999-07-13 2003-09-02 International Business Machines Corporation Speech enabling labeless controls in an existing graphical user interface
US20010043234A1 (en) * 2000-01-03 2001-11-22 Mallik Kotamarti Incorporating non-native user interface mechanisms into a user interface
US6917912B2 (en) * 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis
US20030079051A1 (en) * 2001-10-24 2003-04-24 Dean Moses Method and system for the internationalization of computer programs employing graphical user interface
US20040128136A1 (en) * 2002-09-20 2004-07-01 Irani Pourang Polad Internet voice browser
US20040102965A1 (en) * 2002-11-21 2004-05-27 Rapoport Ezra J. Determining a pitch period
US7496511B2 (en) * 2003-01-14 2009-02-24 Oracle International Corporation Method and apparatus for using locale-specific grammars for speech recognition
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals

Also Published As

Publication number Publication date
KR20050039454A (ko) 2005-04-29
US7593847B2 (en) 2009-09-22
US20050091045A1 (en) 2005-04-28

Similar Documents

Publication Publication Date Title
KR100552693B1 (ko) 피치검출방법 및 장치
Deshmukh et al. Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech
CA1301339C (en) Parallel processing pitch detector
US5774836A (en) System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
US20040133424A1 (en) Processing speech signals
JP4740609B2 (ja) 有声音および無声音の検出装置、並びにその方法
KR100653643B1 (ko) 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
US6865529B2 (en) Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor
Bořil et al. Direct time domain fundamental frequency estimation of speech in noisy conditions
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
US6954726B2 (en) Method and device for estimating the pitch of a speech signal using a binary signal
EP1436805B1 (en) 2-phase pitch detection method and appartus
US20010029447A1 (en) Method of estimating the pitch of a speech signal using previous estimates, use of the method, and a device adapted therefor
Cai et al. A modified pitch detection method based on wavelet transform
Every et al. Enhancement of harmonic content of speech based on a dynamic programming pitch tracking algorithm
Ben Messaoud et al. An efficient method for fundamental frequency determination of noisy speech
KR100289317B1 (ko) 음성신호의 피치 검출장치 및 그 방법
Wasserblat et al. Pitch tracking and voiced/unvoiced detection in noisy environment using optimal sequence estimation
Rahman et al. Frame Length Dependency for Fundamental Frequency Extraction in Noisy Speech
KR100212453B1 (ko) 양자화 오차를 이용한 음성 신호의 피치 검출 방법
KR0173924B1 (ko) 음성신호의 유성음 구간에서 이포크 검출 방법
JP2016133522A (ja) 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム
Park et al. Pitch Gross Error Compensation in Continuous Speech
Park et al. Pitch Error Improved with SNR Compensation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130130

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140128

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150129

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160128

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee