KR100552693B1 - 피치검출방법 및 장치 - Google Patents
피치검출방법 및 장치 Download PDFInfo
- Publication number
- KR100552693B1 KR100552693B1 KR1020030074923A KR20030074923A KR100552693B1 KR 100552693 B1 KR100552693 B1 KR 100552693B1 KR 1020030074923 A KR1020030074923 A KR 1020030074923A KR 20030074923 A KR20030074923 A KR 20030074923A KR 100552693 B1 KR100552693 B1 KR 100552693B1
- Authority
- KR
- South Korea
- Prior art keywords
- pitch
- voice data
- segment correlation
- peak
- single frame
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Abstract
피치검출방법 및 장치가 개시된다. 피치검출장치는 단일 프레임에 포함된 음성데이터의 중심피크를 기준으로 하여 음성데이터를 재배열하기 위한 데이터 재배열 유니트, 재배열된 음성데이터를 중심피크를 기준으로 하여 우수 대칭성분으로 분해하는 분해유니트 및 우수 대칭성분에 대하여 기준포인트와 적어도 하나 이상의 로컬피크간의 세그먼트 상관치를 구하고, 구해진 세그먼트 상관치 중 최대 세그먼트 상관치에 대응하는 로컬피크의 위치를 피치주기로 결정하는 피치결정 유니트로 이루어진다.
Description
도 1은 본 발명에 따른 피치검출장치의 일실시예의 구성을 나타내는 블럭도,
도 2의 (a) 내지 (c)는 도 1에 도시된 각 부의 파형도, 및
도 3은 본 발명에 따른 피치검출방법의 일실시예의 동작을 설명하는 흐름도이다.
본 발명은 피치검출에 관한 것으로서, 보다 구체적으로는 음성데이터를 우수 대칭성분으로 분해한 다음 세그먼트 상관치를 구하여 피치를 검출하는 방법 및 장치에 관한 것이다.
음성 인식, 합성 및 분석과 같은 음성신호처리 분야에 있어서 기본 주파수, 즉 피치 주기를 정확히 검출하는 것은 중요하다. 만일 음성신호의 기본 주파수를 정확히 검출할 수 있다면 음성인식에 있어서 화자에 따른 영향을 줄일 수 있기 때문에 인식의 정확도를 높일 수 있고, 음성합성시에 자연성과 개성을 쉽게 변경하거나 유지할 수 있다. 또한 음성분석시 피치에 동기시켜 분석하면 성문의 영향이 제거된 정확한 성도 파라미터를 얻을 수 있다.
이와 같이 음성신호에서 피치 검출을 수행하는 것은 중요한 작업이므로 이를 위한 방법들이 다양하게 제안되었다. 그것은 시간영역 검출방법, 주파수영역 검출방법, 시간-주파수영역 검출방법으로 구분할 수 있는데, 시간 영역 검출방법은 파형의 주기성을 강조한 후에 결정 논리에 의해 피치를 검출하는 방법으로 병렬처리법, 평균 진폭차 함수(Average Magnitude Difference Function: 이하 AMDF라 함)법, 자기상관법(Auto-Correlation Method: 이하 ACM이라 함) 등이 있다. 이러한 방법은 보통 시간영역에서 수행되므로 영역의 변환이 불필요하고, 합, 차, 비교 논리 등 간단한 연산만 필요하게 된다. 그러나, 음소가 천이구간에 걸쳐 있는 경우에는 프레임 내의 레벨 변화가 심하고 피치 주기가 변동하기 때문에 피치 검출이 어렵고, 포만트에 의해 영향을 많이 받게 된다. 특히 잡음이 섞인 음성의 경우에는 피치 검출을 위한 결정 논리가 복잡해져서 검출 오류가 증가되는 단점이 있다. 특히, ACM법에서는 피치 더블링(pitch doubling), 피치 하빙(pitch halving), 제1 포만트를 피치로 오판하는 등과 같은 피치결정오류가 빈번히 유발될 가능성이 있다.
주파수영역의 피치검출 방법은 음성 스펙트럼의 고조파 간격을 측정하여 유성음의 기본 주파수를 검출하는 방법으로 고조파 분석법, 리프터(Lifter)법, 콤필터링(Comb-filtering)법 등이 제안되어 있다. 일반적으로 스펙트럼은 한 프레임(20∼40ms) 단위로 구해지므로, 이 구간에서 음소의 천이나 변동이 일어나거나 배경 잡음이 발생하여도 평균화되므로 그 영향을 적게 받는다. 그러나 처리 과정상 주파수 영역으로의 변환 과정이 필요함으로 계산이 복잡하며, 기본 주파수의 정밀성을 높이기 위해 FFT의 포인터 수를 늘리면 그만큼 처리 시간이 길어지고 변화 특성에 둔해지게 된다.
시간-주파수 혼성영역 검출방법은 시간 영역법의 계산 시간 절감과 피치의 정밀성, 그리고 주파수 영역법의 배경 잡음이나 음소 변화에 대해서도 피치를 정확히 구할 수 있는 장점을 취한 것이다. 이러한 방법으로는 켑스트럼(Cepstrum)법, 스펙트럼 비교법 등이 있고, 이 방법은 시간과 주파수 영역을 왕복할 때 오차가 가중되어 나타나므로 피치 추출의 영향을 받을 수 있고, 또한 시간과 주파수 영역을 동시에 적용하기 때문에 계산 과정이 복잡하다는 단점이 있다.
본 발명이 이루고자 하는 기술적 과제는 단일 프레임에 포함된 음성데이터를 우수 대칭성분으로 분해한 다음, 기준포인트와 각 로컬피크 간의 최대 세그먼트 상관치를 피치 주기로 결정하기 위한 피치검출방법 및 장치를 제공하는데 있다.
상기 기술적 과제를 달성하기 위하여 본 발명에 따른 피치검출장치는 단일 프레임에 포함된 음성데이터의 중심피크를 기준으로 하여 음성데이터를 재배열하기 위한 데이터 재배열수단; 상기 재배열된 음성데이터를 상기 중심피크를 기준으로 하여 우수 대칭성분으로 분해하는 분해수단; 및 상기 우수 대칭성분에 대하여 기준포인트와 적어도 하나 이상의 로컬피크간의 세그먼트 상관치를 구하고, 구해진 세그먼트 상관치 중 최대 세그먼트 상관치에 대응하는 로컬피크의 위치를 피치주기로 결정하는 피치결정수단을 포함한다.
상기 기술적 과제를 달성하기 위하여 본 발명에 따른 피치검출방법은 (a) 단 일 프레임에 포함된 음성데이터의 중심피크를 기준으로 하여 음성데이터를 우수 대칭성분으로 분해하는 단계; 및 (b) 상기 우수 대칭성분에 대하여 기준포인트와 적어도 하나 이상의 로컬피크간의 세그먼트 상관치를 구하고, 구해진 세그먼트 상관치 중 최대 세그먼트 상관치에 대응하는 로컬피크의 위치를 피치주기로 결정하는 단계를 포함한다.
상기 방법은 바람직하게는 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명하기로 한다.
도 1은 본 발명에 따른 피치검출장치의 일실시예의 구성을 나타내는 블럭도로서, 데이터 재배열 유니트(110), 분해부(120)와 피치결정 유니트(130)로 이루어진다. 데이터 재배열 유니트(110)는 필터부(111), 프레임 구성부(113), 중심피크 결정부(115) 및 데이터 천이부(117)로 이루어지고, 피치결정 유니트(130)는 로컬피크 검출부(131), 상관치 계산부(133) 및 피치주기 결정부(135)로 이루어진다. 도 1에 도시된 피치검출장치의 동작을 도 2에 도시된 파형도와 결부시켜 설명하면 다음과 같다.
도 1을 참조하면, 데이터 재배열 유니트에 있어서, 필터부(111)는 IIR(Infinite Impulse Response) 또는 FIR(Finite Impulse Response) 디지털 필터로서, 예를 들면 컷오프 주파수가 230 Hz의 주파수특성을 가지는 저역통과필터이 다. 필터부(111)는 아날로그/디지털 변환되어 제공되는 음성데이터에 대하여 저역통과필터링을 수행하여 고역성분을 제거하고, 결국 도 2의 (a)에 도시된 바와 같은 파형의 음성데이터를 출력한다.
프레임 구성부(113)는 필터부(111)로부터 제공되는 음성데이터를 소정 단위시간으로 분할하여 프레임 단위로 구성한다. 예를 들어, 아날로그/디지털 변환시 샘플링 레이트가 20 kHz 인 경우 40 msec 를 소정 단위시간으로 설정하면 총 800개의 샘플이 1 프레임을 구성하게 된다. 통상 피치는 50 Hz 내지 400 Hz 에 존재하므로 피치를 검출하는데 필요로 하는 샘플수 즉, 단위시간은 바람직하게는 50 Hz의 두배 즉 25 Hz 즉, 40 msec 로 설정하게 된다. 이때 인접하는 프레임간의 간격은 10 msec임이 바람직하다. 상기한 예에서 프레임 구성부(113)는 샘플링 레이트가 20 kHz 인 경우 음성데이터에 대하여 800 개의 샘플을 첫번째 프레임으로 구성하고, 첫번째 프레임내에서 200 개의 샘플을 건너뛴 다음 600 개의 샘플과 다음번 새로운 200 개의 샘플을 합한 800 개의 샘플을 두번째 프레임으로 구성하게 된다.
중심피크 결정부(115)는 프레임 단위로 제공되는 도 2의 (a)와 같은 음성데이터에 대하여 시간 도메인에서의 소정의 가중치 윈도우 함수(weight window fuction)를 곱하고, 곱한 결과값의 절대값이 최대인 지점을 중심피크로 결정한다. 사용가능한 가중치 윈도우의 종류에는 삼각(Triangular), 해닝(Hanning), 해밍(Hamming), 블랙만(Blackmann), 웰치(Welch) 또는 블랙만-해리스(Blackmann-Harris) 윈도우를 들 수 있다.
데이터 천이부(117)는 중심피크 결정부(115)에서 결정된 중심피크를 기준으 로 중심피크가 데이터의 가운데에 오도록 도 2의 (a)에 도시된 음성데이터를 쉬프트시켜 도 2의 (b)와 같은 파형의 신호를 출력한다.
분해부(120)는 데이터 천이부(117)를 통해 재배열된 음성데이터를 중심피크를 기준으로 우수 대칭성분으로 분해하고, 도 2의 (c)와 같은 파형의 신호를 출력한다. 이를 좀 더 세부적으로 설명하면 다음과 같다.
먼저, x(n)을 프레임 구성부(113)로부터 제공되어 데이터 천이부(117)에서 재배열된 음성데이타로서, 주기 N0를 갖는 주기적인 신호라 한다. 즉, 모든 정수 k에 대하여 x(n±kN0) = x(n)이 된다. 이와 같은 주기적인 신호는 우수 및 기수 대칭성분으로 분해할 수 있으며, s(n)을 대칭신호라 할 경우 다음 수학식 1이 성립한다.
여기서, xe(n)은 우수 대칭성분을 나타내며, 다음 수학식 2와 같이 나타낼 수 있다. 여기서, N은 1 프레임의 전체 샘플수를 나타낸다.
상기 수학식 1에 의해 생성된 신호 s(n)은 프레임 길이 N에 대하여 뿐만 아니라 주기 N0에 대해서도 대칭적이고, 주기 N0를 갖는 주기적인 신호가 된다. 즉, 주기적인 신호 x(n)과 마찬가지로 s(n±kN0) = s(n)이 된다. 이는 다음 수학식 3을 통해 증명되어질 수 있다.
한편, 주기 N0 내에서 s(n)의 대칭성을 보다 쉽게 설명하기 위하여 s(n)=s(N0 -n) 이 아닌 s(N/2+n)=s(N/2+N0-n) 즉, 한 프레임의 중심부에 대하여 대칭적이면서 주기적인 신호임을 증명하기로 한다. s(N/2+n)과 s(N/2+N0-n)을 각각 x(n)으로 설명하면 다음 수학식 4 및 수학식 5와 같이 나타낼 수 있다.
즉, 수학식 4의 우변은 수학식 5의 우변과 동일함을 알 수 있다. 따라서, 주기적인 신호 x(n)의 우수 대칭성분은 한 주기 내에서 대칭이면서 주기적인 신호 가 됨을 알 수 있다.
한편, 분해부(120)에서는 데이터 천이부(117)를 통해 재배열된 음성데이터에 대하여 다음 검출되는 피치주기가 처음 검출되는 피치주기의 배수가 되는 피치 더블링의 가능성을 배제하기 위하여 소정의 가중치 윈도우 함수를 곱한 다음, 중심피크를 기준으로 우수 대칭성분으로 분해할 수 있다. 이때, 사용되는 가중치 윈도우 함수로는 해밍 윈도우 또는 해닝 윈도우가 될 수 있다. 도 2의 (c)에서와 같이 이후 처리에서 정보 중복을 피하기 위해 전체 우수대칭성분 중 반만을 사용한다.
피치결정 유니트(130)에 있어서 로컬피크 검출부(131)에서는 분해부(120)로부터 제공되는 도 2의 (c)와 같은 우수 대칭성분에 대하여 '0'보다 큰 값을 갖는 로컬피크들, 즉 후보피치들을 검출한다. 만약, 중심피크 결정부(115)에서 결정된 중심피크의 실제 값이 음수인 경우에는 우수 대칭성분에 대하여 '-1'을 곱한 다음 '0'보다 큰 값을 갖는 로컬피크들, 즉 후보피치들을 검출한다.
상관치 계산부(133)에서는 기준포인트 즉, 샘플위치 '0'와 로컬피크 검출부(131)에서 검출된 각 로컬피크(L)간에 세그먼트 상관치, ρ(L)를 구한다. 이때, Y. Medan, E. Yair 과 D. Chazan에 의한 논문 "Super resolution pitch determination of sppech signals"(IEEE Trans. Signal Processing, ASSP-39(1), pp. 40-48, 1991)에 개시된 방법과 P.C. Bagshaw, S.M. Hiller 및 M.A. Jack에 의한 논문 "Enhanced pitch tracking and the processing of F0 contours for computer aided intonation teaching"(pp. 1003-1006, Proc. 3rd. Euroupean Conference on Speech Communication and Technology, vol 2, Berlin)에 개시된 방법 중 어느 하나를 적용하여 세그먼트 상관치를 구할 수 있다. Y. Medan et al에 개시된 방법을 사용할 경우 다음 수학식 6과 같이 나타낼 수 있다.
여기서, L은 각 로컬피크의 위치 즉, 샘플 위치를 나타낸다.
피치주기 결정부(135)에서는 상관치 계산부(133)에서 계산된 기준포인트와 각 로컬피크에 대한 세그먼트 상관치 중에서 최대 세그먼트 상관치를 선택하고, 최대 세그먼트 상관치가 소정의 임계치보다 큰 경우 최대 세그먼트 상관치를 얻는데 사용된 로컬피크의 위치를 피치 주기로 결정한다. 한편, 최대 세그먼트 상관치가 소정의 임계치보다 크면 해당 프레임의 음성신호를 유성음으로 판단한다.
도 3은 본 발명에 따른 피치검출방법의 일실시예의 동작을 설명하는 흐름도로서, 음성데이터 재배열단계(310), 분해단계(320), 최대 세그먼트 상관치 검출단계(330) 및 피치주기 결정단계(340)로 이루어진다.
도 3을 참조하면, 음성데이터 재배열단계(310)에 있어서, 311 단계에서는 입 력되는 음성데이터를 프레임 단위로 구성한다. 이때 한 프레임은 최소 피치주기의 두배에 해당하는 40 ms 정도가 바람직하다. 313 단계에서는 프레임번호를 1로 설정하여 첫번째 프레임의 음성데이터에 대하여 이후 단계를 진행하도록 한다. 315 단계에서는 단일 프레임 내에서 중심피크를 결정하는데, 이를 위하여 단일 프레임내의 음성데이터에 소정의 가중치 윈도우 함수를 곱한 다음, 그 절대값이 최대가 되는 지점을 중심피크로 결정한다. 317 단계에서는 중심피크를 기준으로 단일 프레임내의 음성데이터를 쉬프트하여 음성데이터를 재배열한다. 도시되지 않았으나, 311 단계 이전에 입력되는 음성데이터에 대하여 저역통과필터링을 수행할 수 있다.
분해단계(320)에서는 310 단계에서 재배열된 음성데이터를 중심피크를 기준으로 우수대칭성분으로 분해한다. 다른 실시예로는, 310 단계에서 재배열된 음성데이터에 소정의 가중치 윈도우 함수를 곱한 다음, 중심피크를 기준으로 우수대칭성분으로 분해할 수 있다. 이 경우 피치 더블링과 같은 피치결정오류를 대폭 감소시킬 수 있다.
최대 세그먼트 상관치 검출단계(330)에 있어서, 331 단계에서는 320 단계에서 분해된 우수대칭성분에 대하여 로컬 피크들을 검출한다. 만약, 중심피크의 값이 음수인 경우 로컬피크들은 '0' 보다 작은 값을 갖는 샘플위치가 되고, 중심피크의 값이 양수인 경우 로컬피크들은 '0' 보다 큰 값을 갖는 샘플위치가 된다. 333 단계에서는 기준포인트 즉, 샘플위치 '0'와 각 로컬피크에 해당하는 샘플위치 간의 세그먼트 상관치를 계산한다. 335 단계에서는 모든 로컬피크에 대한 세그먼트 상관치 중 최대 세그먼트 상관치를 검출한다.
피치주기 결정단계(340)에 있어서, 341 단계에서는 330 단계에서 검출된 최대 세그먼트 상관치가 소정의 임계치보다 큰지를 판단하고, 판단결과 최대 세그먼트 상관치가 소정의 임계치보다 작거나 같은 경우, 해당 프레임에 대해서는 피치주기가 검출되지 않았음을 의미하므로 347 단계로 이행한다. 한편, 343 단계에서는 341 단계에서의 판단결과 최대 세그먼트 상관치가 소정의 임계치보다 큰 경우 최대 세그먼트 상관치에 대응하는 로컬피크의 위치 즉, 샘플위치를 피치주기로 결정한다. 345 단계에서는 343 단계에서 결정된 피치주기를 현재 프레임에 대한 피치주기로 저장한다. 347 단계에서는 음성데이터 입력이 종료되었는지를 판단하고, 347 단계에서의 판단결과 음성데이터 입력이 종료된 경우에는 본 흐름도를 종료하고, 음성입력이 종료되지 않은 경우에는 349 단계로 이행하여 프레임번호를 1 만큼 증가시킨 다음, 315 단계로 복귀하여 다음 프레임에 대한 피치주기를 찾는다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
상술한 바와 같은 본 발명에 따른 피치검출방법의 성능평가를 위한 실험환경을 살펴보면, 사용된 음성시료의 샘플링 레이트는 20 kHz 이고, 아날로그/디지탈 변환의 해상도는 16 비트이며, 음성시료의 예로 든 5명의 남성화자와 5명의 여성화자가 각각 발화한 음성의 특징은 다음 표 1 및 표 2에 나타낸 바와 같다.
남성화자 | 전체길이(초) | 유성음구간(초) | 평균피치(Hz) | 최소피치(Hz) | 최대피치(Hz) |
M1 | 37.4 | 18.4 | 100 | 57 | 180 |
M2 | 31.9 | 14.0 | 134 | 53 | 232 |
M3 | 27.2 | 14.6 | 135 | 58 | 183 |
M4 | 33.7 | 16.3 | 94 | 57 | 259 |
M5 | 40.3 | 20.7 | 107 | 59 | 182 |
여성화자 | 전체길이(초) | 유성음구간(초) | 평균피치(Hz) | 최소피치(Hz) | 최대피치(Hz) |
F1 | 32.2 | 15.1 | 195 | 63 | 263 |
F2 | 33.7 | 19.0 | 228 | 68 | 333 |
F3 | 30.5 | 15.0 | 192 | 78 | 286 |
F4 | 31.6 | 17.8 | 233 | 56 | 400 |
F5 | 38.7 | 18.6 | 229 | 78 | 351 |
사용된 저역통과필터의 컷 오프 주파수가 460 Hz인 경우 표 1 및 표 2에 보여진 음성시료에 대하여 본 발명에 따른 피치검출방법과 세그먼트 상관을 이용한 종래방법 1(SegCor), 개선된 세그먼트 상관을 이용한 종래방법 2(E_SegCor)을 각각 적용하여 피치를 검출한 결과를 VER(Voiced Error Rate)과 GER(Global Error Rate)로 나타내면 표 3과 같다. 여기서, SegCor은 전술한 Y. Medan, E. Yair 과 D. Chazan에 의한 논문에 개시된 방법, E_SegCor은 전술한 P.C. Bagshaw, S.M. Hiller 및 M.A. Jack에 의한 논문에 개시된 방법을 각각 예를 든 것이다.
종래방법 1 (SegCor) | 종래방법 2 (E_SegCor) | 본 발명 | ||||
VER | GER | VER | GER | VER | GER | |
남성화자 | 10.91 | 3.97 | 11.18 | 3.15 | 3.22 | 1.97 |
여성화자 | 3.79 | 8.77 | 4.16 | 3.21 | 0.75 | 2.12 |
평균 | 7.32 | 6.49 | 7.64 | 3.18 | 1.97 | 2.05 |
표 3을 살펴보면, 본 발명에 의한 피치검출방법을 적용시 종래방법 1과 종래방법 2에 비하여 VER은 각각 73%와 74% 감소하였고, GER은 각각 68%와 36% 감소하였음을 알 수 있다.
다음, 사용된 저역통과필터의 컷 오프 주파수가 230 Hz인 경우 표 1 및 표 2에 보여진 음성시료에 대하여 본 발명에 따른 피치검출방법과 세그먼트 상관을 이용한 종래방법 1(SegCor), 개선된 세그먼트 상관을 이용한 종래방법 2(E_SegCor)을 각각 적용하여 피치를 검출한 결과를 VER(Voiced Error Rate)과 GER(Global Error Rate)로 나타내면 표 4와 같다.
종래방법 1 (SegCor) | 종래방법 2 (E_SegCor) | 본 발명 | ||||
VER | GER | VER | GER | VER | GER | |
남성화자 | 5.46 | 4.84 | 7.20 | 2.55 | 3.22 | 1.97 |
여성화자 | 2.65 | 10.8 | 2.78 | 2.17 | 0.75 | 2.12 |
평균 | 4.04 | 7.90 | 4.97 | 2.35 | 1.97 | 2.05 |
표 4를 살펴보면, 본 발명에 의한 피치검출방법을 적용시 종래방법 1과 종래방법 2에 비하여 VER은 각각 51%와 60% 감소하였고, GER은 각각 74%와 13% 감소하였음을 알 수 있다.
상술한 바와 같이 본 발명에 따르면, 음성데이터에 대한 우수 대칭성분을 이용하여 피치 검출을 수행함으로써 단일 프레임내에서 분석되는 샘플 수가 감소되어 피치검출의 정확도를 대폭 높일 수 있으므로 피치검출에 의존하는 유성음 판단 오류율(VER) 및 글로벌 오류율(GER)을 현저하게 낮출 수 있다. 또한, 기준포인트와 로컬피치에 대하여 세그먼트 상관을 수행함으로써 세그먼트 상관시 사용되는 세그먼트의 수가 종래에 비하여 감소되기 때문에 계산의 복잡도가 감소되고 수행시간이 단축될 수 있다.
본 발명에 대해 상기 실시예를 참고하여 설명하였으나, 이는 예시적인 것에 불과하며, 본 발명에 속하는 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
Claims (14)
- (a) 단일 프레임에 포함된 음성데이터에 대하여 제1 가중치 윈도우 함수를 곱한 다음, 그 결과값의 절대값이 최대인 중심피크를 기준으로 하여 음성데이터를 우수 대칭성분으로 분해하는 단계; 및(b) 상기 우수 대칭성분에 대하여 기준포인트와 적어도 하나 이상의 로컬피크간의 세그먼트 상관치를 구하고, 구해진 세그먼트 상관치 중 최대 세그먼트 상관치에 대응하는 로컬피크의 위치를 피치주기로 결정하는 단계를 포함하는 것을 특징으로 하는 피치 검출방법.
- 제1 항에 있어서, 상기 (a) 단계는(a1) 상기 단일 프레임의 음성데이터에 대하여 상기 제1 가중치 윈도우 함수를 곱한 다음, 그 결과값의 절대값이 최대인 상기 중심피크를 검출하는 단계;(a2) 상기 중심피크를 기준으로 하여 상기 단일 프레임의 음성데이터를 쉬프트시키는 단계; 및(a3) 상기 중심피크를 기준으로 하여 상기 단일 프레임의 음성데이터를 우수 대칭성분으로 분해하는 단계를 구비하는 것을 특징으로 하는 피치 검출방법.
- 제1 항에 있어서, 상기 (a) 단계는(a1) 상기 단일 프레임의 음성데이터에 대하여 상기 제1 가중치 윈도우 함수를 곱한 다음, 그 결과값의 절대값이 최대인 중심피크를 검출하는 단계;(a2) 상기 중심피크를 기준으로 하여 상기 단일 프레임의 음성데이터를 쉬프트시키는 단계; 및(a3) 상기 단일 프레임의 음성데이터에 대하여 제2 가중치 윈도우 함수를 곱한 다음, 상기 중심피크를 기준으로 하여 상기 제2 가중치 윈도우 함수가 곱해진 단일 프레임의 음성데이터를 우수 대칭성분으로 분해하는 단계를 구비하는 것을 특징으로 하는 피치 검출방법.
- 제1 항 내지 제3 항 중 어느 한 항에 있어서, 상기 제1 가중치 윈도우 함수는 삼각, 해닝, 해밍, 블랙만, 웰치 또는 블랙만-해리스 윈도우 함수 중 어느 하나인 것을 특징으로 하는 피치 검출방법.
- 제3 항에 있어서, 상기 제2 가중치 윈도우 함수는 해닝 또는 해밍 윈도우 함수 중 어느 하나인 것을 특징으로 하는 피치 검출방법.
- 제2 항 또는 제3 항에 있어서, 상기 (a) 단계 이전에 입력되는 음성데이터에 대하여 저역통과필터링을 수행하는 단계를 더 구비하는 것을 특징으로 하는 피치 검출방법.
- 제1 항에 있어서, 상기 (b) 단계는(b1) 상기 우수 대칭성분에 대하여 적어도 하나 이상의 로컬피크를 검출하는 단계;(b2) 기준포인트와 상기 각 로컬피크간의 세그먼트 상관치를 구하고, 구해진 세그먼트 상관치 중 최대 세그먼트 상관치를 선택하는 단계;(b3) 상기 최대 세그먼트 상관치와 소정의 임계치를 비교하는 단계; 및(b4) 상기 최대 세그먼트 상관치가 상기 임계치보다 큰 경우 상기 최대 세그먼트 상관치에 대응하는 로컬피크의 위치를 피치주기로 결정하는 단계를 구비하는 것을 특징으로 하는 피치검출방법.
- 제7 항에 있어서, 상기 로컬피크는 상기 중심피크의 값에 따라서 음수 영역과 양수 영역 중 어느 하나의 영역에서 검출되는 것을 특징으로 하는 피치검출방 법.
- 제1 항 내지 제3 항, 제5 항, 제7 항 및 제8 항 중 어느 한 항에 기재된 방법을 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
- 단일 프레임에 포함된 음성데이터에 대하여 제1 가중치 윈도우 함수를 곱한 다음, 그 결과값의 절대값이 최대인 중심피크를 기준으로 하여 우수 대칭성분으로 분해하는 분해수단; 및상기 우수 대칭성분에 대하여 기준포인트와 적어도 하나 이상의 로컬피크간의 세그먼트 상관치를 구하고, 구해진 세그먼트 상관치 중 최대 세그먼트 상관치에 대응하는 로컬피크의 위치를 피치주기로 결정하는 피치결정수단을 포함하는 것을 특징으로 하는 피치 검출장치.
- 제10 항에 있어서, 상기 장치는상기 단일 프레임에 포함된 음성데이터의 중심피크를 기준으로 하여 음성데이터를 재배열하고, 재배열된 음성데이터를 상기 분해수단의 입력으로 제공하기 위한 데이터 재배열수단을 더 포함하며, 상기 데이터 재배열수단은상기 단일 프레임의 음성데이터에 대하여 상기 제1 가중치 윈도우 함수를 곱한 다음, 그 결과값의 절대값이 최대인 상기 중심피크를 결정하는 중심피크 결정부; 및상기 중심피크를 기준으로 하여 상기 단일 프레임의 음성데이터를 쉬프트시키는 데이터 천이부를 구비하는 것을 특징으로 하는 피치 검출장치.
- 제10 항에 있어서, 상기 분해수단은 상기 단일 프레임의 음성데이터에 대하여 제2 가중치 윈도우 함수를 곱한 다음, 상기 중심피크를 기준으로 하여 상기 제2 가중치 윈도우 함수가 곱해진 단일 프레임의 음성데이터를 우수 대칭성분으로 분해하는 것을 특징으로 하는 피치 검출장치.
- 제10 항에 있어서, 상기 피치결정수단은상기 우수 대칭성분에 대하여 적어도 하나 이상의 로컬피크를 검출하는 로컬피크 검출부;기준포인트와 상기 각 로컬피크간의 세그먼트 상관치를 구하는 상관치 계산부; 및상기 구해진 세그먼트 상관치 중 최대 세그먼트 상관치를 선택하고, 상기 최대 세그먼트 상관치가 소정의 임계치보다 큰 경우 상기 최대 세그먼트 상관치에 대응하는 로컬피크의 위치를 피치주기로 결정하는 피치주기 결정부를 구비하는 것을 특징으로 하는 피치 검출장치.
- 제13 항에 있어서, 상기 로컬피크는 상기 중심피크의 값에 따라서 음수 영역과 양수 영역 중 어느 하나의 영역에서 검출되는 것을 특징으로 하는 피치검출장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030074923A KR100552693B1 (ko) | 2003-10-25 | 2003-10-25 | 피치검출방법 및 장치 |
US10/968,942 US7593847B2 (en) | 2003-10-25 | 2004-10-21 | Pitch detection method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030074923A KR100552693B1 (ko) | 2003-10-25 | 2003-10-25 | 피치검출방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050039454A KR20050039454A (ko) | 2005-04-29 |
KR100552693B1 true KR100552693B1 (ko) | 2006-02-20 |
Family
ID=34511092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020030074923A KR100552693B1 (ko) | 2003-10-25 | 2003-10-25 | 피치검출방법 및 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7593847B2 (ko) |
KR (1) | KR100552693B1 (ko) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7598447B2 (en) * | 2004-10-29 | 2009-10-06 | Zenph Studios, Inc. | Methods, systems and computer program products for detecting musical notes in an audio signal |
US8093484B2 (en) * | 2004-10-29 | 2012-01-10 | Zenph Sound Innovations, Inc. | Methods, systems and computer program products for regenerating audio performances |
US7933767B2 (en) * | 2004-12-27 | 2011-04-26 | Nokia Corporation | Systems and methods for determining pitch lag for a current frame of information |
GB2433150B (en) * | 2005-12-08 | 2009-10-07 | Toshiba Res Europ Ltd | Method and apparatus for labelling speech |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
US8010350B2 (en) * | 2006-08-03 | 2011-08-30 | Broadcom Corporation | Decimated bisectional pitch refinement |
US8386246B2 (en) * | 2007-06-27 | 2013-02-26 | Broadcom Corporation | Low-complexity frame erasure concealment |
CN101599272B (zh) * | 2008-12-30 | 2011-06-08 | 华为技术有限公司 | 基音搜索方法及装置 |
CN102016530B (zh) * | 2009-02-13 | 2012-11-14 | 华为技术有限公司 | 一种基音周期检测方法和装置 |
US8666734B2 (en) * | 2009-09-23 | 2014-03-04 | University Of Maryland, College Park | Systems and methods for multiple pitch tracking using a multidimensional function and strength values |
US9082416B2 (en) * | 2010-09-16 | 2015-07-14 | Qualcomm Incorporated | Estimating a pitch lag |
US8949118B2 (en) * | 2012-03-19 | 2015-02-03 | Vocalzoom Systems Ltd. | System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise |
US9548067B2 (en) | 2014-09-30 | 2017-01-17 | Knuedge Incorporated | Estimating pitch using symmetry characteristics |
US9396740B1 (en) * | 2014-09-30 | 2016-07-19 | Knuedge Incorporated | Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes |
US9842611B2 (en) | 2015-02-06 | 2017-12-12 | Knuedge Incorporated | Estimating pitch using peak-to-peak distances |
US9922668B2 (en) | 2015-02-06 | 2018-03-20 | Knuedge Incorporated | Estimating fractional chirp rate with multiple frequency representations |
US9870785B2 (en) | 2015-02-06 | 2018-01-16 | Knuedge Incorporated | Determining features of harmonic signals |
US9756281B2 (en) | 2016-02-05 | 2017-09-05 | Gopro, Inc. | Apparatus and method for audio based video synchronization |
US9697849B1 (en) | 2016-07-25 | 2017-07-04 | Gopro, Inc. | Systems and methods for audio based synchronization using energy vectors |
US9640159B1 (en) | 2016-08-25 | 2017-05-02 | Gopro, Inc. | Systems and methods for audio based synchronization using sound harmonics |
US9653095B1 (en) * | 2016-08-30 | 2017-05-16 | Gopro, Inc. | Systems and methods for determining a repeatogram in a music composition using audio features |
US9916822B1 (en) | 2016-10-07 | 2018-03-13 | Gopro, Inc. | Systems and methods for audio remixing using repeated segments |
EP3382704A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal |
KR101956339B1 (ko) * | 2017-04-14 | 2019-03-08 | 성균관대학교산학협력단 | 다중 폴딩에 기반한 p코드 직접 획득 방법 및 수신기 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CH644246B (fr) * | 1981-05-15 | 1900-01-01 | Asulab Sa | Dispositif d'introduction de mots a commande par la parole. |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
US4829576A (en) * | 1986-10-21 | 1989-05-09 | Dragon Systems, Inc. | Voice recognition system |
AU633673B2 (en) * | 1990-01-18 | 1993-02-04 | Matsushita Electric Industrial Co., Ltd. | Signal processing device |
GB2297465B (en) * | 1995-01-25 | 1999-04-28 | Dragon Syst Uk Ltd | Methods and apparatus for detecting harmonic structure in a waveform |
US5749066A (en) * | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
US5799279A (en) * | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US5805775A (en) * | 1996-02-02 | 1998-09-08 | Digital Equipment Corporation | Application user interface |
US5884262A (en) * | 1996-03-28 | 1999-03-16 | Bell Atlantic Network Services, Inc. | Computer network audio access and conversion system |
US5812977A (en) * | 1996-08-13 | 1998-09-22 | Applied Voice Recognition L.P. | Voice control computer interface enabling implementation of common subroutines |
US5893063A (en) * | 1997-03-10 | 1999-04-06 | International Business Machines Corporation | Data processing system and method for dynamically accessing an application using a voice command |
US6125376A (en) * | 1997-04-10 | 2000-09-26 | At&T Corp | Method and apparatus for voice interaction over a network using parameterized interaction definitions |
US6108629A (en) * | 1997-04-25 | 2000-08-22 | At&T Corp. | Method and apparatus for voice interaction over a network using an information flow controller |
US6012030A (en) * | 1998-04-21 | 2000-01-04 | Nortel Networks Corporation | Management of speech and audio prompts in multimodal interfaces |
JP4036528B2 (ja) * | 1998-04-27 | 2008-01-23 | 富士通株式会社 | 意味認識システム |
US6434524B1 (en) * | 1998-09-09 | 2002-08-13 | One Voice Technologies, Inc. | Object interactive user interface using speech recognition and natural language processing |
US6226606B1 (en) * | 1998-11-24 | 2001-05-01 | Microsoft Corporation | Method and apparatus for pitch tracking |
US6192343B1 (en) * | 1998-12-17 | 2001-02-20 | International Business Machines Corporation | Speech command input recognition system for interactive computer display with term weighting means used in interpreting potential commands from relevant speech terms |
US6175820B1 (en) * | 1999-01-28 | 2001-01-16 | International Business Machines Corporation | Capture and application of sender voice dynamics to enhance communication in a speech-to-text environment |
US6615176B2 (en) * | 1999-07-13 | 2003-09-02 | International Business Machines Corporation | Speech enabling labeless controls in an existing graphical user interface |
US20010043234A1 (en) * | 2000-01-03 | 2001-11-22 | Mallik Kotamarti | Incorporating non-native user interface mechanisms into a user interface |
US6917912B2 (en) * | 2001-04-24 | 2005-07-12 | Microsoft Corporation | Method and apparatus for tracking pitch in audio analysis |
US20030079051A1 (en) * | 2001-10-24 | 2003-04-24 | Dean Moses | Method and system for the internationalization of computer programs employing graphical user interface |
US20040128136A1 (en) * | 2002-09-20 | 2004-07-01 | Irani Pourang Polad | Internet voice browser |
US20040102965A1 (en) * | 2002-11-21 | 2004-05-27 | Rapoport Ezra J. | Determining a pitch period |
US7496511B2 (en) * | 2003-01-14 | 2009-02-24 | Oracle International Corporation | Method and apparatus for using locale-specific grammars for speech recognition |
US6988064B2 (en) * | 2003-03-31 | 2006-01-17 | Motorola, Inc. | System and method for combined frequency-domain and time-domain pitch extraction for speech signals |
-
2003
- 2003-10-25 KR KR1020030074923A patent/KR100552693B1/ko not_active IP Right Cessation
-
2004
- 2004-10-21 US US10/968,942 patent/US7593847B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR20050039454A (ko) | 2005-04-29 |
US7593847B2 (en) | 2009-09-22 |
US20050091045A1 (en) | 2005-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100552693B1 (ko) | 피치검출방법 및 장치 | |
Deshmukh et al. | Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech | |
CA1301339C (en) | Parallel processing pitch detector | |
US5774836A (en) | System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator | |
US20040133424A1 (en) | Processing speech signals | |
JP4740609B2 (ja) | 有声音および無声音の検出装置、並びにその方法 | |
KR100653643B1 (ko) | 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치 | |
US8942977B2 (en) | System and method for speech recognition using pitch-synchronous spectral parameters | |
US6865529B2 (en) | Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor | |
Bořil et al. | Direct time domain fundamental frequency estimation of speech in noisy conditions | |
US6470311B1 (en) | Method and apparatus for determining pitch synchronous frames | |
US6954726B2 (en) | Method and device for estimating the pitch of a speech signal using a binary signal | |
EP1436805B1 (en) | 2-phase pitch detection method and appartus | |
US20010029447A1 (en) | Method of estimating the pitch of a speech signal using previous estimates, use of the method, and a device adapted therefor | |
Cai et al. | A modified pitch detection method based on wavelet transform | |
Every et al. | Enhancement of harmonic content of speech based on a dynamic programming pitch tracking algorithm | |
Ben Messaoud et al. | An efficient method for fundamental frequency determination of noisy speech | |
KR100289317B1 (ko) | 음성신호의 피치 검출장치 및 그 방법 | |
Wasserblat et al. | Pitch tracking and voiced/unvoiced detection in noisy environment using optimal sequence estimation | |
Rahman et al. | Frame Length Dependency for Fundamental Frequency Extraction in Noisy Speech | |
KR100212453B1 (ko) | 양자화 오차를 이용한 음성 신호의 피치 검출 방법 | |
KR0173924B1 (ko) | 음성신호의 유성음 구간에서 이포크 검출 방법 | |
JP2016133522A (ja) | 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム | |
Park et al. | Pitch Gross Error Compensation in Continuous Speech | |
Park et al. | Pitch Error Improved with SNR Compensation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130130 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20140128 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20150129 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20160128 Year of fee payment: 11 |
|
LAPS | Lapse due to unpaid annual fee |