KR19980037190A - 유성음 구간에서 프레임별 피치 검출 방법 - Google Patents

유성음 구간에서 프레임별 피치 검출 방법 Download PDF

Info

Publication number
KR19980037190A
KR19980037190A KR1019960055906A KR19960055906A KR19980037190A KR 19980037190 A KR19980037190 A KR 19980037190A KR 1019960055906 A KR1019960055906 A KR 1019960055906A KR 19960055906 A KR19960055906 A KR 19960055906A KR 19980037190 A KR19980037190 A KR 19980037190A
Authority
KR
South Korea
Prior art keywords
pitch
peaks
section
frame
voiced sound
Prior art date
Application number
KR1019960055906A
Other languages
English (en)
Other versions
KR100194953B1 (ko
Inventor
강동규
한민수
Original Assignee
양승택
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 양승택, 한국전자통신연구원 filed Critical 양승택
Priority to KR1019960055906A priority Critical patent/KR100194953B1/ko
Publication of KR19980037190A publication Critical patent/KR19980037190A/ko
Application granted granted Critical
Publication of KR100194953B1 publication Critical patent/KR100194953B1/ko

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명은 음성 신호 처리 방법에 관한 것으로, 약 500㎐로 저역 통과된 유성음 신호에서 인접한 영교차점 구간별 면적을 산출하고 인접한 면적의 합을 구하여 피치를 검출하기 용이한 진폭 변화를 피크를 산출한다. 그리고 분석 프레임 내에서 대표적인 진폭 변화 피크의 수에 따라 분석 프레임의 길이를 재설정한 후 임의의 두 진폭 변화 피크의 크기에 대한 유사도를 두 피크의 거리에 대한 분포로 나타내고 최대 분포 봉우리의 중심 거리를 측정하여 분석 구간 내에서의 피치 및 후보 피치를 검출한다. 또한 전체 음성 신호의 피치 윤곽선에서 프레임별 피치 변화치를 참조로 예상 검출에러 구간에 대해 후보 피치를 이용하여 에러를 수행한다. 이렇게 함으로서 보다 정확한 피치를 검출할 수 있고 광범위한 피치의 분포와 변화에 적응이 용이할 뿐 아니라 고속 처리가 가능한 유성음 구간에서 프레임별 피치 검출 방법이 제시된다.

Description

유성음 구간에서 프레임별 피치 검출 방법
본 발명은 음성 신호 처리 방법에 관한 것으로, 특히 유성음 구간에서 프레임별 피치 검출 방법에 관한 것이다.
음성 신호는 음원에 따라 유성음, 무성음, 혼합음 등으로 구분되며 유성음은 성대의 진동을 여기원으로 성도의 공명으로 발성된다. 유성음은 음성 신호의 대부분을 차지하고 있으며 성대의 진동 정보는 개인성에 따른 음색과 감정 표현 그리고 문장중에서 강조되는 부분의 구별과 문장 종류 및 형태에 따른 억양으로 인지된다. 피치 정보는 화자의 식별이나 발성 문장의 분석에서 중요한 단서가 되기는 하지만 음성 처리를 위해 음성 신호를 분석할 때나 부정확한 피치 정보가 장애 요인으로 작용하므로 피치를 정확히 검출하여 방해 요인을 제거해야만 음성 신호를 정밀하게 분석할 수 있다. 음성 신호를 보다 정밀하게 분석할 수 있으면 음성 인식기의 인식율 향상과 음성 합성기의 명료도를 크게 향상시킬 수 있을 뿐 아니라 통신에서는 적은 양의 데이타로 양질의 음성을 전송할 수 있다. 또한 유성음의 피치는 발성한 문장의 종류, 액센트, 감정 등의 정보를 내포하고 있으므로 음성 인식기에서는 피치 정보를 이용하여 잘못 인식된 결과를 정정할 수 있고 음성 합성기에서는 억양의 통계적인 모델을 추출하여 합성음의 자연성을 향상시킬 수 있다. 또한 의학 분야에서는 청각 장애자 및 언어 장애자들에게 발음 교정 및 장애의 진단 등에 활용되는 등 음성 관련 분야에서 매우 중요한 특징 변수 중 하나로 알려져 있다.
이러한 중요성에 따라 수 많은 피치 검출 방법들이 발표되었으며 크게 나누어 주파수 영역법, 시간 영역법, 시간-주파수 혼성 영역법 등으로 구분된다. 주파수 영역법은 스펙트럼상에서 피치의 역수인 기본 주파수의 하모닉스(harmonics) 간격을 측정하는 방법으로서 잡음이 강한 반면 짧은 피치의 경우 기본 주파수의 하모닉스가 적게 나타나므로 하모닉스의 구별이 어렵다. 시간 영역법은 주기성을 강조시킨 후 가장 큰 에너지를 나타내는 신호의 주기를 결정 논리에 의해 측정하는 방법으로서 고속 처리와 검출 결과의 정밀성이 높은 장점이 있는 반면 긴 피치의 경우 시간 영역상에서 피치의 반복성이 적으므로 피치를 검출하기 어렵다. 시간-주파수 혼성 영역법은 여러 차례의 영역 변환이 필요하므로 검출 결과의 정밀도가 저하되는 것이 일반적이다.
종래의 피치 검출 방법 중에서 시간 영역법은 고속 처리와 정밀도 측면에서 실제의 음성 응용 시스템에 적용하기 용이하지만 잡음 환경, 긴 피치 및 급격한 피치 변화에서는 우수한 검출 결과를 보장 받지 못하는 문제점이 있었다.
따라서, 본 발명은 시간 영역법의 문제점을 해결하기 위해 시간 영역법의 장점인 고속 처리와 높은 정밀도를 바탕으로 긴 피치와 급격한 피치 변화에도 적응할 수 있도록 하여 보다 정확한 피치 검출 방법을 제공하는데 그 목적이 있다.
상술한 목적을 달성하기 위한 본 발명은 입력한 한 프레임의 유성음 신호를 저역 통과시켜 영교차점 구간별 파형의 면적에 의한 진폭 변화 피크를 산출하는 제 1 단계와, 상기 산출된 진폭 변화 피크에 대한 유사도 분포에서 최대치를 산출하여 피치를 구하고 최대치 이외에서 후부 피치를 구하는 제 2 단계와, 상기 제 2 단계 수행 후 음성 신호의 끝인가를 검사하여 끝이 아닐 경우 상기 제 1 단계로 천이하고, 끝일 경우 후처리 단계로 이동하는 제 3 단계와, 상기 제 2 단계에서 검출한 전체 피치의 윤곽선에서 프레임별 피치 변화를 구하고 이들 피치 변화와 후보 피치를 이용하여 에러를 확인하고 피치를 보정하는 제 4 단계로 이루어진 것을 특징으로 한다.
도 1은 저역 통과된 유성음 신호(100)에서 인접한 두 영교차점 구간 내의 파형 면적(101)과 +면적에 - 면적을 더한 진폭 변화 피크의 산출 결과(102)를 도시한 그래프.
도 2는 1.8초의 음성 신호(200)에 대한 프레임별 피치의 역수로 산출된 기본 주파수 윤곽선(201)으로부터 산출된 프레임(약 10msec) 단위별 피치의 변화도(202).
도 3은 한 프레임(약 26msec)의 유성음 신호(300)에서 산출된 진폭 변화 피크(301)에 대한 유사도 분포도(302).
도 4는 본 발명이 적용되는 하드웨어 구성도.
도 5는 본 발명이 전체적인 처리 흐름도.
도 6은 본 발명의 일 실시 예에 따른 남자 음성신호(600) 그리고 우리를 간절히 부르고 있다.에 대한 실시 결과(601)를 도시한 그래프.
도 7은 본 발명의 일 실시 예에 따른 여자 음성신호(700) 인간은 한쪽 뇌만 가지고는에 대한 실시 결과(701)를 도시한 그래프.
*도면의 주요 부분에 대한 부호의 설명*
1; 마이크2; A/D 변환기
3; 특정 하드웨어 혹은 범용 컴퓨터
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세히 설명한다.
도 1은 500㎐로 저역통과된 유성음 신호(100)에서 인접한 두 영교차점 구간내의 파형 면적(101)과 + 면적에 - 면적을 더한 진폭 변화 피크의 산출 결과(102)를 도시한 그래프이다. 음성 신호는 음원에 따라 무성음, 유성음, 혼합음으로 구분할 수 있으며 유성음의 경우 성대의 진동을 여기원으로 성도가 공명되어 발성되고 성도의 물리적인 저항 성분에 의해 (100)과 같이 피치 시작점을 시점으로 지수 함수적인 감쇠를 나타내므로 피치 시작점에서 최대의 진폭 변화를 나타낸다.
유성음 신호의 발성 특성을 이용한 피치검출 기법 중에서 데이타 축약법(data reduction)과 면적 비교법은 유성음에서 약 900㎐ 이하 신호에 대한 영교차점 구간 내의 파형 면적을 나타내는 피크가 도 1의 (101)과 같이 유성음의 주기성을 강조하면서도 처리할 데이타를 현저하게 단순화시킨다는 점을 이용한 방법이다. 그러나 이 방법들은 + 영역의 면적만을 반영하고 있으나 + 면적에 선행하는 - 면적과의 합을 구하면 도 1의 (102)와 같이 신호의 데이타가 면적 신호보다 1/2로 축소되면서도 성대 신호에 의한 영향이 반영되어 피치 시작점에서 현저하게 큰 피크를 나타내는 진폭 변화 피크를 얻을 수 있다.
진폭 변화 피크는 주기성이 강조되고 데이타의 구조가 간단하므로 피크들로 부터 직접 피치를 구할 수도 있으나 에너지 변화에 따라 피크의 크기 변화가 심하고 2.5∼25msec내에 존재할 수 있는 모든 피치를 구하기 위해서는 복잡한 결정논리가 요구되며 이에 따른 결정 에러는 커지게 된다.
주기성을 갖는 신호의 자기상관(autocorrelation) 계수는 그 신호의 주기에서 큰 값을 나타내므로 주기 검출에 많이 이용하고 있다. 진폭 변화 피크 MP(n)에 대한 자기 상관 계수 A(i)는 [수학식 1]과 같이 나타낼 수 있다.
[수학식 1]에서 MP(n)과 MP(n+i)의 크기가 비슷할수록 [수학식 2]에서와 같이 큰 가중치를 주어 자기상관 함수 보다 주기성이 더욱 강조된 자기상관 계수를 얻을 수 있다.
여기서 i=0,1,…,N-1이며 N은 분석 구간의 길이이고 d는 분모가 0이 되지 않도록 하기 위한 둔감 인자로서 실험치에 의하면 500∼1500에서 좋은 결과를 얻을 수 있다. [수학식 2]에서 분석구간 N이 비교적 짧고 MP(n)이 도 1의 (102)에서와 같이 + 기울기를 나타내는 k번째 영교차점의 위치 zcp(k)에서만 존재하므로 SA(i)는 몇 개의 피크만으로 나타나 피치를 결정하기 어렵다. 이를 해결하기 위해 [수학식 3]과 같이 SA(i)를 산출한 다음 길이가 2dp+1이고 크기가 1인 방형 창 함수(rectangular window fonction)로 스므딩(smoothing)하면 주기성을 쉽게 구별할 수 있는 수정된 자기 상관 함수를 얻을 수 있다.
도 2는 1.8초의 음성 신호(200)에 대한 프레임별 피치의 역수로 산출된 기본 주파수 윤곽선(201)으로부터 산출된 프레임(약 10msec) 단위별 피치의 변화도(202)이다. 이는 유성음의 10msec 단위별 피치 변화로서 일반적으로 안정된 구간에서는 1msec를 초과하지 않는 것을 관찰할 수 있다. 그러므로 [수학식 3]의 dp를 약 0.5msec 해당하는 음성 신호의 샘플 수로 하면 안정된 구간에서의 스므딩 효과를 얻을 수 있다. MP(n)은 n=zcp(k)를 제외한 부분에서 0이고 zcp(k)의 정보를 이미 알고 있으므로 zcp(k)에 대해서만 계산하면 처리 시간을 대폭 줄일 수 있다. 즉, 두 피크 MP(zcp(k))와 MP(zcp(k+j))의 크기에 대한 유사도를 [수학식 4]와 같이 나타내고,
두 피크의 간격 zcp(k+j)-zcp(k)에 따른[수학식 4]의 유사도 분포를 구하면[수학식 2]와 유사한 결과를 얻을 수 있다.[수학식 4]에서 하나의 유사도 값에 대해 zcp(k+j)-zcp(k)를 중심으로 폭이 2dp+1인 방형 분포로 누적시키면서 모든 zcp(k)에 대해 분포를 구하면[수학식 3]의 수정된 자기 상관 계수 중에서 SA(0) 값과 SA(i)=0이 되는 부분을 제외하면[수학식 4]에서 유사도 분포를 계산하는 과정과 거의 동일하다.
도 3은 한 프레임(약 26msec)의 유성음 신호(300)에서 산출된 진폭 변화 피크(301)에 대한 유사도 분포(303)를 도시한 그래프이다. 이는 유성음 신호에서 구한 진폭 변화 피크들로부터 [수학식 4]에 의한 유사도 분포를 산출한 것으로 계산량을 대폭 줄이면서도 [수학식 3]에서 SA(0)를 제외한 수정된 상기 상관 계수와 거의 같은 값을 얻을 수 있다. 수정된 자기 상관 계수와는 다르게 유사도 분포에서는 도시된 바와 같이 피처에 해당하는 거리에서 최대치의 봉우리가 나타나므로 특별한 결정 논리없이 직접 피치를 구할 수 있다.
개인성이나 급격한 피치 변화에 적응하기 위해서 약 25msec 정보의 분석 구간 내에서 먼저 피크의 수를 산출한 다음 구간 내에 적어도 2구간 이상의 피치가 반복 될 수 있도록 분석 구간을 다시 설정할 수 있다. 분석 구간 내의 MP(zcp(k))에서 최대값을 기준으로 일정 수준 이상 크기의 지배적인 피크 수와 전체 피크의 수를 참조하면 근사적인 피치의 반복 회수를 알 수 있다.
[수학식 4]에서 j를 두 피크의 간격이 피치의 최대 길이보다 작도록 제한하고 dp를 최초 0.5msec로 하여 유사도 분포 함수를 구할 때 프레임 내에서 피치의 변화가 1msec를 초과할 경우에는 봉우리의 수가 j개 이상이 나타나므로 피치를 검출하기 어렵다. 그러므로 피치 정보를 포함하지 않는 짧은 간격을 나타내면서도 크기가 작은 피크를 제거하고 dp를 1.5msec까지 0.5msec씩 단계적으로 증가시키면서 다시 유사도 분포를 구하면 점차 명확히 피치를 구별할 수 있는 결과를 얻을 수 있다. 실험 결과에 의하면 반복 회수는 대부분 1회이지만 구간 내에서 피치의 변화가 심한 경우 3회까지 수행되기도 한다. 유사도 분포에서 최대치를 나타내는 봉우리의 중심점에 해당하는 거리 CP를 프레임 내의 평균 피치로 결정하고 후보 피치 CP1, CP2를 CP보다 짧은 쪽과 긴 쪽에서 각각 동일한 방법으로 산출하여 후처리에서 에러 보정에 이용한다.
일반적인 피치 검출기는 안정된 구간에서는 좋은 결과를 얻지만 피치의 급격한 변화 또는 에너지의 극심한 변화 그리고 성대의 불안정한 진동이 발생할 경우 많은 검출 에러를 발생한다. 이러한 조건하에서 나타나는 검출 에러의 형태는 피치의 배수 또는 반수의 값으로 검출되거나 전혀 예상치 않은 값으로 나타날 수 있다. 일반적으로 피치 검출 결과의 후처리에서는 비선형 스므딩 기법을 주로 사용하고 있으나 이 방법은 연속적인 에러 발생 구간이 1∼2구간으로 짧을 경우 좋은 결과를 얻을 수 있지만 인접한 3구간 이상의 여러 구간에서 에러가 발생할 경우에는 좋은 결과를 기대할 수 없다. 이 문제를 해결하기 위해 본 발명에서는 프레임 별로 평균 피치 및 예상되는 피치의 배수 및 반수 값의 후보 피치를 각각 구하고 난 뒤 후처리에서 에러 발생시 이들 후보 피치에서 적합한 값을 찾아 수정하므로서 원래의 피치로 수정할 수 있도록 한 뒤 비선형 스므딩 처리를 하였다.
후보 피치를 이용한 에러 수정시에는 정확하다고 판정되는 구간을 중심으로 처리해야 되므로 기준 구간의 설정이 요구된다. 10msec 단위별 피치의 변화도에서 1msec 이내의 변화를 유지하는 구간은 검출 에러가 없는 구간으로 가정할 수 있으므로 300∼500msec 정도로 일정한 유성음 구간내에서 1msec 이내의 피치 변화를 유지하는 가장 긴 구간을 기준 구간으로 설정할 수 있다.
우선 피치 검출 에러의 발생 여부를 알기 위하여 10msec 단위별 피치의 변화를 관찰하면 도 2에서 알 수 있듯이 대부분의 구간에서는 1msec 이내이며 급격한 변화 구간에서는 4msec 까지 변화하고 있음을 알 수 있다. 1msec를 초과하는 경우 피치 검출 에러가 발생했을 가능성이 높으므로 후보 피치를 검사하여 피치가 배수나 반수의 값인지 검사하고 이를 정정하므로서 검출 에러를 줄 일 수 있다.
도 4는 본 발명이 적용되는 하드웨어 구성도이다. 도시된 바와 같이 마이크(1), 아날로그/디지탈(A/D) 변환기(2), 계산 능력을 갖춘 특정 하드웨어나 범용 컴퓨터(3) 등으로 구성된다. 음성 신호의 음압 변화는 마이크(1)를 통해 아날로그 전기 신호로 변환되고 아날로그 음성 신호는 A/D변환기(2)에 의해 디지탈 음성 신호로 변환된다. 디지탈 음성 신호는 CPU, 메모리 등을 갖춘, 즉 계산 능력을 갖춘 특정 하드웨어(H/W)나 범용 컴퓨터(3) 등에 입력되어 본 발명에 따라 처리 과정을 수행한다.
도 5는 본 발명에 따른 음성 신호의 유성음 구간에서 피치 검출 방법의 흐름도이다. 피치는 유성음 신호에서만 존재하므로 본 발명은 유/무성음 구간의 결정이 끝난 후에 적용된다.
본 발명은 크게 3 단계로 나눌 수 있는데, 제 1 단계는 500㎐로 저역 통과된 신호에서 영교차점별 파형의 면적에 의한 진폭 변화 피크를 산출하고, 2 단계는 진폭 변화 피크에 대한 유사도 분포를 산출하여 피치 및 후보 피치를 구하며, 마지막 3 단계에서는 추출된 피치에서 프레임별 피치 변화를 구하고 이들 피치 변화와 후보 피치를 이용하여 에러를 확인하고 피치를 보정한다.
음성 신호의 유성음 구간에서 피치 검출 방법을 상세히 설명하면, 약 10∼50msec의 한 프레임의 유성음 신호를 입력하여(500) FIR 형태의 저역 통과 필터로 약 500㎐ 이하 성분을 추출하고(501) 영교차점을 산출한다(502). 영교차점 구간별 면적을 신호의 극성에 따라 구하여(503) 영교차 구간 중 앞쪽의 영교차점 위치에 표시하고 + 극성의 면적과 이것에 선행하는 진폭 변화 피크인 - 면적의 합을 + 피크 위치에 표시한다(504). 피크 수에 의한 분석 구간의 길이를 적응한다(505). 이는 진폭 변화 피크들 중에 최대치를 구하고 최대치의 1/3보다 큰 피크의 수가 최소 3개에서 최대 15개가 되도록 하면 최소한 분석 구간 내에 피치가 2번 정도 반복되므로 피치 길이에 따라 분석 구간을 적응할 수 있다. [수학식 4]에 따라 진폭 변화 피크들의 유사도를 산출하여(506) 두 피크의 간격에 따른 유사도 분포를 산출한다(507). 분포 봉우리의 수가 6보다 작은가를 검사한다(508). 검사 결과 분포 봉우리의 수가 6보다 크면 분포 봉우리 중에서 첫 번째 봉우리에 해당하는 거리를 구하고 진폭 변화 피크들 중에서 이 간격보다 짧으면서 크기가 작은 피크를 제거한 후 유사도의 분산값 dp를 0.5msec 증가 시킨 후(509), 단계(506) 내지 단계(508) 과정을 다시 수행한다. 검사 결과에 따라 분포 봉우리의 수가 6보다 작을 경우에는 유사도 분포에서 최대치의 봉우리를 구하고 이 봉우리의 중심 거리를 피치로 결정한 후 최대치의 봉우리를 제외한 봉우리들 중에서 짧은 쪽과 긴 쪽에서 각각 다시 최대치를 구하여 후보 피치인 CP1, CP2를 검출한다(510). 단계(510)을 수행한 후 음성 신호의 끝인가를 검사한다(511). 검사 결과 한 프레임에 대한 처리가 끝나고 음성 신호의 끝이 아니면 다시 단계(500) 내지 단계(510)의 과정을 반복한다. 검사 결과 음성 신호의 끝이면 전체적인 피치의 윤곽선(contour) 상에서 피치 검출의 에러를 확인하고 정정하기 위해 먼저 프레임 간 피치 변화를 산출하고 (512) 유성음 구간에서 약 30∼50프레임(300∼500msec) 구간별로 피치 변화가 1msec 이내인 가장 긴 구간을 안정 구간으로 결정한다(513). 이 안정 구간을 중심으로 피치 변화가 1msec 이상인 프레임에 대해 후보 피치와 비교하여 피치가 절반 또는 배수로 잘못 검출되었는지 확인한다. 에러가 확인되면 CP1, CP2 중에서 가장 근접한 값으로 피치를 수정한다(514). (512)∼(514) 과정에서 복구되지 않은 검출 에러는 비선형 스므딩(3-point median 필터링)으로 검출 에러를 최소화 할 수 있도록 한다(515).
도 6 및 도 7은 본 발명의 일 실시 예에 따른 남성 화자 및 여성 화자가 각각 발성한 음성 신호에 대해 검출한 피치를 (601) 및 (701)에서 긁은 선으로 나타내었으며 검출 결과의 정확도를 비교하기 위해 표준 피치가 될 수 있는 성대 폐쇄 시점 혹은 이포크(epoch)를 검출하여 가는 점선으로 함께 나타내었다.
상술한 바와 같이 본 발명에 의하면 하기와 같은 효과를 가지고 있다.
첫째, 본 발명은 주기성이 강조되면서 데이타의 구조가 단순한 진폭 변화 피크에 대하여 자기상간 계수의 특성을 가지면서도 주기성이 훨씬 강조되고 주기 검출이 보다 용이한 진폭 변화 피크의 유사도 분포를 이용하므로서 고속 처리가 가능하고 높은 정밀도를 가지면서도 낮은 검출 에러를 나타낸다.
둘째, 분석 구간 내의 진폭 변화 피크들 주에서 최대치와 이 최대치의 1/3보다 큰 피크의 수를 제한하므로서 개인에 따라 광범위한 피치 변화에도 적응할 수 있다.
셋째, 유사도 분포를 산출할 때 유사도의 분산치를 조절하므로서 급격한 피치변화에도 높은 적응도를 갖는다.
넷째, 피치 검출시 부호 피치를 검출하여 후처리에서 프레임별 피치 변화치에 의한 에러 가능 지점에서 부호 피치와 비교하여 최적치를 피치로 수정하므로서 검출 에러를 줄일 수 있다.
다섯째, 전체적인 처리가 시간 영역에서 수행되고 계산량이 비교적 적으므로 고속 처리가 가능하여 실제의 음성 인식, 합성 및 부호화 시스템에서 활용하기가 용이하다.

Claims (9)

  1. 입력된 한 프레임의 유성음 신호를 저역 통과시켜 영교차점 구간별 파형의 면적에 의한 진폭 변화 피크를 산출하는 제 1 단계와,
    상기 산출된 진폭 변화 피크에 대한 유사도 분포에서 최대치를 산출하여 피치를 구하고 최대치 이외에서 후부 피치를 구하는 제 2 단계와,
    상기 제 2 단계 수행 후 음성 신호의 끝인가를 검사하여 끝이 아닐 경우 상기 제 1 단계로 천이하고, 끝일 경우 후처리 단계로 이동하는 제 3 단계와,
    상기 제 2 단계에서 검출한 전체 피치의 윤곽선에서 프레임별 피치 변화를 구하고 이들 피치 변화와 후보 피치를 이용하여 에러를 확인하고 피치를 보정하는 제 4 단계로 이루어진 것을 특징으로 하는 유성음 구간에서 프레임별 피치 검출 방법.
  2. 제 1 항에 있어서, 상기 제 1 단계는 한 프레임의 유성음 신호를 입력하는 단계와,
    상기 입력된 유성음 신호를 저역통과 필터로 약 500㎐ 이하 성분을 추출한 후 영교차점을 산출하는 단계와,
    상기 산출된 영교차점 구간별 면적을 신호의 국성에 따라 산출하는 단계와,
    상기 신호의 극성에 따라 산출된 영교차점 구간 + 극성의 면적과 - 면적의 절대치 합을 산출하는 단계와,
    상기 산출된 절대치의 합으로 진폭 변화 피크를 산출하고 분석 구간을 적응하는 단계로 이루어진것을 특징으로 하는 유성음 구간에서 프레임별 피치 검출 방법.
  3. 제 1항에 있어서, 상기 제 2 단계는 진폭변화 피크들의 유사도를 산출하여 두 피크의 간격에 따른 유사도 분포를 구하는 단계와,
    상기 유사도 분포 봉우리의 수가 6보다 작은지를 검사하는 단계와,
    상기 분포 봉오리 수의 검사 결과 6보다 크면 첫 번째 봉우리에 해당하는 거리보다 간격이 짧고 크기가 작은 피크를 제거한 후 진폭 변화 피크간의 유사도를 산출하는 단계로 천이하는 단계와,
    상기 분포 봉우리 수의 검사 결과 6보다 작으면 분포 봉우리 중에서 피치와 후보 피치를 구하는 단계로 이루어진 것을 특징으로 하는 유성음 구간에서 프레임별 피치 검출 방법.
  4. 제 1항에 있어서, 상기 제 4단계는 전체적인 피치의 윤곽선 상에서 프레임간 피치 변화도를 산출하는 단계와,
    상기 피치 변화도에서 안정 구간을 결정하는 단계와,
    상기 안정 구간을 중심으로 에러 발생 구간에서 후보 피치를 이용하여 에러를 복구하는 단계와,
    상기 에러 복구 과정에서 복구되지 않은 에러를 비선형 스므딩 처리하는 것을 특징으로 하는 유성음 구간에서 프레임별 피치 검출 방법.
  5. 제 2항에 있어서, 상기 분석 구간 적응은 산출된 진폭 변화 피크들의 수와 최대 크기의 진폭 변화 피크를 구하고 이 최대치의 약1/3이상이 되는 진폭 변화 피크들의 수가 최소 3보다 크고 최대 15보다 적도록 분석 구간을 재조정하는 것을 특징으로 하는 유성음 구간에서 프레임별 피치 검출 방법.
  6. 제 3 항에 있어서, 상기 피치 및 후보 피치는 산출된 유사도 분포 중에서 최대치의 분포 봉우리의 중심 거리를 피치로 하고 이 봉우리를 제외한 짧은 쪽과 긴 쪽에서 다시 최대치를 각각 구하여 후보 피치로 결정하는 것을 특징으로 하는 유성음 구간에서 프레임별 피치 검출 방법.
  7. 제 4 항에 있어서, 상기 피치 변화도는 음성 전체에 대한 프레임별 피치들 중에서 각 프레임 간의 피치 차이 값으로 산출하는 것을 특징으로 하는 유성음 구간에서 프레임별 피치 검출 방법.
  8. 제 4 항에 있어서, 상기 안정 구간은 피치 변화도에서 30 내지 50 프레임 중 피치 변화치가 1msec 이내로 연속되는 가장 긴 구간으로 결정되는 것을 특징으로 하는 유성음 구간에서 프레임별 피치 검출 방법.
  9. 제 4항에 있어서, 상기 후보 피치를 이용한 피치 수정은 인정 구간을 중심으로 피치 변화치가 1msec를 초과할 경우 현재의 피치와 후보 피치를 비교하여 예상되는 최적의 피치로 수정하는 것을 특징으로 하는 유성음 구간에서 프레임별 피치 검출 방법.
KR1019960055906A 1996-11-21 1996-11-21 유성음 구간에서 프레임별 피치 검출 방법 KR100194953B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960055906A KR100194953B1 (ko) 1996-11-21 1996-11-21 유성음 구간에서 프레임별 피치 검출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960055906A KR100194953B1 (ko) 1996-11-21 1996-11-21 유성음 구간에서 프레임별 피치 검출 방법

Publications (2)

Publication Number Publication Date
KR19980037190A true KR19980037190A (ko) 1998-08-05
KR100194953B1 KR100194953B1 (ko) 1999-06-15

Family

ID=66321436

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960055906A KR100194953B1 (ko) 1996-11-21 1996-11-21 유성음 구간에서 프레임별 피치 검출 방법

Country Status (1)

Country Link
KR (1) KR100194953B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100714535B1 (ko) * 2000-09-13 2007-05-07 가부시키가이샤 에이.지.아이 감정검출방법, 감성발생방법 및 그 장치 및 소프트웨어를 저장한 컴퓨터로 읽을 수 있는 기록매체
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
KR100827153B1 (ko) * 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
CN111833899A (zh) * 2020-07-27 2020-10-27 腾讯科技(深圳)有限公司 一种基于多音区的语音检测方法、相关装置及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100714535B1 (ko) * 2000-09-13 2007-05-07 가부시키가이샤 에이.지.아이 감정검출방법, 감성발생방법 및 그 장치 및 소프트웨어를 저장한 컴퓨터로 읽을 수 있는 기록매체
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
KR100827153B1 (ko) * 2006-04-17 2008-05-02 삼성전자주식회사 음성 신호의 유성음화 비율 검출 장치 및 방법
US7835905B2 (en) 2006-04-17 2010-11-16 Samsung Electronics Co., Ltd Apparatus and method for detecting degree of voicing of speech signal
CN111833899A (zh) * 2020-07-27 2020-10-27 腾讯科技(深圳)有限公司 一种基于多音区的语音检测方法、相关装置及存储介质
CN111833899B (zh) * 2020-07-27 2022-07-26 腾讯科技(深圳)有限公司 一种基于多音区的语音检测方法、相关装置及存储介质
US12051441B2 (en) 2020-07-27 2024-07-30 Tencent Technology (Shenzhen) Company Limited Multi-register-based speech detection method and related apparatus, and storage medium

Also Published As

Publication number Publication date
KR100194953B1 (ko) 1999-06-15

Similar Documents

Publication Publication Date Title
Drugman et al. Joint robust voicing detection and pitch estimation based on residual harmonics
KR100330230B1 (ko) 잡음 억제 방법 및 장치
Jouvet et al. Performance analysis of several pitch detection algorithms on simulated and real noisy speech data
Ying et al. A probabilistic approach to AMDF pitch detection
KR100653643B1 (ko) 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
KR100724736B1 (ko) 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
WO2001035389A1 (en) Tone features for speech recognition
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
JP4736632B2 (ja) ボーカル・フライ検出装置及びコンピュータプログラム
Friedman Pseudo-maximum-likelihood speech pitch extraction
Ishizuka et al. Study of noise robust voice activity detection based on periodic component to aperiodic component ratio.
Saratxaga et al. Using harmonic phase information to improve ASR rate.
US6470311B1 (en) Method and apparatus for determining pitch synchronous frames
Zhao et al. A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches
KR100194953B1 (ko) 유성음 구간에서 프레임별 피치 검출 방법
Liu et al. Pitch-synchronous linear prediction analysis of high-pitched speech using weighted short-time energy function
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
Zahorian et al. A spectral-temporal method for pitch tracking
KR0136608B1 (ko) 음성신호 검색용 음성인식 장치
Park et al. Pitch detection based on signal-to-noise-ratio estimation and compensation for continuous speech signal
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
Shah et al. A novel filtering-based F 0 estimation algorithm with an application to voice conversion
Chisaki et al. A pitch detection method based on continuous wavelet transform for harmonic signal
KR100526110B1 (ko) 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
KR100283604B1 (ko) 평탄화된 스펙트럼에서 유성-무성구간 분류방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080131

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee