KR100634526B1 - 포만트 트래킹 장치 및 방법 - Google Patents

포만트 트래킹 장치 및 방법 Download PDF

Info

Publication number
KR100634526B1
KR100634526B1 KR1020040097042A KR20040097042A KR100634526B1 KR 100634526 B1 KR100634526 B1 KR 100634526B1 KR 1020040097042 A KR1020040097042 A KR 1020040097042A KR 20040097042 A KR20040097042 A KR 20040097042A KR 100634526 B1 KR100634526 B1 KR 100634526B1
Authority
KR
South Korea
Prior art keywords
formant
segment
tracking
formants
frames
Prior art date
Application number
KR1020040097042A
Other languages
English (en)
Other versions
KR20060057853A (ko
Inventor
이영범
쉬얀얀
이재원
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020040097042A priority Critical patent/KR100634526B1/ko
Priority to US11/247,219 priority patent/US7756703B2/en
Publication of KR20060057853A publication Critical patent/KR20060057853A/ko
Application granted granted Critical
Publication of KR100634526B1 publication Critical patent/KR100634526B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Abstract

포만트 트래킹 장치 및 방법이 개시된다.본 발명에 따른 포만트 트래킹 장치는 입력 음성신호를 복수의 프레임으로 나누는 프레이밍부; 각 프레임에 대해 선형예측계수를 구하는 선형예측 분석부; 선형예측계수들을 복수의 세그먼트로 분할하는 분할부; 선형예측계수를 이용하여 포만트 후보들을 구하고 포만트 후보들을 세그먼트별로 합하여 각 세그먼트에 대한 포만트 후보들을 결정하는 포만트 후보 결정부; 포만트 후보들중 소정 조건을 만족하는 포만트들로부터 각 세그먼트별로 트래킹 포만트 개수를 결정하는 포만트 개수 결정부; 및 각 세그먼트에 속하는 포만트 후보들중에서 트래킹 포만트 개수만큼의 트래킹 포만트들을 찾는 트래킹부를 포함함을 특징으로한다.

Description

포만트 트래킹 장치 및 방법{Apparatus and method for tracking formants}
도 1은 본 발명에 따른 포만트 트래킹 장치에 대한 블록도이다.
도 2는 본 발명에 따른 포만트 트래킹 방법에 대한 흐름도이다.
본 발명은 포만트(formant) 트래킹 장치 및 방법에 관한 것으로, 특히 음성 뿐 만 아니라 성도(vocal track)를 통해 나오는 비음성 신호에 대해서도 포만트를 트래킹하는 장치 및 방법에 관한 것이다.
포만트는 임의의 음을 발성하기위하여 성도에서 공진이 일어나는 주파수를 말한다. 포만트 트래킹 방법에 대한 종래 기술로는 미국 특허 공보 US 6,629,068, US 4,817,155, US 6,041,296, 또는 US 4,424,415등이 있다.
이들 종래의 포만트 트래킹 방법은 크게 세가지로 나눌 수 있다.
첫째, 포만트를, 예를 들어 선형 예측 스펙트럼(linear prediction spectrum), FFT 스펙트럼, 피치(pitch)에 동기되는 FFT 스펙트럼 등과 같은 스펙트럼의 최대값을 나타내는 주파수로 간주하는 것이다. 이러한 방법은 구현하기가 비교적 간단하고 빨라서 실시간 처리가 가능하다. 둘째, 기준 포만트와 매칭하는 방 법이 있다. 정합은 음성 인식에서 주로 사용하는 것으로, 트래킹하고자하는 포만트와 가장 잘 매칭이 되는 기준 포만트를 찾는 것이다. 세째, 선형 예측 계수를 이용하여 선형 예측 다항식의 해를 구함으로써 포만트의 정확한 주파수와 대역폭을 구하는 것이다.
그러나 이들 방법들의 문제는 분석을 위한 음성구간(duration)이 짧기 때문에 포만트를 정의하는 스펙트럴의 피크가 그러한 짧은 음성구간동안 항상 명확하게 존재하는 것은 아니라는 것이다. 또한 고음(high pitched voice)은 피치 주파수와 포만트 주파수간의 혼동을 증가시킨다는 것이다. 즉. 고주파수는 조화 주파수들(harmonics)간에 포만트 공진의 스펙트럴 대역폭보다 큰 간격을 만들기때문에 피치 또는 피치의 조화 주파수들이 포만트로 오해될 수도 있다. 또한 비음(nasalized sound)의 경우에는 복잡하고 부가적인 공진 또는 반공진(anti-resonances)을 일으키는 문제점도 있다.
본 발명이 이루고자하는 기술적 과제는 프레임 단위의 음성신호를 세그먼트로 분할하고, 세그먼트별로 포만트 후보들을 결정하며, 포만트 후보들중 소정 조건을 만족하는 포만트 후보들에 대해서 트래킹하여 포만트를 트래킹하는 포만트 트래킹하는 장치 및 방법을 제공하는데 있다.
상기 기술적 과제를 이루기위한, 본 발명의 포만트 트래킹 장치는 입력 음성신호를 복수의 프레임으로 나누는 프레이밍부; 각 프레임에 대해 선형예측계수를 구하는 선형예측 분석부; 상기 선형예측계수들을 복수의 세그먼트로 분할하는 분할부; 상기 선형예측계수를 이용하여 포만트 후보들을 구하고 상기 포만트 후보들을 세그먼트별로 합하여 각 세그먼트에 대한 포만트 후보들을 결정하는 포만트 후보 결정부; 상기 포만트 후보들중 소정 조건을 만족하는 포만트들로부터 각 세그먼트별로 트래킹 포만트 개수를 결정하는 포만트 개수 결정부; 및 각 세그먼트에 속하는 포만트 후보들중에서 상기 트래킹 포만트 개수만큼의 트래킹 포만트들을 찾는 트래킹부를 포함함을 특징으로한다.
상기 기술적 과제를 이루기위한, 본 발명의 포만트 트래킹 방법은 입력 음성신호를 복수의 프레임으로 나누는 단계; 각 프레임에 대해 선형예측계수를 구하고, 상기 선형예측계수를 이용하여 포만트 후보들을 구하는 단계; 상기 선형예측계수를 복수의 세그먼트로 분할하는 단계; 각 세그먼트별로 상기 포만트 후보들을 합하여 세그먼트별 포만트 후보를 결정하는 단계; 상기 세그먼트별로 해당 포만트 후보들의 특성을 이용하여 트래킹 포만트의 개수를 결정하는 단계; 및 각 세그먼트별로 결정된 트래킹 포만트 개수만큼의 트래킹 포만트들을 찾는 단계를 포함함을 특징으로하는 포만트 트래킹 방법를 포함함을 특징으로한다.
이하에서 첨부된 도면을 참조하여 본 발명을 보다 상세하게 설명하기로한다.
도 1은 본 발명에 따른 포만트 트래킹 장치에 대한 블록도이다. 도 2는 본 발명에 따른 포만트 트래킹 방법에 대한 흐름도이다. 도 1 및 도 2를 참조하여 본 발명의 구성 및 동작을 상세히 설명하면 다음과 같다.
도 1에 따른 포만트 트래킹 장치는 프레이밍부(10), 선형예측(Linear Prediction, LP) 분석부(11), 분할부(12), 포만트 후보 결정부(13), 포만트 개수 결정부(14) 및 트래킹부(15)를 포함한다.
프레이밍부(10)는 입력 음성신호를 동일한 길이를 갖는 복수의 프레임으로 분할한다(20단계). 프레임 윈도우 크기는 20, 25 또는 30ms이고 10ms의 프레임 쉬프트(shift) 폭을 갖는다. 윈도우로는 해밍 윈도우(Hamming window), 사각 윈도우(square window) 등이 사용될 수 있고, 주로 해밍 윈도우가 사용된다.
LP분석부(11)는 프레이밍부(10)에서 출력되는 프레임에 대해 자기상관법(autocorrelation method) 등을 사용하여 행렬을 만들고, 행렬에 대해 더빈(Durbin) 알고리듬과 같은 회귀법(recursive method)을 사용하여 LP계수들을 계산한다(21단계). 선형예측방법은 주어진 시점에서의 음성신호를 과거의 음성신호를 선형 결합함으로써 예측하는 것으로, 선형예측에 사용되는 상기한 방법들은 음성 신호처리 분야에서 공지된 기술이므로 별도의 설명은 하지않기로 한다. 본 실시예에서 LP계수의 차수는 14차이다. 14차 LP계수라 함은 각 프레임별로 대부분 7개의 포만트 후보가 추정될 수 있음을 의미한다. 더 많은 포만트 후보가 필요하다면 더 큰 차수의 LP계수가 사용될 수도 있다. 그러나 본 실시예에서는 비명(scream)과 같이 많은 포만트가 필요한 소리에도 14차 LP계수 또는 7개의 포만트 후보만으로도 충분하다.
분할부(12)는 LP 분석부(11)에서 얻어진 LP 계수들 또는 LP 계수들의 직교변환(orthogonal transformation) 결과를 복수의 세그먼트들로 분할한다. 분할은, n 번째 세그먼트의 t번째 프레임에 대해 다음 식과 같이 특징벡터 xi에 대한 로그 우도(log-likelihood)로 표현되는 목적함수를 최대화하도록 이루어진다. 본 실시예에서 특징벡터 xi는 LP계수들이지만, 이에 한정되지는 않는다. LP계수들을 특징벡터로 사용한다면, LP분석부(11)에서 계산된 결과들을 그대로 사용하므로 부가적인 계산이 필요없다는 장점이 있다. 각 세그먼트에 대한 특징벡터는 가우시안 분포(Gaussian distribution)로 모델링된다.
여기서. lmin은 한 세그먼트의 최소 프레임 수, lmax는 한 세그먼트의 최대 프레임 수, uτ-t는 세그먼트에서 τ프레임으로부터 t프레임까지의 특징에 대한 평균, Σ는 전체 신호에 대한 특징의 대각 공분산(diagonal covariance)을 나타낸다.
또한, t는 세그먼트 n의 끝점(end-point) 프레임이고, t-lmax는 t프레임으로부터 lmax 개 프레임 이전에 해당하는 프레임을 말하고, t-lmin은 t프레임으로부터 lmin 개 프레임 이전에 해당하는 프레임을 말한다.
수학식 1에 따르면, 목적함수는 n개의 세그먼트의 시작에서부터 t프레임까지의 음성구간내에서 축적된 로그우도 함수를 누적한 결과가 최대화하도록 설정된다. 따라서 하나의 정적(static) 세그먼트에서의 특징분포는 하나의 가우시안 분포로 모델링된다. 세그먼트의 수와 각 세그먼트의 길이는 수학식 1에 대한 동적 프로그래밍(dynamic programming)에 의해 다음과 같은 목적함수에 대해 회귀적(recursive)으로 탐색될 수 있다.
초기화는
Figure 112004055110640-pat00002
와 같이 이루어진다.
입력 음성신호의 전체 프레임 수를 T라 하면, 세그먼트가 하나인 경우 수학식 1의 목적함수는 각 프레임에 대해
Figure 112004055110640-pat00003
로 구해진다.
n개 세그먼트로 분할된 경우, n번째 세그먼트에 대한 목적함수는 n번째 세그먼트의 시작인
Figure 112004055110640-pat00004
번째 프레임부터 T프레임에 대해
Figure 112004055110640-pat00005
와 같이 구해진다. 따라서 n은
Figure 112004055110640-pat00006
의 범위를 갖게된다.
이러한 동적 프로그래밍에 의한 분할은 이론적으로 세그먼트 우도(segment likihood)의 최대화를 기반으로하는 비지도 분할(unsupervised segmetation)에 대한 종료 기준이 있어야한다. 그렇지않으면 최상의 분할은 한 세그먼트당 하나의 프레임을 갖게된다. 따라서, 본 발명에서는 MDL(Minimum Description Length) 기준(criterion)을 사용하여 세그먼트 수를 다음 식과 같이 구할 수 있다.
Figure 112004055110640-pat00007
여기서, Dim(x)는 특징벡터의 차원(dimension)이다.
본 발명에서는 하나의 세그먼트에서 특징 분포의 단일 가우시안 모델링을 사용하였기 때문에 m(n)이 수학식 2와 같이 계산되는 것은 타당하다. 다른 모델링 방법이 사용되었다면 m(n)의 계산은 MDL 이론을 기반으로 모델 구조에 따라 달라진다. 여기서 다른 모델이라 함은, 예를 들어, AIC(Akaike Information Criteria), BIC(Baysian Information Criteria), 저 엔트로피 기준(low entropy criterion) 등이 있다. 수학식 2에 따라 N이 구해지면 입력 음성신호는 N개의 세그먼트로 분할된다.
포만트 후보 결정부(13)는 LP분석부(11)에서 출력되는 LP계수들로부터 얻어진 LP 다항식의 근을 구한다. LP 다항식의 근은 켤레 복소수로 나타나므로, 구해진 근에 대한 주파수 및 대역폭을 계산하여 포만트 후보를 출력한다. LP 다항식의 근을
Figure 112004055110640-pat00008
로 나타내면, b와 f는 각각 포만트 대역폭과 주파수를 나타낸다. 보다 상세히 설명하면, LP 다항식의 근은 음성을 발화한 화자의 성도 전달함수를 나타낸다. 포만트가 성도의 스펙트럼 피크 주파수와 거의 일치한다는 가정하에 스펙트럼의 피크 위치를 찾으면 포만트를 구할 수 있다. 상술한 바와 같이, 본 실시예에서는 14차 LP계수로부터 7개의 복소수 근을 얻을 수 있고, 따라서 7개의 포 만트 후보를 얻는다. 여기서 구해지는 포만트 후보는 프레임별로 얻어진다.
따라서 분할부(12)로부터 입력되는 세그먼트의 개수와 길이에 따라 각 프레임에 대해 얻어진 포만트 후보들을 각 세그먼트별로 합하여 각 세그먼트에 대한 포만트 후보를 결정한다(22단계).
포만트 개수 결정부(14)는 포만트 후보 결정부(13)에서 결정된 세그먼트별 포만트 후보들중에서 다음 식에 따라 트래킹할 포만트의 개수 Nfm를 결정한다(23단계).
Figure 112004055110640-pat00009
여기서, f(t,i)는 t프레임의 포만트 주파수, b(t,i)는 t프레임의 i번째 포만트 대역폭이고,
Figure 112004055110640-pat00010
는 어떤 포만트 주파수에서 대역폭이 임계치 TH, 예를 들어 600Hz보다 작은 포만트들의 개수를 나타낸다.
수학식 3에 따르면 한 프레임에서 트래킹할 트래킹 포만트 개수는 TH보다 작은 대역폭을 갖는 포만트의 평균 개수로 결정된다. 따라서, 각 세그먼트별 트래킹 포만트 개수는 해당 세그먼트에 포함되는 프레임들에 대한 트래킹 포만트 개수를 합한 것이 되고, 트래킹 포만트 개수는 세그먼트별로 달라진다.
이러한 결정은, 수학식 3에 따라 결정된 트래킹 포만트 개수가 사람이 포만트 트랙(formant track)에 대한 그래프를 검사하여 얻은 트래킹 포만트 개수와 동 일하다는 점에서 매우 효과적이다.
트래킹부(14)는 각 세그먼트에 대해 포만트 개수 결정부(14)에서 결정된 개수만큼의 포만트들을 해당 세그먼트에 속하는 포만트 후보들중에서 선택하기위해서 동적 프로그래밍 알고리듬에 따라 트래킹한다(24단계).
여기서 사용되는 동적 프로그래밍 알고리듬의 적용을 위한 목적함수는 분할부(12)에서 사용되는 동적 프로그래밍 알고리듬의 경우와 유사하다.
Figure 112004055110640-pat00011
여기서, j는 t 프레임에서 수학식 3에 따라 결정된 S개의 포만트 세트이고, i는 포만트 세트의 순서이다.
특징 x는 선택된 포만트의 선택주파수, 델타 주파수, 대역폭 및 델타 대역폭이며, 따라서 특징벡터의 차원은 4*S이다. 각 델타값들은 이전 프레임과 현재 프래임간의 차를 나타낸다.
특징 분포는 각 세그먼트별로 단일 가우시안 분포로 모델링된다. 먼저 특징 분포의 평균과 대각 분산이 초기화된다. 본 실시예에서 S개의 포만트 트랙들에 대한 주파수 평균을 제외한 나머지 초기화 값은 다음과 같다:
주파수의 표준 편차=500 Hz
대역폭의 평균=100Hz
대역폭의 표준편차=100Hz
델타 주파수의 평균=0Hz
델타 주파수의 표준 편차=100Hz
델타 대역폭의 평균=0Hz
델타 대역폭의 표준편차=100Hz
이들의 초기값들은 다른 값들로 초기화될 수도 있으며, 포만트 트래킹 성능에 큰 영향을 미치지않는다.
그러나 S개의 포만트 트랙들의 평균의 초기화 값은 다른 방식으로 계산된다. 먼저 신호의 전체 주파수 대역폭을 500Hz 단위로 분할한다. 예를 들어 샘플링률(sampling rate)이 16000Hz라면, 대역폭은 80/5, 즉 16개의 빈(bin)으로 분할되고 각 빈은 500Hz의 대역폭을 갖는다. 여기서, 500Hz는 두 포만트 트랙의 중심 주파수 사이의 초기화 간격으로서는 적절한 값이다.
세그먼트의 포만트 후보들의 히스토그램은 포만트 후보들의 대역폭에 따라, 즉 그 대역폭이 임계치인 600Hz보다 좁은 포만트 주파수만이 해당 빈에 속하는 것으로 카운트된다. 여기서 임계치는 포만트 개수 결정부(14)에서 포만트 트랙의 개수를 결정하기위해 사용되는 임계 대역폭을 말한다. 암계치를 사용하여 히스토그램 빈에서 카운트된 포만트 후보들을 제한하는 것은 넓은 대역폭을 갖는 후보들의 영향을 줄이기위해서이다. 이러한 넓은 대역폭을 갖는 후보들은 상대적으로 좁은 대역폭을 갖는 후보들보다 양적으로 많지만, 좁은 대역폭의 주파수가 찾고자하는 포만트가 된다. 따라서 넓은 대역폭을 갖는 후보들은 제외된다.
이와같이 최다 카운트를 갖는 후보들중 S개의 빈을 선택하고, 선택된 S개의 빈의 포만트 주파수의 평균을 S개의 포만트 주파수의 평균값으로 초기화한다. 보다 간단하게 설명하면, S개의 포만트 트랙의 포만트 주파수의 평균은 히스토그램에서 주파수 분포를 카운트함으로써 초기화된다. 이와같은 초기화의 이유는 다음과 같다. 각 세그먼트에서 수행되는 포만트의 트래킹은 보통 충분하지않은 데이터를 갖고 수행된다. 따라서 데이터가 충분한 상황과 비교해보면 포만트 트랙의 주파수 평균값의 초기화 값은 최종 수렴속도에 영향을 많이 미친다. 즉, 대부분의 최종의 안정화된 주파수 트랙은 초기화 값에 가까운 평탄한(smooth) 트랙이다. 따라서 트랙들의 평균을 좁은 대역폭을 갖는 트랙들의 평균으로 초기화한다. 실험 결과들에 따르면, 상술한 바와 같은 초기화가 포만트 주파수의 평균을 랜덤하게 또는 고정된 값으로 초기화하는 것보다 좋은 성능을 보인다. 그 이유는 비음성 포만트들은 음성 포만트들과 특성이 다르기 때문이고, 본 발명에 의한 초기화가 다양한 주파수 범위의 포만트들에 대해 강건하기 때문이다. 초기화 이후 한번의 동적 프로그래밍에 따른 트래킹이 완료될 때마다 가우시안 파라미터들은 갱신된다.
이 트래킹 과정을 간단하게 설명하면, 먼저 가우시안 파라미터들을 초기화하고, 로그 우도를 기반으로하는 동적 프로그래밍 트래킹을 수행하여 각 세그먼트에 속하는 프레임들의 포만트들로부터 S개의 포만트를 선택하며, 선택된 포만트 트랙 데이터들로부터 가우시안 파라미터들, 즉 특징벡터들의 평균과 공분산을 갱신한다. 포만트의 트래킹이 안정화될 때까지 트래킹과 추정과정이 반복 수행된다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시 스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
본 발명에 따르면, LP계수들을 복수의 세그먼트로 분할하고, 각 세그먼트별로 포만트 개수를 결정하며 각 세그먼트를 구성하는 프레임들의 포만트들중에서 일부를 선택하여 트래킹함으로써 수행속도가 빠르고, 다양한 주파수 범위의 포만트들에 대해 강건하다.

Claims (16)

  1. 입력 음성신호를 복수의 프레임으로 나누는 프레이밍부;
    각 프레임에 대해 선형예측계수를 구하는 선형예측 분석부;
    상기 선형예측계수들을 복수의 세그먼트로 분할하는 분할부;
    상기 선형예측계수를 이용하여 포만트 후보들을 구하고 상기 포만트 후보들을 상기 각 세그먼트별로 합하여 각 세그먼트에 대한 포만트 후보들을 결정하는 포 만트 후보 결정부;
    상기 포만트 후보들중 소정 조건을 만족하는 포만트들로부터 상기 각 세그먼트별로 트래킹 포만트 개수를 결정하는 포만트 개수 결정부; 및
    상기 각 세그먼트에 속하는 포만트 후보들중에서 상기 트래킹 포만트 개수만큼의 트래킹 포만트들을 찾는 트래킹부를 포함함을 특징으로하는 포만트 트래킹 장치.
  2. 제1항에 있어서, 상기 분할부는
    소정 프레임들에 속한 선형예측계수들의 분포함수로 이루어진 목적함수를 최대화하도록 세그먼트의 개수와 각 세그먼트의 음성구간을 결정하는 것을 특징으로하는 포만트 트래킹 장치.
  3. 제2항에 있어서, 상기 세그먼트의 개수 n은
    T가 상기 입력 음성신호의 전체 프레임 수이고, lmin이 한 세그먼트의 최소 프레임 수일 때,
    Figure 112006035493330-pat00012
    의 범위에서 결정되는 것을 특징으로하는 포만트 트래킹 장치.
  4. 제2항에 있어서, 상기 세그먼트의 개수 N는 다음 식
    [수학식]
    Figure 112004055110640-pat00013
    여기서, Dim(x)는 특징벡터의 차원, n은 세그먼트 순서, T는 상기 입력 음성신호에 대한 전체 프레임 수, Φ(T, n)은 n번째 세그먼트의 T번째 프레임에 대한 목적함수
    에 의해 구하는 것을 특징으로하는 포만트 트래킹 장치.
  5. 제1항에 있어서, 상기 트래킹 포만트의 개수를 결정하는 조건은
    상기 포만트 후보들중에서 대역폭이 소정 값이하인 포만트들의 개수를 전체 프레임 수에 대해 평균하여 결정하는 것을 특징으로하는 포만트 트래킹 장치.
  6. 제1항에 있어서, 상기 트래킹부는
    각 세그먼트에 속하는 포만트 후보들중에서 상기 트래킹 포만트의 개수만큼의 포만트들의 특징벡터들에 대한 분포함수로 이루어진 목적함수를 최대화하는 포만트 세트를 찾는 것을 특징으로하는 포만트 트래킹 장치.
  7. 입력 음성신호를 복수의 프레임으로 나누는 단계;
    각 프레임에 대해 선형예측계수를 구하고, 상기 선형예측계수를 이용하여 포 만트 후보들을 구하는 단계;
    상기 선형예측계수를 복수의 세그먼트로 분할하는 단계;
    각 세그먼트별로 상기 포만트 후보들을 합하여 세그먼트별 포만트 후보를 결정하는 단계;
    상기 세그먼트별로 해당 포만트 후보들의 특성을 이용하여 트래킹 포만트의 개수를 결정하는 단계; 및
    각 세그먼트별로 결정된 트래킹 포만트 개수만큼의 트래킹 포만트들을 찾는 단계를 포함함을 특징으로하는 포만트 트래킹 방법.
  8. 제7항에 있어서, 상기 복수의 세그먼트로 분할하는 단계는
    소정 프레임들에 속한 선형예측계수들의 분포함수로 이루어진 목적함수를 최대화하도록 세그먼트의 개수와 각 세그먼트의 음성구간을 결정함을 특징으로하는 포만트 트래킹 방법.
  9. 제8항에 있어서, 상기 소정 프레임들은
    t가 현재 프레임일 때,
    Figure 112004055110640-pat00014
    여기서, lmax는 한 세그먼트의 최대 프레임수, lmin은 한 세그먼트의 최소 프레임수
    의 범위에 속하는 프레임들임을 특징으로하는 포만트 트래킹 방법.
  10. 제9항에 있어서, 상기 분포함수는
    τ부터 t프레임까지의 상기 선형예측계수들을 평균으로하고, 상기 입력 음성신호에 대한 공분산을 분산으로하는 상기 선형예측계수들에 대한 가우시안 분포함수임을 특징으로하는 포만트 트래킹 방법.
  11. 제10항에 있어서, 상기 세그먼트의 개수 n은
    T가 상기 입력 음성신호의 전체 프레임 수일 때,
    Figure 112004055110640-pat00015
    의 범위에서 결정되는 것을 특징으로하는 포만트 트래킹 방법.
  12. 제8항에 있어서, 상기 세그먼트의 개수 N는 다음 식
    [수학식]
    Figure 112004055110640-pat00016
    여기서, Dim(x)는 특징벡터의 차원, n은 세그먼트 순서, T는 상기 입력 음성신호에 대한 전체 프레임 수, Φ(T, n)은 n번째 세그먼트의 T번째 프레임에 대한 목적함수
    에 의해 구하는 것을 특징으로하는 포만트 트래킹 방법.
  13. 제7항에 있어서, 상기 포만트들의 개수를 결정하는 조건은
    상기 포만트 후보들중에서 대역폭이 소정 값이하인 포만트들의 개수를 전체 프레임 수에 대해 평균하여 결정하는 것을 특징으로하는 포만트 트래킹 방법.
  14. 제7항에 있어서, 상기 포만트들을 찾는 단계는
    각 세그먼트에 속하는 포만트 후보들중에서 상기 트래킹 포만트의 개수만큼의 포만트들의 특징벡터들에 대한 분포함수로 이루어진 목적함수를 최대화하는 포만트 세트를 찾는 것을 특징으로하는 포만트 트래킹 방법.
  15. 제14항에 있어서, 상기 포만트들의 특징벡터는
    선택된 포만트의 선택주파수, 현재 프레임과 이전 프레임의 포만트 주파수들간의 차인 델타 주파수, 대역폭 및 현재 프레임과 이전 프레임의 대역폭간의 차인 델타 대역폭임을 특징으로하는 포만트 트래킹 방법.
  16. 입력 음성신호를 복수의 프레임으로 나누는 단계;
    각 프레임에 대해 선형예측계수를 구하고, 상기 선형예측계수를 이용하여 포만트 후보들을 구하는 단계;
    상기 선형예측계수를 복수의 세그먼트로 분할하는 단계;
    각 세그먼트별로 상기 포만트 후보들을 합하여 세그먼트별 포만트 후보를 결정하는 단계;
    상기 세그먼트별로 해당 포만트 후보들의 특성을 이용하여 트래킹 포만트의 개수를 결정하는 단계; 및
    각 세그먼트별로 결정된 트래킹 포만트 개수만큼의 포만트들을 찾는 단계를 포함함을 특징으로하는 포만트 트래킹 방법을 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020040097042A 2004-11-24 2004-11-24 포만트 트래킹 장치 및 방법 KR100634526B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020040097042A KR100634526B1 (ko) 2004-11-24 2004-11-24 포만트 트래킹 장치 및 방법
US11/247,219 US7756703B2 (en) 2004-11-24 2005-10-12 Formant tracking apparatus and formant tracking method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040097042A KR100634526B1 (ko) 2004-11-24 2004-11-24 포만트 트래킹 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20060057853A KR20060057853A (ko) 2006-05-29
KR100634526B1 true KR100634526B1 (ko) 2006-10-16

Family

ID=36461993

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040097042A KR100634526B1 (ko) 2004-11-24 2004-11-24 포만트 트래킹 장치 및 방법

Country Status (2)

Country Link
US (1) US7756703B2 (ko)
KR (1) KR100634526B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
US7653535B2 (en) * 2005-12-15 2010-01-26 Microsoft Corporation Learning statistically characterized resonance targets in a hidden trajectory model
EP1930879B1 (en) * 2006-09-29 2009-07-29 Honda Research Institute Europe GmbH Joint estimation of formant trajectories via bayesian techniques and adaptive segmentation
JP2012503212A (ja) * 2008-09-19 2012-02-02 ニューサウス イノベーションズ ピーティーワイ リミテッド オーディオ信号分析方法
US9311929B2 (en) * 2009-12-01 2016-04-12 Eliza Corporation Digital processor based complex acoustic resonance digital speech analysis system
US8311812B2 (en) * 2009-12-01 2012-11-13 Eliza Corporation Fast and accurate extraction of formants for speech recognition using a plurality of complex filters in parallel
JP6312014B1 (ja) * 2017-08-28 2018-04-18 パナソニックIpマネジメント株式会社 認知機能評価装置、認知機能評価システム、認知機能評価方法及びプログラム
CN108922516B (zh) * 2018-06-29 2020-11-06 北京语言大学 检测调域值的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6289305B1 (en) 1992-02-07 2001-09-11 Televerket Method for analyzing speech involving detecting the formants by division into time frames using linear prediction

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4424415A (en) * 1981-08-03 1984-01-03 Texas Instruments Incorporated Formant tracker
CA1250368A (en) * 1985-05-28 1989-02-21 Tetsu Taguchi Formant extractor
US4882758A (en) * 1986-10-23 1989-11-21 Matsushita Electric Industrial Co., Ltd. Method for extracting formant frequencies
NL8603163A (nl) * 1986-12-12 1988-07-01 Philips Nv Werkwijze en inrichting voor het afleiden van formantfrekwenties uit een gedeelte van een spraaksignaal.
US6618699B1 (en) * 1999-08-30 2003-09-09 Lucent Technologies Inc. Formant tracking based on phoneme information
US6505152B1 (en) * 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
US7424423B2 (en) * 2003-04-01 2008-09-09 Microsoft Corporation Method and apparatus for formant tracking using a residual model
US7643989B2 (en) * 2003-08-29 2010-01-05 Microsoft Corporation Method and apparatus for vocal tract resonance tracking using nonlinear predictor and target-guided temporal restraint

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6289305B1 (en) 1992-02-07 2001-09-11 Televerket Method for analyzing speech involving detecting the formants by division into time frames using linear prediction

Also Published As

Publication number Publication date
KR20060057853A (ko) 2006-05-29
US7756703B2 (en) 2010-07-13
US20060111898A1 (en) 2006-05-25

Similar Documents

Publication Publication Date Title
EP3479377B1 (en) Speech recognition
US7263485B2 (en) Robust detection and classification of objects in audio using limited training data
US9830896B2 (en) Audio processing method and audio processing apparatus, and training method
US7567900B2 (en) Harmonic structure based acoustic speech interval detection method and device
JP2597791B2 (ja) 音声認識装置及び方法
US7904295B2 (en) Method for automatic speaker recognition with hurst parameter based features and method for speaker classification based on fractional brownian motion classifiers
JP4738697B2 (ja) 音声認識システムのための分割アプローチ
US7756703B2 (en) Formant tracking apparatus and formant tracking method
EP1465154B1 (en) Method of speech recognition using variational inference with switching state space models
Wu et al. Multiple change-point audio segmentation and classification using an MDL-based Gaussian model
EP1511007B1 (en) Vocal tract resonance tracking using a target-guided constraint
US6920424B2 (en) Determination and use of spectral peak information and incremental information in pattern recognition
CN109300470B (zh) 混音分离方法和混音分离装置
US6934681B1 (en) Speaker's voice recognition system, method and recording medium using two dimensional frequency expansion coefficients
Schwartz et al. The application of probability density estimation to text-independent speaker identification
Heitkaemper et al. Statistical and neural network based speech activity detection in non-stationary acoustic environments
Quast et al. Robust pitch tracking in the car environment
JPS60200300A (ja) 音声の始端・終端検出装置
KR101460059B1 (ko) 잡음 검출 방법 및 장치
KR20050050533A (ko) 구분 선형 근사들을 사용하는 연속 값의 성도 공명 추적방법 및 장치
Cipli et al. Multi-class acoustic event classification of hydrophone data
Arslan et al. Noise robust voice activity detection based on multi-layer feed-forward neural network
Kotti et al. Automatic speaker change detection with the Bayesian information criterion using MPEG-7 features and a fusion scheme
Abdolali et al. A novel method for speech segmentation based on speakers' characteristics
US20220199074A1 (en) A dialog detector

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120914

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130924

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee