KR20110010243A

KR20110010243A - 음성의 음소간 경계 탐색 시스템 및 그 방법

Info

Publication number: KR20110010243A
Application number: KR1020090067695A
Authority: KR
Inventors: 육동석; 조선호
Original assignee: 고려대학교 산학협력단
Priority date: 2009-07-24
Filing date: 2009-07-24
Publication date: 2011-02-01

Abstract

본 발명은 음성의 음소간 경계를 탐색할 수 있는 시스템에 관한 것으로, 본 명세서에서 개시하는 음소간 경계 탐색 시스템은 발화자(speaker)로부터의 입력 음성을 소정 시간길이를 갖는 단위 프레임(frame)들로 분할하는 입력 음성 분할부; 상기 분할된 각 단위 프레임의 확률 분포 함수를 추정하는 확률 분포 함수 추정부; 및 상기 추정된 각 단위 프레임의 확률 분포 함수를 근거로 상기 분할된 프레임들을 클러스터링하여 상기 입력 음성의 음소간 경계를 추출하는 경계 추출부를 포함하여 본 시스템 발명의 과제를 해결한다.

본 발명에 의하면, BIC 스코어에 기반하여 프레임 클러스터링을 수행하므로 입력 음성의 음소열에 관한 텍스트 정보 내지 음소 인식 모델(학습 데이터) 등이 없이도 음소간 경계를 탐색할 수 있다. 아울러 음소간 경계의 탐색은 BIC 스코어만 있으면 이루어질 수 있으므로 매우 간단한 계산만으로 음소간 경계를 탐색할 수 있다. 따라서 음성 인식을 위한 계산량 및 처리 시간의 감소를 꾀할 수 있으며, 이를 통해 음성 인식에 기반한 여러 애플리케이션의 개발 및 확대 적용이 더 활성화될 수 있다. 특히 인간이 발화한 음성을 기반으로 실시간 처리가 요구되는 분야에서는 상기한 효과가 더욱 크게 발휘될 것으로 예상된다.

Description

음성의 음소간 경계 탐색 시스템 및 그 방법{System and Method for searching phoneme boundaries}

본 발명은 음성의 음소간 경계 탐색 시스템 및 그 방법에 관한 것으로, 보다 상세하게는 발화자(speaker)의 음성을 구성하는 음소열(phoneme string)에서 음소간의 경계를 탐색할 수 있는 시스템 및 그 방법에 관한 것이며, 특히 발화된 음성의 음소열에 관한 텍스트 정보 내지 음소 인식을 위한 소정의 모델(학습 데이터) 등이 없어도 음소간의 경계를 탐색할 수 있는 시스템 및 그 방법에 관한 것이다.

음성 인식 기술(Speech Recognition)이 근래에 각광을 받고 있다. 음성 인식 기술은 인간의 음성을 음성 인식 모듈이 내장된 컴퓨터가 분석해 이를 인식 또는 이해하는 기술인데, 발음에 따라 입 모양과 혀의 위치 변화로 특정한 주파수를 갖는 인간의 음성을 이용, 발성된 음성을 전기신호로 변환한 후 음성신호의 주파수 특성을 추출해 발음을 인식하는 기술이다. 최근에는 이와 같은 음성 인식 기술이 전화 다이얼링, 장난감 제어, 어학학습 또는 가전기기 제어 등과 같은 다양한 분야에 응용되고 있는데, 이는 인간과 컴퓨터간의 인터페이스가 인간의 음성에 의하는 것이 가장 자연스럽고 편리하게 이루어질 수 있기 때문이다.

음성 인식을 위해서는 음성 인식 모듈이 내장된 컴퓨터에 입력되는 발화된 음성(입력 음성)에 대한 분석이 전제되는데, 그 분석 방안 중 하나로서 입력 음성을 구성하는 음소열(phoneme string)로부터 음소간 경계를 탐색하여 여러 소정의 처리를 하는 방안이 있다.

이때 음소간 경계를 탐색함에 있어서 현재 Viterbi segmentation 방안이 가장 널리 사용되고 있다. 그러나 본 방안은 입력 음성이 정확히 발음된 경우이어야 하고 아울러 발화된 음성의 음소열에 관한 텍스트 정보가 반드시 필요하므로, 입력 음성이 이러한 조건을 갖추지 아니하고 있는 경우에는 음소간 경계 탐색 자체가 원천적으로 불가능하고 결국에는 궁극적인 목적인 음성 인식을 할 수 없는 문제가 있다.

그리고 다른 방안들도 음소의 인식 내지 음소간 경계를 검출하기 위한 소정의 음소 모델(미리 정의된 확률 모델로 예를 들어 HMM(Hidden Markov Model)), 음소데이터베이스 등을 미리 구비하여야 하는데, 발화 환경에 따라 인식 결과가 매우 상이하므로 신뢰성이 떨어지며, 이러한 모델을 구축하기 위한 수많은 학습 데이터가 요구되므로 시간 및 비용 측면에서 치명적인 문제를 내포하고 있다.

본 발명은 상기와 같은 문제점을 인식하여 창안된 것으로, 본 발명이 해결하고자하는 과제는 입력 음성을 구성하는 음소열에 관한 텍스트 정보, 음소 모델(학습 데이터) 등이 없어도 음소간의 경계를 탐색할 수 있는 시스템 및 그 방법을 제 공하는 것이다.

상기와 같은 과제를 해결하기 위해 본 명세서에서 개시하는 음소간 경계 탐색 시스템은

발화자(speaker)로부터의 입력 음성을 소정 시간길이를 갖는 단위 프레임(frame)들로 분할하는 입력 음성 분할부; 상기 분할된 각 단위 프레임의 확률 분포 함수를 추정하는 확률 분포 함수 추정부; 및 상기 추정된 각 단위 프레임의 확률 분포 함수를 근거로 상기 분할된 단위 프레임들을 클러스터링하여 상기 입력 음성의 음소간 경계를 추출하는 경계 추출부를 포함하여 본 시스템 발명의 과제를 해결한다.

상기 경계 추출부는 상기 추정된 각 단위 프레임의 확률 분포 함수를 근거로 상기 분할된 각 단위 프레임에 BIC(Bayesian Information Criterion) 스코어를 부여하는 BIC 스코어 부여부; 및 상기 분할된 단위 프레임들을 상기 BIC 스코어에 근간하여 클러스터링하여 상기 입력 음성의 음소간 경계를 확정하는 클러스터링 부를 포함하여 구현됨이 본 시스템 발명의 과제를 해결함에 바람직하다.

상기 클러스터링 부는 상기 분할된 단위 프레임들 중 일 프레임의 BIC 스코어[BIC(1)]와 상기 일 프레임의 다음 순번 단위 프레임의 BIC 스코어[BIC(2)]의 합산치[BIC(1)+BIC(2)]가 상기 일 프레임과 상기 다음 순번 단위 프레임을 같이 고려한 BIC 스코어[BIC(1+2)]보다 큰 경우에는 상기 일 프레임과 상기 다음 순번 단위 프레임을 별개의 클러스터로 클러스터링하여 상기 일 프레임과 상기 다음 순번 단 위 프레임이 서로 별개의 음소임을 확정하고, 상기 합산치가 상기 BIC(1+2)보다 작은 경우에는 상기 일 프레임과 상기 다음 순번 단위 프레임을 같은 클러스터로 클러스터링하여 상기 일 프레임과 상기 다음 순번 단위 프레임이 동일 음소임을 확정하도록 함이 본 시스템 발명의 과제를 해결함에 바람직하다.

상기와 같은 과제를 해결하기 위해 본 명세서에서 개시하는 음소간 경계 탐색 방법은

(a)발화자(speaker)로부터의 입력 음성을 소정 시간길이를 갖는 단위 프레임(frame)들로 분할하는 단계; (b)상기 분할된 각 단위 프레임의 확률 분포 함수를 추정하는 단계; 및 (c)상기 추정된 각 단위 프레임의 확률 분포 함수를 근거로 상기 분할된 프레임들을 클러스터링하여 상기 입력 음성의 음소간 경계를 추출하는 단계를 포함하여 본 방법 발명의 과제를 해결한다.

상기 경계를 추출하는 단계는 상기 추정된 각 단위 프레임의 확률 분포 함수를 근거로 상기 분할된 각 단위 프레임에 BIC(Bayesian Information Criterion) 스코어를 부여하는 단계; 및 상기 분할된 단위 프레임들을 상기 BIC 스코어에 근간하여 클러스터링하여 상기 입력 음성의 음소간 경계를 확정하는 단계를 포함하여 구현됨이 본 방법 발명의 과제를 해결함에 바람직하다.

상기 경계를 확정하는 단계는 상기 분할된 단위 프레임들 중 일 프레임의 BIC 스코어[BIC(1)]와 상기 일 프레임의 다음 순번 단위 프레임의 BIC 스코어[BIC(2)]의 합산치[BIC(1)+BIC(2)]와 상기 일 프레임과 상기 다음 순번 단위 프레임을 같이 고려한 BIC 스코어[BIC(1+2)]를 비교하는 단계; 상기 비교 결과 상기 합산치가 큰 경우에는, 상기 일 프레임과 상기 다음 순번 단위 프레임을 별개의 클러스터로 클러스터링하여 상기 일 프레임과 상기 다음 순번 단위 프레임이 서로 별개의 음소임을 확정하는 단계; 및 상기 비교 결과 상기 합산치가 작은 경우에는, 상기 일 프레임과 상기 다음 순번 단위 프레임을 같은 클러스터로 클러스터링하여 상기 일 프레임과 상기 다음 순번 단위 프레임이 동일 음소임을 확정하는 단계를 포함하여 구현됨이 본 방법 발명의 과제를 해결함에 바람직하다.

본 발명에 의하면, BIC 스코어에 기반하여 프레임 클러스터링(음소 경계 탐색)을 수행하므로 입력 음성의 음소열에 관한 텍스트 정보 내지 음소 인식 모델(학습 데이터) 등이 없이도 음소간 경계를 탐색할 수 있다. 아울러 음소간 경계의 탐색은 BIC 스코어만 있으면 이루어질 수 있으므로 매우 간단한 계산만으로 음소간 경계를 탐색할 수 있다.

따라서 음성 인식을 위한 계산량 및 처리 시간의 획기적 감소를 기할 수 있으며, 이를 통해 음성 인식에 기반한 여러 애플리케이션의 개발 및 확대 적용이 더 활성화될 수 있다. 특히 인간이 발화한 음성을 기반으로 실시간 처리가 요구되는 분야에서는 이러한 효과가 더욱 크게 발휘될 것으로 예상된다.

애플리케이션의 한 예를 들어보면 음소열의 시간 정보는 언어 학습자에게 자신이 발화한 음성을 시각적으로 보여줌으로써, 언어 학습시 발음 교정에 사용할 수 있다. 이러한 컴퓨터 보조 언어 학습기는 표준어 학습, 외국어 학습, 또 청각 장애자의 언어 학습 등에 활용될 수 있다.

본 발명에 관한 구체적인 내용의 설명에 앞서 이해의 편의를 위해 본 발명이 해결하고자 하는 과제의 해결 방안의 개요를 우선 제시한다.

음성 인식 처리는 상기한 바와 같이 음성 인식 모듈을 구비한 컴퓨터에 의해 입력 음성이 소정의 단위(예를 들어 음소 단위)로 분할되며, 분할된 단위로 소정의 처리를 거쳐 입력 음성에 대한 인식 처리가 이루어지게 된다. 이때 기존의 통상적인 음성 인식 처리는 음성 인식을 위한 모델(학습 데이터)을 구축하여 이 모델에 기반하여 상기 소정의 단위를 텍스트로 변환하고, TTS(Text To Speech) 시스템을 통해 상기 텍스트를 음성으로 합성하여 음성 인식이 이루어지게 된다.

텍스트로의 변환 과정과 텍스트를 음성으로 합성하기 위해 요구되는 TTS의 구축 및 음성 인식을 위한 모델(학습 데이터) 및 데이터베이스의 구축은 음성 인식 모듈의 부하를 증가시키며, 이는 현재의 시점에서 음성 인식 기술의 활용성 확대에 장애 사항으로 작용할 수 있는 요소이다. 따라서 이러한 텍스트 내지는 모델(학습 데이터) 등이 없이도 음소 단위로 분할된 입력 음성에 대한 소정의 처리를 할 수 있도록 음소간 경계의 탐색을 가능하게 하는 것이 본 발명이 해결하고자 하는 과제의 해결 방안의 개요이다.

이하, 본 발명이 해결하고자 하는 과제의 해결 방안을 명확하게 하기 위한 발명의 구성을 본 발명의 바람직한 실시예에 근거하여 첨부 도면을 참조하여 상세히 설명하되, 도면의 구성요소들에 참조번호를 부여함에 있어서 동일 구성요소에 대해서는 비록 다른 도면상에 있더라도 동일 참조번호를 부여하였으며 당해 도면에 대한 설명시 필요한 경우 다른 도면의 구성요소를 인용할 수 있음을 미리 밝혀둔다. 아울러 본 발명과 관련된 공지 기능 혹은 구성에 대한 구체적인 설명 그리고 그 이외의 제반 사항이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.

도 1은 본 시스템 발명의 바람직한 일 구성을, 도 2는 본 방법 발명의 바람직한 일 흐름을 제시한 도면이다.

입력 음성 분할부(11)는 A/D 변환된 발화자로부터의 입력 음성을 소정 시간길이를 갖는 단위 프레임(frame)들로 분할하는(s21) 기능을 수행하는 부분으로, 이때 소정 시간길이는 입력 음성의 크기 등 여러 환경에 따라 달라질 수 있다. 본 발명은 입력 음성을 구성하는 음소열에서 음소간 경계를 탐색하는 것이 그 목적이고, 각 음소의 발음이 지속되는 시간은 통상 1[msec] 안팎이므로 본 발명에서는 1[msec] 시간 길이를 갖는 단위 프레임들로 입력 음성을 분할한다.

확률 분포 함수 추정부(12)는 분할된 각 단위 프레임의 확률 분포 함수를 추정하는(s22) 기능을 수행하는 부분이다.

확률 분포 함수(probability density function: PDF)를 추정한다는 의미는 MFC(Mel-frequency cepstrum)를 구성하는 각 프레임의 MFCC(Mel-frequency cepstrum coefficients)의 평균(mean)과 공분산(co-variance) 벡터가 어떤 확률 분포 함수(Gaussian PDF)를 따르는 것으로 추정한다는 의미이다. 음성인식 기술에서는 통상적으로 MFCC의 평균과 공분산이 가우시안 PDF(Gaussian PDF)를 따른다고 추정하고 있으며, 실제로 가우시안 PDF로 추정하면 음성 인식의 정확도가 매우 높은 것으로 알려져 있다. 그러나 본 발명에서는 반드시 가우시안 PDF를 따른다고 추정할 필요는 없으며, 다른 PDF를 따르는 것으로 추정해도 본 발명의 목적을 달성하는데 아무런 지장이 없다.

경계 추출부(13)는 추정된 각 단위 프레임의 확률 분포 함수를 근거로 분할된 단위 프레임들을 클러스터링하여 입력 음성의 음소간 경계를 추출한다(s23). 본 발명에서의 경계 추출부(13)는 BIC 스코어 부여부(131) 및 클러스터링 부(132)를 통해 음소간 경계를 추출한다.

위에서 확률 분포 함수를 추정하는 이유는 BIC 스코어 부여부(131)에 의해 상기 분할된 각 단위 프레임에 BIC(Bayesian Information Criterion) 스코어를 부여(s231)하기 위해서이다.

보다 자세한 사항은 후술하겠지만 BIC 스코어는 분할된 단위 프레임들의 클러스터링(clustering)을 위해 필요한 값이다. BIC 스코어는 추정된 확률 분포 함수를 이용하여 구해진다. 이때 MFCC의 평균과 공분산이 가우시안 PDF가 아닌 다른 PDF를 따른다고 추정되면 그 다른 PDF를 사용하여 BIC 스코어를 얻어도 무방하다. 위에서 언급한 바와 같이 통상적으로 MFCC의 평균과 공분산은 가우시안 PDF를 따른다고 추정되며, 따라서 가우시안 PDF가 BIC 스코어를 구하는데 통상적으로 사용된다.

BIC 스코어를 구하는 구체적인 일례는 다음과 같다.

S = {s_i| i=1, 2, …, i, …, m}. S는 분할된 프레임들의 집합으로 각 프레 임 s_i을 원소로 하는 집합이다.

X_i= {x_i ^j| j=1, 2, …, n_i}. X_i는 i번째 프레임으로부터 도출되는 셉스트럴 벡터(cepstral vector)이다.

N = Σ_i·n_i.N은 상기 셉스트럴 벡터의 모든 샘플의 크기(total sample size)이다. Σ_i는 셉스트럴 벡터의 모든 샘플의 공분산 벡터(행렬)를 의미한다.

각 프레임 s_i에 대한 BIC 스코어 BIC(s_i)는 다음과 같이 얻을 수 있다.

.

여기서 P는 penalty로서 P = 0.5(d+0.5d(d+1))logN, λ는 penalty weight로서 0~1의 임의의 값을 갖는다. 그리고 d는 상기 셉스트럴 벡터의 각 샘플이 존재하는 공간의 차원(dimension)을 의미한다.

BIC 스코어를 구하는 상기한 식은 어디까지나 일례에 불과하며, 이외에도 BIC 스코어를 구하는 다수의 방안이 이미 공지되어 있다. 본 발명은 이들 다수의 방안 중 어느 방안을 이용하더라도 BIC 스코어를 구함에 무방하다.

클러스터링 부(132)는 분할된 단위 프레임들을 BIC 스코어에 근간하여 클러스터링하여 음소간 경계를 확정한다(s232). 클러스터링은 각 단위 프레임을 클러스터(cluster) 단위로 묶는 과정으로 클러스터링을 통해 각 단위 프레임은 단독으로 하나의 클러스터(cluster)를 형성할 수 있고, 두 개 이상의 단위 프레임이 하나의 클러스터를 형성할 수 있다.

클러스터링은 구체적으로 다음과 같이 이루어진다.

프레임 s_v와 프레임 s_v+1이 있고, 프레임 s_v의 BIC 스코어를 BIC(s_v), 프레임 s_v+1의 BIC 스코어를 BIC(s_v+1)라 하자(v=1, 2,…, m). 우선 BIC(s_v)와 BIC(s_v+1)의 합산치인 'BIC(s_v)+BIC(s_v+1)'을 구한다. 다음으로 프레임 s_v와 프레임 s_v+1를 동시에 고려한 BIC 스코어 'BIC(s_v+s_v+1)'를 구한다.

여기서 'BIC(s_v+s_v+1)'을 음소간 경계 탐색에 사용하는 이유는 음소간 경계의 명확성을 기하기 위해서이다. 즉, 프레임 분할만을 통해서는 음소간 경계를 명확히 구분할 수 없는 문제가 있는데, 이는 음소에 따라 발음 지속 시간이 다소 차이가 나므로 어떤 음소는 둘 이상의 프레임에 걸쳐 존재할 수 있거나, 동일 단어(동일 음소)에 대해서 화자(speaker)에 따라 발음 시간이 다소 차이가 날 수 있으므로 동일한 음소라도 둘 이상의 프레임에 걸쳐 존재할 수 있기 때문이다.

'BIC(s_v)+BIC(s_v+1)'와 BIC(s_v+s_v+1)'를 비교한 결과, 전자가 더 큰 경우에는 s_v와 s_v+1은 서로 별개의 음소(별개의 클러스터)임을 의미하며 반대인 경우에는 s_v와 s_v+1은 동일 음소(같은 클러스터)임을 의미한다. 전자가 더 크다는 의미는 결국 두 프레임의 BIC 스코어 차이가 그만큼 더 크다는 것을 의미하고 후자가 더 크다는 의미는 두 프레임의 BIC 스코어 차이가 그만큼 더 작다는 것을 의미한다. 이는 아울러 두 프레임의 BIC 스코어의 차이가 작을수록 두 프레임이 보다 더 동질 적(homogeneous)임을 의미하고 같은 음소를 포함하고 있을 확률이 높다는 의미이다.

C_k = {c_i| i=1, 2, …, k}. C_k는 k개의 클러스터(cluster)를 가지는 클러스터링된 결과의 집합을 의미하며, c_i는 각 클러스터 즉, 음소를 의미한다.

이러한 과정을 프레임 전체에 걸쳐 행하여 분할된 프레임의 클러스터링이 완결되며 음소간 경계가 확정된다.

<본 발명의 구현예>

본 발명에 대한 보다 가시적인 이해를 돕기 위해 간단한 구현예를 든다.

입력 음성이 만일 '사랑'이라고 하면, 그 음소열은 'ㅅ / ㅏ / ㄹ / ㅏ / ㅇ'이 된다. 이 음소열은 A/D 변환되며, 입력 음성 분할부(11)는 A/D 변환된 입력 음성(음소열)을 1[msec]의 시간길이를 갖는 단위 프레임들로 분할한다.

확률 분포 함수 추정부(12)는 1[msec] 단위로 분할된 각 단위 프레임의 확률 분포 함수를 가우시안 PDF로 추정한다.

경계 확정부(13)는 추정된 각 단위 프레임의 가우시안 PDF를 근거로 각 단위 프레임을 클러스터링하여 입력 음성 '사랑'의 음소간 경계를 확정한다. 우선 각 단위 프레임 s_i에 대한 BIC 스코어를 구한다. 본 구현예에 대한 각 프레임 s_i은 다음과 같이 형성되었다고 가정한다.

s₁= 'ㅅ', s₂= 'ㅏ', s₃= 'ㄹ', s₄= 'ㅏ', s₅= 'ㅇ', s₆= 'ㅇ'.

즉, 입력 음성의 음소의 개수는 5개이나 총 6개의 프레임으로 분할되었다.

BIC 스코어 부여부(131)는 각 s_i에 대한 BIC 스코어 BIC(s₁), BIC(s₂), BIC(s₃), BIC(s₄), BIC(s₅), BIC(s₆)를 위에서 제시한바 또는 다른 공지된 방안에 의해 구한다. 다음과 같이 BIC 스코어가 매겨졌다고 가정한다.

BIC(s₁) = 2.

BIC(s₂) = 10.

BIC(s₁+s₂) = 8.

BIC(s₃) = 6.

BIC(s₂+s₃) = 12.

BIC(s₄) = 10.

BIC(s₃+s₄) = 13.

BIC(s₅) = 7.

BIC(s₄+s₅) = 11.

BIC(s₆) = 7.

BIC(s₅+s₆) = 18.

BIC(s₁)+BIC(s₂) = 12 > BIC(s₁+s₂) = 8이므로, s₁과 s₂는 하나의 클러스터를 형성할 수 없다. 이는 'ㅅ'과 'ㅏ'는 별개의 음소이므로 분리되어야 한다는 일반적 사실을 뒷받침한다.

BIC(s₂)+BIC(s₃) = 16 > BIC(s₂+s₃) = 12이므로, s₂와 s₃은 하나의 클러스터를 형성할 수 없다. 이는 'ㅏ'과 'ㄹ'는 별개의 음소이므로 분리되어야 한다는 일반적 사실을 뒷받침한다.

BIC(s₃)+BIC(s₄) = 16 > BIC(s₃+s₄) = 13이므로, s₃과 s₄는 하나의 클러스터를 형성할 수 없다. 이는 'ㄹ'과 'ㅏ'는 별개의 음소이므로 분리되어야 한다는 일반적 사실을 뒷받침한다.

BIC(s₄)+BIC(s₅) = 17 > BIC(s₄+s₅) = 11이므로, s₄와 s₅는 하나의 클러스터를 형성할 수 없다. 이는 'ㅏ'과 'ㅇ'는 별개의 음소이므로 분리되어야 한다는 일반적 사실을 뒷받침한다.

BIC(s₅)+BIC(s₆) = 14 < BIC(s₅+s₆) = 18이므로, 이전 다른 경우들과는 달리 s₅와 s₆은 하나의 클러스터를 형성한다. 이는 'ㅇ'과 'ㅇ'는 동일한 음소이므로 분리되면 아니되는 일반적 사실을 뒷받침한다.

이와 같은 결과에 의거하여, s₁ 내지 s₆을 클러스터링 한 결과 집합 C_k는 다음과 같이 된다.

s₁→ c₁, s₂→ c₂, s₃→ c₃, s₄→ c₄, (s₅, s₆)→ c₅,

C₅ = {c₁, c₂, c₃, c₄, c₅}. 다시 말해 5개의 클러스터로 클러스터링 되며 5개 음소의 경계가 명확히 확정된다.

본 발명에 관한 상기한 내용들은 만일 입력 음성이 발화자에 의해 정확히 발음되지 아니하거나, 잘못 발음된 경우를 명확히 분별해낼 수 있는 근거가 될 수도 있다. 본 구현예에서 만일 발화자가 '사랑'과 발음이 비슷한 '사람'으로 발음을 하거나 아니면 '사랑'인지 '사람'인지 발화자의 발음이 모호한 경우에도, 본 발명은 BIC 스코어에 기반하여 클러스터링을 수행하므로 어떠한 경우에서든지 음소간 경계를 명확히 구분할 수 있다. 이를 통해 발화자는 자신의 실제 발음을 확인할 수 있으므로 발음 교정에 효과를 볼 수 있고, 특히 외국어 관련 학습에 직접 적용한다면 본 발명이 제공하는 결과물의 효용성을 더욱 제고할 수 있다.

본 방법발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 유무선 네트워크를 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다.

그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 균등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

도 1은 본 시스템 발명의 바람직한 일 구성을 제시한 도면이다.

도 2는 본 방법 발명의 바람직한 일 흐름을 제시한 도면이다.

Claims

발화자(speaker)로부터의 입력 음성을 소정 시간길이를 갖는 단위 프레임(frame)들로 분할하는 입력 음성 분할부;

상기 분할된 각 단위 프레임의 확률 분포 함수를 추정하는 확률 분포 함수 추정부; 및

상기 추정된 각 단위 프레임의 확률 분포 함수를 근거로 상기 분할된 프레임들을 클러스터링하여 상기 입력 음성의 음소간 경계를 추출하는 경계 추출부를 포함하는 음소간 경계 탐색 시스템.
제 1 항에 있어서, 상기 경계 추출부는

상기 추정된 각 단위 프레임의 확률 분포 함수를 근거로 상기 분할된 각 단위 프레임에 BIC(Bayesian Information Criterion) 스코어를 부여하는 BIC 스코어 부여부; 및

상기 분할된 프레임들을 상기 BIC 스코어에 근간하여 클러스터링하여 상기 입력 음성의 음소간 경계를 확정하는 클러스터링 부를 포함하는 것을 특징으로 하는 음소간 경계 탐색 시스템.
제 2 항에 있어서, 상기 클러스터링 부는

상기 분할된 단위 프레임들 중 일 단위 프레임의 BIC 스코어[BIC(1)]와 상기 일 단위 프레임의 다음 순번 단위 프레임의 BIC 스코어[BIC(2)]의 합산치[BIC(1)+BIC(2)]가 상기 일 단위 프레임과 상기 다음 순번 단위 프레임을 같이 고려한 BIC 스코어[BIC(1+2)]보다 큰 경우에는, 상기 일 단위 프레임과 상기 다음 순번 단위 프레임을 별개의 클러스터로 클러스터링하여 상기 일 단위 프레임과 상기 다음 순번 단위 프레임이 서로 별개의 음소임을 확정하고;

상기 합산치가 상기 BIC(1+2)보다 작은 경우에는, 상기 일 단위 프레임과 상기 다음 순번 단위 프레임을 같은 클러스터로 클러스터링하여 상기 일 단위 프레임과 상기 다음 순번 단위 프레임이 동일 음소임을 확정하는 것을 특징으로 하는 음소간 경계 탐색 시스템.
(a)발화자(speaker)로부터의 입력 음성을 소정 시간길이를 갖는 단위 프레임(frame)들로 분할하는 단계;

(b)상기 분할된 각 단위 프레임의 확률 분포 함수를 추정하는 단계; 및

(c)상기 추정된 각 단위 프레임의 확률 분포 함수를 근거로 상기 분할된 프레임들을 클러스터링하여 상기 입력 음성의 음소간 경계를 추출하는 단계를 포함하는 음소간 경계 탐색 방법.
제 4 항에 있어서, 상기 (c)단계는

(c1)상기 추정된 각 프레임의 확률 분포 함수를 근거로 상기 분할된 각 단위 프레임에 BIC(Bayesian Information Criterion) 스코어를 부여하는 단계; 및

(c2)상기 분할된 프레임들을 상기 BIC 스코어에 근간하여 클러스터링하여 상기 입력 음성의 음소간 경계를 확정하는 단계를 포함하는 것을 특징으로 하는 음소간 경계 탐색 방법.
제 5 항에 있어서, 상기 (c2)단계는

(c21)상기 분할된 프레임들 중 일 단위 프레임의 BIC 스코어[BIC(1)]와 상기 일 단위 프레임의 다음 순번 단위 프레임의 BIC 스코어[BIC(2)]의 합산치[BIC(1)+BIC(2)]와 상기 일 단위 프레임과 상기 다음 순번 단위 프레임을 같이 고려한 BIC 스코어[BIC(1+2)]를 비교하는 단계;

(c22)상기 비교 결과 상기 합산치가 큰 경우에는, 상기 일 단위 프레임과 상기 다음 순번 단위 프레임을 별개의 클러스터로 클러스터링하여 상기 일 단위 프레임과 상기 다음 순번 단위 프레임이 서로 별개의 음소임을 확정하는 단계; 및

(c23)상기 비교 결과 상기 합산치가 작은 경우에는, 상기 일 단위 프레임과 상기 다음 순번 단위 프레임을 같은 클러스터로 클러스터링하여 상기 일 단위 프레임과 상기 다음 순번 단위 프레임이 동일 음소임을 확정하는 단계를 포함하는 것을 특징으로 하는 음소간 경계 탐색 방법.
제 4 항 내지 제 6 항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체.