KR101664815B1

KR101664815B1 - 스피치 모델 생성 방법

Info

Publication number: KR101664815B1
Application number: KR1020117008269A
Authority: KR
Inventors: 안드레아스 하겐; 브라이언 펠옴; 가드리 하시오글루
Original assignee: 로제타 스톤 엘티디.
Priority date: 2008-09-12
Filing date: 2009-09-10
Publication date: 2016-10-11
Also published as: EP2332139A1; CN102203852A; WO2010030742A1; JP2012502327A; JP5442016B2; CA2737142A1; CN102203852B; US20100070278A1; US8645135B2; KR20110084402A; CA2737142C; EP2332139A4; EP2332139B1

Abstract

남성 스피치 모델을 여성 스피치 모델로 변환하는데 필요한 처리를 나타내는 변환이 도출될 수 있다. 이 변환에 미리 결정된 수정이 가해지고, 수정된 변환은 합성 어린이 스피치 모델을 생성하기 위해 여성 스피치 모델에 적용된다. 남성 및 여성 모델들은 각각의 스피치 모델을 규정하는 키 값들을 나타내는 벡터로 나타낼 수 있고, 도출된 변환은 남성 모델의 벡터를 여성 모델의 벡터로 변환할 행렬 형태일 수 있다. 도출된 행렬에 대한 수정은 0 이상 1 미만인 값을 갖는 지수 p를 적용하는 것을 포함한다.

Description

스피치 모델 생성 방법{METHOD FOR CREATING A SPEECH MODEL}

본 발명은 일반적으로 스피치 인식에 관한 것으로, 특히 성인들 용 알려진 스피치 모델들을 이용하여 어린이들 용 컴퓨터화된 스피치 모델을 생성하는 방법에 관한 것이다.

컴퓨터화된 음성 인식은 산업 전반에 걸쳐 광범위하게 응용되었다. 음성 인식의 한 유익한 응용은 언어 학습에 있었다. 구체적으로 언어는 학생이 실제로 언어로 말하고 자신의 스피치가 모니터되고 평가된다면 훨씬 더 자연스럽게 배울 수 있다. 거의 혹은 전혀 훈련을 요구하지 않는 범용 음성 인식 컴퓨터 프로그램은 이러한 응용에 이상적이다. 예를 들어, 학생은 원어민이 발음한 사전에 녹음된 언어를 듣고 스피치를 따라 하려고 할 수도 있다. 음성 인식 프로그램은 학생의 스피치를 모니터하고, 올바른 표현들은 수락하고 오류들이 발생날 때마다 지적한다. 그러면 학생은 자신의 발음이 수락될 때까지 재차 시도할 수도 있다.

최근에, 컴퓨터화된 스피치 모델들이 많은 언어들로 가용하며 기술된 방법으로 사용될 수도 있다. 이것은 학생이 개인용 컴퓨터로 자신의 보조에 맞추어 언어를 배울 수 있게 한다. 그러나, 스피치 모델들은 대부분 성인 스피치용이다. 반면, 언어 학습은 어린이들에겐 특히 쉬우며 이것은 특히 언어를 배울 효과적인 시기이다. 어린이들을 위한 스피치 모델들은 쉽게 구할 수 없고 성인 모델들은 이 스피치의 특별한 특징들 때문에 어린이들의 스피치엔 잘 맞지 않는다. 어린이들의 스피치는 심지어 여성 스피치 보다도 피치가 더 높고, 남성 스피치보다 더 가변적인 여성 스피치보다도 더 가변적이다.

그러므로, 동일 언어에서 남성 및/또는 여성 성인 스피치에 대한 알려진 모델들만을 이용하여 어린이들의 스피치를 위한 스피치 인식 모델을 생성할 수 있다면 매우 바람직할 것이다.

본 발명은 성인의 스피치 모델로부터 어린이 스피치 모델을 도출하기 위한 변환의 사용에 관한 것이다. 변환은 남성 및 여성 성인 스피치로부터 도출되는데, 변환은 남성 스피치를 여성 스피치로 변환하는데 필요할 수도 있을 변환이다. 본 발명에 따라서, 이 변환은 미리 결정된 수정이 가해질 수 있고, 수정된 변환은 여성 스피치 모델에 적용되어 효과적인 어린이 스피치 모델을 생성할 수 있다. 이에 따라, 바람직한 실시예는 3개의 단계들로서, 1) 두 성인 스피치 모델들 간의 관계를 나타내는 변환을 도출하도록 이들을 사용하는 단계로서, 제 1 성인 스피치 모델로의 변환의 적용은 실질적으로 제 2 스피치 모델을 생성하게 되는, 상기 사용 단계; 2) 변환을 수정하는 단계; 및 3) 수정된 변환을 두 성인 스피치 모델들 중 제 2 스피치 모델에 적용하여 제 3 스피치 모델을 생성하는 단계를 포함한다.

다음 단락들에서, 남성 및 여성 벡터들이 언급된다. 남성 및 여성 모델들은 다수 세트들의 벡터들(각 음소 상태(phoneme state)의 가우스 분포의 평균 벡터들)을 포함할 수 있다. 각 모델은 수천개의 벡터들로 구성될 수 있다. 추정된 변환은 한 모델의 모든 평균 벡터들에 적용될 때 두 모델들 간의 전체 평균 제곱 오차를 최소화한다. 최대 우도(maximum likelihood)과 같은 그외 다른 오차 메트릭들도 가능하다. 각 벡터마다 한 번씩 각 모델에서 변환이 다수 회 적용된다. 이것은 수학적으로도 알 수 있는데, 한 평균 벡터는 39 차원들을 가지며, 변환 행렬은 39 차원이다. 가우스 분포를 사용한 HMM 기반 어쿠스틱 모델들은 히든 마코프 모델들(hidden Markov models) 및 스피치 인식의 선택된 적용들에 관한 지침서, Rabiner, L.R., Proceedings of the IEEE, Volume 77, Issue 2, Feb 1989, Pages: 257 - 286에 나타나 있다.

바람직하게, 남성 및 여성 모델들은 각각의 스피치 모델을 규정하는 키 값들을 나타내는 벡터로 나타낼 수 있다. 남성 모델의 벡터를 여성 모델의 벡터로 변환할, 바람직하게는 행렬 형태인 변환이 도출될 수 있다. 간단히 말하여 변환은 단지 남성 벡터에 변환 행렬을 곱하는 것이다. 이어서 변환 행렬이 수정되고, 수정된 행렬은 여성 벡터를 합성된 어린이 벡터로 변환하기 위해 사용된다. 행렬에 대한 수정은 0 이상 1 미만인 값을 갖는 지수 p를 적용하는 것을 포함한다. 바람직하게, p는 약 0.25 내지 약 0.7이며, 더 바람직하게는 약 0.4 내지 약 0.5이며, 가장 바람직하게는 약 0.5이다.

본 발명의 전술한 간략한 설명 및 다른 목적들, 특징들 및 잇점들은 동반된 도면을 참조로 본 발명에 따른 바람직한, 그럼에도 예시적인 실시예에 대한 다음 상세한 설명으로부터 더 완전하게 이해될 것이다.

도 1은 시스템에 대한 히든 마코프 모델을 예시하는 상태도.
도 2는 영어에서 여성 스피치 모델의 어린이 스피치 모델로의 변환 행렬을 생성하기 위해 사용되는 지수의 값에 대한 부정 오류율의 변화를 예시한 그래프.
도 3은 스페인어에서 여성 스피치 모델의 어린이 스피치 모델로의 변환 행렬을 생성하기 위해 사용되는 지수의 값에 대한 부정 오류율의 변화를 예시한 그래프.
도 4는 청구된 방법의 실시예를 도시한 간략한 흐름도.

히든 마코프 모델(HMM;hidden Markov models)은 모델화되는 시스템을 미지의 파라미터들을 가진 마코프 프로세스인 것으로 가정하는 통계적 모델이다. 상기 모델을 사용함에 있어, 히든 파라미터들은 관측가능한 파라미터들로부터 결정된다. 추출된 모델 파라미터들은 다른 분석을 수행하기 위해 사용될 수 있다.

일반적인 마코프 모델에서, 시스템의 상태(state)는 관찰자가 직접 볼 수 있고, 따라서 상태 천이 확률들이 유일한 파라미터들이다. HMM에서는 상태를 직접 볼 수는 없으나 상태에 의해 영향을 받는 변수들은 볼 수 있다. 각각의 상태는 가능한 출력 신호들에 대한 확률 분포를 갖는다. 그러므로, HMM에 의해 발생된 출력 신호들의 시퀀스는 상태들의 시퀀스에 관한 어떤 정보를 준다.

예를 들어, 도 1은 시스템에 대한 HMM의 상태도이다. 이 시스템은 3개의 상태들(X1, X2, X3)을 갖는다. 상태 천이 확률들은 "a"로 표시하였고 이 뒤에 숫자들은 천이를 나타낸다. 예를 들어, "a12"은 상태 X1에서 상태 X2로 천이할 확률이다. 또한, 한 시퀀스의 상태들에 따라, 각 상태에서 가능한 복수의 출력들이 있다. 이들은 2개의 숫자들이 뒤따르는 "b"로 나타내었다. 블록들(Y1, Y2, Y3, Y4)은 출력들의 가능한 관측들을 나타내며, 이들 관측들로부터, 상태들에 관해 결정이 행해질 수 있다.

본 모델에서, 관련 파라미터들은 HMM 상태 평균 값들이다. 복수의 이들은 "벡터"를 규정하기 위해 그룹화될 수 있다. 예를 들어, 남성 스피치 모델에 대응하는 상태 평균 값들의 시퀀스는 각 상태의 평균 값에 대응하는 성분을 내포하는 남성 모델 소스 벡터(m)로 어셈블될 수 있다. 이를테면 남성 벡터의 각 성분을 여성 벡터의 대응하는 성분에 맵핑하게 하여 여성 스피치 모델에 대해 유사한 벡터(f)가 구성될 수 있다. 그러면 f = T*m와 같이 되게 행렬 형태로 변환(T)을 규정하는 것이 가능할 것이며, 여기에서 f는 여성 벡터이고 m은 남성 벡터이고, T*m은 행렬과 벡터 간 곱셈으로서 벡터의 변환이다.

행렬(T)에 대한 적합한 추정은 T*m과 f 간에 제곱 오차를 최소화할 것이다. 이것은 식(1)에서와 같이 수학적으로 나타낼 수 있다.

T= arg min_A (Am -f)² (1)

식(1)을 사용하여, 행렬(T)은 재귀적으로 발견될 수 있다. 행렬(A)은 항등행렬로서 초기화될 수 있다. 각각의 행렬 엔트리(a_ij)는 식(2)에 나타낸 바와 같이 기울기 강하(gradient descent)에 의해 업데이트될 수도 있다.

(2)

A_i는 행렬(A)의 i번째 라인이다.

기울기 강하는 행렬이 변환 행렬(T)의 수락가능한 근사값에 수렴하도록 모든 벡터 쌍들(m,f)에 대해 복수회 실행된다.

본 발명에 따라서, 행렬(T)의 수정된 형태를 여성 스피치 벡터에 적용하여, 여성 스피치 모델을 어린이의 스피치 모델로 변환함으로써, 합성된 어린이 스피치 모델이 생성될 수 있다. 수정된 변환 행렬은 수정된 행렬 T' = T^P가 되게, p는 0 이상 1 미만의 값, 행렬(T)에 분수 지수 p을 적용함으로써 얻어진다. 바람직하게 p는 약 0.25 내지 약 0.7이며, 더 바람직하게는 약 0.4 내지 약 0.5이다. 가장 바람직하게, p는 약 0.5이다. 또한, p는 언어와는 무관하다. 즉, 실질적으로 p의 동일한 최적의 값을 언어에 관계없이 모든 언어 모델들에 적용할 것이다.

도 4의 흐름도는 어린이들에 대한 스피치 모델을 생성하기 위한 개시된 프로세스를 요약한 것이다. 프로세스는 블록(100)에서 시작하며 블록(102)에서 남성 스피치 모델이 주어졌을 때 여성 스피치 모델을 생성할 변환을 도출하기 위해서 기존의 남성 스피치 모델과 기존의 여성 스피치 모델을 상호처리(interprocessing)한다. 바람직한 실시예에서, 이것은 남성 모델을 나타내는 벡터와 여성 모델을 나타내는 벡터가 주어졌을 때, 변환 행렬이 도출되는 반복적 프로세스를 통해 행해졌다.

블록(104)에서, 변환이 수정된다. 바람직한 실시예에서, 이것은 0과 1 사이의 지수값을 변환 행렬에 적용하는 것과 같다.

블록(106)에서, 수정된 변환은 여성 스피치 모델에 적용되어, 합성 어린이 모델을 생성하고, 프로세스는 블록(108)에서 종료한다.

실험

식(1) 및 식(2)에 의해 기술된 프로세스를 사용하여, 영어와 스페인어에서 기존의 남성 스피치 모델과 여성 스피치 모델에 관하여 행렬(T)가 생성되었다. 어린이들에 대한 유효한 스피치 모델도 각각의 언어에서 얻어질 수 있었다. 변환 행렬(T)이 각 언어 모델마다 생성되었으며, 0과 1 사이의 p 값들을 사용하여 각 언어에서 일련의 수정된 변환 행렬들이 생성되었다. 서로 다른 p 값들을 사용한 변환 행렬들을 실제 어린이들의 스피치에 시험하여 서로 다른 p 값들로 얻어진 모델의 품질을 결정하였다. 도 2는 변환에 적용되는 p 값의 함수로서 영어 합성 어린이 모델에 대한 상대적 부정 오류 감소율의 그래프이다. 부정 오류(FN)는 발성이 실제로는 정확하지만 오류로서 검출될 때 일어난다.

표 1은 남성 모델, 여성 모델, 합성 어린이들의 모델, 및 기준 어린이 모델로 영어에 대해 얻어진 결과들을 요약한 것이다. 이 표는 부정 오류뿐만 아니라 부정 수락도 나타낸 것이다. 부정 수락은 오류 발성을 정확한 것으로서 표시하는 것이다.

표 1. 영어 모델들의 성능

도 3은 스페인어에 대해서 합성 어린이 모델에 대한 상대적 부정 오류 감소율의 p값이 미치는 영향을 나타낸 것으로 도 2와 유사한 그래프이다. 표 2는 스페인어에서 남성 모델, 여성 모델, 합성된 어린이 모델 및 기준 어린이 모델의 성능을 요약한 것이다.

표 2. 스페인어 모델들의 성능

어린이들의 스피치는 성인 스피치보다 훨씬 더 가변적이다. 스피치의 가변성은 각각의 HMM 상태에 연관된 어쿠스틱 모델 공분산 행렬들(covariance matrices)로 엔코딩된다. 이들 공분산 특성들은 어쿠스틱 모델 훈련에서 결정되며 기본 훈련 세트에서 가변성을 반영한다. 어린이들의 스피치의 가변성을 고려하기 위해서, 공변값들이 스케일링되었다.

흔히 HMM-기반 어쿠스틱 모델들에 적용되는 다변량 가우스 분포에 대해서는 대각 공분산 행렬들만이 사용된다. 이들 대각 엔트리들은 어린이들의 스피치에서 추가의 가변성을 고려하기 위해서 스케일링될 수 있다. 첫번째 6개의 MFCC 공분산 특성들은 다음과 같은 격자로 나타낸 팩터들만큼 스케일링되었으며

에너지, 델타-에너지 및 델타-델타-에너지 값들은 다음과 같은 격자로 나타낸 바와 같이 스케일링되었다.

그외 모든 특성들은 변경되지 않은 그대로 두었다. 이러한 스케일링은 예들로서 위에 기술된 합성 어린이 모델들에서 개선들을 보였다. 영어 합성 모델에 있어서, 부정 오류는 8.1 퍼센트까지 낮아졌으며 부정 수락률은 .7 퍼센트이었다. 스페인어 합성 어린이 모델에 있어서, 부정 오류는 .1 퍼센트의 부정 수락률에서 7.7 퍼센트까지 감소되었다. 부정 오류율은 낮아지는 반면 부정 수락률은 상승되기 때문에, 스케일링은 주의깊게 행해져야 한다.

발명의 바람직한 실시예들이 예시 목적으로 개시되었을지라도, 당업자들은 동반된 청구항에 규정된 발명의 범위 및 정신 내에서 많은 추가들, 수정들 및 대치들이 가능함을 알 것이다.

Claims

제 3 스피치 그룹에 대한 스피치 모델을 생성하기 위한 컴퓨터화된 방법에 있어서,
컴퓨터로, 변환이 기존의 제 1 스피치 그룹 모델에 작용하였을 때 기존의 제 2 스피치 그룹 모델을 생성하는 상기 변환을 도출하는 단계; 및
컴퓨터로, 상기 제 3 스피치 그룹에 대한 모델을 생성하기 위해 상기 제 2 스피치 그룹 모델에 상기 변환을 적용하는 단계를 포함하고,
상기 제 1 스피치 그룹은 성인 남성들을 구성하며, 상기 제 2 스피치 그룹은 성인 여성들을 구성하며, 상기 제 3 스피치 그룹은 어린이들을 구성하고, 상기 제 3 스피치 그룹에 대한 상기 모델은 상기 제 3 스피치 그룹의 멤버들(members)로부터 스피치를 컴퓨터로 인식하는데 사용되는, 방법.
삭제
제 1 항에 있어서, 상기 변환은 상기 적용 단계에 앞서 수정되는, 방법.
제 3 항에 있어서, 상기 수정은 지수 연산을 상기 변환에 적용하는 단계를 포함하는, 방법.
제 4 항에 있어서, 상기 지수 연산은 0과 1 사이의 지수값으로 행해지는, 방법.
제 5 항에 있어서, 상기 지수 연산은 0.25와 0.7 사이의 지수값으로 행해지는, 방법.
제 5 항에 있어서, 상기 지수 연산은 0.4와 0.5 사이의 지수값으로 행해지는, 방법.
제 5 항에 있어서, 상기 지수 연산은 0.5의 지수값으로 행해지는, 방법.
제 1 항에 있어서, 상기 어린이들의 스피치 그룹 모델은 상기 어린이들의 스피치 그룹 모델의 음소 상태들(phenome states)에 연관된 공분산 값들(covariance values)을 포함하고, 상기 공분산 값들은 어린이들의 스피치에서 가변성을 고려하기 위해 스케일링되는, 방법.
제 9 항에 있어서, 상기 공분산 값들은 대각 행렬 형태이며, 첫번째 6개의 공분산 특성들은 다음과 같이 스케일링되며,

에너지, 델타-에너지 및 델타-델타-에너지 값들은 다음과 같이

스케일링되는, 방법.
제 1 항에 있어서, 상기 남성 및 여성 스피치 모델들은 통계적으로 모델화된 시스템에서 음소 상태들을 나타내는 값들의 벡터들로서 표현되며, 상기 변환은 상기 남성 벡터들을 상기 여성 벡터들로 변환할 행렬인, 방법.
제 11 항에 있어서, 상기 행렬에 지수 연산이 행해지는, 방법.
제 12 항에 있어서, 상기 지수 연산은 0과 1 사이의 지수값으로 행해지는, 방법.
제 12 항에 있어서, 상기 지수 연산은 0.25와 0.7 사이의 지수값으로 행해지는, 방법.
제 12 항에 있어서, 상기 지수 연산은 0.4와 0.5 사이의 지수값으로 행해지는, 방법.
제 12 항에 있어서, 상기 지수 연산은 0.5의 지수값으로 행해지는, 방법.
제 11 항에 있어서, 상기 어린이들의 스피치 그룹 모델은 상기 어린이들의 스피치 그룹 모델의 음소 상태들에 연관된 공분산 값들을 포함하며, 상기 공분산 값들은 어린이들의 스피치에서 가변성을 고려하기 위해 스케일링되는, 방법.
제 17 항에 있어서, 상기 공분산 값들은 대각 행렬 형태이며, 첫번째 6개의 공분산 특성들은 다음과 같이 스케일링되며,

에너지, 델타-에너지 및 델타-델타-에너지 값들은 다음과 같이

스케일링되는, 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
컴퓨터로, 서로 다른 제 1 및 제 2 모집단 유형들로부터 스피치의 한 세트의 모델들에서 변환 함수를 도출하는 단계; 및
컴퓨터로, 상기 도출된 변환 함수를 사용하여 상기 제 1 및 제 2 모집단 유형들 중 하나에서 제 3 모집단 유형으로 스피치 모델을 변환하는 단계를 포함하고,
상기 제 3 모집단 유형은 상기 제 1 및 상기 제 2 모집단 유형들 모두와 다르고, 상기 도출된 스피치 모델을 사용하여 상기 제 3 모집단 유형의 개개인으로부터 스피치를 컴퓨터로 인식하는, 방법.
제 26 항에 있어서, 상기 제 1 및 제 2 모집단 유형들은 각각 남성 및 여성 성인들이며, 상기 제 3 모집단 유형은 어린이들인, 방법.
제 26 항에 있어서, 상기 제 3 모집단 유형으로 상기 변환 후에, 상기 스피치 모델은 상기 제 3 모집단 유형의 멤버들(members)을 새로운 언어로 훈련시키기 위해 사용되는, 방법.