KR101664815B1 - 스피치 모델 생성 방법 - Google Patents

스피치 모델 생성 방법 Download PDF

Info

Publication number
KR101664815B1
KR101664815B1 KR1020117008269A KR20117008269A KR101664815B1 KR 101664815 B1 KR101664815 B1 KR 101664815B1 KR 1020117008269 A KR1020117008269 A KR 1020117008269A KR 20117008269 A KR20117008269 A KR 20117008269A KR 101664815 B1 KR101664815 B1 KR 101664815B1
Authority
KR
South Korea
Prior art keywords
speech
model
children
female
exponent value
Prior art date
Application number
KR1020117008269A
Other languages
English (en)
Other versions
KR20110084402A (ko
Inventor
안드레아스 하겐
브라이언 펠옴
가드리 하시오글루
Original Assignee
로제타 스톤 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 로제타 스톤 엘티디. filed Critical 로제타 스톤 엘티디.
Publication of KR20110084402A publication Critical patent/KR20110084402A/ko
Application granted granted Critical
Publication of KR101664815B1 publication Critical patent/KR101664815B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

남성 스피치 모델을 여성 스피치 모델로 변환하는데 필요한 처리를 나타내는 변환이 도출될 수 있다. 이 변환에 미리 결정된 수정이 가해지고, 수정된 변환은 합성 어린이 스피치 모델을 생성하기 위해 여성 스피치 모델에 적용된다. 남성 및 여성 모델들은 각각의 스피치 모델을 규정하는 키 값들을 나타내는 벡터로 나타낼 수 있고, 도출된 변환은 남성 모델의 벡터를 여성 모델의 벡터로 변환할 행렬 형태일 수 있다. 도출된 행렬에 대한 수정은 0 이상 1 미만인 값을 갖는 지수 p를 적용하는 것을 포함한다.

Description

스피치 모델 생성 방법{METHOD FOR CREATING A SPEECH MODEL}
본 발명은 일반적으로 스피치 인식에 관한 것으로, 특히 성인들 용 알려진 스피치 모델들을 이용하여 어린이들 용 컴퓨터화된 스피치 모델을 생성하는 방법에 관한 것이다.
컴퓨터화된 음성 인식은 산업 전반에 걸쳐 광범위하게 응용되었다. 음성 인식의 한 유익한 응용은 언어 학습에 있었다. 구체적으로 언어는 학생이 실제로 언어로 말하고 자신의 스피치가 모니터되고 평가된다면 훨씬 더 자연스럽게 배울 수 있다. 거의 혹은 전혀 훈련을 요구하지 않는 범용 음성 인식 컴퓨터 프로그램은 이러한 응용에 이상적이다. 예를 들어, 학생은 원어민이 발음한 사전에 녹음된 언어를 듣고 스피치를 따라 하려고 할 수도 있다. 음성 인식 프로그램은 학생의 스피치를 모니터하고, 올바른 표현들은 수락하고 오류들이 발생날 때마다 지적한다. 그러면 학생은 자신의 발음이 수락될 때까지 재차 시도할 수도 있다.
최근에, 컴퓨터화된 스피치 모델들이 많은 언어들로 가용하며 기술된 방법으로 사용될 수도 있다. 이것은 학생이 개인용 컴퓨터로 자신의 보조에 맞추어 언어를 배울 수 있게 한다. 그러나, 스피치 모델들은 대부분 성인 스피치용이다. 반면, 언어 학습은 어린이들에겐 특히 쉬우며 이것은 특히 언어를 배울 효과적인 시기이다. 어린이들을 위한 스피치 모델들은 쉽게 구할 수 없고 성인 모델들은 이 스피치의 특별한 특징들 때문에 어린이들의 스피치엔 잘 맞지 않는다. 어린이들의 스피치는 심지어 여성 스피치 보다도 피치가 더 높고, 남성 스피치보다 더 가변적인 여성 스피치보다도 더 가변적이다.
그러므로, 동일 언어에서 남성 및/또는 여성 성인 스피치에 대한 알려진 모델들만을 이용하여 어린이들의 스피치를 위한 스피치 인식 모델을 생성할 수 있다면 매우 바람직할 것이다.
본 발명은 성인의 스피치 모델로부터 어린이 스피치 모델을 도출하기 위한 변환의 사용에 관한 것이다. 변환은 남성 및 여성 성인 스피치로부터 도출되는데, 변환은 남성 스피치를 여성 스피치로 변환하는데 필요할 수도 있을 변환이다. 본 발명에 따라서, 이 변환은 미리 결정된 수정이 가해질 수 있고, 수정된 변환은 여성 스피치 모델에 적용되어 효과적인 어린이 스피치 모델을 생성할 수 있다. 이에 따라, 바람직한 실시예는 3개의 단계들로서, 1) 두 성인 스피치 모델들 간의 관계를 나타내는 변환을 도출하도록 이들을 사용하는 단계로서, 제 1 성인 스피치 모델로의 변환의 적용은 실질적으로 제 2 스피치 모델을 생성하게 되는, 상기 사용 단계; 2) 변환을 수정하는 단계; 및 3) 수정된 변환을 두 성인 스피치 모델들 중 제 2 스피치 모델에 적용하여 제 3 스피치 모델을 생성하는 단계를 포함한다.
다음 단락들에서, 남성 및 여성 벡터들이 언급된다. 남성 및 여성 모델들은 다수 세트들의 벡터들(각 음소 상태(phoneme state)의 가우스 분포의 평균 벡터들)을 포함할 수 있다. 각 모델은 수천개의 벡터들로 구성될 수 있다. 추정된 변환은 한 모델의 모든 평균 벡터들에 적용될 때 두 모델들 간의 전체 평균 제곱 오차를 최소화한다. 최대 우도(maximum likelihood)과 같은 그외 다른 오차 메트릭들도 가능하다. 각 벡터마다 한 번씩 각 모델에서 변환이 다수 회 적용된다. 이것은 수학적으로도 알 수 있는데, 한 평균 벡터는 39 차원들을 가지며, 변환 행렬은 39 차원이다. 가우스 분포를 사용한 HMM 기반 어쿠스틱 모델들은 히든 마코프 모델들(hidden Markov models) 및 스피치 인식의 선택된 적용들에 관한 지침서, Rabiner, L.R., Proceedings of the IEEE, Volume 77, Issue 2, Feb 1989, Pages: 257 - 286에 나타나 있다.
바람직하게, 남성 및 여성 모델들은 각각의 스피치 모델을 규정하는 키 값들을 나타내는 벡터로 나타낼 수 있다. 남성 모델의 벡터를 여성 모델의 벡터로 변환할, 바람직하게는 행렬 형태인 변환이 도출될 수 있다. 간단히 말하여 변환은 단지 남성 벡터에 변환 행렬을 곱하는 것이다. 이어서 변환 행렬이 수정되고, 수정된 행렬은 여성 벡터를 합성된 어린이 벡터로 변환하기 위해 사용된다. 행렬에 대한 수정은 0 이상 1 미만인 값을 갖는 지수 p를 적용하는 것을 포함한다. 바람직하게, p는 약 0.25 내지 약 0.7이며, 더 바람직하게는 약 0.4 내지 약 0.5이며, 가장 바람직하게는 약 0.5이다.
본 발명의 전술한 간략한 설명 및 다른 목적들, 특징들 및 잇점들은 동반된 도면을 참조로 본 발명에 따른 바람직한, 그럼에도 예시적인 실시예에 대한 다음 상세한 설명으로부터 더 완전하게 이해될 것이다.
도 1은 시스템에 대한 히든 마코프 모델을 예시하는 상태도.
도 2는 영어에서 여성 스피치 모델의 어린이 스피치 모델로의 변환 행렬을 생성하기 위해 사용되는 지수의 값에 대한 부정 오류율의 변화를 예시한 그래프.
도 3은 스페인어에서 여성 스피치 모델의 어린이 스피치 모델로의 변환 행렬을 생성하기 위해 사용되는 지수의 값에 대한 부정 오류율의 변화를 예시한 그래프.
도 4는 청구된 방법의 실시예를 도시한 간략한 흐름도.
히든 마코프 모델(HMM;hidden Markov models)은 모델화되는 시스템을 미지의 파라미터들을 가진 마코프 프로세스인 것으로 가정하는 통계적 모델이다. 상기 모델을 사용함에 있어, 히든 파라미터들은 관측가능한 파라미터들로부터 결정된다. 추출된 모델 파라미터들은 다른 분석을 수행하기 위해 사용될 수 있다.
일반적인 마코프 모델에서, 시스템의 상태(state)는 관찰자가 직접 볼 수 있고, 따라서 상태 천이 확률들이 유일한 파라미터들이다. HMM에서는 상태를 직접 볼 수는 없으나 상태에 의해 영향을 받는 변수들은 볼 수 있다. 각각의 상태는 가능한 출력 신호들에 대한 확률 분포를 갖는다. 그러므로, HMM에 의해 발생된 출력 신호들의 시퀀스는 상태들의 시퀀스에 관한 어떤 정보를 준다.
예를 들어, 도 1은 시스템에 대한 HMM의 상태도이다. 이 시스템은 3개의 상태들(X1, X2, X3)을 갖는다. 상태 천이 확률들은 "a"로 표시하였고 이 뒤에 숫자들은 천이를 나타낸다. 예를 들어, "a12"은 상태 X1에서 상태 X2로 천이할 확률이다. 또한, 한 시퀀스의 상태들에 따라, 각 상태에서 가능한 복수의 출력들이 있다. 이들은 2개의 숫자들이 뒤따르는 "b"로 나타내었다. 블록들(Y1, Y2, Y3, Y4)은 출력들의 가능한 관측들을 나타내며, 이들 관측들로부터, 상태들에 관해 결정이 행해질 수 있다.
본 모델에서, 관련 파라미터들은 HMM 상태 평균 값들이다. 복수의 이들은 "벡터"를 규정하기 위해 그룹화될 수 있다. 예를 들어, 남성 스피치 모델에 대응하는 상태 평균 값들의 시퀀스는 각 상태의 평균 값에 대응하는 성분을 내포하는 남성 모델 소스 벡터(m)로 어셈블될 수 있다. 이를테면 남성 벡터의 각 성분을 여성 벡터의 대응하는 성분에 맵핑하게 하여 여성 스피치 모델에 대해 유사한 벡터(f)가 구성될 수 있다. 그러면 f = T*m와 같이 되게 행렬 형태로 변환(T)을 규정하는 것이 가능할 것이며, 여기에서 f는 여성 벡터이고 m은 남성 벡터이고, T*m은 행렬과 벡터 간 곱셈으로서 벡터의 변환이다.
행렬(T)에 대한 적합한 추정은 T*m과 f 간에 제곱 오차를 최소화할 것이다. 이것은 식(1)에서와 같이 수학적으로 나타낼 수 있다.
T= arg minA (Am -f)2 (1)
식(1)을 사용하여, 행렬(T)은 재귀적으로 발견될 수 있다. 행렬(A)은 항등행렬로서 초기화될 수 있다. 각각의 행렬 엔트리(aij)는 식(2)에 나타낸 바와 같이 기울기 강하(gradient descent)에 의해 업데이트될 수도 있다.
Figure 112011026221414-pct00001
(2)
Ai는 행렬(A)의 i번째 라인이다.
기울기 강하는 행렬이 변환 행렬(T)의 수락가능한 근사값에 수렴하도록 모든 벡터 쌍들(m,f)에 대해 복수회 실행된다.
본 발명에 따라서, 행렬(T)의 수정된 형태를 여성 스피치 벡터에 적용하여, 여성 스피치 모델을 어린이의 스피치 모델로 변환함으로써, 합성된 어린이 스피치 모델이 생성될 수 있다. 수정된 변환 행렬은 수정된 행렬 T' = TP가 되게, p는 0 이상 1 미만의 값, 행렬(T)에 분수 지수 p을 적용함으로써 얻어진다. 바람직하게 p는 약 0.25 내지 약 0.7이며, 더 바람직하게는 약 0.4 내지 약 0.5이다. 가장 바람직하게, p는 약 0.5이다. 또한, p는 언어와는 무관하다. 즉, 실질적으로 p의 동일한 최적의 값을 언어에 관계없이 모든 언어 모델들에 적용할 것이다.
도 4의 흐름도는 어린이들에 대한 스피치 모델을 생성하기 위한 개시된 프로세스를 요약한 것이다. 프로세스는 블록(100)에서 시작하며 블록(102)에서 남성 스피치 모델이 주어졌을 때 여성 스피치 모델을 생성할 변환을 도출하기 위해서 기존의 남성 스피치 모델과 기존의 여성 스피치 모델을 상호처리(interprocessing)한다. 바람직한 실시예에서, 이것은 남성 모델을 나타내는 벡터와 여성 모델을 나타내는 벡터가 주어졌을 때, 변환 행렬이 도출되는 반복적 프로세스를 통해 행해졌다.
블록(104)에서, 변환이 수정된다. 바람직한 실시예에서, 이것은 0과 1 사이의 지수값을 변환 행렬에 적용하는 것과 같다.
블록(106)에서, 수정된 변환은 여성 스피치 모델에 적용되어, 합성 어린이 모델을 생성하고, 프로세스는 블록(108)에서 종료한다.
실험
식(1) 및 식(2)에 의해 기술된 프로세스를 사용하여, 영어와 스페인어에서 기존의 남성 스피치 모델과 여성 스피치 모델에 관하여 행렬(T)가 생성되었다. 어린이들에 대한 유효한 스피치 모델도 각각의 언어에서 얻어질 수 있었다. 변환 행렬(T)이 각 언어 모델마다 생성되었으며, 0과 1 사이의 p 값들을 사용하여 각 언어에서 일련의 수정된 변환 행렬들이 생성되었다. 서로 다른 p 값들을 사용한 변환 행렬들을 실제 어린이들의 스피치에 시험하여 서로 다른 p 값들로 얻어진 모델의 품질을 결정하였다. 도 2는 변환에 적용되는 p 값의 함수로서 영어 합성 어린이 모델에 대한 상대적 부정 오류 감소율의 그래프이다. 부정 오류(FN)는 발성이 실제로는 정확하지만 오류로서 검출될 때 일어난다.
표 1은 남성 모델, 여성 모델, 합성 어린이들의 모델, 및 기준 어린이 모델로 영어에 대해 얻어진 결과들을 요약한 것이다. 이 표는 부정 오류뿐만 아니라 부정 수락도 나타낸 것이다. 부정 수락은 오류 발성을 정확한 것으로서 표시하는 것이다.
표 1. 영어 모델들의 성능
Figure 112011026221414-pct00002
도 3은 스페인어에 대해서 합성 어린이 모델에 대한 상대적 부정 오류 감소율의 p값이 미치는 영향을 나타낸 것으로 도 2와 유사한 그래프이다. 표 2는 스페인어에서 남성 모델, 여성 모델, 합성된 어린이 모델 및 기준 어린이 모델의 성능을 요약한 것이다.
표 2. 스페인어 모델들의 성능
Figure 112011026221414-pct00003
어린이들의 스피치는 성인 스피치보다 훨씬 더 가변적이다. 스피치의 가변성은 각각의 HMM 상태에 연관된 어쿠스틱 모델 공분산 행렬들(covariance matrices)로 엔코딩된다. 이들 공분산 특성들은 어쿠스틱 모델 훈련에서 결정되며 기본 훈련 세트에서 가변성을 반영한다. 어린이들의 스피치의 가변성을 고려하기 위해서, 공변값들이 스케일링되었다.
흔히 HMM-기반 어쿠스틱 모델들에 적용되는 다변량 가우스 분포에 대해서는 대각 공분산 행렬들만이 사용된다. 이들 대각 엔트리들은 어린이들의 스피치에서 추가의 가변성을 고려하기 위해서 스케일링될 수 있다. 첫번째 6개의 MFCC 공분산 특성들은 다음과 같은 격자로 나타낸 팩터들만큼 스케일링되었으며
Figure 112011026221414-pct00004
에너지, 델타-에너지 및 델타-델타-에너지 값들은 다음과 같은 격자로 나타낸 바와 같이 스케일링되었다.
Figure 112011026221414-pct00005
그외 모든 특성들은 변경되지 않은 그대로 두었다. 이러한 스케일링은 예들로서 위에 기술된 합성 어린이 모델들에서 개선들을 보였다. 영어 합성 모델에 있어서, 부정 오류는 8.1 퍼센트까지 낮아졌으며 부정 수락률은 .7 퍼센트이었다. 스페인어 합성 어린이 모델에 있어서, 부정 오류는 .1 퍼센트의 부정 수락률에서 7.7 퍼센트까지 감소되었다. 부정 오류율은 낮아지는 반면 부정 수락률은 상승되기 때문에, 스케일링은 주의깊게 행해져야 한다.
발명의 바람직한 실시예들이 예시 목적으로 개시되었을지라도, 당업자들은 동반된 청구항에 규정된 발명의 범위 및 정신 내에서 많은 추가들, 수정들 및 대치들이 가능함을 알 것이다.

Claims (28)

  1. 제 3 스피치 그룹에 대한 스피치 모델을 생성하기 위한 컴퓨터화된 방법에 있어서,
    컴퓨터로, 변환이 기존의 제 1 스피치 그룹 모델에 작용하였을 때 기존의 제 2 스피치 그룹 모델을 생성하는 상기 변환을 도출하는 단계; 및
    컴퓨터로, 상기 제 3 스피치 그룹에 대한 모델을 생성하기 위해 상기 제 2 스피치 그룹 모델에 상기 변환을 적용하는 단계를 포함하고,
    상기 제 1 스피치 그룹은 성인 남성들을 구성하며, 상기 제 2 스피치 그룹은 성인 여성들을 구성하며, 상기 제 3 스피치 그룹은 어린이들을 구성하고, 상기 제 3 스피치 그룹에 대한 상기 모델은 상기 제 3 스피치 그룹의 멤버들(members)로부터 스피치를 컴퓨터로 인식하는데 사용되는, 방법.
  2. 삭제
  3. 제 1 항에 있어서, 상기 변환은 상기 적용 단계에 앞서 수정되는, 방법.
  4. 제 3 항에 있어서, 상기 수정은 지수 연산을 상기 변환에 적용하는 단계를 포함하는, 방법.
  5. 제 4 항에 있어서, 상기 지수 연산은 0과 1 사이의 지수값으로 행해지는, 방법.
  6. 제 5 항에 있어서, 상기 지수 연산은 0.25와 0.7 사이의 지수값으로 행해지는, 방법.
  7. 제 5 항에 있어서, 상기 지수 연산은 0.4와 0.5 사이의 지수값으로 행해지는, 방법.
  8. 제 5 항에 있어서, 상기 지수 연산은 0.5의 지수값으로 행해지는, 방법.
  9. 제 1 항에 있어서, 상기 어린이들의 스피치 그룹 모델은 상기 어린이들의 스피치 그룹 모델의 음소 상태들(phenome states)에 연관된 공분산 값들(covariance values)을 포함하고, 상기 공분산 값들은 어린이들의 스피치에서 가변성을 고려하기 위해 스케일링되는, 방법.
  10. 제 9 항에 있어서, 상기 공분산 값들은 대각 행렬 형태이며, 첫번째 6개의 공분산 특성들은 다음과 같이 스케일링되며,
    Figure 112015109171818-pct00006

    에너지, 델타-에너지 및 델타-델타-에너지 값들은 다음과 같이
    Figure 112015109171818-pct00007

    스케일링되는, 방법.
  11. 제 1 항에 있어서, 상기 남성 및 여성 스피치 모델들은 통계적으로 모델화된 시스템에서 음소 상태들을 나타내는 값들의 벡터들로서 표현되며, 상기 변환은 상기 남성 벡터들을 상기 여성 벡터들로 변환할 행렬인, 방법.
  12. 제 11 항에 있어서, 상기 행렬에 지수 연산이 행해지는, 방법.
  13. 제 12 항에 있어서, 상기 지수 연산은 0과 1 사이의 지수값으로 행해지는, 방법.
  14. 제 12 항에 있어서, 상기 지수 연산은 0.25와 0.7 사이의 지수값으로 행해지는, 방법.
  15. 제 12 항에 있어서, 상기 지수 연산은 0.4와 0.5 사이의 지수값으로 행해지는, 방법.
  16. 제 12 항에 있어서, 상기 지수 연산은 0.5의 지수값으로 행해지는, 방법.
  17. 제 11 항에 있어서, 상기 어린이들의 스피치 그룹 모델은 상기 어린이들의 스피치 그룹 모델의 음소 상태들에 연관된 공분산 값들을 포함하며, 상기 공분산 값들은 어린이들의 스피치에서 가변성을 고려하기 위해 스케일링되는, 방법.
  18. 제 17 항에 있어서, 상기 공분산 값들은 대각 행렬 형태이며, 첫번째 6개의 공분산 특성들은 다음과 같이 스케일링되며,
    Figure 112015109171818-pct00008

    에너지, 델타-에너지 및 델타-델타-에너지 값들은 다음과 같이
    Figure 112015109171818-pct00009

    스케일링되는, 방법.
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 컴퓨터로, 서로 다른 제 1 및 제 2 모집단 유형들로부터 스피치의 한 세트의 모델들에서 변환 함수를 도출하는 단계; 및
    컴퓨터로, 상기 도출된 변환 함수를 사용하여 상기 제 1 및 제 2 모집단 유형들 중 하나에서 제 3 모집단 유형으로 스피치 모델을 변환하는 단계를 포함하고,
    상기 제 3 모집단 유형은 상기 제 1 및 상기 제 2 모집단 유형들 모두와 다르고, 상기 도출된 스피치 모델을 사용하여 상기 제 3 모집단 유형의 개개인으로부터 스피치를 컴퓨터로 인식하는, 방법.
  27. 제 26 항에 있어서, 상기 제 1 및 제 2 모집단 유형들은 각각 남성 및 여성 성인들이며, 상기 제 3 모집단 유형은 어린이들인, 방법.
  28. 제 26 항에 있어서, 상기 제 3 모집단 유형으로 상기 변환 후에, 상기 스피치 모델은 상기 제 3 모집단 유형의 멤버들(members)을 새로운 언어로 훈련시키기 위해 사용되는, 방법.
KR1020117008269A 2008-09-12 2009-09-10 스피치 모델 생성 방법 KR101664815B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/209,569 US8645135B2 (en) 2008-09-12 2008-09-12 Method for creating a speech model
US12/209,569 2008-09-12
PCT/US2009/056460 WO2010030742A1 (en) 2008-09-12 2009-09-10 Method for creating a speech model

Publications (2)

Publication Number Publication Date
KR20110084402A KR20110084402A (ko) 2011-07-22
KR101664815B1 true KR101664815B1 (ko) 2016-10-11

Family

ID=42005463

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117008269A KR101664815B1 (ko) 2008-09-12 2009-09-10 스피치 모델 생성 방법

Country Status (7)

Country Link
US (1) US8645135B2 (ko)
EP (1) EP2332139B1 (ko)
JP (1) JP5442016B2 (ko)
KR (1) KR101664815B1 (ko)
CN (1) CN102203852B (ko)
CA (1) CA2737142C (ko)
WO (1) WO2010030742A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8880399B2 (en) * 2010-09-27 2014-11-04 Rosetta Stone, Ltd. Utterance verification and pronunciation scoring by lattice transduction
US8756062B2 (en) 2010-12-10 2014-06-17 General Motors Llc Male acoustic model adaptation based on language-independent female speech data
CN103530523B (zh) * 2013-10-23 2017-01-04 北京师范大学 儿童语言能力发展评估建模方法
US9904844B1 (en) * 2016-08-04 2018-02-27 International Business Machines Corporation Clustering large database of images using multilevel clustering approach for optimized face recognition process
US10726828B2 (en) 2017-05-31 2020-07-28 International Business Machines Corporation Generation of voice data as data augmentation for acoustic model training
CN110164427A (zh) * 2018-02-13 2019-08-23 阿里巴巴集团控股有限公司 语音交互方法、装置、设备以及存储介质
CN110246489B (zh) * 2019-06-14 2021-07-13 思必驰科技股份有限公司 用于儿童的语音识别方法及系统
KR20210001529A (ko) * 2019-06-28 2021-01-06 엘지전자 주식회사 로봇, 그와 연결되는 서버, 및 로봇을 이용한 음성 인식 방법
CN115798455B (zh) * 2023-02-07 2023-06-02 深圳元象信息科技有限公司 语音合成方法、系统、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2003122388A (ja) * 2001-10-10 2003-04-25 Canon Inc 音響モデル作成装置および方法、音声認識装置
JP2003255980A (ja) * 2002-03-04 2003-09-10 Sharp Corp 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864810A (en) 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
US6151575A (en) * 1996-10-28 2000-11-21 Dragon Systems, Inc. Rapid adaptation of speech models
GB9706174D0 (en) * 1997-03-25 1997-11-19 Secr Defence Recognition system
JP2986792B2 (ja) * 1998-03-16 1999-12-06 株式会社エイ・ティ・アール音声翻訳通信研究所 話者正規化処理装置及び音声認識装置
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6912499B1 (en) * 1999-08-31 2005-06-28 Nortel Networks Limited Method and apparatus for training a multilingual speech model set
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
JP3888543B2 (ja) * 2000-07-13 2007-03-07 旭化成株式会社 音声認識装置及び音声認識方法
US6671686B2 (en) * 2000-11-02 2003-12-30 Guy Pardon Decentralized, distributed internet data management
US7328154B2 (en) * 2003-08-13 2008-02-05 Matsushita Electrical Industrial Co., Ltd. Bubble splitting for compact acoustic modeling
US20060058999A1 (en) * 2004-09-10 2006-03-16 Simon Barker Voice model adaptation
US7797158B2 (en) * 2007-06-20 2010-09-14 At&T Intellectual Property Ii, L.P. System and method for improving robustness of speech recognition using vocal tract length normalization codebooks
US8751239B2 (en) * 2007-10-04 2014-06-10 Core Wireless Licensing, S.a.r.l. Method, apparatus and computer program product for providing text independent voice conversion

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP2003122388A (ja) * 2001-10-10 2003-04-25 Canon Inc 音響モデル作成装置および方法、音声認識装置
JP2003255980A (ja) * 2002-03-04 2003-09-10 Sharp Corp 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体

Also Published As

Publication number Publication date
EP2332139A1 (en) 2011-06-15
CN102203852A (zh) 2011-09-28
WO2010030742A1 (en) 2010-03-18
JP2012502327A (ja) 2012-01-26
JP5442016B2 (ja) 2014-03-12
CA2737142A1 (en) 2010-03-18
CN102203852B (zh) 2015-05-13
US20100070278A1 (en) 2010-03-18
US8645135B2 (en) 2014-02-04
KR20110084402A (ko) 2011-07-22
CA2737142C (en) 2015-01-06
EP2332139A4 (en) 2012-10-24
EP2332139B1 (en) 2015-10-21

Similar Documents

Publication Publication Date Title
KR101664815B1 (ko) 스피치 모델 생성 방법
Ghai et al. Literature review on automatic speech recognition
US11450332B2 (en) Audio conversion learning device, audio conversion device, method, and program
EP2192575B1 (en) Speech recognition based on a multilingual acoustic model
JPH11242494A (ja) 話者適応化装置と音声認識装置
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
Tamura et al. Text-to-speech synthesis with arbitrary speaker's voice from average voice
KR20090061920A (ko) 음성 합성 방법 및 장치
Dorn Dialect-specific models for automatic speech recognition of African American Vernacular English
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
Barman et al. State of the art review of speech recognition using genetic algorithm
Qin et al. HMM-based emotional speech synthesis using average emotion model
Qin et al. Improving the performance of HMM-based voice conversion using context clustering decision tree and appropriate regression matrix format
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
Sun et al. Fusion of parametric and non-parametric approaches to noise-robust ASR
Sathiarekha et al. A survey on the evolution of various voice conversion techniques
Khorram et al. Soft context clustering for F0 modeling in HMM-based speech synthesis
Sandhu et al. Research insight of Indian tonal languages: A review
Stouten et al. Recognition of foreign names spoken by native speakers
Huang et al. Prosodic modeling in large vocabulary Mandarin speech recognition.
Oh et al. Decision Tree-Based Clustering with Outlier Detection for HMM-Based Speech Synthesis.
Sandhu et al. Research Insight of Indian Tonal Languages: A
Huang et al. Improved large vocabulary Mandarin speech recognition using prosodic features
Cheng et al. Improved large vocabulary Mandarin speech recognition by selectively using tone information with a two-stage prosodic model.

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant