KR101050378B1 - 피쳐 변환의 효율적인 평가를 제공하는 방법, 장치, 모바일단말 및 컴퓨터 프로그램 생성물 - Google Patents

피쳐 변환의 효율적인 평가를 제공하는 방법, 장치, 모바일단말 및 컴퓨터 프로그램 생성물 Download PDF

Info

Publication number
KR101050378B1
KR101050378B1 KR1020087027297A KR20087027297A KR101050378B1 KR 101050378 B1 KR101050378 B1 KR 101050378B1 KR 1020087027297 A KR1020087027297 A KR 1020087027297A KR 20087027297 A KR20087027297 A KR 20087027297A KR 101050378 B1 KR101050378 B1 KR 101050378B1
Authority
KR
South Korea
Prior art keywords
training
gmm
data
trace
module
Prior art date
Application number
KR1020087027297A
Other languages
English (en)
Other versions
KR20090033416A (ko
Inventor
일레이 티안
야니 케이. 누르미넨
빅토르 포파
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20090033416A publication Critical patent/KR20090033416A/ko
Application granted granted Critical
Publication of KR101050378B1 publication Critical patent/KR101050378B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

피쳐 변환의 효율적인 평가를 제공하는 장치는 훈련 모듈 및 변환 모듈을 포함한다. 훈련 모듈은 훈련용 소스 데이터 및 훈련용 타겟 데이터를 사용하여 가우시안 혼합 모델(GMM)을 훈련시키도록 구성된다. 변환 모듈은 훈련 모듈과 통신한다. 변환 모듈은 GMM의 훈련에 응하여 변환 기능을 산출하도록 구성된다. 훈련 모듈은 GMM의 자취 수치을 계산함으로써 변환 기능의 사용에 앞서 변환 기능의 품질을 결정하도록 더 구성된다.

Description

피쳐 변환의 효율적인 평가를 제공하는 방법, 장치, 모바일 단말 및 컴퓨터 프로그램 생성물{Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation}
본 발명의 실시예들은 일반적으로 피쳐 변환 기술 (feature transformation technology)에 관한 것이고, 더욱 특히, 변환 작업에서 가우시안 혼합 모델 (Gaussian Mixture Model; GMM)의 효율적인 평가를 제공하는 방법, 장치 및 컴퓨터 프로그램 생성물에 관한 것이다.
현대 통신 시대는 유선 및 무선 네트워크들의 엄청난 발전을 초래하였다. 컴퓨터 네트워크, 텔레비전 네트워크 및 전화통신(telephony) 네트워크는, 소비자 요구에 의해 자극된, 전례없는 기술적 발전을 경험하고 있다. 무선 및 모바일 네트워킹 기술들은, 정보 전송의 더 큰 탄력성(flexibility) 및 즉시성(immediacy)을 제공하며, 관련 소비자 요구들을 다루었다.
현재 및 미래 네트워킹 기술들은 정보 전송의 용이성 및 사용자들에 대한 편의를 계속하여 촉진시킨다. 정보 전송의 용이성을 증가시키기 위한 요구가 있는 하나의 영역은 모바일 단말의 사용자로의 서비스들의 전달(delivery)에 관한 것이다. 그 서비스들은, 음악 플레이어, 게임 플레이어, 전자책(electronic book), 단문 메 시지들, 이메일 등과 같이, 사용자가 원하는 특정한 미디어 또는 통신 어플리케이션의 형태일 수도 있다. 그 서비스들은 또한 사용자가 작업(task)을 수행하거나 또는 목표를 달성하기 위해 사용자가 네트워크 기기에 응답할 수도 있는 상호작용 어플리케이션들의 형태일 수도 있다. 그 서비스들은 네트워크 서버 또는 다른 네트워크 기기로부터 또는 심지어 예를 들어 모바일 전화, 모바일 텔레비젼, 모바일 게임용 시스템 등과 같은 모바일 단말로부터도 제공될 수도 있다.
많은 어플리케이션들에서, 사용자가 네트워크로부터 구두의(oral) 피드백 또는 지시들과 같은 청각적 정보 (audio information)를 수신하는 것이 필요하다. 이러한 어플리케이션의 예는 계산서를 지불하는 것, 프로그램에 명령하는 것, 운전을 위한 지시들을 수신하는 것 등일 수도 있다. 게다가, 어떤 서비스들, 예컨대 오디오책들(audio books)에서, 예를 들어 어플리케이션은 청각적 정보를 수신하는 것에 거의 전적으로 기반한다. 이러한 청각적 정보가 컴퓨터 생성 음성(computer generated voice)들에 의해 제공되는 것은 더 흔해지고 있다. 따라서, 이러한 어플리케이션들을 사용시 사용자의 경험은, 컴퓨터 생성 음성의 품질(quality) 및 자연스러움(naturalness)에 크게 의존할 것이다. 결과적으로, 많은 연구 및 개발이 컴퓨터 생성 음성들의 품질 및 자연스러움을 향상시키는 것에 관해 행해졌다.
이러한 컴퓨터 생성 음성들에 관한 흥미있는 하나의 특수한 어플리케이션은 문자음성변환(text-to-speech; TTS)으로서 알려져 있다. TTS는 컴퓨터 판독가능 텍스트로부터 청각적 음성 (audio speech)을 생성하는 것이다. TTS는 대개 두 단계들로 이루어진다고 생각된다. 첫째로, 컴퓨터가 청각적 음성으로 변환될 텍스트를 조 사하여 어떻게 그 텍스트가 발음되어야 할지, 무슨 음절들에 악센트를 줄 것인지, 무슨 음조(pitch)를 사용할지, 얼마나 빠르게 소리를 전달할지 등에 관한 명세사항들을 결정한다. 다음으로, 그 컴퓨터는 그 명세사항들에 매칭(matching)되는 오디오를 생성하려고 시도한다.
TTS를 통한 자연스러운 소리발생 및 고품질 음성의 전달을 위한 향상된 수단의 개발에 따라, TTS 출력을 수신시 사용자의 경험을 더 향상시키려는 바램이 나타났다. 이에 따라, 사용자의 경험을 향상시키기 위한 하나의 방법은 익숙한 또는 매력적인 음성(voice)으로 TTS 출력을 전달하는 것이다. 예를 들어, 사용자는 TTS 출력의 소스 음성보다는 오히려 자신 고유의 음성 또는 또다른 매력적인 타겟(목표) 음성으로 전달되는 TTS 출력을 듣기를 좋아할 수도 있다. 음성을 어떤 타겟 음성으로 변환하는 것은 피쳐 변환 (feature transformation)의 예이다.
향상된 피쳐 변환을 제공하기 위해서, 가우시안 혼합 모델 (GMM) 기반 기술들이 스칼라 또는 벡터로 표현될 수 있는 피쳐들의 변환에 있어서 효율적이라는 것이 알려졌다. GMM 기반 변환에서, 소스 및 타겟 벡터들의 조합은 결합 밀도 (joint density)에 관해 GMM 파라미터들을 평가하는데 사용된다. 따라서, GMM 기반 변환 기능(conversion function)이 생성될 수도 있다. 예를 들면, 소스 및 타겟 벡터들의 샘플들을 포함하는 훈련(training) 데이터의 집합은 변환 모델 (transformation model)을 훈련시키는데 사용될 수도 있다. 한번 훈련되면, 그 변환 모델은 입력 소스 벡터들이 주어질 때 변환된 벡터들을 산출하도록 사용될 수도 있다. 변환되는 벡터들 및 타겟 벡터들 간에 평균 제곱 에러 (mean squared error; MSE)를 최소화 하는 것이 바람직하기 때문에, 테스팅(testing) 또는 확인(validation) 데이터의 집합은 그 변환되는 벡터들 및 타겟 벡터들을 비교하는데 사용된다. 그러나, 효과적인 변환을 하기 위해서 다량의 훈련 및 테스팅 데이터 양쪽 모두를 포함하는 것이 종종 필요하다. 예를 들어, 데이터베이스는 샘플들 중 60%는 훈련용 데이터에 사용되고 샘플들 중 40%는 테스팅 데이터에 사용되는 상대적으로 다수의 샘플 문장들 (sample sentences)에 대응하는 소스 및 타겟 음성을 포함할 수도 있다. 따라서, 메모리 및 전력과 같은 리소스들의 소비가 증가될 수도 있다.
특히 모바일 환경들에서, 메모리 및 전력 소비의 증가는 이러한 방법들을 사용하는 기기들의 크기 및 비용에 직접적으로 영향을 미친다. 그러나, 비모바일 환경들에서도, 이러한 방법들은 모델을 훈련시키거나 테스트하기 위해 사용되는 알고리즘들의 프로세싱 시간들이 길어진다는 결과를 낳을 수도 있다. 따라서, 효율적으로 이용될 수 있는 충분한 품질의 피쳐 변환을 제공할 필요가 있다.
그러므로 피쳐 변환의 효율적인 평가를 제공하는 방법, 장치 및 컴퓨터 프로그램 생성물이 제공된다. 특히, 변환 모델의 훈련 동안, 그 변환 모델의 품질, 그 결과 그 변환 모델의 변환 성능을 평가하는 메커니즘을 제공함으로써 테스팅 또는 확인 데이터에 관한 어떠한 요건도 제거하는 GMM 평가 방법, 장치 및 컴퓨터 프로그램 생성물이 제공된다. 따라서, 테스팅 또는 확인 데이터는 감소되거나 제거될 수도 있고 대응하는 리소스 소비 또한 감소될 수도 있다.
하나의 바람직한 실시예에서, 피쳐 변환의 효율적인 평가를 제공하는 방법이 제공된다. 상기 방법은 훈련용 소스 데이터 (training source data) 및 훈련용 타겟 데이터 (training target data)를 사용하여 가우시안 혼합 모델 (GMM)을 훈련시키고, 상기 훈련에 응하여 변환 기능을 산출하고 그리고 상기 GMM의 자취 수치 (trace measurement)를 계산함으로써 상기 변환 기능의 사용에 앞서 상기 변환 기능의 품질(quality)을 결정하는 것을 포함한다.
또 하나의 바람직한 실시예에서, 피쳐 변환의 효율적인 평가를 제공하는 컴퓨터 프로그램 생성물이 제공된다. 상기 컴퓨터 프로그램 생성물은 컴퓨터판독가능한 프로그램 코드 부분들 (computer-readable program code portions)이 저장되어 있는 적어도 하나의 컴퓨터판독가능 저장 매체를 포함한다. 상기 컴퓨터판독가능 프로그램 코드 부분들은 제1, 제2 및 제3 실행가능 부분들을 포함한다. 제1 실행가능 부분은 훈련용 소스 데이터 및 훈련용 타겟 데이터를 사용하여 가우시안 혼합 모델 (GMM)을 훈련시키기 위한 것이다. 제2 실행가능 부분은 상기 훈련에 응하여 변환 기능을 산출하기 위한 것이다. 제3 실행가능 부분은 상기 GMM의 자취 수치를 계산함으로써 상기 변환 기능의 사용에 앞서 상기 변환 기능의 품질을 결정하기 위한 것이다.
또 하나의 바람직한 실시예에서, 피쳐 변환의 효율적인 평가를 제공하는 장치가 제공된다. 상기 장치는 훈련 모듈 (training module) 및 변환 모듈 (transformation module)을 포함한다. 상기 훈련 모듈은 훈련용 소스 데이터 및 훈련용 타겟 데이터를 사용하여 가우시안 혼합 모델 (GMM)을 훈련시키도록 구성된다. 상기 변환 모듈은 상기 훈련 모듈과 통신한다. 상기 변환 모듈은 상기 GMM의 훈련에 응하여 변환 기능을 산출하도록 구성된다. 상기 훈련 모듈은 상기 GMM의 자취 수치를 계산함으로써 상기 변환 기능의 사용에 앞서 상기 변환 기능의 품질을 결정하도록 더 구성된다.
또 하나의 바람직한 실시예에서, 피쳐 변환의 효율적인 평가를 제공하는 모바일 단말이 제공된다. 상기 모바일 단말은 훈련 모듈 및 변환 모듈을 포함한다. 상기 훈련 모듈은 훈련용 소스 데이터 및 훈련용 타겟 데이터를 사용하여 가우시안 혼합 모델 (GMM)을 훈련시키도록 구성된다. 상기 변환 모듈은 상기 훈련 모듈과 통신한다. 상기 변환 모듈은 상기 GMM의 훈련에 응하여 변환 기능을 산출하고 그리고 상기 GMM을 사용하여 소스 데이터 입력을 타겟 데이터 출력으로 변환하도록 구성된다. 상기 훈련 모듈은 상기 GMM의 자취 수치를 계산함으로써 상기 변환 기능의 사용에 앞서 상기 변환 기능의 품질을 결정하도록 더 구성된다.
또 하나의 바람직한 실시예에서, 피쳐 변환의 효율적인 평가를 제공하는 장치가 제공된다. 상기 장치는 훈련용 소스 데이터 및 훈련용 타겟 데이터를 이용하여 가우시안 혼합 모델 (GMM)을 훈련시키는 수단, 상기 훈련에 응하여 변환 기능을 산출하는 수단 및 상기 GMM의 자취 수치를 계산함으로써 상기 변환 기능의 사용에 앞서 상기 변환 기능의 품질을 결정하는 수단을 포함한다.
본 발명의 실시예들은 TTS 시스템 또는 임의의 다른 피쳐 변환 환경에서의 유리한 사용을 위한 방법, 장치 및 컴퓨터 프로그램 생성물을 제공할 수도 있다. 결과적으로, 예를 들어, 모바일 단말 사용자들은 음성 변환의 사용으로 들리게 되는 TTS 출력 음성들을 커스터마이즈(customize)할 능력을 누릴 수도 있다.
따라서 일반적인 말로 본 발명의 실시예들을 기술하면서, 첨부된 도면들에 대한 언급이 이제 이루어질 것이고, 그 도면들은 반드시 일정한 비례로 그려져 있는 것은 아니다. 여기서
도 1은 본 발명의 바람직한 실시예에 따른 모바일 단말의 도식적인 블록 다이어그램 (block diagram)이고,
도 2는 본 발명의 바람직한 실시예에 따른 무선 통신 시스템의 도식적인 블록 다이어그램이고,
도 3은 본 발명의 바람직한 실시예에 따른 피쳐 변환의 효율적인 평가를 제공하기 위한 장치의 부분들의 블록 다이어그램을 예시하고,
도 4는 본 발명의 바람직한 실시예를 이용하는 제1 실험에서 수집된 자취 수치 계산 데이터를 예시하고,
도 5는 본 발명의 바람직한 실시예를 이용하는 제1 실험에서 수집된 자취 수치 계산 데이터를 예시하고, 그리고
도 6은 본 발명의 바람직한 실시예에 따라 피쳐 변환의 효율적인 평가를 제공하기 위한 바람직한 방법에 따른 블록 다이어그램이다.
이제 첨부된 도면들을 참조하여 본 발명의 실시예들이 이하에서 더 충분하게 기술될 것이고, 그 도면들에서는 본 발명의 몇몇의 실시예들 그러나 모든 실시예들은 아닌 실시예들이 제시된다. 사실, 본 발명은 다수의 다른 형태들로 구현될 수도 있고 이 문서에서 밝히는 실시예들에 제한되는 것으로서 해석되어서는 안될 것이며; 오히려, 적용될 수 있는 법적 요건들을 이 문서 개시가 만족시키도록 이들 실시예들은 제공된다. 이 문서에서 같은 참조 번호들은 같은 요소들을 가리킨다.
도 1은 본 발명의 실시예들을 활용할 모바일 단말(10)의 블록 다이어그램을 예시한다. 그러나, 예시되고 이하에서 기술될 모바일 전화는 본 발명의 실시예들을 활용할 모바일 단말의 하나의 유형을 단지 예시하는 것일 뿐이고, 따라서 본 발명의 실시예들의 범위를 제한하도록 이용되어서는 안될 것이라는 것이 이해되어야 할 것이다. 모바일 단말(10)의 몇몇 실시예들이 예시되고 그리고 이하에서 예를 들기 위해 기술될 것이지만, 다른 유형의 모바일 단말들, 예컨대 PDA(portable digital assistant), 페이저(pager), 모바일 텔레비젼, 랩톱 컴퓨터 (laptop computer) 및 다른 유형의 음성 및 텍스트 통신 시스템이 본 발명의 실시예들을 용이하게 활용할 수 있다.
또한, 본 발명의 방법의 몇몇 실시예들이 모바일 단말(10)에 의해 수행되거나 또는 사용되지만, 그 방법은 모바일 단말과 다른 것에 의해 활용될 수도 있다. 더욱이, 본 발명의 실시예들의 시스템 및 방법은 주로 모바일 통신 어플리케이션과 함께 기술될 것이다. 그러나, 본 발명의 실시예들의 시스템 및 방법은, 모바일 통신 산업 내 그리고 모바일 통신 산업의 밖 양쪽 모두에서, 갖가지 다른 어플리케이션들과 함께 활용될 수 있다는 것이 이해되어야 할 것이다.
모바일 단말(10)은 송신기(14) 및 수신기(16)와의 동작가능한 통신을 하는 안테나(12)를 포함한다. 모바일 단말(10)은 각각 송신기(14) 및 수신기(16)에게 그 리고 각각 송신기(14) 및 수신기(16)로부터 신호들을 제공하고 그리고 수신하는 콘트롤러(controller, 20) 또는 다른 프로세싱 요소를 더 포함한다. 그 신호들은 적용가능한 셀룰러 시스템의 무선 인터페이스 표준 (air interface standard)에 따른 시그널링 정보 (signaling information)를 포함하고, 또한 사용자 음성 및/또는 사용자 생성 데이터도 포함한다. 이 점에 있어서, 모바일 단말(10)은 하나 이상의 무선 인터페이스 표준들, 통신 프로토콜들, 변조 유형들 (modulation types) 및 액세스 유형들 (access types)을 이용하여 동작할 수 있다. 예시로서, 모바일 단말(10)은 다수의 제1, 제2 및/또는 제3-세대 통신 프로토콜들 또는 그와 동종의 것들 중 어느 것에 따라서도 동작할 수 있다. 예를 들어, 모바일 단말(10)은 2세대(2G) 무선 통신 프로토콜들인 IS-136(TDMA), GSM 및 IS-95(CDMA)에 따라, 또는 3세대(3G) 무선 통신 프로토콜들 예컨대 UMTS, CDMA2000 및 TD-SCDMA에 따라 동작할 수도 있다.
콘트롤러(20)는 모바일 단말(10)의 오디오 및 로직 기능들을 구현하는데 요구되는 회로를 포함한다는 것을 알 수 있다. 예를 들어, 콘트롤러(20)는 디지털 신호 프로세서 기기, 마이크로프로세서 기기 및 다양한 아날로그디지털 변환기들, 디지털아날로그 변환기들 및 다른 지원 회로들로 이루어질 수도 있다. 모바일 단말(10)의 제어 및 신호 프로세싱 기능들은 그들 각자의 능력들(capabilities)에 따라 이들 기기들 간에 할당된다. 따라서 콘트롤러(20)는 또한 변조 및 송신에 앞서 메시지 및 데이터를 콘볼루션 부호화하고 (convolutionally encode) 인터리빙(interleaving)하는 기능성(functionality)을 포함할 수도 있다. 콘트롤러(20)는 부가적으로 내부 음성 코더(coder)를 포함할 수 있고, 내부 데이터 모뎀(modem)을 포함할 수도 있다. 또한, 콘트롤러(20)는, 메모리에 저장될 수도 있는 하나 이상의 소프트웨어 프로그램들을 동작시키는 기능성을 포함할 수도 있다. 예를 들어, 콘트롤러(20)는 접속 프로그램, 예컨대 기존의 웹 브라우저를 동작시키는 것이 가능할 수도 있다. 그때 그 접속 프로그램은 모바일 단말(10)로 하여금, 예를 들어 무선 어플리케이션 프로토콜 (Wireless Application Protocol; WAP)에 따라 위치기반 콘텐트 (location-based content)와 같은 웹 콘텐트를 송신 및 수신하도록 허용할 수도 있다. 또한, 예를 들어, 콘트롤러(20)는 텍스트를 분석하고 그 텍스트에 적절한 음악을 선택할 수 있는 소프트웨어 어플리케이션을 동작시키는 것이 가능할 수도 있다. 그 음악은 모바일 단말(10) 상에 저장될 수도 있고 또는 웹 콘텐트로서 액세스될 수도 있다.
모바일 단말(10)은 또한 기존의 이어폰 또는 스피커(24)와 같은 출력 기기, 벨소리장치(ringer, 22), 마이크로폰(26), 디스플레이(28) 및 사용자 입력 인터페이스를 포함하는 사용자 인터페이스를 포함하고, 그들 모두는 콘트롤러(20)에 연결된다. 그 사용자 입력 인터페이스는 모바일 단말(10)이 데이터를 수신할 수 있도록 하는데, 이 사용자 입력 인터페이스는 키패드(30), 터치 디스플레이(미도시) 또는 다른 입력 기기와 같이 모바일 단말(10)이 데이터를 수신할 수 있도록 하는 다수의 기기들 중 어느 것이라도 포함할 수도 있다. 키패드(30)를 포함하는 실시예들에서, 키패드(30)는 기존의 숫자(0-9)와 관련 키들(#, *) 및 모바일 단말(10)을 동작시키기 위해 사용되는 다른 키들을 포함할 수도 있다. 대안적으로, 키패드(30)는 기존 의 QWERTY 키패드 배열을 포함할 수도 있다. 모바일 단말(10)은, 모바일 단말(10)을 동작시키는데 요구되는 다양한 회로들에게 전력공급하는 것 뿐만 아니라 선택적으로는 탐지가능한 출력으로서 기계적 진동을 제공하도록 배터리(34), 예컨대 진동 배터리 팩 (vibrating battery pack)을 더 포함한다.
모바일 단말(10)은 범용 식별 모듈 (universal identity module; UIM, 38)을 더 포함할 수도 있다. UIM(38)은 전형적으로, 빌트인(built in)된 프로세서를 가지는 메모리 기기이다. UIM(38)은, 예를 들어, 가입자 식별 모듈 (subscriber identity module; SIM), 범용 집적 회로 카드 (universal integrated circuit card; UICC), 범용 가입자 식별 모듈 (universal subscriber identity module; USIM), 착탈식 사용자 식별 모듈 (removable user identity module; R-UIM) 등을 포함할 수도 있다. UIM(38)은 전형적으로 모바일 가입자에 관련된 정보 요소들을 저장한다. UIM(38)에 더하여, 모바일 단말(10)은 메모리를 구비할 수도 있다. 예를 들어, 모바일 단말(10)은, 데이터의 일시적 저장을 위한 캐쉬 영역을 포함하는, 휘발성 메모리(40), 예컨대 휘발성 RAM(Random Access Memory)을 포함할 수도 있다. 모바일 단말(10)은 또한, 엠베디드(embedded)될 수 있는 그리고/또는 착탈가능할(removable) 수도 있는, 다른 비휘발성 메모리(42)를 포함할 수도 있다. 비휘발성 메모리(42)는 부가적으로 또는 대안적으로, EEPROM, 플래쉬 메모리 또는 그와 동종의 것, 예컨대 캘리포니아(California)주 서니베일(Sunnyvale)에 있는 SanDisk Corporation 또는 캘리포니아주 프레몬트(Fremont)에 있는 Lexar Media Inc.에서 나온 유용한 것을 포함할 수 있다. 그 메모리들은 모바일 단말(10)의 기능들을 구 현하기 위해 모바일 단말(10)에 의해 사용되는 다수의 정보 및 데이터 어느 것이라도 저장할 수 있다. 예를 들어, 그 메모리들은, 모바일 단말(10)을 고유하게 식별할 수 있는, 국제 모바일 장비 식별 (international mobile equipment identification; IMEI) 코드와 같은 식별자(identifier)를 포함할 수 있다.
이제 도 2를 참조하면, 본 발명의 실시예들을 활용할 시스템의 하나의 유형을 예시하고 있다. 그 시스템은 복수의 네트워크 기기들을 포함한다. 보여지는 바와 같이, 하나 이상의 모바일 단말들(10)은 각각 기지 사이트 (base site) 또는 기지국(base station;BS) (44)에게 신호들을 송신하고 거기로부터 신호들을 수신하는 안테나(12)를 포함할 수도 있다. 기지국(44)은 이동전화교환국(mobile switching center; MSC, 46)과 같이, 네트워크를 동작시키는데 요구되는 요소들을 각각이 포함하는 하나 이상의 셀룰러 또는 모바일 네트워크들의 일부일 수도 있다. 관련 기술분야에서 숙련된 자들에게 잘 알려진 바와 같이, 그 모바일 네트워크는 또한 기지국/MSC/상호작용(Interworking) 기능(BMI)로 언급될 수도 있다. 동작에 있어서, MSC(46)는 모바일 단말(10)이 전화를 걸고 받고 있을 때 모바일 단말(10)로의 그리고 모바일 단말(10)로부터의 전화들을 라우팅할 수 있다. MSC(46)는 또한 모바일 단말(10)이 전화를 하고 있을 때 지상통신선 전화 중계 회선들 (landline trunks)로의 연결을 제공할 수 있다. 게다가, MSC(46)는 모바일 단말(10)에게 그리고 모바일 단말(10)로부터의 메시지들의 포워딩을 제어할 수 있고, 또한 메시징 센터 (messaging center)에게 그리고 메시징 센터로부터의 모바일 단말(10)을 위한 메시지들의 포워딩을 제어할 수 있다. 비록 MSC(46)가 도 2의 시스템에서 제시됨에도 불구하고, MSC(46)는 단지 바람직한 네트워크 기기일 뿐이고 본 발명의 실시예들은 MSC를 이용하는 네트워크에서의 사용으로 제한되지 않는다.
MSC(46)는, 근거리 통신망 (local area network; LAN), 도시 지역 통신망 (metropolitan area network; MAN) 및/또는 광역 통신망 (wide area network; WAN)과 같은 데이터 네트워크에 연결될 수 있다. MSC(46)는 그 데이터 네트워크에 직접 연결될 수 있다. 그러나, 하나의 전형적인 실시예에서, MSC(46)는 GTW(48)에 연결되고, GTW(48)는 인터넷(50)과 같은 WAN에 연결된다. 차례로, 프로세싱 요소들(예: 개인용 컴퓨터들, 서버 컴퓨터들 또는 그와 동종의 것)과 같은 기기들은 인터넷(50)을 거쳐 모바일 단말(10)에 연결될 수 있다. 예를 들면, 아래에서 설명할 것과 같이, 그 프로세싱 요소들은 아래에서 기술되는 것들과 같은 컴퓨팅 시스템 (computing system, 52)(2개가 도 2에서 보여짐), 원 서버 (origin server, 54) (1개가 도 2에서 보여짐) 또는 그와 동종의 것과 관련된 하나 이상의 프로세싱 요소들을 포함할 수 있다.
BS(44)는 또한 시그널링 GPRS(General Packet Radio Service) 지원 노드 (SGSN)(56)에 연결될 수 있다. 관련 기술분야에서 숙련된 자들에게 알려진 바와 같이, SGSN(56)은 전형적으로 패킷 교환 서비스들 (packet switched services)을 위해 MSC(46)와 유사한 기능들을 수행할 수 있다. MSC(46)와 같이, SGSN(56)도 인터넷(50)과 같은 데이터 네트워크에 연결될 수 있다. SGSN(56)는 그 데이터 네트워크에 직접 연결될 수 있다. 그러나, 더 전형적인 실시예에서, SGSN(56)은 GPRS 코어 네트워크(58)와 같은 패킷교환 코어 네트워크에 연결된다. 그 다음에 그 패킷교환 코어 네트워크는 GTW GPRS 지원 노드(GGSN)(60)와 같은 또 하나의 GTW(48)에 연결되고, GGSN(60)은 인터넷(50)에 연결된다. GGSN(60)에 더하여, 그 패킷교환 코어 네트워크는 또한 GTW(48)에 연결될 수 있다. 또한, GGSN(60)은 메시징 센터에 연결될 수 있다. 이 점에 있어서, MSC(46)과 같이, GGSN(60) 및 SGSN(56)은 MMS 메시지들과 같은 메시지들의 포워딩을 제어가능할 수도 있다. GGSN(60) 및 SGSN(56)은 또한 그 메시징 센터에게 그리고 그 메시징 센터로부터의 모바일 단말(10)을 위한 메시지들의 포워딩을 제어가능할 수도 있다.
게다가, SGSN(56)을 GPRS 코어 네트워크(58) 및 GGSN(60)에 연결함으로써, 컴퓨팅 시스템(52) 및/또는 원 서버(54)와 같은 기기들은 인터넷(50), SGSN(56) 및 GGSN(60)을 거쳐 모바일 단말(10)에 연결될 수도 있다. 이 점에 있어서, 컴퓨팅 시스템(52) 및/또는 원 서버(54)와 같은 기기들은 SGSN(56), GPRS 코어 네트워크(58) 및 GGSN(60)을 거쳐 모바일 단말(10)과 통신할 수도 있다. 모바일 단말들(10) 및 그 다른 기기들(예: 컴퓨팅 시스템(52), 원 서버(54) 등)을 인터넷(50)에 직접 또는 간접으로 연결함으로써, 모바일 단말(10)은, 예컨대 HTTP(Hypertext Transfer Protocol)에 따라, 그 다른 기기들과 그리고 서로와 통신하여 그에 의해 모바일 단말(10)의 다양한 기능들을 실행할 수도 있다.
비록 모든 가능한 모바일 네트워크의 모든 요소가 이 문서에서 보여지고 기술되지는 않았지만, 모바일 단말(10)은 BS(44)를 통해 다수의 다른 네트워크들 중 어느 하나 이상의 네트워크와도 연결될 수도 있다는 것이 인식되어야 할 것이다. 이 점에 있어서, 그 네트워크(들)는 다수의 제1세대(1G), 제2세대(2G), 2.5G 및/또 는 제3세대(3G) 모바일 통신 프로토콜들 또는 그와 동종의 것 중 어느 하나 이상의 프로토콜 등에 따라 통신을 지원가능할 수 있다. 예를 들어, 그 네트워크(들) 중 하나 이상은 2G 무선 통신 프로토콜들인 IS-136(TDMA), GSM 및 IS-95(CDMA)에 따라 통신을 지원가능할 수 있다. 또한, 예를 들어, 그 네트워크(들) 중 하나 이상은 2.5G 무선 통신 프로토콜들인 GPRS, 강화 데이터 GSM 환경(Enhanced Data GSM Environment; EDGE) 또는 그와 동종의 것에 따라 통신을 지원가능할 수 있다. 또한, 예를 들어, 그 네트워크(들) 중 하나 이상은 광대역 코드 분할 다중 접속 (Wideband Code Division Multiple Access; WCDMA) 무선 액세스 기술을 이용하는 범용 모바일 전화 시스템 (Universal Mobile Telephone System; UMTS) 네트워크와 같은 3G 무선 통신 프로토콜들에 따라 통신을 지원가능할 수 있다. 어떤 협대역 AMPS (NAMPS) 뿐만 아니라 TACS, 네트워크(들)는 또한, 이중 또는 그보다 더 높은 모드 이동국들 (예: 디지털/아날로그 또는 TDMA/CDMA/아날로그 전화들)이 그래야 할 것처럼, 본 발명의 실시예들을 활용할 수도 있다.
모바일 단말(10)은 하나 이상의 무선 액세스 포인트들(APs, 62)에 더 연결될 수 있다. AP들(62)은, 예를 들어, 무선 주파수 (radio frequency; RF), 블루투스(Blutooth; BT), 적외선(Infrared;IrDA) 또는 IEEE 802.11 (예: 802.11a, 802.11b, 802.11g, 802.11n 등)과 같은 무선 LAN (WLAN) 기술들, IEEE 802.16과 같은 WiMAX 기술들 및/또는 IEEE 802.15와 같은 초광대역(UWB) 기술들이거나 그와 동종의 것을 포함하는 다수의 서로 다른 무선 네트워킹 기술들 중 어느 것과 같은 기술들에 따라 모바일 단말(10)과 통신하도록 구성되는 액세스 포인트들을 포함할 수 도 있다. AP들(62)은 인터넷(50)에 연결될 수도 있다. MSC(46)에 관해서처럼, AP들(62)은 인터넷(50)에 직접 연결될 수 있다. 그러나, 하나의 실시예에서, AP들(62)은 GTW(48)를 거쳐 인터넷(50)에 간접적으로 연결된다. 게다가, 하나의 실시예에서, BS(44)는 또 하나의 AP(62)로서 간주될 수도 있다. 인식될 바와 같이, 모바일 단말들(10)과 컴퓨팅 시스템(52), 원 서버(54) 및/또는 다수의 다른 기기들 중 어느 것을 인터넷(50)에 직접 또는 간접으로 연결함으로써, 모바일 단말들(10)은 서로와, 그 컴퓨팅 시스템 등과 통신할 수 있어, 그에 의해 컴퓨팅 시스템(52)에게 데이터, 콘텐트 또는 그와 동종의 것을 송신하고 그리고/또는 컴퓨팅 시스템(52)으로부터 콘텐트, 데이터 또는 그와 동종의 것을 수신하는 것과 같은, 모바일 단말(10)들의 다양한 기능들을 실행할 수 있다. 이 문서에서 사용되는 것으로서, "데이터", "콘텐트", "정보" 및 유사한 용어들은 본 발명의 실시예들에 따라 송신, 수신 및/또는 저장되어질 수 있는 데이터를 언급하기 위해 교환가능하게 사용될 수도 있다. 따라서, 어떠한 이러한 용어들의 사용도 본 발명의 실시예들의 사상 및 범위를 제한하도록 해석되어서는 안될 것이다.
비록 도 2에서 도시되지는 않았지만, 모바일 단말(10)을 인터넷(50)을 거쳐 컴퓨팅 시스템들(52)에 연결하는 것에 부가하여 또는 대신하여, 모바일 단말(10) 및 컴퓨팅 시스템(52)은 서로에게 연결될 수도 있고 RF, BT, IrDA 또는 LAN, WLAN, WiMAX 및/또는 UWB 기술들을 포함하는 다수의 서로 다른 유선 또는 무선 통신 기술들 중 어느 것에 따라 통신할 수도 있다. 컴퓨팅 시스템들(52) 중 하나 이상은 부가적으로 또는 대안적으로, 이후에 모바일 단말(10)로 전송될 수 있는 콘텐트를 저 장할 수 있는 착탈가능 메모리를 포함할 수 있다. 또한, 모바일 단말(10)은 프린터, 디지털 프로젝터 및/또는 다른 멀티미디어 캡쳐(capturing), 생산 및/또는 저장 기기들 (예: 다른 단말들)과 같은 하나 이상의 전자 기기들에 연결될 수 있다. 컴퓨팅 시스템들(52)에 관해서처럼, 모바일 단말(10)은 예를 들어, RF, BT, IrDA 또는 USB, LAN, WLAN, WiMAX 및/또는 UWB 기술들을 포함하는 다수의 서로 다른 유선 또는 무선 통신 기술들 중 어느 것과 같은 기술들에 따라 휴대용 전자 기기들과 통신하도록 구성될 수도 있다.
이제 본 발명의 바람직한 실시예가 도 3을 참조하여 기술될 것이고, 도 3에서는 피쳐 변환에서의 효율적인 평가를 제공하는 시스템의 일정 요소들이 디스플레이된다. 도 3의 시스템은, 예를 들어, 도 1의 모바일 단말(10) 상에서 이용될 수도 있다. 그러나, 도 3의 시스템은 또한 이동식 및 고정식 양쪽 모두의 갖가지 다른 기기들 상에서 사용될 수도 있고, 그러므로, 본 발명의 실시예들은 도 1의 모바일 단말(10)과 같은 기기들 상에서의 적용에 제한되어서는 안될 것이라는 것이 유념되어야 할 것이다. 그러나, 또한 도 3은 피쳐 변환에서의 효율적인 평가를 제공하는 시스템의 구성의 하나의 예를 예시하지만, 수많은 다른 구성들이 또한 본 발명의 실시예들을 구현하는데 사용될 수도 있다는 것도 있다는 것이 유념되어야 할 것이다. 게다가, 도 3은 가우시안 혼합 모델들 (GMMs)을 사용하는 음성 변환이 실행되는 바람직한 실시예를 예시하기 위해 문자음성(TTS) 변환의 상황(context)에서 기술될 것이지만, 본 발명은 반드시 TTS의 상황에서 실행될 필요는 없고, 대신에 더 일반적으로 피쳐 변환에 적용된다. 따라서, 본 발명의 실시예들은 또한, 예를 들 어, 게임용 기기들에서의 음성 또는 소리 발생, 화자(speaker)의 신원을 감추는 것이 바람직한 채팅 또는 다른 어플리케이션들, 통역 어플리케이션들 등에서의 음성 변환의 상황에서와 같은 다른 바람직한 적용예들로 실행될 수도 있다.
이제 도 3을 참조하면, 피쳐 변환에 있어서의 효율적인 평가를 제공하는 시스템이 제공된다. 그 시스템은 훈련 모듈(72) 및 변환 모듈(74)을 포함한다. 훈련 모듈(72) 및 변환 모듈(74) 각각은 아래에서 기술될 바와 같은 해당 모듈들 각각에 관련된 각자의 기능들을 실행할 수 있는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합 중 어느 하나로 구현되는 어느 기기 또는 수단일 수도 있다. 바람직한 실시예에서, 훈련 모듈(72) 및 변환 모듈(74)은 모바일 단말의 메모리 상에 저장되고 콘트롤러(20)에 의해 실행되는 명령들(instructions)과 같은 소프트트웨어로 구현된다. 비록 도 3은 훈련 모듈(72)이 변환 모듈(74)과 분리된 요소인 것으로서 예시하고 있지만, 훈련 모듈(72) 및 변환 모듈(74)은 또한 훈련 모듈(72) 및 변환 모듈(74) 양쪽 모두의 기능들을 수행할 수 있는 단일 모듈 또는 기기로 배열되거나 구현될 수도 있다는 것이 유념되어야 할 것이다. 부가적으로, 상기에서 언급된 바와 같이, 본 발명의 실시예들은 TTS 어플리케이션들로 제한되는 것은 아니다. 따라서, 상기에서 열거된 바람직한 어플리케이션들과 관련된 데이터 입력들을 포함하는, 그러나 이에 제한되지는 않는, 변환, 컨버전(변환), 압축 등을 위한 데이터 입력을 생산할 수 있는 임의의 기기 또는 수단이 도 3의 시스템을 위한 소스 음성 (source speech, 80)과 같은 데이터 소스를 제공하는 것으로서 상상된다. 본 바람직한 실시예에 따라, 컴퓨터 텍스트로부터 합성된 음성을 산출할 수 있는 TTS 요소는 소스 음성(80)을 제공할 수도 있다. 그때 소스 음성(80)은 변환 모듈(74)로의 통신에 제공될 수도 있다.
변환 모듈(74)은 소스 음성(80)을 타겟 음성(82)으로 변환할 수 있다. 이 점에 있어서, 변환 모듈(74)은 본질적으로 소스 음성(80)을 타겟 음성(82)으로 변환시키기 위한 훈련된 GMM인 변환 모델을 만들어내도록 활용될 수도 있다. 그 변환 모델을 만들어내기 위해, GMM은 훈련용 소스 음성 데이터(84) 및 훈련용 타겟 음성 데이터(86)를 사용하여 변환 기능(78)을 결정하도록 훈련되고, 그리고 나서 변환 기능(78)은 소스 음성(80)을 타겟 음성(82)으로 변환하도록 사용될 수도 있다.
변환 기능(78)을 이해하기 위해, 소정의 배경 정보가 제공된다. 만일 데이터집합이 예를 들어, 기대값 최대화(expectation maximization; EM)와 같은 고전적인 알고리즘들을 사용하여, 관련 기술분야에서 숙련된 자에 의해 결정될 만큼 충분히 길다면, GMM 분포 랜덤 변수 (GMM distributed random variable) z의 확률 밀도 함수(probability density function; PDF)는 z 샘플들 [ Z 1 Z 2 ... Z t ... Z p ]의 시퀀스로부터 추정될 수 있다. z=[ x T y T ] T 가 결합 변수(joint variable)인 특정한 경우에, z의 분포(distribution)는 변수들 xy 간의 확률적 맵핑(probabilistic mapping)에 활용될 수 있다. 따라서, 바람직한 음성 변환 어플리케이션에서, xy는 각각 소스 및 타겟 화자의 유사한 특징들에 대응할 수도 있다. 예를 들어, xy는 각각 소스 및 타겟 화자의 음성들의 주어진 짧은 단편으로부터 추출된 선 스펙트럼 주파수(line spectral frequency; LSF)에 대응할 수도 있다.
z의 분포는 GMM에 의해 수학식 1에서처럼 모델링될 수도 있다.
Figure 112008077081768-pct00001
여기서
Figure 112008077081768-pct00002
은 콤포넌트
Figure 112008077081768-pct00003
(
Figure 112008077081768-pct00004
그리고
Figure 112008077081768-pct00005
)에 대한 z의 사전 확률(prior probability)이고, L은 혼합(mixture) 수를 표시하고 그리고
Figure 112008077081768-pct00006
은 평균
Figure 112008077081768-pct00007
및 공분산 매트릭스
Figure 112008077081768-pct00008
을 가진 정규 분포 (Gaussian distribution)를 나타낸다. GMM의 파라미터들은 EM 알고리즘을 사용하여 추정될 수 있다. 실제 변환에 관하여, 바람직한 것은 변환된 F(X t )가 훈련 집합 내 모든 데이터에 대하여 타겟 y t 를 가장 훌륭하게 매칭시키도록 하는 함수 F(.)이다.
소스 피쳐 X t 를 타겟 피쳐 y t 로 변환하는 변환 기능은 수학식 2에 의해 주어진다.
Figure 112008077081768-pct00009
가중치부여하는 항들인
Figure 112008077081768-pct00010
는 소스 피쳐 벡터 x t 가 다른 콤포넌트들에 속하는 조건 확률들로 선택된다.
변환 모듈(74)에서 변환을 수행하기 위해, 수학식 1에 의해 주어진 것과 같은 GMM은 초기에 훈련 모듈(72)에 의해 훈련된다. 이 점에 있어서, 훈련 모듈(72)은 훈련용 소스 음성 데이터(84) 및 훈련용 타겟 음성 데이터(86)를 포함하는 훈련용 데이터를 수신한다. 바람직한 실시예에서, 그 훈련용 데이터는, 예를 들어, 소스 음성에 의해 말해지는 기결정된 수의 문장들에 대응하는 오디오 및 그에 대응하는, 예를 들어 데이터베이스에 저장될 수도 있는 타겟 음성에 의해 말해지는 기결정된 수의 문장들의 각각의 오디오를 나타낼 수도 있다. 바람직한 실시예에서, 훈련용 타겟 음성 데이터(86)는 사용자로 하여금 그 소스 음성으로 레코딩되는 저장 구절들에 대응하는 타겟 음성 발언 문장들을 입력하도록 프롬프팅함으로써(prompting) 획득될 수도 있다. 환언하면, 모바일 단말(10)은 소스 음성으로 레코딩되었던 미리 레코딩된 일정 문장들을 사용자가 반복하도록 요청되는 동안 훈련 프로그램을 실행할 수도 있다. 따라서, 사용자가 그 사용자의 타겟 음성으로 그 문장들을 반복할 때, 그 훈련용 데이터는 획득될 수도 있다.
훈련 모듈(72)은 변환 모델을 구성하도록 그 훈련용 데이터를 반복적으로 프로세싱한다. 본질적으로, 훈련 모듈(72)은 훈련용 소스 음성 데이터(84) 및 훈련용 타겟 음성 데이터(86)를 사용하여 훈련용 소스 음성 데이터(84)로부터 훈련용 타겟 음성 데이터(86)로의 상대적으로 고품질의 변환을 제공하는 변환 기능(78)을 발견하게 한다. 그리고 나서, 한번 훈련 모듈(72)이 그 변환 모델을 결정하면, 변환 모듈(74)은 변환 기능(78)을 이용하여 타겟 음성(82)을 소스 음성(80)의 임의의 입력에 대한 응답인 출력으로서 제공할 수도 있다. 환언하면, 변환 기능(78)이 결정될 때, 변환 모듈(74)은 임의의 소스 음성 입력으로부터 대응하는 타겟 음성 출력으로 변환하도록 "훈련되는" 것으로 생각될 수도 있다.
상기에서 진술한 바와 같이, 훈련 모듈(72)은 상대적으로 고품질 변환을 제공하는 것을 추구한다. 이전의 방법들에서, 변환의 품질 레벨에 관한 결정은 테스팅 또는 확인 데이터를 이용하여 이루어졌다. 간단하게 상기에서 기술된 바와 같이, 변환 (또는 변환 에러)에 관한 MSE는 테스팅을 위해 사용되는 타겟 음성 데이터 및 테스팅을 위해 사용되는 소스 음성 데이터의 변환으로부터 얻어지는 변환된 음성 간의 차 또는 차이를 결정하도록 계산될 수 있다. 환언하면, 이전의 방법들에 따라, 훈련용 데이터는 변환 기능을 달성하기 위해 사용되었다. 그때 변환 기능은 변환의 품질 레벨을 결정하기 위해 사용될 수 있는 테스팅 데이터에 대하여 변환들을 수행함으로서 확인될(validated) 수 있다. 따라서, 메모리는 훈련 및 테스팅 데이터 양쪽 모두에 대해 바쳐져야 했고 프로세싱은 적절한 변환 기능이 결과로 나올 때까지 다수의 반복되는 훈련 및 테스팅 전개(evolution)들을 야기할 수 있다. 테스팅을 위해 사용되는 타겟 음성 데이터 및 테스팅을 위해 사용되는 소스 음성 데이터의 변환으로부터 얻어지는 변환된 음성 간의 차 또는 차이는 최소값이 될 것으로 희망되었다. 수학식 3은 차(D)에 관한 등식을 나타내고, 여기에서 GMM의 파라미터들의 최적화는 D가 최소화될 때 이루어진다.
Figure 112008077081768-pct00011
본 발명의 바람직한 실시예들은 GMM의 훈련 국면 동안 GMM의 품질 또는 자취 수치를 측정함으로써 테스팅 데이터의 감소 또는 제거를 할 수 있게 한다. 본 발명의 바람직한 실시예에 따라, 변환 에러를 추정하는 또 하나의 접근법은 x가 주어질 때 y의 분포의 분산(variance), 즉
Figure 112008077081768-pct00012
을 이용하여 데이터/모델 통계에서 얻어질 수 있다.
Figure 112008077081768-pct00013
는 그 매핑의 불확실성의 수치로서 간주될 수 있다. 일반적으로 말하자면,
Figure 112008077081768-pct00014
가 더 좁을수록, 그 변환은 더 정확하게 될 가능성이 높다. 이 개념은 수학식 3에 직접 관련되고 품질 사정 (quality assessment) 을 위한 좋은 대용자이다. 따라서, 이론상 GMM의 품질은 자취 수치 Q를 산정하는 수학식 4를 이용하여 측정될 수 있다.
Figure 112008077081768-pct00015
실제로, 모델 품질의 추정은 변수들의 각각 다른 혼합을 고려하는 것을 수반한다. 따라서, 계산은 각각의 혼합에 대하여 수행되어야 한다. 그러므로, 수학식 4는 컴퓨팅하는데 있어 계산하기에 복잡할 수 있다. 그러나, 그 계산의 복잡성을 감소시키기 위하여 수학식 5의 근사치가 수학식 4를 대신할 수도 있다.
Figure 112008077081768-pct00016
수학식 5에서, tr(.)은 매트릭스의 자취(trace)를 표시하고
Figure 112008077081768-pct00017
Figure 112008077081768-pct00018
번째 콤 포넌트에 대한 가중치이다. 따라서, 자취 수치 Q는 그 자취 수치가 효율적으로 GMM 성능의 평가를 위해 사용될 수 있도록 더 단순하고 빠르게 계산될 수도 있다.
GMM은 또한, 예를 들어, DCT (discrete cosine transform) 도메인 피쳐들에 대하여도 적용될 수도 있다. DCT된 피쳐들의 비상관화(de-correlation) 경향은 거의 대각선의 공분산 행렬을 보증하고, 그에 의해 수학식 5의 자취 수치를 더욱 정확하게 한다. 그러나, 어쨌든, GMM 모델은 그 자취 수치 (Q 값)가 비교되게 감소할 때 더 잘 수행된다. 그 자취 수치는 매우 효율적으로 계산될 수 있고 그 측정은 임의의 확인 데이터 없이 그 변환 모델 자체 상에 직접 행해질 수 있기 때문에, 그 자취 수치는, 예를 들어, 훈련 모듈(72)을 더 좋은 모델링으로 이끄는데 사용될 수 있다. 예를 들어, 훈련 동안, 훈련 집합 데이터를 적용하고 결과적인 변환 기능(78)을 위해 대응하는 Q 값을 계산하는 것의 몇몇 반복들이 있을 수도 있다.
본 발명의 하나의 바람직한 실시예에서, 훈련 집합 데이터를 적용하고 결과적인 변환 기능(78)의 대응하는 Q 값을 계산하는 각 반복 후에, 그 대응하는 Q 값 또는 Q 값의 변화가 문턱값(threshold)과 비교될 수도 있다. 예를 들어, Q 값 또는 자취 수치에 기반한 어떤 다른 종료 기준(termination criterion)에서의 변화가 사용될 수도 있다. 바람직한 실시예에서, 만일 Q 값이 문턱값 아래라면, 그때는 그 결과적인 변환 기능(78)은 소스 음성으로부터 용인할 수 있는 품질의 타겟 음성으로의 변환을 산출할 가능성이 높다고 생각될 수도 있다. 따라서, 만약 Q 값이 문턱값 아래이면, 변환 기능을 달성하기 위해 그 훈련용 데이터를 적용하는 것의 추가적인 반복들이 요구되지 않고 현재의 결과적인 변환 모델이 사용된다. 한편, 만일 Q 값이 문턱값보다 높다면, 그 훈련용 데이터를 적용하는 것의 추가적인 반복들이 수행될 수도 있거나, 변환 모델이 수정될 수도 있거나, 다른 훈련용 데이터가 획득될 수도 있거나 또는 변환 기능(78)에 대한 수많은 다른 수정들 중 어느 것이 다음의 동작들을 위해 Q 값을 향상시키려는 노력으로 착수될 수도 있다. 그 문턱값은 그 변환 모델의 품질이 거기에서 또는 거기 이하에서 용인가능한 자취 값 (trace value)일 수도 있다. 그 문턱값은 수많은 조건들 하에서 변하는 값을 가질 수도 있다. 예를 들어, 그 문턱값의 값은, 예를 들어, 혼합 수(a number of mixtures), 데이터의 범위 (range of data), 데이터에 관한 알려진 통계적 특성들, 차원 수(a number of dimensions) 등에 의존할 수도 있다.
대안적인 바람직한 실시예에서, 훈련 집합을 적용하고 결과적인 변환 기능을 위해 대응하는 Q 값을 계산하는 것의 몇몇 반복들이 수행될 수도 있다. 그러나, 이 대안적인 실시예에서, 그 Q 값들의 각각은 서로 비교될 수도 있고 가장 낮은 Q 값과 관련된 결과적인 변환 기능이 사용을 위해 선택될 수도 있다.
자취 수치가 매우 효율적으로 계산될 수 있기 때문에, 본 발명의 실시예들은 컴퓨팅 또는 메모리 리소스들이 제한되는 엠베디드 어플리케이션들에서 사용하기에 유리하다. 그러나, 본 발명의 실시예들은 또한 컴퓨팅 리소스들이 제한되지 않는 어플리케이션들에서 유리하게 적용될 수도 있는데, 왜냐하면 본 발명의 실시예들은 용인가능한 품질의 변환 모델을 산출하기에 필요한 다수의 반복들을 감소시킬 수도 있기 때문이다.
음성 변환의 정황에서 본 발명의 바람직한 실시예를 이용하여, 음성 인식에 있어서 중요한 음조 및 선 스펙트럼 주파수 (LSF) 파라미터들의 연구들에서 실제적인 결과들이 얻어졌다. 시험 케이스에서, 두 화자들 (한 명의 남성 및 한 명의 여성) 대상의 대비 발언들이 훈련(90개 문장들) 및 테스팅(99개 문장들)을 위해 사용되었다. 그 모델들은 EM 알고리즘을 이용하여 훈련되었다.
도 4 및 도 5는 본 발명의 바람직한 실시예를 활용한 첫 번째 실험에서 수집된 데이터를 보여준다. 그 첫 번째 실험은 자취 수치가 서로 다른 혼합 수들을 가지는 서로 다른 모델들을 의미있게 평가할 수 있다는 것을 입증하기 위해 수행되었다. 도 4 및 도 5는, 이 바람직한 실시예에서, Q 값의 감소율은 약 8개 혼합들 이후에 점점 작아지기 시작한다는 것을 보여준다. 그러나, 컴퓨팅 부하는 혼합 수가 증가함에 따라 증가한다. 따라서, 상대적으로 낮은 Q 값 (즉, 고품질 변환) 및 상대적으로 낮은 컴퓨팅 부하 간의 훌륭한 트레이드오프(tradeoff)를 제공하기 위해 LSF 및 음조에 관한 설치물(fixture)들의 적합한 수는 8에서 16 혼합들 사이가 되도록 선택될 수도 있다.
두 번째 실험은 또한 MSE를 활용하는 기존의 테스팅 메커니즘과 자취 수치를 비교하는 것이 수행되었다. 그 두 번째 실험에서, 다시 음조 및 LSF 파라미터들은 평가되었다. 훈련은 정규화된 데이터 (normalized data)에 대해 행해졌다 (즉, 그 피쳐들은 먼저 스케일링(scaling)되었고 DCT되었다). 표 1은 기존의 기술들에 따라 MSE를 이용하여 평가된 GMM 성능을 보여준다. 이에 따라, 훈련 및 테스팅은 남성대여성 변환 및 여성대남성 변환에 대해 수행되었다. 표 1은 남성대여성 변환은 여성대남성 변환보다 더 좋은 품질 (더 적은 에러들)을 가진다는 것을 보여준다. 표 1 은 또한 이 실험에서 사용된 데이터에 대하여, LSF 모델 1은 LSF 모델 2를 능가한다는 것 - 즉 LSF 모델 1은 LSF 모델 2보다 성능이 낫다는 것 - 을 보여준다. 한편, 표 2는 수학식 5에 따라 자취 수치들을 이용하여 평가된 GMM 성능을 보여준다. 표 2에서 보여지는 바와 같이, 남성대여성 변환은 여성대남성 변환보다 더 좋은 품질 (더 적은 에러들)을 갖고 LSF 모델 1은 LSF 모델 2를 능가한다. 이에 따라서, 표 1 또는 표 2를 조사함으로써 모델들의 품질에 관하여 같은 결론들이 도출될 수 있다. 따라서, 상대적으로 더 적은 컴퓨팅 복잡성을 위하여 그리고 어떠한 테스팅 데이터 요건도 필요없이, 그 자취 수치는 변환 작업에서의 GMM 품질 및 성능의 효과적인 그리고 효율적인 측정치으로 생각될 수 있다.
여성대남성 남성대여성
테스트 집합
(Test set)
음조(유성음(voiced)) 212 95
LSF 모델 1 17438 16515
LSF 모델 2 18213 16931
훈련 집합
(Train Set)
음조(유성음(voiced)) 224 91
LSF 모델 1 17199 16234
LSF 모델 2 18050 17054
- 표1 : MSE를 이용하여 평가된 GMM 성능 (정규화된 피쳐들)
여성대남성 남성대여성
음조(유성음(voiced)) 0.785 0.473
LSF 모델 1 4.764 4.609
LSF 모델 2 5.029 4.886
- 표 2 : 자취를 이용하여 평가된 GMM 성능 (정규화된 피쳐들)
도 6은 본 발명의 바람직한 실시예들에 따른 시스템, 방법 및 프로그램 생성물의 흐름도이다. 흐름도들의 각 블록 또는 단계 및 흐름도들에서 블록들의 조합들은은 하드웨어, 펌웨어 및/또는 하나 이상의 컴퓨터 프로그램 명령들을 포함하는 소프트웨어와 같은 다양한 수단으로 구현될 수 있다는 것이 이해될 것이다. 예를 들어, 상기에서 기술된 처리절차들 중 하나 이상이 컴퓨터 프로그램 명령들에 의해 구현될 수도 있다. 이 점에 있어서, 상기에서 기술된 처리절차들을 구현하는 컴퓨터 프로그램 명령들은 모바일 단말의 메모리 기기에 의해 저장되고 모바일 단말 내 빌트인 프로세서에 의해 실행될 수도 있다. 인식될 바와 같이, 어떠한 이러한 컴퓨터 프로그램 명령들도 기계를 생산하기 위한 컴퓨터 또는 다른 프로그램가능한 장치(즉, 하드웨어) 상에 로딩되어, 그 컴퓨터 또는 다른 프로그램가능한 장치 상에서 실행되는 그 명령들이 그 흐름도의 블록(들) 또는 단계(들)에 상술된 기능들을 구현하는 수단을 생성하도록 할 수도 있다. 이들 컴퓨터 프로그램 명령들은 또한 컴퓨터 또는 다른 프로그램가능한 장치로 하여금 또한 특별한 방식으로 기능하도록 지시할 수 있는 컴퓨터판독가능 메모리 내에 저장되어, 그 컴퓨터판독가능 메모리 내에 저장된 그 명령들이 그 흐름도 블록(들) 또는 단계(들)에 상술된 기능을 구현하는 명령 수단을 포함하는 제조 물품을 생산하도록 할 수도 있다. 또한 그 컴퓨터 프로그램 명령들은 일련의 동작 단계들이 컴퓨터구현(computer-implemented) 공정을 만들어내는 컴퓨터 또는 다른 프로그램가능한 장치 상에서 수행되도록 하기 위해 그 컴퓨터 또는 다른 프로그램 가능한 장치 상에 로딩되어 그 컴퓨터 또는 다른 프로그램가능한 장치 상에서 실행되는 그 명령들이 그 흐름도 블록(들) 또는 단계(들)에서 상술된 기능들을 구현하는 단계들을 제공하도록 할 수도 있다.
따라서, 흐름도들의 블록들 또는 단계들은 그 상술된 기능들을 수행하는 수단들의 조합들, 그 상술된 기능들을 수행하는 단계들의 조합들 및 그 상술된 기능들을 수행하는 프로그램 명령 수단들을 지원한다. 또한 그 흐름도들의 하나 이상의 블록들 또는 단계들 및 그 흐름도 내 블록들 또는 단계들의 조합들은 그 상술된 기능들 또는 단계들을 수행하는 특수 목적 하드웨어기반 컴퓨터 시스템들 또는 특수 목적 하드웨어 및 컴퓨터 명령들의 조합들로써 구현될 수 있다는 것이 이해될 것이다.
이 점에 있어서, 피쳐 변환의 효율적인 평가를 제공하는 방법의 하나의 실시예는 동작단계(100)에서 훈련용 소스 데이터 및 훈련용 타겟 데이터를 사용하여 가우시안 혼합 모델 (GMM)을 훈련시키는 것을 포함한다. 동작단계(110)에서, 변환 기능이 그 GMM의 훈련에 응하여 산출된다. 동작단계(120)에서, 그 GMM의 자취 수치를 계산함으로써 그 변환 기능의 사용에 앞서 그 변환 기능의 품질이 결정된다. 이하의 동작단계들(122, 124)이 선택적으로 수행될 수도 있다. 동작단계(122)에서 그 자취 수치는 훈련 동안 문턱값과 비교될 수도 있다. 만일 그 자취 수치가 문턱값 이상이면, 동작단계(124)에서 그 변환 기능은 수정될 수도 있다. 만일 그 자취 수치가 문턱값 이하이면 , 그때는 동작단계(130)에서 소스 데이터 입력이 그 변환 기능을 이용하여 타겟 데이터 출력으로 변환될 수도 있다. GMM 훈련을 향상시키기 위해 자취 수치를 이용하는 것을 제외하고는, 자취 수치는 GMM 모델들의 평가가 필요로 되는 모든 경우들에서 사용될 수 있다. 그 GMM을 훈련시키는 것은 훈련용 소스 음성 데이터 및 훈련용 타겟 음성 데이터를 이용하여 이루어질 수도 있다. 따라서, 그 훈련용 타겟 음성 데이터는 미리 레코딩된 훈련용 소스 음성 데이터에 대응하도록 획득될 수도 있다. 게다가, 또한 새로운 훈련용 소스 음성 데이터를 획득하는 것도 가능할 수 있는데, 즉 그 훈련용 소스 음성 데이터가 미리 레코딩될 필요는 없다. 게다가, 바람직한 실시예에서, 그 타겟 데이터가 미리 레코딩될 수도 있고 그 소스 데이터는 훈련 이전에 권리가 획득되어질 수도 있다.
상기에서 기술된 기능들은 많은 방법들로 실행될 수도 있다. 예를 들어, 상기에서 기술된 기능들 각각을 실행하는 어떠한 적합한 수단이라도 본 발명의 실시예들을 실행하기 위해 이용될 수도 있다. 하나의 실시예에서, 본 발명의 요소들 모두 또는 부분이 일반적으로 컴퓨터 프로그램 생성물의 제어 하에 동작할 수도 있다. 본 발명의 실시예들의 방법들을 수행하기 위한 컴퓨터 프로그램 생성물은, 비휘발성 저장 매체와 같은 컴퓨터판독가능 저장 매체 및 그 컴퓨터판독가능 저장 매체에 구현된 일련의 컴퓨터 명령들과 같은 컴퓨터판독가능 프로그램 코드 부분들을 포함한다. 게다가, 비록 앞의 기술내용들이 모듈들을 언급함에도 불구하고, 이러한 용어는 편의를 위해 사용되고 따라서 그 상기의 모듈들은 모듈화될 필요는 없고, 다만 통합될 수 있고 코드는 어떠한 원하는 방식으로도 상호혼합될 수 있다는 것이 이해될 것임을 유념하여야 할 것이다.
이 문서에서 진술한 본 발명들의 많은 변형예들 및 다른 실시예들은 전술한 기술내용들 및 연관 도면들에서 나타난 교시들의 이점을 가지는 것으로 이들 발명들이 속한 기술분야에서 숙련된 자에게 떠오를 것이다. 그러므로, 본 발명의 실시예들은 개시된 특정 실시예들에 제한되지는 않을 것이라는 것과 변형예들 및 다른 실시예들은 첨부된 청구항들의 범위 내에 포함될 것으로 의도되는 것이 이해될 것이다. 비록 특정 용어들이 이 문서에서 사용되지만, 그들은 제한을 위한 것이 아니고 단지 일반적이고 설명적인 의미로 사용된다.

Claims (35)

  1. 가우시안 혼합 모델 (Gaussian mixture model; GMM) 기반 변환을 평가하는 방법에 있어서,
    훈련용 소스 데이터 (training source data) 및 훈련용 타겟 데이터 (training target data)를 사용하여 가우시안 혼합 모델(GMM)을 훈련시키고;
    상기 훈련에 응하여 변환 기능을 산출하며; 그리고
    상기 GMM의 자취 수치 (trace measurement)를 계산함으로써 상기 변환 기능의 사용에 앞서 상기 변환 기능의 품질(quality)을 결정하는 것을 포함하는 GMM 기반 변환 평가 방법.
  2. 제1항에 있어서, 그 후에
    상기 변환 기능을 사용하여 소스 데이터 입력을 타겟 데이터 출력으로 변환하는 것을 더 포함하는, GMM 기반 변환 평가 방법.
  3. 제1항에 있어서,
    상기 GMM을 훈련시키는 것은 훈련용 소스 음성 데이터 및 훈련용 타겟 음성 데이터를 사용하여 상기 GMM을 훈련시키는 것을 포함하는, GMM 기반 변환 평가 방법.
  4. 제3항에 있어서,
    미리 레코딩(recording)된 훈련용 소스 음성 데이터에 대응하도록 상기 훈련용 타겟 음성 데이터를 레코딩하는 초기 작업을 더 포함하는, GMM 기반 변환 평가 방법.
  5. 제1항에 있어서,
    상기 자취 수치는
    Figure 112010052667854-pct00030
    인 등식을 이용하여 계산되며,
    상기 등식에서 ε(x)는 x가 주어질 때 y의 분포의 분산(variance)이며, x는 상기 훈련용 소스 데이터의 피쳐 벡터이고, y는 상기 훈련용 타겟 데이터의 피쳐 벡터이며, 그리고 p(x)는 x의 확률 밀도 함수인, GMM 기반 변환 평가 방법.
  6. 제1항에 있어서,
    상기 자취 수치는
    Figure 112010084554720-pct00031
    인 근사값을 이용하여 계산되며,
    상기 근사식에서
    Figure 112010084554720-pct00032
    Figure 112010084554720-pct00033
    번째 콤포넌트에 대한 가중치이고,
    Figure 112010084554720-pct00034
    Figure 112010084554720-pct00035
    의 자취(trace)이며, 그리고
    Figure 112010084554720-pct00036
    Figure 112010084554720-pct00037
    번째 콤포넌트에 대한 공분산 매트릭스
    Figure 112010084554720-pct00038
    =
    Figure 112010084554720-pct00039
    의 일부분인, GMM 기반 변환 평가 방법.
  7. 제1항에 있어서,
    상기 자취 수치를 문턱값(threshold)과 비교하는 것을 더 포함하는, GMM 기반 변환 평가 방법.
  8. 제7항에 있어서,
    상기 자취 수치를 상기 문턱값과 비교하는 것에 응하여 상기 변환 기능을 수정하는 것을 더 포함하는, GMM 기반 변환 평가 방법.
  9. 제7항에 있어서,
    혼합 수 (a number of mixtures);
    차원 수 (a number of dimensions);
    데이터의 알려진 통계적 특성들; 및
    데이터의 범위 (a range of data)
    중 하나 이상에 기반하여 상기 문턱값을 변화시키는 것을 더 포함하는, GMM 기반 변환 평가 방법.
  10. 제1항에 있어서,
    해당하는 서로 다른 GMM들에 기반하여 복수의 변환 기능들에 대응하는 복수의 자취 수치들을 계산하고 그리고
    소스 데이터 입력을 타겟 데이터 출력으로 변환하는데 사용하기 위해 가장 낮은 자취 수치를 가지는 상기 변환 기능들 중 적어도 하나를 선택하는 것을 더 포함하는, GMM 기반 변환 평가 방법.
  11. 컴퓨터판독가능(computer-readable) 프로그램 코드 부분들을 저장하는 컴퓨터판독가능 저장 매체에 있어서, 상기 컴퓨터판독가능 프로그램 코드 부분들은
    훈련용 소스 데이터 (training source data) 및 훈련용 타겟 데이터 (training target data)를 사용하여 가우시안 혼합 모델 (Gaussian mixture model; GMM)을 훈련시키기 위한 제1 실행가능 부분;
    상기 훈련에 응하여 변환 기능을 산출하기 위한 제2 실행가능 부분; 및
    상기 GMM의 자취 수치 (trace measurement)를 계산함으로써 상기 변환 기능의 사용에 앞서 상기 변환 기능의 품질(quality)을 결정하기 위한 제3 실행가능 부분을 포함하는, 컴퓨터판독가능 저장 매체.
  12. 제11항에 있어서,
    그 후에, 상기 변환 기능을 사용하여 소스 데이터 입력을 타겟 데이터 출력으로 변환하기 위한 제4 실행가능 부분을 더 포함하는, 컴퓨터판독가능 저장 매체.
  13. 제11항에 있어서,
    상기 제1 실행가능 부분은 훈련용 소스 음성 데이터 및 훈련용 타겟 음성 데이터를 사용하여 상기 GMM을 훈련시키기 위한 명령들을 포함하는, 컴퓨터판독가능 저장 매체.
  14. 제13항에 있어서,
    미리 레코딩(recording)된 훈련용 소스 음성 데이터에 대응하도록 상기 훈련용 타겟 음성 데이터를 레코딩하는 초기 작업을 수행하기 위한 제4 실행가능 부분을 더 포함하는, 컴퓨터판독가능 저장 매체.
  15. 제11항에 있어서,
    상기 자취 수치는
    Figure 112010084554720-pct00040
    인 근사값을 이용하여 계산되며,
    상기 근사식에서
    Figure 112010084554720-pct00041
    Figure 112010084554720-pct00042
    번째 콤포넌트에 대한 가중치이고,
    Figure 112010084554720-pct00043
    Figure 112010084554720-pct00044
    의 자취(trace)이며, 그리고
    Figure 112010084554720-pct00045
    Figure 112010084554720-pct00046
    번째 콤포넌트에 대한 공분산 매트릭스
    Figure 112010084554720-pct00047
    =
    Figure 112010084554720-pct00048
    의 일부분인, 컴퓨터판독가능 저장 매체.
  16. 제11항에 있어서,
    상기 자취 수치를 문턱값(threshold)과 비교하기 위한 제4 실행가능 부분을 더 포함하는, 컴퓨터판독가능 저장 매체.
  17. 제16항에 있어서,
    상기 제4 실행가능 부분은 상기 자취 수치를 상기 문턱값과 비교하는 것에 응하여 상기 변환 기능을 수정하기 위한 명령들을 포함하는, 컴퓨터판독가능 저장 매체.
  18. 제16항에 있어서,
    상기 제4 실행가능 부분은
    혼합 수 (a number of mixtures);
    차원 수 (a number of dimensions);
    데이터의 알려진 통계적 특성들; 및
    데이터의 범위 (a range of data)
    중 하나 이상에 기반하여 상기 문턱값을 변화시키기 위한 명령들을 포함하는, 컴퓨터판독가능 저장 매체.
  19. 제11항에 있어서,
    해당하는 서로 다른 GMM들에 기반하여 복수의 변환 기능들에 대응하는 복수의 자취 수치들을 계산하고 그리고 소스 데이터 입력을 타겟 데이터 출력으로 변환하는데 사용하기 위해 가장 낮은 자취 수치를 가지는 상기 변환 기능들 중 적어도 하나를 선택하기 위한 제4 실행가능 부분을 더 포함하는, 컴퓨터판독가능 저장 매체.
  20. 가우시안 혼합 모델 (Gaussian mixture model; GMM) 기반 변환을 평가하는 장치에 있어서,
    훈련용 소스 데이터 (training source data) 및 훈련용 타겟 데이터 (training target data)를 사용하여 가우시안 혼합 모델(GMM)을 훈련시키도록 구성되는 훈련 모듈 (training module); 및
    상기 훈련 모듈과 통신하는 변환 모듈 (transformation module)로서, 상기 GMM의 상기 훈련에 응하여 변환 기능을 산출하도록 구성되는 변환 모듈을 포함하고,
    상기 훈련 모듈은 상기 GMM의 자취 수치 (trace measurement)를 계산함으로써 상기 변환 기능의 사용에 앞서 상기 변환 기능의 품질(quality)을 결정하도록 더 구성되는 GMM 기반 변환 평가 장치.
  21. 제20항에 있어서,
    변환 모듈은 상기 GMM을 사용하여 소스 데이터 입력을 타겟 데이터 출력으로 변환하도록 더 구성되는, GMM 기반 변환 평가 장치.
  22. 제20항에 있어서,
    훈련 모듈은 훈련용 소스 음성 데이터 및 훈련용 타겟 음성 데이터를 사용하여 상기 GMM을 훈련시키도록 더 구성되는, GMM 기반 변환 평가 장치.
  23. 제22항에 있어서,
    상기 훈련용 타겟 음성 데이터는 미리 레코딩(recording)된 훈련용 소스 음성 데이터에 대응하도록 레코딩되는, GMM 기반 변환 평가 장치.
  24. 제20항에 있어서,
    상기 자취 수치는
    Figure 112010052667854-pct00049
    인 등식을 이용하여 계산되며,
    상기 등식에서 ε(x)는 x가 주어질 때 y의 분포의 분산(variance)이며, x는 상기 훈련용 소스 데이터의 피쳐 벡터이고, y는 상기 훈련용 타겟 데이터의 피쳐 벡터이며, 그리고 p(x)는 x의 확률 밀도 함수인, GMM 기반 변환 평가 장치.
  25. 제20항에 있어서,
    상기 자취 수치는
    Figure 112010084554720-pct00050
    인 근사값을 이용하여 계산되며,
    상기 근사식에서
    Figure 112010084554720-pct00051
    Figure 112010084554720-pct00052
    번째 콤포넌트에 대한 가중치이고,
    Figure 112010084554720-pct00053
    Figure 112010084554720-pct00054
    의 자취(trace)이며, 그리고
    Figure 112010084554720-pct00055
    Figure 112010084554720-pct00056
    번째 콤포넌트에 대한 공분산 매트릭스
    Figure 112010084554720-pct00057
    =
    Figure 112010084554720-pct00058
    의 일부분인, GMM 기반 변환 평가 장치.
  26. 제20항에 있어서,
    상기 훈련 모듈은 상기 자취 수치를 문턱값(threshold)과 비교하도록 구성되는, GMM 기반 변환 평가 장치.
  27. 제26항에 있어서,
    상기 변환 모듈은 상기 자취 수치를 상기 문턱값과 비교하는 것에 응하여 상기 변환 기능을 수정하도록 구성되는, GMM 기반 변환 평가 장치.
  28. 제26항에 있어서,
    상기 훈련 모듈은
    혼합 수 (a number of mixtures);
    차원 수 (a number of dimensions);
    데이터의 알려진 통계적 특성들; 및
    데이터의 범위 (a range of data)
    중 하나 이상에 기반하여 상기 문턱값을 변화시키도록 구성되는, GMM 기반 변환 평가 장치.
  29. 제20항에 있어서,
    상기 훈련 모듈은
    해당하는 서로 다른 GMM들에 기반하여 복수의 변환 기능들에 대응하는 복수의 자취 수치들을 계산하고 그리고
    소스 데이터 입력을 타겟 데이터 출력으로 변환하는데 사용하기 위해 가장 낮은 자취 수치를 가지는 상기 변환 기능들 중 하나를 선택하도록 더 구성되는, GMM 기반 변환 평가 장치.
  30. 훈련용 소스 데이터 (training source data) 및 훈련용 타겟 데이터 (training target data)를 사용하여 가우시안 혼합 모델 (Gaussian mixture model; GMM)을 훈련시키도록 구성되는 훈련 모듈 (training module); 및
    상기 훈련 모듈과 통신하는 변환 모듈 (transformation module)로서, 상기 GMM에 관한 상기 훈련에 응하여 변환 기능을 산출하고 그리고 그 후에, 상기 GMM을 사용하여 소스 데이터 입력을 타겟 데이터 출력으로 변환하도록 구성되는 변환 모듈을 포함하고,
    상기 훈련 모듈은 상기 GMM의 자취 수치 (trace measurement)를 계산함으로써 상기 변환 기능의 사용에 앞서 상기 변환 기능의 품질(quality)을 결정하도록 더 구성되는, 모바일 단말.
  31. 제30항에 있어서,
    훈련 모듈은 훈련용 소스 음성 데이터 및 훈련용 타겟 음성 데이터를 사용하여 상기 GMM을 훈련시키도록 더 구성되는, 모바일 단말.
  32. 제31항에 있어서,
    상기 훈련용 타겟 음성 데이터는 미리 레코딩(recording)된 훈련용 소스 음성 데이터에 대응하도록 레코딩되는, 모바일 단말.
  33. 제30항에 있어서,
    상기 훈련 모듈은 상기 자취 수치를 문턱값(threshold)과 비교하도록 구성되는, 모바일 단말.
  34. 제30항에 있어서,
    상기 훈련 모듈은
    해당하는 서로 다른 GMM들에 기반하여 복수의 변환 기능들에 대응하는 복수의 자취 수치들을 계산하고 그리고
    상기 소스 데이터 입력을 상기 타겟 데이터 출력으로 변환하는데 사용하기 위해 가장 낮은 자취 수치를 가지는 상기 변환 기능들 중 하나를 선택하도록 더 구성되는, 모바일 단말.
  35. 가우시안 혼합 모델 (Gaussian mixture model; GMM) 기반 변환을 평가하는 장치에 있어서,
    훈련용 소스 데이터 (training source data) 및 훈련용 타겟 데이터 (training target data)를 사용하여 가우시안 혼합 모델(GMM)을 훈련시키는 수단;
    상기 훈련에 응하여 변환 기능을 산출하는 수단; 및
    상기 GMM의 자취 수치 (trace measurement)를 계산함으로써 상기 변환 기능의 사용에 앞서 상기 변환 기능의 품질(quality)을 결정하는 수단을 포함하는 GMM 기반 변환 평가 장치.
KR1020087027297A 2006-04-07 2007-03-09 피쳐 변환의 효율적인 평가를 제공하는 방법, 장치, 모바일단말 및 컴퓨터 프로그램 생성물 KR101050378B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/400,629 US7480641B2 (en) 2006-04-07 2006-04-07 Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation
US11/400,629 2006-04-07
PCT/IB2007/000580 WO2007116253A2 (en) 2006-04-07 2007-03-09 Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation

Publications (2)

Publication Number Publication Date
KR20090033416A KR20090033416A (ko) 2009-04-03
KR101050378B1 true KR101050378B1 (ko) 2011-07-20

Family

ID=38576679

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087027297A KR101050378B1 (ko) 2006-04-07 2007-03-09 피쳐 변환의 효율적인 평가를 제공하는 방법, 장치, 모바일단말 및 컴퓨터 프로그램 생성물

Country Status (5)

Country Link
US (1) US7480641B2 (ko)
EP (1) EP2005415B1 (ko)
KR (1) KR101050378B1 (ko)
CN (1) CN101432800A (ko)
WO (1) WO2007116253A2 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7848924B2 (en) * 2007-04-17 2010-12-07 Nokia Corporation Method, apparatus and computer program product for providing voice conversion using temporal dynamic features
CN101842811B (zh) * 2007-11-02 2012-05-23 高等技术学校 用于预测经过通过缩放以及质量控制参数的改变而转换的图像的文件大小的系统和方法
US8270739B2 (en) 2007-12-03 2012-09-18 Ecole De Technologie Superieure System and method for quality-aware selection of parameters in transcoding of digital images
JP2010020166A (ja) * 2008-07-11 2010-01-28 Ntt Docomo Inc 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法
US8300961B2 (en) * 2008-12-12 2012-10-30 Ecole De Technologie Superieure Method and system for low complexity transcoding of images with near optimal quality
JP5846043B2 (ja) * 2012-05-18 2016-01-20 ヤマハ株式会社 音声処理装置
US9338450B2 (en) 2013-03-18 2016-05-10 Ecole De Technologie Superieure Method and apparatus for signal encoding producing encoded signals of high fidelity at minimal sizes
US10609405B2 (en) 2013-03-18 2020-03-31 Ecole De Technologie Superieure Optimal signal encoding based on experimental data
US9661331B2 (en) 2013-03-18 2017-05-23 Vantrix Corporation Method and apparatus for signal encoding realizing optimal fidelity
JP6234060B2 (ja) * 2013-05-09 2017-11-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
US20170255864A1 (en) * 2016-03-05 2017-09-07 Panoramic Power Ltd. Systems and Methods Thereof for Determination of a Device State Based on Current Consumption Monitoring and Machine Learning Thereof
CN106057192A (zh) * 2016-07-07 2016-10-26 Tcl集团股份有限公司 一种实时语音转换方法和装置
JP6876642B2 (ja) * 2018-02-20 2021-05-26 日本電信電話株式会社 音声変換学習装置、音声変換装置、方法、及びプログラム
CN117476038A (zh) * 2020-05-21 2024-01-30 北京百度网讯科技有限公司 模型评测方法、装置及电子设备

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7231254B2 (en) * 1998-08-05 2007-06-12 Bioneuronics Corporation Closed-loop feedback-driven neuromodulation
US7277758B2 (en) * 1998-08-05 2007-10-02 Neurovista Corporation Methods and systems for predicting future symptomatology in a patient suffering from a neurological or psychiatric disorder
US7403820B2 (en) * 1998-08-05 2008-07-22 Neurovista Corporation Closed-loop feedback-driven neuromodulation
US7242984B2 (en) * 1998-08-05 2007-07-10 Neurovista Corporation Apparatus and method for closed-loop intracranial stimulation for optimal control of neurological disease
US7209787B2 (en) * 1998-08-05 2007-04-24 Bioneuronics Corporation Apparatus and method for closed-loop intracranial stimulation for optimal control of neurological disease
US7324851B1 (en) * 1998-08-05 2008-01-29 Neurovista Corporation Closed-loop feedback-driven neuromodulation
FI19992350A (fi) * 1999-10-29 2001-04-30 Nokia Mobile Phones Ltd Parannettu puheentunnistus
GB2355834A (en) * 1999-10-29 2001-05-02 Nokia Mobile Phones Ltd Speech recognition
US6977723B2 (en) * 2000-01-07 2005-12-20 Transform Pharmaceuticals, Inc. Apparatus and method for high-throughput preparation and spectroscopic classification and characterization of compositions
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US7006969B2 (en) * 2000-11-02 2006-02-28 At&T Corp. System and method of pattern recognition in very high-dimensional space
US7369993B1 (en) * 2000-11-02 2008-05-06 At&T Corp. System and method of pattern recognition in very high-dimensional space
ATE297588T1 (de) * 2000-11-14 2005-06-15 Ibm Anpassung des phonetischen kontextes zur verbesserung der spracherkennung
DE60238602D1 (de) * 2001-04-04 2011-01-27 Quellan Inc Verfahren und system zum decodieren von mehrpegelsignalen
EP1490767B1 (en) * 2001-04-05 2014-06-11 Audible Magic Corporation Copyright detection and protection system and method
US7120580B2 (en) * 2001-08-15 2006-10-10 Sri International Method and apparatus for recognizing speech in a noisy environment
FI114051B (fi) * 2001-11-12 2004-07-30 Nokia Corp Menetelmä sanakirjatiedon kompressoimiseksi
US7039239B2 (en) * 2002-02-07 2006-05-02 Eastman Kodak Company Method for image region classification using unsupervised and supervised learning
AUPS270902A0 (en) * 2002-05-31 2002-06-20 Canon Kabushiki Kaisha Robust detection and classification of objects in audio using limited training data
FR2842643B1 (fr) * 2002-07-22 2004-09-03 France Telecom Normalisation de score de verification dans un dispositif de reconnaissance vocale de locuteur
US7401057B2 (en) * 2002-12-10 2008-07-15 Asset Trust, Inc. Entity centric computer system
US7133535B2 (en) * 2002-12-21 2006-11-07 Microsoft Corp. System and method for real time lip synchronization
US7008296B2 (en) * 2003-06-18 2006-03-07 Applied Materials, Inc. Data processing for monitoring chemical mechanical polishing
US7167176B2 (en) * 2003-08-15 2007-01-23 Microsoft Corporation Clustered principal components for precomputed radiance transfer
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARK M. WILDE et al., 'Probabilistic principal component analysis applied to voice conversion', Signals, Systems and Computers, 2004. Conference Record of the Thirty-Eighth Asilomar Conference on Paci*

Also Published As

Publication number Publication date
US20070239634A1 (en) 2007-10-11
WO2007116253A2 (en) 2007-10-18
KR20090033416A (ko) 2009-04-03
EP2005415B1 (en) 2013-01-23
CN101432800A (zh) 2009-05-13
EP2005415A2 (en) 2008-12-24
WO2007116253A3 (en) 2007-12-21
US7480641B2 (en) 2009-01-20

Similar Documents

Publication Publication Date Title
KR101050378B1 (ko) 피쳐 변환의 효율적인 평가를 제공하는 방법, 장치, 모바일단말 및 컴퓨터 프로그램 생성물
US8751239B2 (en) Method, apparatus and computer program product for providing text independent voice conversion
US8386256B2 (en) Method, apparatus and computer program product for providing real glottal pulses in HMM-based text-to-speech synthesis
US8131550B2 (en) Method, apparatus and computer program product for providing improved voice conversion
US20080126093A1 (en) Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
US7693719B2 (en) Providing personalized voice font for text-to-speech applications
CN105814631A (zh) 盲带宽扩展系统和方法
US20010032079A1 (en) Speech signal processing apparatus and method, and storage medium
JP3969908B2 (ja) 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
CN110751941B (zh) 语音合成模型的生成方法、装置、设备及存储介质
US8781835B2 (en) Methods and apparatuses for facilitating speech synthesis
CN105719640A (zh) 声音合成装置及声音合成方法
US7725411B2 (en) Method, apparatus, mobile terminal and computer program product for providing data clustering and mode selection
CN114822497A (zh) 语音合成模型的训练及语音合成方法、装置、设备和介质
US20080109217A1 (en) Method, Apparatus and Computer Program Product for Controlling Voicing in Processed Speech
CN101165776B (zh) 用于生成语音谱的方法
US20230186900A1 (en) Method and system for end-to-end automatic speech recognition on a digital platform
US20140343934A1 (en) Method, Apparatus, and Speech Synthesis System for Classifying Unvoiced and Voiced Sound
CN116486765A (zh) 歌声生成方法、计算机设备和存储介质
CN115101043A (zh) 音频合成方法、装置、设备及存储介质
CN114882869A (zh) 语音合成模型的训练及语音合成方法、装置和相关设备
CN115620701A (zh) 语音合成方法、装置、电子设备和存储介质
CN113066476A (zh) 合成语音处理方法及相关装置
JP2008241898A (ja) 音声合成装置、方法、プログラム及びその記録媒体、音声案内システム、方法
US20060161433A1 (en) Codec-dependent unit selection for mobile devices

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee