KR20110025666A - 개선된 스피치 합성을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품 - Google Patents

개선된 스피치 합성을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품 Download PDF

Info

Publication number
KR20110025666A
KR20110025666A KR1020107029463A KR20107029463A KR20110025666A KR 20110025666 A KR20110025666 A KR 20110025666A KR 1020107029463 A KR1020107029463 A KR 1020107029463A KR 20107029463 A KR20107029463 A KR 20107029463A KR 20110025666 A KR20110025666 A KR 20110025666A
Authority
KR
South Korea
Prior art keywords
glottal
pulse
actual
pulses
excitation signal
Prior art date
Application number
KR1020107029463A
Other languages
English (en)
Other versions
KR101214402B1 (ko
Inventor
야니 널미넨
투오모 라이티오
안티 수니
마르티 바이니오
파아보 알쿠
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20110025666A publication Critical patent/KR20110025666A/ko
Application granted granted Critical
Publication of KR101214402B1 publication Critical patent/KR101214402B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Abstract

개선된 스피치 합성을 제공하는 장치는 프로세서 및 실행가능 명령어들을 저장하는 메모리를 포함할 수 있다. 프로세서에 의한 명령어들의 실행에 응하여, 장치는, 실제 성문 펄스와 관련된 한 특성에 적어도 일부 기초하여 한 개 이상 저장된 실제 성문 펄스들 가운데서 한 실제 성문 펄스를 선택하는 동작, 여기 신호 생성을 위한 기준으로서, 선택된 실제 성문 펄스를 활용하는 동작; 및 한 모델에 의해 생성된 스펙트럼 매개변수들에 기초해 여기 신호를 수정하여 합성 스피치를 제공하도록 하는 동작을 수행할 수 있다.

Description

개선된 스피치 합성을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품{Method, apparatus and computer program product for providing improved speech synthesis}
관련 출원에 대한 교차 참조
이 출원은 2008년 5월 30일 출원된 미국 가출원 번호 61/057,542를 우선권 주장하며, 그 내용 전체가 이 명세서에 포함된다.
본 발명의 실시예들은 일반적으로 스피치 합성 (speech synthesis)에 관한 것으로, 더 상세히 말하면 성문 펄스들 (glottal pulses)의 집합을 이용해 개선된 스피치 합성을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품에 관한 것이다.
최근과 같은 통신 시대는 유무선 네트워크들의 어마어마한 팽창을 가져왔다. 컴퓨터 네트워크, 텔레비전 네트워크, 그리고 전화통신 네트워크들은 소비자 수요에 탄력을 받아 전례없는 기술적 팽창을 경험하고 있다. 무선 및 모바일 네트워킹 기술들은 관련된 소비자 수요들을 다루는 한편 정보 전송에 있어 더 많은 유연성과 즉시성을 지원해 왔다.
현재와 미래의 네트워킹 기술들은 계속해서 정보 전송의 용이함과 사용자들에 대한 편의를 도모하고 있다. 정보 전송의 용이성을 증가시키고자 하는 요구가 존재하는 하나의 영역이, 모바일 단말의 사용자에 대한 서비스 전달과 관련되어 있다. 서비스는 음악 재생기, 게임기, 전자 북, 단문 메시지, 이메일 등등과 같이 사용자가 희망하는 특정 매체나 통신 애플리케이션의 형태로 되어 있을 수 있다. 또한 서비스는 사용자가 어떤 작업을 수행하거나 어떤 목적을 달성하기 위해 네트워크 장치에 반응할 수 있는 상호대화형 (interactive) 애플리케이션들의 형태로 되어 있을 수 있다. 이러한 서비스들은 네트워크 서버나 기타 네트워크 장치로부터 제공되거나, 심지어 모바일 단말, 즉 예를 들어 모바일 전화, 모바일 텔레비전, 모바일 게임 시스템 등등과 같은 것들로부터 제공될 수 있다.
많은 애플리케이션들에 있어서 사용자는 네트워크나 모바일 단말로부터 구두 (oral) 피드백이나 명령 같은 오디오 정보를 수신해야 할 필요가 있다. 그러한 애플리케이션의 한 예가, 청구액을 납부하는 것, 프로그램을 주문하는 것, 구동 지침을 수신하는 것들 등등이 될 수 있다. 더욱이, 오디오 북 같은 일부 서비스들에서, 애플리케이션은 거의 전적으로 오디오 정보를 수신하는 데 기반하고 있다. 그러한 오디오 정보는 컴퓨터가 생성한 목소리를 통해 제공되는 것이 점점 더 일반적인 일이 되어가고 있다. 따라서, 그러한 애플리케이션들을 사용함에 있어서 사용자의 체험은 컴퓨터가 생성한 목소리의 음질과 자연스러움에 크게 좌우될 것이다. 그 결과, 컴퓨터가 생성하는 목소리의 음질과 자연스러움을 향상시키기 위한 노력으로서 스피치 프로세싱 기슬들에 대한 수많은 연구와 개발이 행해져 왔다.
스피치 프로세싱은 일반적으로, 텍스트에서 음성으로의 (TTS, text-to-speech) 변환, 음성 코딩, 목소리 변환 (voice conversion), 언어 식별 같은 애플리케이션들 및 수많은 다른 유사 애플리케이션들을 포함한다. 많은 스피치 프로세싱 애플리케이션들에서 컴퓨터가 생성한 목소리, 또는 합성 스피치 (synthetic speech)가 제공될 것이다. 특정한 한 예에서, 컴퓨터 판독가능 텍스트로부터 청각적 스피치의 생성에 해당하는 TTS가 청각적 단위들 (acoustical units)의 선택 및 연결 (concatenation)을 포함하는 스피치 프로세싱에 활용될 수 있다. 그러나, TTS 같은 유형들은 보통 꽤 많은 분량의 저장된 스피치 데이터를 요하기 때문에, 다양한 화자들 및/또는 다양한 말하기 스타일들에 적합하지 않다. 다른 대안적 예로서, 숨은 마코프 모델 (HMM, hidden Markov model) 방식이 사용될 수 있는데, 이 방식에서는 스피치 생성을 위해 좀 더 적은 양의 저장 데이터가 사용될 수 있다. 그러나, 현재의 HMM 시스템들은 음질의 자연스러움 저하로 인해 주로 어려움을 겪고 있다. 다시 말해, 많은 이들이 가진 견해는, 현재의 HMM 시스템들이 신호 생성 기법들을 지나치게 단순화하는 경향이 있고, 그 때문에 자연스러운 스피치 압력 파형 (speech pressure waveform)들을 적절히 모방해 내지 못한다는 것이다.
특히 모바일 환경에 있어서, 메모리 소비의 증가가 그러한 방법들을 이용하는 장치들의 비용에 직접적으로 영향을 줄 수 있다. 따라서, HMM 시스템들은 상대적으로 소수의 자원 요건을 가진 스피치 합성에 대한 가능성 탓에 일부 경우들에서 선호될 수 있다. 그러나, 심지어 비 모바일 환경에서도, 애플리케이션 점유 공간들 (application footprints) 및 메모리 소비의 증가 가능성은 바람직하지 않을 것이다. 따라서, 보다 자연스럽게 들리는 합성 스피치의 제공 등을 효율적인 방법으로 가능하게 할 수 있는 개선된 스피치 합성 메커니즘을 개발하는 것이 요망될 수 있다.
본 발명의 목적은, 보다 자연스러운 소리가 나는 합성 스피치의 효율적 제공이 가능한 개선된 스피치 합성 메커니즘을 제공하는 것에 있다.
한 전형적 실시예에서 스피치 합성을 제공하는 방법이 제안된다. 이 방법은 저장된 실제 성문 펄스들 (real glottal pulses) 가운데에서, 실제 성문 펄스와 관련된 특성의 적어도 일부에 기초해, 한 개의 실제 성문 펄스를 선택하는 단계, 선택된 실제 성문 펄스를 여기 신호 (excitation signal) 생성을 위한 기준으로서 활용하는 단계, 및 한 모델에 의해 생성된 스펙트럼 매개변수들에 기초해 상기 여기 신호를 수정하여 합성 스피치를 제공하는 단계를 포함한다.
다른 전형적 실시예에서 스피치 합성을 제공하기 위한 컴퓨터 프로그램 제품이 제안된다. 이 컴퓨터 프로그램 제품은 컴퓨터 실행가능 프로그램 코드 명령들을 저장한 적어도 한 개의 컴퓨터 판독가능 저장 매체를 포함할 수 있다. 컴퓨터 실행가능 프로그램 코드 명령들은, 저장된 실제 성문 펄스들 가운데에서, 실제 성문 펄스와 관련된 특성의 적어도 일부에 기초해, 한 개의 실제 성문 펄스를 선택하도록 하는 프로그램 코드 명령, 선택된 실제 성문 펄스를 여기 신호 (excitation signal) 생성을 위한 기준으로서 활용하도록 하는 프로그램 코드 명령, 및 한 모델에 의해 생성된 스펙트럼 매개변수들에 기초해 상기 여기 신호를 수정하여 합성 스피치를 제공하도록 하는 프로그램 코드 명령을 포함한다.
또 다른 전형적 실시예에서 스피치 합성을 제공하기 위한 장치가 제안된다. 이 장치는, 프로세서, 및 실행가능 명령들을 저장한 메모리를 포함할 수 있다. 프로세서에 의한 명령 실행에 반응하여, 장치는, 저장된 실제 성문 펄스들 (glottal pulses) 가운데에서, 실제 성문 펄스와 관련된 특성의 적어도 일부에 기초해, 한 개의 실제 성문 펄스를 선택하는 동작, 선택된 실제 성문 펄스를 여기 신호 (excitation signal)의 기준으로서 활용하는 동작, 및 한 모델에 의해 생성된 스펙트럼 매개변수들에 기초해 상기 여기 신호를 수정하여 합성 스피치를 제공하는 동작을 수행할 수 있다.
본 발명의 실시예들을 일반 용어들을 사용해 기술함에 있어, 지금부터 첨부된 도면이 참고될 것인데, 그 도면이 일정한 축척 비율을 반드시 따를 필요는 없다:
도 1은 본 발명의 전형적 실시예에 따른 모바일 단말의 개략적 블록도이다.
도 2는 본 발명의 전형적 실시예에 따른 무선 통신 시스템의 개략적 블록도이다.
도 3은 본 발명의 전형적 실시예에 따라 개선된 스피치 합성을 제공하는 장치의 부분들에 대한 블록도를 예시한 것이다.
도 4는 본 발명의 전형적 실시예에 따라 개선된 스피치 합성의 전형적 시스템에 따른 블록도이다.
도 5는 본 발명의 전형적 실시예에 따른 매개변수화 동작들의 예를 도시한 것이다.
도 6은 본 발명의 전형적 실시예에 따른 합성 동작의 예를 도시한 것이다.
도 7은 본 발명의 전형적 실시예에 따라 개선된 스피치 합성을 제공하는 전형적 방법에 따른 블록도이다.
본 발명의 실시예들이 이제부터, 실시예들 전부가 아닌 일부가 도시되어 있는 첨부된 도면을 참조해 보다 충실히 설명될 것이다. 실제로 본 발명은 여러 다양한 형식을 통해 실시될 수 있을 것이며 여기 개시된 실시예들에 국한되는 것으로 해석되어서는 안 될 것이다; 그보다, 이 실시예들은 이 명세서가 법적 출원 요건을 만족시킬 수 있는 정도로 제공된다. 전체에 걸쳐 유사 참조 부호들은 유사 구성요소들을 의미한다.
도 1의, 본 발명의 전형적 일 실시예는, 본 발명의 실시예들로부터 이익을 향유할 수 있는 모바일 단말(10)의 블록도를 예시한다. 그러나, 도시되어 이하에 개시된 것 같은 기기는 단지 본 발명의 실시예들로부터 이익을 얻을 수 있는 모바일 단말의 한 유형을 나타낸 것일 뿐이므로 본 발명의 실시예들의 범위를 한정하는 것으로 간주 되어서는 안 될 것이라는 것을 알아야 한다. 모바일 단말(10)의 여러 실시예들이 도시되어 지금부터 예로 들 목적으로 설명되겠지만, PDA (portable digital assistant), 호출기, 모바일 텔레비전, 게임기, 모든 유형의 컴퓨터, 카메라, 모바일 전화기, 비디오 리코더, 오디오/비디오 재생기, 라디오, GPS 기기, 태블릿, 인터넷 이용가능 기기, 또는 상술한 것들의 임의의 조합 형태, 및 다른 종류의 통신 시스템들 역시 본 발명의 실시예들을 용이하게 활용할 수 있을 것이다.
또, 본 발명의 방법에 대한 서너 개의 실시예들은 모바일 단말(10)에 의해 수행되거나 사용되지만, 이 방법이 모바일 단말이 아닌 다른 것들에 의해 사용될 수도 있을 것이다. 또한 본 발명의 시스템 및 방법들이 주로 모바일 통신 애플리케이션들과 연계해 설명될 것이다. 그러나, 본 발명의 실시예들의 시스템 및 방법은 모바일 통신 업계 안팎 모두에서 다른 다양한 애플리케이션들과 함께 활용될 수 있다는 것을 알아야 한다.
모바일 단말(10)은 송신기(14) 및 수신기(16)와 통신 가능한 안테나(12) (또는 다중 안테나)를 포함한다. 모바일 단말(10)은 또한 송신기(14)로 신호를 제공하고 수신기(16)로부터 신호를 수신하는 제어기(20) 또는 다른 프로세서 같은 장치를 더 포함한다. 신호들은 적용가능한 셀룰라 시스템의 전파공간 인터페이스 표준에 따른 시그날링 정보, 및 사용자 음성, 수신 데이터 및/또는 사용자 생성 데이터 역시 포함한다. 이와 관련해, 모바일 단말(10)은 한 개 이상의 전파공간 인터페이스 표준들, 통신 프로토콜들, 변조 유형들, 및 액세스 유형들을 가지고 작동될 수 있다. 예로써, 모바일 단말(10)은 일세대, 이세대, 삼세대 및/또는 사세대 통신 프로토콜 등등 가운데 어느 하나에 따라 작동될 수 있다. 예를 들어, 모바일 단말(10)은 이세대 (2G) 무선 통신 프로토콜들인 IS-136 (시분할 다중화 액세스 (TDMA)), GSM (global system for mobile communication), 및 IS-95 (코드 분할 다중화 액세스 (CDMA)), 또는 삼세대 (3G) 무선 통신 프로토콜들인 UMTS (Universal Mobile Telecommunications System), CDMA2000, WCDMA (wideband CDMA) 및 TD-SCDMA (time division-synchronous CDMA), 3.9G 무선 통신 프로토콜인 E-UTRAN (Evolved UMTS Terrestrial Radio Access Network), 그리고 사세대 (4G) 무선 통신 프로토콜들 등등에 따라 동작할 수 있다. 대안적인 것 (혹은 부가하는 것)으로서, 모바일 단말(10)은 비 셀룰라 통신 메커니즘들에 따라 동작할 수도 있을 것이다. 예를 들어, 모바일 단말(10)은 도 2와 관련해 아래에서 설명될 WLAN (wireless local area network)이나 기타 통신 네트워크들 안에서 통신할 수 있다.
제어기(20) 같은 장치는 모바일 단말(10)의 오디오 및 로직 기능들을 구현하는데 바람직할 수 있는 회로를 포함한다. 예를 들어, 제어기(20)는 디지털 신호 프로세서 기기, 마이크로프로세서 기기, 및 다양한 아날로그-디지털 컨버터들, 디지털-아날로그 컨버터들, 및 기타 지원 회로들로 이뤄질 수 있다. 모바일 단말(10)의 제어 및 신호 처리 기능들이 그러한 기기들 사이에 그들 각자의 사양에 따라 할당된다. 그에 따라 제어기(20)는 변조 및 전송에 앞서 메시지 및 데이터를 컨볼루션 인코딩하고 인터리브 (interleave) 하는 기능 또한 포함할 수 있다. 제어기(200)는 내부 보이스 코더 (voice coder)를 추가 포함할 수 있으며, 내부 데이터 모뎀을 포함할 수 있다. 또, 제어기(20)는 메모리에 저장될 수 있는 하나 이상의 소프트웨어 프로그램들을 구동하는 기능을 포함할 수 있다. 예를 들어, 제어기(20)는 통상적 웹 브라우저 같은 접속 프로그램을 운영할 수 있을 것이다. 그러면 접속 프로그램이 모바일 단말(10)로 하여금 가령 WAP (Wireless Application Protocol), HTTP (Hypertext Transfer Protocol) 등등과 같은 것들에 따라 위치-기반 콘텐츠 및/또는 기타 웹 페이지 콘텐츠 같은 웹 컨텐츠를 를 송수신 할 수 있게 할 것이다.
모바일 단말(10)은 또한 통상의 이어폰이나 스피커(24), 마이크로폰(26), 디스플레이(28) 같은 출력 기기를 포함한 사용자 인터페이스와 사용자 입력 인터페이스를 포함할 수 있으며, 그들은 모두 제어기(20)에 연결되어 있다. 모바일 단말(10)이 데이터를 수신할 수 있게 하는 사용자 입력 인터페이스는, 모바일 단말(10)이 키패드(30), 터치 디스플레이 (미도시) 또는 다른 입력 기기 같이, 데이터를 수신할 수 있게 하는 여러 기기들 중 하나를 포함할 수 있다. 키패드(30)를 포함하는 실시예들에 있어서, 키패드(30)는 통상의 숫자 (0-9) 및 관련 키들 (#, *), 그리고 모바일 단말(10)을 구동하는데 사용되는 다른 하드 및/또는 소프트 키들을 포함할 수 있다. 이와 달리, 키패드(30)는 통상의 QWERTY 키패드 구성을 포함할 수도 있다. 키패드(30)는 또 관련 기능들을 가진 다양한 소프트 키들을 포함할 수도 있다. 그외에, 아니면 다른 대안으로서, 모바일 단말(10)이 조이스틱이나 기타 사용자 입력 인터페이스 같은 인터페이스 기기를 포함할 수 있다. 모바일 단말(10)은 또 모바일 단말(10)을 구동하는데 요구되는 다양한 회로들에 전력을 공급할 뿐 아니라 인지가능한 출력으로서 기계적 진동을 옵션으로서 제공하기 위한 진동 배터리 팩 같은 배터리(34)를 더 포함한다.
모바일 단말(10)은 UIM (user identity module)(38)을 더 포함할 수 있다. UIM(38)은 통상적으로 내장형 프로세서를 포함하는 메모리 기기이다. UIM(38)은 SIM (subscriber identity module), UICC (universal integrated circuit card), USIM (universal subscriber identity module), R-UIM (removable user identity module) 등등과 같은 것을 포함할 수 있다. UIM(38)은 보통 모바일 가입자와 관련된 정보 요소들을 저장한다. UIM(38) 외에, 모바일 단말(10)은 메모리를 갖출 수 있다. 예를 들어, 모바일 단말(10)은 데이터의 임시 저장을 위해 캐시 (cache) 영역을 포함하는 휘발성 램 (RAM) 같은 휘발성 메모리(40)를 포함할 수 있다. 모바일 단말(10)은 또한 내장되어 있고/있거나 탈부착 가능한 다른 비휘발성 메모리(42)를 포함할 수도 있다. 비휘발성 메모리(42)는 추가적으로나 대안적으로 캘리포니아 서니베일의 SanDisk 사나 캘리포니아 프레몬트의 Lexar Media에서 입수가능한 것 같은 EEPROM (erasable programmable read only memory), 플래시 메모리 등등을 구비할 수 있다. 그 메모리들은 모바일 단말(10)에 의해 사용되는 여러 정보 및 데이터 가운데 어느 하나를 저장하여 모바일 단말(10)의 기능들을 구현하도록 할 수 있다. 예를 들어, 이 메모리들은 모바일 단말(10)을 고유하게 식별하는 기능의 IMEI (international mobile equipment identification) 코드 같은 식별자를 포함할 수 있다. 또, 메모리들은 셀 id 정보를 판단하기 위한 명령들을 저장할 수 있다. 구체적으로 말하면, 메모리들은 제어기(20)에 의해 실행되는 것으로, 모바일 단말(10)과 통신하는 현재 셀의 정체, 즉 셀 id 신원이나 셀 id 정보를 판단하는 애플리케이션 프로그램을 저장할 수 있다.
도 2는 본 발명의 전형적 실시예에 따른 무선 통신 시스템의 개략적 블록도이다. 지금부터 참조할 도 2에는 본 발명의 실시예들로부터 이익을 향유할 한 시스템의 종류가 제공된다. 이 시스템은 복수의 네트워크 기기들을 포함한다. 도시된 것처럼 하나 이상의 모바일 단말들(10)은 각각 기지 사이트나 기지국 (BS)(44)과 신호를 송수신하는 안테나(12)를 포함할 수 있다. 기지국(44)은 하나 이상의 셀룰라 혹은 모바일 네트워크들의 한 부분으로, 그 네트워크들 각각은 모바일 스위칭 센터 (MSC)(46) 같이 네트워크 운영에 필요한 구성요소들을 포함한다. 이 분야의 기술자들에게 잘 알려진 바와 같이 모바일 네트워크는 BMI (Base Station/MSC/Interworking function)라고도 불릴 수 있다. 동작시 MSC(46)는 모바일 단말(10)이 통화를 발신 및 수신할 때 모바일 단말(10)로의 통화 및 모바일 단말(10)로부터의 통화를 라우팅할 수 있다. MSC(46)는 또 모바일 단말(10)이 어떤 통화에 개입되어 있을 때 지상 중계회선들로의 접속을 지원할 수도 있다. 또, MSC(46)는 모바일 단말들로/로부터 메시지들의 포워딩 (forwarding)을 제어할 수 있고, 메시징 센터로/로부터 모바일 단말(10)에 대한 메시지 포워딩 역시 제어할 수 있다. 도 2의 시스템에는 MSC(46)가 도시되고 있지만, 이 MSC(46)는 단지 전형적인 한 네트워크 기기일 뿐이며, 본 발명의 실시예들이 MSC를 이용하는 네트워크 안에서의 사용에 국한되는 것은 아니라는 것을 알아야 한다.
MSC(46)는 LAN (local area network), MAN (metropolitan area network), 및/또는 WAN (wide area network) 같은 데이터 네트워크에 연결될 수 있다. MSC(46)는 그러한 데이터 네트워크에 직접 연결될 수 있다. 그러나 일 실시예에서 MSC(46)는 게이트웨이 기기(GTW)(48)와 연결되고, GTW(48)는 인터넷(50) 같은 WAN과 연결된다. 또한 프로세싱 요소들 (가령, 퍼스널 컴퓨터, 서버 컴퓨터들 등등) 같은 기기들이 인터넷(50)을 통해 모바일 단말(10)에 연결될 수 있다. 예를 들어, 이하에서 설명되는 바와 같이, 프로세싱 요소들은 이하에 설명되는 것과 같은 컴퓨팅 시스템(52), 원천 (origin) 서버(54) 등등과 관련된 하나 이상의 프로세싱 요소들을 포함할 수 있다.
BS(44)는 또 서비스하는 GPRS (General Packet Radio Service) 지원 노드 (SGSN)(56)에도 연결될 수 있다. 이 분야의 업자들에게 알려져 있다시피, SGSN(56)은 일반적으로 패킷 교환 서비스들을 위해 MSC(46)와 유사한 기능들을 수행할 수 있다. SGSN(56)은 MSC(46) 같이 인터넷(50) 같은 데이터 네트워크에 연결될 수 있다. SGSN(56)은 그러한 데이터 네트워크와 직접 연결될 수 있다. 더 일반적인 실시예에서는 그러나 SGSN(56)이 GPRS 코어 네트워크(58) 같은 패킷 교환형 코어 네트워크에 연결된다. 이때 패킷 교환형 코어 네트워크는 게이트웨이 GPRS 지원 노드 (GGSN)(60) 같은 다른 GTW(48)에 연결되며, GGSN(60)은 인터넷(50)에 연결된다. GGSN(60) 외에, 패킷 교환형 코어 네트워크는 GTW(48)에도 연결될 수 있다. 또한 GGSN(60)은 메시징 센터에 연결될 수 있다. 이와 관련해, GGSN(60) 및 SGSN(56)은 MSC(46)처럼 MMS 메시지들 같은 메시지들의 포워딩을 제어할 수 있다. GGSN(60) 및 SGSN(56)은 또 메시징 센터로/로부터 모바일 단말(10)에 대한 메시지 포워딩을 제어할 수도 있다.
또, SGSN(56)을 GPRS 코어 네트워크(58) 및 GGSN(60)과 연결함으로써, 컴퓨팅 시스템(52) 및/또는 원천 서버(54) 같은 기기들이 인터넷(50), SGSN(56) 및 GGSN(60)을 통해 모바일 단말(10)에 연결될 수 있다. 이와 관련하여, 컴퓨팅 시스템(52) 및/또는 원천 서버(54) 같은 기기들은 SGSN(56), GPRS 코어 네트워크(58) 및 GGSN(60)을 지나 모바일 단말(10)과 통신할 수 있다. 직간접적으로 모바일 단말들(10) 및 다른 기기들 (가령, 컴퓨팅 시스템(52), 원천 서버(54) 등등)을 인터넷(50)에 연결함으로써, 모바일 단말들(10)은 HTTP (Hypertext Transfer Protocol) 등등과 같은 것에 의해 다른 기기들 및 서로와 통신할 수 있고, 그에 따라 모바일 단말들(10)의 다양한 기능들을 수행할 수 있다.
모든 가능한 모바일 네트워크의 모든 요소가 다 여기에 개시되고 설명된 것은 아니지만, 모바일 단말(10)이 BS(44)를 통해 여러 다양한 네트워크들 하나 이상과 연결될 수 있다는 것을 예상할 수 있을 것이다. 이와 관련해, 네트워크(들)은 일세대 (1G), 이세대 (2G), 2.5G, 삼세대 (3G), 3.9G, 사세대 (4G) 모바일 통신 프로토콜들 등등 가운데 어느 하나 이상에 의해 통신을 지원할 수 있을 것이다. 예를 들어, 네트워크(들) 중 하나 이상은 2G 무선 통신 프로토콜들인 IS-136 (TDMA), GSM, 그리고 IS-95 (CDMA)에 따라 통신을 지원할 수 있다. 또, 예를 들어 네트워크(들) 가운데 하나 이상이 2.5G 무선 통신 프로토콜들인 GPRS, EDGE (Enhanced Data GSM Environment) 등등에 따라 통신을 지원할 수 있다. 더 나아가, 예를 들어 네트워크(들) 중 하나 이상이 WCDMA 라디오 액세스 기술을 채용한 UMTS 네트워크 같은 3G 무선 통신 프로토콜들에 따라 통신을 지원할 수 있다. 일부 협대역 아날로그 모바일 전화 서비스 (NAMPS, narrow-band analog mobile phone service)와 TACS (total access communication system) 네트워크(들) 역시, 듀얼 또는 그보다 높은 모드의 모바일 스테이션들 (가령, 디지털/아날로그 또는 TDMA/CDMA/아날로그 전화들)이 그러는 것처럼 본 발명의 실시예들로부터 이익을 취할 수 있다.
모바일 단말(10)은 하나 이상의 무선 AP들 (access points)(62)에 추가로 연결될 수 있다. AP들(62)은 라디오 주파수 (RF), 적외선 (IrDA) 등과 같은 기술들이나, IEEE 802.11 (가령, 802.11a, 802.11b, 802.11g, 802.11n 등등)과 같은 무선 LAN (WLAN) 기술들, IEEE 802.16 같은 WiMAX (world interoperability for microwave access) 기술들, 및/또는 IEEE 802.15, 블루투스 (BT), 울트라 와이드밴드 (UWB, ultra wideband) 등등과 같은 무선 퍼스널 영역 네트워크 (WPAN, wireless Personal Area Network) 기술들을 포함하는, 수많은 각종 무선 네트워킹 기술들 중 어느 하나에 따라 모바일 단말(10)과 통신하도록 구성된 액세스 포인트들을 구비할 수 있다. AP들(62)은 인터넷(50)에 연결될 수 있다. MSC(46)처럼, AP들(62)은 인터넷(50)에 바로 연결될 수 있다. 그러나 일 실시예에서 AP들(62)은 GTW(48)를 통해 인터넷(50)에 간접 연결된다. 또한, 일 실시예에서, BS(44)가 또 하나의 AP(62)로서 간주 될 수 있다. 예상할 수 있다시피, 모바일 단말들(10)과 컴퓨팅 시스템(52), 원천 서버(54), 및/또는 다수의 다른 기기들 중 어느 하나를 인터넷(50)에 직간접적으로 연결함으로써, 모바일 단말들(10)은 서로와, 그리고 컴퓨팅 시스템 등과 통신할 수 있고, 그에 따라 컴퓨팅 시스템(52)과의 데이터나 콘텐츠 등의 송수신 같은 모바일 단말들(10)의 다양한 기능들이 실행될 수 있다. 여기 사용된 것과 같이, "데이터", "콘텐츠", "정보" 및 그 유사 용어들은 본 발명의 실시예들에 따라 전송, 수신 및/또는 저장될 수 있는 데이터를 지칭함에 있어 서로 혼용 가능한 것으로 사용될 수 있다. 따라서, 그러한 용어들의 사용이 본 발명의 실시예들의 개념 및 범주를 제한하는 것으로 간주 되어서는 안 될 것이다.
도 2에 도시되지는 않았으나, 모바일 단말(10)을 인터넷(50)을 거쳐 컴퓨팅 시스템들(52)에 연결하는 것에 더하여, 혹은 그러한 연결 대신에, 모바일 단말(10)과 컴퓨팅 시스템(52)이 가령 RF, BT, IrDA, 또는 LAN, WLAN, WiMAX, UWB 기술들 등을 포함하는 수많은 각종 유무선 통신 기술들 중 어느 하나에 의해 서로 연결되고 통신할 수 있다. 하나 이상의 컴퓨팅 시스템들(52)은 추가적으로나 대안적으로 나중에 모바일 단말(10)로 전송될 수 있는 콘텐츠를 저장할 수 있는 탈부착 가능한 메모리를 포함할 수 있다. 더 나아가, 모바일 단말(10)은 프린터, 디지털 프로젝터 및/또는 다른 멀티미디어 캡처, 생성 및/또는 저장 기기들 (가령, 다른 단말들) 같은 하나 이상의 전자 기기들과 연결될 수 있다. 컴퓨팅 시스템(52)과 마찬가지로, 모바일 단말(10)은 RF, BT, IrDA, 또는 USB (universal serial bus), LAN, WLAN, WiMAX, UWB 기술들 등을 포함하는 여러 다양한 유무선 통신 기술들 중 어느 하나 등과 같은 기술들에 의해 휴대형 전자 기기들과 통신하도록 구성될 수 있다.
한 전형적 실시예에서, 애플리케이션들을 실행하거나 모바일 단말(10) 및 다른 모바일 단말들이나 네트워크 기기들 사이에서 통신 (가령, 음성 통신, 구두 명령의 수신이나 제공 등등)을 설정하기 위해, 콘텐츠나 데이터가, 도 2의 시스템을 통해 도 1의 모바일 단말(10)과 비슷할 수 있는 모바일 단말과 도 2에 도시된 시스템의 한 네트워크 기기 사이에서 교류된다. 그러나, 모바일 단말들 사이에서의 통신이나 네트워크 기기 및 모바일 단말 사이에서의 통신을 위해 도 2의 시스템이 사용될 필요는 없으며, 그보다 도 2는 단지 예로 들 목적으로 주어진 것임을 알아야 한다. 또한, 본 발명의 실시예들이 모바일 단말(10) 같은 통신 기기상에 상주하거나, 도 2의 시스템과의 모든 통신에 빠지는 다른 기기들 상에 상주할 수 있다는 것 역시 알아야 한다.
지금부터 도 3을 참조하여 본 발명의 전형적 실시예를 설명할 것인데, 도 3은 개선된 스피치 합성을 제공하기 위한 장치의 구성요소들을 표시하고 있다. 도 3의 장치는 가령 도 1의 모바일 단말(10) 및/또는 도 2의 컴퓨팅 시스템(52)이나 원천 서버(54) 상에서 사용될 수 있다. 그러나, 도 3의 시스템이 이동형 및 고정형 둘 다에 해당하는 다양한 다른 기기들 상에서도 사용될 수 있고, 그에 따라 본 발명의 실시예들이 도 1의 모바일 단말(10) 같은 기기들 상에서의 애플리케이션에 국한하는 것은 아님을 주지해야 할 것이다. 또, 본 발명의 실시예들은 (가령, 클라이언트/서버 관계처럼) 여기 개시된 동작들의 일부는 한 기기에서 수행되고 다른 부분은 다른 기기에서 수행되도록 물리적으로 여러 기기들 상에 위치할 수 있다. 그러나, 도 3이 개선된 스피치 합성을 제공하는 장치 구성에 대한 일례를 예시하고는 있으나, 수많은 다른 구성들 역시 본 발명의 실시예들을 구현하는데 사용될 수 있다는 것을 알아야 한다. 또, 전형적 실시예를 예시하기 위해 도 3이 숨은 마코프 모델 (HMM) 기반의 스피치 합성과 관련된 텍스트-음성 (TTS, text-to-speech) 변환을 수반하는 한 가능한 구성의 맥락에서 설명될 것이기는 하지만, 본 발명의 실시예들이 반드시 상술한 기술들을 사용해 실시되어야 할 필요는 없으며, 다른 합성 기술이 대안으로서 사용될 수도 있을 것이다. 따라서, 본 발명의 실시예들은 여러 다양한 상황 하에서, 가령 스피치 합성과 관련된 것들 같은 전형적 애플리케이션들 안에서 실시될 수 있을 것이다.
HMM 기반 스피치 합성은 최근 들어 연구 단체 및 상용 TTS 개발 단체 양쪽 모두에서 많은 주목 및 인기를 끌고 있다. 이와 관련해 HMM 기반 스피치 합성은 서너 가지 장점들 (가령, 강건성 (robustness), 우수한 트레이닝 능력 (good trainability), 작은 공간 점유 (small footprint), 트레이닝 재료의 좋지 않은 경우들에 대한 낮은 민감도)을 가진다고 인식되어 왔다. 그러나, HMM 기반 스피치 합성은 여럿의 견해에 있어 다소 로봇 같고 인공적인 스피치/목소리 품질로 인한 어려움 또한 겪고 있다. HMM 기반 스피치 합성의 인공적이고 부자연스러운 목소리 음질은, 스피치 신호 생성에 사용되는 부적절한 기술들 및 목소리 소스의 특징들에 대한 부적절한 모델링에 적어도 일부 기인할 수 있다.
기본적인 HMM 기반 스피치 합성시, 스피치 신호는 소스-필터 (souce-filter) 모델을 사용해 생성될 수 있는데, 이러한 소스-필터 모델에서는 여기 신호 (excitation signal)가 주기적 임펄스 트레인 (유성음 사운드에 대해)이나 백색 잡음 (무성음 사운드에 대해)으로서 모델링 됨으로써 상술한 것 같이 로봇 같거나 인공적인 음질을 빚어내는 모델 (상대적으로 조악하다고 간주 될 수 있음)을 제공하게 된다. 최근 들어서는 상술한 문제를 경감하기 위해, 여기 및 잔여 (residual) 모델링의 혼합 기술들이 제안되고 있다. 그러나, 그러한 기술들이 음질에서의 향상을 제공할 수 있다고 해도, 대다수는 그 결과에 따른 스피치 품질이 여전히 자연스러운 스피치의 품질과는 상대적으로 동떨어져 있다고 여기고 있다.
지금까지 고립 모음들 (isolated vowels)의 생성 같은 특별한 목적에 한정된 연구들에서 수반되었던 성문 인버스 필터링 (glottal inverse filtering)이 스피치 합성에 대한 기존 기술들을 향상시킬 조건을 제공할 수 있다. 성문 인버스 필터링은, 유성 스피치 (voiced speech) 신호로부터 성문 소스 신호인 성문 볼륨 속도 파형 (glottal volume velocity waveform)이 추정되는 절차다. 스피치 합성과 관련된 성문 인버스 필터링의 용도가, 이하에서 상세히 설명될 본 발명의 한 전형적 실시예의 양태가 된다. 특히, 전형적인 HMM 기반 스피치 합성을 위한 성문 인버스 필터링의 병합이 예로서 설명될 것이다.
한 전형적 실시예에서, 한 특정 타입의 스피치 합성이 TTS와 관련해 이행될 수 있다. 이와 관련해, 예를 들어 TTS 기기는 텍스트와 합성 스피치 간의 변환을 제공하기 위해 사용될 수 있다. TTS는 컴퓨터 판독가능 텍스트로부터 청각적 스피치의 생성을 말하며, 보통 두 단계를 포함하고 있다고 간주 된다. 첫째, 컴퓨터가 청각적 스피치로 변환될 텍스트를 검사하여, 그 텍스트가 어떻게 발음되어야 하고, 강세 될 음절들은 무엇이고, 어떤 음 높이 (pitch)가 사용되고, 그 사운드를 얼마나 빠르게 전달할지 등등에 대한 세목들을 결정한다. 다음으로, 컴퓨터는 그 세목에 부합하는 오디오를 생성하고자 시도한다. 본 발명의 한 전형적 실시예는 청각적 스피치를 생성하기 위한 한 메커니즘으로서 활용될 수 있다. 이와 관련하여, 이를테면 TTS 기기가 텍스트 분석을 통해 그 텍스트의 특성들 (가령, 강세, 의문문을 요구하는 억양, 음색 등등)을 판단할 것이다. 그러한 특성들은, 전형적 실시예에 따른 스피치 합성과 관련해 사용될 수 있는 HMM 프레임워크 (HMM framework)로 보내질 수 있다. HMM 프레임워크는 데이터베이스 내 스피치 데이터로부터 모델링된 스피치 피처들 (features)을 이용해 앞서 학습 될 수 있는 것으로, 판단된 텍스트의 특성들에 상응하는 매개변수들을 생성하는데 사용될 수 있다. 생성된 매개변수들은 이제, 예를 들어 컴퓨터 생성 스피치의 형태로 합성되어 생성된 오디오 출력을 내놓도록 구성된 청각적 합성기에 의해, 합성된 스피치를 도출하는데 사용될 수 있다.
이제 도 3을 참조하면, 스피치 합성을 지원하는 장치가 제공된다. 이 장치는 프로세서(70), 사용자 인터페이스(72), 통신 인터페이스(74) 및 메모리 기기(76)를 포함하거나, 그들과 통신할 수 있다. 메모리 기기(76)는 가령 휘발성 및/또는 비휘발성 메모리 (가령, 각기 휘발성 메모리(40) 및 비휘발성 메모리(42)에 해당)를 포함할 수 있다. 메모리 기기(76)는 장치가 본 발명의 전형적 실시예들에 따른 다양한 기능들을 수행할 수 있도록 하는 정보, 데이터, 애플리케이션들, 명령들 등등을 저장하도록 구성될 수 있다. 예를 들어, 메모리 기기(76)는 프로세서(70)에 의해 처리될 입력 데이터를 버퍼링하도록 구성될 수 있다. 추가적으로나 대체하는 것으로서, 프로세서(70)에 의해 실행될 명령들을 저장하도록 메모리 기기(76)가 구성될 수도 있다. 또 다른 대안으로서, 메모리 기기(76)는 이하에 상세히 설명되겠지만 스피치나 텍스트 샘플들 또는 컨텍스트 의존적 (context dependent) HMM들 같은 정보를 저장하는 복수의 데이터베이스들 중 하나일 수 있다.
프로세서(70)는 여러 다양한 방법으로 구현될 수 있다. 예를 들어, 프로세서(70)는 집적 회로 한 개 이상의 프로세싱 요소들, 코프로세서들, 컨트롤러들 혹은, ASIC (application specific integrated circuit)이나 FPGA (field programmable gate array) 등과 같은 집적 회로들을 포함하는 다른 다양한 프로세싱 기기들 같은 다양한 프로세싱 수단들로서 구현될 수 있다. 전형적 실시예에서, 프로세서(70)는 메모리 기기(76)에 저장되거나 프로세서(70)가 액세스할 수 있는 명령들을 실행하도록 구성될 수 있다. 이와 같이, 하드웨어 방식으로 구현되든, 소프트웨어 방식으로 구현되든, 혹은 이들의 조합 형식으로 구현되든 상관없이, 프로세서(70)는 본 발명의 실시예들에 따른 동작들을 수행할 수 있고 그에 따라 설정되는 (가령 회로 안에서 물리적으로 구현된) 어떤 엔티티를 나타낼 수 있다. 따라서, 이를테면 프로세서(70)가 ASIC, FPGA 등등으로서 구현될 때, 프로세서(70)는 여기 개시된 동작들을 수행하기 위해 특별히 구성된 하드웨어일 수 있다. 이와 달리, 다른 예로서, 프로세서(70)가 소프트웨어 명령어들의 실행자로서 구현될 때, 그 명령들이 프로세서(70)를 특정하게 설정하여 명령들이 실행될 때 여기 개시된 알고리즘들 및/또는 동작들을 수행하도록 할 수 있다. 그러나, 어떤 경우들에서, 프로세서(70)는, 여기 개시된 알고리즘들 및/또는 동작들을 수행하기 위한 명령들에 의한 프로세서(70)의 추가 설정을 통해 본 발명의 실시예들을 활용하도록 조정된 특정 기기 (가령, 모바일 단말이나 네트워크 기기)의 프로세서일 수 있다.
한편, 통신 인터페이스(74)가 하드웨어, 소프트웨어, 혹은 하드웨어 및 소프트웨어의 결합형태 중 하나로 구현되는 임의의 기기나 수단으로서 구현되어, 해당 장치와 통신하는 네트워크 및/또는 임의의 다른 기기나 모듈로 데이터를 전송하거나 그로부터 데이터를 수신하도록 구성된다. 이와 관련해, 통신 인터페이스(74)는 무선 통신 네트워크와의 통신을 가능하게 하는 지원 하드웨어 및/또는 소프트웨어와 안테나 등을 포함할 수 있다. 고정 환경에서 통신 인터페이스(74)는 유선 통신을 단독으로, 혹은 추가로 지원할 수 있다. 그에 따라, 통신 인터페이스(74)는 케이블, 디지털 가입자 라인 (DSL), 유니버설 시리얼 버스 (USB) 또는 다른 메커니즘들을 통한 통신을 지원하는 통신 모뎀 및/또는 기타 하드웨어/소프트웨어를 포함할 수 있다.
사용자 인터페이스(72)는 프로세서(70)와 통신하여 사용자 인터페이스(72)에서의 사용자 입력 지침을 수신하거나, 청각적 출력, 시각적 출력, 기계적 출력 혹은 기타 출력을 사용자에게 제공할 수 있다. 그로써, 사용자 인터페이스(72)는 키보드, 마우스, 조이스틱, 터치 스크린 디스플레이, 일반 디스플레이, 마이크로폰, 스피커, 또는 다른 입출력 메커니즘 등을 포함할 수 있다. 장치가 서버나 어떤 다른 네트워크 기기들로서 구현되는 한 전형적 실시예에서, 사용자 인터페이스(72)는 제한적이거나 배제될 수 있다. 그러나, 장치가 모바일 단말 (가령, 모바일 단말(10))로서 구현되는 실시예에서 사용자 인터페이스(72)는 다른 많은 기기들이나 요소들 가운데, 스피커(24), 마이크로폰(26), 디스플레이(28), 및 키보드(30) 가운데 어느 하나 또는 전부를 포함할 수 있다. 장치가 서버나 다른 네트워크 기기로서 구현되는 어떤 실시예들에서 사용자 인터페이스(72)는 제한적이거나 배제될 수 있다.
한 전형적인 실시예에서, 프로세서(70)는 성문 펄스 선택기(78), 여기 신호 생성기(80) 및/또는 파형 수정기(82)를 포함하거나 제어하는 것으로서 구현될 수 있다. 성문 펄스 선택기(78), 여기 신호 생성기(80) 및 파형 수정기(82)는 각각 소프트웨어에 따라 동작하거나 하드웨어나 하드웨어 및 소프트웨가 조합된 것을 통해 구현되는 기기나 회로 (가령, 소프트웨어 제어 하에서 동작하는 프로세서(70), 구체적으로 여기 개시된 동작들을 수행하도록 구성된 ASIC이나 FPGA로서 구현되는 프로세서(70) 또는 이들의 조합) 같은 임의의 수단일 수 있고, 그에 따라 이하에 설명되는 바와 같이 성문 펄스 선택기(78), 여기 신호 생성기(80), 및 파형 수정기(82) 각각에 상응하는 기능들을 수행하도록 그 기기나 회로를 설정할 수 있다.
이와 관련해, 성문 펄스 선택기(78)는 성문 펄스들 (glottal pulses)의 라이브러리(88)로부터, 저장되어 있는 성문 펄스 정보(86)를 액세스하도록 구성될 수 있다. 한 전형적 실시예에서, 라이브러리(88)는 사실상 메모리 기기(76) 안에 저장될 수 있다. 그러나, 라이브러리(88)가 그와 달리 성문 펄스 선택기(78)가 액세스할 수 있는 다른 장소 (가령, 서버나 다른 네트워크 기기)에 저장될 수도 있다. 라이브러리(88)는 한 개 이상의 실제 화자 혹은 인간 화자들로부터의 성문 펄스 정보를 저장할 수 있다. 저장된 성문 펄스 정보는 합성 소스들 대신 실제 인간 화자들로부터 나온 것이기 때문에, 인간 발성기관의 진동으로 만들어진 사운드에 해당하는 "실제 성문 펄스 (real glottal pulse)" 정보라고 지칭될 수 있다. 그러나, 실제 성문 펄스 정보는 실제 성문 펄스들의 추정치들을 포함하는데, 이는 인버스 필터링 (inverse filtering)이 완벽한 프로세스일 수 없기 때문이다. 따라서, "실제 성문 펄스"라는 용어는 실제 사람의 스피치로부터 도출된 실제 펄스들이거나, 모델링되거나 압축된 펄스들에 해당하는 것이라고 이해되어야 한다. 전형적인 일 실시예에서, 라이브러리(88)가 실제 사람 목소리 생성 메커니즘에 있어서 각종 다양한 기본 주파수 레벨들, 각종 다양한 발성 (phonation) 모드들 (가령, 정상 (normal), 프레스드 (pressed) 및 브레시 (breathy)) 및/또는 인접 성문 펄스들의 자연스러운 변동이나 전개를 포함하는 대표적 음성을 포함하도록, 라이브러리(88)에 포함될 실제 화자들 (또는 한 명의 실제 화자)이 선택될 수 있다. 성문 펄스들은 인버스 성문 필터링을 사용해, 실제 인간 화자들의 장모음 사운드들로부터 추정될 수 있다.
한 전형적 실시예에서, 라이브러리(88)는 다양한 발성 모드들과 함께 증가 및/또는 감소하는 기본 주파수를 가진 장모음 소리를 기록함으로써 채워질 수 있다. 그런 다음 인버스 필터링을 이용해 대응하는 성문 펄스들이 추정될 수 있다.대안으로서, 각종 강도들 (intensities)같은 다른 자연스러운 변동들 (variations)이 포함될 수 있다. 그러나 이와 관련해, 포함되는 변동의 수가 증가할수록, 라이브러리(88)의 사이즈 (및 상응하는 메모리 요건) 역시 증가한다. 이에 더하여, 상대적으로 많은 수의 변동을 포함하는 것은 합성의 어려움과 복잡도를 높이게 된다. 따라서, 라이브러리(88)에 포함될 변동의 정도는 합성의 복잡도 및 자원 가용성과 관련해 존재하는 바람직함이나 사양들과 균형을 이뤄야 할 것이다.
성문 펄스 선택기(78)는 각각의 기본 주파수 사이클의 신호 생성을 위한 기준으로서 역할할 적절한 성문 펄스를 선택하도록 구성될 수 있다. 따라서, 가령 서너 개의 성문 펄스들이 서너 기본 주파수 사이클들을 포함하는 한 문장 (sentence)에 대한 신호 생성을 위한 기준 역할을 하기 위해 선택될 수 있다. 성문 펄스 선택기(78)에 의해 이뤄지는 선택은 펄스 라이브러리 안에 제공된 각종 특성들에 기초해 처리될 수 있다. 예를 들어, 그러한 선택은 기본 주파수 레벨, 발성 종류 등등에 기초해 처리될 수 있다. 그와 같이, 이를테면 성문 펄스 선택기(78)는 각각의 펄스나 펄스들이 상관되기로 되어 있는 텍스트와 결부되는 특성들에 대응하는 성문 펄스나 펄스들을 선택할 수 있다. 그러한 특성들은, 텍스트가 스피치로의 변환을 위해 처리되는 동안 텍스트 분석 중에 생성될 수 있는 텍스트와 결부된 라벨들 (labels)로 표시될 수 있다. 어떤 실시예들에서, 성문 펄스 선택기(78)에 의해 이뤄지는 선택은, 부자연스럽거나 지나치게 급작스러울 수 있는 성문 여기 (glottal excitation)의 변화를 피하고자, 부분적으로 (혹은 전적으로) 이전 펄스 선택에 의존할 수 있다. 다른 전형적 실시예들에서는 무작위적 선택이 활용될 수도 있다.
전형적인 한 실시예에서, 성문 펄스 선택기(78)는 상술한 것과 같은 성문 펄스들의 선택을 돕도록 구성된 HMM 프레임워크의 일부이거나 HMM 프레임워크와 통신할 수 있다. 이와 관련해, 가령 HMM 프레임워크는 이하에서 상세히 설명하겠지만 HMM 프레임워크에 의해 결정된 매개변수들을 통해 성문 펄스들 (기본 주파수 및/또는 어떤 경우 다른 특성들을 포함함)의 선택을 인도할 수 있다.
성문 펄스 선택기(78)에 의한 성문 펄스들의 선택 후, 선택된 성문 펄스 파형이 여기 신호 생성기(80)에 의한 여기 신호 생성에 사용될 수 있다. 여기 신호 생성기(80)는 성문 펄스 선택기(78)로부터의 입력 (가령, 선택된 성문 펄스)에 대해 저장되어 있는 규칙이나 모델을 적용하도록 구성되어, 스피커 같은 다른 출력 기기나 음성 변환 모델로의 전달 전에 오디오 믹서로 전송할, 적어도 일부 성문 펄스에 기반하는 신호를 청각적으로 재생한 합성 스피치를 만들도록 한다.
어떤 실시예들에서, 선택된 성문 펄스는 여기 신호 생성기(80)에 의한 여기 신호 생성 전에 수정될 수 있다. 이와 관련해 예를 들면, 요망되는 기본 주파수가 선택에 딱 들어맞게 사용가능하지 않은 경우 (가령, 요망되는 기본 주파수가 라이브러리(88)에 저장되어 있지 않은 경우), 기본 주파수 레벨이 파형 수정기(82)에 의해 수정되거나 조정될 수 있다. 파형 수정기(82)는 다양한 각종 방식들을 이용해 기본 주파수나 기타 파형 특성들을 수정하도록 구성될 수 있다. 예를 들어, 기본 주파수 수정은 큐빅 스플라인 보간법 (cubic spline interpolation) 같은 시간 도메인 기법들을 이용해 구현될 수 있고, 아니면 주파수 도메인 재현을 통해 구현될 수도 있다. 어떤 경우들에서, 기본 주파수에 대한 수정은, 가령 펄스의 상이한 부분들 (가령, 오프닝 부분이나 클로징 부분)을 상이하게 처리할 수 있는 어떤 고유하게 설계된 기술을 이용해 해당 성문 플로 펄스 (glottal flow pulse)의 주기를 변경함으로써 이뤄질 수 있다.
한 개를 넘는 펄스가 선택되었을 때, 선택된 펄스들은 가중되고 (weighted) 시간 또는 주파수 도메인 기술들을 이용해 단일 펄스 파형 안에 합성될 수 있다. 그러한 상황의 예가, 라이브러리가 100 Hz 및 130 Hz인 기본 주파수 레벨의 적절한 펄스들을 포함하고 있지만 요망하는 기본 주파수는 115 Hz인 경우로서 주어진다. 그에 따라, 양 펄스들 (가령, 100 Hz 및 130 Hz 레벨들의 펄스들)이 선택될 수 있고, 그런 다음 양 펄스들은 기본 주파수 변조 뒤에 단일 펄스로 합성될 수 있다. 결국, 기본 주파수 레벨이 변할 때 파형의 완만한 변화들이 경험 될 수 있는데, 이는 사이클 듀레이션 및 펄스 모양 둘 모두가 사이클에서 사이클까지 완만하거나 점진적으로 조정되기 때문이다.
성문 펄스 선택시 경험할 수 있는 문제는, 기본 주파수 레벨이 일정할 때조차 허용되도록 성문 파형 내 자연스러운 변동이 요망될 수 있다는 것일 수 있다. 그에 따라, 어떤 실시예들에 따르면, 연속되는 사이클들에서의 여기 (excitation)와 관련해 같은 성문 펄스의 반복이 회피될 수 있다. 그러한 문제 대한 한 가지 해법이, 라이브러리(88) 안에 동일하거나 상이한 기본 주파수 레벨의 서너 개의 연속 펄스들을 포함하는 것일 수 있다. 그러면, 그러한 선택은, 올바른 기본 주파수 주변 펄스들의 범위 상에서 동작하고 다음 허용 가능 펄스 (이전 선택에 자연스럽게 따라오는 것)를 선택함으로써, 같은 펄스를 반복하는 것을 피할 수 있다. 그 패턴은 순환하여 반복될 수 있으며, 기본 주파수 레벨들은 파형 수정기(82)에 의한 포스트 (post) 프로세싱 단계로서, 요망된 기본 주파수에 기초해 조정될 수 있다. 기본 주파수 레벨이 변할 때, 선택 범위도 그에 따라 업데이트 될 수 있다.
라이브러리(88) 및, 성문 펄스 선택기(78), 여기 신호 생성기(80), 및 파형 수정기(82)와 관련해 위에서 설명한 기법들을 이용한 성문 펄스 파형의 생성은, 자연적 (인간의) 스피치 생성시 실제 성문 볼륨 속도 (glottal volume velocity) 파형들와 비교할 때 꽤 유사한 양상을 보이는 성문 여기 (glottal excitation)를 제공할 수 있다. 생성된 성문 여기는 다른 기법들을 이용해 추가 처리될 수도 있다. 예를 들어, 소리 갈라짐 (breathiness)이 소정 주파수들에 잡음을 더함으로써 조정될 수 있다. 어떤 실시예들에서 역시 파형 수정기(82)에 의해 수행될 수 있는 임의의 선택적 포스트 프로세싱 단계들 뒤에, 스펙트럼 콘텐츠 (spectral content)를 요망되는 음성 소스 스펙트럼과 매치시키고 합성 스피치를 생성함으로써 합성 프로세스가 계속될 수 있다.
구현 환경에 따라, 펄스 파형들이 그 자체로서 저장되거나, 기존의 압축 또는 모델링 기법을 이용해 압축될 수 있다. 음질 및 자연스러움이라는 관점에서 볼 때, 상술한 펄스 라이브러리의 생성과 선택의 최적화 및 포스트 프로세싱 단계들이 TTS나 기타 스피치 합성 시스템에서의 스피치 합성을 개선할 수 있다.
도 4는 본 발명의 실시예들로부터 혜택을 누릴 수 있는 스피치 합성 시스템의 예를 도시한 것이다. 이 시스템은 트레이닝 및 합성이라는 독립된 단계들에서 동작하는 두 주요 부분들을 포함한다. 트레이닝 부분에서, 성문 인버스 필터링에 의해 산출된 스피치 매개변수들이 매개변수화 단계(102) 중에 스피치 데이터베이스(100)의 문장들로부터 추출될 수 있다. 매개변수화 단계(102)는 어떤 경우들에 있어서, 스피치 신호로부터의 정보를, 그 스피치 신호의 필수적 특성들을 정확히 묘사하는 약간의 매개변수들로 압축할 수 있다. 그러나, 다른 실시예들에서 매개변수화 단계(102)가 실제로는 오리지널 스피치와 비교할 때 같거나 심지어 더 큰 사이즈의 매개변수화 (parameterization)를 행하는 상세 정도 (level of detail)를 포함할 수 있다. 매개변수화 단계를 수행하는 한 방법이, 음성 신호를 실제 성문 플로 및 성도 (voice tract) 필터에 대응하지 않는 소스 신호와 필터 계수들로 분리하는 것일 수 있다. 그러나, 이런 유형의 간략화된 모델들을 이용하면, 사람의 스피치를 생성하는 실제 메커니즘들을 모델링 하는 것이 어렵다. 따라서, 이 명세서에서 더 논의될 전형적인 실시예들에서는 사람의 스피치 산출, 특히 목소리 소스를 더 잘 모델링 하기 위해, 더 정확한 매개변수화가 이용된다. 그 외에, HMM 프레임워크가 음성 모델링에 사용된다.
이와 관련해, 도 4에서 보인 바와 같이, 매개변수화 단계(102)로부터 얻어진 스피치 매개변수들은 합성 단계에 사용될 HMM 프레임워크를 모델링하기 위해 단계 104에서의 HMM 트레이닝에 사용될 수 있다. 합성 부분에서, 모델링된 HMM들을 포함할 수 있는 HMM 프레임워크가 스피치 합성에 이용될 수 있다. 이와 관련해 예를 들면 컨텍스트 의존적 (훈련된) HMM들이 스피치 합성의 단계 106에서 사용되기 위해 저장될 수 있다. 입력 텍스트(108)는 단계 110에서 텍스트 분석의 대상이 되고, 분석된 텍스트의 특성들에 관한 정보 (가령, 라벨들)가 합성 모듈(112)로 전송될 수 있다. 분석된 입력 텍스트에 따라 HMM들이 연결될 수 있고, 단계 114에서 스피치 매개변수들이 그 HMM들로부터 생성될 수 있다. 그런 다음, 생성된 매개변수들은 스피치 파형을 생성하기 위한 단계 116에서의 스피치 합성에 사용되기 위해 합성 모듈(112)로 제공될 수 있다.
매개변수화 단계(102)는 수많은 방법으로 수행될 수 있다. 도 5는 본 발명의 전형적 실시예에 따른 매개변수화 단계들의 한 예를 도시한 것이다. 전형적 실시예에서, 스피치 신호(120)는, 필터링 되고 (가령, 왜곡하는 저 주파수 변동들 (fluctuations)을 제거하기 위한 고주파 통과 필터(122)를 통해) 소정 인터벌 (가령, 프레임(126)으로 도시된 것 같은)로 소정 프레임 사이즈에 달하는 직사각 윈도(124)를 이용하여 윈도윙 된다 (windowed). 각 프레임의 중간은 각 프레임에서 DC 성분들을 제로로 만들기 위해 제거될 수 있다. 그런 다음 각 프레임으로부터 매개변수들이 추출될 수 있다. 성문 인버스 필터링 (가령, 단계 128에서 도시된 것과 같은 것)은 각각의 스피치 압력 신호에 대한 성문 볼륨 속도 파형들을 추정할 수 있다. 한 전형적 실시예에서, 적응적 올-폴 (all-pole) 모델링을 이용해 스피치 신호로부터 성도 (vocal tract) 및 립 래디에이션 (lip radiation)의 영향들을 반복하여 제거함으로써, 반복적인 적응적 인버스 필터링 기법이 자동 인버스 필터링 방법으로서 활용될 수 있다. LPC 모델들 (가령, 모델들 131, 132 및 133)이 무성음 여기 (unvoiced excitation), 유성음 (voiced) 여기 및 목소리 소스 각자에 대해 제공될 수 있다. 획득된 모든 모델들은 이제 LSF들 (가령, 블록 134, 135 및 136에서 각기 보여진 것과 같은 것)로 변환될 수 있다.
매개변수들은 위에서 나타낸 것과 같이 소스 및 필터 매개변수들로 나눠질 수 있다. 목소리 소스를 생성하기 위해, 기본 주파수, 에너지, 스펙트럼 에너지, 및 목소리 소스 스펙트럼이 추출될 수 있다. 성도 (vocal tract) 필터링 효과에 대응하는 포르만트 (formant) 구조를 생성하기 위해, 유성 및 무성 스피치 사운드들에 대한 스펙트럼들이 추출될 수 있다. 이와 관련해 블록 137에서 추정된 성문 플로 (glottal flow)로부터 기본 주파수가 추출될 수 있고, 스펙트럼 에너지에 대한 평가가 블록 138에서 수행될 수 있다. 이득 조정 (가령, 블록 129에서의) 뒤에, 스피치 신호에 대응하는 피처들(139)이 획득될 수 있다. 유성음 여기 및 무성음 여기에 대한 각각의 스펙트럼이 추출될 수 있는데, 이는 성문 인버스 필터링에 의해 산출된 성도 변경 기능 (vocal tract transfer function)이 그 자체로는 무성 스피치 사운드들에 대해 적합한 스펙트럼 포락선을 나타내지 못하기 때문이다. 성문 인버스 필터링의 출력들에는 추정된 성문 플로(130) 및 성도의 모델 (가령, LPC (linear predictive coding) 모델)이 포함될 수 있다.
매개변수화 단계(102) 뒤에, 획득된 스피치의 피처들이 단일화된 틀 (framework) 안에서 동시에 모델링 될 수 있다. 기본 주파수를 배제한 모든 매개변수들이, 대각 공분산 매트릭스들 (diagonal covariance matrices)과 함께 단일 가우스 분포에 의해 연속 밀도 HMM들을 가지고 모델링 될 수 있다. 기본 주파수는 멀티-스페이스 확률 분포 (multi-space probability distribution)에 의해 모델링될 수 있다. 각각의 음소 HMM에 대한 상태 (state) 듀레이션들이 다차원 가우스 분포들을 가지고 모델링 될 수 있다.
모노폰(monophone) HMM들의 트레이닝 후, 다양한 전후관계 요인들 (contextual factors)이 고려되고, 모노폰 모델들은 콘텍스트 의존적 (context dependent) 모델들로 전환된다. 전후관계 요인들의 개수가 증가하면, 그들의 조합 역시 기하급수적으로 증가한다. 제한된 트레이닝 데이터 량으로 인해, 모델 매개변수들은 일부 경우들에서 충분한 정확도를 가지고 추정을 할 수가 없을 것이다. 이러한 문제를 극복하기 위해, 각 피처에 대한 모델들이 결정-트리 (decision-tree) 기반의 컨텍스트 클러스터링 (context clustering) 기법을 이용해 독자적으로 클러스터링 될 수 있다. 클러스터링은 트레이닝 재료에 포함되지 않은 새 관측 벡터들 (observation vector)을 위한 합성 매개변수들의 생성 역시 가능하게 할 수도 있다.
합성 중에, 트레이닝 부분에서 생성된 모델이 입력 텍스트(108)에 따른 스피치 매개변수들을 생성하는데 사용될 수 있다. 그런 다음 그 매개변수들은 스피치 파형 생성을 위해 합성 모듈(112)로 제공될 수 있다. 전형적인 일 실시예에서, 입력 텍스트(108)에 따른 스피치 매개변수들을 생성하기 위해, 우선, 음운론적이고 고차원의 언어 분석이 텍스트 분석 단계 110에서 수행된다. 동작 110 중에, 입력 텍스트(108)가 콘텍스트 기반 라벨 시퀀스 (context-based label sequence)로 변환될 수 있다. 트레이닝 단계를 통해 생성된 라벨 시퀀스 및 결정 트리들에 따라, 콘텍스트 의존적 HMM들을 연결함으로써 한 문장 HMM이 구성될 수 있다. 문장 HMM의 상태 듀레이션들은 상태 듀레이션 밀도 (state duration densities)의 가능성을 최대화하기 위해 결정될 수 있다. 획득된 문장 HMM 및 상태 듀레이션들을 따라, 스피치 매개변수 생성 알고리즘을 이용해 스피치 피처들의 시퀀스가 생성될 수 있다.
분석된 텍스트 및 생성된 스피치 매개변수들은 스피치 합성을 위한 합성 모듈(112)에 의해 사용될 수 있다. 도 6은 전형적인 실시예에 따른 합성 동작들의 예를 도시한 것이다. 합성된 스피치는 유성 사운드 소스 및 무성 사운드 소스를 포함하는 여기 신호를 이용해 생성될 수 있다. 자연 (natural) 성문 플로 펄스가 발성 소스를 생성하기 위한 라이브러리 펄스로서 (라이브러리(88) 등으로부터) 사용될 수 있다. 인공적 성문 플로 펄스들과 비교할 때, 자연 성문 플로 펄스의 사용은 합성 스피치의 자연스러움 및 음질을 유지하는 것을 도울 수 있다. 상술한 바와 같이 (그리고 도 6의 블록 140에 도시된 것과 같이) 라이브러리 펄스는, 특정 화자에 의해 생성된 일관된 자연스러운 모음에 대한 인버스 필터링된 프레임으로부터 추출되었을 수 있다. 특정 기본 주파수 (가령, 블록 139의 F0) 및 이득(141)이 라이브러리 펄스와 결부될 수 있다. 불완전 성문 인버스 필터링으로 인해 나타날 수 있는 반향들 (resonances)을 제거하기 위해, 성문 플로 펄스가 시간 도메인 안에서 수정될 수 있다. 펄스의 처음과 마지막은 그 펄스로부터 선형 그래디언트 (linear gradient)를 뺌으로써 같은 레벨 (가령, 제로 레벨)로 설정될 수도 있다.
실제 성문 플로 펄스들을 선택 및 수정함으로써 (가령, 보간 및 스케일링 (142)을 통해), 가변하는 주기 길이들과 에너지들을 가지는 개별 성문 펄스들의 시리즈를 포함하는 펄스 트레인(144)이 생성될 수 있다. 위에서 논의한 바와 같이, 큐빅 스플라인 보간 기법이나 다른 적절한 메커니즘이, 목소리 소스의 기본 주파수를 바꾸기 위해 성문 플로 펄스들을 더 길거나 더 짧게 만드는데 이용될 수 있다.
전형적인 실시예에서, 목소리 소스의 자연스러운 변동 (natural variations)을 모방하기 위해, HMM에 의해 생성된 바람직한 목소리 소스 올-폴 스펙트럼 (voice source all-pole spectrum)이 펄스 트레인에 적용될 수 있다 (이를테면 블록 148 및 150에 표시된 것과 같음). 이것은 생성된 펄스 트레인의 LPC 스펙트럼을 먼저 평가하고 (이를테면 블록 146에 도시된 것과 같이), 그런 다음 펄스 트레인의 스펙트럼을 납작하게 만들고 원하는 스펙트럼을 적용할 수 있는 적응적 IIR (infinite impulse response) 필터를 가지고 펄스 트레인을 필터링 함으로써 달성될 수 있다. 이와 관련해 생성된 펄스 트레인의 LPC 스펙트럼은, 수정된 라이브러리 펄스들의 정수 (integer number)를 프레임에 맞추고 윈도윙 없이 LPC 분석을 수행함으로써 평가될 수 있다. 이 필터 (가령, 스펙트럼 매치 필터(152))의 재구성 전에, 생성된 펄스 트레인의 LPC 스펙트럼이 LSF들 (line spectral frequencies)로 변환될 수 있고, 그런 다음 두 LSF들이 프레임 단위로 보간 되고 (이를테면, 큐빅 스플라인 보간법을 이용), 그런 다음 다시 선형 예측 계수들로 변환될 수 있다.
무성 사운드 소스는 백색 잡음으로 표현될 수 있다. 스피치 사운드들이 유성음일 때 (가령, 브레시 (breathy) 사운드들)에도 무성음 성분을 포함하도록 하기 위해, 유성음 및 무성음 스트림들 둘 모두가 프레임 전반에 걸쳐 동시 발생적으로 생성될 수 있다. 무성 스피치 사운드들인 동안에는 무성 여기(154)가 주요 사운드 소스일 수 있지만, 유성 스피치 사운드들인 동안 무성음 여기는 그 강도가 훨씬 더 낮을 것이다. (가령, 블록 160에 표시된 것 같은) 백색 잡음의 무성음 여기가 기본 주파수 값(도 6의 블록 159에 도시된 F0 등)에 의해 제어될 수 있고, (가령, 블록 161에 나타낸 것과 같은) 해당 주파수 대역들의 에너지에 따라 추가 가중될 수 있다. 그 결과가 블록 162에 도시된 것처럼 스케일링 될 수 있다. 어떤 실시예들에서, 유성 스피치 세그먼트들 안에 병합된 잡음 성분을 보다 자연스럽게 만들기 위해, 그 잡음 성분이 성문 플로 펄스들에 따라 변조될 수 있다. 그러나, 변조가 너무 집중적이면, 그에 따른 스피치의 결과는 부자연스런 소리가 날 수 있다. 이제 포만트 (formant) 개선 절차가, HMM에 의해 생성된 유성음 및 무성음 스펙트럼의 LSF들에 적용되어, 통계적 모델링과 관련된 평균적인 영향들을 보상할 수 있다. 포만트 개선 후, HMM에 의해 생성된 유성음 및 무성음 LSF들 (각각 170 및 172 등)은 프레임 단위로 보간 될 수 있다 (가령, 큐빅 스플라인 보간법을 이용). 그런 다음 LSF들이 선형 예측 계수들로 변환되어, (블록 174 및 176에 도시된 것 같이) 여기 신호를 필터링 하는데 사용될 수 있다. 유성음 여기(156)에 대해, (가령, 블록 178에 도시된 것 같은) 립 래디에이션 (lip radiation) 효과 역시 모델링 될 수 있다. (가령 블록 180 및 182에 도시된 것 같이) 합성된 신호들 (유성 및 무성음 기여분)의 이득이, HMM에 의해 생성된 에너지 계측에 따라 매칭되어, 합성 스피치 신호(184)가 생성되게 수 있다.
본 발명의 실시예들은 HMM 기반 합성 스피치 생성시 보다 자연스러운 스피치 음질을 제공함으로써 일반적인 방식들과 비교해 음질에 대한 개선을 지원할 수 있다. 어떤 실시예들은 높은 복잡도를 부가하지 않고도 실제 인간 목소리 생성 메커니즘과 상대적으로 밀접한 연관성을 제공할 수도 있다. 일부 경우들에 있어서, 별개의 자연 목소리 소스와 성도 (vocal tract) 특성들이 모델링에 충분히 활용될 수 있다. 그에 따라, 실시예들은 말하는 스타일의 변경, 화자 특징 및 감정과 관련해 개선된 음질을 제공할 수 있다. 그 외에, 일부 실시예들은 상대적으로 작은 점유공간에서 우수한 훈련가능성 및 강건성을 제공할 수 있다.
도 7은 본 발명의 전형적 실시예에 따른 시스템, 방법 및 프로그램 제품의 흐름도이다. 이 흐름도의 각 블록이나 단계, 및 흐름도 내 블록들의 조합이, 하드웨어, 펌웨어, 프로세서, 회로 및/또는 한 개 이상의 컴퓨터 프로그램 명령들을 포함하는 소프트웨어를 저장하는 컴퓨터 판독가능 매체를 구비한 컴퓨터 프로그램 제품이 포함된 기기들 같은 다양한 수단에 의해 구현될 수 있다는 것을 알 수 있을 것이다. 예를 들어, 상술한 절차들 중 한 개 이상이 컴퓨터 프로그램 명령들에 의해 실시될 수 있다. 이와 관련해, 상술한 절차들을 구현하는 컴퓨터 프로그램 명령들은 (가령 모바일 단말이나 다른 장치의) 메모리 기기에 의해 저장되고 (가령 모바일 단말이나 다른 장치 안의) 프로세서를 통해 실행될 수 있다. 예상할 수 있다시피, 그러한 어떤 컴퓨터 프로그램 명령들은 컴퓨터나 다른 프로그래머블 장치 (가령, 하드웨어)로 로드되어, 그 결과에 따라 켬퓨터나 다른 프로그래머블 장치가 흐름도의 블록(들)이나 단계(들)에 명시된 기능들을 이행하는 수단들을 구현하는 머신을 도출할 수 있다. 그러한 컴퓨터 프로그램 명령들은 또한 컴퓨터 판독가능 메모리 안에 저장되어, 컴퓨터나 기타 프로그래머블 장치로 하여금, 컴퓨터 판독가능 메모리에 저장된 명령들이 이 흐름도의 블록(들)이나 단계(들)에 명시된 기능을 이행하는 명령 수단을 포함하는 제품을 도출하도록 특정 방식으로 작동되게 할 수 있다. 컴퓨터 프로그램 명령들은 또한 컴퓨터나 기타 프로그래머블 장치로 로드되어, 일련의 동작 단계들이 컴퓨터나 기타 프로그래머블 장치상에서 수행되어, 컴퓨터나 기타 프로그래머블 장치상에서 실행되는 그 명령들이, 흐름도의 블록(들)이나 단계(들)에 명시된 기능을 이행하는 단계들을 제공하도록 하는 컴퓨터 이행 프로세스를 도출하도록 할 수 있다.
따라서, 흐름도의 블록들 또는 단계들은 명시된 기능들을 수행하기 위한 수단들의 조합, 명시된 기능들을 수행하기 위한 단계들의 결합, 및 명시된 기능들을 수행하기 위한 프로그램 명령 수단들의 결합을 지원한다. 흐름도 내 한 개 이상의 블록들 또는 단계들, 및 흐름도 내 블록들 또는 단계들의 조합이 명시된 기능들이나 단계들을 수행하는 특수 목적의 하드웨어 기반 컴퓨터 시스템들이나, 특수 목적의 하드웨어 및 컴퓨터 명령어들의 결합을 통해 구현될 수 있다는 것 역시 알 수 있을 것이다.
이와 관련해, 도 7에 제시된 바와 같은 개선된 스피치 합성을 지원하는 방법의 일 실시예는, 단계 210에서, 실제 성문 펄스와 관련된 한 특성에 적어도 일부 기반하여 한 개 이상의 저장된 실제 성문 펄스들에서 한 실제 성문 펄스를 선택하는 단계를 포함한다. 이 방법은, 단계 220에서 여기 신호의 생성을 위해 선택된 실제 성문 펄스를 기준으로서 활용하는 단계, 단계 230에서 합성 스피치나 합성 스피치의 한 성분을 제공하기 위해 한 모델에 의해 생성된 스펙트럼 매개변수들에 기초해 여기 신호를 수정 (예를 들어, 필터링) 하는 단계를 더 포함할 수 있다. 펄스들을 처리하는 다른 수단들 또한 사용될 수 있는데, 이를테면 잡음을 올바른 주파수대에 추가함으로써 기식화된 음성 (breathiness)이 교정될 수 있다.
한 전형적 실시예에서, 이 방법은 옵션일 수도 있는 다른 동작들을 추가로 포함할 수 있다. 그에 따라, 도 7은 점선들로 보여지는 일부 예로 든 추가 동작들을 예시한다. 이와 관련해, 이를테면, 이 방법은 단계 200에서 성문 인버스 필터링을 이용해 해당하는 자연스러운 스피치 신호들로부터 복수의 저장된 실제 성문 펄스들을 추정하는 초기 동작을 포함한다. 일부 실시예들에서, 상기 모델은 HMM 프레임워크를 포함할 수 있고, 그에 따라 상기 방법은 단계 205에서 성문 인버스 필터링에 적어도 일부 기반하여 생성된 매개변수들을 사용해 HMM 프레임워크를 트레이닝하는 단계를 포함할 수 있다. 다른 대안적 실시예들에서, 실제 성문 펄스의 선택은 실제 성문 펄스와 관련된 기본 주파수에 적어도 일부 기초해 이뤄질 수 있다. 그러한 실시예들에서, 상기 방법은 단계 215에서 기본 주파수를 수정하는 단계를 포함할 수 있다.
기본 주파수가 수정되는 경우들에서, 그러한 수정은 기본 주파수를 수정하는 시간 도메인 또는 주파수 기법들에 의해 수행될 수 있다. 전형적 실시예에서, 실제 성문 펄스를 선택하는 단계는 적어도 두 개의 펄스를 선택하는 단계를 포함하고, 기본 주파수를 수정하는 단계는 적어도 두 개의 펄스를 단일 펄스로 결합하는 단계를 포함할 수 있다. 대안적 실시예들에서, 실제 성문 펄스를 선택하는 단계는 HMM 프레임워크와 관련된 매개변수들에 적어도 일부 기반해 실제 성문 펄스를 선택하는 단계, 또는 앞서 선택된 펄스에 적어도 일부 기반해 현재의 펄스를 선택하는 단계를 더 포함할 수 있다.
전형적 실시예에서, 상기 방법을 수행하기 위한 장치는 상술한 동작들(200-230) 각각을 수행하도록 구성된 프로세서 (가령, 프로세서(70))를 포함할 수 있다. 프로세서는 예를 들어, 동작들 각각을 수행하도기 위해 저장된 명령어들이나 알고리즘을 실행함으로써 상기 동작들을 수행하도록 구성될 수 있다. 이와 달리, 장치가 상술한 동작들 각각을 수행하기 위한 수단들을 포함할 수도 있다. 이와 관련해, 전형적인 일 실시예에 따르면, 동작들(200 내지 230)을 수행하기 위한 수단들의 예들로는, 예를 들어 성문 펄스 선택기(78), 여기 신호 생성기(80), 및 파형 수정기(82), 프로세서(70) 등등에 상응하는 것들인, 상술한 것과 같은 스피치 합성 동작들을 관리하기 위한 알고리즘을 구현하는 컴퓨터 프로그램 제품이 포함될 수 있다.
따라서 개선된 스피치 합성을 위한 방법, 장치 및 컴퓨터 프로그램 제품이 제안된다. 특히, HMM 기반 스피치 합성시, 저장된 성문 펄스 정보를 이용해 스피치 합성을 수행할 수 있는 방법, 장치 및 컴퓨터 프로그램 제품이 제안된다. 그에 따라, 예를 들면 실제 성문 펄스들의 라이브러리가 생성되어 HMM 기반 스피치 합성에 활용될 수 있다.
전형적 일 실시예에서, 개선된 스피치 합성을 제공하는 방법이 제안된다. 이 방법은 실제 성문 펄스와 관련된 한 특성에 적어도 일부 기반하여, 복수의 저장된 실제 성문 펄스들 사이에서 한 실제 성문 펄스를 선택하는 단계, 여기 신호의 생성을 위해, 선택된 그 실제 성문 펄스를 기준 (basis)으로서 활용하는 단계, 및 합성 스피치를 제공하기 위해 한 모델에 의해 생성된 스펙트럼 매개변수들에 기초해 여기 신호를 수정하는 단계를 포함할 수 있다. 어떤 경우들에 있어서, 이 방법은 성문 인버스 필터링을 이용해 해당하는 자연스러운 스피치 신호들로부터 복수의 저장된 실제 성문 펄스들을 추정하는 것 같은 옵션일 수 있는 다른 단계들을 더 포함할 수 있다. 어떤 실시예들에서, 모델은 HMM 프레임워크를 포함할 수 있고, 그에 따라, 상기 방법은 성문 인버스 필터링에 적어도 일부 기반해 생성된 매개변수들을 이용해 HMM 프레임워크를 트레이닝하는 단계를 포함할 수 있다. 다른 대안적 실시예들에서, 실제 성문 펄스의 선택은 실제 성문 펄스와 관련된 기본 주파수에 적어도 일부 기반해 이뤄질 수 있다. 그러한 실시예들에서, 이 방법은 기본 주파수를 수정하는 단계를 포함할 수 있다. 기본 주파수가 수정되는 경우에, 그러한 수정은 기본 주파수를 수정하는 시간 도메인이나 주파수 기법들을 활용해 수행될 수 있다. 한 전형적 실시예에서, 실제 성문 펄스를 선택하는 동작은 적어도 두 개의 펄스들을 선택하는 동작을 포함할 수 있고, 기본 주파수를 수정하는 동작은 적어도 두 펄스들을 하나의 펄스로 결합하는 동작을 포함할 수 있다. 다른 대안적 실시예들에서, 실제 성문 펄스를 선택하는 동작은, HMM 프레임워크와 결부된 매개변수들에 적어도 일부 기반해 실제 성문 펄스를 선택하는 단계, 또는 앞서 선택된 펄스에 적어도 일부 기반해 현재의 펄스를 선택하는 단계를 더 포함할 수 있다.
또 다른 전형적 실시예에서, 개선된 스피치 합성을 제공하는 컴퓨터 프로그램 제품이 제안된다. 이 컴퓨터 프로그램 제품은 그 안에 컴퓨터 실행가능 프로그램 코드 부분들이 저장된 적어도 하나의 컴퓨터 판독가능 저장 매체를 포함한다. 컴퓨터 실행가능 프로그램 코드 부분들은 제1, 제2 및 제3프로그램 코드 부분들을 포함할 수 있다. 제1프로그램 코드 부분은 실제 성문 펄스와 결부된 특성에 적어도 일부 기초해, 복수의 저장된 실제 성문 펄스들 가운데에서 한 실제 성문 펄스를 선택하기 위한 것이다. 제2프로그램 코드 부분은 여기 신호 생성을 위해 상기 선택된 실제 성문 펄스를 기준으로서 활용하기 위한 것이다. 제3프로그램 코드 부분은 합성 스피치를 제공하기 위해 한 모델에 의해 생성된 스펙트럼 매개변수들에 기초해 여기 신호를 수정하기 위한 것이다. 일부 경우들에서, 컴퓨터 프로그램 제품은 성문 인버스 필터링을 이용해 해당하는 자연스러운 스피치 신호들로부터 복수의 저장된 실제 성문 펄스들을 추정하기 위한 프로그램 코드 부분 같이 옵션일 수 있는 다른 프로그램 코드 부분들을 더 포함할 수 있다. 일부 실시예들에서, 상기 모델은 HMM 프레임워크를 포함할 수 있고, 그에 따라, 컴퓨터 프로그램 제품은 성문 인버스 필터링에 적어도 일부 기초해 생성된 매개변수들을 이용해 HMM 프레임워크를 트레이닝하기 위한 프로그램 코드 부분을 포함할 수 있다. 다른 대안적 실시예들에서, 실제 성문 펄스의 선택은 실제 성문 펄스와 관련된 기본 주파수에 적어도 일부 기초해 이뤄질 수 있다. 그러한 실시예들에서, 컴퓨터 프로그램 제품은 기본 주파수를 수정하기 위한 프로그램 코드 부분을 포함할 수 있다. 기본 주파수가 수정되는 경우들에서, 그러한 수정은 기본 주파수를 수정하기 위한 시간 도메인이나 주파수 기법들을 활용해 수행될 수 있다. 한 전형적 실시예에서, 실제 성문 펄스를 선택하는 동작은 적어도 두 펄스들을 선택하는 동작을 포함할 수 있고, 기본 주파수를 수정하는 동작은, 그 적어도 두 펄스들을 한 개의 펄스로 결합하는 동작을 포함할 수 있다. 대안적 실시예들에서, 실제 성문 펄스를 선택하는 동작은, HMM 프레임워크와 결부된 매개변수들에 적어도 일부 기초해 실제 성문 펄스를 선택하거나, 앞서 선택된 펄스에 적어도 일부 기초해 현재의 펄스를 선택하는 동작을 더 포함할 수 있다.
또 다른 전형적 실시예에서, 개선된 스피치 합성을 제공하는 장치가 제안된다. 이 장치는 프로세서를 포함할 수 있다. 프로세서는 실제 성문 펄스와 결부된 특성에 적어도 일부 기초해, 복수의 저장된 실제 성문 펄스들 가운데에서 한 실제 성문 펄스를 선택하고, 여기 신호의 생성을 위해 상기 선택된 실제 성문 펄스를 기준으로서 활용하고, 합성 스피치를 제공하기 위해 한 모델에 의해 생성된 스펙트럼 매개변수들에 기초해 여기 신호를 수정하도록 구성될 수 있다. 일부 경우들에서, 프로세서는 성문 인버스 필터링을 이용해 해당하는 자연스러운 스피치 신호들로부터 복수의 저장된 실제 성문 펄스들을 추정하는 것 같이, 옵션일 수 있는 동작들을 수행하도록 추가 구성될 수 있다. 일부 실시예들에서, 상기 모델은 HMM 프레임워크를 포함할 수 있고, 그에 따라, 프로세서는 성문 인버스 필터링에 적어도 일부 기초해 생성된 매개변수들을 이용해 HMM 프레임워크를 트레이닝할 수 있다. 다른 대안적 실시예들에서, 실제 성문 펄스의 선택은 실제 성문 펄스와 관련된 기본 주파수에 적어도 일부 기초해 이뤄질 수 있다. 그러한 실시예들에서, 프로세서는 기본 주파수를 수정하도록 구성될 수 있다. 기본 주파수가 수정되는 경우들에서, 그러한 수정은 기본 주파수를 수정하기 위한 시간 도메인이나 주파수 기법들을 활용해 수행될 수 있다. 한 전형적 실시예에서, 실제 성문 펄스를 선택하는 동작은 적어도 두 펄스들을 선택하는 동작을 포함할 수 있고, 기본 주파수를 수정하는 동작은, 그 적어도 두 펄스들을 한 개의 펄스로 결합하는 동작을 포함할 수 있다. 대안적 실시예들에서, 실제 성문 펄스를 선택하는 동작은, HMM 프레임워크와 결부된 매개변수들에 적어도 일부 기초해 실제 성문 펄스를 선택하거나, 앞서 선택된 펄스에 적어도 일부 기초해 현재의 펄스를 선택하는 동작을 더 포함할 수 있다.
또 다른 전형적 실시예에서, 개선된 스피치 합성을 제공하는 장치가 제안된다. 이 장치는 실제 성문 펄스와 관련된 특성에 적어도 일부 기초해 복수의 저장된 실제 성문 펄스들로부터 한 실제 성문 펄스를 선택하는 수단, 여기 신호 생성을 위해 상기 선택된 실제 성문 펄스를 기준으로서 활용하는 수단, 및 한 모델에 의해 생성된 스펙트럼 매개변수들에 기초해 상기 여기 신호를 수정하여 합성 스피치를 제공하는 수단을 포함할 수 있다. 그러한 실시예에서, 상기 모델에 의해 생성된 스펙트럼 매개변수들에 기초해 여기 신호를 수정하는 수단은, 숨은 마코프 모델 (hidden Markov model) 프레임워크에 의해 생성되는 스펙트럼 매개변수들에 기초해 여기 신호를 수정하는 수단을 포함할 수 있다.
본 발명의 실시예들은 스피치 프로세싱에서 바람직하게 활용될 방법, 장치 및 컴퓨터 프로그램 제품을 제안할 수 있다. 그 결과, 예를 들어 모바일 단말들이나 기타 스피치 프로세싱 장치들의 사용자들은 모바일 단말에서의 메모리 및 점유공간 요건들에 대한 상당한 증대 없이도, 개선된 사용성능 및 개선된 스피치 프로세싱 기능들을 누릴 수 있다.
상술한 내용 및 관련 도면에 제시된 가르침들로부터 혜택을 입을 수 있는, 본 발명이 속하는 분야의 숙련자들이라면 여기 개시된 본 발명에 대해 많은 변경 버전들 및 다른 실시예들을 떠올릴 수 있을 것이다. 따라서, 본 발명이 개시된 특정 실시예들에 국한되어서는 안 된다는 것과, 변경 버전들 및 다른 실시예들도 첨부된 청구항들의 범위 안에 포함된다는 것을 알아야 한다. 또한, 상기 내용 및 관련 도면들이 구성요소들 및/또는 기능들의 어떤 전형적 조합과 관련해 실시예들을 설명하고 있지만, 첨부된 청구항들의 범위에서 벗어나지 않은 채 다른 대안적 실시예들을 통해 구성요소들 및/또는 기능들의 다른 조합들이 주어질 수도 있다는 것을 예상할 수 있을 것이다. 이와 관련해, 예를 들어, 위에서 명시적으로 설명한 것과 다른 구성요소들 및/또는 기능들의 조합 역시 첨부된 청구항들의 일부에 개시될 수 있는 것이라 간주 된다. 특정 용어들이 사용되었지만, 이는 포괄적이고 설명적인 맥락에서 사용된 것일 뿐 한정할 용도로 사용된 것은 아니다.

Claims (20)

  1. 프로세서 및 실행가능한 명령어들을 저장한 메모리를 포함하는 장치에 있어서, 상기 명령어들은 프로세서에 의한 실행에 응해 상기 장치로 하여금 최소한,
    실제 성문 펄스 (real glottal pulse)와 관련된 특성에 적어도 일부 기반하여, 저장된 하나 이상의 실제 성문 펄스들 가운데서 한 실제 성문 펄스를 선택하는 동작;
    여기 신호 (excitation signal) 생성을 위한 기준으로서 상기 선택된 실제 성문 펄스를 활용하는 동작; 및
    한 모델에 의해 생성된 스펙트럼 매개변수들 (spectral parameters)에 기초해 상기 여기 신호를 수정해 합성 스피치 (synthetic speech)를 제공하는 동작을 수행하도록 함을 특징으로 하는 장치.
  2. 제1항에 있어서, 상기 명령어들은 상기 장치로 하여금, 숨은 마코프 모델 (hidden Markov model) 프레임워크에 의해 생성된 스펙트럼 매개변수들에 기초해 상기 여기 신호를 필터링하는 것에 의해, 상기 모델에 의해 생성된 스펙트럼 매개변수들에 기초해 상기 여기 신호를 수정하도록 함을 특징으로 하는 장치.
  3. 제2항에 있어서, 상기 명령어들은 상기 장치로 하여금, 성문 인버스 필터링 (glottal inverse filtering)에 적어도 일부 기초해 생성된 매개변수들을 이용해 상기 숨은 마코프 모델 프레임워크를 트레이닝하도록 함을 특징으로 하는 장치.
  4. 제2항 또는 제3항에 있어서, 상기 명령어들은 상기 장치로 하여금, 상기 숨은 마코프 모델 프레임워크와 관련된 매개변수들에 적어도 일부 기초하여 실제 성문 펄스를 선택하는 것에 의해, 상기 실제 성문 펄스를 선택하도록 함을 특징으로 하는 장치.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 명령어들은 상기 장치로 하여금, 이전에 선택된 펄스에 적어도 일부 기초하여 현재의 펄스를 선택하는 것에 의해, 상기 실제 성문 펄스를 선택하도록 함을 특징으로 하는 장치.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 명령어들은 상기 장치로 하여금, 실제 성문 펄스와 관련된 기본 (fundamental) 주파수에 기초해 실제 성문 펄스를 선택하도록 함을 특징으로 하는 장치.
  7. 제6항에 있어서, 상기 명령어들은 상기 장치로 하여금 상기 기본 주파수를 수정하도록 함을 특징으로 하는 장치.
  8. 제7항에 있어서, 상기 명령어들은 상기 장치로 하여금, 상기 기본 주파수를 수정하기 위해 타임 도메인이나 주파수 기법들을 활용하여 상기 기본 주파수를 수정하도록 함을 특징으로 하는 장치.
  9. 제6항 내지 제8항 중 어느 한 항에 있어서, 상기 명령어들은 상기 장치로 하여금, 적어도 두 펄스들을 선택하는 것에 의해 상기 실제 성문 펄스를 선택하도록 하고, 상기 기본 주파수를 수정하는 것은, 상기 적어도 두 펄스들을 단일 펄스로 결합하는 동작을 포함함을 특징으로 하는 장치.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 명령어들은 상기 장치로 하여금, 성문 인버스 필터링을 이용해 해당하는 자연스러운 스피치 신호들로부터 상기 복수의 저장된 실제 성문 펄스들을 추정하는 초기 동작을 수행하도록 함을 특징으로 하는 장치.
  11. 실제 성문 펄스와 관련된 한 특성에 적어도 일부 기초하여 한 개 이상 저장된 실제 성문 펄스들 가운데서 한 실제 성문 펄스를 선택하는 단계;
    여기 신호 생성을 위한 기준으로서, 상기 선택된 실제 성문 펄스를 활용하는 단계; 및
    프로세서를 통해, 한 모델에 의해 생성된 스펙트럼 매개변수들에 기초해 상기 여기 신호를 수정하여 합성 스피치를 제공하도록 하는 단계를 포함함을 특징으로 하는 방법.
  12. 제11항에 있어서, 상기 한 모델에 의해 생성된 스펙트럼 매개변수들에 기초해 상기 여기 신호를 수정하는 단계는, 숨은 마코프 모델 (hidden Markov model) 프레임워크에 의해 생성된 스펙트럼 매개변수들에 기초해 상기 여기 신호를 수정하는 단계를 포함함을 특징으로 하는 방법.
  13. 제11항 또는 제12항에 있어서, 상기 실제 성문 펄스를 선택하는 단계는, 앞서 선택된 펄스에 적어도 일부 기초하여 현재의 펄스를 선택하는 단계를 더 포함함을 특징으로 하는 방법.
  14. 제11항 내지 제13항 중 어느 한 항에 있어서, 상기 실제 성문 펄스를 선택하는 단계는, 실제 성문 펄스와 관련된 기본 주파수에 기초해 실제 성문 펄스를 선택하는 단계를 더 포함함을 특징으로 하는 방법.
  15. 제11항 내지 제14항 중 어느 한 항에 있어서,
    성문 인버스 필터링을 이용해, 해당하는 자연스러운 스피치 신호들로부터 상기 복수 저장된 실제 성문 펄스들을 추정하는 초기 동작을 더 포함함을 특징으로 하는 방법.
  16. 컴퓨터 실행가능 프로그램 코드 부분들을 저장하는 적어도 한 개의 컴퓨터 판독가능 저장 매체를 구비한 컴퓨터 프로그램 제품에 있어서, 상기 컴퓨터 판독가능 프로그램 코드 부분들은,
    실제 성문 펄스와 관련된 한 특성에 적어도 일부 기초하여 한 개 이상 저장된 실제 성문 펄스들 가운데서 한 실제 성문 펄스를 선택하도록 하는 프로그램 코드 명령;
    여기 신호 생성을 위한 기준으로서, 상기 선택된 실제 성문 펄스를 활용하도록 하는 프로그램 코드 명령: 및
    한 모델에 의해 생성된 스펙트럼 매개변수들에 기초해 상기 여기 신호를 수정하여 합성 스피치를 제공하도록 하는 프로그램 코드 명령을 포함함을 특징으로 하는 컴퓨터 프로그램 제품.
  17. 제16항에 있어서, 상기 여기 신호를 수정하도록 하는 프로그램 코드 명령은, 숨은 마코프 모델 (hidden Markov model) 프레임워크에 의해 생성된 스펙트럼 매개변수들에 기초해 상기 여기 신호를 수정하도록 하는 명령을 포함함을 특징으로 하는 컴퓨터 프로그램 제품.
  18. 제16항 또는 제17항에 있어서, 상기 실제 성문 펄스를 선택하기 위한 프로그램 코드 명령은, 앞서 선택된 펄스에 적어도 일부 기초하여 현재의 펄스를 선택하도록 하는 명령을 포함함을 특징으로 하는 컴퓨터 프로그램 제품.
  19. 제16항 내지 제18항 중 어느 한 항에 있어서, 상기 실제 성문 펄스를 선택하기 위한 프로그램 코드 명령은, 실제 성문 펄스와 관련된 기본 주파수에 기초해 실제 성문 펄스를 선택하도록 하는 명령을 포함함을 특징으로 하는 컴퓨터 프로그램 제품.
  20. 제16항 내지 제19항 중 어느 한 항에 있어서,
    성문 인버스 필터링을 이용해, 해당하는 자연스러운 스피치 신호들로부터 상기 복수 저장된 실제 성문 펄스들을 추정하는 초기 동작을 위한 프로그램 코드 명령을 더 포함함을 특징으로 하는 컴퓨터 프로그램 제품.
KR1020107029463A 2008-05-30 2009-05-19 개선된 스피치 합성을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품 KR101214402B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US5754208P 2008-05-30 2008-05-30
US61/057,542 2008-05-30

Publications (2)

Publication Number Publication Date
KR20110025666A true KR20110025666A (ko) 2011-03-10
KR101214402B1 KR101214402B1 (ko) 2012-12-21

Family

ID=41376636

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107029463A KR101214402B1 (ko) 2008-05-30 2009-05-19 개선된 스피치 합성을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품

Country Status (6)

Country Link
US (1) US8386256B2 (ko)
EP (1) EP2279507A4 (ko)
KR (1) KR101214402B1 (ko)
CN (1) CN102047321A (ko)
CA (1) CA2724753A1 (ko)
WO (1) WO2009144368A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101145441B1 (ko) * 2011-04-20 2012-05-15 서울대학교산학협력단 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5300975B2 (ja) * 2009-04-15 2013-09-25 株式会社東芝 音声合成装置、方法およびプログラム
JP5422754B2 (ja) * 2010-01-04 2014-02-19 株式会社東芝 音声合成装置及び方法
GB2478314B (en) * 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
GB2480108B (en) * 2010-05-07 2012-08-29 Toshiba Res Europ Ltd A speech processing method an apparatus
WO2012032748A1 (ja) * 2010-09-06 2012-03-15 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
ES2364401B2 (es) * 2011-06-27 2011-12-23 Universidad Politécnica de Madrid Método y sistema para la estimación de parámetros fisiológicos de la fonación.
US10860946B2 (en) * 2011-08-10 2020-12-08 Konlanbi Dynamic data structures for data-driven modeling
US9147166B1 (en) * 2011-08-10 2015-09-29 Konlanbi Generating dynamically controllable composite data structures from a plurality of data segments
KR102038171B1 (ko) 2012-03-29 2019-10-29 스뮬, 인코포레이티드 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환
US9459768B2 (en) 2012-12-12 2016-10-04 Smule, Inc. Audiovisual capture and sharing framework with coordinated user-selectable audio and video effects filters
US10014007B2 (en) 2014-05-28 2018-07-03 Interactive Intelligence, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CA2947957C (en) * 2014-05-28 2023-01-03 Interactive Intelligence, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US10255903B2 (en) 2014-05-28 2019-04-09 Interactive Intelligence Group, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN108369803B (zh) * 2015-10-06 2023-04-04 交互智能集团有限公司 用于形成基于声门脉冲模型的参数语音合成系统的激励信号的方法
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
CN109891434B (zh) * 2016-09-06 2020-10-30 渊慧科技有限公司 使用神经网络生成音频
EP3857541B1 (en) * 2018-09-30 2023-07-19 Microsoft Technology Licensing, LLC Speech waveform generation
US11062691B2 (en) * 2019-05-13 2021-07-13 International Business Machines Corporation Voice transformation allowance determination and representation
CN114267329A (zh) * 2021-12-24 2022-04-01 厦门大学 基于概率生成和非自回归模型的多说话人语音合成方法
CN114550733B (zh) * 2022-04-22 2022-07-01 成都启英泰伦科技有限公司 一种可用于芯片端的语音合成方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5400434A (en) * 1990-09-04 1995-03-21 Matsushita Electric Industrial Co., Ltd. Voice source for synthetic speech system
DE69022237T2 (de) * 1990-10-16 1996-05-02 Ibm Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
US5528726A (en) * 1992-01-27 1996-06-18 The Board Of Trustees Of The Leland Stanford Junior University Digital waveguide speech synthesis system and method
GB2296846A (en) * 1995-01-07 1996-07-10 Ibm Synthesising speech from text
US6195632B1 (en) 1998-11-25 2001-02-27 Matsushita Electric Industrial Co., Ltd. Extracting formant-based source-filter data for coding and synthesis employing cost function and inverse filtering
US6202049B1 (en) * 1999-03-09 2001-03-13 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
EP1160764A1 (en) * 2000-06-02 2001-12-05 Sony France S.A. Morphological categories for voice synthesis
US7617188B2 (en) * 2005-03-24 2009-11-10 The Mitre Corporation System and method for audio hot spotting

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101145441B1 (ko) * 2011-04-20 2012-05-15 서울대학교산학협력단 스위칭 선형 동적 시스템을 활용한 통계적 음성 합성 시스템의 음성 합성 방법

Also Published As

Publication number Publication date
US20090299747A1 (en) 2009-12-03
CN102047321A (zh) 2011-05-04
EP2279507A4 (en) 2013-01-23
US8386256B2 (en) 2013-02-26
CA2724753A1 (en) 2009-12-03
WO2009144368A1 (en) 2009-12-03
EP2279507A1 (en) 2011-02-02
KR101214402B1 (ko) 2012-12-21

Similar Documents

Publication Publication Date Title
KR101214402B1 (ko) 개선된 스피치 합성을 제공하는 방법, 장치 및 컴퓨터 프로그램 제품
US11295721B2 (en) Generating expressive speech audio from text data
US7848924B2 (en) Method, apparatus and computer program product for providing voice conversion using temporal dynamic features
US7739113B2 (en) Voice synthesizer, voice synthesizing method, and computer program
JP4246792B2 (ja) 声質変換装置および声質変換方法
US20140249815A1 (en) Method, apparatus and computer program product for providing text independent voice conversion
JPWO2011004579A1 (ja) 声質変換装置、音高変換装置および声質変換方法
CN109416911B (zh) 声音合成装置及声音合成方法
WO2009044301A1 (en) Method, apparatus and computer program product for providing improved voice conversion
US20110046957A1 (en) System and method for speech synthesis using frequency splicing
WO2008147649A1 (en) Method for synthesizing speech
CN110751941A (zh) 语音合成模型的生成方法、装置、设备及存储介质
US8781835B2 (en) Methods and apparatuses for facilitating speech synthesis
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP3513071B2 (ja) 音声合成方法及び音声合成装置
JP5320341B2 (ja) 発声用テキストセット作成方法、発声用テキストセット作成装置及び発声用テキストセット作成プログラム
JP5268731B2 (ja) 音声合成装置、方法およびプログラム
JP5376643B2 (ja) 音声合成装置、方法およびプログラム
CN114005428A (zh) 语音合成方法、装置、电子设备、存储介质和程序产品
JP2011141470A (ja) 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム
Gonzalvo et al. Local minimum generation error criterion for hybrid HMM speech synthesis
JP6191094B2 (ja) 音声素片切出装置
JP4758931B2 (ja) 音声合成装置、方法、プログラム及びその記録媒体
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
JP4366918B2 (ja) 携帯端末

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee