KR20080015935A

KR20080015935A - 합성 생성된 음성 객체의 발음 정정

Info

Publication number: KR20080015935A
Application number: KR1020087000777A
Authority: KR
Inventors: 자니 누르미넨; 한누 믹콜라; 질레이 티안
Original assignee: 노키아 코포레이션
Priority date: 2005-07-12
Filing date: 2006-07-07
Publication date: 2008-02-20
Also published as: US20070016421A1; WO2007007256A1

Abstract

본 발명은 음성 객체의 발음을 정정하기 위한 방법, 기기 및 소프트 애플리케이션 제품에 관련한다. 음성 객체는 텍스트 객체로부터 상기 텍스트 객체의 세그먼트화된 표현에 의존하여 합성 생성된다. 초기 발음이 상기 텍스트 객체의 초기 세그먼트화된 표현에 관련되는 상기 음성 객체의 초기 발음이 부정확한지가 결정된다. 더욱이, 상기 음성 객체의 상기 초기 발음이 부정확하다고 결정되는 경우에, 상기 텍스트 객체의 새로운 세그먼트화된 표현이 결정되는데, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현은 상기 음성 객체의 새로운 발음에 관련된다.

Description

합성 생성된 음성 객체의 발음 정정{Correcting a pronunciation of a synthetically generated speech object}

본 발명은, 음성 객체가 텍스트 객체로부터 상기 텍스트 객체의 세그먼트화된 표현에 의존하여 합성 생성되고 상기 음성 객체의 발음이 상기 텍스트 객체의 상기 세그먼트화된 표현에 관련되는, 음성 객체의 발음을 정정하기 위한 방법, 기기 및 소프트웨어 애플리케이션 제품에 관한 것이다.

음성 객체들(SO들)의 합성 생성은, 예를 들어 번호, 심벌, 문자, 단어, 구 또는 문장과 같은 텍스트 객체들(TO들)을 음성 객체들, 이를테면 오디오 신호들로 자동적으로 변환하는 것을 허용하는 문자 음성 변환(TTS) 시스템들에서 전형적으로 직면하게 된다. 그때 SO들은 TO를 사용자가 듣도록 하기 위해 랜더링될 수 있다. 그런 TTS 시스템들의 응용들은 다양하다. 예를 들어, TTS 시스템은 텍스트형 정보를 시각 장애가 있는 사람들이 알기 쉽게 만들 수 있도록 할 수 있다. TTS 시스템들은 또한 이른바 눈이 바쁜 상황에서, 예를 들어 사용자가 차를 운전하고 있고 동시에 디스플레이와의 시각적 상호작용을 실제로 요구하는 애플리케이션을 사용하는, 이를테면 차의 오디오 시스템의 메뉴 구조를 브라우징하거나 통신기기의 주소록으로부터 이름을 탐색하는 자동차 시나리오에서 유익할 수 있다. TTS 시스템들은 디스플레이에 디스플레이된 TO들을 사용자가 읽을 수 있는 SO들로 변환하는 것에 의해 디스플레이와의 시각적 상호작용을 없게 할 수 있다. 사용자는 그 다음 선택을 하거나 또는 동작을 트리거하기 위해 성음(voice) 제어를 사용할 수 있다.

종래 기술 TTS 유닛(1)의 기본 셋업은 도 1에서 묘사된다. TTS 유닛(1)은 자동 음성기호화(phonetization) 부(12)가 있는 TTS 프론트 엔드와 음성합성 부(11)를 포함하고, TO를 SO로 변환할 수 있다. 이를 위해, 프론트 엔드(10)의 자동 음성기호화 부(12)는 먼저 텍스트-음소(text-to-phoneme) 매핑(또한 자주 서기소-음소(grapheme-to-phoneme) 매핑이라고 표시됨)에 의해 TO의 음성 표현(PR)을 결정한다. TO의 PR은 기본적으로 음소들의 시퀀스인데, 음소들은 가장 작은 가능한 언어학상 단위이다. 예를 들어, TO "세그먼트화"는 PR "s-eh-g-m-ax-n-t-ey-sh-ix-n"로 바뀔 수 있다. 서기소-음소라고도 표시되는 텍스트-음소 매핑은 예를 들어 사전 기반, 규칙 기반 또는 데이터 구동(driven) 모델링 접근방법 또는 그것들의 조합에 의해 수행될 수 있다.

자동 음성기호화 부(12)로부터의 TO의 PR은, 아마도, TTS 프론트 엔드(10)에 의해 결정된 TO에 관한 추가의 정보, 이를테면 강세 정보, 중단 정보, 세그먼트화 정보 및/또는 콘텍스트 정보와 함께, TO를 합성하여 SO를 얻는 음성합성 부(11)에 입력된다. 음성 합성은 예를 들어 두서너 가지 예를 들면 선형 예측 부호화(LPC) 합성 또는 포먼트(formant) 합성에 의해 달성될 수 있다. LPC 합성에서, 예를 들어, 한 세트의 LPC 계수들에 의해 모델화되는 성도(vocal tract)를 들뜸 신호가 자극한다고 간주되는 소스-필터 접근방법에 의해 음성은 모델화된다. 그 다음 각각의 음소에 대해, 세그먼트-특유 들뜸 매개변수들과 LPC 계수들은 음성합성 부(11)에 저장될 수 있고 수신된 TO의 PR에 응답하여 리콜될 수 있다.

종래 기술의 TTS 시스템들이 가지는 심각한 문제는 TO에 대해 정확한 발음을 자동적으로 끌어내는 것은 때때로 불가능하다는 것이다. TO의 TTS 변환으로부터 얻어진 SO의 발음은 일반적으로 TO의 PR에 연결되는데, 그 PR은 TTS 프론트 엔드(10)의 자동 음성기호화 부(12)에 의해 결정된다. 결과적으로, TO의 부정확한 PR은 생성된 SO의 틀린 발음을 초래한다.

실사용에서 모든 사용자가 합성 생성된 SO들의 틀린 발음의 문제에 직면할 것인 전형적인 예의 상황은 예를 들면 성음(voice) 다이얼링 애플리케이션의 경우에서와 같이 주소록의 이름들을 음성으로 변환하기 위한 TTS 시스템의 전개이다. 많은 사람들은 종래 기술의 TTS 시스템으로 정확하게 처리될 수 없는 그런 특수한 발음들을 가지는 이름들을 가진다. 더군다나, 이 이름들 중의 대부분은 TTS 시스템 개발자들이 그것들의 모두를 예외적인 발음들로서 포함하는 것이 가능하지 않을 정도로 드물다. 이런 경우들에서, 만일 자동적으로 생성된 SO의 발음이 정확한 것과는 매우 동떨어져 있다면, 음성 다이얼링 애플리케이션의 사용성은 더욱 열악해 질 수 있는데, 성음 다이얼러에 의해 트리거된 호가 바른 사람에게 가고 있는지를 사용자가 확인하는 것이 때때로 어려울 수도 있기 때문이다. 사용자가 열악한 발음들을 인식하도록 결국에는 적응할지라도, 잘못된 TTS 출력은 사용자를 그/그녀가 어려운 이름을 가진 사람에게 호를 행할 때마다 아마도 짜증나게 할 것이다.

종래 기술의 TTS 시스템들에서, SO들의 틀린 발음의 출현 빈도수는 TTS 시스 템 개발자들에 의해 자동 음성기호화 부(12)(도 1을 본다)를 개선하는 것에 의해 축소될 수 있지만; 그러나 이것은 음성기호화 부(12)의 복잡도를 증가시키고, 저 가격과 저 복잡도 애플리케이션들에서 TTS 유닛(1)의 응용 가능성을 제한한다.

더욱이, SO들의 틀린 발음들에 대처하기 위해 다음의 다수의 간접적 접근방법들이 존재한다:

입력 TO가 약간 변형되고 그 다음 그것은 변형된 TO를 다시 합성하도록 시도될 수 있다. 때때로 부정확한 철자는 생성된 SO의 정확한 발음에 이르게 할 수 있다. 그러나, 시각 및 청각 피드백 양쪽을 이용하는 시스템들에서, 부정확한 철자들은 피드백들 사이의 불일치 때문인 혼란을 초래할 수 있다.

입력 TO의 말표현(wording)은 어려운 TO를 그것의 동의어로 교체하는 것에 의해 변경될 수 있다. 자주, 동의어는 발음하기에 더 쉬울 것이다(그러나, 때때로 합성하려는 TO에 대해, 특히 이름들이 합성되어야만 할 때 어떤 적용 가능한 동의어들도 없을 수가 있다).

여벌의 솔루션으로서, TTS 시스템이 어려운 TO의 말하여진 표현을 기록하는, 즉 기록된 SO를 별도로 얻고 기록된 SO를 TTS 시스템에 의해 합성 생성된 SO 대신에 이용하는 가능성을 제공한다는 것도 상상될 수 있다. 상응하는 예시적인 TTS 시스템(2)이 도 2에서 묘사되어 있다.

거기서, TO는 먼저 입력 제어 인스턴스(20)에 입력되는데, 입력 제어 인스턴스에서 이 TO를 위해 기록된 SO가 이미 존재하는지가 점검된다. 만일 이것이 그 경우가 아니면, TO는 TTS 유닛(24)에 전달되고, 도 1의 TTS 유닛(1)에 관해서 앞서 기술된 바와 같이, TTS 유닛은 TO를 SO로 변환한다. 합성 생성된 SO는 그 다음 발음제어부(23)에 전달되고, 발음제어부는 SO를 그것이 사용자에 의해 들릴 수 있도록 랜더링하거나 랜더링을 유발하고, 후속하여 사용자가 SO의 발음으로 만족하는 지를 점검한다. 만일 사용자가 그 발음에 만족하면, SO는 발음제어부(20)에 의해 추가의 처리 단(stage)들로 전달되나, TTS 시스템에 의해서는 추가의 동작이 요구되지 않는데, TO가 만족스러운 발음의 SO로 TTS 시스템에 의해 자동적으로 변환될 수 있다는 것이 이제 알려져 있기 때문이다. 그럼에도 불구하고, 발음제어부(23)는 SO의 성공적인 생성을 입력제어부(20)에 시그널링할 수 있고, 이 시그널링은 도 2에서 파선 화살표로 묘사된다. 만일 사용자가 SO의 발음으로 만족하지 않으면, 발음제어부(23)는 TO의 말하여진 표현의 기록을 트리거하기 위해 이 정보를 입력제어부(20)에 되돌아가게 시그널링 해야만 한다.

발음제어부(23)로부터 수신된, 생성된 SO의 발음이 만족스럽지 않다는 시그널링에 응답하여, 입력제어부(20)는 TO를 SO로 자동적으로 변환가능하지 않은 것으로서 기억하고 음성 기록기(21)에 사용자에 의해 말하여진 TO의 표현이 기록되어야 함을 시그널링한다(도 2에서 파선 화살표 참조). 이를 위해, 입력제어부(20)는 사용자에게 기록을 위한 요구사항을 알려주기 위해 시각적 또는 오디오 요구를 추가로 트리거할 수 있다. 음성 기록기(21)는 그 다음 TO의 말하여진 표현을 기록하며, 즉, 기록된 SO를 생성하고, 기록된 SO를 음성 신호 메모리(22)에 저장한다. 기록된 SO는 SO 메모리(22)에 의해 추가의 처리 단들에, 예를 들어 사용자가 기록된 SO를 제어/정정하는 것을 허락하는 렌더링 유닛에 선택적으로 출력될 수 있다.

그래서 다음 TO의 수신에 의거하여, 입력제어부(20)는 TO가 자동적으로 변환될 수 없는 것으로서 기억되어있는지를 점검할 수 있고, 그러면 음성 객체 메모리(22)는 수신된 TO에 상응하는 기록된 SO를 출력하도록 트리거될 수 있다. 반면에, 만일 수신된 TO가 자동적으로 변환될 수 없는 것으로서 기억되어있지 않으면(또는 자동적으로 변환될 수 있는 것으로서 기억되어 있으면), 입력제어부(20)는 TO를 변환을 위해 TTS 유닛(24)에 전달하고, 사용자를 프롬프트하는 일없이 발음제어부(23)에 생성된 음성 객체를 랜더링할 것을 명령한다. 음성 객체는 또한 발음제어부(23)에 의해 추가의 처리 단들에 선택적으로 출력될 수도 있다.

도 2에 따른 TTS 시스템의 명백한 불리한 면은 가장 있음 직할 것인 기록된 SO가 TTS 출력과 비교될 때 매우 다른 성음 특성들을 가질 것이라는, 즉 사용자에게는 기록된 SO가 다른 사람에 의해 말하여진 것으로 들릴 수 있다는 것이다. 애플리케이션에 따라, 다른 기록된 SO들에 대해 다른 성음들이 존재하는 혼란스러운 상황이 일어날 수도 있다. 더군다나, 예를 들어 이동 전화기로 기록될 수 있는 기록된 SO의 품질은 TTS 출력과 비교하여 매우 낮게 될 수 있다. 그것은 예를 들어 낮은 다이내믹스를 가질 수 있어, 배경 잡음을 경험할 수 있고, 어쩌면 발음되지 않을 수도 있고, 그것의 신호 레벨은 합성 생성된 SO들의 신호 레벨과 일치하지 않을 수도 있다. 끝으로, 또한 다량의 메모리가 기록된 SO들을 저장하기 위해 필요하다.

전술한 문제를 감안하여, 특히, 본 발명의 목적은 음성 객체의 발음을 정정하기 위한 개선된 방법, 기기 및 소프트웨어 애플리케이션 제품을 제공하는 것이다.

본 발명에 따르면, 음성 객체가 텍스트 객체로부터 상기 텍스트 객체의 세그먼트화된 표현에 의존하여 합성 생성되는 상기 음성 객체의 발음을 정정하기 위한 방법이 제안된다. 상기 방법은 상기 음성 객체의 초기 발음이 부정확한지를 결정하는 동작으로서, 상기 초기 발음은 상기 텍스트 객체의 초기 세그먼트화된 표현에 관련되는, 동작; 및 상기 음성 객체의 상기 초기 발음이 부정확하다고 결정되는 경우에, 상기 텍스트 객체의 새로운 세그먼트화된 표현을 결정하는 동작으로서, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현은 상기 음성 객체의 새로운 발음에 관련되는, 동작을 포함한다.

상기 텍스트 객체는 예를 들어 숫자, 심벌, 문자, 단어 또는 그것들의 조합들(이를테면 구들 또는 문장들)과 같은 임의의 텍스트형 정보를 나타낼 수 있다. 상기 음성 객체는 임의의 있음직한(가능한) 오디오 포맷의 오디오 신호를 나타낼 수 있으며, 상기 오디오 포맷은 아날로그 또는 디지털 오디오 포맷일 수 있다. 상기 음성 객체는 예를 들어 라우드스피커에 의해 랜더링되기에 특히 적합하다. 상기 텍스트 객체로부터의 상기 음성 객체의 상기 합성 생성은 예를 들어 TTS 시스템에서 수행될 수 있다. 상기 텍스트 객체의 상기 세그먼트화된 표현은 상기 텍스트 객체가 세그먼트화된 하나 이상의 세그먼트들을 포함한다. 상기 세그먼트들은 예를 들어 음소들(가장 작은 언어 단위들)일 수 있다. 만일 상기 세그먼트들이 음소들이라면, 상기 세그먼트화된 표현은 상기 텍스트 객체의 음성 표현이다. 상기 음성 객체의 상기 합성 생성은, 음성 객체가 텍스트 객체의 세그먼트화된 표현으로부터 예를 들어 세그먼트화된 표현의 각각의 세그먼트에 대한 음성의 합성에 관한 선험적(a-priori) 정보를 이용하는 것에 의해 생성되는 방식으로, 예를 들어 상기 텍스트 객체의 상기 세그먼트화된 표현에 의존한다. 상기 음성 객체의 상기 합성 생성에서, 상기 텍스트 객체의 상기 세그먼트화된 표현에 더하여, 예를 들어 강세 정보, 중단(break) 및/또는 콘텍스트 정보 또는 임의의 다른 기호 언어학적 정보와 같은 추가의 정보 또한 고려될 수 있다.

상기 음성 객체의 초기 발음은 상기 텍스트 객체에 대해 일반적으로 사용되는 발음 또는 사용자가 선호하는 발음에 대하여 정확하거나 부정확하다고 간주될 수 있다. 예를 들어, 상기 간주는 사용자에 의해 말하여진 또는 선호하는 방언에 의해 영향을 받을 수 있다. 상기 음성 객체의 상기 초기 발음이 부정확한지의 상기 결정은 예를 들어 사용자를 프롬프트 하는 것에 의해 능동적으로, 또는 사용자에 의해 수행되는 동작을 기대하는 것에 의해 수동적으로 수행될 수 있다. 후자의 경우에, 예를 들어 사용자는 상기 발음 정정 방법을 운영하는 시스템에 상기 음성 객체의 상기 초기 발음이 부정확함을, 예를 들어 음성 상호작용(대화)에 의하거나 또는 기능키를 두드리는 것에 의하는 등등으로 알릴 가능성을 가질 수 있다. 만일 그런 사용자 동작이 발생하지 않으면, 이 방법은 상기 초기 발음이 정확하다고 가정한다. 상당히 동등하게, 상기 음성 객체의 상기 초기 발음이 부정확한지의 상기 결정은 자동적으로 수행될 수 있다.

만일 상기 초기 발음이 부정확하다고 결정되면, 상기 텍스트 객체의 새로운 세그먼트화된 표현이 관련된 새로운 발음과 함께 생성된다. 상기 새로운 발음은 예를 들어 상기 텍스트 객체의 정확한 발음 또는 상기 초기 발음에 관한 개선된 발음일 수 있다. 상기 새로운 세그먼트화된 표현은 그 다음 상기 새로운 발음을 가지는 상기 음성 객체의 장차의 생성을 위해 저장될 수 있다.

본 발명에 따르면, 상기 합성 생성된 음성 객체의 부정확한 초기 발음이 검출될 때, 상기 텍스트 객체의 새로운 세그먼트화된 표현이 결정된다. 상기 텍스트 객체의 이 세그먼트화된 표현은 그 다음 상기 새로운 발음을 가지는 상기 음성 객체의 새로운 합성 생성의 근거로서 역할을 할 수 있다. 거기서, 상기 새로운 발음을 가지는 상기 음성 객체의 상기 (새로운) 합성 생성은, 정정을 필요로 하지 않는 발음들을 가지는 다른 음성 객체들의 합성 생성과 다르지 않으므로, 발음의 정정이 실제로 발생하였는지는 음성 객체들로부터 구별될 수 없다. 이것은 틀린 발음의 경우에, 텍스트 객체의 말하여진 표현이 기록되고 그 다음 기록된 음성 객체로서 합성 생성으로부터 얻어졌던 음성 객체들과 함께 사용되는 도 2에 관해서 위에서 제공된 TTS 시스템의 주요한 불리한 점들을 효율적으로 제거한다. 더욱이, 만일 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현이 상기 새로운 발음을 가지는 상기 음성 객체의 장차의 생성을 위해 저장되면, 텍스트 객체의 말하여진 표현이 저장되어야만 하는 도 2의 TTS 시스템에 비교해서 현저하게 적은 메모리가 요구된다.

본 발명의 방법에 따르면, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현은 상기 새로운 발음을 가지는 상기 음성 객체의 합성 생성의 근거로서 역할을 하기 위해 저장될 수 있다. 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현의 저장은 장래의 틀린 발음들을 피하는 것에 기여할 수 있다. 텍스트 객체의 초기 세그먼트화된 표현을 결정하기 전에, 상기 텍스트 객체의 저장된 세그먼트화된 표현이 존재하는지가 먼저 점검될 수 있고, 그 다음 상기 텍스트 객체의 상기 저장된 세그먼트화된 표현은 상기 음성 객체의 합성 생성의 근거로서 직접 사용될 수 있다.

본 발명의 방법에 따르면, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 결정하는 상기 동작은, 상기 텍스트 객체의 하나 이상의 후보 세그먼트화된 표현들을 생성하는 동작으로서, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들의 각각은 상기 음성 객체의 개별 후보 발음에 관련되는, 동작, 및 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택하는 동작을 포함할 수 있다. 상기 텍스트 객체의 하나 이상의 후보 세그먼트화된 표현들을 생성하는 상기 동작은 다양한 방법들로, 예를 들어 상기 텍스트 객체에 기초하여, 및/또는 상기 텍스트 객체의 말하여진 표현에 기초하여 달성될 수 있다. 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들은 예를 들어 한 번에, 또는 순차적으로 생성될 수 있다.

본 발명의 방법에 따르면, 선택하는 상기 동작은, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택할 것을 사용자에게 프롬프트하는 동작을 포함할 수 있다. 상기 텍스트 객체의 각각의 후보 세그먼트화된 표현에 대해, 상응하는 후보 발음을 가지는 상기 음성 객체는 랜더링될 수 있고, 그 다음 사용자는 후보 발음이 최상으로 관련된 상기 텍스트 객체의 후보 세그먼트화된 표현을 선택할 수 있다. 상기 선택 전에 또는 동안에, 상기 하나 이상의 후보 세그먼트화된 표현들은 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기 위한 적합성에 관하여 점검될 수 있고, 사용자가 선택할 수 있는 대체물들의 수를 제한하기 위해 자동으로 버려질 수 있다. 만일, 상기 텍스트 객체의 후보 세그먼트화된 표현의 점검과 결과로서 일어나는 버려짐 후에, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들 중의 하나만이 남겨지면, 상기 텍스트 객체의 상기 후보 세그먼트화된 표현이 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현이라고 결정됨을 확인하기 위해 사용자에게 프롬프트된다.

본 발명의 방법의 제1실시예에 따르면, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들을 생성하는 상기 동작은, 사용자에 의해 말하여진 상기 텍스트 객체의 표현을 얻는 동작; 및 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들이 되도록 상기 텍스트 객체의 상기 말하여진 표현을 변환하는 동작을 포함한다.

상기 사용자는 예를 들어 텍스트 객체를 말하도록 프롬프트될 수 있고, 상기 텍스트 객체의 상기 말하여진 표현은 그 다음 기록에 의해 얻어질 수 있다. 그 다음 상기 텍스트 객체의 상기 말하여진 표현은 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들이 되도록 변환되는데, 상기 변환에 있어서, 음성 정보와, 사용자에 의해 정확하다고 간주되는 텍스트 객체의 발음에 관련된 정보는, 관련된 발음들이 개선된 후보 세그먼트화된 표현들을 발견하기 위해 이용될 수 있다.

본 발명의 방법의 제1실시예에 따르면, 변환하는 상기 동작은 자동 음성 인식 알고리즘에 의해 수행될 수 있다. 만일 상기 텍스트 객체의 상기 세그먼트화된 표현이 음성 표현이면, 상기 자동 음성 인식 알고리즘은 예를 들어 음소 루프 자동 음성 인식 알고리즘일 수 있다. 거기서, 상기 음성 인식 알고리즘은 매우 높은 추정 정확도를 달성할 수 있는데, 표준 음성 인식 시나리오들과는 달리, 본 경우에서는, 텍스트 객체의 말하여진 표현 및 그것의 기재된 형태 둘 다가 알려질 수 있기 때문이다. 더욱이, 음소 레벨을 넘어갈 필요가 없고, 결과적으로, 모호성제거(disambiguation) 문제(단어들에 음소들을 정확하게 지정하는)가 일어나지 않는다. 상기 자동 음성 인식 알고리즘은 텍스트 객체들 및 그것들에 관련된 세그먼트화된 표현들 사이의 매핑을 적어도 부분적으로는 사용할 수 있는데, 상기 매핑은 상기 텍스트 객체들의 초기 세그먼트화된 표현들에 관련된 초기 발음들이 부정확한 경우에 결정되는 텍스트 객체들의 새로운 세그먼트화된 표현들로써 적어도 부분적으로는 갱신된다. 상기 갱신에 의해, 상기 자동 음성 인식 알고리즘은 사용자의 음성(담화)에 적합할 수 있어서, 자동 음성 인식 성능이 증가하게 된다. 상기 매핑은 예를 들어 어휘집에 있는 각 단어에 대해 세그먼트화된 표현을 가지는 어휘집에 의해 표현될 수 있다. 상기 매핑은 텍스트 객체의 초기 세그먼트화된 표현을 결정하는 동작 및 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들이 되도록 상기 텍스트 객체의 상기 말하여진 표현을 변환하는 동작 둘 다에 사용될 수 있다.

본 발명의 방법의 제1실시예에 따르면, 상기 텍스트 객체의 기재 형식은 상기 텍스트 객체의 상기 말하여진 표현을 변환하는 동작에서 고려될 수 있다. 텍스트 객체의 상기 기재 형식은 상기 텍스트 객체의 상기 세그먼트화된 표현에서 세그먼트들의 수의 범위의 추정값을 얻기 위해 변환하는 동작에서 특히 이용될 수 있다. 더욱이, 텍스트 객체의 기재 형식에 관한 지식은 상기 텍스트 객체의 상기 세그먼트화된 표현의 가능한 대체물들의 수를 제한하는데 이용될 수 있다.

본 발명의 방법의 제1실시예에 따르면, 상기 음성 신호의 상기 초기 발음 및 상기 텍스트 객체의 상기 말하여진 표현의 발음 사이의 차이는, 상기 텍스트 객체의 상기 말하여진 표현을 변환하는 상기 동작에서 고려될 수 있다. 상기 차이는 상기 텍스트 객체의 다양한 가능한 세그먼트화된 표현들을, 상기 텍스트 객체의 상기 세그먼트화된 표현의 하위 부분으로, 예를 들어 상기 텍스트 객체의 상기 세그먼트화된 표현의 세그먼트들의 하위 그룹(예컨대 상기 텍스트 객체의 상기 세그먼트화된 표현이면 제1 세그먼트들)으로 특히 제한한다.

본 발명의 방법의 제1실시예에 따르면, 선택하는 상기 동작은, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기 위한, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들 중의 적어도 하나의 적합성을 자동적으로 평가하는 동작; 및 상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현을, 만일 그것이 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기에 적합하지 않다고 평가되면, 버리는 동작을 포함할 수 있다.

버리는 상기 동작은, 사용자가 선택해야 할 수 있는 상기 텍스트 객체의 후보 세그먼트화된 표현들의 수를 줄이고, 그래서 사용자 편이를 증가시킨다.

본 발명의 방법의 제1실시예에 따르면, 평가하는 상기 동작은, 규칙들, 언어 의존성 통계적 n-그램(n-gram) 기법 및 발음가능 분류사(classifier) 기법 중의 적어도 하나에 기초할 수 있다.

규칙의 예는 각각의 텍스트 객체, 예컨대 단어가 모음을 포함해야 하는 것을 요구하는 사운드 관련 규칙일 수 있다. 통계적 n-그램 기법들은 예를 들어 통계적 유니-그램 또는 바이-그램 기법들일 수 있다. 유니-그램 기법들에서, 단일 세그먼트(예컨대 단일 음소)의 출현 확률이 고려되는 반면, 바이-그램 기법에서는, 제1세그먼트에 주어진 제2세그먼트의 조건부(conditional) 확률이 고려된다. 예를 들어, 바이-그램 기법에서, 텍스트 객체의 후보 세그먼트화된 표현은, 만일 그것이 2개의 인접한 세그먼트들을 담고 있고 이 2개의 세그먼트들 중의 두 번째 것이 이 2개의 세그먼트들 중의 첫 번째 것의 뒤에 이어질 확률이 0이거나 또는 적어도 매우 낮다면, 버려질 수 있다. 발음가능 분류사 기법은 텍스트 객체의 후보 세그먼트화된 표현에 있는 세그먼트들이 결코 발음될 수 없는지를 평가하는 것을 시도한다.

본 발명의 방법의 제1실시예에 따르면, 평가하는 상기 동작은, 상기 텍스트 객체의 상기 말하여진 표현의 발음과 상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현에 관련된 후보 발음을 비교하는 동작에 기초할 수 있다. 비교하는 상기 동작은, 상기 발음들 사이의 일치 또는 차이를 검출하는 것을 목표로 할 수 있다.

본 발명의 제2 및 제3 실시예들에 따르면, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들을 생성하는 상기 동작은, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들이 되도록 상기 텍스트 객체를 변환하는 동작을 포함한다. 제1실시예와는 대조적으로, 상기 제2 및 제3 실시예들에서, 텍스트 객체의 말하여진 표현은 아니고, 텍스트 객체 자체가, 상기 하나 이상의 다른 후보 세그먼트화된 표현들의 생성의 근거로서 역할을 한다.

본 발명의 방법의 제2 및 제3 실시예들에 따르면, 변환하는 상기 동작은, 자동 세그먼트화 알고리즘에 의해 수행된다. 만일 상기 텍스트 객체의 상기 세그먼트화된 표현이 음성 표현이면, 상기 자동 세그먼트화 알고리즘은 예를 들어 자동 음성기호화(phonetization) 알고리즘일 수 있다.

본 발명의 제2실시예에 따르면, 선택하는 상기 동작은, 사용자에 의해 말하여진 상기 텍스트 객체의 표현을 얻는 동작; 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기 위한, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들 중의 적어도 하나의 적합성을 자동적으로 평가하는 동작으로서, 평가하는 상기 동작은 상기 텍스트 객체의 상기 말하여진 표현의 발음과 상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현에 관련된 후보 발음의 비교에 기초하는, 동작; 및 상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현을, 만일 그것이 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기에 적합하지 않다고 평가되면, 버리는 동작을 포함한다. 상기 텍스트 객체의 상기 말하여진 표현은 그 다음 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들의 수를 줄이기 위해 이용되어서, 사용자는, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택하도록 프롬프트될 때, 적은 대체물들을 평가해야 할 수 있게 된다.

본 발명에 따르면, 추가로 기기가 음성 객체의 발음을 정정하기 위해 제안되는데, 상기 음성 객체는 텍스트 객체로부터 상기 텍스트 객체의 세그먼트화된 표현에 의존하여 합성 생성된다. 상기 기기는, 상기 음성 객체의 초기 발음이 부정확한지를 결정하기 위해 구성된 수단으로서, 상기 초기 발음은 상기 텍스트 객체의 초기 세그먼트화된 표현에 관련되는, 수단; 및 상기 음성 객체의 상기 초기 발음이 부정확한지의 상기 결정에 의존하여, 상기 텍스트 객체의 새로운 세그먼트화된 표현을 결정하기 위해 구성된 수단으로서, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현은 상기 음성 객체의 새로운 발음에 관련되는, 수단을 포함한다.

본 발명에 따른 기기는 상기 새로운 발음을 가지는 상기 음성 객체의 합성 생성을 위한 근거로서 역할을 하는, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 저장하기 위해 구성된 수단을 더 포함할 수 있다.

본 발명의 기기에 따르면, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 결정하기 위해 구성된 상기 수단은, 상기 텍스트 객체의 하나 이상의 후보 세그먼트화된 표현들을 생성하기 위해 구성된 수단으로서, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들의 각각은 상기 음성 객체의 개별 후보 발음에 관련되는, 수단, 및 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택하기 위해 구성된 수단을 포함할 수 있다.

본 발명의 기기에 따르면, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택하기 위해 구성된 상기 수단은, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택할 것을 사용자에게 프롬프트하기 위해 구성된 수단을 포함할 수 있다.

본 발명의 기기의 제1실시예에 따르면, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들을 생성하기 위해 구성된 상기 수단은, 사용자에 의해 말하여진 상기 텍스트 객체의 표현을 얻기 위해 구성된 수단; 및 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들이 되도록 상기 텍스트 객체의 상기 말하여진 표현을 변환하기 위해 구성된 수단을 포함한다.

본 발명의 기기의 제1실시예에 따르면, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택하기 위해 구성된 상기 수단은, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기 위한, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들 중의 적어도 하나의 적합성을 자동적으로 평가하기 위해 구성된 수단; 및 상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현을, 그것이 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기에 적합하지 않다고 평가되는 경우에, 버리기 위해 구성된 수단을 포함할 수 있다.

본 발명의 기기의 제2 및 제3 실시예들에 따르면, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들을 생성하기 위해 구성된 상기 수단은, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들이 되도록 상기 텍스트 객체를 변환하기 위해 구성된 수단을 포함한다.

본 발명의 기기의 제2실시예에 따르면, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택하기 위해 구성된 상기 수단은, 사용자에 의해 말하여진 상기 텍스트 객체의 표현을 얻기 위해 구성된 수단; 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기 위한, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들 중의 적어도 하나의 적합성을 자동적으로 평가하기 위해 구성된 수단으로서, 상기 평가는 상기 텍스트 객체의 상기 말하여진 표현의 발음과 상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현에 관련된 후보 발음의 비교에 기초하는, 수단; 및 상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현을, 그것이 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기에 적합하지 않다고 평가되는 경우에, 버리기 위해 구성된 수단을 포함한다.

본 발명의 상기 기기는 휴대형 통신 기기 또는 그것의 일 부분일 수 있다.

본 발명에 따르면, 더욱이, 음성 객체가 텍스트 객체로부터 상기 텍스트 객체의 세그먼트화된 표현에 의존하여 합성 생성되는 상기 음성 객체의 발음을 정정하기 위한 소프트웨어 애플리케이션 제품으로서, 상기 소프트웨어 애플리케이션 제품은 컴퓨터 판독가능 매체 내에 수록되고, 상기 음성 객체의 초기 발음이 부정확한지를 결정하는 단계로서, 상기 초기 발음이 상기 텍스트 객체의 초기 세그먼트화된 표현에 관련되는, 단계; 및 상기 음성 객체의 상기 초기 발음이 부정확하다고 결정되는 경우에, 상기 텍스트 객체의 새로운 세그먼트화된 표현을 결정하는 단계로서, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현은 상기 음성 객체의 새로운 발음에 관련되는, 단계를 수행하도록 구성되는, 소프트웨어 애플리케이션 제품이 제안된다.

본 발명의 이러한 및 다른 목적들은 이후로 기술되는 실시예들로부터 명백하게 될 것이고 그 실시예들에 관하여 설명될 것이다.

도면들 중에서,

도 1은 종래 기술에 따른 텍스트 객체(TO)의 음성 표현(PR)에 기초하여 TO를 음성 객체(SO)로 변환하기 위한 문자음성 변환(TTS) 유닛이며;

도 2는 틀린 발음들을 정정하기 위한 예시적인 TTS 시스템이며;

도 3a는 본 발명에 따른 TTS 시스템의 제1실시예의 개념 블록도이며;

도 3b는 본 발명에 따른 TTS 시스템의 제1, 제2 및 제3 실시예들에 의해 수행되는 일반 방법 단계들의 흐름도이며;

도 3c는 본 발명에 따른 TTS 시스템의 제1실시예에 의해 수행되는 구체적인 방법 단계들의 흐름도이며;

도 4a는 본 발명에 따른 TTS 시스템의 제2실시예의 개념 블록도이며;

도 4b는 본 발명에 따른 TTS 시스템의 제2실시예에 의해 수행되는 구체적인 방법 단계들의 흐름도이며;

도 5a는 본 발명에 따른 TTS 시스템의 제3실시예의 개념 블록도이며; 그리고

도 5b는 본 발명에 따른 TTS 시스템의 제3실시예에 의해 수행되는 구체적인 방법 단계들의 흐름도이다.

본 발명은 음성 객체(SO)가 텍스트 객체(TO)의 세그먼트화된 표현에 의존하여 상기 TO로부터 합성 생성되는 상기 SO의 발음을 정정하는 것에 관련된다. 초기 발음이 상기 TO의 초기 세그먼트화된 표현에 관련되는 상기 SO의 초기 발음이 부정확한지가 결정된다. 상기 SO의 상기 초기 발음이 부정확하다고 결정되는 경우에, 상기 TO의 새로운 세그먼트화된 표현이 상기 SO의 새로운 발음에 관련되는 상기 TO의 새로운 세그먼트화된 표현이 결정된다.

뒤따르는 상세한 설명에서, 본 발명은 예시적인 실시예들에 의해 설명될 것이다. 여기서, 상기 TO의 상기 세그먼트화된 표현은 상기 TO의 음성 표현(PR)이라고 가정된다. 그러나 이 선택은 예시적인 것만이고 본 발명은 상기 TO의 다른 세그먼트화된 표현들의 맥락에서 틀린 발음들의 정정에 적용되기도 한다는 것에 주의해야 한다.

본 발명에 따른 TTS 시스템은 예를 들어 눈이 바쁜 상황에서 이동 전화기(또는 자동차 전화기)의 가장 관련된 특징들의 사용을 가능하게 하기 위해 오디오 메뉴 애플리케이션에서 사용될 수 있다. 오디오 메뉴 애플리케이션은 예를 들어 메뉴 항목들과 연락처 목록 이름들에 대한 오디오 피드백의 도움으로 연락처 목록으로부 터 연락처를 호출할 수 있다. 그러면 사용자는 오디오 메뉴 구조들을 브라우즈할 수 있고 전화기의 디스플레이를 보지 않고 가장 중요한 동작을 수행할 수 있다. 이것은 메뉴 구조들을 비교적 단순하게 디자인하는 것에 의해 그리고 사용자가 메뉴에서 행하는 모든 동작(예컨대 이동, 선택 등)으로부터의 오디오 피드백을 제공하는 것에 의해 행해진다.

이 종류의 애플리케이션에서, 오디오 출력을 위해 TTS 변환 또는 기록된 오디오 프롬프트들을 사용하는 것은 전형적이다. 모든 텍스트들이 소프트웨어 개발 단계에서 알려져 있지 않을 수 있으므로(예컨대 연락처 목록 이름들), TTS 시스템은 상응하는 TO들을 SO들로 변환하기 위해 최소한 사용되어야만 한다.

주류가 되는 애플리케이션들에서, 음성 합성은 고품질, 큰 풋프린트의 TTS 시스템을 사용하여 행해질 수 있다. 그러나, 예를 들어 이동 전화기들과 같은 휴대형 기기들을 위한 TTS 시스템에서, 복잡도 및 메모리 소비에 대한 고유의 제약 때문에 내장형 TTS 시스템이 사용되어야만 한다. 더 작은 풋프린트는 합성 생성된 SO들이 부정확한 발음을 가지는 확률을 증가시키고, 그것은 TTS 시스템의 사용성을 몹시 감소시킨다.

본 발명은 사용자에게 그런 틀린 발음들을 정정할 가능성을 제공하고, 그래서 이런 종류의 애플리케이션에 현저한 개선을 가지고 올 수 있다. 틀린 발음을 정정하기 위한 옵션은 예를 들어 그녀/그가 이동 전화기의 연락처 목록에 새로운 연락처를 저장하고 있을 때 사용자에게 제공될 수 있다. 이러한 방식으로, 사용자는 그녀/그가 호를 하기를 시도하고 있을 때 부가적인 다이알로그들로 방해받지 않는 다.

본 발명의 제1실시예

본 발명의 제1실시예에서, 자동음성인식(ASR)부는 TO의 하나 이상의 후보 PR들을 그 TO의 말하여진 표현에 적어도 기초하여 생성한다.

도 3a는 본 발명에 따른 제1실시예의 TTS 시스템(3)의 개념 블록도를 묘사한다. TTS 시스템(3)은 TTS 프론트 엔드(31-1), 자동 음성기호화 부(31-2) 및 음성합성부(31-3)를 가지는 TTS 유닛(31)을 포함한다. 이 TTS 유닛(31)의 기능은 도 1의 TTS 유닛(1)의 기능과 닮았고 그래서, TTS 시스템(31)의 음성합성부(31-3)가 자동 음성기호화 부(31-2)에 의해 생성된 것과 같은 TO의 PR들(TO를 나타내는 하나 이상의 음소들의 시퀀스들) 및 저장부(39)에 저장된 TO의 PR들 양쪽 다를 수신할 수 있고 그리고 음성합성부(31-3)는 생성된 SO와 이 SO가 생성되었던 기초가 되는 TO 둘 다를 발음 제어부(32)에 전달할 수도 있다는 점을 제외하면, 추가의 설명을 필요로 하지 않는다.

TTS 시스템(3)의 입력제어부(30)는 예를 들어 연락처 목록의 연락처로서 TTS 시스템(3)에 의해 변환하려는 TO를 수신할 수 있다. 상당히 동등하게, 상기 TO는 텍스트의 전체 문장으로부터 유래할 수 있고, 발음 정정을 목적으로 전에 고립되어 있다. 입력제어부(30)는 상기 TO의 PR이 전에 미리 결정되었는지를 점검할 수도 있다. 이 상황에 대해, 입력 제어 인스턴스(30)는 이 저장된 표현의 저장부(39)부터 TTS 유닛(31)의 음성합성부(31-3)로의 전송을 트리거할 수 있다. 이 트리거링은, 본 발명의 블록도들의 모든 제어 신호들이 그렇듯이, 파선 화살표들에 의해 도 3a 에서 가시화되는 제어 신호에 의해 달성된다. 반면에, 실제 데이터의 전송 및 데이터 및 제어 신호들 양쪽 다의 전송은 실선 화살표에 의해 표시된다. 입력제어부(30)는 또한 수신된 TO를 TTS 유닛(31)에 전송할 수 있으며(TO의 어떤 PR도 저장부(39)에 저장되지 않은 경우에 일어날 수 있음), 제어신호가 TTS 유닛(31)에 의해 생성된 SO의 초기 발음이 부정확함을 나타내는 상기 제어 신호와 TO의 초기 PR을 발음 제어부(32)로부터 수신할 수 있고, 수신된 TO 및 TO의 초기 PR을 자동음성인식(ASR)부(34)에 전송할 수 있다.

발음 제어부(32)는 TTS 유닛(31)에 의해 생성된 SO를 이 SO가 생성되었던 TO의 PR과 함께 수신할 수 있고, 이 SO의 발음이 정확한지를 결정할 수 있다. 이를 위해, 상기 발음 제어부(32)는 예를 들어 SO를 랜더링하거나 SO의 랜더링을 유발하는 수단, 및 사용자와의 통신을 위해 사용자 인터페이스에 접근하는 수단을 포함하여, 사용자가 상기 SO의 상기 발음이 정확한지 아닌지를 결정할 수 있게 한다. 후자의 결정의 경우를 위해, 발음 제어부(32)는 상기 발음이 부정확하다는 것을 나타내는 제어 신호를 입력제어부(30)에 송신할 수 있다. 상기 제어 신호에 더하여, 또한 SO의 부정확한 발음에 이르게 하는 TO의 초기 PR은 입력제어부(30)로 전송된다. 상기 발음 제어부(32)는 또한 추가의 처리 단(stage)들에 상기 SO를 출력할 수 있다.

저장부(39)는 입력제어부(30)로부터 상기 제어 신호를 수신할 수 있으며, 특정한 TO의 저장된 PR을 출력할 수 있고(상기 제어 신호에 응답하여), 저장하려는 TO들의 PR을 선택부(38)로부터 수신할 수 있다.

TTS 시스템(3)은, 음성 기록기(33)를 더 포함하는데, 이 음성 기록기는 사용자에 의해 말해지는 TO의 표현을 수신할 수 있으며, 이 말하여진 표현을 ASR부(34)에 전달할 수 있고 선택부(38)로부터 상기 기록 및 전달을 트리거하는 제어 신호를 수신할 수 있다.

ASR부(34)는 TO와 상기 TO의 초기 PR을 입력 제어 인스턴스(30)로부터 수신하며, 상기 TO의 말하여진 표현을 음성 기록기(33)로부터 그리고 제어 신호를 선택부(38)로부터 수신하도록 구성된다. 이 제어 신호에 응답하여, ASR부(34)는 TO의 하나 이상의 후보 PR들을 상기 TO의 상기 수신된 말하여진 표현에 기초하여 그리고 선택적으로는 상기 TO 및/또는 상기 TO의 상기 초기 PR에 기초하여 생성한다. 상기 ASR부(34)의 가능한 핵심 기능은 예를 들어 미국, 워싱턴주, 시애틀에서 1998년 5월 12-15일로 개최된 국제 음향, 음성 및 신호처리 학술대회(ICASSP) 논문집에 게재된 B. Ramabhadran, L. R. Bahl, P. V. deSouza 및 M. Padmanabhan의 논문인 "Acoustics-only Based Automatic Phonetic Baseform Generation"에 기재되어 있다. ASR부(34)의, 특히 TO의 선택적인 고려와 TO의 후보 PR들을 생성하는 프로세스에서 TO의 초기 PR에 관한 작동에 대한 더 세부사항은 아래에서 기술될 것이다.

후처리부(35)는 ASR부(34)에 의해 출력된 TO의 하나 이상의 후보 PR들을 수신할 수 있고, 규칙들, 언어 의존성 통계적 n-그램 기법들(예컨대 유니-그램 또는 바이-그램 기법들) 및/또는 발음가능 분류사 기법들을 무효한 후보 PR들을 소거하기 위해 하나 이상의 후보 PR들에 적용할 수 있다. 그러한 소거를 선택부(38)에 시그널링하는 것(파선 화살표로 도시된 바와 같이) 또한 가능하다. 후처리부(35)가 본 발명에 따른 제1실시예의 TTS 시스템(3)에 대해 옵션적이라는 것에 유의할 필요가 있다.

음성합성부(31-3)와 유사한 음성합성부(36)는 TO의 하나 이상의 후보 PR들을 수신할 수 있고, 상기 TO의 수신된 후보 PR들에 기초하여, SO를 합성 생성하는 것인데, 생성된 SO의 개별 후보 발음들은 상기 TO의 상기 하나 이상의 후보 PR들에 의존한다. 상기 TO의 하나 이상의 후보 PR들의 각각에 대해 생성된 SO는, 상기 TO의 상응하는 후보 PR들과 함께 음성합성부(36)에 의해 출력될 수도 있다.

추가의 후처리부(37)는 상기 TO의 하나 이상의 후보 PR들의 각각에 대해 생성된 SO 및 상기 TO의 상응하는 후보 PR들 그것들을 음성합성부(36)로부터 수신할 수 있고, 상기 SO의 상기 후보 발음들 중의 적어도 하나가 무효한지를 평가하기 위해, 상기 수신된 SO의 하나 이상의 후보 발음들을 음성 기록기(33)로부터 수신된 TO의 말하여진 표현과 비교하여서, TO의 상응하는 후보 PR이 버려지게 한다. 후처리부(37)는 추가로 상기 TO의 버려지지 않은 후보 PR들을 상응하는 후보 발음을 가지는 SO와 함께 선택부(38)에 전달할 수 있고, TO의 후보 PR이 버려져야만 한다는 정보를 선택부(38)에 시그널링(파선 화살표로 도시된 바와 같이)할 수 있다. 후처리부(37)는 본 발명에 따른 제1실시예의 TTS 시스템(3)에 대해 옵션이다는 점에 유의할 필요가 있다.

선택부(38)는 후처리부(37)의 출력, 즉 TO의 하나 이상의 후보 PR들을 수신할 수 있고, TO의 상기 후보 PR들의 각각에 대해, 상응하는 후보 발음을 가지는 SO를 수신할 수 있다. 선택부(38)는 상기 하나 이상의 후보 발음들을 가지는 상기 SO 를 랜더링하거나 또는 그 SO의 랜더링을 유발할 수 있고, 상기 TO에 대하여 정정할 것(또는 거의 정정할 것)을 사용자가 고려하는 후보 발음(및 그래서 TO의 상응하는 후보 PR)을 사용자가 선택하는 것을 허용하기 위해 사용자와 통신할 수 있다. 상기 선택부(38)는 추가로 사용자에 의해 선택되었던 상기 TO의 후보 PR을 저장부(39)에 전송할 수 있고, 상기 TO의 선택된 후보 PR에 상응하는 후보 발음을 가지는 SO를 추가의 처리 단들에 출력할 수도 있다. 아래에서 더 상세히 설명될 바와 같이, 상기 선택부(38)는 또한 TO의 말하여진 표현을 얻기 위해 음성 기록기(33)를 트리거할 수 있고, ASR부(34)를 제어(파선 화살표들로 도시됨)할 수 있다.

도 3b는 본 발명에 따른 제1실시예의 TTS 시스템(3)(도 3a 참조)에 의해 수행되는 방법 단계들의 흐름도를 제시한다. 이 흐름도가 약간 일반적인 종류이고 그래서 도 4a, 4b와 도 5a, 5b에 관해서 아래에서 각각 논의될 본 발명에 따른 TTS 시스템의 제2 및 제3 실시예들에 적용 가능하다는 점에도 유의할 필요가 있다.

제1의 단계 300에서, SO로 변환하려는 TO가 수신된다. 이것은 예를 들어 사용자에 의해 이동 전화기의 연락처 목록에 현재 기입되는 연락처 목록 이름일 수 있다. 텍스트 객체의 수신은 입력제어부(30)(도 3a 참조)에서 발생한다. 제2의 단계 301에서, 이 TO를 위한 PR이 전에 결정되고 저장되었는지가 점검된다(아래에 설명될 바와 같이, 도 3b의 흐름도의 단계들인 302-307을 수행하는 것에 의해). 이 점검은 또한 입력제어부(30)(도 3a 참조)에 의해 수행된다. 만일 어떤 PR도 수신된 TO에 이용할 수 없다고 결정되면, TO의 초기 PR이 단계 302에서 결정된다. 이 단계는 TTS 유닛(31)의 TTS 프론트 엔드(31-1) 내에 있는 자동 음성기호화 부(31-2)에 의해 수행된다(도 3a 참조). TO의 초기 PR에(그리고 어쩌면 TTS 프론트 엔드(31-1)에 의해 결정된 TO에 대한 추가 정보, 이를테면 강세 정보, 중단 정보, 세그먼트화 정보 및/또는 콘텍스트 정보에) 기초하여, 초기 발음을 가지는 SO가 단계 303에서 생성되는데, 이 단계는 TTS 유닛(31)의 음성합성부(31-3)에 의해 수행된다(도 3a 참조).

단계 304에서, 생성된 SO는 랜더링된다. 이것은 예를 들어 발음 제어부(32) 또는 추가의 처리 단들에 의해 수행될 수 있다.

그 다음 단계 305에서, TO의 초기 PR에 관련된 초기 발음인 SO의 초기 발음이 부정확한지가 결정된다. 이 단계는 예를 들어 SO의 초기 발음의 정확함에 대한 결정을 위해 사용자에게 프롬프트하는 것에 의해 발음 제어부(32)에 의해 능동적으로 수행될 수 있다. 상당히 동등하게, 어떤 능동적인 프롬프팅도 수행될 수 없고, 그러면 상기 발음 제어부(32)는 예를 들어 초기 발음이 부정확하다는 것을 나타내기 위해 사용자가 동작을 취하는지를 수동적으로 점검할 수 있다. 상기 동작은 예를 들어 어떤 기능 키를 치는 것 또는 어떤 단어를 말하는 것, 또는 유사한 것일 수 있다. 이 경우, 발음 제어부(32)는 그래서 일반적으로 SO들의 초기 발음을 정정한다고 가정하고, 초기 발음이 잘못된 것이라고 사용자가 표시했던 그 단일 SO들에 대해서만 정정을 수행한다. 만일 SO의 초기 발음이 정확하다고 결정되면, 방법은 종료한다. 그렇지 않으면, 본 발명에 따르면, TO의 새로운 PR은 단계 306에서 생성된다. 이 단계 306에서 수행된 하위 단계들은 아래에서 도 3c에 관해서 논의될 것이다. 단계 306을 트리거하기 위해, 발음 제어부(32)는 제어 신호를 입력제어 부(30)에 보내고, 그러면 입력제어부(30)는 TO의 새로운 PR을 결정하게 하기 위해 동작을 취한다.

단계 306의 TO의 새로운 PR의 결정 후, TO의 이 새로운 PR은 단계 307에서 저장되고, 방법은 종료한다. 저장은 저장부(39)에 의해 수행된다(도 3a 참조).

단계 301로 되돌아가, 만일 PR이 TO에 이용할 수 있다고 결정되면, TO의 이 저장된 PR은 단계 308에서 검색된다. 이 검색은 저장부(39)와의 상호 작용으로 입력제어부(30)에 의해 트리거된다. 그 다음, 단계 309에서, SO가 TO의 저장된 PR로부터 생성된다. 이것은 TTS 유닛(31)의 음성합성부(31-3)에 의해 수행된다. 후속 단계 310에서, 생성된 SO는 랜더링되는데, 그것은 발음 제어부(32)에 의해 수행될 수 있거나, 또는 SO가 발음 제어부(32)에 의해 출력될 수 있었던 추가의 처리 단에 의해 수행된다(도 3a 참조). 그 후, 방법은 종료한다.

도 3c는 본 발명에 따른 제1실시예의 TTS 시스템(3)에 따라 TO의 새로운 PR을 결정하기 위해 도 3b의 흐름도의 단계 306에서 수행되는 하위 단계들을 도시한다.

제1단계 320에서, TO의 말하여진 표현이 얻어진다. 이것은 음성 기록기(33)(도 3a 참조)를 경유하여 TO를 말하고 있는 사용자의 목소리를 기록하는 것에 의해 달성된다. 이 단계는 사용자에게 그가 TO를 말할 것임을 통지하는 것을 더 포함할 수 있는데, 그것은 예를 들어 입력제어부(30), 음성 기록기(33) 또는 추가의 의해 수행될 수 있다. TO의 말하여진 표현, 즉 기록된 SO는 그 다음 선택부(38)의 제어하에 유닛들(34-38)(도 3a 참조)에 의해 처리된다. 거기서, 작동의 2개 다른 모드들이 생각될 수 있다.

제1모드에서, ASR부(34)는, 기록된 SO에 (그리고 선택적으로는 TO 및/또는 TO의 초기 PR에) 기초하여, TO의 하나 이상의 후보 PR들에 대하여 설정을 한번에 생성한다. 이 설정은 그 다음 단들(35-38)에 의해 추가로 공동으로 처리되는데, 후처리부들(35 및 37)에서는 설정의 감축이 TO의 새로운 PR의 역할을 하기에 적합하지 않은 후보 PR들을 설정으로부터 소거하는 것에 의해 수행될 수 있다. 그 다음, 나머지 후보 PR들로부터, 사용자는 가장 적합한 것을 선택할 수 있다.

제2모드에서, ASR부(34)는 TO의 하나 이상의 후보 PR들을 순차적으로 생성하고, 그러면 이 후보 PR들의 각각은 단들(35-38)에 의해 개별적으로 처리한다. 이 종류의 처리는 전체 계산 복잡도를 감소시킬 수 있는데, 왜냐하면, 만일 사용자가 TO의 첫 번째 후보 PR을 정정할 것을 이미 고려하고 있다면, 추가의 후보 PR들(제1모드에서처럼)의 처리는 유닛들(34-38)에서 요구되지 않는다. 뒤이어 계속되는 것에서, 작동의 제2모드가 고려된다.

TO의 후보 PR들을 생성할 때, ASR부(34)는 TO들 및 TO들의 관련된 PR들 사이의 매핑을 적어도 부분적으로는 이용할 수 있다. 상기 매핑은 예를 들어 초기에는 디폴트 매핑일 수 있는데, 그 다음 그것은 TO들 및 본 발명에 따라 결정되었고(도 3b의 흐름도의 단계 306 참조) TO들의 이전의 문자-음성 변환 시에 저장부(39)에 저장되었던(도 3b의 흐름도의 단계 307 참조) 그것들에 관련된 새로운 PR들 사이를 매핑하는 것에 의해 향상된다. 그 다음 상기 ASR부(34)와 상기 TTS 유닛(31)은 예를 들어 TO들과 그것들에 관련된 PR들의 상기 매핑을 저장하고 예를 들어 저장 부(39)를 포함하거나 구현할 수 있는 인스턴스에 둘 다가 접근할 수 있다. 상기 매핑은 TTS 유닛(31)과 ASR부(34)에 의해 사용되는 어휘집으로서 어휘집의 각각의 엔트리(TO)에 대해, PR이 존재하고, 따라서 PR들이 갱신되는 어휘집의 형상을 취할 수 있다.

도 3c의 흐름도로 돌아가면, 단계 321에서, TO의 후보 PR들의 수를 위한 카운터(i)는 영으로 초기화된다. 그 다음 TO의 PR들의 미리 정해진 최대 수(N)가 카운터(i)에 의해 도달되는지가 점검된다. 양 단계들은 선택부(38)에 의해 입력제어부(30)로부터 수신된 초기 제어 신호에 응답하여 수행된다. 만일 최대 수에 도달된다면, 기록된 SO에 기초하여 TO의 새로운 PR을 결정하는 프로세스는 실패했다고 간주되고, TO의 그 추가로 말하여진 표현이 TO의 새로운 PR을 결정할 새로운 시도의 근거로서의 역할을 하기 위해 단계 320에서 기록된다. 추가 기록된 SO는 예를 들어 사용자에 의해 더 정확히 명료하게 발음될 수 있거나 또는 더 적은 잡음을 포함할 수 있다.

만일 단계 322에서 TO의 PR들의 최대 수에 아직 도달하지 않았다고 결정되면, 아래에서 더 상세하게 설명될 것처럼, TO의 후보 PR이 기록된 SO에 (그리고 선택적으로는 TO 자체 및/또는 TO의 초기 PR에도) 기초하여 생성된다. 이것은 ASR부(34)(도 3a 참조)에 의해 선택부(38)로부터의 트리거링 제어 신호에 응답하여 달성된다.

단계 324에서, 후처리부(35)에 의해 수행되는 것은, 규칙들, 언어 의존성 통계적 n-그램 기법 및/또는 발음가능 분류사 기법을 적용하는 것에 의해 TO의 상기 후보 PR이 TO의 새로운 PR로서 역할을 하기에 적합한지를 점검하는 것이다. 만일 TO의 상기 후보 PR이 적합하지 않다고 간주되면(그 정보는 후처리부(35)에 의해 선택부(38)에 시그널링된다), 카운터(i)는 단계 330에서 증가하고, 방법은 더 이상의 불필요한 처리 단계들을 피하기 위해 단계 322로 돌아간다. 단계 322에서, 그 다음 선택부(38)에 의해 TO의 PR들의 최대 수에 도달하였는지가 다시 점검되고, 만일 이것이 그 경우가 아니면, 선택부(38)는 TO의 추가의 후보 PR을 생성하기 위해 ASR부(34)를 트리거한다.

단계 324에서, 만일 TO의 상기 후보 PR이 TO의 상기 새로운 PR의 역할을 하기에 적합하다고 간주되면, 단계 325에서 TO의 후보 PR에 기초하여 SO가 생성된다. 이 SO는 TO의 후보 PR에 관련되는 후보 발음이 특징이다. 거기서, 단계 325는 음성합성부(36)에 의해 수행된다.

단계 326에서, TO의 상기 후보 PR이 TO의 새로운 PR로서 역할을 하기에 적합한지가 이번에는 SO의 후보 발음과 기록된 SO의 발음의 비교에 기초하여 다시 점검된다. 이것은 후처리부(37)에서 수행된다(도 3a 참조). 만일 이 비교가 TO의 후보 PR이 적합하지 않음을 나타내면, TO의 이 후보 PR은 버려지며, 카운터(i)는 단계 330에서 1만큼 증가하고, 방법은 단계 322로 돌아간다.

만일 TO의 후보 PR이 여전히 TO의 새로운 PR의 역할을 하기에 적합하다고 간주되면, 상응하는 후보 발음을 가지는 SO는 단계 327에서 랜더링되는데, 그 단계는 선택부(38) 또는 추가의 유닛에 의해 수행된다. 그 다음 SO의 후보 발음이 정확한지가 사용자와 통신하는 것에 의해 점검된다. 이 단계들은 선택부(38)에 의해 수행 되거나 트리거된다. 만일 후보 발음이 부정확하다라고 판명되면, 카운터(i)는 단계 330에서 증가되고 방법은 단계 322로 돌아간다. 그렇지 않으면, 정확한 후보 발음에 관련된 TO의 후보 PR은 단계 329에서 TO의 새로운 PR이라고 결정되고, 방법은 종료한다. 단계 329는 또한 선택부(38)에 의해 수행된다(도 3a 참조).

본 발명에 따른 제1실시예의 TTS 시스템(3)(도 3a 참조)에 따르면, 사용자가 TTS 시스템(3)에 의해 초기에 생성된 SO의 부정확한 발음을 들을 때, 그녀/그는 어려운 텍스트 객체를 단순히 적당한 방법으로 말하는 것에 의해 정확한 (새로운) 발음을 TTS 시스템(3)에 훈련시킬 수 있다. TTS 시스템(3)은 그 다음 음소-루프 ASR 시스템을 사용하여 정확한 발음을 배운다. 가능한 발음들의 수는 약간의 후처리 기법들(규칙들, 언어 의존성 통계적 n-그램, 발음가능 분류사)을 이용하여 무효한 일부 발음들을 제거하는 것에 의해 감소된다. 보통, 인식은 여전히 100% 신뢰할 수 있도록 수행될 수 없고 그래서 사용자는 가장 있음직한 발음 후보들의 목록으로부터 정확한 발음을 선택할 기회를 제공받을 수 있다. 교수 프로세스가 성공적으로 완료된 후, TTS 시스템은 정확한 (새로운) 발음을 자신의 내부 발음 모듈 속에 저장하는 것에 의해 어려운 텍스트 객체를 영구적으로 배운다.

비록 최신 기술의 음소-루프 ASR 시스템들이 매우 높은 인식 정확도에 도달할 수 없더라도, 이것이 본 발명의 실용성 또는 유용성을 방해하지 않는다. 본 발명의 실시예들에서 필요한 강제적인 인식 태스크(TO의 하나 이상의 후보 PR들의 결정)는 인식 프로세스를 용이하게 하는 다음의 몇 개의 특징들을 포함한다:

TO의 PR에서 음소들의 수의 범위에 관해 양호한 추정을 얻는 것이 가능한 데, 전형적인 타깃이 기재된 형태가 이미 알려져 있는 하나 또는 2개의 고립된 단어들(텍스트 객체들)만을 인식하는 것일 수 있기 때문이다. 그래서 기록된 SO에 더하여, TO는 도 3a에서 TTS 시스템(3)의 ASR부(34)에 공급될 수도 있다.

ASR에서, 음소 레벨을 넘을 어떤 필요도 없고, 결과적으로, 다른 기재된 형태들()에도 불구하고 매우 유사하거나 동일하기도 한 발음을 가지는 둘 이상의 단어들 또는 구들이 있을 때(예컨대 "gray day"와 "grade A"는 유사한 발음이지만 다른 철자들을 가진다), 모호성제거(disambiguation) 문제를 해결할 필요가 없다.

TO의 기재된 형태가 이미 알려져 있으므로 TO의 PR을 위한 가능한 대체물들의 수가 제한된다. 그러므로, 기록된 SO에 더하여, TO 자체는 도 3a에서 TTS 시스템(3)의 ASR부(34)에도 공급될 수도 있다.

SO의 초기 발음과 사용자에 의해 주어진, 기록된 SO에 의해 표현되는 발음의 차이를 분석하는 것에 의해, 문제를 각각의 가능한 PR의 하위 부분에(예컨대 TO의 PR의 일부 음소들에) 대한 것으로 제한하는 것이 보통 가능하다. 이를 위해, 기록된 SO에 더하여, TO의 초기 PR 역시 도 3a의 TTS 시스템(3)의 ASR부(34)에 공급될 수 있다.

도 3a의 TTS 시스템(3)에서, 대체 인식 결과들(ASR부(34)에 의해 생성된 TO의 하나 이상의 후보 PR들)을 사용하여 TO를 합성하고, 이 인식 결과들을 기록된 SO와 비교하는 것이 가능하다. 차이들의 빠른 분석은 대체물들의 일부를 제외할 수 있거나, 최적의 경우에는, 정확한 발음을 발견할 수 있다. 이를 위해, 기록된 SO는 도 3a의 TTS 시스템(3)의 후처리 인스턴스(37)에 공급된다.

후보 발음들의 일부는 실사용에서 또는 언어의 규칙에 대하여 발음하는 것이 불가능할지도 모른다. 그래서, 규칙들, 언어 의존성 통계적 n-그램 기법들 및/또는 발음가능 분류사 기법들과 같은 후처리 기법들을 이용하여 이 사실을 활용하는 것에 의해 일부 대체물들을 제거하는 것이 가능하다. 이 기법들은 TTS 시스템(3)의 후처리부(35)(도 3a 참조)에 적용된다.

사용자는 몇 개의 잠재 후보 발음들이 있을 경우에 프로세스를 지원할 수 있다. 이 기능은 TTS 시스템(3)의 선택부(38)(도 3a 참조)에서 이행된다.

결과적으로, 본 발명의 제1실시예에 따르면, 적당한 성능을 가지는 음소-루프 ASR부도 사용될 수 있고, 그것은 본 발명에 따라 TTS 시스템의 복잡도를 감소시키는 것에 기여한다.

발명의 제2실시예

본 발명의 제2실시예는 TO의 하나 이상의 후보 PR들을 생성하기 위해 ASR부 대신에 TTS 유닛을 사용한다. 그럼에도 불구하고, TO의 말하여진 표현은 TO의 후보 PR들로부터 TO의 새로운 PR을 선택하는 프로세스에서 고려된다.

도 4a는 본 발명에 따른 제2실시예의 TTS 시스템(4)의 개념 블록도를 나타낸다. 제2실시예의 TTS 시스템(4)은 TTS 시스템(3)의 ASR부(34)가 TTS 프론트 엔드(44)에 의해 대체되었고 TTS 시스템(3)의 후처리부(35)에 상응하는 후처리부가 TTS 시스템(4)에는 더 이상 존재하지 않는다는 사실만이 제1실시예의 TTS 시스템(3)(도 3a 참조)으로부터 다르다. 결과적으로, 도 4a의 TTS 시스템(4)의 유닛들(40-43과 46-49)의 기능성은 도 3a의 TTS 시스템(3)의 유닛들(30-33과 36-39)의 기능성에 상응하고 그래서 어떤 추가설명도 현 단계에서 필요하지 않다.

TTS 시스템(4)의 TTS 프론트 엔드(44)(도 4a 참조)는 TTS 유닛(41)의 TTS 프론트 엔드(41-1)와 동일한 기능을 기본적으로 가진다. 즉, 입력제어부(40)로부터 수신된 TO를 수신된 TO의 PR로 세그먼트화하기 위해(그리고 아마도 강세 정보, 중단 정보, 세그먼트화 정보 및/또는 콘텍스트 정보와 같은 추가 정보를 생성하기 위해) 자신의 자동 음성기호화 부(44)를 사용할 수 있다. 그러나, TTS 프론트 엔드(44)는 TO의 하나의(통상 가장 있음직한) PR(아마도 강세 정보, 중단 정보, 세그먼트화 정보 및/또는 콘텍스트 정보와 함께)뿐만 아니라 TO의 몇 개의 후보 PR들도 생성할 수 있다. TO의 이 후보 PR들은 예를 들어 TO의 가장 있음직한 PR과 예를 들어 그것들의 추정된 확률에 따라 소트된 TO의 덜 있음직한 PR들을 포함한다. 입력제어부(40)로부터 수신되는, TO의 초기 PR은, 예를 들어 TO의 초기 PR을 닮은 TO의 후보 PR들을 버리는 것에 의해 TO의 하나 이상의 후보 PR들을 생성하는 프로세스에서 고려될 수도 있다. TTS 프론트 엔드(44)는 TO의 이 하나 이상의 후보 PR들을 (아마도 관련된 정보, 이를테면 강세 정보, 중단 정보, 세그먼트화 정보 및/또는 콘텍스트 정보와 함께) 음성 합성 인스턴스(46)에 전달할 수도 있다.

제1실시예의 TTS 시스템(3)에서처럼, 제2실시예의 TTS 시스템(4)에서는 단들(44 및 46-48)에서 2개의 모드에 따라 TO의 새로운 PR의 결정을 수행하는 것도 가능하다는 것에 유의할 필요가 있다. 제1모드에서, TO의 후보 PR들의 집합은 프론트 엔드(44)에 의해 한 번에 생성되고, TO의 후보 PR들의 이 집합은 단들(46-48)의 각각에서 공동으로 처리된다. 대신하여, TO의 후보 PR들은 TTS 프론트 엔드(44)에 의해 순차적으로 생성되고 단들(46-48)에 의해 개별적으로 처리된다. 그 후에 결국, 후자의 경우는 예시적으로 고려될 것이다.

위에서 앞서 언급된 바와 같이, 본 발명에 따른 TTS 시스템의 모두 3가지 실시예들에 의해 수행되는 일반 방법 단계들은 도 3b의 흐름도에 의해 반영된다. TO의 새로운 PR을 결정하는 단계 306만이 실시예들 중에서 다르다. 제2실시예를 위해, 이 단계 306의 하위 단계들(400-408)은 도 4b에서 상술된다.

거기서, 도 4b(제2실시예)의 흐름도의 방법 단계들(420-430)은 도 3b(제1실시예)의 흐름도의 방법 단계들(320-330)에 상응하나 2개의 결정적인 차이들만은 가진다.

우선, 단계 423에 관해, TO의 후보 PR이 도 3b(제1실시예의 TTS 시스템(30))의 단계 323의 경우에서처럼 TO의 말하여진 표현에 적어도 기초하여 생성되지 않고 TO 자체에 기초하여 생성된다는 것에 주의한다. 이것은 제2실시예의 TTS 시스템(4)이 ASR부를 포함하지 않고 대신에 TTS 프론트 엔드(44)를 사용하여 TO의 하나 이상의 후보 PR들을 생성한다는 사실 때문이다.

다음으로, 단계 423에서의 TO의 후보 PR의 생성 후, SO는, TO의 후보 PR에 대한 추가의 적합성 점검 없이, 단계 425에서 TO의 PR(그리고 아마도 추가의 관련된 정보 이를테면 강세 정보, 중단 정보, 세그먼트화 정보 및/또는 콘텍스트 정보)로부터 직접 생성된다(도 3c의 흐름도의 단계 424 참조). 그럼에도 불구하고, 그런 점검은 도 4b의 흐름도에서 채택될 수도 있다.

본 발명에 따른 제2실시예의 TTS 시스템(4)(도 4a 참조)에 따르면, 사용자는 그녀/그의 목소리를 사용하여 정확한 발음을 명료하게 발음한다. 사용자에 의해 말해지는 이 발언은 TO의 후보 PR들의 생성의 근거로서 사용되지 않지만, TO를 나타낼 수 있었던 그리고 TO 자체에 기초하여 자동 음성기호화 부에 의해 생성되는 TO의 가장 있음직한 후보 PR들로부터 생성된 SO들에 대하여 비교된다. 이 비교가 TO의 2개 이상의 양호한 후보 PR들이 있음을 보인다면, 사용자에게는 대체물들의 목록으로부터 사용자 선호 발음을 선택할 기회가 제공된다(이 선택은 TO의 모든 PR들에 대해 한 번에, 또는 순차적으로 수행될 수 있다). 이 접근방법으로, 본 발명은 이용할 수 있는 ASR부가 없는 경우에서조차도 사용될 수 있다. 그러나, 예상되는 성능은 ASR 기반의 제1실시예에서보다 다소 낮을 수 있고, TTS 시스템의 충분한 성능을 위해, TTS 프론트 엔드(44)는 단지 다이버시티를 증가하는 것 대신에 TO의 몇 개의 후보 PR들을 제안하는 것을 유익하게 할 수 있을 것이다.

발명의 제3실시예

본 발명의 제2실시예에 유사하게, 본 발명의 제3실시예도 TO의 하나 이상의 후보 PR을 생성하기 위해 TTS 유닛을 사용한다. 그러나, 제2실시예(도 4a 참조)와 대조적으로, 사용자로부터의 어떤 음성 입력도 필요하지 않다.

도 5a는 본 발명에 따른 제3실시예의 TTS 시스템(5)의 개념 블록도를 제시한다. 사용자의 어떤 음성 입력도 처리되지 않는다는 사실은 SO를 기록하기 위한 음성 기록기가 없고 그런 기록된 SO를 활용하는 후처리부가 사용되지 않는다는 사실에 의해 반영된다. TTS 시스템(5)의 유닛들(50-52, 54, 56 및 58-59)의 기능성은 TTS 시스템(4)(도 4a 참조)의 유닛들(40-42, 44, 46 및 48-49)의 기능성에 상응하 고 그래서 추가의 설명을 필요로 하지 않는다.

본 발명에 따른 제1 및 제2 실시예들의 TTS 시스템들에서처럼, 제3실시예의 TTS 시스템(5)에서는 2가지 모드에 따라 단들(54, 56 및 58)에서 TO의 새로운 PR의 결정이 수행되는 것도 가능하다. 제1모드에서, TO의 후보 PR들의 집합이 TTS 프론트 엔드(54)에 의해 한 번에 생성되고, TO의 후보 PR들의 이 집합은 단들(56 및 58)의 각각에서 공동으로 처리된다. 대신으로, TO의 후보 PR들은 TTS 프론트 엔드(54)에 의해 순차적으로 생성되고 단들(56 및 58)에 의해 개별적으로 처리된다. 그 후에 결국, 후자의 경우는 예시적으로 고려될 것이다.

위에서 앞서 언급된 바와 같이, 본 발명에 따른 모든 3가지 실시예들의 TTS 시스템들에 의해 수행되는 일반 방법 단계들은 도 3b의 흐름도에 의해 반영된다. TO의 새로운 PR을 결정하는 단계 306만이 실시예들 가운데 다르다. 제3실시예에 관해, 이 단계 306의 하위 단계들(500-507)이 도 5b에서 상술된다.

제1단계 500에서, TO의 PR을 위한 카운터(i)는 영으로 초기화된다. 그 다음 TO의 PR들의 최대 수(N)가 이미 도달하였는지가 단계 501에서 점검된다. 양쪽 단계들은 선택부(58)(도 5a 참조)에 의해 수행된다. 그 다음 단계 502에서, TO의 후보 PR이 TO(아마도 강세 정보, 중단 정보, 세그먼트화 정보 및/또는 콘텍스트 정보와 같은 추가의 관련된 정보와 함께)에 기초하여 생성된다. 이것은 TTS 프론트 엔드(54)에 의해 수행된다. TO의 생성된 후보 PR(과 아마도 추가의 관련된 정보)로부터, SO가 단계 503에서 음성합성부(56)에 의해 생성된다. 이 SO는 그 다음 단계 504에서, 선택부(58) 또는 추가의 유닛 중의 어느 하나에 의해 랜더링된다. 그 다 음 단계 505에서 생성된 SO의 후보 발음이 정확한지가 결정되는데, 그것은 또한 선택부(58)에 의해서도 수행된다. 만일 이것이 그 경우라면(후보 발음이 정확하다면), TO의 후보 PR은 TO의 새로운 PR이라고 단계 506에서 결정된다. 그렇지 않으면, 카운터(i)는 1만큼 증가되고, 방법은 단계 501로 되돌아가게 점프한다. 이 단계들의 모두는 선택부(58)에 의해 수행된다.

만일 단계 501에서 TO의 PR들의 최대 수(N)에 도달되었다고 결정되면, 지금까지 사용자에게 제시된 TO의 N개의 PR들 중의 어느 것도 정확하다고 간주되지 않았음이 분명하다. TTS 프론트 엔드(54)(도 5a 참조)에 의해 생성된 TO의 추가의 후보 PR들이 정확할 확률은 후보 PR들의 수가 증가함에 따라 일반적으로 감소할 수 있으므로, TO의 추가의 후보 PR들이 생성되지 않을 것임과 방법은 처음부터 다시 시작할(그 다음 후보 PR들이 이전의 루프들에서와 동일한 TO의 후보 PR들을 생성할) 것임을 사용자에게 알리기 위해 메시지를 출력하는 것은 그래서 타당하다. 이것은 단계 508에서 수행되고, 그것은 그 다음 단계 500으로 되돌아가게 점프한다. 이 접근방법 이면의 정당성은 이전에 거절했던 발음들을 사용자가 재검토할 기회를 준다는 것이다.

본 발명에 따른 제3실시예의 TTS 시스템(5)(도 5a 참조)에 따르면, 사용자는 정확한 발음을 구두로 표현하지 않고, 단지 TO의 가장 있음직한 후보 PR들의 목록으로부터 정확한 발음을 선택한다. 본 발명의 제2실시예와 비교하면, 이것은 음성 기록기와 후처리부를 절약한다. 제2실시예의 TTS 시스템에서와 같이, TTS 프론트 엔드(54)는 TO의 하나를 넘는 후보 PR들을 생성할 수 있다는 것이 유익하다.

본 발명은 예시적인 실시예들에 의해 위에서 기술되었다. 이 기술분야의 숙련된 누군가에게는 명백할 것이고 첨부된 청구항들의 범위 및 정신에서 벗어남 없이 구현될 수 있는 대체예들 및 변형예들이 있다는 것에 유의할 필요가 있다. 특히, 본 발명은 모든 종류들의 TTS 시스템들과 함께 그리고 모든 종류들의 애플리케이션들에서 사용될 수 있다. 그것은 TTS 시스템이 고립된 텍스트 객체들(예컨대 단어들)을 합성하기 위해 사용되고 텍스트 객체들의 어휘집이 여전히 제한되지만 확장 가능한 애플리케이션들에 특히 적합할 수 있다. 그럼에도 불구하고, 본 발명은 임의의 완전한 문장들의 연속적인 음성을 합성하는 TTS에 관련하여 사용될 때 큰 이점을 가져올 수도 있다.

본 발명은 최소한 다음 이점들을 제공한다:

본 발명은 어려운 텍스트 객체들(예컨대 단어들)을 발음하는 방법을 사용자가 TTS 시스템에 훈련시키는 것을 허용한다.

본 발명은 플랫폼 특화적(platform-specific) 또는 애플리케이션 특화적이지 않고 그래서 많은 종류의 제품들에서 사용될 수 있다.

본 발명은 낮은 풋프린트 포르만트 기반 신시사이저들로부터 높은 풋프린트 연쇄(concatenation) 기반 시스템들까지 모든 종류들의 TTS 시스템들과 함께 사용될 수 있다.

음소-루프 ASR 시스템이 본 발명의 제1실시예에 필요함에도 불구하고, 본 발명은 단지 적당한 성능을 가지는 ASR 시스템을 이용하여 잘 작동하는 것이 기대될 수 있다. 더군다나, 본 발명의 제2 및 제3 실시예들의 경우에서처럼, 필요하다 면, 본 발명을 ASR 기법들을 이용하지 않고서 구현하는 것 또한 가능하다.

정정된 성음(voice) 프롬프트(즉 새로운 발음을 가지는 음성 객체)는 모든 다른 성음 프롬프트들(즉 초기 또는 새로운 발음들을 가지는 음성 객체들)과 동일한 성음으로 주어진다.

본 발명은 어떤 TTS 프레임워크에라도 매우 유용한 추가를 제공한다.

TTS와 ASR 기능이 이미 예를 들어 이동 전화기들과 같은 많은 휴대형 기기들의 표준 특징이기 때문에, 본 발명에 의해 초래된 부가적인 구현 복잡도는 완화된다. 이행되는 부가적인 태스크들은 TTS 및 ASR 구성요소들 사이에 상호작용 알고리즘을 구축하는 것과 표준 TTS 및 ASR 구성요소들에 얼마간의 변형들을 도입하는 것을 포함한다.

끝으로, 개선된 발음 모듈은 ASR 성능을 강화할 수 있다. 이것은 만일 ASR 시스템이, 음성 인식을 수행할 때, 본 발명에 의해 (예를 들어 도 3c의 흐름도의 단계들에서) 결정된 바와 같이 TO들 및 그것들의 관련된 새로운 PR들 사이의 맵핑들에 의해 갱신되는 매핑을 텍스트 객체들 및 그것들에 관련된 PR들 사이에서 사용한다면, 특히 그런 경우가 될 수 있다.

Claims

음성 객체가 텍스트 객체로부터 상기 텍스트 객체의 세그먼트화된 표현에 의존하여 합성 생성되는 상기 음성 객체의 발음을 정정하기 위한 방법에 있어서,

상기 음성 객체의 초기 발음이 부정확한지를 결정하는 동작으로서, 상기 초기 발음은 상기 텍스트 객체의 초기 세그먼트화된 표현에 관련되는, 동작; 및

상기 음성 객체의 상기 초기 발음이 부정확하다고 결정되는 경우에, 상기 텍스트 객체의 새로운 세그먼트화된 표현을 결정하는 동작으로서, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현은 상기 음성 객체의 새로운 발음에 관련되는, 동작을 포함하는 방법.
제1항에 있어서, 상기 방법은,

상기 새로운 발음을 가지는 상기 음성 객체의 합성 생성을 위한 근거로서 역할을 하는, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 저장하는 동작을 더 포함하는, 방법.
제1항에 있어서, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 결정하는 상기 동작은,

상기 텍스트 객체의 하나 이상의 후보 세그먼트화된 표현들을 생성하는 동작으로서, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들의 각각은 상기 음성 객체의 개별 후보 발음에 관련되는, 동작, 및

상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택하는 동작을 포함하는, 방법.
제3항에 있어서, 선택하는 상기 동작은,

상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택할 것을 사용자에게 프롬프트하는 동작을 포함하는, 방법.
제3항에 있어서, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들을 생성하는 상기 동작은,

사용자에 의해 말하여진 상기 텍스트 객체의 표현을 얻는 동작; 및

상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들이 되도록 상기 텍스트 객체의 상기 말하여진 표현을 변환하는 동작을 포함하는, 방법.
제5항에 있어서, 변환하는 상기 동작은 자동 음성 인식 알고리즘에 의해 수행되는, 방법.
제5항에 있어서, 상기 텍스트 객체의 기재된 형태는 상기 텍스트 객체의 상기 말하여진 표현을 변환하는 상기 동작에서 고려되는, 방법.
제5항에 있어서, 상기 음성 신호의 상기 초기 발음 및 상기 텍스트 객체의 상기 말하여진 표현의 발음 사이의 차이는, 상기 텍스트 객체의 상기 말하여진 표현을 변환하는 상기 동작에서 고려되는, 방법.
제5항에 있어서, 선택하는 상기 동작은,

상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기 위한, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들 중의 적어도 하나의 적합성을 자동적으로 평가하는 동작; 및

상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현을, 만일 그것이 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기에 적합하지 않다고 평가되면, 버리는 동작을 포함하는, 방법.
제9항에 있어서, 평가하는 상기 동작은, 규칙들, 언어 의존성 통계적 n-그램(n-gram) 기법 및 발음가능 분류사(classifier) 기법 중의 적어도 하나에 기초하는, 방법.
제9항에 있어서, 평가하는 상기 동작은, 상기 텍스트 객체의 상기 말하여진 표현의 발음과 상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현에 관련된 후보 발음을 비교하는 동작에 기초하는, 방법.
제3항에 있어서, 상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현들을 생성하는 상기 동작은,

상기 텍스트 객체를 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로 변환하는 동작을 포함하는, 방법.
제12항에 있어서, 변환하는 상기 동작은 자동 세그먼트화 알고리즘에 의해 수행되는, 방법,
제12항에 있어서, 선택하는 상기 동작은,

사용자에 의해 말하여진 상기 텍스트 객체의 표현을 얻는 동작;

상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기 위한, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들 중의 적어도 하나의 적합성을 자동적으로 평가하는 동작으로서, 평가하는 상기 동작은 상기 텍스트 객체의 상기 말하여진 표현의 발음과 상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현에 관련된 후보 발음의 비교에 기초하는, 동작; 및

상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현을, 만일 그것이 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기에 적합하지 않다고 평가되면, 버리는 동작을 포함하는, 방법.
음성 객체가 텍스트 객체로부터 상기 텍스트 객체의 세그먼트화된 표현에 의존하여 합성 생성되는 상기 음성 객체의 발음을 정정하기 위한 기기에 있어서,

상기 음성 객체의 초기 발음이 부정확한지를 결정하기 위해 구성된 수단으로서, 상기 초기 발음은 상기 텍스트 객체의 초기 세그먼트화된 표현에 관련되는, 수단; 및

상기 음성 객체의 상기 초기 발음이 부정확한지의 상기 결정에 의존하여, 상기 텍스트 객체의 새로운 세그먼트화된 표현을 결정하기 위해 구성된 수단으로서, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현은 상기 음성 객체의 새로운 발음에 관련되는, 수단을 포함하는 기기.
제15항에 있어서, 상기 기기는,

상기 새로운 발음을 가지는 상기 음성 객체의 합성 생성을 위한 근거로서 역할을 하는, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 저장하기 위해 구성된 수단을 더 포함하는 기기.
제15항에 있어서, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 결정하기 위해 구성된 상기 수단은,

상기 텍스트 객체의 하나 이상의 후보 세그먼트화된 표현들을 생성하기 위해 구성된 수단으로서, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들의 각각은 상기 음성 객체의 개별 후보 발음에 관련되는, 수단, 및

상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택하기 위해 구성된 수단을 포함하는, 기기.
제17항에 있어서, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택하기 위해 구성된 상기 수단은,

상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택할 것을 사용자에게 프롬프트하기 위해 구성된 수단을 포함하는, 기기.
제17항에 있어서, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들을 생성하기 위해 구성된 상기 수단은,

사용자에 의해 말하여진 상기 텍스트 객체의 표현을 얻기 위해 구성된 수단; 및

상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들이 되도록 상기 텍스트 객체의 상기 말하여진 표현을 변환하기 위해 구성된 수단을 포함하는, 기기.
제19항에 있어서, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택하기 위해 구성된 상기 수단은,

상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기 위한, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들 중의 적어도 하나의 적합성을 자동적으로 평가하기 위해 구성된 수단; 및

상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현을, 그것이 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기에 적합하지 않다고 평가되는 경우에, 버리기 위해 구성된 수단을 포함하는, 기기.
제17항에 있어서, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들을 생성하기 위해 구성된 상기 수단은,

상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들이 되도록 상기 텍스트 객체를 변환하기 위해 구성된 수단을 포함하는, 기기.
제21항에 있어서, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들로부터 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현을 선택하기 위해 구성된 상기 수단은,

사용자에 의해 말하여진 상기 텍스트 객체의 표현을 얻기 위해 구성된 수단;

상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기 위한, 상기 텍스트 객체의 상기 하나 이상의 후보 세그먼트화된 표현들 중의 적어도 하나의 적합성을 자동적으로 평가하기 위해 구성된 수단으로서, 상기 평가는 상기 텍스트 객체의 상기 말하여진 표현의 발음과 상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현에 관련된 후보 발음의 비교에 기초하는, 수단; 및

상기 텍스트 객체의 상기 적어도 하나의 후보 세그먼트화된 표현을, 그것이 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현으로서 역할을 하기에 적합하지 않다고 평가되는 경우에, 버리기 위해 구성된 수단을 포함하는, 기기.
제15항에 있어서, 상기 기기는 휴대형 통신 기기 또는 그것의 일 부분인, 기기.
음성 객체가 텍스트 객체로부터 상기 텍스트 객체의 세그먼트화된 표현에 의존하여 합성 생성되는 상기 음성 객체의 발음을 정정하기 위한 소프트웨어 애플리케이션 제품으로서, 상기 소프트웨어 애플리케이션 제품은, 컴퓨터 판독가능 매체 내에 수록되고,

상기 음성 객체의 초기 발음이 부정확한지를 결정하는 단계로서, 상기 초기 발음은 상기 텍스트 객체의 초기 세그먼트화된 표현에 관련되는, 단계; 및

상기 음성 객체의 상기 초기 발음이 부정확하다고 결정되는 경우에, 상기 텍스트 객체의 새로운 세그먼트화된 표현을 결정하는 단계로서, 상기 텍스트 객체의 상기 새로운 세그먼트화된 표현은 상기 음성 객체의 새로운 발음에 관련되는, 단계를 수행하도록 구성되는, 소프트웨어 애플리케이션 제품.