KR20110100649A

KR20110100649A - 음성을 합성하기 위한 방법 및 장치

Info

Publication number: KR20110100649A
Application number: KR1020117016216A
Authority: KR
Inventors: 하. 엠. 메울렌브렉스 프란치스코스 예이.
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2008-12-15
Filing date: 2009-12-07
Publication date: 2011-09-14
Also published as: CN102246225A; US20110243447A1; EP2377122A1; CN102246225B; BRPI0917739A2; JP2012512424A; WO2010070519A1; RU2011129330A

Abstract

텍스트 데이터의 복수의 부분들로부터의 음성을 합성하기 위한 방법 및 장치로서, 각각의 부분은 적어도 하나의 연관된 속성을 갖는다. 상기 발명은 텍스트 데이터의 부분들 각각에 대한 속성의 값을 결정하는 단계(25, 35, 45), 상기 결정된 속성 값들 각각에 기초하여 복수의 후보 보이스들로부터 보이스를 선택하는 단계(27, 37, 47), 및 상기 각각의 선택된 보이스를 이용하여 텍스트 데이터의 각각의 부분을 합성된 음성으로 변환하는 단계(29, 39, 49)에 의해 달성된다.

Description

음성을 합성하기 위한 방법 및 장치{METHOD AND APPARATUS FOR SYNTHESIZING SPEECH}

본 발명은 음성(speech)을 합성하기 위한 방법 및 장치에 관한 것으로, 특히 텍스트 데이터의 복수의 부분들로부터의 음성을 합성하는 방법 및 장치에 관한 것이다.

음성 합성, 특히 텍스트-대-음성 변환은 당업계에 널리 공지되어 있고 예를 들어 소스 텍스트(source text)로부터 인간의 음성의 인위적인 생성을 포함한다. 이 방식에서, 텍스트는 음성으로 전환되는데, 이 음성은 문맹인 사람들이나 앞이 잘 보이지 않는 사람들에게 유용하다. 소스 텍스트의 기계 번역과 함께, 텍스트-대-음성 변환은 또한 외국어를 이용자의 모국어로 오디오 재생하는 것을 가능하게 할 수 있다.

음성으로 변환될 수 있는 텍스트의 한 형태는 자막들이다. 자막들은 텔레비전 프로그램 또는 영화와 같은 비디오 아이템의 재생 동안 디스플레이되는 텍스트 부분들이다. 자막들은 당업자에게 널리 공지되어 있는 세 유형들에 해당한다: 자막 텍스트가 종래의 방식으로 원래의 비디오 스트림(video stream)으로부터의 비디오 프레임들과 통합되어 후속 디스플레이용 최종 비디오 스트림을 생성하는 '개방형' 자막; 함께 보기 위하여 자막들이 원래의 비디오 스트림에 선택적으로 오버레이(overlay)될 수 있는 별개의 비디오 프레임들로 저장되는, '사전 렌더링(prerendering)' 자막들; 및 자막 텍스트가 마크-업된 텍스트(marked-up text)(즉, XML 또는 HTML과 같은 마크-업된 주석들을 구비한 텍스트)로 저장되고 원래의 비디오 스트림과 동기 재생할 수 있는 전용 시스템에 의해 재생되는, 예를 들어 텔레텍스트 자막들 또는 폐쇄형 캡셔닝 정보(closed captioning information)인 "패쇄형" 자막들.

텍스트의 부분이 발성되는 것인지 아니면 노래가 되고 있는 것인지, 또는 텍스트의 부분이 음성 이외의 사운드를 표현하고 있는지(예를 들어 문이 꽝 닫히거나 한숨 소리)와 같이, 뷰어에게 추가 정보를 전달하기 위해 자막 텍스트에 적용되는 다양한 심볼들 및 스타일들에 대하여 공지되어 있다. 게다가, 다양한 컬러들로 재생되어, 각각의 컬러가 주어진 화자들 또는 화자들의 그룹들을 나타내는 자막에 대해 공지되어 있다. 그러므로, 난청이 있는 사람들은 컬러를 각각의 화자와 연관시킴으로써 텔레비전 브로드캐스트 동안 화자들을 구별할 수 있다.

자막들은 또한 번역의 목적을 위해 이용될 수 있다. 예를 들어, 제 1 언어로 되어 있는 음성을 포함하는 영화가 상기 영화에 적용되는 제 2 언어의 자막들을 가짐으로써, 제 2 언어의 판독자들이 상기 영화를 이해하도록 할 수 있다. 그러나, 이 해법은 읽는데 어려움이 있는(예를 들어 시각 장애 또는 문맹에 의해) 제 2 언어의 상기 화자들에게는 불충분하다. 영화제작자들에 의해 널리 이용되는 하나의 선택사양은 배우들이 원어에 더빙하는 것을 이용하는 것인데, 이는 비용이 많이 들고 시간 소모적인 프로세스이다.

본 장치들 중 어느 것도 읽기에 어려움이 있는 이용자로 하여금 텍스트 형태로 제공되는 정보의 상이한 카테고리들을 구분하지 못하게 한다.

본 발명은 텍스트의 각각의 카테고리 또는 카테고리들의 그룹에 대한 각각의 보이스 상태인 음성 합성을 제공함으로써 이용자가 텍스트의 상이한 카테고리들을 구분할 수 있도록 의도한다.

본 발명의 제 1 양태에 따르면, 음성을 합성하는 방법이 제공되고, 상기 방법은: 텍스트 데이터의 복수의 부분들을 수신하는 단계로서, 텍스트 데이터의 각각의 부분은 자신과 연관되는 적어도 하나의 속성을 갖는, 상기 수신 단계; 텍스트 데이터의 부분들 각각에 대하여 적어도 하나의 속성의 값을 결정하는 단계; 상기 결정된 속성 값들 각각에 기초하여, 복수의 후보 보이스들로부터 보이스를 선택하는 단계; 및 상기 각각의 선택된 보이스를 이용하여 텍스트 데이터의 각각의 부분을 합성된 음성으로 변환하는 단계를 포함한다.

이 방식으로, 텍스트의 상이한 카테고리들이(예를 들어, 상이한 화자들과 관련되거나, 제목들 및 섹션 콘텐츠에 대한 섹션들의 헤딩(heading)들과 같은 정보 콘텐츠의 상이한 카테고리들과 관련되는) 서로 구분되는 것이 가능하다.

텍스트 데이터의 복수의 부분들이 폐쇄형 자막들(예를 들어 마크-업된 텍스트 데이터와 같은) 내에 포함될 수 있다. 더욱이, 텍스트 데이터의 부분들 각각에 대하여 적어도 하나의 속성의 값을 결정하는 단계는, 텍스트 데이터의 부분들 각각의 대해, 텍스트 데이터의 각각의 부분과 연관되는 폐쇄형 자막들 내에 포함되는 코드를 결정하는(예를 들어, 마크-업된 텍스트 테이터에 대한 주석들을 식별함으로써) 단계를 포함한다.

대안으로, 텍스트 데이터의 복수의 부분들을 수신하는 단계는 복수의 이미지들(예를 들어 비디오의 프레임들)에 대한 광학 문자 인식(optical character recognition: OCR) 또는 유사한 패턴 매칭(pattern matching) 기술을 실행하는 단계를 포함할 수 있고, 상기 복수의 이미지들 각각은 텍스트 데이터의 복수의 부분들을 제공하기 위해 폐쇄형 자막들, 사전 렌더링 자막들, 또는 개방형 자막들을 포함하는 텍스트 부분의 적어도 하나의 비주얼 표현을 포함한다. 더욱이, 텍스트 데이터의 복수의 부분들 중 하나의 적어도 하나의 속성은: 텍스트 부분의 비주얼 표현들 중 하나의 텍스트 특성(예를 들어, 컬러, 활자체, 폰트, 폰트 웨이트(font weight), 크기 또는 폭, 이태릭 또는 볼드와 같은 폰트 스타일 등); 이미지 내의 텍스트 부분의 비주얼 표현들 중 하나의 위치(예를 들어, 비디오 프레임의 좌측 또는 우측으로의, 상부 또는 하부로의, 또는 이미지 내의 다른 텍스트 부분과 인접한), 또는 각각의 이미지 내의 텍스트 부분의 비주얼 표현들 중 하나와 동시 재생하기 위한 오디오 신호의 피치(pitch)(예를 들어, 제 1 언어인 화자의 보이스의 피치로서, 제 1 언어의 텍스트 부분은 제 2 언어로의 번역문이다)를 포함할 수 있다.

후보 보이스들은 남성 및 여성 보이스들을 포함할 수 있고, 보이스들은 상이한 엑센트들 및/또는 각각의 피치들 또는 볼륨들이 상이한 보이스들을 포함한다.

보이스를 선택하는 단계는 복수의 후보 보이스들로부터 최선의(즉, 가장 적절한) 보이스를 선택하는 단계를 포함한다. 예를 들어, 텍스트 데이터의 부분과 연관되는 속성이 텍스트가 대문자 상태임을 표시하는 경우, 음성은 더 높은 볼륨으로, 또는 더 급박한 사운딩 보이스와 합성될 수 있다. 유사하게, 속성이 텍스트의 부분에 선행하는 술어의 형태(예를 들어 '[속삭임]'과 같은)이면, 음성은 더 낮은 볼륨으로 합성될 수 있다. 한편, 텍스트의 부분과 연관되는 속성이 동시 재생을 위한 오디오 신호의 볼륨 또는 피치에 대응하는 경우, 보이스는 합성된 음성의 볼륨 또는 피치가 대응하도록 선택될 수 있다. 대안으로, 적절한 보이스의 선택은, 이용자에 의해 행해질 수 있거나, 대신, 자동 선택에 의해 오버라이드(override)될 수 있다.

본 발명의 제 2 양태에 따르면, 상기 방법을 실행하기 위한 복수의 프로그램 코드 부분들을 포함하는 컴퓨터 프로그램 제품이 제공된다.

본 발명의 제 3 양태에 따르면, 텍스트 데이터의 복수의 부분들로부터 음성을 합성하기 위한 장치가 제공되고, 텍스트 데이터의 각각의 부분은 자신과 연관되는 적어도 하나의 속성을 가지며, 상기 장치는: 텍스트 데이터의 복수의 부분들 각각에 대하여 적어도 하나의 속성의 값을 결정하기 위한, 값 결정 유닛; 상기 결정된 속성 값들 각각에 기초하여, 복수의 후보 보이스들로부터 보이스를 선택하기 위한, 보이스 선택 유닛; 및 상기 각각의 선택된 보이스를 이용하여, 텍스트 데이터의 각각의 부분을 합성된 음성으로 변환하기 위한, 텍스트-대-음성 변환기를 포함한다.

상기 값 결정 유닛은 텍스트 데이터의 부분들 각각에 대해, 텍스트 데이터의 각각의 부분과 연관되고 폐쇄형 자막들 내에 포함되는 코드를 결정하기 위한 코드 결정 수단을 포함할 수 있다.

대안으로, 상기 장치는 복수의 이미지들에 대한 광학 문자 인식(OCR) 또는 유사한 패턴 매칭 기술을 실행하기 위한 텍스트 데이터 추출 유닛을 더 포함할 수 있고, 상기 복수의 이미지들 각각은 텍스트 데이터의 복수의 부분들을 제공하기 위해 폐쇄형 자막들, 사전 렌더링 자막들, 또는 개방형 자막들을 포함하는 텍스트 부분의 적어도 하나의 비주얼 표현을 포함한다. 더욱이, 텍스트 데이터의 복수의 부분들 중 하나의 적어도 하나의 속성은: 텍스트 부분의 비주얼 표현들 중 하나의 텍스트 특성(예를 들어, 컬러, 활자체, 폰트, 폰트 웨이트, 크기 또는 폭, 이태릭 또는 볼드와 같은 폰트 스타일 등); 이미지 내의 텍스트 부분의 비주얼 표현들 중 하나의 위치; 또는 각각의 이미지 내의 텍스트 부분의 비주얼 표현들 중 하나와 동시 재생하기 위한 오디오 신호의 피치를 포함할 수 있다.

도 1a는 본 발명의 제 1 실시예에 따른 장치를 도시한 도면.
도 1b는 본 발명의 제 2 실시예에 따른 장치를 도시한 도면.
도 1c는 본 발명의 제 3 실시예에 따른 장치를 도시한 도면.
도 2는 본 발명의 제 4 실시예에 따른 장치를 도시한 도면.
도 3a는 본 발명의 제 5 실시예에 따른 방법을 기술하는 흐름도.
도 3b는 본 발명의 제 6 실시예에 따른 방법을 기술하는 흐름도.
도 3c는 본 발명의 제 7 실시예에 따른 방법을 기술하는 흐름도.

본 발명의 더 양호한 이해를 위해, 그리고 본 발명이 어떻게 실시될 수 있는지를 더 명확하게 도시하기 위해, 예를 통해 다음의 도면들을 참조할 것이다.

도 1a를 참조하면, 본 발명의 실시예에 따른 장치(1)는 텍스트 데이터 추출 유닛(3), 값 결정 유닛(5), 보이스 선택 유닛(9), 메모리 유닛(11), 및 텍스트-대-음성 변환기(13)를 포함한다.

상기 장치(1)의 입력 단자(15)는 텍스트 데이터 추출 유닛(3)의 입력 및 값 결정 유닛(5)의 입력에 접속된다. 값 결정 유닛(5)의 출력은 보이스 선택 유닛(9)의 입력에 접속된다. 보이스 선택 유닛(9) 및 메모리 유닛(11)은 서로 동작 가능하게 결합된다. 텍스트 데이터 추출 유닛(3) 및 보이스 선택 유닛(9)의 출력들은 텍스트-대-음성 변환기(13)의 입력들에 접속된다. 텍스트-대-음성 변환기(13)의 출력은 장치(1)의 출력 단자(17)에 접속된다.

동작 시에, 텍스트 데이터 추출 유닛(3)은 입력 단자(15)를 통해 데이터를 수신한다. 텍스트 데이터 추출 유닛(3)은 텍스트의 부분을 추출하기 위해 수신된 데이터를 프로세싱하고나서 프로세싱된 데이터가 텍스트-대-음성 변환기(13)로 전달되도록 구성된다. 예를 들어, 데이터가 오디오-비주얼 또는 비디오 스트림(이로부터 텍스트 부분의 비주얼 표현을 포함하는 이미지가 취해진다), 또는 단지 텍스트 부분의 비주얼 표현을 포함하는 이미지인 경우, 텍스트 데이터 추출 유닛(3)은 이미지에 대한 광학 문자 인식을 실행하여 텍스트의 부분을 추출하고나서 추출된 부분이 텍스트-대-음성 변환기(13)로 전달되도록 구성된다. 대안으로 또는 추가로, 데이터는 주석들을 갖는 마크-업된 텍스트의 형태인 경우, 텍스트 추출 유닛(3)은 주석이 있는(마크-업된) 텍스트로부터 텍스트를 추출하고나서, 이 텍스트의 부분을 텍스트-대-음성 변환기(13)로 전달하도록 구성된다.

값 결정 유닛(5)은 또한 입력 단자(15)를 통해 데이터를 직접적으로 수신하도록 구성된다. 값 결정 유닛(5)은 입력 단자(15)로부터의 데이터에 기초하여, 텍스트의 추출된 부분의 적어도 하나의 속성의 값을 결정하도록 구성된다. 예를 들어, 데이터가 오디오-비주얼 또는 비디오 스트림(이로부터 텍스트 부분의 비주얼 표현을 포함하는 이미지가 취해진다), 또는 단지 텍스트 부분의 비주얼 표현을 포함하는 이미지인 경우, 값 결정 유닛(5)은 이미지 내의 텍스트 특성을 식별하고, 값을 상기 텍스트 특성에 할당하도록 구성된다. 상기 데이터가 오디오-비주얼 스트림인 경우, 값 결정 유닛(5)은 오디오-비주얼 스트림의 오디오 성분의 피치를 식별하고, 피치와 연관되는 값을 선택하도록 구성된다. 데이터가 주석으로 마크-업된 텍스트의 형태라면, 값 결정 유닛(5)은 특정 주석을 식별하고, 값을 상기 주석에 할당하도록 구성된다. 그 후에 이 값은 보이스 선택 유닛(9)으로 송신된다.

보이스 선택 유닛(9)은 상기 값에 기초하여, 메모리 유닛(11) 내에 저장된 복수의 후보 보이스들로부터 보이스를 선택한다. 텍스트-대-음성 변환기(13)는 텍스트 데이터 추출 유닛(3)에 의해 자신에게 전달된 텍스트의 부분을 선택된 보이스를 이용하여 음성으로 변환하도록 표준 기술들을 채용해서, 상기 음성은 출력 단자(17)에서 출력된다.

도 1b는 도 1a의 장치(1)와 유사한 본 발명의 실시예에 따른 장치(1')를 도시한다. 장치(1')는 텍스트 데이터 추출 유닛(3'), 값 결정 유닛(5'), 보이스 선택 유닛(9), 메모리 유닛(11), 및 텍스트-대-음성 변환기(13)를 갖는다.

장치(1')의 입력 단자(15)는 텍스트 데이터 추출 유닛(3')의 입력에 접속된다. 텍스트 데이터 추출 유닛(3')의 하나의 출력은 값 결정 유닛(5')의 입력에 접속된다. 값 결정 유닛(5')의 출력은 보이스 선택 유닛(9)의 입력에 접속된다. 보이스 선택 유닛(9) 및 메모리 유닛(11)은 서로 동작가능하게 결합된다. 텍스트 데이터 추출 유닛(3')의 제 2 출력 및 보이스 선택 유닛(9)의 출력은 텍스트-대-음성 변환기(13)의 입력들에 접속된다. 텍스트-대-음성 변환기(13)의 출력은 장치(1')의 출력 단자(17)에 접속된다.

동작 시에, 텍스트 데이터 추출 유닛(3')은 입력 단자(15)를 통해 데이터를 수신한다. 텍스트 데이터 추출 유닛(3')은 텍스트의 부분을 추출하기 위해 수신된 데이터를 프로세싱하여 추출된 부분이 텍스트-대-음성 변환기(13)로 전달되도록 구성된다. 텍스트 데이터 추출 유닛(3')은 또한 텍스트의 부분과 연관되는 속성을 식별하고나서, 상기 속성이 값 결정 유닛(5')으로 전달되도록 구성된다. 예를 들어, 데이터가 오디오-비주얼 또는 비디오 스트림(이로부터 텍스트 부분의 비주얼 표현을 포함하는 이미지가 취해진다), 또는 단지 텍스트 부분의 비주얼 표현을 포함하는 이미지인 경우, 텍스트 데이터 추출 유닛(3')은 이미지에 대한 광학 문자 인식을 실행하여 텍스트의 부분을 추출하고나서, 추출된 부분이 텍스트-대-음성 변환기(13)로 전달되도록 구성된다. 텍스트 데이터 추출 유닛(3')은 추가적으로 이미지 내의 텍스트의 텍스트 특성, 이미지 내의 텍스트의 위치, 또는 이미지를 수반하는 오디오-비주얼 스트림의 오디오 성분과 같이, 광학 문자 인식을 통해 획득되는 텍스트와 연관되는 속성을 식별하고나서, 이 속성을 값 결정 유닛(5')으로 전달하도록 구성된다.

대안으로 또는 추가로, 데이터가 주석들을 갖는 마크-업된 텍스트의 형태인 경우, 텍스트 추출 유닛(3')은 주석이 있는(마크-업된) 텍스트로부터 텍스트를 추출하고나서, 이 텍스트의 부분을 텍스트-대-음성 변환기(13)로 전달하도록 구성된다. 텍스트 데이터 추출 유닛(3')은 추출을 통해 획득된 데이터와 연관된 주석을 식별하고 이 주석을 값 결정 유닛(5')으로 전달하도록 구성된다.

값 결정 유닛(5')은 텍스트 추출 유닛(3')에 의해 자신에게 전달된 속성의 값을 결정하도록 구성된다.

보이스 선택 유닛(9)은 상기 값에 기초하여, 메모리 유닛(11) 내에 저장된 복수의 후보 보이스들로부터 보이스를 선택한다. 텍스트-대-음성 변환기(13)는 이 음성을 이용하여, 텍스트 데이터 추출 유닛(3)에 의해 자신에게 전달된 텍스트의 부분을 음성으로 변환하고나서 출력 단자(17)에서 출력한다.

상기 두 실시예들에 대한 다양한 변형들 및 결합들이 예상된다. 예를 들어, 도 1c는 텍스트 데이터 추출 유닛(3''), 값 결정 유닛(5''), 보이스 선택 유닛(9), 메모리 유닛(11), 및 텍스트-대-음성 변환기(13)를 포함하는 본 발명의 실시예에 따른 장치(1'')를 도시한다.

장치(1'')의 입력 단자(15)는 텍스트 데이터 추출 유닛(3'')의 입력 및 값 결정 유닛(3'')의 하나의 입력에 접속된다. 텍스트 데이터 추출 유닛(3'')의 하나의 출력은 값 결정 유닛(5'')의 제 2 입력에 접속된다. 값 결정 유닛(5'')의 출력은 보이스 선택 유닛(9)의 입력에 접속된다. 보이스 선택 유닛(9) 및 메모리 유닛(11)은 서로 동작가능하게 결합된다. 텍스트 데이터 추출 유닛(3'')의 제 2 출력 및 보이스 선택 유닛(9)의 출력은 텍스트-대-음성 변환기(13)의 입력들에 접속된다. 텍스트-대-음성 변환기(13)의 출력은 장치(1'')의 출력 단자(17)에 접속된다.

이 실시예에서, 텍스트 데이터 추출 유닛(3'') 및 값 결정 유닛(5'')은 이용자 선호도 또는 입력(15)을 통해 수신되는 데이터의 형태에 따라, 도 1a 또는 도 1b의 장치들 중 어느 하나로 작동하도록 구성된다.

도 2는 값 결정 유닛(5), 보이스 선택 유닛(9), 메모리 유닛(11), 및 텍스트-대-음성 변환기(19)를 갖는 장치(2)의 형태인 본 발명의 추가 대안의 실시예를 도시한다.

장치(2)의 입력 단자(15)는 텍스트-대-음성 변환기(19)의 제 1 입력 및 값 결정 유닛(5)의 입력에 접속된다. 값 결정 유닛(5)의 출력은 보이스 선택 유닛(9)의 입력에 접속된다. 보이스 선택 유닛(9) 및 메모리 유닛(11)은 서로 동작가능하게 결합된다. 보이스 선택 유닛(9)의 출력은 텍스트-대-음성 변환기(19)의 제 2 입력에 접속된다. 텍스트-대-음성 변환기(19)의 출력은 장치(2)의 출력 단자(17)에 접속된다.

동작 시에, 텍스트-대-음성 변환기(19)는 입력(15)을 통해 수신되는 데이터를 직접적으로 해석하도록 구성됨으로써, 텍스트 추출 유닛에 대한 필요성을 방지한다.

도면들에 도시되지 않을지라도, 본 발명의 다양한 실시예들은 장치 및 이용자의 상호작용을 위한 이용자 인터페이스 디바이스를 더 포함한다. 그와 같은 상호 작용은, 값 결정 유닛의 소정의 출력을 위해, 메모리 유닛(11) 내에 저장되는 복수의 후보 보이스들로부터 최선의(즉, 가장 적절한) 보이스를 선택하기 위하여 보이스 선택 유닛(9)을 조작하는 것을 포함한다. 대안으로, 최선의 보이스의 선택은 값 결정 유닛의 출력에 기초하여, 보이스 선택 유닛에 의해 자동으로 달성될 수 있다.

본 발명의 실시예에 따른, 음성을 합성하는 하나의 예시적인 방법은 도 3a의 흐름도에 도시된다. 21에서, 주석들로 마크-업된 텍스트의 부분이 수신된다. 23에서, 마크-업된 텍스트의 부분과 연관되는 주석이 식별된다. 25에서, 주석의 값이 결정된다. 27에서, 상기 값에 기초하여 복수의 후보 보이스들로부터 보이스가 선택된다. 28에서, 마크-업된 텍스트의 부분으로부터 평문의 텍스트가 추출되어 평문 텍스트의 부분이 생성된다. 29에서, 평문 텍스트의 부분은 선택된 보이스를 이용하여 합성된 음성으로 변환된다. 그리고나서 상기 단계들은 마크-업된 텍스트와 연관되는 상이한 값의 주석을 갖는, 마크-업된 텍스트의 새로운 부분에 대해 반복된다.

본 발명의 실시예에 따른, 음성을 합성하는 다른 예시적인 방법이 도 3b에 도시된다. 31에서, 텍스트 데이터의 부분 및 연관된 속성을 제공하도록 광학 문자 인식이 비디오의 프레임에 대해 실행된다. 36에서, 속성의 값이 결정된다. 37에서, 상기 값에 기초하여, 복수의 후보 보이스들로부터 보이스가 선택된다. 단계 39에서, 텍스트 데이터의 부분은 선택된 보이스를 이용하여 합성된 음성으로 변환된다. 그 후에 상기 단계들을 새로운 비디오 프레임에 대해 반복된다.

본 발명의 실시예에 따른, 부가의 예시적인 음성을 합성하는 방법이 도 3c에 도시된다. 41에서, 텍스트 데이터의 부분을 제공하기 위해, 오디오-비주얼 스트림의 비디오 성분의 이미지에 광학 문자 인식을 실행한다. 45에서, 프레임과의 동시 재생을 위해, 오디오-비주얼 스트림의 오디오 성분의 각각의 피치가 결정된다. 47에서, 결정된 피치에 기초하여, 복수의 후보 보이스들로부터 보이스가 선택된다. 49에서, 텍스트 데이터의 부분은 선택된 보이스를 이용하여 합성된 음성으로 변환된다. 그 후에, 상기 단계들은 새로운 이미지 및 연관된 오디오 성분에 대해 반복된다.

본 발명의 실시예들이 첨부 도면들에 도시되고 상기의 상세한 설명들에 기술되었을지라도, 본 발명은 개시된 실시예들로 제한되지 않고, 다음의 청구항들에서 진술되는 바와 같이 본 발명의 범위를 벗어나지 않고 많은 수정들이 가능하다는 것이 이해될 것이다.

당업자들에게 명확한 바와 같이, "수단"은, 단독으로 또는 다른 기능들과 함께, 독자적으로 또는 다른 요소들과 협력하도록, 동작 시에 재생되거나 특정한 기능을 재생하도록 설계된 임의의 하드웨어(별도의 회로들 또는 집적 회로들 또는 전자 부품들) 또는 소프트웨어(프로그램들 또는 프로그램들의 일부)를 포함하는 것이 의도된다. 본 발명은 여러 개별 요소들을 포함하는 하드웨어에 의해, 그리고 적절하게 프로그램된 컴퓨터에 의해 구현될 수 있다. 여러 수단들을 열거하는 장치 청구항에서, 이 수단들 중 몇몇 수단은 하나의 그리고 동일한 아이템의 하드웨어에 의해 구현될 수 있다. "컴퓨터 프로그램 제품"은 플로피 디스크와 같은 컴퓨터-판독 가능 매체 상에 저장되거나, 인터넷과 같은 네트워크를 통해 다운로딩 가능하거나, 또는 임의의 다른 방식으로 시장 구입 가능한 임의의 소프트웨어 제품을 의미하는 것이 이해되어야 한다.

1, 1', 1'', 2 : 장치 3 , 3', 3'': 텍스트 데이터 추출 유닛
5 , 5' : 값 결정 유닛 13 : 텍스트-대-음성 변환기

Claims

음성을 합성하는 방법에 있어서:
텍스트 데이터의 복수의 부분들을 수신하는 단계로서, 텍스트 데이터의 각각의 부분은 자신과 연관되는 적어도 하나의 속성을 갖는, 상기 수신 단계(21, 31, 41);
상기 텍스트 데이터의 부분들 각각에 대하여 적어도 하나의 속성의 값을 결정하는 단계(25, 35, 45);
상기 결정된 속성 값들 각각에 기초하여, 복수의 후보 보이스들로부터 보이스를 선택하는 단계(27, 37, 47); 및
상기 각각의 선택된 보이스를 이용하여 텍스트 데이터의 각각의 부분을 합성된 음성으로 변환하는 단계(29, 39, 49)를 포함하는, 음성 합성 방법.
제 1 항에 있어서, 텍스트 데이터의 복수의 부분들을 수신하는 단계(21, 31, 41)는 텍스트 데이터의 복수의 부분들을 포함하는 폐쇄형 자막들을 수신하는 단계(21)를 포함하는, 음성 합성 방법.
제 2 항에 있어서, 텍스트 데이터의 부분들 각각에 대하여 적어도 하나의 속성의 값을 결정하는 단계(25, 35, 45)는, 텍스트 데이터의 부분들 각각의 대해, 상기 텍스트 데이터의 각각의 부분과 연관되는 폐쇄형 자막들 내에 포함되는 코드를 결정하는 단계(25)를 포함하는, 음성 합성 방법.
제 1 항에 있어서, 텍스트 데이터의 복수의 부분들을 수신하는 단계(21, 31, 41)는 복수의 이미지들에 대한 광학 문자 인식(optical character recognition: OCR) 또는 유사한 패턴 매칭(pattern matching) 기술을 실행하는 단계(31, 41)를 포함할 수 있고, 상기 복수의 이미지들 각각은 텍스트 데이터의 복수의 부분들을 제공하기 위해 폐쇄형 자막들, 사전 렌더링 자막들, 또는 개방형 자막들을 포함하는 텍스트 부분의 적어도 하나의 비주얼 표현을 포함하는, 음성 합성 방법.
제 4 항에 있어서, 텍스트 데이터의 복수의 부분들 중 하나의 적어도 하나의 속성은: 텍스트 부분의 비주얼 표현들 중 하나의 텍스트 특성;
상기 이미지 내의 텍스트 부분의 비주얼 표현들 중 하나의 위치; 또는
각각의 이미지 내의 텍스트 부분의 비주얼 표현들 중 하나와 동시 재생하기 위한 오디오 신호의 피치(pitch)를 포함하는, 음성 합성 방법.
제 1 항에 있어서, 상기 후보 보이스들은 상기 남성 및 여성 보이스들 및/또는 각각의 볼륨들이 상이한 보이스들을 포함하는, 음성 합성 방법.
제 1 항에 있어서, 보이스를 선택하는 단계는 복수의 후보 보이스들로부터 최선의 보이스를 선택하는 단계를 포함하는, 음성 합성 방법.
제 1 항 내지 제 7 항 중 어느 한 항에 따른 방법을 실행하기 위한 복수의 프로그램 코드 부분들을 포함하는, 컴퓨터 프로그램 제품.
텍스트 데이터의 복수의 부분들로부터 음성을 합성하기 위한 장치(1, 1', 1'', 2)로서, 텍스트 데이터의 각각의 부분은 자신과 연관되는 적어도 하나의 속성을 가지는, 음성을 합성하기 위한 장치에 있어서:
텍스트 데이터의 복수의 부분들 각각에 대하여 적어도 하나의 속성의 값을 결정하기 위한, 값 결정 유닛(5, 5', 5'');
상기 결정된 속성 값들 각각에 기초하여, 복수의 후보 보이스들로부터 보이스를 선택하기 위한, 보이스 선택 유닛(9); 및
상기 각각의 선택된 보이스를 이용하여, 텍스트 데이터의 각각의 부분을 합성된 음성으로 변환하기 위한, 텍스트-대-음성 변환기(13, 19)를 포함하는, 음성 합성 장치(1, 1', 1'', 2).
제 9 항에 있어서, 상기 값 결정 유닛(5, 5', 5'')은 텍스트 데이터의 부분들 각각에 대해, 상기 텍스트 데이터의 각각의 부분과 연관되고 폐쇄형 자막들 내에 포함되는 코드를 결정하기 위한 코드 결정 수단을 포함하는, 음성 합성 장치(1, 1', 1'', 2).
제 9 항에 있어서, 복수의 이미지들에 대한 광학 문자 인식(OCR) 또는 유사한 패턴 매칭 기술을 실행하기 위한 텍스트 데이터 추출 유닛(3, 3', 3'')을 더 포함하고, 상기 복수의 이미지들 각각은 텍스트 데이터의 복수의 부분들을 제공하기 위해 폐쇄형 자막들, 사전 렌더링 자막들, 또는 개방형 자막들을 포함하는 텍스트 부분의 적어도 하나의 비주얼 표현을 포함하는, 음성 합성 장치(1, 1', 1'', 2).
제 11 항에 있어서, 텍스트 데이터의 복수의 부분들 중 하나의 적어도 하나의 속성은:
텍스트 부분의 비주얼 표현들 중 하나의 텍스트 특성;
이미지 내의 텍스트 부분의 비주얼 표현들 중 하나의 위치; 또는
각각의 이미지 내의 텍스트 부분의 비주얼 표현들 중 하나와 동시 재생하기 위한 오디오 신호의 피치를 포함하는, 음성 합성 장치(1, 1', 1'', 2).
제 9 항에 있어서, 상기 후보 보이스들은 남성 및 여성 보이스들 및/또는 각각의 볼륨들이 상이한 보이스들을 포함하는, 음성 합성 장치(1, 1', 1'', 2).
제 9 항에 있어서, 상기 보이스 선택 유닛(9)은, 상기 결정된 속성 값들 각각에 기초하여, 복수의 후보 보이스들로부터 최선의 보이스를 선택하기 위한 것인, 음성 합성 장치(1, 1', 1'', 2).
제 9 항 내지 제 13 항 중 어느 한 항의 장치(1, 1', 1'', 2)를 포함하는, 오디오 비주얼 디스플레이 디바이스.