KR20050118733A

KR20050118733A - 시청각 스트림상에 자동 더빙을 수행하는 시스템 및 방법

Info

Publication number: KR20050118733A
Application number: KR1020057019450A
Authority: KR
Inventors: 잔 알렉시스 다니엘 네스바드바; 드릭 제로엔 브리바트; 마틴 프란시스쿠스 맥키니
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2003-04-14
Filing date: 2004-04-02
Publication date: 2005-12-19
Also published as: US20060285654A1; EP1616272A1; JP2006524856A; CN1774715A; WO2004090746A1

Abstract

본 발명은 시청각 스트림(2)상에 자동 더빙을 수행하는 시스템(1)을 설명한다. 시스템(1)은 인입하는 시청각 스트림(2)의 스피치 콘텐트를 식별하는 수단(3, 7)과, 스피치 콘텐트를 디지털 텍스트 포맷(14)으로 변환하는 스피치-텍스트 변환기(13)와, 디지털 텍스트(14)를 다른 언어 또는 방언(dialect)으로 번역하는 번역 시스템(15)과, 번역된 텍스트(18)를 스피치 출력(21)으로 합성하는 스피치 합성기(19)와, 상기 스피치 출력(21)을 인출하는 시청각 스트림(28)으로 동기화하는 동기화 시스템(9, 12, 22, 23, 26, 31, 33, 34, 35)을 포함한다. 더욱이 본 발명은 시청각 스트림(2)상에 자동 더빙을 수행하는 적절한 방법을 설명한다.

Description

시청각 스트림상에 자동 더빙을 수행하는 시스템 및 방법{System and method for performing automatic dubbing on an audio-visual stream}

본 발명은 일반적으로 시청각 스트림상에 자동 더빙을 수행하는 시스템 및 방법에 관한 것으로, 특히 시청각 디바이스에서 자동 더빙을 제공하는 시스템 및 방법에 관한 것이다.

시청자에 의해 관찰되는 시청각 스트림들은 예를 들어, 방송 국가 본래의 언어로 방송하는 텔레비전 프로그램이다. 더욱이, 시청각 스트림은 DVD, 비디오, 또는 임의의 다른 적절한 소스로부터 기원할 수 있고 비디오, 스피치, 음악, 음향 효과들, 및 다른 콘텐트들로 구성될 수 있다. 시청각 디바이스는 예를 들어, 텔레비전 셋, DVD 플레이어, VCR, 또는 멀티미디어 시스템일 수 있다. 외국어 필름들의 경우, 자막들-오픈 캡션들로 또한 알려진-은 방송에 앞서 캡션들을 비디오 프레임들로 키잉(keying)함으로써 시청각 스트림에 통합될 수 있다. 텔레비전 프로그램을 방송하기 이전에 더빙 스튜디오에서 외국어 필름들을 모국어로 음성 더빙을 수행하는 것 또한 가능하다. 여기서, 원래의 스크린 플레이는 타겟 언어로 먼저 번역되고, 이 후, 번역된 텍스트는 전문적인 스피커 또는 음성 탤런트에 의해 읽혀진다. 이 후, 새로운 스피치 콘텐트는 시청각 스트림에 동기화된다. 유명한 배우들의 특징을 프로그램하기 위해, 더빙 스튜디오들은 스피치 프로화일이 원래 스피치 콘텐트의 스피치 프로화일에 가장 가까운 스피커를 사용할 수 있다. 유럽에서는, 비디오들은 원래 처음 언어 또는 제 2 언어로 더빙된 것 중 하나의 언어만을 보통 이용할 수 있다. 유럽 시장을 위해 오픈 캡션들이 제공되는 비디오들은 상대적으로 드물다. DVD들은 원래 스피치 콘텐트와 함께 제 2 언어가 공동으로 이용 가능하고, 때때로 둘 이상의 언어들이 이용 가능하다. 시청자는 원하는 언어들 사이에서 스위칭할 수 있고, 하나 이상의 언어들의 자막들을 디스플레잉하는 선택을 가질 수 있다.

전문적인 음성 탤런트가 하는 더빙은 약간의 대부분의 언어들에 대해 비용과 관련된 제한을 수반하는 불이익이 있다. 노력과 비용이 관련되기 때문에, 모든 프로그램의 상대적으로 작은 부분만이 더빙될 수 있다. 뉴스 커버리지와 같은 프로그램들, 토크쇼들 또는 생방송들은 보통 전혀 더빙을 하지 않는다. 캡셔닝은 또한 영어와 같은 큰 타켓 청취자를 갖는 보다 대중적인 언어들, 및 로만체(Roman font)를 사용하는 언어들에 대해 제한된다. 중국어, 일본어, 아라비아어 및 러시아어와 같은 언어들은 상이한 폰트들을 사용하고 캡션들의 형식으로 쉽게 제공되지 않을 수 있다. 이것은 방송 언어가 모국어가 아닌 시청자들이 모국어로된 프로그램들을 매우 한정되게 선택하는 것을 의미한다. 시청각 프로그램들을 보기 및 듣기에 의해 외국어 공부들을 확대하기 원하는 다른 모국어 시청자들은 또한 관람물의 선택이 제한된다.

따라서, 본 발명의 목적은 시청각 스트림상에 간편하고 경제적인 더빙을 제공하는데 사용될 수 있는 시스템 및 방법을 제공하는 것이다.

도 1은 본 발명의 제 1 실시예에 따른 자동 더빙을 위한 시스템의 개략적인 블록도.

도 2는 본 발명의 제 2 실시예에 따른 자동 더빙을 위한 시스템의 개략적인 블록도.

본 발명은 시청각 스트림상에 자동 더빙을 수행하는 시스템을 제공하며, 시스템은 인입하는 시청각 스트림의 스피치 콘텐트를 식별하기 위한 수단과, 스피치 콘텐트를 디지털 텍스트 포맷으로 변환하는 스피치-텍스트 변환기와, 디지털 텍스트를 다른 언어 또는 방언(dialects)으로 번역하는 번역 시스템과, 번역된 텍스트를 스피치 출력으로 합성하는 스피치 합성기와, 스피치 출력을 인출하는 시청각 스트림에 동기화하는 동기화 시스템을 포함한다.

시청각 스트림을 자동 더빙하는 적절한 방법은 시청각 스트림(2)내 상기 스피치 콘텐트를 식별하는 단계와, 스피치 콘텐트를 디지털 텍스트 포맷으로 변환하는 단계와, 디지털 텍스트를 다른 언어 또는 방언으로 번역하는 단계와, 번역된 텍스트를 스피치 출력으로 변환하는 단계와, 스피치 출력을 인출하는 시청각 스트림에 동기화하는 단계를 포함한다.

본 방법으로 더빙된 스피치 콘텐트의 도입 프로세스는 시청각 스트림을 방송하기 이전의 텔레비전 스튜디오, 또는 국부적으로, 예를 들어 시청자의 가정내 멀티미디어 디바이스에 효과적일 수 있다. 본 발명은 선택 언어로 더빙된 시청각 스트림을 청취자에게 공급하는 시스템을 제공하는 유익함을 갖는다.

시청각 스트림은, 오디오 콘텐트가 스피치 콘텐트를 또한 포함할 수 있을 때 개별 트랙들로 인코딩된 비디오 및 오디오 콘텐트들을 포함할 수 있다. 스피치 콘텐트는 전용 트랙상에 위치되거나, 스피치와 함께 음악 및 사운드 효과를 포함하는 트랙외에서 필터링될 수 있다. 이러한 스피치 콘텐트를 식별하는 적당한 수단은, 기존 기술을 이용하여, 전문화된 필터들 및/또는 소프트웨어를 포함할 수 있고, 식별된 스피치 콘텐트의 사본을 만들거나 시청각 스트림으로부터 이것을 추출할 수 있다. 이후, 스피치 콘텐트 또는 스피치 스트림은 기존의 스피치 인식 기술을 이용함으로써 디지털 텍스트 포맷으로 변환될 수 있다. 디지털 텍스트 포맷은 기존의 번역 시스템을 다른 언어 또는 방언으로 번역된다. 번역된 디지털 텍스트 결과물은 스피치 오디오 출력을 생성하기 위해 합성되고, 이후, 스피치 콘텐트로서 스피치 오디오 출력은 시청각 스트림에 삽입되고, 이러한 방식으로 다른 오디오 콘텐트 즉, 음악, 사운드 효과등 변경되지 않은 것을 남기고, 원래의 스피치 콘텐트는 더빙된 스피치로 대체되거나 오버레잉될 수 있다. 이 새로운 방법에 기존 기술들을 조합함으로써, 본 발명은 매우 쉽게 실현될 수 있고 스피치 더빙을 수행하기 위해 비싼 스피커들을 고용하는 대신 비용이 저렴하다.

독립 청구항들은 특히 본 발명의 유익한 실시예들 및 특징을 개시한다.

본 발명의 특히 유익한 실시예에서, 음성 프로파일러는 스피치 콘텐트를 분석하고 스피치에 대한 음성 프로파일을 생성한다. 스피치 콘텐트는 하나 이상의 음성들, 순차적이거나 동시적인 스피킹(speaking)을 포함할 수 있어, 음성 프로파일이 생성된다. 피치(pitch), 포르만트들(formants), 하모니들(harmonics), 일시적 구조 및 다른 품질들을 고려한 정보는 음성 프로파일을 생성하는데 사용되고, 이 방법은 스피치 스트림 진행들로서 불변(steady)하거나 변화할 수 있고, 이는 원래의 스피치 품질을 재생하는 역할을 한다. 이후의 스테이지에서 번역된 스피치 콘텐트의 순수 음성 합성을 위해 음성 프로파일이 이용된다. 특히 본 발명의 실시예는 유명한 배우들의 유일한 음성 흔적들이 더빙된 시청각 스트림에서 재생되는 것을 보증하므로 유익하다.

본 발명의 다른 실시예에서, 시간 데이터의 소스는 스피치 스트림 및 잔여 오디오 및/또는 비디오 스트림들에 할당된 타이밍 정보를 생성하는데 이용되고 두 스트림들 사이의 일시적 관계를 나타낸다. 시간 데이터의 소스는 클록의 타입일 수 있고, 또는 시청각 스트림에서 이미 인코딩된 시간 데이터를 판독하는 디바이스일 수 있다. 이 방식으로 스피치 스트림 및 잔여 오디오 및/또는 비디오 스트림들을 마킹(marking)하는 것은 이후의 스테이지에서 더빙된 스트림을 다른 스트림들로 다시 동기화하는 쉬운 방법을 제공한다. 또한, 타이밍 정보는 예를 들어, 스피치를 텍스트로 변환하거나 음성 프로파일 생성에 있어, 스피치 스트림상에 발생된 지연들을 보상하는데 사용될 수 있다. 스피치 스트림상의 타이밍 정보는 스피치 스트림의 모든 파생물들, 예를 들어 디지털 텍스트, 번역된 디지털 텍스트, 및 음성 합성의 출력으로 전달될 수 있다. 따라서, 타이밍 정보는 시작과 종료, 특정 음성 발음의 기간을 나타내는데 사용될 수 있어, 합성된 음성 출력의 기간 및 위치는 시청각 스트림상의 원래의 음성 발음의 위치와 매치될 수 있다.

본 발명의 다른 배열로, 번역과 더빙에서 연장되는 최대 작용은 예를 들어 "보통" 또는 "고품질" 모드들 사이에서 선택함으로써 특정될 수 있다. 이후, 시스템은 스피치 콘텐트를 번역하고 더빙하는데 이용할 수 있는 시간을 결정하고, 따라서 스피치-텍스트 변화기 및 번역 시스템을 구성한다. 따라서, 시청각 스트림은 최소 시간 지체(minimum time lag)로 뷰잉될 수 있어, 생방송 뉴스 커버리지의 경우에서 바람직할 수 있고, 또는 보다 많은 시간 지체(greater time lag)는, 자동 더빙 시스템이 번역 및 음성 합성의 최고 품질을 달성하도록 허용하여 모션 영상 필름들, 다큐멘타리들, 및 이와 유사한 프로덕션들의 경우에 바람직하다.

더욱이, 시스템은 상이한 스트림들에 대한 미리 결정된 고정 지연들을 이용함으로써 부가적인 타이밍 정보의 삽입없이 기능할 수 있다.

본 발명의 다른 양호한 특징은 디지털 포맷을 상이한 언어로 번역하는 번역시스템이다. 따라서, 번역 시스템은 번역 프로그램과, 이용 가능한 언어들 또는 방언들 중 하나를 시청자가 선택하여 스피치가 번역되는, 하나 이상의 언어 및/또는 방언 데이터 베이스를 포함할 수 있다.

본 발명의 부가적인 실시예는 디지털 텍스트는 오픈 캡셔닝에 적당한 포맷으로 변환하는 오픈-캡셔닝 생성기를 포함한다. 디지털 텍스트는 원래의 스피치 콘텐트에 대응하는 원래의 디지털 텍스트이고/이거나 번역 시스템의 출력일 수 있다. 디지털 텍스트를 수반하는 타이밍 정보는 오픈 캡션들을 위치시키는데 사용될 수 있어 시청자는 시청각 스트림의 적절한 위치에서 볼 수 있다. 시청자는 오픈 캡션들이 디스플레이되었는지 여부를 특정할 수 있고, 언어-원래의 언어 및/또는 번역된 언어-로 디스플레잉된다. 이 특징은 외국어로 스피치 콘텐트를 들으면서 모국어로된 자막을 읽거나, 모국어로된 스피치 콘텐트를 청취하면서 외국어 텍스트로된 자막들을 읽는, 외국어를 학습하기 원하는 시청자들에게 특별한 용도가 될 수 있다.

자동 더빙 시스템은 임의의 시청각 디바이스, 예를 들어 텔레비전 세트, DVD 플레이어 또는 VCR의 확장에 통합될 수 있어, 이 경우 시청자는 사용자 인터페이스를 통해 엔터링 요청 수단을 갖는다.

동일하게, 자동 더빙 시스템은 예를 들어, 텔레비전 방송국에서 실현될 수 있는데, 충분한 대역폭은 복수의 더빙된 스피치 콘텐트들 및/또는 개방 캡션들을 갖는 시청각 스트림의 경제적인 방송을 허용한다.

스피치-텍스트 변환기, 음성 프로파일 생성기, 번역 프로그램, 언어/방언 데이터 베이스들, 스피치 합성기 및 개방-캡션 생성기는, IP 블록들의 용량들에 따른 작업들의 현명한 분배를 허용하는 여러 인텔리전트 프로세서 또는 IP 블록들을 통해 분배될 수 있다. 이 인텔리전트 작업 분배는 프로세싱 전력을 절약하고 가능한 짧은 시간에 작업을 수행할 것이다.

본 발명의 다른 목적들 및 특징들은 첨부된 도면들과 연결하여 고려되는 다음의 상세한 설명으로부터 분명해질 것이다. 그러나, 도면들은 본 발명을 오로지 설명하기 위해 설계된 것으로, 제한하기 위해 설계되지 않았음을 이해한다.

도면들에서, 동일한 문자들은 동일한 요소들을 지시한다.

다음 도면의 설명에서, 본 발명의 다른 가능한 실현을 배제해서는 않되며, 본 시스템은 사용자 디바이스, 예를 들어, TV의 일부로서 도시될 수 있다. 명료함을 위해, 시청자(사용자)와 본 발명 사이의 인터페이스는 도면들에 포함되어 있지 않다. 그러나, 시스템은 사용자 인터페이스의 통상의 방식으로 사용자에 의해 이슈된 명령들을 해석하는 수단과, 시청각 스트림을 출력하는 수단, 예를 들어 TV 스크린 및 라우드 스피커들을 또한 포함하는 것을 이해한다.

도 1은, 오디오/비디오 스플리터(3)가 인입하는 시청각 스트림(2)의 오디오 콘텐트(5)를 비디오 콘텐트(6)에서 분리하는 자동 더빙 시스템을 도시한다. 시간 데이터(4)의 소스는 오디오(5) 및 비디오(6) 스트림들로 타이밍 정보를 할당한다.

오디오 스트림(5)은 스피치 추출기(speech extracotr)(7)로 보내지고, 이것은 스피치 콘텐트의 사본을 생성하고, 이 후 스테이지에서 요청될 때까지, 잔여 오디오 콘텐트(8)를, 이것이 저장되고, 변경되지 않는 지연 요소(9)로 돌린다(deverts). 스피치 콘텐트는 스피치 스트림에 대한 음성 프로파일(11)을 생성하고 이후 스테이지에서 요청될 때까지 이것을 타이밍 정보와 함께 지연 요소(12)에 저장하는 음성 프로파일러(10)로 보내진다. 스피치 스트림은 이것이 디지털 포맷으로 스피치 텍스트(14)로 변환될 때 스피치-텍스트 변환기(13)로 패싱된다. 스피치 추출기(7), 음성 프로파일러(10), 및 스피치-텍스트 변환기(13)는 디바이스들을 분리할 수 있으나, 단일 디바이스, 예를 들어 복합 스피치 인식 시스템으로서 보다 통상적으로 실현된다.

이후, 스피치 텍스트(14)는 번역된 스피치 텍스트(18)를 생성하기 위해 언어 데이터 베이스(17)에 의해 공급된 언어 정보(16)를 이용하는 번역기(15)로 보내진다.

번역된 스피치 텍스트(18)는, 번역된 스피치 텍스트(18)를 스피치 오디오 스트림(21)으로 합성하기 위해 지연된 음성 프로파일(20)을 이용하는 스피치 합성 모듈(19)로 보내진다.

지연 요소(22,23)는 비디오 스트림(6)과 번역된 스피치 오디오 스트림(21)상의 타이밍 차이를 보상하기 위해 이용된다. 지연된 비디오 스트림(21), 지연된 번역 스피치 오디오 스트림(25) 및 지연된 오디오 콘텐트(27)는, 3 개의 입력 스트림들(24, 25, 27)을 그들의 타이밍 정보에 따라 동기화하는 오디오/비디오 조합기(26)로 입력되고 오디오 스트림(27)의 원래의 스피치 콘텐트는 오버레잉되거나 번역된 오디오(25)에 의해 대체되고, 변경되지 않은 원래의 오디오 스트림(27)의 비-스피치 콘텐트는 남겨둔다(leaving). 오디오/비디오 조합기(26)의 출력은 인출되는 시청각 스트림으로 더빙된다.

도 2는 스피치 콘텐트가 인입하는 시청각 스트림(2)의 오디오 콘텐트(5)에서 식별되고, 디지털 포맷으로 스피치 텍스트(14)를 생성하는 도 1의 설명과 유사한 방식으로 처리되는 자동 더빙 시스템(1)을 도시한다. 그러나, 이 경우에, 스피치 콘텐트는 잔여 오디오 스트림(8)으로부터 전환된다.

그러나, 이 예에서, 오픈 캡션들을 시청각 출력 스트림(28)에 포함하기 위해 생성한다. 도 1에 도시된 바와 같이, 스피치 텍스트(14)는 번역기(15)로 보내지고, 언어 데이터 베이스로부터 얻어진 정보(16)를 이용하여, 스피치 텍스트(14)를 제 2 언어로 번역한다. 언어 데이터 베이스(17)는 적절한 접속을 통해 인터넷(37)으로부터 최신 언어 정보(36)를 다운로딩함으로써 업데이트될 수 있다.

번역된 스피치 텍스트(18)는 스피치 합성 모듈(19) 및 오픈-캡셔닝 모들(29)로 패싱되고, 원래의 스피치 텍스트(14) 및/또는 번역된 스피치 텍스트(18)는, 시청자가 한 선택에 따라, 오픈 캡션들을 표현하는데 적절한 포맷의 출력(30)으로 변환된다. 스피치 합성 모듈(19)은 음성 프로파일(11) 및 번역된 스피치 텍스트(18)를 이용하여 스피치 오디오(21)를 생성한다.

오디오 조합기(31)는 잔여 오디오 스트림(8)을 합성된 스피치 출력(21)과 조합하여 동기화된 오디오 출력(32)을 제공한다. 오디오/비디오 조합기(26)는, 출력 시청각 스트림(28)을 생성하는데 적절한 길이들로 3 개의 입력들(32, 6, 30)을 지연시키기 위해 버퍼들(33, 34, 35)을 이용함으로써 오디오 스트림(32), 비디오 스트림(6), 및 오픈 캡션들(30)을 동기화한다.

본 발명이 양호한 실시예들 및 그의 변화들의 형태로 개시되었지만, 본 발명의 범위에 벗어남 없이 수많은 부가적인 수정들 및 변화들이 만들어질 수 있음을 이해한다.

예를 들어, 번역 툴들 및 언어 데이터 베이스들은 인터넷으로부터 새로운 버전들을 다운로딩함으로써 원하는 것으로 업데이트하거나 대체할 수 있다. 이런 방법으로, 자동 더빙 시스템은 전자 번역에 있어서 현재 가장 발달된 것일 수 있고 새로운 버즈-워드들(buzz-words) 및 상품 이름들과 같은, 언어들 선택을 최신 자원들(developments)로 유지할 수 있다. 또한, 유명한 배우의 음성들에 대한 자동 스피치 인식을 위한 스피치 프로파일들 및/또는 스피커는 메모리에 저장되고, 예를 들어, 인터넷에서 다운로딩함으로써 업데이트될 수 있다. 미래의 기술이 시청각 스트림으로 인코딩되는 모션 영상 필름들에서 특징된 배우들에 대한 이러한 정보를 허용하면, 배우들을 위한 개별적인 스피커 모델이 자동 스피치 인식에 인가되고 정확한 스피치 프로파일들이 선택 언어의 배우들 음성들의 합성에 할당될 수 있다. 이후, 자동 더빙 시스템은 오로지 덜 유명한 배우들에 대한 프로파일을 생성한다.

더욱이, 시스템은 시청각 스트림의 스피치 콘텐트의 상이한 음성들간의 선택방법을 포함할 수 있다. 하나 이상의 언어를 특징화하는 필름들의 경우에, 사용자는 즐겨 사용하지 않는 잔여 언어들의 스피치 콘텐트를 남겨두고, 어느 언어들을 번역하고 더빙할지를 특정할 수 있다.

본 발명은 또한 강력한 학습 툴로서 사용될 수 있다. 예를 들어, 스피치-텍스트 변환기의 출력은 하나 이상의 번역기로 보내질 수 있어, 텍스트는 이용 가능한 언어 데이터 베이스들로부터 선택되어 하나 이상의 언어로 변환될 수 있다. 번역된 텍스트 스트림들은 여러 언어들의 스피치 콘텐트를 출력하기 위해 복수의 스피치 합성기들로 더 보내질 수 있다. 예를 들어, 헤드폰을 통해 여러 오디오 출력들에 대한 동기된 스피치 출력을 채널링하는 것은 여러 시청자들이 동일 프로그램을 볼 수 있게 하고, 각각의 시청자가 상이한 언어로 이것을 들을 수 있게 한다. 본 실시예는 다양한 언어들을 학생들에게 가르치는 언어 학원들과 다양한 민족들의 시청자들에게 제시된 시청각 정보가 있는 박물관들에서 특히 사용될 수 있다.

명료함을 위해, 명세서 전반의 '포함한다'는 다른 단계들 또는 요소들을 배제하지 않음을 이해한다.

Claims

인입하는 시청각 스트림(2)상에 자동 더빙을 수행하는 시스템(1)으로서, 상기 시청각 스트림(2)의 스피치 콘텐트를 식별하는 수단(3, 7)과, 상기 스피치 콘텐트를 디지털 텍스트 포맷(14)으로 변환하는 스피치-텍스트 변환기(13)와, 상기 디지털 텍스트(14)를 다른 언어 또는 방언(dialect)으로 번역하는 번역 시스템(15)과, 상기 번역된 텍스트(18)를 스피치 출력(21)으로 합성하는 스피치 합성기(19)와, 상기 스피치 출력(21)을 인출하는 시청각 스트림(28)에 동기화하는 동기화 시스템(9, 12, 22, 23, 26, 31, 33, 34, 35)을 포함하는, 자동 더빙 수행 장치.
제 1 항에 있어서, 상기 스피치 콘텐트에 대한 음성 프로파일들(11)을 생성하고, 스피치 출력 합성을 위해 상기 적절한 음성 프로파일(11)을 상기 번역된 텍스트(14)에 할당하는 음성 프로파일러(10)를 포함하는, 자동 더빙 수행 장치.
제 1 항 또는 제 2 항에 있어서, 상기 시스템(1)은, 상기 오디오 및 비디오 콘텐트들(4, 5)을 나중에 동기화 하기 위해 이러한 콘텐트들에 타이밍 정보를 할당하기 위한 시간 데이터(4)의 소스를 포함하는, 자동 더빙 수행 장치.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 번역 시스템(15)은 복수의 상이한 언어들 및/또는 방언들을 갖는 언어 데이터 베이스(17)와, 상기 디지털 텍스트(14)가 번역되는 언어 또는 방언을 이 데이터 베이스(17)로부터 선택하는 수단을 포함하는, 자동 더빙 수행 장치.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 시스템(1)은, 상기 디지털 텍스트(14) 및/또는 상기 번역된 디지털 텍스트(18)를 이용하여 오픈 캡션들(30)을 생성하고, 인출하는 시청각 스트림(28)에 포함시키기 위한 오픈-캡션 생성기(29)를 포함하는, 자동 더빙 수행 장치.
제 1 항 내지 제 5 항에 따른 시스템(1)을 포함하는 시청각 디바이스.
인입하는 시청각 스트림(2)의 자동 더빙을 위한 방법으로서, 상기 시청각 스트림(2)내 스피치 콘텐트를 식별하는 단계와, 상기 스피치 콘텐트를 디지털 텍스트 포맷(14)으로 변환하는 단계와, 상기 디지털 텍스트(14)를 다른 언어 또는 방언으로 번역하는 단계와, 상기 번역된 텍스트(18)를 스피치 출력(21)으로 변환하는 단계와, 상기 스피치 출력(21)을 인출하는 시청각 스트림(28)에 동기화하는 단계를 포함하는, 자동 더빙 방법.
제 7 항에 있어서, 상기 스피치 콘텐트에 대한 음성 프로파일들(11)이 생성되고, 상기 스피치 출력(21)의 합성내 적절한 상기 번역된 텍스트(18)에 할당되는, 자동 더빙 방법.
제 7 항 또는 제 8 항에 있어서, 상기 스피치 콘텐트의 사본은 상기 시청각 스트림(2) 또는 상기 시청각 스트림(2)의 오디오 콘텐트로부터 전환(diverted)되는, 자동 더빙 방법.
제 7 항 또는 제 8 항에 있어서, 상기 시청각 스트림(2)의 상기 스피치 콘텐트는 잔여 시청각 스트림 또는 상기 시청각 스트림(2)의 잔여 오디오 콘텐트로부터 분리되는, 자동 더빙 방법.
제 7 항 내지 제 10 항 중 어느 한 항에 있어서, 오디오/비디오 조합기(26)는 상기 스피치 출력(21)을 상기 원래의 스피치 콘텐트에 대신하여 인출하는 시청각 스트림(28)에 삽입하는, 자동 더빙 방법.
제 7 항 내지 제 11 항 중 어느 한 항에 있어서, 오디오/비디오 조합기(26)는 상기 스피치 출력(21)을 상기 인출하는 시청각 스트림(28)내에 오버레잉하는, 자동 더빙 방법.