KR20050118733A - 시청각 스트림상에 자동 더빙을 수행하는 시스템 및 방법 - Google Patents

시청각 스트림상에 자동 더빙을 수행하는 시스템 및 방법 Download PDF

Info

Publication number
KR20050118733A
KR20050118733A KR1020057019450A KR20057019450A KR20050118733A KR 20050118733 A KR20050118733 A KR 20050118733A KR 1020057019450 A KR1020057019450 A KR 1020057019450A KR 20057019450 A KR20057019450 A KR 20057019450A KR 20050118733 A KR20050118733 A KR 20050118733A
Authority
KR
South Korea
Prior art keywords
speech
text
audio
audiovisual stream
content
Prior art date
Application number
KR1020057019450A
Other languages
English (en)
Inventor
잔 알렉시스 다니엘 네스바드바
드릭 제로엔 브리바트
마틴 프란시스쿠스 맥키니
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20050118733A publication Critical patent/KR20050118733A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43074Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on the same device, e.g. of EPG data or interactive icon with a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4332Content storage operation, e.g. storage operation in response to a pause request, caching operations by placing content in organized collections, e.g. local EPG data repository
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4856End-user interface for client configuration for language selection, e.g. for the menu or subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Machine Translation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

본 발명은 시청각 스트림(2)상에 자동 더빙을 수행하는 시스템(1)을 설명한다. 시스템(1)은 인입하는 시청각 스트림(2)의 스피치 콘텐트를 식별하는 수단(3, 7)과, 스피치 콘텐트를 디지털 텍스트 포맷(14)으로 변환하는 스피치-텍스트 변환기(13)와, 디지털 텍스트(14)를 다른 언어 또는 방언(dialect)으로 번역하는 번역 시스템(15)과, 번역된 텍스트(18)를 스피치 출력(21)으로 합성하는 스피치 합성기(19)와, 상기 스피치 출력(21)을 인출하는 시청각 스트림(28)으로 동기화하는 동기화 시스템(9, 12, 22, 23, 26, 31, 33, 34, 35)을 포함한다. 더욱이 본 발명은 시청각 스트림(2)상에 자동 더빙을 수행하는 적절한 방법을 설명한다.

Description

시청각 스트림상에 자동 더빙을 수행하는 시스템 및 방법{System and method for performing automatic dubbing on an audio-visual stream}
본 발명은 일반적으로 시청각 스트림상에 자동 더빙을 수행하는 시스템 및 방법에 관한 것으로, 특히 시청각 디바이스에서 자동 더빙을 제공하는 시스템 및 방법에 관한 것이다.
시청자에 의해 관찰되는 시청각 스트림들은 예를 들어, 방송 국가 본래의 언어로 방송하는 텔레비전 프로그램이다. 더욱이, 시청각 스트림은 DVD, 비디오, 또는 임의의 다른 적절한 소스로부터 기원할 수 있고 비디오, 스피치, 음악, 음향 효과들, 및 다른 콘텐트들로 구성될 수 있다. 시청각 디바이스는 예를 들어, 텔레비전 셋, DVD 플레이어, VCR, 또는 멀티미디어 시스템일 수 있다. 외국어 필름들의 경우, 자막들-오픈 캡션들로 또한 알려진-은 방송에 앞서 캡션들을 비디오 프레임들로 키잉(keying)함으로써 시청각 스트림에 통합될 수 있다. 텔레비전 프로그램을 방송하기 이전에 더빙 스튜디오에서 외국어 필름들을 모국어로 음성 더빙을 수행하는 것 또한 가능하다. 여기서, 원래의 스크린 플레이는 타겟 언어로 먼저 번역되고, 이 후, 번역된 텍스트는 전문적인 스피커 또는 음성 탤런트에 의해 읽혀진다. 이 후, 새로운 스피치 콘텐트는 시청각 스트림에 동기화된다. 유명한 배우들의 특징을 프로그램하기 위해, 더빙 스튜디오들은 스피치 프로화일이 원래 스피치 콘텐트의 스피치 프로화일에 가장 가까운 스피커를 사용할 수 있다. 유럽에서는, 비디오들은 원래 처음 언어 또는 제 2 언어로 더빙된 것 중 하나의 언어만을 보통 이용할 수 있다. 유럽 시장을 위해 오픈 캡션들이 제공되는 비디오들은 상대적으로 드물다. DVD들은 원래 스피치 콘텐트와 함께 제 2 언어가 공동으로 이용 가능하고, 때때로 둘 이상의 언어들이 이용 가능하다. 시청자는 원하는 언어들 사이에서 스위칭할 수 있고, 하나 이상의 언어들의 자막들을 디스플레잉하는 선택을 가질 수 있다.
전문적인 음성 탤런트가 하는 더빙은 약간의 대부분의 언어들에 대해 비용과 관련된 제한을 수반하는 불이익이 있다. 노력과 비용이 관련되기 때문에, 모든 프로그램의 상대적으로 작은 부분만이 더빙될 수 있다. 뉴스 커버리지와 같은 프로그램들, 토크쇼들 또는 생방송들은 보통 전혀 더빙을 하지 않는다. 캡셔닝은 또한 영어와 같은 큰 타켓 청취자를 갖는 보다 대중적인 언어들, 및 로만체(Roman font)를 사용하는 언어들에 대해 제한된다. 중국어, 일본어, 아라비아어 및 러시아어와 같은 언어들은 상이한 폰트들을 사용하고 캡션들의 형식으로 쉽게 제공되지 않을 수 있다. 이것은 방송 언어가 모국어가 아닌 시청자들이 모국어로된 프로그램들을 매우 한정되게 선택하는 것을 의미한다. 시청각 프로그램들을 보기 및 듣기에 의해 외국어 공부들을 확대하기 원하는 다른 모국어 시청자들은 또한 관람물의 선택이 제한된다.
따라서, 본 발명의 목적은 시청각 스트림상에 간편하고 경제적인 더빙을 제공하는데 사용될 수 있는 시스템 및 방법을 제공하는 것이다.
도 1은 본 발명의 제 1 실시예에 따른 자동 더빙을 위한 시스템의 개략적인 블록도.
도 2는 본 발명의 제 2 실시예에 따른 자동 더빙을 위한 시스템의 개략적인 블록도.
본 발명은 시청각 스트림상에 자동 더빙을 수행하는 시스템을 제공하며, 시스템은 인입하는 시청각 스트림의 스피치 콘텐트를 식별하기 위한 수단과, 스피치 콘텐트를 디지털 텍스트 포맷으로 변환하는 스피치-텍스트 변환기와, 디지털 텍스트를 다른 언어 또는 방언(dialects)으로 번역하는 번역 시스템과, 번역된 텍스트를 스피치 출력으로 합성하는 스피치 합성기와, 스피치 출력을 인출하는 시청각 스트림에 동기화하는 동기화 시스템을 포함한다.
시청각 스트림을 자동 더빙하는 적절한 방법은 시청각 스트림(2)내 상기 스피치 콘텐트를 식별하는 단계와, 스피치 콘텐트를 디지털 텍스트 포맷으로 변환하는 단계와, 디지털 텍스트를 다른 언어 또는 방언으로 번역하는 단계와, 번역된 텍스트를 스피치 출력으로 변환하는 단계와, 스피치 출력을 인출하는 시청각 스트림에 동기화하는 단계를 포함한다.
본 방법으로 더빙된 스피치 콘텐트의 도입 프로세스는 시청각 스트림을 방송하기 이전의 텔레비전 스튜디오, 또는 국부적으로, 예를 들어 시청자의 가정내 멀티미디어 디바이스에 효과적일 수 있다. 본 발명은 선택 언어로 더빙된 시청각 스트림을 청취자에게 공급하는 시스템을 제공하는 유익함을 갖는다.
시청각 스트림은, 오디오 콘텐트가 스피치 콘텐트를 또한 포함할 수 있을 때 개별 트랙들로 인코딩된 비디오 및 오디오 콘텐트들을 포함할 수 있다. 스피치 콘텐트는 전용 트랙상에 위치되거나, 스피치와 함께 음악 및 사운드 효과를 포함하는 트랙외에서 필터링될 수 있다. 이러한 스피치 콘텐트를 식별하는 적당한 수단은, 기존 기술을 이용하여, 전문화된 필터들 및/또는 소프트웨어를 포함할 수 있고, 식별된 스피치 콘텐트의 사본을 만들거나 시청각 스트림으로부터 이것을 추출할 수 있다. 이후, 스피치 콘텐트 또는 스피치 스트림은 기존의 스피치 인식 기술을 이용함으로써 디지털 텍스트 포맷으로 변환될 수 있다. 디지털 텍스트 포맷은 기존의 번역 시스템을 다른 언어 또는 방언으로 번역된다. 번역된 디지털 텍스트 결과물은 스피치 오디오 출력을 생성하기 위해 합성되고, 이후, 스피치 콘텐트로서 스피치 오디오 출력은 시청각 스트림에 삽입되고, 이러한 방식으로 다른 오디오 콘텐트 즉, 음악, 사운드 효과등 변경되지 않은 것을 남기고, 원래의 스피치 콘텐트는 더빙된 스피치로 대체되거나 오버레잉될 수 있다. 이 새로운 방법에 기존 기술들을 조합함으로써, 본 발명은 매우 쉽게 실현될 수 있고 스피치 더빙을 수행하기 위해 비싼 스피커들을 고용하는 대신 비용이 저렴하다.
독립 청구항들은 특히 본 발명의 유익한 실시예들 및 특징을 개시한다.
본 발명의 특히 유익한 실시예에서, 음성 프로파일러는 스피치 콘텐트를 분석하고 스피치에 대한 음성 프로파일을 생성한다. 스피치 콘텐트는 하나 이상의 음성들, 순차적이거나 동시적인 스피킹(speaking)을 포함할 수 있어, 음성 프로파일이 생성된다. 피치(pitch), 포르만트들(formants), 하모니들(harmonics), 일시적 구조 및 다른 품질들을 고려한 정보는 음성 프로파일을 생성하는데 사용되고, 이 방법은 스피치 스트림 진행들로서 불변(steady)하거나 변화할 수 있고, 이는 원래의 스피치 품질을 재생하는 역할을 한다. 이후의 스테이지에서 번역된 스피치 콘텐트의 순수 음성 합성을 위해 음성 프로파일이 이용된다. 특히 본 발명의 실시예는 유명한 배우들의 유일한 음성 흔적들이 더빙된 시청각 스트림에서 재생되는 것을 보증하므로 유익하다.
본 발명의 다른 실시예에서, 시간 데이터의 소스는 스피치 스트림 및 잔여 오디오 및/또는 비디오 스트림들에 할당된 타이밍 정보를 생성하는데 이용되고 두 스트림들 사이의 일시적 관계를 나타낸다. 시간 데이터의 소스는 클록의 타입일 수 있고, 또는 시청각 스트림에서 이미 인코딩된 시간 데이터를 판독하는 디바이스일 수 있다. 이 방식으로 스피치 스트림 및 잔여 오디오 및/또는 비디오 스트림들을 마킹(marking)하는 것은 이후의 스테이지에서 더빙된 스트림을 다른 스트림들로 다시 동기화하는 쉬운 방법을 제공한다. 또한, 타이밍 정보는 예를 들어, 스피치를 텍스트로 변환하거나 음성 프로파일 생성에 있어, 스피치 스트림상에 발생된 지연들을 보상하는데 사용될 수 있다. 스피치 스트림상의 타이밍 정보는 스피치 스트림의 모든 파생물들, 예를 들어 디지털 텍스트, 번역된 디지털 텍스트, 및 음성 합성의 출력으로 전달될 수 있다. 따라서, 타이밍 정보는 시작과 종료, 특정 음성 발음의 기간을 나타내는데 사용될 수 있어, 합성된 음성 출력의 기간 및 위치는 시청각 스트림상의 원래의 음성 발음의 위치와 매치될 수 있다.
본 발명의 다른 배열로, 번역과 더빙에서 연장되는 최대 작용은 예를 들어 "보통" 또는 "고품질" 모드들 사이에서 선택함으로써 특정될 수 있다. 이후, 시스템은 스피치 콘텐트를 번역하고 더빙하는데 이용할 수 있는 시간을 결정하고, 따라서 스피치-텍스트 변화기 및 번역 시스템을 구성한다. 따라서, 시청각 스트림은 최소 시간 지체(minimum time lag)로 뷰잉될 수 있어, 생방송 뉴스 커버리지의 경우에서 바람직할 수 있고, 또는 보다 많은 시간 지체(greater time lag)는, 자동 더빙 시스템이 번역 및 음성 합성의 최고 품질을 달성하도록 허용하여 모션 영상 필름들, 다큐멘타리들, 및 이와 유사한 프로덕션들의 경우에 바람직하다.
더욱이, 시스템은 상이한 스트림들에 대한 미리 결정된 고정 지연들을 이용함으로써 부가적인 타이밍 정보의 삽입없이 기능할 수 있다.
본 발명의 다른 양호한 특징은 디지털 포맷을 상이한 언어로 번역하는 번역시스템이다. 따라서, 번역 시스템은 번역 프로그램과, 이용 가능한 언어들 또는 방언들 중 하나를 시청자가 선택하여 스피치가 번역되는, 하나 이상의 언어 및/또는 방언 데이터 베이스를 포함할 수 있다.
본 발명의 부가적인 실시예는 디지털 텍스트는 오픈 캡셔닝에 적당한 포맷으로 변환하는 오픈-캡셔닝 생성기를 포함한다. 디지털 텍스트는 원래의 스피치 콘텐트에 대응하는 원래의 디지털 텍스트이고/이거나 번역 시스템의 출력일 수 있다. 디지털 텍스트를 수반하는 타이밍 정보는 오픈 캡션들을 위치시키는데 사용될 수 있어 시청자는 시청각 스트림의 적절한 위치에서 볼 수 있다. 시청자는 오픈 캡션들이 디스플레이되었는지 여부를 특정할 수 있고, 언어-원래의 언어 및/또는 번역된 언어-로 디스플레잉된다. 이 특징은 외국어로 스피치 콘텐트를 들으면서 모국어로된 자막을 읽거나, 모국어로된 스피치 콘텐트를 청취하면서 외국어 텍스트로된 자막들을 읽는, 외국어를 학습하기 원하는 시청자들에게 특별한 용도가 될 수 있다.
자동 더빙 시스템은 임의의 시청각 디바이스, 예를 들어 텔레비전 세트, DVD 플레이어 또는 VCR의 확장에 통합될 수 있어, 이 경우 시청자는 사용자 인터페이스를 통해 엔터링 요청 수단을 갖는다.
동일하게, 자동 더빙 시스템은 예를 들어, 텔레비전 방송국에서 실현될 수 있는데, 충분한 대역폭은 복수의 더빙된 스피치 콘텐트들 및/또는 개방 캡션들을 갖는 시청각 스트림의 경제적인 방송을 허용한다.
스피치-텍스트 변환기, 음성 프로파일 생성기, 번역 프로그램, 언어/방언 데이터 베이스들, 스피치 합성기 및 개방-캡션 생성기는, IP 블록들의 용량들에 따른 작업들의 현명한 분배를 허용하는 여러 인텔리전트 프로세서 또는 IP 블록들을 통해 분배될 수 있다. 이 인텔리전트 작업 분배는 프로세싱 전력을 절약하고 가능한 짧은 시간에 작업을 수행할 것이다.
본 발명의 다른 목적들 및 특징들은 첨부된 도면들과 연결하여 고려되는 다음의 상세한 설명으로부터 분명해질 것이다. 그러나, 도면들은 본 발명을 오로지 설명하기 위해 설계된 것으로, 제한하기 위해 설계되지 않았음을 이해한다.
도면들에서, 동일한 문자들은 동일한 요소들을 지시한다.
다음 도면의 설명에서, 본 발명의 다른 가능한 실현을 배제해서는 않되며, 본 시스템은 사용자 디바이스, 예를 들어, TV의 일부로서 도시될 수 있다. 명료함을 위해, 시청자(사용자)와 본 발명 사이의 인터페이스는 도면들에 포함되어 있지 않다. 그러나, 시스템은 사용자 인터페이스의 통상의 방식으로 사용자에 의해 이슈된 명령들을 해석하는 수단과, 시청각 스트림을 출력하는 수단, 예를 들어 TV 스크린 및 라우드 스피커들을 또한 포함하는 것을 이해한다.
도 1은, 오디오/비디오 스플리터(3)가 인입하는 시청각 스트림(2)의 오디오 콘텐트(5)를 비디오 콘텐트(6)에서 분리하는 자동 더빙 시스템을 도시한다. 시간 데이터(4)의 소스는 오디오(5) 및 비디오(6) 스트림들로 타이밍 정보를 할당한다.
오디오 스트림(5)은 스피치 추출기(speech extracotr)(7)로 보내지고, 이것은 스피치 콘텐트의 사본을 생성하고, 이 후 스테이지에서 요청될 때까지, 잔여 오디오 콘텐트(8)를, 이것이 저장되고, 변경되지 않는 지연 요소(9)로 돌린다(deverts). 스피치 콘텐트는 스피치 스트림에 대한 음성 프로파일(11)을 생성하고 이후 스테이지에서 요청될 때까지 이것을 타이밍 정보와 함께 지연 요소(12)에 저장하는 음성 프로파일러(10)로 보내진다. 스피치 스트림은 이것이 디지털 포맷으로 스피치 텍스트(14)로 변환될 때 스피치-텍스트 변환기(13)로 패싱된다. 스피치 추출기(7), 음성 프로파일러(10), 및 스피치-텍스트 변환기(13)는 디바이스들을 분리할 수 있으나, 단일 디바이스, 예를 들어 복합 스피치 인식 시스템으로서 보다 통상적으로 실현된다.
이후, 스피치 텍스트(14)는 번역된 스피치 텍스트(18)를 생성하기 위해 언어 데이터 베이스(17)에 의해 공급된 언어 정보(16)를 이용하는 번역기(15)로 보내진다.
번역된 스피치 텍스트(18)는, 번역된 스피치 텍스트(18)를 스피치 오디오 스트림(21)으로 합성하기 위해 지연된 음성 프로파일(20)을 이용하는 스피치 합성 모듈(19)로 보내진다.
지연 요소(22,23)는 비디오 스트림(6)과 번역된 스피치 오디오 스트림(21)상의 타이밍 차이를 보상하기 위해 이용된다. 지연된 비디오 스트림(21), 지연된 번역 스피치 오디오 스트림(25) 및 지연된 오디오 콘텐트(27)는, 3 개의 입력 스트림들(24, 25, 27)을 그들의 타이밍 정보에 따라 동기화하는 오디오/비디오 조합기(26)로 입력되고 오디오 스트림(27)의 원래의 스피치 콘텐트는 오버레잉되거나 번역된 오디오(25)에 의해 대체되고, 변경되지 않은 원래의 오디오 스트림(27)의 비-스피치 콘텐트는 남겨둔다(leaving). 오디오/비디오 조합기(26)의 출력은 인출되는 시청각 스트림으로 더빙된다.
도 2는 스피치 콘텐트가 인입하는 시청각 스트림(2)의 오디오 콘텐트(5)에서 식별되고, 디지털 포맷으로 스피치 텍스트(14)를 생성하는 도 1의 설명과 유사한 방식으로 처리되는 자동 더빙 시스템(1)을 도시한다. 그러나, 이 경우에, 스피치 콘텐트는 잔여 오디오 스트림(8)으로부터 전환된다.
그러나, 이 예에서, 오픈 캡션들을 시청각 출력 스트림(28)에 포함하기 위해 생성한다. 도 1에 도시된 바와 같이, 스피치 텍스트(14)는 번역기(15)로 보내지고, 언어 데이터 베이스로부터 얻어진 정보(16)를 이용하여, 스피치 텍스트(14)를 제 2 언어로 번역한다. 언어 데이터 베이스(17)는 적절한 접속을 통해 인터넷(37)으로부터 최신 언어 정보(36)를 다운로딩함으로써 업데이트될 수 있다.
번역된 스피치 텍스트(18)는 스피치 합성 모듈(19) 및 오픈-캡셔닝 모들(29)로 패싱되고, 원래의 스피치 텍스트(14) 및/또는 번역된 스피치 텍스트(18)는, 시청자가 한 선택에 따라, 오픈 캡션들을 표현하는데 적절한 포맷의 출력(30)으로 변환된다. 스피치 합성 모듈(19)은 음성 프로파일(11) 및 번역된 스피치 텍스트(18)를 이용하여 스피치 오디오(21)를 생성한다.
오디오 조합기(31)는 잔여 오디오 스트림(8)을 합성된 스피치 출력(21)과 조합하여 동기화된 오디오 출력(32)을 제공한다. 오디오/비디오 조합기(26)는, 출력 시청각 스트림(28)을 생성하는데 적절한 길이들로 3 개의 입력들(32, 6, 30)을 지연시키기 위해 버퍼들(33, 34, 35)을 이용함으로써 오디오 스트림(32), 비디오 스트림(6), 및 오픈 캡션들(30)을 동기화한다.
본 발명이 양호한 실시예들 및 그의 변화들의 형태로 개시되었지만, 본 발명의 범위에 벗어남 없이 수많은 부가적인 수정들 및 변화들이 만들어질 수 있음을 이해한다.
예를 들어, 번역 툴들 및 언어 데이터 베이스들은 인터넷으로부터 새로운 버전들을 다운로딩함으로써 원하는 것으로 업데이트하거나 대체할 수 있다. 이런 방법으로, 자동 더빙 시스템은 전자 번역에 있어서 현재 가장 발달된 것일 수 있고 새로운 버즈-워드들(buzz-words) 및 상품 이름들과 같은, 언어들 선택을 최신 자원들(developments)로 유지할 수 있다. 또한, 유명한 배우의 음성들에 대한 자동 스피치 인식을 위한 스피치 프로파일들 및/또는 스피커는 메모리에 저장되고, 예를 들어, 인터넷에서 다운로딩함으로써 업데이트될 수 있다. 미래의 기술이 시청각 스트림으로 인코딩되는 모션 영상 필름들에서 특징된 배우들에 대한 이러한 정보를 허용하면, 배우들을 위한 개별적인 스피커 모델이 자동 스피치 인식에 인가되고 정확한 스피치 프로파일들이 선택 언어의 배우들 음성들의 합성에 할당될 수 있다. 이후, 자동 더빙 시스템은 오로지 덜 유명한 배우들에 대한 프로파일을 생성한다.
더욱이, 시스템은 시청각 스트림의 스피치 콘텐트의 상이한 음성들간의 선택방법을 포함할 수 있다. 하나 이상의 언어를 특징화하는 필름들의 경우에, 사용자는 즐겨 사용하지 않는 잔여 언어들의 스피치 콘텐트를 남겨두고, 어느 언어들을 번역하고 더빙할지를 특정할 수 있다.
본 발명은 또한 강력한 학습 툴로서 사용될 수 있다. 예를 들어, 스피치-텍스트 변환기의 출력은 하나 이상의 번역기로 보내질 수 있어, 텍스트는 이용 가능한 언어 데이터 베이스들로부터 선택되어 하나 이상의 언어로 변환될 수 있다. 번역된 텍스트 스트림들은 여러 언어들의 스피치 콘텐트를 출력하기 위해 복수의 스피치 합성기들로 더 보내질 수 있다. 예를 들어, 헤드폰을 통해 여러 오디오 출력들에 대한 동기된 스피치 출력을 채널링하는 것은 여러 시청자들이 동일 프로그램을 볼 수 있게 하고, 각각의 시청자가 상이한 언어로 이것을 들을 수 있게 한다. 본 실시예는 다양한 언어들을 학생들에게 가르치는 언어 학원들과 다양한 민족들의 시청자들에게 제시된 시청각 정보가 있는 박물관들에서 특히 사용될 수 있다.
명료함을 위해, 명세서 전반의 '포함한다'는 다른 단계들 또는 요소들을 배제하지 않음을 이해한다.

Claims (12)

  1. 인입하는 시청각 스트림(2)상에 자동 더빙을 수행하는 시스템(1)으로서, 상기 시청각 스트림(2)의 스피치 콘텐트를 식별하는 수단(3, 7)과, 상기 스피치 콘텐트를 디지털 텍스트 포맷(14)으로 변환하는 스피치-텍스트 변환기(13)와, 상기 디지털 텍스트(14)를 다른 언어 또는 방언(dialect)으로 번역하는 번역 시스템(15)과, 상기 번역된 텍스트(18)를 스피치 출력(21)으로 합성하는 스피치 합성기(19)와, 상기 스피치 출력(21)을 인출하는 시청각 스트림(28)에 동기화하는 동기화 시스템(9, 12, 22, 23, 26, 31, 33, 34, 35)을 포함하는, 자동 더빙 수행 장치.
  2. 제 1 항에 있어서, 상기 스피치 콘텐트에 대한 음성 프로파일들(11)을 생성하고, 스피치 출력 합성을 위해 상기 적절한 음성 프로파일(11)을 상기 번역된 텍스트(14)에 할당하는 음성 프로파일러(10)를 포함하는, 자동 더빙 수행 장치.
  3. 제 1 항 또는 제 2 항에 있어서, 상기 시스템(1)은, 상기 오디오 및 비디오 콘텐트들(4, 5)을 나중에 동기화 하기 위해 이러한 콘텐트들에 타이밍 정보를 할당하기 위한 시간 데이터(4)의 소스를 포함하는, 자동 더빙 수행 장치.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 번역 시스템(15)은 복수의 상이한 언어들 및/또는 방언들을 갖는 언어 데이터 베이스(17)와, 상기 디지털 텍스트(14)가 번역되는 언어 또는 방언을 이 데이터 베이스(17)로부터 선택하는 수단을 포함하는, 자동 더빙 수행 장치.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 시스템(1)은, 상기 디지털 텍스트(14) 및/또는 상기 번역된 디지털 텍스트(18)를 이용하여 오픈 캡션들(30)을 생성하고, 인출하는 시청각 스트림(28)에 포함시키기 위한 오픈-캡션 생성기(29)를 포함하는, 자동 더빙 수행 장치.
  6. 제 1 항 내지 제 5 항에 따른 시스템(1)을 포함하는 시청각 디바이스.
  7. 인입하는 시청각 스트림(2)의 자동 더빙을 위한 방법으로서, 상기 시청각 스트림(2)내 스피치 콘텐트를 식별하는 단계와, 상기 스피치 콘텐트를 디지털 텍스트 포맷(14)으로 변환하는 단계와, 상기 디지털 텍스트(14)를 다른 언어 또는 방언으로 번역하는 단계와, 상기 번역된 텍스트(18)를 스피치 출력(21)으로 변환하는 단계와, 상기 스피치 출력(21)을 인출하는 시청각 스트림(28)에 동기화하는 단계를 포함하는, 자동 더빙 방법.
  8. 제 7 항에 있어서, 상기 스피치 콘텐트에 대한 음성 프로파일들(11)이 생성되고, 상기 스피치 출력(21)의 합성내 적절한 상기 번역된 텍스트(18)에 할당되는, 자동 더빙 방법.
  9. 제 7 항 또는 제 8 항에 있어서, 상기 스피치 콘텐트의 사본은 상기 시청각 스트림(2) 또는 상기 시청각 스트림(2)의 오디오 콘텐트로부터 전환(diverted)되는, 자동 더빙 방법.
  10. 제 7 항 또는 제 8 항에 있어서, 상기 시청각 스트림(2)의 상기 스피치 콘텐트는 잔여 시청각 스트림 또는 상기 시청각 스트림(2)의 잔여 오디오 콘텐트로부터 분리되는, 자동 더빙 방법.
  11. 제 7 항 내지 제 10 항 중 어느 한 항에 있어서, 오디오/비디오 조합기(26)는 상기 스피치 출력(21)을 상기 원래의 스피치 콘텐트에 대신하여 인출하는 시청각 스트림(28)에 삽입하는, 자동 더빙 방법.
  12. 제 7 항 내지 제 11 항 중 어느 한 항에 있어서, 오디오/비디오 조합기(26)는 상기 스피치 출력(21)을 상기 인출하는 시청각 스트림(28)내에 오버레잉하는, 자동 더빙 방법.
KR1020057019450A 2003-04-14 2004-04-02 시청각 스트림상에 자동 더빙을 수행하는 시스템 및 방법 KR20050118733A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03101004 2003-04-14
EP03101004.4 2003-04-14

Publications (1)

Publication Number Publication Date
KR20050118733A true KR20050118733A (ko) 2005-12-19

Family

ID=33155247

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057019450A KR20050118733A (ko) 2003-04-14 2004-04-02 시청각 스트림상에 자동 더빙을 수행하는 시스템 및 방법

Country Status (6)

Country Link
US (1) US20060285654A1 (ko)
EP (1) EP1616272A1 (ko)
JP (1) JP2006524856A (ko)
KR (1) KR20050118733A (ko)
CN (1) CN1774715A (ko)
WO (1) WO2004090746A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101961750B1 (ko) * 2017-10-11 2019-03-25 (주)아이디어콘서트 단일 화면에서의 자막데이터 편집 시스템
KR102440890B1 (ko) * 2021-03-05 2022-09-06 주식회사 한글과컴퓨터 제1 언어의 음성으로 더빙된 동영상을 제2 언어의 음성으로 자동 더빙하는 동영상 자동 더빙 장치 및 그 동작 방법
KR102546559B1 (ko) * 2022-03-14 2023-06-26 주식회사 엘젠 영상 콘텐츠 자동 번역 더빙 시스템

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE426988T1 (de) * 2004-05-13 2009-04-15 Qualcomm Inc Kopffeldkompression von multimedialen daten ubertragen uber ein drahtloses kommunikationssystem
CN100536532C (zh) * 2005-05-23 2009-09-02 北京大学 自动加配字幕的方法和系统
US20080195386A1 (en) * 2005-05-31 2008-08-14 Koninklijke Philips Electronics, N.V. Method and a Device For Performing an Automatic Dubbing on a Multimedia Signal
KR20060127459A (ko) * 2005-06-07 2006-12-13 엘지전자 주식회사 디지털방송 콘텐츠 변환 기능을 갖는 디지털방송용 단말기및 그 방법
US20060293890A1 (en) * 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US8249873B2 (en) 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US20070050188A1 (en) * 2005-08-26 2007-03-01 Avaya Technology Corp. Tone contour transformation of speech
CN100396091C (zh) * 2006-04-03 2008-06-18 北京和声创景音频技术有限公司 影视剧配音系统及其配音制作方法
CN1932976B (zh) * 2006-09-18 2010-06-23 北京北大方正电子有限公司 一种实现视音频处理中字幕与语音同步的方法和系统
JP4271224B2 (ja) * 2006-09-27 2009-06-03 株式会社東芝 音声翻訳装置、音声翻訳方法、音声翻訳プログラムおよびシステム
JP2009189797A (ja) * 2008-02-13 2009-08-27 Aruze Gaming America Inc ゲーミングマシン
WO2010066083A1 (zh) * 2008-12-12 2010-06-17 中兴通讯股份有限公司 实现多媒体广播节目语音合成的系统、方法及移动终端
US20110020774A1 (en) * 2009-07-24 2011-01-27 Echostar Technologies L.L.C. Systems and methods for facilitating foreign language instruction
US20110246172A1 (en) * 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
WO2011158010A1 (en) * 2010-06-15 2011-12-22 Jonathan Edward Bishop Assisting human interaction
US20120105719A1 (en) * 2010-10-29 2012-05-03 Lsi Corporation Speech substitution of a real-time multimedia presentation
CN102479178A (zh) * 2010-11-29 2012-05-30 英业达股份有限公司 地方方言翻译方法
US8874429B1 (en) * 2012-05-18 2014-10-28 Amazon Technologies, Inc. Delay in video for language translation
JP2014011676A (ja) * 2012-06-29 2014-01-20 Casio Comput Co Ltd コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム
WO2014018652A2 (en) 2012-07-24 2014-01-30 Adam Polak Media synchronization
CN103853704A (zh) * 2012-11-28 2014-06-11 上海能感物联网有限公司 计算机外语有声影像资料自动加注中外文字幕的方法
CN103117825A (zh) * 2012-12-31 2013-05-22 广东欧珀移动通信有限公司 一种移动终端方言播报方法及装置
US9552807B2 (en) * 2013-03-11 2017-01-24 Video Dubber Ltd. Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
KR101493006B1 (ko) * 2013-03-21 2015-02-13 디노플러스 (주) 멀티미디어 콘텐츠 편집장치 및 그 방법
CN104252861B (zh) * 2014-09-11 2018-04-13 百度在线网络技术(北京)有限公司 视频语音转换方法、装置和服务器
CN104505091B (zh) * 2014-12-26 2018-08-21 湖南华凯文化创意股份有限公司 人机语音交互方法及系统
CN105227966A (zh) * 2015-09-29 2016-01-06 深圳Tcl新技术有限公司 电视播放控制方法、服务器及电视播放控制系统
CN106356065A (zh) * 2016-10-31 2017-01-25 努比亚技术有限公司 一种移动终端及语音转换方法
CN108780643B (zh) * 2016-11-21 2023-08-25 微软技术许可有限责任公司 自动配音方法和装置
CN106791913A (zh) * 2016-12-30 2017-05-31 深圳市九洲电器有限公司 数字电视节目同声翻译输出方法及系统
US11056104B2 (en) * 2017-05-26 2021-07-06 International Business Machines Corporation Closed captioning through language detection
CN107172449A (zh) * 2017-06-19 2017-09-15 微鲸科技有限公司 多媒体播放方法、装置及多媒体存储方法
CN107333071A (zh) * 2017-06-30 2017-11-07 北京金山安全软件有限公司 视频处理方法、装置、电子设备及存储介质
US10861463B2 (en) * 2018-01-09 2020-12-08 Sennheiser Electronic Gmbh & Co. Kg Method for speech processing and speech processing device
US10657972B2 (en) * 2018-02-02 2020-05-19 Max T. Hall Method of translating and synthesizing a foreign language
CN108566558B (zh) 2018-04-24 2023-02-28 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
CN108401192B (zh) * 2018-04-25 2022-02-22 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
CN108744521A (zh) * 2018-06-28 2018-11-06 网易(杭州)网络有限公司 游戏语音生成的方法及装置、电子设备、存储介质
US11847425B2 (en) 2018-08-01 2023-12-19 Disney Enterprises, Inc. Machine translation system for entertainment and media
CN109119063B (zh) * 2018-08-31 2019-11-22 腾讯科技(深圳)有限公司 视频配音生成方法、装置、设备及存储介质
US10783928B2 (en) 2018-09-20 2020-09-22 Autochartis Limited Automated video generation from financial market analysis
CN109688367A (zh) * 2018-12-31 2019-04-26 深圳爱为移动科技有限公司 多终端多语言实时视频群聊的方法和系统
CN109688363A (zh) * 2018-12-31 2019-04-26 深圳爱为移动科技有限公司 多终端多语言实时视频群内私聊的方法及系统
US11159597B2 (en) * 2019-02-01 2021-10-26 Vidubly Ltd Systems and methods for artificial dubbing
US11942093B2 (en) * 2019-03-06 2024-03-26 Syncwords Llc System and method for simultaneous multilingual dubbing of video-audio programs
US11202131B2 (en) 2019-03-10 2021-12-14 Vidubly Ltd Maintaining original volume changes of a character in revoiced media stream
US11094311B2 (en) * 2019-05-14 2021-08-17 Sony Corporation Speech synthesizing devices and methods for mimicking voices of public figures
US11141669B2 (en) 2019-06-05 2021-10-12 Sony Corporation Speech synthesizing dolls for mimicking voices of parents and guardians of children
US11087738B2 (en) * 2019-06-11 2021-08-10 Lucasfilm Entertainment Company Ltd. LLC System and method for music and effects sound mix creation in audio soundtrack versioning
CN110769167A (zh) * 2019-10-30 2020-02-07 合肥名阳信息技术有限公司 一种基于文字转语音技术进行视频配音的方法
US11302323B2 (en) * 2019-11-21 2022-04-12 International Business Machines Corporation Voice response delivery with acceptable interference and attention
US11545134B1 (en) * 2019-12-10 2023-01-03 Amazon Technologies, Inc. Multilingual speech translation with adaptive speech synthesis and adaptive physiognomy
US11594226B2 (en) * 2020-12-22 2023-02-28 International Business Machines Corporation Automatic synthesis of translated speech using speaker-specific phonemes
CN114245224A (zh) * 2021-11-19 2022-03-25 广州坚和网络科技有限公司 一种基于用户输入文本的配音视频生成方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2713800B1 (fr) * 1993-12-15 1996-03-15 Jean Gachot Procédé et dispositif pour transformer un premier message vocal dans une première langue, en un second message vocal prononcé dans une seconde langue prédéterminée.
JPH10136327A (ja) * 1996-10-25 1998-05-22 Meidensha Corp ディスクトップ会議システム
JP2000358202A (ja) * 1999-06-16 2000-12-26 Toshiba Corp 映像音声記録再生装置および同装置の副音声データ生成記録方法
JP2002007396A (ja) * 2000-06-21 2002-01-11 Nippon Hoso Kyokai <Nhk> 音声多言語化装置および音声を多言語化するプログラムを記録した媒体
US6778252B2 (en) * 2000-12-22 2004-08-17 Film Language Film language
DE10117367B4 (de) * 2001-04-06 2005-08-18 Siemens Ag Verfahren und System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101961750B1 (ko) * 2017-10-11 2019-03-25 (주)아이디어콘서트 단일 화면에서의 자막데이터 편집 시스템
WO2019074145A1 (ko) * 2017-10-11 2019-04-18 (주)아이디어 콘서트 단일 화면에서의 자막데이터 편집 시스템 및 그 방법
KR102440890B1 (ko) * 2021-03-05 2022-09-06 주식회사 한글과컴퓨터 제1 언어의 음성으로 더빙된 동영상을 제2 언어의 음성으로 자동 더빙하는 동영상 자동 더빙 장치 및 그 동작 방법
KR102546559B1 (ko) * 2022-03-14 2023-06-26 주식회사 엘젠 영상 콘텐츠 자동 번역 더빙 시스템

Also Published As

Publication number Publication date
US20060285654A1 (en) 2006-12-21
EP1616272A1 (en) 2006-01-18
JP2006524856A (ja) 2006-11-02
CN1774715A (zh) 2006-05-17
WO2004090746A1 (en) 2004-10-21

Similar Documents

Publication Publication Date Title
KR20050118733A (ko) 시청각 스트림상에 자동 더빙을 수행하는 시스템 및 방법
EP2356654B1 (en) Method and process for text-based assistive program descriptions for television
US5677739A (en) System and method for providing described television services
US5900908A (en) System and method for providing described television services
TWI470588B (zh) 用於對失聰者將口語轉譯成手語的系統
US20120105719A1 (en) Speech substitution of a real-time multimedia presentation
US20080195386A1 (en) Method and a Device For Performing an Automatic Dubbing on a Multimedia Signal
KR20040039432A (ko) 다중 언어 필사 시스템
JP2005064600A (ja) 情報処理装置、情報処理方法、およびプログラム
CN102055941A (zh) 视频播放器及视频播放方法
KR20150021258A (ko) 디스플레이장치 및 그 제어방법
JP2010136067A (ja) データ処理装置、データ処理方法、及び、プログラム
JP4594908B2 (ja) 解説付加音声生成装置及び解説付加音声生成プログラム
JP2002374494A (ja) ビデオコンテンツファイル生成システムおよびビデオコンテンツファイル検索方法。
JP2007324872A (ja) 字幕付き映像信号の遅延制御装置及び遅延制御プログラム
JP2018045256A (ja) 字幕制作装置および字幕制作方法
Trmal et al. Online TV captioning of Czech parliamentary sessions
JP2004229706A (ja) 演劇通訳システム、演劇通訳装置
KR102440890B1 (ko) 제1 언어의 음성으로 더빙된 동영상을 제2 언어의 음성으로 자동 더빙하는 동영상 자동 더빙 장치 및 그 동작 방법
JP6647512B1 (ja) 番組制作装置、番組制作方法及びプログラム
JP2005341072A (ja) 翻訳テレビジョン装置
JP2002300434A (ja) 番組送出システム及びこれに用いる番組送出装置
JPH05176232A (ja) 字幕重畳装置
JP2000358202A (ja) 映像音声記録再生装置および同装置の副音声データ生成記録方法
KR100548604B1 (ko) 어학 학습 기능을 갖는 영상표시기기 및 그 학습방법

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid