KR100236974B1 - 동화상과 텍스트/음성변환기 간의 동기화 시스템 - Google Patents

동화상과 텍스트/음성변환기 간의 동기화 시스템 Download PDF

Info

Publication number
KR100236974B1
KR100236974B1 KR1019960065445A KR19960065445A KR100236974B1 KR 100236974 B1 KR100236974 B1 KR 100236974B1 KR 1019960065445 A KR1019960065445 A KR 1019960065445A KR 19960065445 A KR19960065445 A KR 19960065445A KR 100236974 B1 KR100236974 B1 KR 100236974B1
Authority
KR
South Korea
Prior art keywords
information
lip
text
synchronization
rhyme
Prior art date
Application number
KR1019960065445A
Other languages
English (en)
Other versions
KR19980047008A (ko
Inventor
양재우
이정철
한민수
Original Assignee
정선종
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 정선종, 한국전자통신연구원 filed Critical 정선종
Priority to KR1019960065445A priority Critical patent/KR100236974B1/ko
Priority to JP29427897A priority patent/JP3599538B2/ja
Priority to US08/970,224 priority patent/US5970459A/en
Priority to DE1997153453 priority patent/DE19753453B4/de
Publication of KR19980047008A publication Critical patent/KR19980047008A/ko
Application granted granted Critical
Publication of KR100236974B1 publication Critical patent/KR100236974B1/ko
Priority to US10/038,153 priority patent/USRE42000E1/en

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/02Analogue recording or reproducing
    • G11B20/04Direct recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • G06F16/4393Multimedia presentations, e.g. slide shows, multimedia albums

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
동화상과 텍스트/음성변화기 간의 동기화 시스템
2. 발명이 해결하고자 하는 기술적 과제
TTS방식을 이용하여 동영상에 더빙을 하고자 할 때나 에니메이션과 같은 매체와 합성음 간의 동기활르 구현하기 위해 필요한 정보는 텍스트로부터 추정하기 불가능하므로, 텍스트 정보만으로 움직이는 영상신호와 자연스럽게 연동되는 합성음을 만들어내는 데는 많은 어려움이 따른다.
3. 발명의 해결 방법의 요지
동영상과 음성 신호간의 동기화를 구현할 수 있도록 입술의 움직임 시각과 지속시간 정보를 이용하여 합성음 생성함으로써 영상 신호의 움직임에 따라 정보와 텍스트/음성변환기간의 동기화 방법을 제공한다.
4. 발명의 중요한 용도
동기화 시스템

Description

동화상과 텍스트/음성변환기 간의 동기화 시스템
본 발명은 동영상에 음성신호를 부가하는 더빙 방법에 있어서 영상신호의 입술 움직임에 따른 정보와 텍스트/음성변환기 (text-to-speech conversion system, 이하 TTS라 한다)의 동기화 방법에 관한 것이다.
일반적으로 음성합성기의 기능은 컴퓨터가 사용자인 인간에게 다양한 형태의 정보를 음성으로 제공하는데 있다. 이를 위해서 음성합성기는 사용자에게 주어진 텍스트로부터 고품질의 음성 합성 서비스를 제공할 수 있어야 한다. 뿐만 아니라 다중매체 환경에서 제작된 데이타 베이스나 대화 상대로부터 제공되는 다양한 미디어와 연동되기 위해서는 이들 미디어와 동기화 되도록 합성음을 생성할 수 있어야 한다. 특히 동화상과 TTS와의 동기화는 사용자에게 고품질의 서비스를 제공하기 위해 필수적이다.
도1은 종래의 합성기를 설명하기 위한 도면으로 입력된 텍스트로부터 합성음을 생성하기까지 일반적으로 3단계의 과정을 거치게 된다.
먼저, 1단계인 언어 처리부(1)에서는 텍스트를 음소열로 변환하고, 운율 정보를 추정하여 이를 심볼화 한다. 운율 정보의 심볼은 구문구조 분석결과를 이용한 구.절 경계, 단어내 엑센트 위치, 문형 등으로부터 추정된다. 2단계인 운율 처리부(2)는 심볼화된 운율 정보로부터 규칙 및 테이블을 이용하여 운율 제어 파라미터의 값을 계산한다. 운율 제어 파라미터로는 음소의 지속시간, 피치 윤곽(contour), 에너지 윤곽, 쉼 구간 정보가 있다. 3단계인 신호처리부(3)는 합성 단위 DB(4)와 운율 제어 파라미터를 이용하여 합성음을 생성한다. 즉 기존의 합성기는 언어 처리부(1)와 운율 처리부(2)에서 자연성, 발성 속도와 관련된 정보를 단지 입력 텍스트 만으로 추정을 해야 함을 의미한다.
현재 TTS에 대한 연구가 세계 여러 나라에서 자국어를 대상으로 많이 진행되어 일부 상용화가 이루어졌다. 그러나 종래의 합성기는 입력된 텍스트로부터 음성을 합성하는 용도로만 고려되고 있어, 다중매체와의 연동을 고려한 합성방식에 대한 연구결과는 거의 전무하다고 볼수 있다. 또한 종래의 TTS 방식을 이용하여 동영상에 더빙을 하고자 할 때나, 에니메이션과 같은 매체와 합성음 간의 동기화를 구현하기 위해서 필요한 정보는 텍스트로부터 추정하기는 불가능하다. 그러므로 텍스트 정보만으로 움직이는 영상신호와 자연스럽게 연동이 되는 합성음을 만들어 내는데는 아직 많은 어려움이 있다. 따라서 동영상과 음성신호간의 동기화를 구현할 수 있는 방법은 입술의 움직임 시각과 지속시간 정보를 이용하여 합성음을 생성함으로써 실현할 수 있을 것이다.
동화상과 합성음의 동기화를 더빙의 개념으로 살펴본다면 그 구현 방식이 3가지가 있다. 첫째로는 문장단위로 동화상과 합성음을 동기화 시키는 방법으로서 문장의 시작점과 끝점 정보를 이용하여 합성음의 지속시간을 조절한다. 이 방법은 구현이 쉽고 부가적 노력이 최소화되는 장점이 있지만, 자연스러운 동기화와는 거리가 멀다. 두번째 방법으로는 동영상에서 음성신호와 관련된 구간에서는 매 음소마다 시작점, 끝점 정보와 음소 정보를 표기하여 이 정보를 합성음 생성에 이용하는 방법이다. 이 방법은 음소단위로 동화상과 합성음의 동기를 맞출 수 있으므로 정확도가 높은 장점이 있지만 동화상의 음성구간에서 음소단위로 지속시간 정보를 검출하여 기록하기 위한 부가적 노력이 아주 많은 단점이 있다. 세번째 방법으로는 음성의 시작점, 끝점, 입술 열림, 닫힘 그리고 내밈 등과 같은 입술 움직임의 변별적 특성이 높은 패턴을 기준으로 하여 동기화 정보를 기록하는 방법이다. 이 방법은 동기화를 위한 정보 제작의 부가적 노력을 최소화하면서 동기화 효율을 높이는 방법이다.
본 발명은 텍스트/음성변환기에서 텍스트 이외에 동영상에서의 연속적인 입술의 움직임을 이벤트(event) 단위로 정형화, 정규화하는 방법과 이들 정보와 TTS간의 인터페이스를 정의하여 합성음 생성에 사용함으로써 동영상과 합성음간의 동기화 시스템을 제공하는 것을 그 목적으로 한다.
상기의 목적을 달성하기 위해서, 다중매체 입력정보를 입력받아 각각의 데이터 구조로 변환하여 매체별로 분배하는 분배수단; 상기 분배수단의 다중 매체 정보 중에서 영상 정보를 전달받는 영상 출력 수단; 상기 분배수단의 다중매체 정보 중에서 언어 텍스트를 전달받는 언어처리수단; 상기 언어 처리수단으로부터 상기 분배수단에서 전달받은 텍스트를 음소열로 변환하고, 운율 정보를 추정하여 이를 심볼화하여 전달하는 운율 처리수단; 상기 운율 처리수단으로부터 처리 결과를 받아서 상기 분배수단의 다중매체 정보 중에서 동기화 정보를 이용하여 영상신호와의 동기를 맞추기 위하여 음소별 지속시간을 조정하여 상기 운율 처리수단의 결과에 포함시켜 전달하는 동기조정수단; 상기 동기 조정수단의 처리결과를 받아서 합성음을 생성하여 출력하는 신호 처리수단; 및 상기 신호처리수단의 요구에 의해 합성에 필요한 합성 단위들을 선정한 뒤 필요한 데이터를 전송하는 합성 단위 데이터베이스블럭을 구비하는 것을 특징으로 한다.
도1은 종래의 텍스트/음성변환기의 블록구성도,
도2는 본 발명이 적용되는 동기화 장치의 블록구성도,
도3은 본 발명의 한국어 텍스트/음성변환기 간의 동기화 방법을 나타낸 상세 블록 구성도.
* 도면의 주요부분에 대한 부호의 설명
1 : 언어 처리부2 : 운율 처리부
3 : 신호 처리부4 : 합성 단위 DB
5 : 데이타 입력 장치6 : 중앙 처리 장치
7 : 합성 데이타 베이스8 : D/A 변환 장치
9 : 영상 출력 장치 10 : 다중 매체정보 입력부
11: 다중 매체 분배기12 : 언어 처리부
13 : 운율 처리부14 : 동기 조정기
15: 신호 처리부16 : 합성 단위 DB
17: 영상 출력 장치
이하, 본 발명을 첨부된 도면 2도이하를 참고로하여 상세히 설명한다.
도2는 본 발명이 적용되는 하드웨어 구성도로서, 도면에서 5는 다중 데이타 입력 장치, 6은 중앙 처리 장치, 7은 합성 데이타베이스, 8은 디지탈/아날로그 (D/A) 변환 장치, 9는 영상 출력 장치를 각각 나타낸다.
다중 데이타 입력 장치(5)는 영상, 텍스트 등의 다중 매체로 구성된 데이타를 입력받아 중앙 처리 장치(6)로 출력한다.
중앙 처리 장치(6)에 본 발명의 알고리즘이 탑재되어 있다.
합성 데이타베이스(7)는 합성 알고리즘에 사용되는 합성DB로서 기억장치에 저장되어 있으며 상기 중앙 처리 장치(6)로 필요한 데이타를 전송한다.
디지탈/아날로그 변환장치(8)는 합성이 끝난 디지탈 데이타를 아날로그 신호로 변환하여 외부로 출력한다.
영상 출력 장치(9)는 입력된 영상정보를 화면에 출력한다.
아래 〈표1〉은 본 발명에 적용되는 구조화된 다중 매체 입력 정보의 일예를 나타낸 것으로, 텍스트, 동화상, 입술모양, 동화상내 위치 정보, 지속시간 정보로 이루어져 있다. 입술모양은 아래 입술의 내림 정도, 윗 입술 왼쪽 끝점에서의 오르내림, 윗 입술 오른쪽 끝점에서의 오르내림, 아래 입술 왼쪽 끝점에서의 오르내림, 아래 입술 오른쪽 끝점에서의 오르내림, 윗 입술 가운데 부분의 오르내림, 아래 입술 가운데 부분의 오르내림, 윗 입술의 내밈 정도, 아래 입술의 내밈 정도, 입술 중앙에서 오른쪽 끝점간의 거리, 입술 중앙에서 왼쪽 끝점까지의 거리로 수치화할 수도 있으며, 음소의 조음위치, 조음방법에 따라 입술 모양을 정량화, 정규화된 패턴으로 정의할 수 있다. 위치정보로는 동영상의 장면 위치로 정의되며 지속시간은 동일 입술 모양이 지속되는 장면 수로 정의된다.
〈표1〉 동기화 정보의 구성예
입력정보 변 수 변수값
텍 스 트 문장 단위
동 화 상 장면 단위
동기화정보 입술 모양 아래입술의 내림 정도, 윗 입술 왼쪽 끝점에서의 오르내림, 윗 입술 오른쪽 끝점에서의 오르내림, 아래 입술 왼쪽 끝점에서의 오르내림, 아래 입술 오른쪽 끝점에서의 오르내림, 윗 입술 가운데 부분의 오르내림, 아래 입술 가운데 부분의 오르내림, 윗 입술의 내밈 정도, 아래 입술의 내밈 정도, 입술 중앙에서 오른쪽 끝점간의 거리, 입술 중앙에서 왼쪽 끝점까지의 거리
위치 정보 동영상의 장면위치
지속 시간 연속 장면수
도3은 본 발명에 따른 한국어 텍스트/음성변환기간의 동기화 시스템 구성도로서, 도면에서 10은 다중 매체 정보 입력부, 11은 다중 매체 분배기, 12는 표준화된 언어 처리부, 13은 운율 처리부, 14는 동기 조정기, 15는 신호처리부, 16은 합성 단위 데이타베이스, 17은 영상 출력 장치를 각각 나타낸다.
먼저, 다중 매체 정보 입력부(10)의 다중매체 정보는 상기한 〈표1〉에 나타낸 형식으로 되어 있는데 텍스트, 동화상, 입술모양, 동화상내 위치 정보, 지속시간 정보로 이루어져 있다.
그리고, 다중 매체 분배기(11)는 상기 다중매체정보 입력부(10)로부터 전달받은 다중 매체 정보 중에서 영상 정보는 영상 출력 장치(17)로 전달하고, 텍스트는 언어처리부(12)로 전달하며, 동기화 정보는 동기 조정기(14) 에서 사용할 수 있는 데이타 구조로 변환하여 전달한다.
언어 처리부(12)는 상기 다중매체 분배기(11)에서 전달받은 텍스트를 음소열로 변환하고, 운율 정보를 추정하여 이를 심볼화 한 뒤 운율 처리부(13)에 보낸다. 여기서, 운율 정보의 심볼은 구문구조 분석결과를 이용한 구.절 경계, 단어내 엑센트 위치, 문형 등으로부터 추정된다.
운율 처리부(13)는 상기 언어 처리부(12)의 처리 결과를 받아서 운율 제어 파라미터의 값을 계산한다. 운율 제어 파라미터로는 음소의 지속시간, 피치 윤곽, 에너지 윤곽, 쉼 위치 및 길이가 있다. 그리고, 여기서 계산된 결과는 동기 조정기(15)로 전달된다.
동기 조정기(14)는 상기 운율 처리부(13)의 처리 결과를 받아서 영상신호와의 동기를 맞추기 위해 상기 매체별 데이타 분배기(11)에서 보내온 동기화 정보를 이용하여 음소별 지속시간을 조정한다. 여기서 상기 음소별 지속시간의 조정은 먼저 각 음소별 조음장소, 조음방법에 따라 입술모양을 각 음소에 할당하고 이를 토대로 동기화 정보에 있는 입술모양과 비교하여 음소열을 동기화 정보에 기록된 입술모양 갯수만큼 소 그룹으로 분리한다. 그리고 소 그룹내의 음소 지속시간은 동기화 정보에 포함되어 있는 입술모양의 지속시간 정보를 이용하여 다시 계산한다. 조정된 지속시간 정보는 상기 운율 처리부(13)의 결과에 포함시켜 신호처리부(15)로 전달한다.
신호처리부(15)는 상기 동기 조정기(14)의 처리결과를 받아서 합성 단위 DB(16)를 이용하여 합성음을 생성하여 출력한다.
합성 단위 DB(16)는 신호처리부(15)의 요구를 받아서 합성에 필요한 합성 단위들을 선정한 뒤 신호처리부(15)에 필요한 데이타를 전송한다.
상기와 같이 동작하는 본 발명은 실제 음성데이타와 동영상의 입술모양을 분석하여 추정된 입술모양 정보와 텍스트 정보를 합성음 생성에 직접 이용하는 방식을 통해 합성음과 동영상과의 동기화를 구현함으로써 외화등에 한국어 더빙을 가능하게 하고, 다중 매체 환경에서 영상정보와 TTS의 동기화를 가능하게 함으로써 통신 서비스, 사무 자동화, 교육 등의 여러 분야에 응용할 수 있는 효과가 있다.

Claims (4)

  1. 다중매체 입력정보를 입력받아 각각의 데이터 구조로 변환하여 매체별로 분배하는 분배수단(11);
    상기 분배수단(11)의 다중 매체 정보 중에서 영상 정보를 전달받는 영상 출력 수단(17);
    상기 분배수단(11)의 다중매체 정보 중에서 언어 텍스트를 전달받는 언어처리수단(12);
    상기 언어 처리수단(12)으로부터 상기 분배수단(11)에서 전달받은 텍스트를 음소열로 변환하고, 운율 정보를 추정하여 이를 심볼화하여 전달하는 운율 처리수단(13);
    상기 운율 처리수단(13)으로부터 처리 결과를 받아서 상기 분배수단(11)의 다중매체 정보 중에서 동기화 정보를 이용하여 영상신호와의 동기를 맞추기 위하여 음소별 지속시간을 조정하여 상기 운율 처리수단(13)의 결과에 포함시켜 전달하는 동기조정수단(14);
    상기 동기 조정수단(14)의 처리결과를 받아서 합성음을 생성하여 출력하는 신호 처리수단(15);및
    상기 신호처리수단(15)의 요구에 의해 합성에 필요한 합성 단위들을 선정한 뒤 필요한 데이터를 전송하는 합성 단위 데이터베이스블럭(16)을 구비하는 것을 특징으로 하는 동화상과 텍스트/음성변환기 간의 동기화 시스템.
  2. 제1항에 있어서,
    상기 다중매체 정보는,
    텍스트, 동영상 정보와 동기화 정보로 구성하되, 동기화 정보를 텍스트, 입술모양정보, 동화상내 위치 정보, 지속시간 정보로 구성하도록 하는 것을 특징으로 하는 동화상과 텍스트/음성변환기 간의 동기화 시스템.
  3. 제2항에 있어서,
    상기 입술모양정보는,
    아래 입술의 내림 정도, 윗 입술 왼쪽 끝점에서의 오르내림, 윗 입술 오른쪽 끝점에서의 오르내림, 아래 입술 왼쪽 끝점에서의 오르내림, 아래 입술 오른쪽 끝점에서의 오르내림, 윗 입술 가운데 부분의 오르내림, 아래 입술 가운데 부분의 오르내림, 윗 입술의 내밈 정도, 아래 입술의 내밈 정도, 입술 중앙에서 오른쪽 끝점간의 거리, 입술 중앙에서 왼쪽 끝점까지의 거리로 수치화하거나 음소의 조음위치, 조음방법에 따라 정량화, 정규화된 패턴으로 정의하여 이용하도록 한 것을 특징으로 하는 동화상과 텍스트/음성변환기 간의 동기화 시스템.
  4. 제1항에 있어서,
    상기 동기조정수단(14)은,
    동기 정보를 이용하여 텍스트내 음소의 조음방법, 조음점을 고려한 예측 입술모양과 동기정보내의 입술모양 및 지속시간에 따라 텍스트내 음소의 지속시간을 계산함으로써 동화상과 동기를 맞추도록 한 것을 특징으로 하는 동화상과 텍스트/음성변환기 간의 동기화 시스템.
KR1019960065445A 1996-12-13 1996-12-13 동화상과 텍스트/음성변환기 간의 동기화 시스템 KR100236974B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1019960065445A KR100236974B1 (ko) 1996-12-13 1996-12-13 동화상과 텍스트/음성변환기 간의 동기화 시스템
JP29427897A JP3599538B2 (ja) 1996-12-13 1997-10-27 動画像とテキスト/音声変換器間の同期化システム
US08/970,224 US5970459A (en) 1996-12-13 1997-11-14 System for synchronization between moving picture and a text-to-speech converter
DE1997153453 DE19753453B4 (de) 1996-12-13 1997-12-02 System zum Synchronisieren eines Films mit einem Text/Sprache-Umsetzer
US10/038,153 USRE42000E1 (en) 1996-12-13 2001-10-19 System for synchronization between moving picture and a text-to-speech converter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960065445A KR100236974B1 (ko) 1996-12-13 1996-12-13 동화상과 텍스트/음성변환기 간의 동기화 시스템

Publications (2)

Publication Number Publication Date
KR19980047008A KR19980047008A (ko) 1998-09-15
KR100236974B1 true KR100236974B1 (ko) 2000-02-01

Family

ID=19487716

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960065445A KR100236974B1 (ko) 1996-12-13 1996-12-13 동화상과 텍스트/음성변환기 간의 동기화 시스템

Country Status (4)

Country Link
US (2) US5970459A (ko)
JP (1) JP3599538B2 (ko)
KR (1) KR100236974B1 (ko)
DE (1) DE19753453B4 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10885943B1 (en) 2019-11-18 2021-01-05 Artificial Intelligence Research Institute Multimedia authoring apparatus with synchronized motion and voice feature and method for the same

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100240637B1 (ko) * 1997-05-08 2000-01-15 정선종 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
US6567779B1 (en) * 1997-08-05 2003-05-20 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
US7366670B1 (en) * 1997-08-05 2008-04-29 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
US7076426B1 (en) * 1998-01-30 2006-07-11 At&T Corp. Advance TTS for facial animation
US6539354B1 (en) 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation
US6975988B1 (en) 2000-11-10 2005-12-13 Adam Roth Electronic mail method and system using associated audio and visual techniques
MXPA03010751A (es) * 2001-05-25 2005-03-07 Dolby Lab Licensing Corp Segmentacion de senales de audio en eventos auditivos.
US20020198716A1 (en) * 2001-06-25 2002-12-26 Kurt Zimmerman System and method of improved communication
CA2393014A1 (en) * 2001-07-11 2003-01-11 Genlyte Thomas Group Llc Switch/power drop unit for modular wiring system
US7694325B2 (en) * 2002-01-31 2010-04-06 Innovative Electronic Designs, Llc Information broadcasting system
JP4127668B2 (ja) * 2003-08-15 2008-07-30 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
KR100678938B1 (ko) * 2004-08-28 2007-02-07 삼성전자주식회사 영상과 자막의 동기화 조절 장치 및 방법
KR100710600B1 (ko) * 2005-01-25 2007-04-24 우종식 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치
FR2899714B1 (fr) 2006-04-11 2008-07-04 Chinkel Sa Systeme de doublage de film.
CN101359473A (zh) 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
DE102007039603A1 (de) * 2007-08-22 2009-02-26 Siemens Ag Verfahren zum Synchronisieren von medialen Datenströmen
US8451907B2 (en) 2008-09-02 2013-05-28 At&T Intellectual Property I, L.P. Methods and apparatus to detect transport faults in media presentation systems
FR2969361A1 (fr) * 2010-12-16 2012-06-22 France Telecom Enrichissement du contenu audio d'un programme audiovisuel par synthese vocale
CN107705784B (zh) * 2017-09-28 2020-09-29 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN109168067B (zh) * 2018-11-02 2022-04-22 深圳Tcl新技术有限公司 视频时序矫正方法、矫正终端及计算机可读存储介质
CN111741231B (zh) * 2020-07-23 2022-02-22 北京字节跳动网络技术有限公司 一种视频配音方法、装置、设备及存储介质
KR102479031B1 (ko) * 2021-10-25 2022-12-19 주식회사 클레온 딥러닝 네트워크를 이용한 입 모양 생성 방법 및 장치
CN115278382B (zh) * 2022-06-29 2024-06-18 北京捷通华声科技股份有限公司 基于音频片段的视频片段确定方法及装置

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT72083B (de) 1912-12-18 1916-07-10 S J Arnheim Befestigung für leicht auswechselbare Schlösser.
US4260229A (en) 1978-01-23 1981-04-07 Bloomstein Richard W Creating visual images of lip movements
US4305131A (en) 1979-02-05 1981-12-08 Best Robert M Dialog between TV movies and human viewers
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system
GB8528143D0 (en) 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
JP2518683B2 (ja) 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
EP0390048B1 (en) 1989-03-28 1996-10-23 Matsushita Electric Industrial Co., Ltd. Apparatus and method for data edition
US5111409A (en) 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
JPH03241399A (ja) 1990-02-20 1991-10-28 Canon Inc 音声送受信装置
DE4101022A1 (de) 1991-01-16 1992-07-23 Medav Digitale Signalverarbeit Verfahren zur geschwindigkeitsvariablen wiedergabe von audiosignalen ohne spektrale veraenderung der signale
US5689618A (en) * 1991-02-19 1997-11-18 Bright Star Technology, Inc. Advanced tools for speech synchronized animation
JPH04285769A (ja) 1991-03-14 1992-10-09 Nec Home Electron Ltd マルチメディアデータの編集方法
JP3070136B2 (ja) 1991-06-06 2000-07-24 ソニー株式会社 音声信号に基づく画像の変形方法
US5313522A (en) 1991-08-23 1994-05-17 Slager Robert P Apparatus for generating from an audio signal a moving visual lip image from which a speech content of the signal can be comprehended by a lipreader
JP3135308B2 (ja) 1991-09-03 2001-02-13 株式会社日立製作所 ディジタルビデオ・オーディオ信号伝送方法及びディジタルオーディオ信号再生方法
JPH05188985A (ja) 1992-01-13 1993-07-30 Hitachi Ltd 音声圧縮方式、及び通信方式、並びに無線通信装置
JPH05313686A (ja) 1992-04-02 1993-11-26 Sony Corp 表示制御装置
JP3083640B2 (ja) 1992-05-28 2000-09-04 株式会社東芝 音声合成方法および装置
JP2973726B2 (ja) 1992-08-31 1999-11-08 株式会社日立製作所 情報処理装置
US5636325A (en) 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US5500919A (en) * 1992-11-18 1996-03-19 Canon Information Systems, Inc. Graphics user interface for controlling text-to-speech conversion
CA2119397C (en) 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP2734335B2 (ja) 1993-05-12 1998-03-30 松下電器産業株式会社 データ伝送方法
US5860064A (en) 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
JP3059022B2 (ja) 1993-06-07 2000-07-04 シャープ株式会社 動画像表示装置
JP3364281B2 (ja) 1993-07-16 2003-01-08 パイオニア株式会社 時分割ビデオ及びオーディオ信号の同期方式
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
JP2611728B2 (ja) 1993-11-02 1997-05-21 日本電気株式会社 動画像符号化復号化方式
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
US5650629A (en) 1994-06-28 1997-07-22 The United States Of America As Represented By The Secretary Of The Air Force Field-symmetric beam detector for semiconductors
GB2291571A (en) 1994-07-19 1996-01-24 Ibm Text to speech system; acoustic processor requests linguistic processor output
IT1266943B1 (it) * 1994-09-29 1997-01-21 Cselt Centro Studi Lab Telecom Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda.
US5677739A (en) * 1995-03-02 1997-10-14 National Captioning Institute System and method for providing described television services
JP3507176B2 (ja) 1995-03-20 2004-03-15 富士通株式会社 マルチメディアシステム動的連動方式
US5729694A (en) 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
JP4359299B2 (ja) 2006-09-13 2009-11-04 Tdk株式会社 積層型セラミック電子部品の製造方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10885943B1 (en) 2019-11-18 2021-01-05 Artificial Intelligence Research Institute Multimedia authoring apparatus with synchronized motion and voice feature and method for the same

Also Published As

Publication number Publication date
KR19980047008A (ko) 1998-09-15
USRE42000E1 (en) 2010-12-14
US5970459A (en) 1999-10-19
JPH10171486A (ja) 1998-06-26
JP3599538B2 (ja) 2004-12-08
DE19753453A1 (de) 1998-06-18
DE19753453B4 (de) 2004-11-18

Similar Documents

Publication Publication Date Title
KR100236974B1 (ko) 동화상과 텍스트/음성변환기 간의 동기화 시스템
KR100240637B1 (ko) 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
US6250928B1 (en) Talking facial display method and apparatus
JP3215823B2 (ja) 人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置
US5826234A (en) Device and method for dubbing an audio-visual presentation which generates synthesized speech and corresponding facial movements
US7145606B2 (en) Post-synchronizing an information stream including lip objects replacement
EP2704092A2 (en) System for creating musical content using a client terminal
US11942093B2 (en) System and method for simultaneous multilingual dubbing of video-audio programs
ES2356476T3 (es) Procedimiento y aparato para su uso en la modificación de sonido.
JP2009266240A (ja) ビデオと音とを整合させる方法および装置、コンピュータ可読媒体、ならびにデータを複合化する方法およびデコーダ
JPH02234285A (ja) 画像合成方法及びその装置
JP2009233764A (ja) 動作生成装置、ロボット及び動作生成方法
WO2019088635A1 (ko) 음성 합성 장치 및 방법
JP2001517326A (ja) 視覚的合成における韻律生成のための装置および方法
KR100710600B1 (ko) 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치
AU769036B2 (en) Device and method for digital voice processing
JP2001517327A (ja) スピーチ合成方法
JP2003296753A (ja) 聴覚障害者用対話システム
CN114283784A (zh) 一种基于视觉驱动的文本转语音的方法
JP2561181Y2 (ja) 音声合成装置
KR100606676B1 (ko) 이동 통신 시스템에서 음성 변환 방법 및 장치
JPH09244680A (ja) 韻律制御装置及び方法
JPH11226050A (ja) 視覚的に聴覚を補助するシステムおよび方法並びに視覚的に聴覚を補助するための制御プログラムを記録した記録媒体
KR20110121255A (ko) 멀티미디어 자료 제공 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20081001

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee