KR950035447A

KR950035447A - 음성 분석 자동화를 이용하는 비디오 신호 처리 시스템 및 그 방법

Info

Publication number: KR950035447A
Application number: KR1019950005198A
Authority: KR
Inventors: 첸 츄한
Original assignee: 비.케이.디니콜라; 에이티 앤드 티 코포레이션
Priority date: 1994-03-18
Filing date: 1995-03-14
Publication date: 1995-12-30
Also published as: CA2143483A1; US6330023B1; JPH089372A; EP0673170A2; EP0673170A3

Abstract

화자의 영상 프레임 속도를 증가시키는 방법은 화자의 발음을 나타내는 오디오 신호 및 결합된 비디오 신호를 모니터링하는 단계를 포함한다. 오디오 신호는 재구성되는 1 이상의 필드 또는 프레임에 대응하며, 오디오 신호의 각 부분은 안면 특성 정보에 결합된다. 안면 정보는 화자의 입 위치를 실제로 예측할 수 있는 음소 또는 다른 음성-기초 수준에서 도출된 위치 정보 및 입 형성을 포함한다. 영상의 필드 또는 프레임은 현존 프레임에서 추출된 영상 특성을 이용함과 동시에 검출된 음소에 결합된 안면 특성 정보를 이용하여 재구성된다.

Description

음성 분석 자동화를 이용하는 비디오 신호 처리 시스템 및 그 방법

본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음

제1도는 본 발명의 음성 결합된 비디오 프레임 시퀀스 보간 처리의 실시예의 여러 단계를 도시한 플로우챠트, 제2도는 본 발명에 따른 음성 결합된 비디오 프레임 시퀀스 보간의 한 응용을 나타내는 비디오판 장치의 여러 구성요소를 도시한 블록도.

Claims

제1프레임 속도를 가지며 화자의 영상 시퀀스(image sequence)를 나타내는 수신된 비디오신호의 프레임 속도를 증가시키는 장치에 있어서, 적어도 소정의 검출되는 음성 세그먼트는 수신된 비디오 신호에 의해 표현되지 않은 영상 시퀀스의 영상에 대응하는 것으로, 화자의 발음에 의한 상기 음성 세그먼트를 검출하도록 영상 시퀀스에 일시적으로 대응하는 오디오 신호를 모니터링하는 수단과:저장된 파라메트릭 입 형성 데이타에 검출된 음성 세그먼트를 결합하는 수단 및 상기 모니터링 수단 및 상기 결합 수단에 응답하며, 화자의 영상을 나타내는 적어도 하나의 음향 합성된 프레임을 발생함과 동시에 수신된 비디오신호의 인접 프레임들간에 상기 적어도 하나의 음향 합성된 프레임을 삽입하여, 상기 제1프레임 속도보다 높은 프레임 속도를 갖는 비디오 신호를 제공하게 되는 프레임 발생수단을 구비하는 것을 특징으로 하는 프레임 속도 증가 장치.
제1항에 있어서, 상기 검출된 각각의 음성 세그먼트는 상기 파라메트릭 입형성 데이타에 의해 표현되는 각각의 입 형성에 대응하는 것을 특징으로 프레임 속도 증가 장치.
제1항에 있어서, 상기 검출된 각각의 음성 세그먼트가 음소(phoneme)인 것을 특징으로 하는 프레임 속도 증가 장치.
제1항에 있어서, 상기 검출된 각각의 음성 세그먼트가 동음이의어(homophene)인 것을 특징으로 하는 프레임 속도 증가 장치.
제2항에 있어서, 상기 화자의 각각의 입 형성은 바이스미(viseme)인 것을 특징으로 하는 프레임 속도 증가 장치.
제2항에 있어서, 상기 결합 수단은 예정된 음성 세그먼트를 발음하는 일반적인 화자의 입 모양을 나타내는 입 형성 파라미터의 저장 테이블을 갖고 있는 메모리를 포함하는 것을 특징으로 프레임 속도 증가 장치.
제1항에 있어서, 상기 모니터링 수단에 의해 검출되는 음성 세그먼트와 같이 상기 수신된 비디오 신호의 프레임들로부터 입 형성 파라미터를 추출하기 위한, 상기 모니터링 수단에 응답하는 특성 추출 수단(feature extraction means)을 구비하는데, 각각의 저장된 입 형성 파라미터는 예정된 음성 세그먼트를 발음하는 화자의 입 모양을 나타내는 것을 특징으로 하는 프레임 속도 증가 장치.
제1항에 있어서, 상기 프레임 발생 수단은 수신된 비디오 신호의 인접 프레임들 간의 삽입용 복수 프레임을 음향 합성하도록 작동하는 것을 특징으로 하는 프레임 속도 증가 장치.
제1항에 있어서, 상기 결합 수단은 회자의 턱, 혀 및 치아중 적어도 하나의 기억된 형태로 화자가 발음하여 검출된 음성 세그먼트를 결합하도록 작동하는 것을 특징으로 하는 프레임 속도 증가 장치.
제1프레임 속도를 가지며 화자의 영상 시퀀스를 나타내는 수신된 비디오신호의 프레임 속도를 증가시키는 방법에 있어서, 적어도 소정의 검출되는 음성 세그먼트는 수신된 비디오 신호에 의해 표현되지 않은 영상 신퀀스의 영상에 대응하는 것으로, 화자의 발음에 의한 상기 음성 세그먼트를 검출하도록 영상 시퀀스에 일시적으로 대응하는 오디오 신호를 모니터하는 단계와:저장된 파라메트릭 입 형성 데이타에 검출된 음성 세그먼트를 결합하는 단계와:상기 결합 단계시 식별되는 파라메트릭 입 형성 데이타 및 수신된 비디오 신호의 적어도 1프레임에서, 화자의 영상을 나타내는 프레임을 음향 합성하는 (synthesizing)단계 및 상기 제1프레임 속도보다 높은 프레임 속도를 갖는 제2 비디오신호를 얻기 위해, 상기 음향 합성 단계시에 얻을 수 있는 프레임을 수신된 비디오신호의 인접 프레임들 사이에 삽입하는 단계를 포함하는 것을 특징으로 하는 프레임 속도 증가 방법.
제10항에 있어서, 복수의 프레임이 상기 음향 합성 단계시 순차적으로 음향 합성되는데, 상기 음향 합성된 프레임들은 상기 발음 형성 동안 화자의 영상을 나타내는 것을 특징으로 하는 프레임 속도 증가 방법.
제10항에 있어서, 상기 검출된 각각의 음성 세그먼트가 음소인 것을 특징으로 하는 프레임 속도 증가 방법.
제10항에 있어서, 상기 검출된 각각의 음성 세그먼트가 동음이의어인 것을 특징으로 하는 프레임 속도 증가 방법.
제10항에 있어서, 상기 결합 단계는 예정된 음성세그먼트를 발음하는 일반적인 화자의 입 모양을 나타내는 입 형성 파라미터를 갖는 파라메트릭 안면 특성 데이타의 저장 테이블을 어드레싱하는 단계를 포함하는 것을 특징으로 하는 프레임 속도 증가 방법.
디지탈 오디오 및 비디오 데이타 신호를 송신 및 수신하기 위한 비디오원격 회의 장치에 있어서, 화자의 발음에 일시적으로 대응하며 화자의 영상 시퀀스를 나타내는 매우 낮은 프레임 속도의 비디오 및 오디오 신호를 수신하는 수단과:낮은 프레임 속도의 비디오 신호로 표현되지 않는 시퀀스 영상에 일시적으로 대응하는 오디요신호부 및 화자의 영상을 표현하는 프레임을 음향 합성하기 위한 적어도 1프레임을 나타내는 비디오 신호부에 응답하는 프레임 발생 수단과:저장된 안면 특성 정보에 상기 오디오 신호의 각 부분을 결합하는 수단과:높은 프레임 속도 시퀀스를 형성하기 위해 상기 낮은 프레임 속도 비디오신호의 연속 수신된 프레임 사이에 상기 발생수단에 의해 음향 합성된 프레임을 삽입하는 수단 및 상기 높은 프레임 속도 시퀀스를 디스플레이하는 수단을 구비하는 것을 특징으로 하는 비디오 원격 회의 장치.
제1항에 있어서, 상기 제1프레임 속도는 초당 10프레임 이하인 것을 특징으로 하는 프레임 속도 증가 장치.
제10항에 있어서, 상기 제1프레임 속도는 초당 10프레임 이하인 것을 특징으로 하는 프레임 속도 증가 방법.
제1항에 있어서, 수신된 비디오 신호에 응답하며, 복수의 프레임으로부터 파라메트릭 입 형성 데이타를 추출하는 특성 추출 수단을 추가로 구비하는 것을 특징으로 하는 프레임 속도 증가 장치.

※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.