KR20040037099A

KR20040037099A - 비짐 기반 비디오 부호화

Info

Publication number: KR20040037099A
Application number: KR10-2004-7004203A
Authority: KR
Inventors: 찰라팔리키란에스.
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2001-09-24
Filing date: 2002-09-06
Publication date: 2004-05-04
Also published as: EP1433332A1; WO2003028383A1; CN1279763C; JP2005504490A; US20030058932A1; CN1557100A

Abstract

비디오 데이터 프레임들의 스트림을 처리하는 비디오 처리 시스템 및 방법을 개시하고 있다. 시스템은, 입력되는 비디오 데이터 프레임들이 적어도 하나의 미리 결정된 비짐(viseme)에 대응하는지를 결정하는 비짐 식별 시스템(12); 적어도 하나의 미리 결정된 비짐에 대응하는 프레임들을 저장하는 비짐 라이브러리(16); 및 적어도 하나의 미리 결정된 비짐에 대응하는 각 프레임을 부호화하는 부호화기(14)로서, 현 프레임을 부호화하기 위해 비짐 라이브러리에 미리 저장된 프레임을 사용하는 상기 부호화기(14)를 포함하는 패키징 시스템(10)을 포함한다. 또한, 부호화된 비디오 데이터 프레임들을 복호하는 복호기; 및 복호된 프레임들을 저장하는 참조 프레임 라이브러리를 포함하는 수신기 시스템이 제공되며, 복호기는 부호화된 현 프레임을 복호하기 위해 상기 프레임 참조 라이브러리에 미리 저장된 프레임을 사용하고, 상기 미리 저장된 프레임은 상기 부호화된 현 프레임과 동일한 비짐에 속한다.

Description

비짐 기반 비디오 부호화{Viseme based video coding}

원격 비디오 처리 애플리케이션들(예를 들면, 비디오 회의, 비디오 전화, 등)의 수요가 계속적으로 성장함에 따라, 한정된 대역폭으로 비디오 데이터를 효율적으로 전송할 수 있는 시스템들을 제공할 필요성이 중요해졌다. 대역폭 소비를 감소시키는 하나의 해결책은 압축된 비디오 신호들을 부호화 및 복호할 수 있는 비디오 처리 시스템들을 사용하는 것이다.

현재 비디오 압축을 달성하는 두 부류의 기술로서, 파형 기반의 압축 및 모델 기반의 압축이 있다. 파형 기반 압축은 MPEG 및 ITU 표준들(예를 들면, MPEG-2, MPEG-4, H.263 등)에 의해 제공되는 것들과 같은, 압축 알고리즘들을 사용하는 비교적 완전해진 기술이다. 택일적으로, 모델 기반 압축은 비교적 완전하지 않은 기술이다. 모델 기반 압축에서 사용되는 전형적인 방식들은 사람 얼굴의 3차원 모델을 생성하고, 이어서 새로운 프레임의 비디오 데이터의 근간을 이루는 2차원 이미지들을 도출해내는 것을 포함한다. 이를테면 머리 및 어깨 이미지에서와 같이, 전송되는 비디오 이미지 데이터의 많은 부분이 반복적인 경우들에서, 모델 기반 부호화는 훨씬 높은 압축도를 달성할 수 있다.

따라서, 이를테면 비디오 회의 및 비디오 전화와 같은 애플리케이션들에 현 모델 기반 압축 기술들이 제공될 수 있지만, 3차원 이미지들을 생성하여 처리하는데 연루된 계산상의 복잡성들로 인해 이러한 시스템들을 구현하기가 어려워 과도한 비용이 들게 된다. 따라서, 3차원 이미지들을 처리하는 계산상의 오버헤드를 요함이 없이, 모델 기반 시스템들의 압축 레벨들을 달성할 수 있는 부호화 시스템에 대한 필요성이 존재한다.

본 발명은 비디오 부호화 및 복호에 관한 것이며, 특히 비디오 프레임들을 부호화하는 비짐(viseme) 기반 시스템 및 방법에 관한 것이다.

도 1은 본 발명의 바람직한 실시예에 따른 부호화기를 구비한 비디오 패키지 시스템을 도시한 도면.

도 2는 본 발명의 바람직한 실시예에 따른 복호기를 구비한 비디오 수신기 시스템을 도시한 도면.

본 발명은 전술한 문제들뿐만 아니라 다른 문제들을, 신규의 모델 기반 부호화 시스템을 제공함으로써 해결한다. 특히, 총 프레임들 중 일부만이 실제로 부호화되게, 입력된 비디오 프레임들이 데시메이트(decimate)된다. 부호화되는 이들 프레임들은 미리 부호화된 프레임 및/또는 동적으로 생성된 비짐 라이브러리에서의 프레임으로부터 예측들을 사용하여 부호화된다.

제 1 면에서, 본 발명은, 입력되는 비디오 데이터 프레임들이 적어도 하나의 미리 결정된 비짐(viseme)에 대응하는지를 결정하는 비짐 식별 시스템; 적어도 하나의 미리 결정된 비짐에 대응하는 프레임들을 저장하는 비짐 라이브러리; 및 적어도 하나의 미리 결정된 비짐에 대응하는 각 프레임을 부호화하는 부호화기로서, 현 프레임을 부호화하기 위해 비짐 라이브러리 미리 저장된 프레임을 사용하는 상기 부호화기를 포함하는 패키징 시스템을 포함하는 비디오 처리 시스템을 제공한다.

제 2 면에서, 본 발명은, 입력되는 비디오 데이터 프레임 각각이 적어도 하나의 미리 결정된 비짐에 대응하는지를 결정하는 단계; 적어도 하나의 미리 결정된 비짐에 대응하는 프레임들을 비짐 라이브러리에 저장하는 단계; 및 적어도 하나의 미리 결정된 비짐에 대응하는 각 프레임을 부호화하는 단계로서, 현 프레임을 부호화하기 위해 비짐 라이브러리에 미리 저장된 프레임을 사용하는 상기 부호화 단계를 포함하는 비디오 데이터 프레임 스트림 처리 방법을 제공한다.

제 3 면에서, 본 발명은, 실행시, 비디오 데이터 프레임들의 스트림을 처리하는, 기록 가능한 매체 상에 저장된 프로그램 제품에 있어서, 입력되는 비디오 데이터 프레임들이 적어도 하나의 미리 결정된 비짐에 대응하는지를 결정하는 시스템; 적어도 하나의 미리 결정된 비짐에 대응하는 프레임들을 저장하는 비짐 라이브러리; 및 적어도 하나의 미리 결정된 비짐에 대응하는 각 프레임을 부호화하는 시스템으로서, 상기 부호화 시스템은 현 프레임을 부호화하기 위해 상기 비짐 라이브러리에 미리 저장된 프레임을 사용하는 상기 부호화 시스템을 포함하는 프로그램 제품을 제공한다.

제 4 면에서, 본 발명은, 적어도 하나의 미리 결정된 비짐과 연관된 프레임들을 사용하여 부호화된 비디오 데이터 프레임들을 복호하는 복호기에 있어서, 복호된 프레임들을 저장하기 위한 상기 프레임 참조 라이브러리로서, 복호기는 부호화된 현 프레임을 복호하기 위해 상기 프레임 참조 라이브러리에 미리 저장된 프레임을 사용하고, 미리 저장된 프레임은 부호화된 현 프레임과 동일한 비짐에 속하는, 상기 프레임 참조 라이브러리; 및 부호화 처리 동안 제거된 비디오 데이터 프레임들을 재구성하는 모핑 시스템을 포함하는 복호기를 제공한다.

본 발명의 바람직한 실시예를 동일 구성요소에 동일 참조부호를 사용한 첨부한 도면을 참조하여 이하 기술한다.

도면들에서, 도 1 및 도 2는 비디오 이미지를 부호화하는 비디오 처리 시스템을 도시한 것이다. 여기 기술된 실시예들은 주로 얼굴 이미지들의 처리를 수반하는 애플리케이션들에 중점을 두고 있으나, 본 발명은 얼굴 이미지들을 부호화하는 것으로 한정되는 것은 아님을 알아야 할 것이다. 도 1은 입력되는 비디오 데이터 프레임들(32) 및 오디오 데이터(33)로부터 부호화된 비디오 데이터(50)를 생성하는 부호화기(14)를 포함하는 비디오 패키지 시스템(10)을 도시한 것이다. 도 2는 도 1의 비디오 패키지 시스템(10)에 의해 부호화된 비디오 데이터(40)를 복호하여 복호된 비디오 데이터(52)를 생성하는 복호기(42)를 포함하는 비디오 수신기 시스템(40)을 도시한 것이다.

도 1의 비디오 패키지 시스템(10)은 입력되는 비디오 데이터 프레임들(32)을, 비짐 식별 시스템(12), 부호화기(14), 및 비짐 라이브러리(16)를 사용하여 처리한다. 본 예의 애플리케이션에서, 입력되는 비디오 데이터 프레임들(32)은, 예를 들면 비디오 회의 시스템에 의해 통상 처리되는 것과 같은, 많은 수의 사람 얼굴이미지들을 포함할 수 있다. 입력되는 프레임(32)은 어느 프레임들이 하나 이상의 소정의 비짐들에 상응하는지를 결정하기 위해 비짐 식별 시스템(12)에 의해 검토된다. 비짐은 특정 소리를 기술하는데 사용될 수 있는 일반적인 얼굴 이미지(예를 들면, "sh"를 발음하는데 필요한 입 모양을 이루는)로서 정의될 수 있다. 비짐은 구어에서의 음소 혹은 소리 유닛와 동등한 시각적 표현이다.

어느 이미지들이 비짐에 대응하는지를 결정하는 처리는 오디오 데이터(33) 내 음소들을 식별하는 스피치 세그멘터(speech segmenter)(18)에 의해 달성된다. 음소가 확인될 때마다, 대응하는 비디오 이미지가 대응하는 비짐에 속하는 것으로 첨부될 수 있다. 예를 들면, 음소 "sh"가 오디오 데이터에서 검출될 때마다, 대응하는 비디오 프레임(들)이 "sh" 비짐에 속하는 것으로 확인될 수 있다. 비디오 프레임들에 첨부하는 처리는 식별된 음소들을 비짐에 맵핑하는 맵핑 시스템(20)에 의해 다루어진다. 소정의 포즈나 표현을 명료히 식별할 필요는 없는 것에 유의한다. 그보다는 기지의 비짐들에 속하는 비디오 프레임들이 음소들을 사용하여 식별되어 함축적으로 구별된다. 일정 시간(예를 들면, 1초)동안 대응하는 발음이 없는 이미지들을 포함할 수 있는 무음 비짐을 포함하여, 임의의 수 혹은 유형들의 비짐이 생성될 수 있음을 알 것이다.

어떤 프레임이 어떤 비짐에 속하는 것으로 확인되었을 때, 이 프레임은 비짐 라이브러리(16)에 저장된다. 비짐 라이브러리(16)는, 공통 비짐에 속하는 것으로 첨부된 프레임들이 복수의 모델 세트들(예를 들면, V1, V2, V3, V4) 중 하나에 함께 저장되게 비짐으로 물리적으로 혹은 논리적으로 구성될 수 있다. 처음에, 각 모델 세트는 눌(null) 세트의 프레임들을 포함할 것이다. 보다 많은 프레임들이 처리됨에 따라, 각 모델이 늘어날 것이다. 지나치게 많은 모델 세트를 피하기 위해서 소정의 모델 세트의 크기에 임계값이 설정될 수 있다. 프레임들을 폐기시키는 선입선출 시스템이 임계값이 만족된 후에 초과되는 프레임들을 제거하는데 사용될 수도 있다.

입력되는 프레임이 비짐에 대응하지 않는다면, 프레임 데시메이션 시스템(22)이 프레임을 데시메이트 또는 삭제한다. 즉, 그 프레임을 트래시(trash)(34)에 보낸다. 이 경우, 프레임은 비짐 라이브러리(16)에 저장되지도 않고 부호화기(14)에 의해 부호화되지도 않는다. 그러나, 임의의 데시메이트된 프레임들의 위치에 관한 정보는 부호화된 비디오 데이터(50)에 명료하게 혹은 함축적으로 포함될 수 있는 것에 유의한다. 이 정보는 후술하는 바와 같이, 데시메이트된 프레임들을 재구성할 곳을 결정하기 위해 수신기에 의해 사용될 수 있다.

입력된 프레임이 어떤 비짐에 대응한다고 할 때, 부호화기(14)는 이 프레임을, 예를 들면 블록별 예측 방법을 사용하여 부호화하고, 부호화된 비디오 데이터(50)로서 출력된다. 부호화기(14)는 에러 예측 시스템(24), 상세 움직임 정보(25), 및 프레임 예측 시스템(26)을 포함한다. 에러 예측 시스템(24)은 예를 들면 MPEG-2 표준 하에 제공되는 것과 같은 어떤 공지의 방식으로 예측 에러를 부호화한다. 상세 움직임 정보(25)는 수신기(40)(도 2)에서 모핑(morphing) 시스템(48)에 의해 사용될 수 있는 사이드 정보로서 발생될 수 있다. 프레임 예측 시스템은 두 개의 이미지들, 즉, (1) 부호화기(14)에 의해 발생된 움직임 보상된 미리 부호화된 프레임, 및 (2) 검색 시스템(28)에 의해 비짐 라이브러리(16)로부터 검색된 이미지로부터 프레임을 예측한다. 구체적으로, 비짐 라이브러리(16)로부터 검색된 이미지는 부호화되는 프레임과 동일한 비짐을 포함하는 모델 세트로부터 검색된다. 예를 들면, 사람얼굴이 "sh" 소리를 발음한 이미지를 프레임이 포함하였다면, 동일 비짐로부터 이전 이미지가 선택되어 검색될 것이다. 검색 시스템(28)은 평균-제곱 면에서 가장 가까웠던 이미지를 검색할 것이다. 따라서, 시간적인 근접(즉, 이웃한 프레임들)보다는, 본 발명은 시간적 근접과는 상관없이 어떤 이전 프레임 중 가장 가깝게 일치하는 것을 선택할 수 있다. 매우 유사한 이전 프레임들을 찾아냄으로써, 예측 에러들이 작고, 매우 높은 압축도들을 쉽게 달성할 수 있다.

도 2에서, 비디오 수신기 시스템(40)은 디코더(42), 참조 프레임 라이브러리(44), 버퍼(46), 및 모핑 시스템(48)을 포함하고 있음이 도시되었다. 복호기(42)는 입력되는 부호화된 비디오 데이터 프레임들(50)을 비디오 패키지 시스템(10)과 같은 방식을 사용하여 복호한다. 구체적으로, 부호화된 프레임은 (1) 바로 전의 복호된 프레임, 및 (2) 참조 프레임 라이브러리(44)로부터의 이미지를 사용하여 복호된다. 참조 프레임 라이브러리로부터의 이미지는 프레임을 부호화하는데 사용되었던 것과 동일하므로 부호화된 프레임에 저장된 참조 데이터로 쉽게 식별될 수 있다. 프레임이 복호된 후에, 프레임은 참조 프레임 라이브러리(44)(장래의 프레임들을 복호하기 위해)에 저장되고 아울러 버퍼(46)에도 보내진다.

하나 이상의 프레임들이 원래 데시메이트된 경우(예를 들면, 버퍼(46)에 ? ?로서 도시된 것), 모핑 시스템(48)은 예를 들면 부호화된 프레임(55)과 부호화된프레임(55) 사이에 포함시킴으로써 데시메이트된 프레임들을 재구성하는데 사용될 수 있다. 이러한 보간(interpolating) 기술들은 예를 들면 Ezzat 및 Poggio, "Miketalk: A talking facial display based on morphing visemes," Proc. Computer Animation Conference, PAGES 96-102, Philadelphia, Pa, 1998에 교시되어 있고, 이를 참조로 여기 포함시킨다. 모핑 시스템(48)은 부호화기(14)(도 1)에 의해 제공된 상세 움직임 정보를 사용할 수도 있다. 프레임들이 재구성된 후에, 이들은 복호된 프레임들과 함께 완전한 한 세트의 복호된 비디오 데이터(52)로서 출력될 수 있다.

여기 기술된 시스템들, 기능들, 방법들, 및 모듈들은 하드웨어, 소프트웨어, 혹은 하드웨어와 소프트웨어의 조합으로 구현될 수 있음을 알 것이다. 이들은 어떤 유형의 컴퓨터 시스템 혹은 여기 기술된 방법들을 실행하도록 된 그 외 다른 장치로 구현될 수 있다. 하드웨어 및 소프트웨어의 전형적인 조합은 로드되어 실행되었을 때 여기 기술된 방법들을 수행하게 컴퓨터 시스템을 제어하는 컴퓨터 프로그램을 구비한 범용 컴퓨터 시스템일 수도 있을 것이다. 대안으로, 본 발명의 하나 이상의 기능 작업들을 수행하는 전용의 하드웨어를 포함한, 전용의 컴퓨터가 사용될 수도 있을 것이다. 본 발명은 여기 기술된 방법들 및 기능들을 구현할 수 있게 하는 모든 특징들을 포함하고 컴퓨터 시스템에 로드되었을 때 이들 방법들 및 기능들을 수행할 수 있는 컴퓨터 프로그램 제품에 내장될 수도 있다. 본 맥락에서 컴퓨터 프로그램, 소프트웨어 프로그램, 프로그램 제품, 혹은 소프트웨어는 정보처리 능력을 갖춘 시스템이 특정의 기능을 직접, 혹은 (a) 다른 언어, 코드 혹은 표기로 변환 후 및/또는 (b) 다른 소재 형태로 재생 후에 수행하게 할 한 세트의 명령들의, 임의의 언어로, 코드 혹은 표기의 임의의 표현을 의미한다.

본 발명의 바람직한 실시예들의 전술한 설명은 예시 및 설명 목적으로 제공되었다. 이들은 상세하게 하거나 개시된 정밀한 형태로 본 발명을 제한시키려고 한 것은 아니고 위에 교시된 바에 비추어, 많은 자명한 수정들 및 변경들이 가능하다. 이 기술에 숙련된 자에게 명백한 이러한 수정 및 변경들은 첨부한 청구항들에 정한 이 발명의 범위 내에 포함되게 한 것이다.

Claims

비디오 데이터 프레임들의 스트림을 처리하는 비디오 처리 시스템에 있어서,

입력되는 비디오 데이터 프레임들(32)이 적어도 하나의 미리 결정된 비짐(viseme)에 대응하는지를 결정하는 비짐 식별 시스템(12);

상기 적어도 하나의 미리 결정된 비짐에 대응하는 프레임들을 저장하는 비짐 라이브러리(16); 및

상기 적어도 하나의 미리 결정된 비짐에 대응하는 각 프레임을 부호화하는 부호화기(14)로서, 현 프레임을 부호화하기 위해 상기 비짐 라이브러리(16)에 미리 저장된 프레임을 사용하는 상기 부호화기(14)를 포함하는 패키징 시스템(10)을 포함하는 비디오 처리 시스템.
제 1 항에 있어서,

상기 비짐 식별 시스템(12)은 상기 비디오 데이터 프레임들(32)과 연관된 오디오 데이터 스트림(33) 내 음소(phoneme)들을 식별하는 스피치 세그멘터(speech segmenter)(18)를 포함하는, 비디오 처리 시스템.
제 2 항에 있어서,

상기 비짐 식별 시스템(12)은 식별된 음소들을 상기 적어도 하나의 미리 결정된 비짐에 맵핑하는, 비디오 처리 시스템.
제 2 항에 있어서,

상기 비짐 식별 시스템(12)은 연관된 음소를 프레임들에 첨부(tag)하는, 비디오 처리 시스템.
제 1 항에 있어서,

상기 적어도 하나의 비짐에 대응하지 않는 프레임들을 제거하는 프레임 데시메이션 시스템(22)을 더 포함하는 비디오 처리 시스템.
제 5 항에 있어서,

부호화된 비디오 데이터 프레임들을 복호하는 복호기(42); 및

복호된 프레임들을 저장하는 프레임 참조 라이브러리(44)를 포함하는 수신기 시스템(40)을 더 포함하고,

상기 복호기(44)는 부호화된 현 프레임을 복호하기 위해 상기 프레임 참조 라이브러리로부터 미리 복호된 프레임을 사용하고, 상기 미리 복호된 프레임은 상기 부호화된 현 프레임과 동일한 비짐에 속하는, 비디오 처리 시스템.
제 6 항에 있어서,

상기 수신기 시스템(40)은 상기 데시메이션 시스템(22)에 의해 제거된 프레임들을 재구성하는 모핑(morphing) 시스템(48)을 더 포함하는, 비디오 처리 시스템.
제 7 항에 있어서,

상기 부호화기(14)는 프레임들을 재구성하기 위해 상기 모핑 시스템(48)에 의해 사용되는 상세 움직임 정보를 생성하는, 비디오 처리 시스템.
비디오 데이터 프레임들의 스트림을 처리하는 방법에 있어서,

입력되는 비디오 데이터 프레임 각각이 적어도 하나의 미리 결정된 비짐에 대응하는지를 결정하는 단계;

상기 적어도 하나의 미리 결정된 비짐에 대응하는 프레임들을 비짐 라이브러리(16)에 저장하는 단계; 및

상기 적어도 하나의 미리 결정된 비짐에 대응하는 각 프레임을 부호화하는 단계로서, 현 프레임을 부호화하기 위해 상기 비짐 라이브러리(16)에 미리 저장된 프레임을 사용하는 상기 부호화 단계를 포함하는 비디오 데이터 프레임 스트림 처리 방법.
제 9 항에 있어서,

부호화된 비디오 데이터 프레임들을 복호하는 단계; 및

복호된 프레임들을 저장하기 위해 프레임 참조 라이브러리(44)를 제공하는 단계를 더 포함하고,

상기 복호 단계는 부호화된 현 프레임을 복호하기 위해 상기 프레임 참조 라이브러리(44)로부터 미리 복호된 프레임을 사용하고, 상기 미리 복호된 프레임은 상기 부호화된 현 프레임과 동일한 비짐에 속하는, 비디오 데이터 프레임 스트림 처리 방법.
실행시, 비디오 데이터 프레임들의 스트림을 처리하는, 기록 가능한 매체 상에 저장된 프로그램 제품에 있어서,

입력되는 비디오 데이터 프레임들이 적어도 하나의 미리 결정된 비짐에 대응하는지를 결정하는 시스템(12);

상기 적어도 하나의 미리 결정된 비짐에 대응하는 프레임들을 저장하는 비짐 라이브러리(16); 및

상기 적어도 하나의 미리 결정된 비짐에 대응하는 각 프레임을 부호화하는 시스템(14)으로서, 상기 부호화 시스템은 현 프레임을 부호화하기 위해 상기 비짐 라이브러리에 미리 저장된 프레임을 사용하는 상기 부호화 시스템(14)을 포함하는 프로그램 제품.
제 11 항에 있어서,

상기 결정 시스템(12)은 상기 비디오 데이터 프레임들과 연관된 오디오 데이터 스트림내 음속들을 식별하는 스피치 세그멘터(18)를 포함하는, 프로그램 제품.
제 11 항에 있어서,

상기 결정 시스템(12)은 식별된 음소들을 상기 적어도 하나의 미리 결정된 비짐에 맵핑하는, 프로그램 제품.
적어도 하나의 미리 결정된 비짐과 연관된 프레임들을 사용하여 부호화된 비디오 데이터 프레임들을 복호하는 복호기(42)에 있어서,

복호된 프레임들을 저장하기 위한 프레임 참조 라이브러리(44)로서, 상기 복호기(42)는 부호화된 현 프레임을 복호하기 위해 상기 프레임 참조 라이브러리에 미리 저장된 프레임을 사용하고, 상기 미리 저장된 프레임은 상기 부호화된 현 프레임과 동일한 비짐에 속하는, 상기 프레임 참조 라이브러리(44); 및

부호화 처리 동안 제거된 비디오 데이터 프레임들을 재구성하는 모핑 시스템(48)을 포함하는 복호기(42).