KR20080034204A

KR20080034204A - 화상 전화를 위한 픽쳐-인-픽쳐 프로세싱

Info

Publication number: KR20080034204A
Application number: KR1020087005912A
Authority: KR
Inventors: 옌-치 리; 칼리드 헬미 엘-말리; 밍-창 트사이
Original assignee: 콸콤 인코포레이티드
Priority date: 2005-08-19
Filing date: 2006-08-21
Publication date: 2008-04-18
Also published as: CN101288303B; US8081684B2; WO2007022516A3; CN101288303A; US20130033564A1; JP5718292B2; JP2012070388A; US20070040898A1; US8737489B2; EP1932343A2; US8942293B2; US8976872B2; JP2009505589A; JP5653878B2; US20120050452A1; KR100996340B1; WO2007022516A2; JP2013031191A; US20120287221A1

Abstract

본 발명은 화상 전화(VT)FMF 위한 픽쳐-인-픽쳐(PIP) 프로세싱을 위한 기술에 관한 것이다. 개시된 기술에 따라, 로컬 비디오 통신 장치는 PIP 정보를 원격 비디오 통신 장치에 전송한다. PIP 정보를 이용하며, 원격 비디오 통신 장치는 로컬 비디오 통신 장치에 전송된 비디오의 비 PIP 영역들에 대한 우선 인코딩을 제공한다.

Description

화상 전화를 위한 픽쳐-인-픽쳐 프로세싱{PICTURE-IN-PICTURE PROCESSING FOR VIDEO TELEPHONY}

본 발명은 디지털 비디오 인코딩 및 디코딩에 관한 것이며, 특히 픽쳐-인-픽쳐(PIP) 제공을 포함하는 화성 전화(VT) 애플리케이션을 위해 정보를 프로세싱하는 기술에 관한 것이다.

다수의 상이한 비디오 인코딩 표준이 디지털 비디오 시퀀스를 인코딩하기 위해 설정되었다. 예를 들어, 동영상 전문가 그룹(MPEG)은 MPEG-1, MPEG-2, 및 MPEG-4를 포함하는 많은 표준을 개발하였다. 다른 예들은 국제 통신 기구(ITU) H.263 표준, 및 최근의 ITU H.264 표준을 포함한다. 이러한 비디오 인코딩 표준들은 일반적으로 압축된 방식으로 데이터를 인코딩함으로써 비디오 시퀀스들의 개선된 전송 효율을 지원한다.

화상 전화(VT)는 화상 회의와 같은 애플리케이션들을 지원하기 위해 사용자들이 비디오 및 오디오 정보를 공유하게 한다. 화상 전화 표준의 예는 세션 초기화 프로토콜(SIP), ITU H.323 표준, 및 ITU H.324 표준을 포함한다. 양방향 VT에서, 사용자들은 비디오 정보ㅌ를 송신 및 수신한다. 소정의 VT 시스템들은 사용자로 하여금 원격 사용자로부터의 입력 비디오 및 원격 사용자로의 출력 비디오 모두 를 볼 수 있게 하는 픽쳐-인-픽쳐(PIP) 특징을 제공한다.

PIP 특징의 경우, 출력 비디오는 입력 비디오를 포함하는 큰 픽쳐 위에 오버레이된 작은 픽쳐에 제동된다. 큰 픽쳐는 통상적으로 전체 비디오 프레임을 차지한다. 작은 픽쳐는 비디오 프레임의 대략 20 내지 25%를 차지하여, 큰 픽쳐의 일부를 커버링할 수도 있다. PIP 특징은 적절한 카메라 정렬을 보장하기 위해 사용자로 하여금 출력 비디오를 볼 수 있게 한다. 예를 들어, 사용자는 자신의 얼굴, 또는 다른 객체가 출력 비디오 프레임 내에서 충분히 볼 것을 원할 수도 있다. PIP 특징을 사용하여, 사용자는 출력 비디오의 콘텐츠를 개선하기 위해 카메라의 위치를 더 잘 설정할 수 있다.

본 발명은 화상 전화(VT)를 위한 픽쳐-인-픽쳐(PIP) 프로세싱을 위한 기술에 관한 것이다. 개시된 특징에 따라, 로컬 비디오 통신 장치는 PIP 정보를 원격 비디오 통신 장치로 전송한다. PIP 정보를 이용하여, 원격 비디오 통신 장치는 로컬 비디오 통신 장치로 전송된 비디오의 비 PIP 영역들에 대한 우선적인 인코딩을 제공한다.

PIP 특징이 이네이블될 때, 로컬 비디오 통신 장치는 원격 비디오 통신 장치로부터 수신된 입력 비디오 및 원격 비디오 통신 장치로 전송된 출력 비디오를 포함하는 비디오 프레임을 제공한다. 입력 비디오는 실질적으로 전체 비디오 프레임을 차지한다. 출력 비디오는 비디오 프레임의 작은 영역을 차지하는데, 이는 PIP 영역으로 불린다. 로컬 비디오 통신 장치는 PIP 정보를 원격 비디오 통신 장치로 전송한다.

PIP 정보는 출력 비디오가 로컬 비디오 통신 장치의 사용자에게 제공될 PIP 영역을 식별한다. PIP 정보는 인코딩된 출력 비디오 내에 삽입되거나, 대역외(out-of-band) 시그널링 기술에 의해 전송된다. 소정의 실시예에서, PIP 콘텐츠 및 PIP 정보는 중개 네트워크 서버로부터 제공될 수도 있다.

PIP 정보를 사용하여, 원격 비디오 통신 장치는 PIP 영역 외부에 있는 입력 비디오의 영역들을 우선적으로 인코딩한다. 원격 비디오 통신 장치는 낮은 품질로 PIP 영역 내에 있는 입력 비디오의 영역을 인코딩할 수도 있다. 택일적으로, 원격 비디오 통신 장치는 PIP 영역 내에 있는 입력 비디오의 영역의 인코딩을 스킵할 수도 있다. 어떤 경우든, 로컬 비디오 통신 장치로부터 원격 비디오 통신 장치로의 PIP 정보의 전송은 입력 비디오의 비 PIP 영역이 향상된 시각 품질로 인코딩되게 한다.

PIP 정보의 교환은 원격 비디오 통신 장치가 로컬 비디오 통신 장치에 의해 특정된 PIP를 인식하게 한다. 이러한 점에서, 비디오 통신 장치는 다른 비디오 통신 장치로부터 원격으로 특정된 PIP 정보를 프로세싱할 수 있고, PIP 정보를 기초로 출력 비디오를 인코딩하는 "PIP-인식" 비디오 인코더-디코더(코덱)를 포함한다. 소정의 실시예에서, 비디오 통신 장치는 예를 들어, PIP 영역들에서 더 낮은 복잡성 에러 은폐 또는 후처리를 스킵 또는 제공함으로써, 국부적으로 특정된 PIP 정보에 기초하여 입력 비디오의 비 PIP 영역들을 또한 우선적으로 디코딩할 수 있다.

일 실시예에서, 본원 발명은 픽쳐-인-픽쳐(PIP) 정보를 수신하는 단계, 및 PIP 정보에 기초하여 원격 비디오 통신 장치로 전송될 비디오를 인코딩하는 단계를 포함하는 방법을 제공한다.

다른 실시예에서, 본원 발명은 원격 비디오 통신 장치에 전송될 비디오를 인코딩하는 단계, 및 원격 비디오 통신 장치로 비디오 및 픽쳐-인-픽쳐(PIP) 정보를 전송하는 단계를 포함한다.

또 다른 실시예에서, 본원 발명은 픽쳐-인-픽쳐(PIP) 정보를 수신하는 모듈을 포함하는 비디오 통신 장치, 및 PIP 정보에 기초하여 원격 비디오 통신 장치로 전송될 비디오를 인코딩하는 비디오 인코더를 제공한다.

또 다른 실시예에서, 본원 발명은 원격 비디오 통신 장치로 전송될 비디오를 인코딩하는 인코더, 및 원격 비디오 통신 장치로 픽쳐-인-픽쳐(PIP) 정보를 전송하는 시그널링 모듈을 포함한다.

또 다른 실시예에서, 본원 발명은 로컬 비디오 통신 장치를 포함하는 비디오 통신 시스템, 및 원격 비디오 통신 장치를 제공하는데, 원격 비디오 통신 장치는 원격 픽쳐-인-픽쳐(PIP) 정보를 로컬 비디오 통신 장치로 전송하고, 로컬 비디오 통신 장치는 원격 PIP 정보에 기초하여 원격 비디오 통신 장치로 전송을 위해 비디오를 인코딩한다.

설명된 기술은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 소정 조합으로 구현될 수도 있다. 만일 소프트웨어에서 구현되면, 프로세서에 의해 실행될 때, 기술은 전술한 하나 이상의 방법을 실행하는 명령들을 포함하는 프로그램 코드를 포함한 컴퓨터 판독가능 매체에 의해 부분적으로 구현될 수도 있다.

하나 이상의 실시예의 세부 사항은 첨부된 도면 및 이하의 설명에서 개시된다. 다른 특징, 대상, 및 장점은 이하의 설명, 도면 및 청구항으로부터 명백할 것이다.

도1은 PIP 인식 비디오 인코더-디코더들(코덱들)을 포함한 비디오 인코딩 및 디코딩 시스템을 도시한 블록도이다.

도2는 무선 비디오 통신 장치와 관련된 디스플레이 상에 제공된 비디오 프레임 내의 PIP 영역의 제공을 도시한 블록도이다.

도3은 PIP 인식 코덱을 포함한 비디오 통신 장치를 설명한 블록도이다.

도4는 사용자에게 제공된 비디오 프레임 내의 PIP 및 비 PIP 영역들을 설명하는 블록도이다.

도5는 발신 비디오의 비 PIP 영역들을 우선적으로 인코딩하기 위한 PIP 정보의 프로세싱을 도시한 흐름도이다.

도6은 발신 비디오의 비 PIP 영역들을 우선적으로 인코딩하고 입력 비디오의 비 PIP 영역들을 우선적으로 디코딩하기 위한 PIP 정보의 프로세싱을 도시한 흐름도이다.

도7은 PIP 콘텐츠 및 정보가 중개 네트워크 서버에 의해 제공되는 비디오 인코딩 및 디코딩 시스템을 도시한 블록도이다.

도1은 PIP 인식 비디오 인코더-디코더들(코덱들)을 포함한 비디오 인코딩 및 디코딩 시스템(10)을 도시한 블록도이다. 설명된 바와 같이, 시스템(10)은 PIP 픽쳐가 화상 전화에서 사용될 때 비디오 품질을 강화할 수도 있다. 시스템(10)은, 원격 디스플레이 상에서 볼 경우, 비디오 프레임의 일부가 작은 로컬 프리뷰 윈도우일 수도 있는 PIP 영역으로 오버레이될 때 비디오 프레임의 인코딩 관련 문제를 해결한다.

도1에 도시된 바와 같이, 시스템(10)은 제1 비디오 통신 장치(12) 및 제2 비디오 통신 장치(14)를 포함한다. 통신 장치(12, 14)는 전송 채널(16)에 의해 접속된다. 전송 채널(16)은 유선 또는 무선 매체일 수도 있다. 시스템(10)은 화상 전화를 위해 비디오 통신 장치들(12, 14) 사이에서 양방향 오디오 및 비디오 전송을 지원한다. 장치(12, 14)는 실질적으로 대칭적인 방식으로 동작한다. 대응하는 인코딩, 디코딩, 멀티플렉싱(MUX) 및 디멀티플렉싱(DEMUX) 컴포넌트들은 채널(16)의 마주하는 단에 제공될 수도 있다.

도1의 예에서, 비디오 통신 장치(12)는 MUX/DEMUX 컴포넌트(18), PIP 인식 비디오 코덱(20) 및 오디오 코덱(22)을 포함한다. 마찬가지로, 비디오 통신 장치(14)는 MUX/DEMUX 컴포넌트(26), PIP 인식 비디오 코덱(28) 및 오디오 코덱(30)을 포함한다. 각각의 코덱(20, 28)은, 다른 비디오 통신 장치(12, 14) 또는 중개 서버로부터 원격으로 제공된 PIP 정보를 프로세싱할 수 있다는 점에서, "PIP 인식"이다. 이러한 방식으로, 각각의 코덱(20, 28)은 비디오 프레임의 가시적 영역의 비디오 품질을 향상시키기 위해 수신 장치에서 PIP 프레임 오버레이를 고려하여 비디오 프레임을 인코딩한다. 소정의 실시예에서, 코덱(20, 28)은 또한 자신 고유의 비디오 통신 장치 내에 국부적으로 특정된 PIP 정보, 또는 중개 서버에 의해 제공된 PIP 정보에 응답할 수도 있다.

비디오 통신 장치(12, 14)는 비디오 스트리밍, 화상 전화, 또는 이 둘 모두에 대해 구축된 무선 모바일 터미널들 또는 유선 터미널들로서 구현될 수도 있다. 이를 위해, 비디오 통신 장치(12, 14)는 무선 통신을 지원하기 위해, 적절한 전송, 수신, 모뎀, 및 프로세싱 전자 장치들을 더 포함할 수 있다. 무선 모바일 터미널들의 예는 모바일 무선 전화, 모바일 개인용 디지털 보조기(PDA), 모바일 컴퓨터, 또는 무선 통신 성능 및 비디오 인코딩 및/또는 디코딩 성능을 갖춘 다른 모바일 장치를 포함한다. 유선 터미널들의 예는 데스크탑 컴퓨터, 화상 전화, 네트워크 설비, 셋탑 박스, 대화식 텔레비젼 등을 포함한다. 어느 비디오 통신 장치(12, 14)든 비디오 정보를 전송하고, 비디오 정보를 수신하고, 또는 비디오 정보는 물론 오디오 정보도 전송 및 수신하도록 구성될 수도 있다.

개시된 기술에 따라, 로컬 비디오 통신 장치(12)는 원격 비디오 통신 장치(14)로부터 수신된 입력 비디오 및 원격 비디오 통신 장치로부터 전송된 출력 비디오를 포함하는 비디오 프레임을 제공한다. 입력 비디오는 실질적으로 전체 비디오 프레임을 차지한다. 출력 비디오는 국부적으로 제공된 비디오 프레임의 작은 영역을 차지한다. 이러한 작은 영역은 PIP 영역으로 불린다. 로컬 비디오 통신 장치(12)는 PIP 정보를 원격 비디오 통신 장치(14)로 전송한다. PIP 정보는 로컬 비디오 통신 장치(12)의 사용자가 PIP 특성을 활성화시켰음을 나타낸다. 이러한 표시로 인해, 원격 비디오 통신 장치(14)는 로컬 비디오 통신 장치(12)의 사용자에 의해 보여질 PIP 영역에 대한 기본 위치 및 크기를 추정할 수도 있다. 택일적으로, 만일 PIP 영역의 특성이 가변적이면, PIP 정보는 출력 비디오가 예를 들어, 위치 및 크기에 관하여 로컬 비디오 통신 장치(12)의 사용자에게 제공될 PIP 영역을 또한 식별할 수도 있다. PIP 정보는 인코딩된 출력 비디오 내에 삽입되거나, 대역외 시그널링 기술에 의해 전송될 수도 있다.

PIP 정보를 이용하여, 원격 비디오 통신 장치(14)는 PIP 영역 밖에 있는 입력 비디오의 영역들을 우선적으로 인코딩한다. PIP 영역은 출력 비디오가 PIP 콘텐츠로서 제공될 영역이다. 원격 비디오 통신 장치(14)는 낮은 품질로 PIP 영역 내에 있는 입력 비디오의 영역들을 인코딩할 수도 있다. 택일적으로, 입력 비디오가 PIP 영역에서 완전히 불명료하기 때문에, 원격 비디오 통신 장치(14)는 PIP 영역 내에 있는 입력 비디오의 영역의 인코딩을 더욱 바람직하게는 스킵한다. 어떤 경우든, 로컬 비디오 통신 장치(12)로부터 원격 비디오 통신 장치(14)로 PIP 정보의 전송은 입력 비디오의 비 PIP 영역들이 향상된 품질로 인코딩되게 한다.

PIP 정보의 교환은 원격 비디오 통신 장치(14)가 로컬 비디오 통신 장치(12)에 의해 특정된 PIP를 인식하게 한다. 이러한 점에서, 원격 비디오 통신 장치(14)는 비디오 통신 장치(12)로부터 원격으로 특정된 PIP 정보를 프로세싱할 수 있고, PIP 정보에 기초하여 출력 비디오를 인코딩하는 "PIP 인식" 비디오 인코더-디코더(코덱)를 포함한다. 로컬 비디오 통신 장치(12)는 대응하는 기능을 포함할 수도 있다. 소정의 실시예에서, 비디오 통신 장치(12, 14)는 예를 들어, PIP 영역에서 입력 비디오의 더 낮은 복잡성 에러 은폐 또는 후처리를 스킵 또는 제공함으로써, 국부적으로 특정된 PIP 정보에 기초하여 입력 비디오의 비 PIP 영역들을 또한 우선적으로 디코딩할 수도 있다.

로컬 비디오 통신 장치(12)에 의해 전송된 PIP 정보는 비디오 프레임 내의 좌표를 특정할 수도 있다. 좌표는 출력 비디오가 제공될 PIP 영역의 경계를 한정할 수도 있다. PIP 영역의 좌표는 비디오 프레임 내의 x-y 좌표일 수도 있다. 그러나 x-y 좌표는 PIP 맵을 생성하기 위해 프로세싱될 수도 있다. 특히, 좌표는 PIP 매크로블록(MB) 맵과 같은 비디오 블록 맵의 형태로 제공될 수도 있다. MB 맵은 비디오 프레임의 PIP 영역 내에 존재하는 MB들을 식별한다. PIP MB 맵은 PIP 내에 있는 MB들을 1로 플래그(flag)하고, PIP 외부의 MB들을 0으로 플래깅하여, PIP 내부(1) 및 외부(0)에 포함된 MB들을 용이하게 식별할 수도 있다. 택일적으로, PIP 정보는 PIP MB 맵에 기초할 수도 있지만, 원격 비디오 통신 장치(14)에 대한 PIP 영역을 식별하기에 충분한 정보의 더 작은 양을 포함한다. MB는 프레임의 일부를 형성하는 비디오 블록이다. MB의 크기는 16×16 픽셀들일 수도 있다. 그러나 다른 MB 크기들이 가능하다. 결론적으로, MB는 MPEG-1, MPEG-2 및 MPEG-4, ITU H.263, ITU H.264, 또는 소정의 다른 표준과 같은 특정 비디오 코딩 표준 내에서 정의된 매크로블록을 포함하는 소정의 비디오 블록으로 불릴 수도 있지만, 이에 한정되지는 않는다.

PIP MB 맵은 적절한 PIP 영역의 좌표에 거의 부합하는 MB 경계를 선택할 수도 있다. 예를 들어, 만일 PIP 영역이 MB를 교차하면, PIP MB 맵은 PIP 영역 경계를 적절한 MB의 외부 에지 또는 내부 에지 중 하나에 위치시킬 수도 있다. 다시 말해서, PIP MB 맵은 PIP 영역 내에 완전히 위치한 MB들 만을 포함하도록 구성될 수도 있거나, PIP 영역 내에 부분적으로 위치한 MB들을 또한 포함할 수도 있다. 어떤 경우든, PIP MB 맵은 특정된 PIP 영역에 가장 접근한 전체 MB들의 세트를 식별한다. 비디오 인코더(44) 또는 비디오 디코더(50)는 MB 레벨에서 동작하며, 일반적으로 MB 맵에 대한 PIP 영역 정보의 번역을 필요로 할 것이다. 개별 MB들은 PIP 영역에 포함되거나 제외된 것으로 표시함으로써, PIP MB 맵은 또한 불규칙적으로 또는 비직사각형 형태로 PIP 영역들의 한정을 허용할 수도 있다.

로컬 비디오 통신 장치(12)에 의해 송신된 PIP 정보를 이용하여, 원격 비디오 통신 장치는, 우선 비트 할당 또는 양자화에 의해, 입력 비디오의 대응하는 PIP 및 비 PIP 영역들에 대한 우선적인 인코딩을 제공한다. 특히, 부가의 인코딩 비트들은 비 PIP 영역들에 제공될 수도 있지만, 감소된 양의 인코딩 비트들 또는 제로 인코딩 비트들은 PIP 영역에 할당될 수도 있으며, 그로 인해 입력 비디오의 비 PIP 영역들의 이미지 품질을 개선시킨다. 이러한 방식으로, 로컬 비디오 통신 장치(12)는 원격 비디오 통신 장치(14)에 의해 비디오 인코딩에 원격으로 영향을 줄 수 있다. 원격 비디오 통신 장치(14)에 의한 우선적인 인코딩은 로컬 비디오 통신 장치(12)의 사용자가 비 PIP 영역들에서 입력 비디오를 더욱 선명하게 볼 수 있게 한다.

로컬 비디오 통신 장치(12)는 또한 입력 비디오의 영역들을 우선적으로 디코딩하도록 PIP 정보를 국부적으로 제공할 수도 있다. (a) 입력 비디오의 PIP 영역이 출력 비디오에 의해 불명료하게 될 것이고, (b) 입력 비디오의 PIP 영역이, 만 일 원격 비디오 통신 장치(14)가 PIP 인식인 경우 심지어 인코딩되지 않을 수도 있다는 것을 안다면, 로컬 비디오 통신 장치(12)는 입력 비디오의 PIP 영역에 대해 더 낮은 복잡성 에러 은폐 또는 후처리 기술을 제공하기 위해 우선적인 디코딩을 적용할 수도 있다. 이러한 경우, 로컬 비디오 통신 장치(12)는 원격 비디오 통신 장치(14)로부터 수신된 입력 비디오의 비 PIP 영역들에 대해 표준 또는 더 높은 복잡성 에러 은폐 또는 후처리를 적용할 수도 있다. 따라서, PIP 정보는 우선적 디코딩을 위해 로컬 비디오 통신 장치(12) 내에서 국부적으로, 그리고 우선적 인코딩을 위해 원격 비디오 통신 장치(14) 내에서 원격적으로 사용될 수도 있다.

시스템(10)은 세션 개시 프로토콜(SIP), ITU H.323 표준, ITU H.324 표준, 또는 다른 표준들에 따라 화상 전화를 지원할 수도 있다. 각각의 비디오 코덱(20, 28)은 MPEG-2, MPEG-4, ITU H.263, 또는 ITU H.264와 같은 비디오 압축 표준에 따라 인코딩된 비디오 데이터를 생성한다. 도1에 도시된 바와 같이, 비디오 코덱들(20, 28)은 각각의 오디오 코덱들(22, 30)과 통합될 수도 있으며, 데이터 스트림의 오디오 및 비디오 부분들을 조절하기 위해 적절한 MUX/DEMUX 컴포넌트들(18, 26)을 포함할 수도 있다. MUX-DEMUX 유닛(18, 26)은 ITU H.223 멀티플렉서 프로토콜, 또는 사용자 데이터그램 프로토콜과 같은 다른 프로토콜들을 따를 수도 있다.

도2는 무선 비디오 통신 장치(12)와 관련된 디스플레이(38)에 제공된 비디오 프레임(36) 내의 PIP 영역(34)의 제공을 설명하는 블록도이다. 도2의 예에서, PIP 영역(34)은 장치(12)에 의해 인코딩되고 전송될 출력 비디오를 포함하는 직사각 영 역이다. PIP 영역(34)은 다른 장치에 전송되는 출력 비디오를 장치(12)의 사용자가 볼 수 있게 한다. 비록 PIP 영역(34)이 소정의 이미지 또는 객체를 포함하지만, PIP 영역 내에 제공된 객체는 종종 로컬 비디오 통신 장치(12)의 사용자의 얼굴, 또는 머리 및 어깨일 것이다. 사용자는 다른 유선 또는 무선 비디오 통신 장치의 사용자와 화상 회의하는 당사자이다.

PIP 영역(34)은 비디오 프레임(36) 내에 제공된 입력 비디오의 작은 영역을 커버링한다. 예를 들어, PIP 영역(34)은 비디오 프레임(36)의 대략 20-25%를 커버링한다. PIP 영역(34)의 크기, 형태 및 위치는 고정되거나 조정될 수도 있으며, 인위적으로 또는 자동적으로 다양한 방식에 따라 한정, 묘사 또는 조절될 수 있다. 로컬 뷰잉 목적을 위해 로컬 비디오 통신 장치(12) 상에 제공된 PIP 영역(34)의 콘텐츠는 인코딩되고 로컬 비디오 통신 장치(40)로부터 원격 비디오 통신 장치(14)로 출력 비디오로서 전송된다. 이어 원격 비디오 통신 장치(14)는 전체 크기의 비디오 프레임 내에서 로컬 비디오 통신 장치로부터 수신된 출력 비디오를 제공한다. 마찬가지로, 로컬 비디오 통신 장치(12)는 PIP 영역(34)을 가진 비디오 프레임(36) 내에서 전체 크기로 제공하기 위해 입력 비디오를 수신한다.

PIP 영역(34)의 콘텐츠는 로컬 비디오 통신 장치(12)와 관련된 비디오 캡쳐 장치에 의해 캡쳐될 수도 있다. 택일적으로, PIP 영역(34)의 콘텐츠는 비디오 보관소(archive)로부터 생성될 수도 있다. 예를 들어, 국부적으로 캡쳐링된 비디오 대신에, PIP 영역(34)은 광고, 호 상태, 네트워크 상태, 또는 다른 그래픽 또는 텍스쳐 정보와 같은 정보 오버레이를 포함할 수도 있다. 어떤 경우든, PIP 영 역(34)의 위치 및 크기를 한정하는 PIP 정보는 로컬 비디오 통신 장치(12)로 전송될 입력 비디오의 비 PIP 커버링된 영역들을 우선적으로 인코딩하는데 있어서 원격 비디오 통신 장치를 돕는다.

도3은 PIP-인식 코덱(20)을 포함하는 비디오 통신 장치(12)의 블록도이다. 비록 도3이 도1의 비디오 통신 장치(12)를 도시하지만, 비디오 통신 장치(14)는 유사하게 구성될 수도 있다. 비디오 통신 장치(12 또는 14)는 화상 전화를 지원하기 위해 수신 및 전송 장치로서 기능할 수도 있다. 그러나 동작은 설명을 위해, 입력 비디오의 수신기 및 출력 비디오의 전송기로서 비디오 통신 장치(12) 각각으로부터 설명될 것이다. 도3에 도시된 바와 같이, 비디오 통신 장치(12)는 PIP 인식 코덱(20), 비디오 캡쳐 장치(40), 및 사용자 인터페이스(42)를 포함한다. 비록 통신 채널(16)이 도3에 도시되었지만, MUX-DEMUX 및 오디오 컴포넌트들은 설명이 용이함을 위해 생략된다. 비디오 캡쳐 장치(40)는 비디오 통신 장치(12)와 통합되거나, 동작가능하게 연결된 비디오 카메라일 수도 있다. 소정의 실시예에서, 예를 들어, 비디오 캡쳐 장치(40)는 소위 비디오 카메라 폰 또는 비디오 폰을 형성하기 위해 모바일 전화와 통합될 수도 있다. 이러한 방식으로, 비디오 캡쳐 장치(40)는 모바일 VT 애플리케이션들을 지원한다.

사용자 인터페이스(42)는 액정 디스플레이(LCD), 플라즈마 스크린, 프로젝터 디스플레이와 같은 디스플레이 장치, 또는 소정의 다른 디스플레이 장치들을 포함할 수도 있으며, 이들은 비디오 통신 장치(12)에 통합되거나 동작가능하게 연결될 수 있다. 디스플레이 장치는 비디오 통신 장치(12)의 사용자에게 비디오 영상을 제공한다. 비디오 영상은 비디오 캡쳐 장치(40)에 의해 국부적으로 획득되고 PIP 영역(34)에 제공된 출력 비디오를 포함할 수도 있다. 비디오 영상은 또한 원격 비디오 통신 장치(14)로부터 수신된 입력 비디오를 포함할 수도 있다. 게다가, 사용자 인터페이스(42)는 비디오 통신 장치(12)의 사용자에 의한 정보의 입력을 위해 하드 키, 소프트 키, 다양한 포인팅 장치들, 스타일리(styli) 등을 포함할 수도 있다. 소정의 실시예에서, 사용자 인터페이스(42)의 디스플레이 장치 및 사용자 입력 매체는 모바일 전화와 통합될 수도 있다. 비디오 통신 장치(12)의 사용자는 입력 비디오 및 출력 비디오를 PIP 영역(34)에서 보기 위해 사용자 인터페이스(42)에 의존한다. 게다가, 사용자는 PIP 영역(34)의 크기, 형태 또는 위치의 한정을 위해 정보를 입력하도록 사용자 인터페이스(42)에 의존할 수도 있다.

도3에 도시된 바와 같이, PIP 인식 코덱(20)은 PIP 인식 비디오 인코더(44), PIP 정보 추출 모듈(46), PIP 정보 시그널링 모듈(48), 및 PIP 인식 비디오 디코더(50)를 포함한다. PIP 인식 비디오 인코더(44)는 원격 수신 장치로의 전송을 위해 비디오 캡쳐 장치(40)로부터 획득된 국부적으로 생성된 비디오("국부 비디오")를 인코딩한다. "로컬"이라는 용어는, 비디오 통신 장치(14)와 같은 원격 비디오 통신 장치로부터 수신된 "원격" 비디오에 대조적으로, 비디오 통신 장치(12) 내에서 국부적으로 생성된 비디오를 의미한다. 도3의 예에서, PIP 인식 비디오 인코더(44)는 로컬 비디오를 우선적으로 인코딩하도록 원격 비디오 통신 장치(14)로부터 획득된 PIP 정보를 사용하며, 채널(16)을 통해 원격 비디오 통신 장치(14)로 전송을 위해 출력 비디오("ENCODED OUTGOING VIDEO")를 생성한다.

PIP 정보 추출 모듈(46)은 원격 비디오 통신 장치(14)로부터 입력 PIP 정보("INCOMING PIP INFO")를 수신한다. 입력 PIP 정보는 대역내 시그널링 또는 대역외 시그널링에 의해 수신될 수도 있다. 대역내 시그널링의 경우, 입력 PIP 정보는 입력 비디오 비트스트림 내에 삽입될 수도 있다. 이러한 경우, PIP 정보 추출 모듈(46)은 디코딩된 입력 비디오 내에서 PIP 정보를 탐색하도록 PIP 인식 비디오 디코더(50)와 동등하게 동작할 수도 있다. 대역외 스그널링의 경우, 입력 PIP 정보는 예를 들어, 실시간 전송 제어 프로토콜(RTCP) 보고, ITU H.245 프로토콜 메시징 또는 세션 초기화 프로토콜(SIP) 메시징에 의해, 입력 비디오 비트스트림으로부터 개별적으로 전송될 수도 있다. 입력 PIP 정보는, 응용가능한 기본 크기 및 위치가 알려지지 않는 한, 원격 비디오 통신 장치(14)의 사용자에게 제공된 PIP 영역의 크기 및 위치를 한정할 수도 있다.

전술한 바와 같이, 대역내 시그널링의 경우, PIP 정보는 원격 비디오 통신 장치(14)로부터 수신된 인코딩된 비디오 비트스트림 내에 삽입될 수도 있다. MPEG4 비트 스트림 포맷에서, 예를 들어, 비트스트림을 설명하는 정보를 삽입하기 위해 사용될 수 있는 "user_data"로 불리는 필드가 있다. "user_data" 필드, 또는 다른 비트 스트림 포맷들의 유사한 필드가 비트스트림 컴플라이언스를 위반하지 않고 내장된 PIP 정보에 사용될 수도 있다. 택일적으로, PIP 정보는, 스테가노그래피(steganography)와 같은 소위 데이터 숨김 기술에 의해 비디오 비트스트림 내에 삽입될 수도 있다. 어떤 경우든, PIP 정보 추출 모듈(46)은 원격 장치(14)로부터 입력 비디오 내의 user_data 필드 또는 다른 곳에서 PIP 정보를 탐색하도록 구성될 수도 있다.

입력 PIP 정보는 PIP 영역의 내부에 위치하는 비디오 프레임 내에서 좌표 또는 매트로블록들(MB들)에 관하여 PIP 영역을 한정할 수도 있다. 택일적으로, 입력 PIP 정보는 PIP 특성이 활성화되었고, PIP 영역에 대한 기본 크기 및 위치가 추정될 수 있음을 나타낸다. 입력 PIP 정보에 기초하여, 도3의 예에서, PIP 정보 추출 모듈(46)은 원격 비디오 통신 장치(14)의 PIP 영역 내에 있는 MB들을 식별하는 PIP MB 맵을 생성한다. 예를 들어, 앞서 설명된 바와 같이, PIP 정보는 PIP 영역에 의해 커버링되거나 PIP 영역에 의해 커버링되지 않은 MB들을 플래그할 수도 있다.

PIP MB 맵을 이용하여, PIP 인식 비디오 인코더(44)는 PIP MB 맵에 의해 식별된 PIP 영역 내에 있지 않은 로컬 비디오의 영역을 우선적으로 인코딩한다. 예를 들어, PIP MB 맵은 PIP 영역 내에 MB들이 위치할 경우, MB들이 코딩되지 않도록 PIP 인식 비디오 인코더를 조절할 수도 있다. 이러한 방식으로, 모션 벡터들과 텍스쳐 비트들을 코딩하는데 소요되는 비트들은 PIP 영역 내에 있는 PIP MB 맵에 의해 식별된 상기 MB들을 인코딩하기 위해 저장될 수 있다. 그 결과로 비 PIP 영역들, 즉 PIP 콘텐츠와 중첩하지 않는 비디오 프레임의 영역들에서 비디오 품질이 향상된다.

우선적인 인코딩은 PIP 영역 내에 있는 로컬 비디오의 영역들과 PIP 영역 외부에 있는 로컬 비디오의 영역들 사이에서 인코딩 비트의 가중된 할당을 포함할 수도 있다. 그러나 PIP 영역 내에 있는 로컬 비디오의 영역들은 완전하게 불명료할 것이다. 따라서, PIP 영역 내에 있는 로컬 비디오의 MB들의 인코딩을 스킵하는 것 이 더욱 바람직하다. 어떤 경우든, PIP 영역에 의해 불명료한 로컬 비디오에 대해 일반적으로 사용될 비트들은 로컬 비디오의 나머지에 대해 대신 사용될 수 있으며, 그로 인해 로컬 비디오의 가시 영역에 대한 시각적 품질을 향상시킨다.

원격 비디오 통신 장치(14)는 대응하는 기능, 즉 PIP 인식 코덱을 포함할 수도 있다. PIP 정보를 원격 비디오 통신 장치(14)로 전송하기 위해, 로컬 비디오 통신 장치(12)는 PIP 정보 시그널링 모듈(48)을 포함한다. PIP 정보 시그널링 모듈(48)은 사용자 인터페이스(42)로부터 로컬 PIP 정보("LOCAL PIP INFO")를 수신할 수도 있으며, 채널(16)을 통해 원격 비디오 통신 장치(14)로 전송을 위해 출력 PIP 정보("OUTGOING PIP INFO")를 생성한다. PIP 정보 시그널링 모듈(48)은 사용자가 PIP 특성을 활성화시킬 때, 자동으로 활성화된다. 입력 PIP 정보와 마찬가지로, 원격 비디오 통신 장치(14)로 제공된 출력 PIP 정보는 대역내 또는 대역외 시그널링을 통해 전송될 수도 있다. 대역내 시그널링의 경우, PIP 정보 시그널링 모듈(48)은 인코딩된 출력 비디오 비트스트림에서 출력 PIP 정보를 위치시키기 위해 PIP 인식 비디오 인코더(44)와 동등하게 동작할 수도 있다.

입력 PIP 정보와 마찬가지로, 출력 PIP 정보는 PIP 영역의 위치 및 크기를 한정할 수도 있다. 그러나 출력 PIP 정보는 로컬 비디오 통신 장치(12)에 의해 제공된 PIP 영역으로 지향된다. 로컬 비디오 통신 장치(12)에 의해 제공된 PIP 영역은 원격 비디오 통신 장치(14)로부터 수신된 입력 비디오의 작은 부분을 커버링한다. 출력 PIP 정보를 사용하여, 원격 비디오 통신 장치(14)는 PIP 인식 비디오 디코더(50)에 의해 수신된 인코딩된 입력 비디오("ENCODED INCOMING VIDEO")에 대한 우선 인코딩을 제공한다. 이러한 방식으로, 로컬 비디오 통신 장치(12)의 사용자에게 가시적인 입력 비디오의 일부의 시각 품질은 향상될 수 있다.

선택적으로, 출력 PIP 정보는 또한 인코딩된 입력 비디오의 비 PIP 영역들의 우선적인 디코딩에서 사용하기 위해 PIP 인식 비디오 디코더(50)에 제공될 수도 있다. 예를 들어, 원격 비디오 통신 장치(14)로의 출력 PIP 정보를 전송하는 것 외에, PIP 정보 시그널링 모듈(48)은 PIP MB 맵을 PIP 인식 비디오 디코더(50)로 제공할 수도 있다. PIP MB 맵은 국부적으로 제공된 PIP 영역에 의해 커버링 또는 불명확하게될 입력 비디오 내의 MB들을 한정한다. PIP 인식 비디오 디코더(50)는 PIP 영역 내에 있지 않은 입력 비디오의 영역들을 우선적으로 디코딩하기 위해 PIP MB 맵을 이용한다. 특히, PIP 인식 비디오 디코더(50)는 입력 비디오의 비 PIP 영역들에 대해 더 높은 품질 에러 은폐 또는 후처리 기술을 제공하거나, 국부적으로 제공된 PIP 영역에 의해 커버링될 입력 비디오의 영역들에 대한 에러 은폐 또는 후처리를 전적으로 스킵할 수도 있다. 일반적으로, PIP 인식 비디오 디코더(50)는 입력 비디오의 PIP MB들보다 비 PIP MB들에 대한 더욱 우수한 에러 은폐 또는 후처리를 제공한다. 소정의 경우, PIP MB들의 디코딩, 에러 은폐 또는 후처리가 함께 스킵된다.

입력 PIP 정보 및 출력 PIP 정보는 주기적 또는 간헐적으로 로컬 비디오 통신 장치(12)와 원격 비디오 통신 장치(14) 사이에서 교환될 수도 있다. 대역내 시그널링의 경우, 예를 들어, PIP 정보는 주기적으로 모든 프레임 또는 선택된 프레임에 삽입될 수도 있다. 택일적으로, 대역외 시그널링의 경우, PIP 정보는 주기적 또는 간헐적인 메시지에 의해 전송될 수도 있다. 그러나 PIP 영역의 크기 및 위치는 상대적으로 드물게 고정되거나 변경될 수도 있다. 택일적으로, 대역폭 및 프로세싱 효율을 위해, PIP 정보를, 상대적으로 드물게 또는 적절한 PIP 영역의 크기 또는 위치에서 변경이 있는 때에만, 전송하는 것이 바람직할 수도 있다.

소정의 실시예에 따라, 비디오 통신 장치들(12, 14)은, 만일 허용될 경우 PIP 영역의 크기 또는 위치에서의 변경이 행해질 때까지 고정된 기본 PIP 영역을 추정하도록 구성될 수도 있다. 추가의 고려로서, PIP 특성은 언제나 활성화되는 것은 아니다. PIP 정보는 PIP 특성이 활성화되는 지의 표시를 간단히 포함할 수도 있으며, 이는 주기적으로 또는 활성화시 전송될 수도 있다. 만일 PIP 영역이 고정되면, PIP 정보는 PIP 특성 활성화의 표시를 유일하게 포함할 수도 있다. 만일 PIP 정보가 조절가능하면, PIP 정보는 PIP 영역에 대한 적용가능한 크기 및 위치 정보에 PIP 특성 활성화의 표시를 포함할 수도 있다. 소정의 경우, PIP 정보는 비디오 통신 장치(12, 14)가 주기적으로 비디오의 비 PIP 영역들을 인코딩하여 시각 품질을 향상시키게 한다.

PIP 인식 비디오 인코더(44), PIP 정보 추출 모듈(46), PIP 정보 시그널링 모듈(48), 및 PIP 인식 비디오 디코더(50)는 각각의 모듈에 대해 설명된 기능을 포함하는 개별 기능 모듈 또는 모놀리식 모듈로서, 다양한 방식으로 형성될 수도 있다. 소정의 경우, PIP 인식 코덱(20)의 다양한 컴포넌트들은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합으로 구현될 수도 있다. 예를 들어, 이러한 컴포넌트들은 하나 이상의 마이크로프로세서 또는 디지털 신호 프로세서들(DSPs), 하나 이상의 주문형 집적 회로(ASICs), 하나 이상의 필드 프로그램 가능한 게이트 어레이들(FPGAs), 또는 다른 동등한 집적 또는 개별 논리 회로 상에서 실행하는 소프트웨어 프로세서로서 동작할 수도 있다. 만일 소프트웨어에서 구현될 경우, 기술들은 DSP와 같은 프로세서에서 실행될 때, 설명된 하나 이상의 방법을 실행하는 명령들을 포함하는 프로그램 코드를 포함한 컴퓨터 판독가능 매체에 의해 부분적으로 구현될 수도 있다.

도4는 사용자에게 제공된 비디오 프레임 내의 입력 비디오의 PIP 및 비 PIP 영역들을 설명하는 도면이다. 도4의 예에서, 디스플레이(38) 상에 제공된 출력 비디오 프레임의 프레임(36)은 원격 비디오 통신 장치(14)에서 PIP 콘텐츠에 의해 커버링되지 않을 비 PIP 커버링된 영역(52), 및 PIP 콘텐츠에 의해 커버링될 PIP 커버링된 영역(54)을 포함한다. 원격 비디오 통신 장치(14)에 의해 생성된 PIP 콘텐츠의 위치 및 크기를 나타내는 PIP 정보를 이용하여, 로컬 비디오 통신 장치(12)의 PIP 인식 비디오 인코더(46)는 비 PIP 영역(52)에 대한 우선적인 인코딩을 제공한다. 또한, PIP 정보는 PIP MB 맵을 포함할 수도 있다. PIP 인식 비디오 인코더(46)는 PIP 커버링된 영역(54) 내에서 MB들을 인코딩하기 위해 일반적으로 사용될 인코딩 비트들을 재캡쳐링한다. 낭비되는 대신에, 재캡쳐링된 비트들은 우수한 시각 품질을 달성하기 위해 비 PIP 커버링된 영역(52) 내에서 MB들을 인코딩하는데 사용될 수 있다. PIP 커버링된 영역(54)은 낮은 품질로 인코딩되거나 완전히 스킵될 수도 있다. 만일 PIP 콘텐츠가 완전하게 PIP 커버링된 영역(54)을 불명확하게 하면, 인코딩의 스킵핑은 통상적으로 바람직할 것이다. 만일 PIP 콘텐츠가 반불투 명한 방식으로 제공되면, PIP 커버링된 영역(54)의 낮은 품질 인코딩이 바람직할 수도 있다.

도5는 출력 비디오의 비 PIP 커버링된 영역들을 우선적으로 인코딩하기 위해 PIP 정보의 프로세싱을 설명하는 흐름도이다. 도5에 도시된 연산은 도3에 도시된 컴포넌트들을 참조하여 설명될 것이다. 도5에 도시된 바와 같이, 입력 비디오의 수신(56)시, PIP 인식 비디오 디코더(50)는 입력 비디오를 디코딩(58)한다. 이어 사용자 인터페이스(42)와 관련된 디스플레이는 로컬 비디오 통신 장치(12)의 사용자에게 디코딩된 비디오를 디스플레이(60)한다.

PIP 정보 추출 모듈(50)은 입력 비디오 비트스트림내의 대역내 또는 시그널링 프로토콜을 통한 대역외에서 입력 PIP 정보를 탐색한다. 만일 어떠한 입력 PIP 정보도 이용가능하지 않으면(62), PIP 정보 추출 모듈(48)은 PIP 인식 비디오 인코더를 통보한다. 이러한 경우, PIP 인식 비디오 인코더(46)는 우선적인 인코딩 없이, 전체로서 출력 비디오의 각각의 프레임을 인코딩(64)한다. 만일 입력 PIP 정보가 이용가능하면, PIP 정보 추출 모듈(48)은 PIP 정보를 추출(66)하고 원격 PIP 영역에 의해 커버링될 MB들을 식별하는 PIP MB 맵을 생성(68)한다.

PIP MB 맵을 이용하여, PIP 인식 비디오 인코더(46)는 출력 비디오(70)의 비 PIP 커버링된 영역을 인코딩하고 출력 비디오(72)의 PIP 커버링된 영역의 인코딩을 스킵한다. 출력 비디오의 PIP 커버링된 영역에서 일반적으로 사용될 인코딩 비트들은 출력 비디오의 비 PIP 커버링된 영역을 인코딩하기 위해 대신 사용되며, 그로 인해 시각 품질을 향상시킨다. 일단 출력 비디오의 우선적인 인코딩이 프레임에 대해 완료되면, PIP 정보 시그널링 모듈(48)은 로컬 비디오 통신 장치(12)가 로컬 PIP 정보(75)를 특정화했는 지를 결정(75)한다. 만일 그렇다면, PIP 정보 시그널링 모듈(48)은 출력 비디오 내에 PIP 정보를 삽입하며, 그렇지 않다면, PIP 정보를 원격 비디오 통신 장치(14)로 전송(77)한다. 만일 어떠한 로컬 PIP도 특정화되지 않았다면, 프로세스는 다음 프레임으로 계속된다.

입력 및 출력 PIP 정보는 프레임 단위로, 주기적으로 또는 간헐적으로 제공될 수도 있다. 일단 입력 PIP 정보가 획득되면, 원격 비디오 통신 장치(14)가 다르게 표시할 때까지, PIP 정보는 출력 비디오를 인코딩하기 위해 로컬 비디오 통신 장치(12)에 의해 계속 사용될 수도 있다. 택일적으로, PIP 정보 추출 모듈(50)은 도5의 예에서 도시된 바와 같이, 프로세싱되는 각각의 프레임, 즉 각각의 루프 반복에 대해 입력 PIP 정보를 수신한다. 일반적으로, PIP 경계들은 MB 경계들에 걸쳐 위치할 수도 있다. 소정의 실시예에서, 만일 PIP 경계가 MB들을 양분하면, MB들은 설계 우선순위에 기초하여, PIP 영역에 포함되거나 그로부터 제외되는 것으로 고려될 수 있다.

도6은 출력 비디오의 비 PIP 커버링된 영역들을 우선적으로 인코딩하고 입력 비디오의 비 PIP 커버링된 영역들을 우선적으로 디코딩하기 위해 PIP 정보의 프로세싱을 도시한 흐름도이다. 도6에 도시된 연산은 도3에 도시된 컴포넌트들을 참조하여 설명될 것이다. 도6에 도시된 바와 같이, 입력 비디오(74)의 수신시, PIP 정보 시그널링 모듈(48)은 로컬 비디오 통신 장치(12)가 로컬 PIP 정보(76)를 특정화하는 지를 결정한다. 만일 그렇다면, 설명될 바와 같이, 로컬 PIP 정보는 출력 PIP 정보로서 원격 비디오 통신 장치(14)로 전송된다. 게다가, 로컬 PIP 정보는, 입력 비디오의 일부가 로컬 PIP 영역에 의해 불명확하게 될 것을 전제로, 입력 비디오의 디코딩에 사용될 수도 있다.

만일 어떠한 로컬 PIP도 특정화되지 않으면, PIP 인식 비디오 디코더(50)는 소정의 우선 디코딩 없이 입력 비디오를 디코딩(78)하며, 사용자 인터페이스(42)는 디코딩된 비디오를 디스플레이(80)한다. 그러나 만일 로컬 PIP가 특정화(76)되면, PIP 정보 추출 모듈(46)은 로컬 PIP 정보로부터 PIP 정보를 추출(82)하고, 원격 비디오 통신 장치(14)로부터 수신된 입력 비디오를 디코딩하는데 PIP 인식 비디오 디코더(50)에 의한 사용을 위해 PIP MB 맵을 생성(84)한다. 특히, PIP 인식 비디오 디코더(50)는 예를 들어, 표준 에러 은폐 및 후처리를 이용하여 입력 비디오의 비 PIP 커버링된 영역을 디코딩(86)한다. 그러나 PIP MB 맵을 이용하므로, PIP 인식 비디오 디코더(50)는 에러 은폐 및 후처리를 스킵하거나, 입력 비디오(88)의 PIP 커버링된 영역에 대해 낮은 품질의 에러 은폐 및 후처리를 적용한다. 이어 PIP 정보 시그널링 모듈(48)은 원격 비디오 통신 장치(14)에 의한 사용을 위해 출력 PIP 정보를 전송 또는 삽입(90)하고, 디코딩된 비디오는 사용자 인터페이스(42)에 의해 디스플레이(80)된다.

로컬 PIP 영역이 입력 비디오의 PIP 커버링된 영역을 불명확하게 하기 때문에, 입력 비디오의 PIP 커버링된 영역에 대한 디코딩의 스킵은 이치에 맞지 않는다. 만일 원격 비디오 통신 장치(14)가 PIP 인식이면, 입력 비디오의 PIP 커버링된 영역은 어쨌든 인코딩되지 않을 것이다. 그러나 우선적인 인코딩은 로컬 비디 오 통신 장치(12)가 PIP 인식이 아닌 원격 비디오 통신 장치로부터 입력 비디오를 수신할 때 제공될 수도 있다. 따라서, PIP 인식 프로세싱은 출력 비디오를 수신하는 장치에 대한 원격 PIP 정보에 기초한 출력 비디오의 인코딩, 입력 비디오를 수신하는 장치에 대한 로컬 PIP 정보에 기초한 입력 비디오의 디코딩, 및 이 둘 모두에 적용될 수도 있다. PIP 인식 프로세싱은 화상 회의의 양쪽 부분에서, PIP가 제공되는 화상 회의의 당사자인 하나 또는 양쪽 모두의 장치에 의해 사용될 수 있다. 도6에 추가로 도시된 바와 같이, PIP 정보 추출 모듈은 입력 PIP 정보가 대역내 또는 대역외 시그널링에 의해, 원격 비디오 통신 장치(14)에 의해 전송되는 지를 결정(92)한다. 만일 그렇지 않다면, PIP 정보 추출 모듈(46)은 PIP MB 맵을 PIP 인식 비디오 인코더(44)로 제공하지 않거나, PIP MB 맵이 제로 영역의 PIP 범위를 나타낸다. 어떤 경우든, 출력 비디오는 PIP 커버링되고 비 PIP 커버링된 영역들의 우선적인 인코딩 없이 전체로서 인코딩(94)된다. 그러나 만일 입력 PIP 정보가 이용가능(92)하면, PIP 정보 추출 모듈(46)은 PIP 정보를 추출(96)하고 PIP 인식 비디오 인코더(44)에 의한 사용을 위해 PIP MB 맵을 생성(98)한다. 추출은 PIP 영역에 의해 커버링되는, 비디오 프레임 내의 MB들을 식별하기 위해 좌표 또는 다른 값들의 변환을 포함한다. PIP 인식 비디오 인코더(44)는 출력 비디오의 비 PIP 커버링된 영역을 인코딩(100)하기 위해 PIP MB 맵을 이용하고, 출력 비디오의 PIP 커버링된 영역의 인코딩을 스킵(102)한다.

도7은 PIP 콘텐츠 및 정보가 매체간 네트워크 서버(106)에 의해 제공되는 비디오 인코딩 및 디코딩 시스템(104)을 도시한 블록도이다. 본 실시예에서, PIP 콘 텐츠는 출력 비디오와 같이, 비디오 통신 장치(12, 14)에 의해 생성된 콘텐츠로서 일반적으로 설명된다. 그러나 PIP 콘텐츠는 출력 비디오에 택일적 또는 부가적으로 다른 정보를 포함할 수도 있다. 예를 들어, 시간, 날짜, 경과된 비디오 참조 시간, 네트워크 상태 등과 같은 정보를 전달하는 텍스쳐 또는 그래픽 정보는 PIP 영역에 제공될 수도 있다. 이러한 정보는 비디오 통신 장치(12, 14) 내에서 국부적으로 생성될 수도 있다. 택일적으로, 이러한 PIP 콘텐츠는 매체간 PIP 서버(106)에 의해 생성될 수도 있다. 이러한 경우, PIP 서버(106)와 통신하고 있는 네트워크 기반 구조 설비(108)는 비디오 통신 장치들(12, 14) 사이에서 송신되는 인코딩된 비디오에 PIP 콘텐츠를 부가하도록 제공될 수도 있다.

이를 위해, 네트워크 설비(108)는 비디오 스트림 내의 PIP 콘텐츠의 배치를 허용하기에 충분한 인코더 및 디코더 컴포넌트를 포함할 수도 있다. 택일적으로, PIP 콘텐츠는 네트워크 설비(108)로부터 각각의 비디오 통신 장치들(12, 14) 전송될 수도 있으며, 디코딩된 비디오 내에 위치될 수도 있다. 상태 정보에 택일적으로, PIP 서버(106)에 의해 제공된 PIP 콘텐츠는 상업적 생산물 또는 서비스, 또는 정보 공용 서비스 메시지에 대한 광고 정보를 포함할 수도 있다. 실제로, PIP 콘텐츠는 특정 타입의 콘텐츠에 제한되지 않으며, 전송자의 비디오, 광고, 공용 또는 개인 정보, 또는 디코딩된 비디오의 일부에 오버레이로서 제공되는 소정의 콘텐츠를 포함할 수도 있다. 소정의 경우, PIP 서버(106)에 의해 제공된 PIP 콘텐츠는 디코딩된 비디오의 일부에 오버레이된 PIP 영역에 디스플레이된다. 결론적으로, 디코딩된 비디오의 일부는 PIP 영역에 의해 불분명하게 되어, 설명된 바와 같이, 우선적인 인코딩 또는 디코딩이 바람직하게 되도록 한다. 우선적인 인코딩, 디코딩 또는 이 둘 모두를 지원하기 위해, 네트워크 설비(108)는 로컬 비디오 통신 장치(12)로부터 비디오를 수신하고, PIP 서버(106)로부터 PIP 콘텐츠를 부가하며, 비디오 및 PIP 콘텐츠를 원격 비디오 통신 장치(14)로 전송한다.

게다가, 네트워크 설비(108)는 대역내 또는 대역외 시그널링에 의해 PIP 영역의 크기 및 위치를 특정하는 PIP 정보를, PIP 영역에 의해 커버링되지 않은 비디오의 우선적인 인코딩 또는 디코딩에 사용하기 위해, 원격 비디오 통신 장치(14)로 전송한다. 도7에 명백하듯이, 네트워크 설비(108)는 로컬 및 원격 비디오 통신 장치(12, 14)에 대해 역으로 동작할 수도 있다. 특히, 네트워크 설비(108)는 PIP 정보와 함께, 비디오 통신 장치(12)로부터의 비디오 및 PIP 서버(106)로부터의 PIP 콘텐츠를 비디오 통신 장치(14)로 제공한다. 마찬가지로, 네트워크 설비(108)는 비디오 통신 장치로부터의 비디오 및 PIP 서버(106)로부터의 PIP 콘텐츠를 PIP 정보와 함께 비디오 통신 장치(12)로 전송한다. PIP 콘텐츠의 크기 및 위치는 물론, PIP 콘텐츠는 비디오 통신 장치(12, 14)와 동일하거나 상이할 수도 있다.

설명된 기술은 하드웨어, 소프트웨어, 펌웨어 또는 소정의 이들 조합으로 구현될 수도 있다. 소프트웨어에서 구현시, 기술은 실행될 때 하나 이상의 설명된 방법을 실행하는 명령을 포함하는 프로그램 코드를 포함하는 컴퓨터 판독가능 매체에 의해 부분적으로 실현될 수도 있다. 이러한 경우, 컴퓨터 판독가능 매체는 SDRAM과 같은 RAM, ROM, NVRAM, EEPROM, 플래시 메모리, 자기 또는 광학 데이터 저장 매체 등을 포함할 수도 있다.

프로그램 코드는 하나 이상의 디지털 신호 프로세서(DSP), 범용 마이크로프로세서, 사용자 집적 회로(ASIC), 필드프로그램 가능한 로직 어레이(FPGA), 또는 등가 집적 회로 도는 개별 논리 회로와 같은 하나 이상의 프로세서에 의해 실행될 수도 있다. 소정의 실시예에서, 설명된 기능은 인코딩 및 디코딩을 위해 구성되거나, 결합된 비디오 인코더-디코더(코덱)에 통합된 전용 소프트웨어 모듈 또는 하드웨어 유닛 내에서 제공될 수도 있다.

다양한 실시예가 설명되었다. 이러한 다양한 실시예는 이하의 청구항의 사상 내에 있다.

Claims

픽쳐-인-픽쳐(PIP) 정보를 수신하는 단계; 및

상기 PIP 정보에 기초하여 원격 비디오 통신 장치에 전송될 비디오를 인코딩하는 단계를 포함하는, 방법.
제1항에 있어서,

상기 PIP 정보를 수신하는 단계는 서버로부터 상기 PIP 정보를 수신하는 단계를 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,

상기 PIP 정보는 광고, 상태 정보, 및 경과된 화상 원격 회의 시간 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 PIP 정보를 수신하는 단계는 상기 원격 비디오 통신 장치로부터 상기 PIP 정보를 수신하는 단계를 포함하는 것을 특징으로 하는 방법.
제4항에 있어서,

상기 PIP 정보는 상기 원격 비디오 통신 장치에 의해 제공된 PIP 영역의 크 기 및 위치를 나타내는 것을 특징으로 하는 방법.
제4항에 있어서,

상기 인코딩 단계는 상기 원격 비디오 통신 장치에 의해 제공된 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 우선적으로 인코딩하는 단계를 포함하는 것을 특징으로 하는 방법.
제6항에 있어서,

상기 우선적으로 인코딩하는 단계는 상기 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들보다 더 높은 품질로 상기 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 인코딩하는 단계를 포함하는 것을 특징으로 하는 방법.
제6항에 있어서,

상기 우선적으로 인코딩하는 단계는 상기 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 인코딩하는 단계 및 상기 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들의 인코딩을 스킵하는 단계를 포함하는 것을 특징으로 하는 방법.
제8항에 있어서,

상기 우선적으로 인코딩하는 단계는 추가의 인코딩 비트들을 이용하여 상기 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 인코딩하는 단계를 포함하는데, 상기 추가의 인코딩 비트들은 상기 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 인코딩하지 않을 경우 상기 PIP 영역에 의해 커버링된 상기 비디오의 영역들을 인코딩하는데 사용되는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 PIP 정보에 기초하여 PIP 매크로블록(MB) 맵을 생성하는 단계를 더 포함하며, 상기 PIP MB 맵은 상기 PIP 영역에 의해 커버링된 상기 비디오 내에서 MB들을 식별하고, 상기 인코딩 단계는 상기 식별된 MB들의 인코딩을 스킵하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

상기 원격 비디오 통신 장치로부터 인코딩된 비디오를 수신하는 단계;

로컬 비디오 통신 장치로부터 로컬 PIP 정보를 수신하는 단계;

상기 로컬 PIP 정보에 기초하여 상기 인코딩된 비디오를 디코딩하는 단계; 및

상기 로컬 비디오 통신 장치에서 상기 디코딩된 비디오를 제공하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제11항에 있어서,

상기 로컬 PIP 정보는 상기 로컬 비디오 통신 장치에 의해 제공된 로컬 PIP 영역의 크기 및 위치를 나타내는 것을 특징으로 하는 방법.
제11항에 있어서,

상기 디코딩 단계는 상기 로컬 비디오 통신 장치에 의해 제공된 로컬 PIP 영역에 의해 커버링되지 않은 상기 수신된 비디오의 영역들을 우선적으로 디코딩하는 단계를 포함하는 것을 특징으로 하는 방법.
제13항에 있어서,

상기 우선적으로 디코딩하는 단계는 상기 로컬 PIP 영역에 의해 커버링된 상기 수신된 비디오의 영역들에 대한 에러 은폐 및 후처리 중 적어도 하나를 스킵하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,

비디오를 인코딩하는 단계는 로컬 비디오 통신 장치에서 상기 비디오를 인코딩하는 단계를 포함하며, 상기 로컬 비디오 통신 장치 및 상기 원격 비디오 통신 장치들 중 적어도 하나는 화상 전화에 참여하는 모바일 무선 장치를 포함하는 것을 특징으로 하는 방법.
제15항에 있어서,

상기 모바일 무선 장치는 비디오 카메라 및 비디오 디스플레이를 갖는 모바일 전화를 포함하는 것을 특징으로 하는 방법.
원격 비디오 통신 장치로 전송될 비디오를 인코딩하는 단계; 및

상기 원격 비디오 통신 장치로 상기 비디오 및 픽쳐-인-픽쳐(PIP) 정보를 전송하는 단계를 포함하는, 방법.
제17항에 있어서,

상기 PIP 정보는 로컬 비디오 통신 장치에 의해 제공된 PIP 영역의 크기 및 위치를 나타내는 것을 특징으로 하는 방법.
제17항에 있어서,

상기 원격 비디오 통신 장치로부터 원격 PIP 정보를 수신하는 단계를 더 포함하며, 상기 인코딩 단계는 상기 원격 PIP 정보에 기초하여 상기 비디오를 인코딩하는 단계를 포함하는 것을 특징으로 하는 방법.
제19항에 있어서,

상기 원격 PIP 정보는 상기 원격 비디오 통신 장치에 의해 제공된 PIP 영역의 크기 및 위치를 나타내며, 상기 인코딩 단계는 상기 원격 비디오 통신 장치에 의해 제공된 상기 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 우선 적으로 인코딩하는 단계를 포함하는 것을 특징으로 하는 방법.
비디오 통신 장치로서,

픽쳐-인-픽쳐(PIP) 정보를 수신하는 모듈; 및

상기 PIP 정보에 기초하여 원격 비디오 통신 장치에 전송될 비디오를 인코딩하는 비디오 인코더를 포함하는,

비디오 통신 장치.
제21항에 있어서,

상기 모듈은 서버로부터 PIP 정보를 수신하는 것을 특징으로 하는 비디오 통신 장치.
제22항에 있어서,

상기 PIP 정보는 광고, 상태 정보, 및 경과된 화상 원격 회의 시간 중 적어도 하나를 포함하는 것을 특징으로 하는 비디오 통신 장치.
제21항에 있어서,

상기 모듈은 상기 원격 비디오 통신 장치로부터 PIP 정보를 수신하는 것을 특징으로 하는 비디오 통신 장치.
제24항에 있어서,

상기 PIP 정보는 상기 원격 비디오 통신 장치에 의해 제공된 PIP 영역의 크기 및 위치를 나타내는 것을 특징으로 하는 비디오 통신 장치.
제24항에 있어서,

상기 비디오 인코더는 상기 원격 비디오 통신 장치에 의해 제공된 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 우선적으로 인코딩하는 것을 특징으로 하는 비디오 통신 장치.
제26항에 있어서,

상기 비디오 인코더는 상기 PIP 영역에 의해 커버링된 상기 비디오의 영역들보다 더 높은 품질로 상기 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 우선적으로 인코딩하는 것을 특징으로 하는 비디오 통신 장치.
제26항에 있어서,

상기 비디오 인코더는 상기 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 인코딩하고, 상기 PIP 영역에 의해 커버링된 상기 비디오의 영역들의 인코딩을 스킵하는 것을 특징으로 하는 비디오 통신 장치.
제28항에 있어서,

상기 비디오 인코더는 추가의 인코딩 비트들을 이용하여 상기 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 인코딩하는 단계를 포함하는데, 상기 추가의 인코딩 비트들은 상기 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 인코딩하지 않을 경우 상기 PIP 영역에 의해 커버링된 상기 비디오의 영역들을 인코딩하는데 사용되는 것을 특징으로 하는 비디오 통신 장치.
제24항에 있어서,

상기 모듈은 상기 PIP 정보에 기초하여 PIP 매크로블록(MB) 맵을 생성하고, 상기 PIP MB 맵은 상기 PIP 영역에 의해 커버링된 상기 비디오 내에서 MB들을 식별하고, 상기 비디오 인코더는 상기 식별된 MB들의 인코딩을 스킵하는 것을 특징으로 하는 비디오 통신 장치.
제24항에 있어서,

상기 장치는 상기 원격 비디오 통신 장치로부터 인코딩된 비디오를 수신하는 로컬 비디오 통신 장치이며, 상기 장치는,

상기 로컬 비디오 통신 장치에 대한 로컬 PIP 정보를 수신하는 모듈; 및

상기 로컬 PIP 정보에 기초하여 상기 원격 비디오 통신 장치로부터 상기 인코딩된 비디오를 디코딩하는 디코더를 더 포함하는 것을 특징으로 하는 비디오 통신 장치.
제31항에 있어서,

상기 로컬 PIP 정보는 상기 로컬 비디오 통신 장치에 의해 제공된 로컬 PIP 영역의 크기 및 위치를 나타내는 것을 특징으로 하는 비디오 통신 장치.
제31항에 있어서,

상기 디코더는 상기 로컬 비디오 통신 장치에 의해 제공된 로컬 PIP 영역에 의해 커버링되지 않은 상기 수신된 비디오의 영역들을 우선적으로 디코딩하는 것을 특징으로 하는 비디오 통신 장치.
제33항에 있어서,

상기 디코더는 상기 로컬 PIP 영역에 의해 커버링된 상기 수신된 비디오의 영역들에 대한 에러 은폐 및 후처리 중 적어도 하나를 스킵하는 단계를 포함하는 것을 특징으로 하는 비디오 통신 장치.
제24항에 있어서,

상기 장치는 화상 전화에 참여하는 모바일 무선 장치를 포함하는 것을 특징으로 하는 비디오 통신 장치.
제21항에 있어서,

비디오 카메라 및 비디오 디스플레이를 더 포함하는 것을 특징으로 하는 비 디오 통신 장치.
비디오 통신 장치로서,

원격 비디오 통신 장치로 전송될 비디오를 인코딩하는 인코더; 및

픽쳐-인-픽쳐(PIP) 정보를 상기 원격 비디오 통신 장치로 전송하는 시그널링 모듈을 포함하는,

비디오 통신 장치.
제37항에 있어서,

상기 PIP 정보는 상기 비디오 통신 장치에 의해 제공된 PIP 영역의 크기 및 위치를 나타내는 것을 특징으로 하는 비디오 통신 장치.
제37항에 있어서,

상기 원격 비디오 통신 장치로부터 원격 PIP 정보를 수신하는 모듈을 더 포함하며, 상기 인코더는 상기 원격 PIP 정보에 기초하여 상기 비디오를 인코딩하는 것을 특징으로 하는 비디오 통신 장치.
제39항에 있어서,

상기 원격 PIP 정보는 상기 원격 비디오 통신 장치에 의해 제공된 PIP 영역의 크기 및 위치를 나타내며, 상기 인코더는 상기 원격 비디오 통신 장치에 의해 제공된 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 우선적으로 인코딩하는 것을 특징으로 하는 비디오 통신 장치.
비디오 통신 시스템으로서,

로컬 비디오 통신 장치; 및

원격 비디오 통신 장치를 포함하며, 상기 원격 비디오 통신 장치는 원격 픽쳐-인-픽쳐(PIP) 정보를 상기 로컬 비디오 통신 장치로 전송하며, 상기 로컬 비디오 통신 장치는 상기 원격 PIP 정보에 기초하여 상기 원격 비디오 통신 장치로 전송을 위해 비디오를 인코딩하는,

비디오 통신 시스템.
제41항에 있어서,

상기 PIP 정보는 상기 원격 비디오 통신 장치에 의해 제공된 PIP 영역의 크기 및 위치를 나타내는 것을 특징으로 하는 비디오 통신 시스템.
제41항에 있어서,

상기 로컬 비디오 통신 장치는 상기 원격 비디오 통신 장치에 의해 제공된 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 우선적으로 인코딩하는 단계를 포함하는 것을 특징으로 하는 비디오 통신 시스템.
제41항에 있어서,

상기 로컬 비디오 통신 장치는 상기 PIP 영역에 의해 커버링된 상기 비디오의 영역들의 인코딩을 스킵하고, 추가의 인코딩 비트들을 이용하여 상기 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 인코딩하는데, 상기 추가의 인코딩 비트들은 상기 PIP 영역에 의해 커버링되지 않은 상기 비디오의 영역들을 인코딩하지 않을 경우 상기 PIP 영역에 의해 커버링된 비디오의 영역들을 인코딩하는데 사용되는 것을 특징으로 하는 비디오 통신 시스템.
제41항에 있어서,

상기 로컬 비디오 통신 장치는 상기 원격 비디오 통신 장치로 로컬 PIP 정보를 전송하며, 상기 원격 비디오 통신 장치는 상기 로컬 PIP 정보에 기초하여 상기 로컬 비디오 통신 장치로 전송을 위해 비디오를 인코딩하는 것을 특징으로 하는 비디오 통신 시스템.
제41항에 있어서,

상기 로컬 비디오 통신 장치는 상기 로컬 PIP 정보에 기초하여 상기 원격 비디오 통신 장치로부터 수신된 비디오를 디코딩하는 것을 특징으로 하는 비디오 통신 시스템.
제41항에 있어서,

상기 로컬 및 원격 비디오 통신 장치 중 적어도 하나는 모바일 무선 통신 장치인 것을 특징으로 하는 비디오 통신 시스템.
제17항에 있어서,

상기 비디오를 인코딩하는 단계는 로컬 비디오 통신 장치에서 상기 비디오를 인코딩하는 단계를 포함하며, 상기 로컬 비디오 통신 장치 및 상기 원격 비디오 통신 장치들 중 적어도 하나는 화상 전화에 참여하는 모바일 무선 장치를 포함하는 것을 특징으로 하는 방법.