KR100946813B1

KR100946813B1 - 비디오 전화기를 위한 관심 영역 추출

Info

Publication number: KR100946813B1
Application number: KR1020077023062A
Authority: KR
Inventors: 옌-치 리; 칼레드 헬미 엘-말레; 밍-창 사이
Original assignee: 콸콤 인코포레이티드
Priority date: 2005-03-09
Filing date: 2006-03-08
Publication date: 2010-03-09
Also published as: US8019175B2; JP6022618B2; KR101185138B1; JP2008533837A; KR20070117667A; EP1856913B1; ATE465598T1; US20060215753A1; WO2006130198A1; JP2015122768A; KR20090132639A; JP2012100281A; DE602006013798D1; EP1856913A1

Abstract

본 개시물은 비디오 전화기(VT) 애플리케이션에 대한 관심 영역(ROI) 처리를 위한 기술에 관한 것이다. 개시된 기술들에 따라, 수신측 장치는 송신측 장치에 의해 전송된 비디오, 즉 원단 비디오에 대하여 ROI 정보를 정의한다. 수신측 장치는 ROI 정보를 송신측 장치에 전송한다. 수신측 장치에 의해 전송된 ROI 정보를 사용하여, 송신측 장치는 비디오 장면 내의 ROI에 우선적인 인코딩을 적용한다. ROI 추출은 설명에 기초하여 ROI를 규정하는 정보를 발생하기 위해 관심 영역(ROI)의 사용자 설명을 처리하도록 적용될 수 있다. 사용자 설명은 문서형, 그래픽 또는 음성에 기반할 수 있다. 추출 모듈은 사용자 설명으로부터 발생된 ROI 정보에 적절한 처리를 적용한다. 추출 모듈은 비디오 통신 장치에 로컬적으로 상주하거나 ROI 추출을 위해 구성된 개별 중간 서버 내에 상주할 수 있다.

Description

비디오 전화기를 위한 관심 영역 추출{REGION-OF-INTEREST EXTRACTION FOR VIDEO TELEPHONY}

본 출원은 "비디오 전화기를 위한 관심 영역 처리"라는 명칭으로 2005년 3월 9일에 제출된 미국 임시 출원 60/660,200 및 2005년 7월 15일에 제출된 계류중인 미국 특허 출원 번호 11/183,072의 우선권을 청구한다.

본 발명은 비디오 전화기(VT) 응용들을 위한 관심 영역(ROI) 처리를 위한 기술에 관한 것이다.

다수의 서로 다른 비디오 인코딩 표준들은 디지털 비디오 시퀀스들을 인코딩하기 위해 형성되었다. 예를 들어, 동영상 전문가 그룹(MPEG)은 MPEG-1, MPEG-2 및 MPEG4를 포함하는 다수의 표준들을 개발하였다. 다른 예들은 국제 원격 통신 협회(ITU) H.263 표준 및 신흥 ITU H.264 표준을 포함한다. 상기 비디오 인코딩 표준들은 일반적으로 압축 방식으로 데이터를 인코딩함으로써 비디오 시퀀스들의 개선된 전송 효율을 지원한다.

비디오 전화기(VT)는 비디오 회의와 같은 응용들을 지원하기 위해 비디오 및 오디오 정보를 사용자들이 공유하도록 허가한다. 예시적인 비디오 전화기 표준은 세션 초기화 프로토콜(SIP), ITU H.323 표준, 및 ITU H.324 표준에 의해 정의되는 표준들을 포함한다. VT 시스템에서, 사용자들은 비디오 정보를 송수신하거나, 비디오 정보를 수신하기만 하거나, 비디오 정보를 송신하기만 할 수 있다. 수신자는 일반적으로 송신자로부터 전송된 형식으로 수신된 비디오 정보를 볼 수 있다.

비디오 정보의 선택된 부분의 우선적인 인코딩이 제안된다. 예를 들어, 송신자는 수신자로의 전송을 위해 더 높은 품질로 인코딩될 관심 영역(ROI)을 규정할 수 있다. 송신자는 원격 수신자에게 ROI를 강조할 것을 희망할 수 있다. ROI의 일반적인 예는 인간의 얼굴이지만, 송신자는 비디오 장면 내의 다른 물체들로의의 집중을 강조하기를 원할 수 있다. ROI의 우선적인 인코딩을 사용하여, 수신자는 비-ROI 영역들보다 더 명확하게 ROI를 볼 수 있다.

본 개시물은 비디오 전화기(VT)에 대한 관심 영역(ROI) 처리를 위한 기술에 관한 것이다. 개시된 기술들에 따라, 로컬 수신측 장치는 원격 송신측 장치에 의해 인코딩되고 전송된 비디오, 즉 원단(far-end) 비디오에 대하여 ROI 정보를 정의한다. 로컬 수신측 장치는 ROI 정보를 원격 송신측 장치에 전송한다. 수신측 장치에 의해 전송된 ROI 정보를 사용하여, 송신측 장치는 더 높은 품질 인코딩 또는 에러 보호와 같이 비디오 장면 내에서 ROI에 우선적인 인코딩을 적용한다. 상기 방식에서, 수신측 장치는 송신측 장치에 의해 인코딩된 원단 비디오의 ROI 인코딩을 원격으로 제어할 수 있다.

원단 비디오를 수신하는데 추가하여, 수신자는 비디오, 즉 근단(near-end) 비디오를 송신하는 설비를 갖출 수 있다. 따라서, VT 통신에 참여하는 장치들은 비디오 정보의 송신자 및 수신자 모두로 동시에 동작할 수 있다. 수신자로 동작할 때, 각각의 장치는 송신자로서의 원격 장치에 의해 인코딩된 비디오를 위한 원단 ROI 정보를 정의할 수 있다. 송신자로서 동작할 때, 각각의 장치는 수신자로서의 다른 장치로 전송된 비디오 정보를 위한 근단 ROI 정보를 정의할 수 있다. 송신 또는 수신측 장치는 ROI 비디오 인코딩의 원격 제어를 지원하기 위해 또다른 장치에 의해 제공된 ROI 정보를 처리할 수 있다는 관점에서 "ROI-인식형"으로 지칭될 수 있다.

원단 ROI 정보는 수신된 비디오 장면 내의 물체들 또는 영역들을 더 명확하게 보기 위해 송신측 장치에 의한 원격 ROI 인코딩을 수신측이 제어하도록 허용한다. 근단 ROI 정보는 송신된 비디오 장면 내의 물체들 또는 영역들을 강조하기 위해 로컬 ROI 인코딩을 송신자가 제어하도록 허용한다. 따라서, 송신자에 의한 ROI의 우선적인 인코딩은 수신자 또는 송신자에 의해 발생된 ROI 정보에 기초할 수 있다. 부가적으로, 수신측 장치는 에러 숨김, 블럭킹 차단 또는 벨울림 차단 기술들과 같은 더 높은 품질의 사후-처리의 응용에 의한 것과 같이 ROI 정보에 기초하여 ROI를 우선적으로 디코딩할 수 있다.

ROI 프로세싱을 용이하게 하기 위해, 본 개시물은 추가로 ROI 선택, ROI 맵핑, ROI 추출, ROI 시그널링, ROI 트래킹 및 송신측 장치에 의한 ROI 인코딩의 원격 제어를 허용하도록 수신측 장치들의 액세스 인증을 위한 기술들을 고려한다. ROI 선택은 미리 정의된 ROI 패턴들, 구두형 또는 문서형 ROI 설명들, 또는 사용자에 의한 ROI 그림에 따라 결정될 수 있다. ROI 맵핑은 비디오 인코더에 의한 사용에 적합한 매크로블럭(MB) 맵의 형태를 취할 수 있는 ROI 맵으로 선택된 ROI 패턴의 변환을 포함한다.

ROI 시그널링은 수신측으로부터 송신측 장치로의 ROI 정보의 대역 내(in-band) 또는 대역 외(out-of-band) 시그널링을 포함한다. ROI 트래킹은 ROI 모션에 응답하여 ROI 맵의 동적 조정을 포함한다. 액세스 인증은 원격 ROI 제어를 위해 수신측 장치들로의 액세스 권리 및 레벨들의 허가뿐만 아니라 로컬 사용자들과 원격 사용자들 사이, 또는 다수의 원격 사용자들에서 ROI 제어 충돌들의 해결을 포함한다.

ROI 추출은 설명에 기초하여 ROI를 규정하는 정보를 발생하기 위해 관심 영역(ROI)의 사용자 설명을 처리하는 것을 포함할 수 있다. 근단 비디오는 근단 비디오의 비-ROI 영역들과 관련하여 ROI의 이미지 품질을 개선하기 위해 ROI를 규정하는 정보에 기초하여 인코딩될 수 있다. 사용자 설명은 문서형, 그래픽 또는 음성에 기반할 수 있다. 추출 모듈은 사용자 설명으로부터 발생된 ROI 정보에 적절한 처리를 적용한다. 추출 모듈은 비디오 통신 장치에 로컬적으로 상주하거나 ROI 추출을 위해 구성된 개별 중간 서버 내에 상주할 수 있다.

일 실시예에서, 본 개시물은 로컬 장치(local device)에 의해 인코딩되고 원격 장치에 의해 수신된 근단 비디오 내의 관심 영역(ROI)을 규정하는 원격 장치로부터의 정보를 수신하는 단계 및 상기 비디오의 비-ROI 영역들과 관련하여 ROI의 이미지 품질을 개선하기 위해 ROI에 기초하여 근단 비디오를 인코딩하는 단계를 포함하는 방법을 제공한다.

또다른 실시예에서, 본 개시물은 원격 장치로 전송된 근단 비디오 내의 관심 영역(ROI)을 규정하는 원격 비디오 통신 장치로부터 정보를 수신하는 관심 영역(ROI) 엔진 및 상기 비디오의 비-ROI 영역들과 관련하여 ROI의 이미지 품질을 개선하기 위해 근단 비디오를 인코딩하는 비디오 인코더를 포함하는 비디오 인코딩 장치를 제공한다.

또다른 실시예에서, 본 개시물은 원격 장치에 의해 전송되고 로컬 장치에 의해 수신된 원단 비디오 내의 관심 영역(ROI)을 규정하는 정보를 발생하는 단계 및 상기 비디오의 비-ROI 영역들과 관련하여 ROI의 이미지 품질을 개선하기 위해 ROI에 기초하여 원단 비디오를 인코딩하는데 사용하기 위한 정보를 원격 장치에 전송하는 단계를 포함하는 방법을 제공한다.

추가 실시예에서, 본 개시물은 원격 장치로부터 수신된 원단 비디오 내의 관심 영역(ROI)을 규정하는 정보를 발생하는 관심 영역(ROI) 엔진 및 근단 비디오를 인코딩하고, 상기 원단 비디오의 비-ROI 영역들과 관련하여 ROI의 이미지 품질을 개선하기 위해 ROI에 기초하여 원단 비디오를 인코딩하는데 원격 장치가 사용하기 위해 상기 인코딩된 근단 비디오와 함께 ROI를 규정하는 정보를 전송하는 정보를 원격 장치에 전송하는 비디오 인코더를 포함하는 비디오 인코딩 장치를 제공한다.

또다른 실시예에서, 본 개시물은 로컬 장치에 의해 발생된 근단 비디오 내의 관심 영역(ROI)의 설명을 사용자로부터 수신하는 단계, 상기 설명에 기초하여 ROI를 규정하는 정보를 발생하는 단계 및 근단 비디오의 비-ROI 영역들과 관련하여 ROI의 이미지 품질을 개선하기 위해 ROI를 규정하는 정보에 기초하여 근단 비디오를 인코딩하는 단계를 포함하는 방법을 제공한다.

추가 실시예에서, 본 개시물은 비디오 인코딩 장치에 의해 인코딩된 근단 비디오 내의 관심 영역(ROI)의 설명을 수신하고, 상기 설명에 기초하여 ROI를 규정하는 정보를 발생하는 관심 영역(ROI) 엔진 및 상기 비디오의 비-ROI 영역들과 관련하여 ROI의 이미지 품질을 개선하기 위해 근단 비디오를 인코딩하는 비디오 인코더를 포함하는 비디오 인코딩 장치를 제공한다.

추가 실시예에서, 본 개시물은 근단 비디오를 인코딩하는 제 1 비디오 통신 장치, 상기 제 1 비디오 통신 장치로부터의 상기 근단 비디오를 수신하고, 상기 제 1 비디오 통신 장치로부터 발생된 상기 근단 비디오 내의 관심 영역(ROI)의 사용자 설명을 발생하는 제 2 비디오 통신 장치, 및 상기 제 1 및 제 2 비디오 통신 장치와 구조적으로 구별되며, 상기 설명에 기초하여 상기 ROI를 규정하는 정보를 발생하는 중간 서버를 포함하는 비디오 인코딩 시스템을 제공하며, 상기 제 1 디비오 통신 장치는 상기 근단 비디오의 비-ROI 영역들과 관련하여 상기 ROI의 이미지 품질을 개선하기 위해 상기 ROI를 규정하는 정보에 기초하여 상기 근단 비디오를 인코딩한다.

본 명세서에 개시된 기술들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합에서 구현될 수 있다. 소프트웨어에서 구현되는 경우에, 상기 기술들은 실행될 때, 본 명세서에 개시된 하나 또는 그 이상의 방법들을 수행하도록 지시하는 명령을 포함하는 컴퓨터 코드를 구비한 컴퓨터로 읽을 수 있는 매체에 의해 부분적으로 실행될 수 있다.

일 또는 그 이상의 실시예들의 세부 설명들이 하기의 도면을 참조로 하여 설명된다. 다른 특징들, 목적들 및 장점들은 하기의 설명, 도면 및 청구항으로부터명백할 것이다.??

도 1은 ROI-인식형 비디오 인코더-디코더들(CODECs)을 포함하는 비디오 인코딩 및 디코딩 시스템을 도시하는 블럭 다이어그램이다.

도 2는 무선 통신 장치와 결합된 디스플레이에 표현되는 비디오 장면 내에서 ROI의 정의를 도시하는 다이어그램이다.

도 3은 ROI-인식 CODEC을 포함하는 통신 장치를 도시하는 블럭 다이어그램이다.

도 4는 ROI-인식 CODEC을 구비하며 추가로 ROI 추출 모듈을 통합하는 또다른 통신 장치를 도시하는 블럭 다이어그램이다.

도 5는 중간 추출 서버를 통해 분포된 ROI 추출을 도시하는 블럭 다이어그램이다.

도 6은 다수의 비디오 전화기 세션들을 위해 분포된 ROI 추출을 도시하는 블럭 다이어그램이다.

도 7A-7D는 사용자에 의한 선택을 위해 미리-정의된 ROI 패턴들을 도시하는 다이어그램들이다.

도 8은 원격 송신측 장치에서 근단 비디오의 우선적인 ROI 인코딩을 제어하기 위해 수신측 장치에서 ROI 정보의 발생을 설명하는 흐름도이다.

도 9는 ROI 트래킹과 함께 송신측 장치에서 근단 비디오의 우선적인 ROI 인코딩을 위해 수신측 장치로부터 ROI 정보를 처리하는 것을 설명하는 흐름도이다.

도 10은 사용자 인증과 함께 송신측 장치에서 근단 비디오의 우선적인 ROI 인코딩을 위해 수신측 장치로부터 ROI 정보를 처리하는 것을 설명하는 흐름도이다.

도 11은 미리 정의된 ROI 패턴들의 선택을 설명하는 흐름도이다.

도 12는 ROI 템플릿의 확대 및 축소에 의해 디스플레이된 비디오 장면에서 ROI 패턴의 정의를 도시하는 다이어그램이다.

도 13은 ROI 템플릿을 드래그함으로써 디스플레이된 비디오 장면에서 ROI 패턴의 정의를 도시하는 다이어그램이다.

도 14는 스타일러스 사용하여 터치 스크린상에 ROI 영역을 그림으로써 디스플레이된 비디오 장면에서 ROI 패턴의 정의를 도시하는 다이어그램이다.

도 15는 규정된 ROI 물체들이 동적으로 추출되고 트래킹되는 드롭-다운 메뉴를 사용하여 디스플레이된 비디오 장면에서 ROI 패턴의 정의를 도시하는 다이어그램이다.

도 16은 도 7A-7D에서와 같이 규정된 ROI 물체들이 미리 정의된 ROI 패턴들로 맵핑되는 드롭-다운 메뉴를 사용하여 디스플레이된 비디오 장면에서 ROI 패턴의 정의를 도시하는 다이어그램이다.

도 17은 ROI 설명 인터페이스를 사용하여 디스플레이된 비디오 장면에서 ROI 패턴의 정의를 도시하는 흐름도이다.

도 18은 송신측 및 수신측 장치들 사이에서 ROI 충돌들의 해결을 설명하는 흐름도이다.

도 19는 원단 비디오 내의 ROI 매크로 블럭들의 우선적인 디코딩을 설명하는 흐름도이다.

도 1은 ROI-인식형 비디오 인코더-디코더들(CODECs)을 통합하는 비디오 인코딩 및 디코딩 시스템(10)을 도시하는 블럭 다이어그램이다. 도 1에 도시된 것과 같이, 시스템(10)은 제 1 비디오 통신 장치(12) 및 제 2 비디오 통신 장치(14)를 포함한다. 통신 장치들(12, 14)은 전송 채널(16)에 의해 접속된다. 전송 채널(16)은 유선 또는 무선 매체가 될 수 있다. 시스템(10)은 비디오 전화기를 위한 비디오 통신 장치들(12, 14) 사이에서 양방향 비디오 전송을 지원한다. 장치들(12, 14)은 실질적으로 대칭하는 방식으로 동작한다. 그러나 몇몇 실시예들에서, 비디오 통신 장치들(12, 14) 중 하나 또는 둘 다는 ROI-인식형 비디오 스트리밍을 지원하기 위해 단 한 방향의 통신을 위해 구성될 수 있다.

양방향 응용들을 위해, 수신측 인코딩, 디코딩, 멀티플렉싱(MUX) 및 디멀티플렉싱(DEMUX) 구성요소들이 채널(16)의 반대측 단부들에 제공될 수 있다. 도 1의 예에서, 비디오 통신 장치(12)는 MUX/DEMUX 구성요소(18), ROI-인에이블된 비디오 코덱(20) 및 오디오 코덱(22)을 포함한다. 유사하게, 비디오 통신 장치(14)는 MUX/DEMUX 구성요소(26), ROI-인에이블된 비디오 코덱(28) 및 오디오 코덱(30)을 포함한다. 각각의 코덱(20, 28)은 또다른 비디오 통신 장치(12, 14) 로부터 원격으로 제공되거나 자신의 비디오 통신 장치로부터 로컬적으로 제공된 ROI 정보를 처리할 수 있다는 관점에서 "ROI-인식형"이다.

비디오 통신 장치들(12, 14)은 비디오 스트리밍, 비디오 전화기 또는 둘 다를 위해 구비되는 무선 이동 단말기들 또는 유선 단말기들로 구현될 수 있다. 이를 위해, 비디오 통신 장치들(12, 14)은 무선 통신을 지원하기 위한 적절한 송신기, 수신기, 모뎀 및 프로세싱 전자기기들을 추가로 포함할 수 있다. 무선 이동 단말기들의 예들은 이동 무선 전화기들, 이동 개인 디지털 보조장치들(PDAs), 이동 컴퓨터들, 또는 무선 통신 성능들 및 비디오 인코딩 및/또는 디코딩 성능들이 구비된 다른 이동 장치들을 포함한다. 유선 단말기들의 예들은 데스크탑 컴퓨터들, 비디오 전화기들, 네트워크 기기들, 셋-톱 박스들, 대화형 텔레비전 등등을 포함한다. 비디오 통신 장치(12, 14)는 비디오 정보를 전송하거나, 비디오 정보를 수신하거나, 비디오 정보를 송수신하기 위해 구성될 수 있다.

비디오 전화기 응용들을 위해, 장치(12)가 비디오 전송 및 수신 성능들 모두를 지원하는 것이 바람직하다. 그러나, 비디오 애플리케이션들을 스트리밍하는 것은 고려되어야 한다. 비디오 전화기, 특히 무선 통신에 의한 이동 비디오 전화기에서, 대역폭은 매우 중요하다. 따라서, 추가 인코딩 비트들의 ROI로의 선택적인 할당 또는 다른 우선적인 인코딩 단계들은 전체 인코딩 효율을 유지하면서 비디오의 일부분의 이미지 품질을 개선할 수 있다. 우선적인 인코딩을 위해, 추가의 비트들은 ROI에 할당될 수 있고, 감소된 개수의 비트들이 비디오 장면 내의 배경과 같은 비-ROI 영역들에 할당될 수 있다.

일반적으로, 시스템(10)은 비디오 전화기(VT) 응용들을 위해 관심 영역(ROI) 프로세싱을 위한 기술들을 사용한다. 그러나, 상기 기술들은 전술된 것과 같이 비디오 스트리밍 응용들에 적용할 수 있다. 설명을 위해, 각각의 비디오 통신 장치(12, 14)는 비디오 정보의 송신자 및 수신자 모두로서 동작할 수 있고, 따라서 VT 세션의 전체 참여자로서 동작할 수 있다. 비디오 정보가 비디오 통신 장치(12)로부터 비디오 통신 장치(14)로 전송되기 위해, 비디오 통신 장치(12)는 송신측 장치가고, 비디오 통신 장치(14)는 수신측 장치가다. 대조적으로, 비디오 정보가 비디오 통신 장치(14)로부터 비디오 통신 장치(12)로 전송되기 위해, 비디오 통신 장치(12)는 수신측 장치가고, 비디오 통신 장치(14)는 송신측 장치가다. 로컬 비디오 통신 장치(12, 14)에 의해 인코딩되어 전송될 비디오 정보를 논의할 때, 비디오 정보는 "근단" 비디오로 지칭될 수 있다. 원격 비디오 통신 장치(12, 14)로부터 인코딩되고 수신될 비디오 정보를 논의할 때, 비디오 정보는 "원단" 비디오로 지칭될 수 있다.

개시된 기술들에 따라, 수신측 장치로 동작할 때, 비디오 통신 장치(12 또는 14)는 송신측 장치로부터 수신된 원단 비디오 정보를 위한 ROI 정보를 정의한다. 다시, 송신측 장치로부터 수신된 비디오 정보는 통신 장치의 원단에 위치된 다른 (송신측) 장치로부터 수신된다는 의미에서 "원단" 비디오 정보로 간주될 것이다. 유사하게, 송신측 장치로부터 수신된 비디오 정보에 대하여 정의된 ROI 정보는 "원단" ROI 정보로 간주될 것이다. 원단 ROI는 일반적으로 원단 비디오의 수신자가 가장 관심을 가지는 원단 비디오 내의 영역을 지칭한다. 수신측 장치는 원단 비디오 정보를 디코딩하고 디스플레이 장치를 통해 디코딩된 원단 비디오를 사용자에게 나타낸다. 사용자는 원단 비디오에 의해 표현된 비디오 장면 내에서 ROI를 선택한다.

수신측 장치는 사용자에 의해 선택된 ROI에 기초하여 원단 ROI 정보를 발생하고, 상기 원단 ROI 정보를 송신측 장치에 전송한다. 원단 ROI 정보는 ROI 내에 상주하는 MB들과 관련하여 ROI를 정의하는 ROI 매크로 블럭(MB) 맵의 형식을 취할 수 있다. ROI MB 맵은 (1)의 ROI에 포함되고, (0)의 ROI으로부터 제외되는 MB들을 용이하게 식별하기 위해 1을 가지는 ROI 내에 있는 MB들을 플래그할 수 있다. MB는 하나의 프레임의 일부분을 형성하는 비디오 프레임이다. MB의 크기는 16×16 픽셀들이 될 수 있다. 그러나, 다른 MB 크기들이 가능할 수 있다. 따라서, MB는 MPEG-1, MPEG-2 및 MPEG4, ITU H.263, ITU H.264 또는 임의의 다른 표준과 같은 특정 비디오 코딩 표준 내에서 정의된 것과 같은 매크로 블럭을 포함하지만 이에 제한되지 않는 임의의 비디오 블럭을 지칭할 수 있다.

수신측 장치에 의해 전송된 원단 ROI 정보를 사용하여, 송신측 장치는 비디오 장면 내의 상응하는 ROI에 우선적인 인코딩을 적용한다. 특히, 추가의 인코딩 비트들은 ROI에 할당될 수 있지만, 감소된 양의 인코딩 비트들은 비-ROI 영역들에 할당될 수 있고, 따라서 ROI의 이미지 품질을 개선한다. 상기 방식에서, 수신측 장치는 송신측 장치에 의한 원단 비디오 정보의 ROI 인코딩을 원격으로 제어할 수 있다. 우선적인 인코딩은 ROI 영역 내의 우선적인 비트 할당 또는 우선적인 양자화에 의해 비디오 장면의 비-ROI 영역들보다 ROI 영역에 더 높은 품질의 인코딩을 적용한다. 우선적으로 인코딩된 ROI는 수신측 장치의 사용자가 물체 또는 영역을 더 명확하게 보는 것을 허용한다. 예를 들어, 수신측 장치의 사용자는 비디오 장면의 배경 영역들보다 더 명확하게 얼굴 또는 임의의 다른 물체를 볼 수 있는 것을 원할 수 있다.

송신측 장치로 동작할 때, 비디오 통신 장치(12 또는 14)는 송신측 장치에 의해 전송된 비디오 정보를 위한 ROI 정보를 정의할 수 있다. 다시, 송신측 장치에서 발생된 비디오 정보는 통신 채널의 근단에서 발생된다는 의미에서 "근단" 비디오로 지칭될 것이다. 송신측 장치에 의해 발생된 ROI 정보는 "근단" ROI 정보로 지칭될 것이다. 근단 ROI는 일반적으로 송신자가 수신자로 강조할 것을 원하는 근단 비디오의 영역을 지칭한다. 따라서, ROI는 수신측 장치 사용자에 의해 원단 ROI 정보로 규정되거나 송신측 장치 사용자에 의해 근단 ROI 정보로 규정될 수 있다. 송신측 장치는 디스플레이 장치를 통해 사용자에게 근단 비디오를 표현한다. 송신측 장치와 연관된 사용자는 근단 비디오에 의해 표현되는 비디오 장면 내에서 ROI를 선택한다. 송신측 장치는 사용자-선택된 ROI를 사용하여 근단 비디오를 인코딩하며, 따라서 근단 비디오 내의 ROI는 비-ROI 영역들과 관련하여 더 높은 품질 인코딩을 사용하여 우선적으로 인코딩된다.

송신측 장치에서 로컬 사용자에 의해 선택되거나 정의되는 근단 ROI는 송신측 장치의 사용자가 비디오 장면 내의 영역들 또는 물체들을 강조하도록 하며, 따라서 상기 영역들 또는 물체들을 수신측 장치에 사용자의 주의를 지시한다. 특히, 송신측 장치 사용자에 의해 선택된 근단 ROI는 수신측 장치에 전송될 필요가 없다. 대신에, 송신측 장치는 수신측 장치에 전송되기 전에 근단 비디오를 로컬적으로 인코딩하기 위해 선택된 근단 ROI 정보를 사용한다. 그러나, 몇몇 실시예들에서, 송신측 장치는 에러 숨김과 같은 더 높은 품질의 에러 정정 또는 블럭킹 차단 및 벨울림 차단과 같은 사후-프로세싱과 같은 우선적인 디코딩 기술들의 적용을 허용하기 위해 ROI 정보를 수신측 장치에 전송할 수 있다.

만약 ROI 정보가 송신측 장치 및 수신측 장치 모두에 의해 제공되면, 송신측 장치는 수신측 장치로부터의 수신된 원단 ROI 정보 및 근단 비디오를 인코딩하기 위해 로컬적으로 발생된 근단 ROI 정보를 적용한다. ROI 충돌들은 송신측 장치 및 수신측 장치에 의해 제공되는 근단 및 원단 ROI 선택들 사이에서 발생할 수 있다. 상기 충돌들은 본 개시물에 설명되는 것과 같이 로컬 사용자에 의한 활동적인 해결 또는 규정된 액세스 권리들 및 레벨들에 따른 해결과 같은 해결을 요구할 수 있다. 상기 경우에, 송신측 장치는 송신측 장치에 의해 로컬적으로 또는 수신측 장치에 의해 원격으로 제공된 근단 ROI 정보에 기초하여 ROI를 우선적으로 인코딩한다.

ROI 프로세싱을 용이하게 하기 위해, 본 개시물은 추가로 ROI 선택, ROI 맵핑, ROI 추출, ROI 시그널링, ROI 트래킹 및 송신측 장치에 의한 ROI 인코딩의 원격 제어를 허용하도록 수신측 장치들의 액세스 인증을 위한 기술들을 고려한다. 설명되는 것과 같이, 수신측 장치 또는 송신측 장치에 의해 적용된 서로 다른 ROI 선택 기술들은 미리 정의된 ROI 패턴들, 구두형 또는 문서형 ROI 설명들, 또는 사용자에 의한 ROI 그림의 선택을 포함할 수 있다. 수신측 장치에서, ROI 맵핑은 비디오 인코더에 의한 사용에 적합한 매크로 블럭(MB) 맵의 형태를 취할 수 있는 ROI 맵으로 선택된 원단 또는 근단 ROI 패턴의 변환을 포함한다. ROI 시그널링은 수신측 장치로부터 송신측 장치로의 ROI 정보의 대역 내(in-band) 또는 대역 외(out-of-band) 시그널링을 포함한다. ROI 트래킹은 ROI 모션에 응답하여 수신측 장치에 의해 발생된 원단 ROI 맵 또는 송신측 자체에 의해 발생된 로컬 근단 ROI의 동적 조정을 포함한다. 액세스 인증은 원격 원단 ROI 제어를 위해 수신측 장치들로의 액세스 권리 및 레벨들의 허가뿐만 아니라 로컬 사용자들과 원격 사용자들 사이의 ROI 제어 충돌들의 해결을 포함한다.

시스템(10)은 세션 초기화된 프로토콜(SIP), ITU H.323 표준, ITU H.324 표준, 또는 다른 표준들에 따라 비디오 전화기를 지원할 수 있다. 각각의 비디오 코덱(20, 28)은 MPEG-2, MPEG-4, ITU H.263 또는 ITU H.264와 같은 비디오 압축 표준에 따라 인코딩된 비디오 데이터를 발생한다. 도 1에 추가로 도시된 것과 같이, 비디오 코덱들(20, 28)은 개별 오디오 코덱들(22, 30)과 통합될 수 있고, 데이터 스트림의 오디오 및 비디오 부분을 처리하기 위해 적절한 MUX/DEMUX 구성요소(18, 26)들을 포함한다. MUX-DEMUX 유니트들(18, 26)은 사용자 데이터그램 프로토콜(UDP)과 같은 다른 프로토콜들 또는 ITU H.223 멀티플렉서 프로토콜을 따를 수 있다.

도 2는 무선 통신 장치(38)와 결합된 디스플레이(36) 상에 표현된 비디오 장면(34) 내에서 ROI(32)의 정의를 도시하는 다이어그램이다. 도 2의 예에서, ROI(32)는 비디오 장면(34) 내에 표현된 사람의 얼굴(39)을 포함하는 직사각형 영역이지만, ROI는 개선되거나 증진된 인코딩이 요구되는 임의의 이미지 또는 물체를 포함할 수 있다. VT 응용들에서, 비디오 장면(34) 내에 표현된 사람은 일반적으로 수신측 장치로서 동작하는 무선 통신 장치(38)의 사용자와 비디오 회의에 참여하는 원격 송신측 장치의 사용자가 될 수 있다. ROI(32)는 원격 송신측 장치로부터 전송된 비디오 장면 내에서 ROI를 정의하는 원단 ROI를 구성한다. 상기 개시물에 따라, 원단 ROI(32)는 ROI 내의 비디오 장면의 영역의 우선적인 인코딩을 규정하기 위해 송신측 장치에 전송된다. 상기 방식에서, 수신측 장치(38)의 로컬 사용자는 원단 ROI(32)의 이미지 품질을 원격으로 제어할 수 있다. 설명되는 것과 같이, 원단 ROI(32)의 크기, 모양 및 위치는 고정되거나 조정가능하며, 다양한 방식들로 정의되거나, 설명되거나, 조정될 수 있다.

ROI(32)는 사람의 얼굴(39)과 같은 비디오 장면(34) 내의 개별 물체들을 수신측 장치 사용자가 더 명확하게 볼 수 있게 허용한다. ROI(32) 내의 얼굴(39)은 비디오 장면(34)의 배경 영역과 같은 비-ROI 영역들과 관련하여 더 높은 이미지 품질로 인코딩된다. 상기 방식에서, 사용자는 얼굴 표정들, 입술의 이동, 눈의 이동 등등을 더 명확히 볼 수 있다. 그러나, ROI(32)는 얼굴이 아닌 임의의 물체들을 규정하기 위해 선택적으로 사용될 수 있다. 일반적으로 말해서, VT 응용들에서 ROI는 매우 주관적이며, 사용자로부터 사용자로 달라질 수 있다. 요구되는 ROI는 VT가 사용되는 방식에 따라 결정된다. 몇몇 경우들에서, VT는 비디오 회의와는 달리 물체들을 보고 평가하기 위해 사용될 수 있다.

예를 들어, 남편은 그가 공항의 선물 가게에서 사려고 하는 선물들을 VT 애플리케이션을 사용하여 볼 수 있다. 남편은 그의 와이프로부터 적시에 대화형 방식으로 제 2 옵션을 획득하려고 할 수 있다. 이를 수행함으로써, 그의 비행기가 출발하려고 할 때 즉시 결정을 내릴 수 있다. 상기 경우에, ROI는 남편이 고려하는 선물들을 커버하는 영역이다. 와이프(또는 남편)이 ROI를 선택하는 것을 허용함으로써, 특정 ROI에 대하여 양호한 인코딩 또는 양호한 서비스 품질을 달성할 수 있고, 따라서 와이프가 선물들을 더 명확하게 볼 수 있도록 한다.

또다른 예로서, 둘 또는 그 이상의 엔지니어들은 화이트 보드 상에 다양한 공식들 또는 도면들의 표현 및 논의를 포함하는 VT 호출을 수행할 수 있다. 상기 경우에, 원격 사용자는 공식의 세부 부분을 더 명확하게 보기 위해 더 우수한 이미지 품질로 화이트 보드의 일부분을 보기를 원할 수 있다. 이를 위해, 원격 사용자는 상기 식을 포함하는 ROI를 선택한다. 또한, 엔지니어가 화이트 보드에 추가할 때, 원격 사용자는 화이트 보드에 새로 추가되는 내용을 트래킹하기 위해 ROI를 이동하기를 원할 수 있다. 원격 사용자가 ROI를 규정하는 능력은 기술적 문제에서 정보의 변경을 상당히 개선한다.

본 명세서에 개시된 ROI 기술들은 ROI의 비디오 품질을 개선할 뿐만 아니라 2명의 사용자들 사이에서 비디오 대화들을 개선한다. 일반적으로, 종래의 VT 애플리케이션들은 2개의 일방향 비디오 전송들을 결합하였고 임의의 대화가 음성으로 수행되었다. 종래의 VT 애플리케이션들에서, 일반적으로 대화는 비디오 측면에서 존재하지 않았다. 수신측 장치 사용자가 VT 호출 동안 송신측 장치로부터 수신된 비디오 컨텐츠에서 제어가 제한되도록 하는 것은 비디오 대화가 증가되도록 허용한다.

상기 방식에서, VT 애플리케이션은 수신측 장치 사용자들이 ROI를 선택하고, 더 많은 인코딩 비트들의 할당 또는 예컨데 MB내 전환(refreshment)과 같은 더 강한 에러 보호를 사용하여 더 높은 품질의 인코딩과 같은 ROI의 우선적인 취급을 위해 송신측 장치에 ROI 정보를 다시 전송한다. 사실, 원단 ROI를 규정함으로써, 수신측 장치는 송신측 장치 인코더를 원격으로 제어할 수 있다. 부가적으로, 원단 ROI 정보는 에러 숨김, 블럭킹 차단, 또는 벨울림 차단와 같은 양호한 사후-처리를 위해 원단 비디오를 수신하는 장치에서 ROI-인식 비디오 디코더에 의해 사용될 수 있다. 인코딩된 비디오의 수신자에 의한 비디오 인코더의 원격 제어는 원격 카메라의 팬, 틸트, 줌 또는 포커스를 제어하는 것과는 다르다. 이와 대조적으로 원격 ROI 프로세싱을 사용하여, 사용자는 특정 영역 또는 영역들에 적용된 인코딩 품질에 영향을 미칠 수 있다. 그러나 몇몇 실시예들에서, 원격 카메라 제어는 원격 비디오 인코더 제어와 함께 제공될 수 있다.

도 3은 ROI-인식형 CODEC을 포함하는 비디오 통신 장치(12)를 도시하는 블럭 다이어그램이다. 도 3은 도 1의 비디오 통신 장치(12)를 도시하지만, 비디오 통신 장치(14)가 유사하게 구성될 수 있다. 다시, 비디오 통신 장치(12 또는 14)는 송신측 장치, 수신측 장치, 및 바람직하게 송수신 장치 모두로 기능할 수 있다. 도 3에 도시된 것과 같이, 비디오 통신 장치(12)는 ROI-인식형 CODEC(20), 비디오 포착 장치(40) 및 사용자 인터페이스(42)를 포함한다. 채널(16)이 도 3에 도시되어 있지만, MUX-DEMUX 및 오디오 구성요소들은 설명의 용이함을 위해 생략되었다. 비디오 포착 장치(40)는 비디오 통신 장치(12)와 통합되거나 동작가능하게 결합된 비디오 카메라가 될 수 있다. 몇몇 실시예들에서, 예를 들어, 비디오 포착 장치(40)는 이른바 비디오 카메라 전화기를 형성하기 위해 이동 전화기와 통합될 수 있다. 상기 방식에서, 비디오 포착 장치(40)는 이동 VT 애플리케이션들을 지원할 수 있다.

사용자 인터페이스(42)는 액정 디스플레이(LCD), 플라즈마 스크린, 프로젝터 디스플레이 또는 비디오 통신 장치(12)와 통합되거나 동작가능하게 결합될 수 있는 임의의 다른 디스플레이 장치와 같은 디스플레이 장치를 포함한다. 디스플레이 장치는 비디오 통신 장치(12)의 사용자에게 비디오 이미지를 제공한다. 비디오 이미지는 송신측 장치에 의해 원격으로 전송된 원단 비디오와 함께 비디오 포착 장치(40)에 의해 로컬적으로 획득된 근단 비디오를 포함한다. 부가적으로, 사용자 인터페이스(42)는 비디오 통신 장치(12)의 사용자에 의한 정보의 입력을 위해 하드 키들, 소프트 키들, 다양한 포인팅 장치들, 스타일러스 등등을 포함하는 다양한 사용자 입력 매체 중 몇몇을 포함할 수 있다. 몇몇 실시예들에서, 사용자 인터페이스(42)의 디스플레이 장치 및 사용자 입력 매체는 이동 전화기와 통합될 수 있다. 비디오 통신 장치(12)의 사용자는 원단 비디오 및 선택적으로 근단 비디오를 보기 위해 사용자 인터페이스(42)에 의존한다. 부가적으로, 사용자는 원단 ROI 및 선택적으로 근단 ROI의 정의 또는 선택을 위한 정보를 입력하기 위해 사용자 인터페이스(42)에 의존한다.

도 3에 추가로 도시된 것과 같이, ROI-인식형 CODEC(20)은 ROI 엔진(44), ROI-인식형 비디오 인코더(46) 및 ROI-인식형 비디오 디코더(48)를 포함한다. ROI-인식형 비디오 인코더(46)는 원격 수신측 장치로의 전송을 위해 비디오 포착 장치(40)로부터 획득된 근단 비디오("NEAR-END VIDEO")를 인코딩한다. 다시, 용어 "근단"는 비디오 통신 장치(14)와 같은 원격 비디오 통신 장치로부터 수신된 "원단" 비디오와는 달리 비디오 통신 장치(13) 내에서 로컬적으로 발생되는 비디오를 지정한다. 도 3의 예에서, ROI-인식 비디오 인코더(46)는 근단 ROI를 우선적으로 인코딩하기 위해 원격 수신기로부터 획득된 근단 ROI 정보("REMOTE NEAR-END ROI")를 사용한다. 원격 수신기는 원격 비디오 통신 장치(14)와 결합된 사용자이다.

원격 사용자의 관점에서, 원격 근단 ROI는 원격 장치(14)에 의해 전송될 때 원격 원단 ROI이고, 수신될 때 장치(12)의 로컬 사용자의 관점에서 원격 근단 ROI로 지칭된다. 즉, 장치(12, 14)의 송신자 또는 수신자로서의 관점은 비디오 및 ROI가 근단 또는 원단 비디오에 적용가능한 것으로 고려되는지를 결정한다. 다시, 원격 장치(14)에서 인코딩한 비디오를 원격으로 제어하는 로컬 장치(120의 사용자는 원단 ROI를 규정한다. 원격 장치(14)의 사용자가 원단 ROI를 수신하기 때문에, 원격 근단 ROI는 원격 장치(14)에 의해 인코딩되는 근단 비디오에 속하는 것으로 고려된다. 일반적으로, 본 개시물에서 사용되는 명칭들을 위해, 관점은 중요하다.

선택적으로, ROI-인식형 비디오 인코더(46)는 비디오 통신 장치(14)의 로컬 사용자로부터 획득된 근단 ROI 정보("LOCAL NEAR-END ROI")를 사용할 수 있다. 로컬 근단 ROI는 또한 인코딩된 근단 비디오의 송신자에 의해 발생되기 때문에 송신측-운영 ROI로 지칭될 수 있다. 로컬 근단 ROI 정보는 원격 장치(14) 내의 비디오 인코더가 송신측 장치(12)의 사용자에 의해 규정된 근단 ROI에 우선적인 디코딩을 적용하도록 설계되지 않는다면 로컬 인코더(46)에 의해 사용되고 다른 비디오 통신 장치(14)에 전송되지 않는다. 원격 근단 ROI는 또한 인코딩된 근단 비디오의 원격 수신자에 의해 발생되기 때문에 수신측-운영 ROI로 지칭될 수 있다. 원격 근단 ROI는 비디오 통신 장치(12)에 의해 발생된 비디오의 수신자가 ROI-인식형 인코더(46)에 의한 ROI 인코딩을 제어하도록 허용하는 반면, 로컬 근단 ROI는 비디오 통신 장치(12)에 의해 발생된 비디오의 송신자가 ROI-인식형 인코더(46)에 의한 ROI 인코딩을 제어하도록 허용한다. 몇몇 경우들에서, 원격 및 로컬 ROI 정의들은 설명되는 것과 같이 충돌 해결을 필요로 할 때 충돌할 수 있다.

로컬 및 원격 근단 ROI 정보는 ROI-인식형 인코더(46)에 근단 ROI 매크로블럭(MB) 맵("NEAR-END ROI MB MAP")으로 제공될 수 있다. 근단 ROI MB 맵은 수신측 근단 ROI 또는 송신측 근단 ROI 내에 상주하는 특정 MB들을 식별한다. ROI-인식형 인코더(46)는 더 높은 품질의 인코딩, 더 강한 에러 보호 또는 원격 비디오 통신 장치(14)와 같은 원격 사용자에 의해 관찰될 때 ROI의 이미지 품질을 개선하기 위해 근단 비디오 내의 ROI를 우선적으로 인코딩한다. ROI에 대한 양호한 에러 보호는 무선 전화기 애플리케이션들에서 특히 바람직할 수 있다. 결과적으로 인코딩된 근단 비디오("ENCODED NEAR-END ROI")는 그후에 원격 장치(14)로 전송된다.

설명되는 것과 같이, ROI-인식형 비디오 인코더(46)는 원격 비디오 통신 장치(14)로부터 수신된 원단 비디오를 위해 비디오 통신 장치(12)의 로컬 사용자에 의해 발생된 원단 ROI 정보("FAR-END ROI")를 전송한다. 원단 ROI는 원격 비디오 통신 장치(14)에 의해 인코딩된 비디오를 위해 수신측-구동 ROI로 제공된다. 사실, 비디오 통신 장치(12)에 의해 전송된 원단 ROI 정보는 ROI-인식형 디코더(48)에 의해 수신된 원격 근단 ROI가 ROI-인식형 비디오 인코더(46)를 제어하기 위해 비디오 통신 장치(12)에 의해 사용되기 때문에 원격 비디오 통신 장치(14)에 의해 발생된 원단 비디오의 인코더의 적어도 부분적인 제어를 허용한다. 상기 방식에서, 각각의 비디오 통신 장치(12, 14)는 다른 장치에 의해 발생된 원단 비디오에서 ROI 인코딩에 영향을 줄 수 있다.

비디오 통신 장치(12)에 의해 전송된 원단 ROI 정보는 대역 내 또는 대역 외 시그널링 정보로서 전송될 수 있다. 대역 내 시그널링의 경우에, 원단 ROI 정보는 원격 비디오 통신 장치(14)에 전송되는 인코딩된 근단 비디오 비트스트림 내에 삽입될 수 있다. MPEG4 비트 스트림 포맷에서, 예를 들어, 상기 비트스트림을 설명하는 정보를 삽입하는데 사용될 수 있는 "사용자_데이터"라 불리는 필드가 존재한다. "사용자_데이터" 필드 또는 다른 비트스트림 포맷들에서의 유사 필드는 비트스트림 컴플라이언스를 위반하지 않고 원단 ROI 정보를 삽입하는데 사용될 수 있다. 선택적으로, ROI 정보는 스테가노그래피(Steganography)와 같은 이른바 데이터 은닉 기술들에 의해 비디오 비트스트림 내에 삽입될 수 있다.

ROI-인식형 비디오 디코더(48)는 사용자_데이터 필드 내의 또는 원격 장치로부터 입력된 원단 비디오 내에서 ROI 정보를 찾도록 구성된다. 대역 외 시그널링의 경우에, ITU H.245 또는 SIP와 같은 시그널링 프로토콜은 원단 ROI 정보를 전달하기 위해 사용될 수 있다. 상기 경우에, 원단 ROI 정보는 원단 ROI의 위치 및/크기를 정의하는 물리적인 좌표들 또는 ROI MB 맵의 형태를 취할 수 있다. 디코더(48)가 원단 비디오 비트스트림을 수신하면, 원격 송신측 장치와의 합의된 포맷에 기초하여 ROI 정보를 검색하며, 원격 근단 ROI를 비디오 인코더(56)에 제공하기 전에 근단 ROI 제어를 위한 액세스 허가를 획득하기 위해 상기 ROI 정보를 액세스 인증 모듈(58)에 제공한다.

원단 비디오 내의 ROI를 우선적으로 인코딩하기 위해 원격 비디오 인코더를 제어하는데 부가하여, 원단 ROI 정보는 원단 비디오 내의 ROI내에서 MB들을 우선적으로 디코딩하기 위한 로컬 비디오 디코더에 적용될 수 있다. 예를 들어, 도 3에 도시된 것과 같이, 원격 인코더로의 전송을 위해 ROI 맵퍼(54)에 의해 발생된 동일한 원단 ROI MB 맵은 ROI-인식형 비디오 디코더(48)에 제공될 수 있다. ROI-인식형 비디오 디코더(48)는 원격 비디오 통신 장치(14)로부터 수신된 원단 비디오 내의 MB들을 우선적으로 디코딩하기 위해 ROI MB 맵을 사용한다. 예를 들어, ROI-인식형 비디오 디코더(48)는 비-ROI MB들 보다 양호한 사후-처리를 ROI MB들에 적용할 수 있다. 부가적으로, 또는 선택적으로, ROI-인식형 비디오 디코더(48)는 비-ROI MB들 보다 더 견고한 에러 숨김 기술들을 ROI MB들에 적용할 수 있다. 상기 방식에서, ROI-인식형 비디오 디코더(48)는 개선된 이미지 품질을 위해 입력되는 원단 비디오의 ROI 부분을 우선적으로 디코딩하기 위해 로컬 사용자에 의해 발생된 원단 ROI 정보에 의존한다.

ROI-인식형 비디오 디코더(48)는 예를 들면, 도 1의 비디오 통신 장치(14)와 같은 원격 비디오 통신 장치로부터 입력되는 원단 비디오를 수신한다. ROI-인식형 비디오 디코더(48)는 디스플레이 장치 상에 로컬 사용자에 대한 표현을 위해 원단 비디오를 디코딩하고, 디코딩된 비디오를 사용자 인터페이스(42)에 제공한다. 부가적으로, 전송된 것과 같이, ROI-인식형 비디오 디코더(48)는 원격 비디오 통신 장치(14)로부터 원격 근단 ROI 정보("REMOTE NEAR-END ROI")를 수신한다. ROI-인식형 비디오 디코더(48)로부터 수신된 근단 ROI 정보는 비디오 통신 장치(12)에 의해 전송된 비디오 내의 ROI를 규정하기 위해 원격 비디오 통신 장치(14)의 사용자에 의해 발생된다. 전술된 것과같이, ROI-인식형 비디오 디코더(48)에 의해 수신된 원격 근단 ROI 정보는 비디오 통신 장치(12)에 의해 발생된 근단 비디오에서 ROI를 우선적으로 인코딩하기 위해 ROI-인식형 비디오 인코더(46)를 원격으로 제어하는데 사용된다. 원격 근단 ROI는 전술된 것과 같이, 대역 내 또는 대역 외 시그널링 기술들에 의해 전송된다.

도 3을 참조로 하여, ROI-인식형 비디오 인코더(46) 및 ROI-인식형 비디오 디코더(48)는 ROI 엔진(44)과 상호작용한다. ROI 엔진(44)은 비디오 포착 장치(40)로부터 근단 비디오 비트스트림의 인코딩 및 전송을 위해 로컬 및 원격의 근단 ROI 정보를 처리한다. 부가적으로, ROI 엔진(44)은 원격 비디오 통신 장치(14)로의 인코딩 및 전송을 위해 사용자 인터페이스(42)를 통해 제공된 원단 ROI 정보를 처리한다. ROI 엔진(44)은 ROI 제어기(52), ROI 맵퍼(54), ROI 트래킹 모듈(56) 및 인증 모듈(58)을 포함한다. 몇몇 실시예들에서, ROI 트래킹 모듈(56) 및 인증 모듈(58)은 선택적일 수 있다.

ROI-인식형 비디오 인코더(46), ROI-인식형 비디오 디코더(48), ROI 제어기(52), ROI 맵퍼(54), ROI 트래킹 모듈(56) 및 인증 모듈(58)은 다양한 방식들로 각각의 모듈에 속하는 기능을 함축하는 이산 기능 모듈들 또는 모놀리식 모듈로 형성될 수 있다. 임의의 경우에, ROI 엔진(44), 비디오 인코더(46) 및 비디오 디코더(48)를 포함하여 ROI-인식형 CODEC(20)의 다양한 구성요소들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합으로 구현될 수 있다. 예를 들어, 상기 구성요소들은 하나 또는 그 이상의 마이크로 프로세서들 또는 디지털 신호 처리기들(DSPs), 하나 또는 그 이상의 애플리케이션용 집적 회로들(ASICs), 하나 또는 그 이상의 현 장 프로그램 가능한 게이트 어레이들(FPGAs), 또는 다른 등가의 집적 또는 이산 로직 회로에서 실행하는 소프트웨어 프로세스들로서 동작할 수 있다. 소프트웨어에서 구현되는 경우에, 기술들은 프로세서 또는 DSP에서 실행될 때 본 명세서에 개시된 방법들 중 하나 또는 그 이상을 수행하는 명령들을 가지는 프로그램 코드를 포함하는 컴퓨터로 읽을 수 있는 매체에 의해 부분적으로 구현될 수 있다.

동작에서, 비디오 통신 장치(12)의 사용자는 비디오 포착 장치(40)에 의해 발생된 근단 비디오 또는 사용자 인터페이스(42)와 연관된 디스플레이 장치에서 보기 위한 ROI-인식형 비디오 디코더(48)에 의해 디코딩된 원단 비디오를 선택한다. 몇몇 실시예들에서, 픽처-인-픽처(PIP) 기능은 사용자가 근단 비디오와 원단 비디오를 동시에 볼 수 있게 한다. ROI 정의를 위해 근단 또는 원단 비디오를 보기 위해, 사용자는 ROI 정의 모드를 불러내기 위해 사용자 인터페이스(42)를 조작할 수 있다. 디폴트(default)에 의해, 비디오 통신 장치(12)는 ROI 고려 사항들 없이 비디오 인코딩 및 디코딩을 처리할 수 있다. ROI 정의 모드에 진입함으로써, 사용자는 비디오 통신 장치(12)의 ROI- 인식형 인코딩 및 디코딩 양상들을 활성화한다. 선택적으로, ROI-인식형 인코딩 및 디코딩은 디폴트 모드가 될 수 있다.

원단 비디오의 표현시, 사용자는 하기에서 상세히 설명되는 다양한 기술들 중 일부를 사용하여 원단 비디오 내이 ROI를 표시한다. 원단 ROI는 비디오 장면 내에서 사용자에게 관심이 되고, 더 높은 이미지 품질이 요구되는 영역 또는 물체를 강조한다. 사용자 인터페이스(42)는 사용자 입력에 기초하여 원단 ROI 표시를 발생한다. ROI 정보는 비디오 통신 장치(14)로의 전송을 위해 원단 ROI 정보를 발생하기 위해 ROI 엔진에 의해 추가로 처리될 수 있다.

사용자는 ROI 정의를 위해 비디오 포착 장치(40)로부터 획득된 근단 비디오를 선택할 수 있다. 근단 비디오의 표현시, 사용자는 원단 비디오 내의 ROI 표시를 위해 사용된 것과 유사하거나 동일한 기술들을 사용하여 근단 비디오 내에 ROI를 표시할 수 있다. 근단 ROI 또는 원단 ROI는 VT 호출의 시작에서 먼저 또는 VT 호출의 코스 동안 임의의 시간에 규정될 수 있다. 몇몇 실시예들에서, 초기 ROI는 원격 사용자 또는 로컬 사용자에 의해 업데이트되거나 ROI 트래킹 모듈(56)에 의해 자동으로 업데이트될 수 있다. ROI가 자동으로 업데이트되는 경우에, 사용자가 ROI 정보를 계속해서 입력해야할 필요는 없다. 대신에, ROI는 사용자가 ROI를 변경하거나 중단할 때까지 사용자에 의한 초기 입력에 기초하여 유지될 것이다.

사용자 인터페이스(42)는 사용자에 의해 제공된 표시에 기초하여 로컬 근단 ROI 표시를 발생한다. 원단 ROI와 유사하게, 근단 ROI 표시는 ROI 엔진(44)에 의해 추가 처리될 수 있다. 근단 ROI 표시는 비디오 장면 내에서 사용자가 원격 사용자에게 강조하기 원하는 영역 또는 물체들을 증가된 이미지 품질에 의해 강조한다. 로컬 사용자는 사용자 인터페이스(42)를 통해 ROI 패턴을 그리거나 미리 정의된 ROI 패턴들을 선택함으로써 근단 ROI 또는 원단 ROI를 선택할 수 있다. ROI 패턴을 그리는 것은 스타일러스를 사용한 프리-핸드 드로잉, 또는 디폴트 ROI 패턴의 크기 조정 및 위치 조정을 포함할 수 있다.

도 3의 예에서, 사용자 인터페이스(42)는 제공되는 경우에 로컬 근단 ROI 표시 및 원단 ROI 표시를 ROI 엔진(44) 내의 ROI 제어기(52)로 제공한다. 부가적으로, ROI 제어기(52)는 인증 모듈(58)을 통해 ROI-인식형 비디오 디코더(480로부터 원격 근단 ROI를 수신한다. 특히, ROI-인식형 비디오 디코더(48)는 수신된 원단 비디오 스트림 내에서 또는 대역외 시그널링을 통해 원격 근단 ROI 정보의 존재를 검출하며, 원격 근단 ROI 정보를 인증 모듈(58)에 제공한다. 로컬 근단 ROI 및 원단 ROI 표시는 개별 근단 비디오 또는 원단 비디오의 비디오 프레임 내의 좌표들과 관련하여 표현될 수 있다. ROI의 좌표들은 비디오 프레임 내의 x-y 좌표들이 될 수 있다. 그러나, x-y 좌표들은 설명되는 것과 같이 인코더(46) 또는 디코더(48)에 의한 사용을 위해 ROI MB 맵을 발생하도록 처리된다.

ROI 제어기(54)는 로컬 근단 ROI, 원격 근단 ROI 및 원단 ROI를 처리하고, 이를 ROI 맵퍼(54)에 적용한다. ROI 맵퍼(54)는 개별 ROI 좌표들을 매크로블럭(MB) 맵들로 변환한다. 특히, ROI 맵퍼(54)는 로컬 사용자에 의해 표시된 원단 ROI에 상응하는 원단 비디오 내의 MB들을 규정하는 원단 MB 맵을 발생한다. 또한, ROI 맵퍼(54)는 로컬 근단 ROI, 원격 근단 ROI, 또는 이들의 조합에 상응하는 근단 비디오 내에서 MB들을 규정하는 근단 ROI MB 맵을 발생한다.

미리 정의된 ROI 패턴들을 위해, ROI 맵핑은 간단하다. 각각의 미리 정의된 ROI 패턴은 미리 정의된 지정된 MB 맵핑을 가질 수 있다. 그러나, 그려지거나, 위 치 조정되거나, 크기 조정된 ROI 패턴들을 위해, ROI 맵퍼(54)는 사용자에 이해 규정된 ROI 패턴의 좌표들을 가장 유사하게 따르는 MB 경계들을 선택한다. 예를 들어, 만약 규정된 ROI가 MB를 가로지르면, ROI 맵퍼(54)는 ROI 경계를 적절한 MB의 외부 에지 또는 내부 에지에 배치시킨다. 다시 말해서, ROI 맵퍼(54)는 ROI MB 맵내에서 ROI 내에 전체적으로 존재하는 MB들을 포함하거나 ROI 내에 부분적으로 존재하는 MB들을 포함하도록 구성될 수 있다. 상기 경우에, ROI는 규정된 ROI를 가장 인접하게 근사화하는 전체 MB들의 세트를 포함한다. 다시 말해서, 비디오 인코더(46) 또는 비디오 디코더(48)는 MB 레벨에서 동작하며, ROI의 MB 맵으로의 변환을 요구할 것이다. 개별 MB들을 ROI 내에 포함되거나 이로부터 제외되는 것으로 지정함으로써, ROI MB 맵은 불규칙하거나 직사각형이 아닌 모양들을 가지는 ROI들의 정의를 허용한다.

ROI-인식형 비디오 인코더(46)는 인코딩된 근단 비디오 내에서 또는 대역 외 시그널링에 의해 원단 ROI MB 맵을 원격 비디오 통신 장치(14)로 전송한다. 근단 ROI MB 맵은 원격 비디오 통신 장치로 전송되지 않는다. 대신에, 근단 ROI MB 맵은 ROI-인식형 비디오 인코더(46)에 의해 원격 비디오 통신 장치(14)로의 전송 이전에 더 강한 에러 보호 또는 더 높은 품질의 인코딩으로 근단 비디오 내에 규정된 MB들을 우선적으로 디코딩하는데 사용된다. 따라서, ROI-인식형 비디오 인코더(46)는 우선적으로 인코딩된 ROI를 가지는 인코딩된 근단 비디오와 함께 원단 ROI 정보를 원격 비디오 통신 장치(14)로 전송한다.

ROI 트래킹 모듈(56은 근단 비디오의 ROI 영역들에서 변경들을 트래킹한다. 만약 VT 애플리케이션이 이동 비디오 통신 장치 내에 상주하면, 예를 들어, 사용자는 시간에 따라 이동하며, 따라서 이전에 규정된 ROI와 관련하여 사용자의 위치에서 변경이 발생한다. 또한, 사용자 위치가 고정된 때에도, ROI 내의 다른 물체들은 ROI 영역들 밖으로 이동할 수 있다. 예를 들어, 호수 위의 보트는 파도의 움직임에 따라 위아래로 움직이거나 좌우로 이동할 수 있다. 이동이 발생할 때 사용자가 ROI를 다시 정의해야 하는 필요성을 방지하기 위해, ROI 트래킹 모듈(56)은 ROI 영역들 내에서 물체들을 자동으로 트래킹하도록 제공될 수 있다.

도 3의 예에서, ROI 트래킹 모듈(56)은 ROI-인식형 비디오 인코더(46)에 의해 발생된 인코딩된 근단 비디오로부터 모션 정보를 수신한다. 모션 정보는 인코딩된 근단 비디오 내에서 MB들을 위한 모션 벡터들의 형태를 취할 수 있고, ROI 맵퍼(54)에 의한 ROI MB 맵 정의의 폐루프 제어를 허용한다. 모션 정보에 기초하여, ROI 트래킹 모듈(56)은 근단 ROI 맵에 대하여 증분하는 위치 조정치들을 발생하고, 상기 조정치들을 ROI 맵퍼(54)에 제공한다. 위치 조정치들은 RMB 상태에서의 MB 상태가 ROI에 포함되거나 이로부터 제외되는 것으로 변화하는 형태가 될 수 있다.

ROI MB 맵에서 MB의 상태는 모션 정보가 ROI의 실질적인 움직임을 표시하는 경우에 변경될 수 있다. 일반적으로, 상태는 ROI 외부 경계에서 MB들에 대하여 발생할 것이다. 위치 조정치들에 응답하여, ROI 맵퍼(54)는 근단 ROI MB 맵에 의해 규정된 ROI를 쉬프트하며, 따라서 ROI 위치는 프레임 기준으로 인코딩된 근단 비디오 내의 움직임에 적응한다. ROI 트래킹 모듈(56) 및 ROI 맵퍼(54)은 모션이 비디오 장면 내에서 검출될 때마다 ROI 위치를 자동으로 조정하도록 함께 동작한다. 상기 방식에서, ROI 엔진(44)은 ROI 내의 이동하는 물체들을 트래킹하기 위해 ROI를 조정한다.

인증 모듈(58)은 개별 사용자들의 권리들 및 다수 사용자들 사이의 권리들의 우선순위를 포함하여 원격 사용자들의 ROI 권리들을 해결하기 위해 제공된다. ROI-인식형 비디오 디코더(48)가 원격 비디오 통신 장치(14)로부터 원격 근단 ROI를 수신할 때, 원격 근단 ROI를 ROI 엔진(44)으로 제공한다. 그러나 몇몇 경우들에서, 원격 사용자에 의해 규정된 원격 근단 ROI는 로컬 사용자에 의해 규정된 로컬 근단 ROI와 충돌할 수 있다. 예를 들어, 원격 및 로컬 사용자들은 비디오 장면 내에서 오버래핑하는 ROI들 또는 전체적으로 서로 다른 ROI들을 규정할 수 있다. 상기 경우에, 인증 모듈(58)은 ROI 충돌을 해결하기 위해 제공될 수 있다.

인증 모듈(58)은 몇몇 실시예들에서, 어떤 근단 ROI 정보(로컬 또는 원격의)가 주어진 시간에 사용될 수 있는지를 조정하기 위해 이른바 "마스터-슬레이브" 메카니즘을 적용할 수 있다. 특히, 송신자가 수신측-구동 ROI 정보를 수신하기 전에, 송신자는 근단 ROI 마스터이고, 근단 ROI를 제어한다. 다시 말해서, 원격 근단 ROI가 비디오 통신 장치(120)에서 수신되기 전에, 로컬 사용자는 근단 ROI를 제어한다. 원격 사용자는 그후에 근단 ROI "슬레이브"가 되며, 마스터, 즉 로컬 사용자가 근단 ROI를 제어하기 위한 액세스 권리들을 허가하지 않으면 근단 ROI를 제어하지 못한다.

로컬 사용자가 원격 사용자로의 액세스 권리를 허가하면, 로컬 사용자는 더이상 근단 ROI를 제어하지 않는다. 대신에, 비디오 통신 장치(14)와 연관된 원격 사용자는 비디오 통신 장치(12)에 의해 발생된 근단 비디오에 대하여 근단 ROI의 제어를 획득하고, 근단 ROI의 마스터가 된다. 원격 사용자는 로컬 사용자가 액세스 특권을 명백하게 취소하거나 원격 사용자에 의한 액세스를 거절할 때까지 제어를 유지하거나, 또는 원격 사용자는 마스터 ROI 제어가 로컬 사용자로 다시 복귀할 수 있는 경우에 ROI 선택을 중단한다.

ROI-인식형 비디오 디코더(48)가 임의의 경우에 인코딩된 원단 비디오를 수신하면, 송신자와의 합의된 포맷에 기초하여 비디오 비트스트림으로부터 원격 근단 ROI 정보를 검색한다. 다시 말해서, 근단 ROI 정보는 대역 외 시그널링에 의해 전송되거나 인코딩된 원단 비디오에 삽입될 수 있다. 상기 경우에, ROI-인식형 비디오 디코더(48)는 원격 근단 ROI가 ROI 제어기(52) 또는 ROI 맵퍼(54)를 통해 ROI-인식형 비디오 인코더(46)로 전송되기 전에 액세스 허가를 획득하기 위해 원격 근단 ROI를 인증 모듈(58)에 전송한다. 인증 모듈(58)은 특정 사용자들에 대한 액세스 권리들을 제한하며, 따라서 인코딩 프로세서는 로컬 사용자에 의한 인증 없이 사용자들에 의해 제어될 수 없다.

인증 모듈(58)은 하나 도는 그 이상의 원격 사용자들 사이에서 액세스 권리들 및 레벨들을 허가하고 관리하도록 구성될 수 있다. 예를 들어, 로컬 사용자는 선택된 원격 사용자들에게 액세스 권리들을 허가할 수 있다. 결과적으로, 로컬 사용자는 몇몇 원격 사용자들이 근단 ROI를 제어하도록 허용하고, 다른 원격 사용자들이 근단 ROI를 제어하는 것을 금지할 수 있다. 또한, 로컬 사용자는 원격 사용자들에게 관련된 액세스 레벨들 또는 우선순위들을 할당할 수 있다. 상기 방식에서, 로컬 사용자는 원격 사용자들 사이에서 액세스 레벨들을 계층을 규정할 수 있고, 따라서 몇몇 원격 사용자들은 다수의 원격 사용자들이 ROI 제어를 동시에 요청하는 경우에 근단 ROI를 제어할 때 다른 원격 사용자들에 대하여 우선순위를 가질 수 있다. 예를 들어, 다수의 원격 사용자들은 다수-인원의 비디오 회의 중에 ROI 제어를 동시에 요청할 수 있다. 상기 경우들에서, ROI 제어는 일반적으로 한 명의 사용자에게 독점적으로, 로컬 사용자에게, 또는 제어가 로컬 사용자에 의해 허가되는 경우에 원격 사용자들 중 선택된 한 명에게 허가될 것이다.

몇몇 실시예들에서, 인증 모듈(58)은 로컬 비디오 통신 장치(12)가 ROI-인식형 비디오 처리를 가능하게 하는 능력을 가지는지의 여부를 결정하기 위해 자원 모니터링해야할 책임이 있을 수 있다. 만약 로컬 장치가 임의의 주어진 시간에 원격 ROI 제어를 지원하거나 특정 형태의 ROI 요청을 서비스하기 위해 충분한 처리 자원들을 가지고 있지 않다면, 인증 모듈(58)은 원격 ROI 제어 액세스 권리들을 폐지하거나 ROI 요청을 거절한다. 일 예로서, 통신 채널에 의해 부과되는 대역폭 제한들 또는 로컬 처리 부하들은 원격 ROI 제어를 거절하는 결과를 발생할 수 있다. 추가의 예로서, 상기 제한들은 미리 구성된 ROI 패턴들의 사용은 허가하지만, 그려지거나 설명된 ROI 패턴들의 사용은 허가하지 않는다. 인증 모듈(58)은 원격 장치로 전송될 출력되는 인코딩된 근단 비디오에 상태 메세지를 삽입함으로써 ROI 결정을 원격 장치에 통지할 수 있다.

부가적으로, 개별 원격 사용자들은 원격 사용자가 근단 ROI를 제어할 수 있는 정도를 제어하기 위해 서로 다른 액세스 레벨들이 허가될 수 있다. 예를 들어, 원격 사용자는 미리 정의된 ROI 패턴들의 세트의 선택, 특정 ROI 위치 또는 크기, 또는 로컬 사용자의 승인시에만 ROI의 규정이 제한될 수 있다. 따라서, 인증 모듈(58)은 로컬 사용자와의 대화에 의해 원격 사용자에 의한 근단 ROI 제어의 능동적인 승인을 협상하거나 근단 ROI의 원격 사용자 제어를 자동으로 해결할 수 있다. 예를 들어, 원격 사용자가 근단 ROI를 제어하기 위한 액세스를 요청할 때, 인증 모듈(58)은 원격 사용자 ROI 제어의 승인을 요청하기 위해 사용자 인터페이스(42)를 통해 로컬 사용자에게 질의를 제공할 수 있다.

인증 모듈(58)은 임의의 다양한 방식으로 원격 사용자들을 위한 액세스 레벨들을 트래킹할 수 있다. 전술된 것과 같이, 로컬 사용자는 원격 사용자로부터 근단 ROI를 제어하기 위한 요청을 능동적으로 승인할 수 있고, 원격 사용자에게 허가될 액세스 레벨들을 능동적으로 제어할 수 있다. 선택적으로, 로컬 사용자는 액세스 권리들 또는 레벨들을 포함하여 원격 사용자들과 연관된 정보를 저장하는 비디오 통신 장치(12) 내의 메모리 내에 어드레스 북을 보유할 수 있다. 어드레스 북은 원격 사용자들 및 연관된 액세스 레벨들의 리스트를 가지는 데이터 베이스의 형태를 취할 수 있다. 원격 사용자가 근단 ROI 제어를 요청할 때, 인증 모듈(58)은 어드레스 북으로부터 적절한 액세스 권리 정보를 검색하고, 로컬 사용자, 원격 사용자들 및 가능하면 몇몇 원격 사용자들 사이에서 ROI 제어를 해결하기 위해 자동으로 인증 프로세스를 적용한다. 만약 원격 사용자가 어드레스 북에 열거되지 않으면, 로컬 사용자는 적용가능한 액세스 권리들을 가지는 원격 사용자를 어드레스 북에 부가할 것을 선택할 수 있다.

몇몇 경우들에서, 로컬 사용자는 어드레스 북 내의 특정 원격 사용자들에 대하여 규정된 디폴트 액세스 레벨들을 무시할 수 있다. 예를 들어, 인증 모듈(58)은 로컬 사용자들이 VT 호출 동안 서로 다른 원격 사용자들 사이에서 ROI 제어 우선순위들을 능동적으로 재정렬하거나 로컬 사용자로서 독점적으로 근단 ROI의 제어를 회복하는 것을 방해하도록 허가한다. 어드레스 북을 유지하거나 ROI 제어 요청들을 능동적으로 관리할 때 로컬 사용자와 인증 모듈(58) 사이의 대화는 도 3의 ACCESS CONTROL INFO에 의해 표시된다.

원격 사용자를 위한 근단 ROI 제어의 자동화된 또는 능동적인 승인이 수행되면, 인증 모듈(58)은 ROI 맵퍼(54)에 의한 처리 및 맵핑을 위해 원격 근단 ROI를 ROI 제어기(52)로 전송한다. 선택적으로, ROI 제어기(52)는 사용자 인터페이스(42)를 통해 로컬 사용자에 의해 제공된 로컬 근단 ROI를 처리하며, 즉 어떤 원격 근단 ROI도 제공되지 않거나 로컬 사용자가 원격 사용자들을 제외하도록 근단 ROI를 제어하도록 선택된다.

인증 모듈(58)은 원격 및 로컬 사용자들 사이의 ROI 충돌들을 해결하기 위해 제공된다. 디폴트에 의해, 인증 모듈(58)은 로컬 사용자가 근단 ROI 제어를 수행하는 마스터-슬레이브 개념을 적용한다. 원격 사용자에게 최고 레벨을 가지는 액세스 권리를 허가하면, 원격 사용자는 비디오 통신 장치(12)의 ROI-인식형 비디오 인코더(46)로부터 근단 ROI 선택의 전체 제어를 수용한다. 그렇지 않 다면, 로컬 사용자는 원격 사용자에 의해 수행된 임의의 근단 ROI를 무시하는근단 ROI 제어를 수행한다.

원격 사용자에게 액세스 권리들이 허가될 수 있지만, 로컬 사용자는 원격사용자의 액세스 권리들이 보통 로컬 사용자의 액세스 권리들보다 더 낮은 레벨이기 때문에 근단 ROI 제어에서 우세할 것이다. 따라서, 만약 로컬 사용자가 근단 ROI를 규정할 것을 선택하면, 원격 사용자에 의해 실행된 임의의 근단 ROI 선택은 무시될 것이다. 그렇지 않으면, 만약 로컬 사용자가 근단 ROI를 규정하지 않으면, 원격 사용자에게 할당된 액세스 권리들의 레벨은 유효하며, 원격 사용자는 근단 ROI를 제어할 수 있다. 그럼에도 불구하고, 전술된 것과 같이, 로컬 사용자는 여전히 디폴트 마스터-슬레이브 관계를 무시하고 로컬 사용자에게 최고 레벨의 액세스 권리들을 양보한다.

도 4는 ROI-인식형 CODEC를 가지고, 추가로 ROI 추출 모듈(60)을 포함하는 또다른 비디오 통신 장치(12')를 도시하는 블럭 다이어그램이다. 도 4의 비디오 통신 장치(12')는 도 3의 비디오 통신 장치(12')와 거의 동일하다. 그러나, 비디오 통신 장치(12')는 추가로 사용자로부터의 입력에 기초하여 로컬 근단 ROI 및 원단 ROI를 형성하기 위한 ROI 추출 모듈(60)을 포함한다. 미리 구성된 ROI 패턴들의 선택을 간단히 처리하거나 사용자가 디폴트 ROI를 그리거나, 위치 조정하거나, 크기 조정하는 것에 부가하여, ROI 추출 모듈(60)은 로컬 사용자가 구두형 또는 문서형의 ROI 설명에 의해 ROI를 규정하도록 허가한다. 특히, ROI 추출 모듈(60)은 로컬 사용자에 의해 제공된 ROI 설명에 기초하여 로컬 근단 ROI 또는 원단 ROI를 발생한다.

ROI 설명들의 예들은 "얼굴", "이동중인 물체", "입술", "인간", "배경" 등등과 같은 용어들의 문서형 또는 구두형 입력을 포함한다. 상기 물체들의 우선적인 인코딩은 매우 바람직할 수 있다. 예를 들어, 입술 또는 얼굴의 우선적인 인코딩은 얼굴 표정들, 단어들의 발성 등등을 더 양호하게 표현할 수 있다. 문서형 입력은 사용자 인터페이스(42)에 의해 제공된 메뉴에 입력되거나 상기 메뉴에서 선택될 수 있다. 구두형 입력은 비디오 통신 장치(12')와 결합된 마이크로폰에 말을 함으로써 제공될 수 있다. 각각의 경우에, 로컬 사용자는 ROI를 선택하거나 그리는 대신에 ROI를 "설명"한다. ROI 추출 모듈(60)은 상기 설명을 적용가능한 근단 또는 원단 비디오 장면 내에 좌표들의 세트로 변환한다. 구두형 ROI 설명이 사용되는 경우에, 사용자 인터페이스(42) 또는 ROI 추출 모듈(60)은 종래의 음성 인식 능력들을 통합할 수 있다. 특히, ROI 추출 모듈(60)은 하나 또는 그 이상의 인식된 용어들에 기초하여 ROI를 규정하는 정보를 발생할 수 있다.

ROI 추출 모듈(60)은 원하는 ROI를 검출하도록 구성된 종래의 사전-인코딩 프로세싱 알고리즘의 애플리케이션에 의해 자동으로 ROI 좌표들을 선택한다. 특히, ROI 추출 모듈은 비디오 ROI 처리 분야에서 당업자에게 공지된 종래의 기술들에 따라 얼굴 검출, 특징 추출, 물체 세분화 또는 트래킹을 위한 알고리즘을 적용할 수 있다. 예를 들어, ROI 추출 모듈(60)은 비디오 입력 데이터의 픽셀들의 명도 또는 색도 값들에 기초하여 ROI 식별에 의존하는 종래의 기술들을 적용할 수 있 다.

종래의 얼굴 검출 방식은 일반적으로 얼굴 대 비-얼굴 픽셀들을 식별하기 위해 가이드와 같은 피부색의 사용을 수반한다. 종래의 얼굴 검출 방식들의 예들은 C.-W, Lin, Y.-J. Chang and Y.-C. Chen, "a low-complexity face assisted coding scheme for low bit-rate video telephony", IEICE Trans. Inf.&Styst., vol.E86-D, no.1, Jan.2003, pp.101-108 and D. Chai and K.N.Ngan, "Face segmentation using skin-color map in videophone applications", IEEE Trans. On Circuits and Systems for Video Technology, vol.9, no.4, Jan.1999, pp.551-564에 개시된다.

로컬 사용자들이 "얼굴"과 관련하여 ROI를 설명할 때, ROI 추출 모듈(60)은 얼굴을 식별하기 위해 근단 또는 원단 비디오들을 적용가능한 것으로 분석하고, 식별된 얼굴과 연관된 좌표들을 ROI로 지정한다. ROI 추출 모듈(60)은 ROI 맵퍼(54)에 의한 처리 및 맵핑을 위해 ROI 제어기(52)에 좌표들을 제공한다. 특히, ROI 추출 모듈(60)은 로컬 근단 ROI 설명 또는 원단 ROI 설명을 적용가능한 것으로 처리하고, 상기 설명을 적절한 추출 알고리즘으로 맵핑하며, 적절한 ROI를 자동으로 추출하기 위해 적용가능한 미리 인코딩된 근단 비디오 또는 디코딩된 원단 비디오를 자동으로 분석한다.

자동 ROI 검출을 지원하기 위해, ROI 추출 모듈(60)은 비디오 포착 장치(40)로부터의 근단 비디오 또는 ROI-인식형 비디오 디코더(48)로부터의 원단 비디오를 수신한다. 사용자 인터페이스(42)로부터 로컬 근단 ROI 설명 또는 원단 ROI 설명 뿐만 아니라 자동화된 검출 알고리즘을 사용하여, ROI 추출 모듈(60)은 ROI 제어기(52)로의 응용을 위해 적용가능한 로컬 근단 ROI 및 원단 ROI를 발생한다. 각각의 경우에, ROI 추출 모듈(60)은 로컬 근단 ROI 설명 또는 원단 ROI 설명을 적용가능한 설명에 가장 적합한 좌표들로 변환한다. 상기 경우에, 사용자가 ROI를 그릴 필요는 없다. 부가적으로, 사용자는 미리 정의된 ROI 패턴들의 세트에 제한되지 않는다. 대신에, ROI 제어기(52)는 ROI 설명과 매치되는 근단 비디오 내의 적절한 영역을 능동적으로 검출한다.

ROI 맵퍼(54)는 ROI 좌표들을 비디오 프레임 내의 적절한 매크로 블럭들(MBs)로 맵핑하며, 근단 또는 원단 ROI MB 맵을 발생한다. 사실상, ROI 맵퍼(54)는 ROI 제어기(52)로부터의 ROI 좌표들을 비디오 인코더(46)가 이해할 수 있는 포맷으로 변환한다. 특히, 비디오 인코더(46)는 MB 기준으로 MB 레벨에서 인코딩을 처리하는 능력을 구비한다. 이를 위해, ROI 맵퍼(54)는 근단 또는 원단 비디오를 위해 ROI MB를 발생한다. ROI MB 맵은 지정된 ROI 내에 존재하는 MB들을 식별하며, 따라서 비디오 인코더(46)는 상기 MB들에 우선적인 인코딩을 적용할 수 있다.

ROI 설명들을 처리하는데 부가하여, ROI 추출 모듈(60)이, 미리 결정된 패턴들의 세트로부터 사용자에 의해 선택되거나, 로컬 사용자에 의해 그려지거나 위치 조정되거나 크기 조정된 ROI 패턴들을 처리하기 위해 구비될 수도 있다. 따라서, 비디오 통신 장치(12')는 도 3의 비디오 통신 장치(12)와 관련하여 설명된 것과 같이 실질적으로 ROI 정보를 발생하지만, 로컬 사용자에 의해 문서형 또는 구두형으로 입력된 ROI 설명들을 처리하기 위해 추가로 ROI 추출 모듈(60)을 포함한다. ROI 추출 모듈(60)은 로컬 사용자에 의한 사용의 용이함과 관련하여 바람직할 수 있다. 그러나, 몇몇 비디오통신 장치들은 ROI 추출 모듈(60)을 지원하기에 불충분한 처리 전력을 가질 수 있다. 따라서, ROI 추출 모듈(60)은 본 개시물에 따라 비디오 통신 장치의 바람직하지만 선택적인 구성요소들을 표시한다.

몇몇 실시예들에서, ROI 추출 모듈(60)은 로컬 사용자 뿐만 아니라 원격 사용자에 의해 발생된 ROI 설명들을 처리할 수 있다. 상기 방식에서, 추출 기능은 몇몇 장치에서 로컬적으로 보다는 원격으로 수행될 수 있다. 예를 들면, 특정 비디오 통신 장치(14)는 상기 장치(14)의 사용자에 의해 제공된 ROI 설명들에 대한 ROI 추출을 지원할 수 있는 능력들 또는 불충분한 로컬 자원들을 가질 수 있다. 그러나, 또다른 비디오 통신 장치(12)는 ROI 추출을 위해 더 양호할 수 있다. 상기 경우에, 로컬 ROI 추출은 원격 비디오 통신 장치에 제거되거나 분포될 수 있다.

원격 추출을 지원하기 위해, ROI 설명은 다양한 방식들로 원격 장치에 제공될 수 있다. 예를 들어, 구두형 설명들은 원격 장치에 전송된 오디오 스트림 내에 포함될 수 있다. 문서형 ROI 설명들과 함께 미리 정의된 ROI 패턴들 또는 그려진 ROI 패턴들은 유사하게 예를 들면, 인코딩된 비디오 스트림에 상기 정보를 삽입함으로써 원격 장치에 전송될 수 있다. 따라서, 하나의 장치로부터 또다른 장치로 전송된 ROI 정보는 원격 인코더로의 적용 이전에 원격 장치에서 처리를 요구하는 표시들 또는 설명들을 포함하여 미리 처리된 ROI MB 맵 또는 임의의 다른 ROI의 표시 또는 설명을 취할 수 있다.

도 5는 중간 추출 서버(61)를 통해 분포된 ROI 추출을 도시하는 블럭 다이어그램이다. 도 5에 도시된 것과 같이, 비디오 통신 장치(12, 14)는 중간 추출 서버(61)에 충분한 정보를 제공하여 ROI가 추출될 수 있게 한다. 예를 들어, 각각의 장치(12, 14)는 개별 로컬 근단 ROI 설명, 원단 ROI 설명, 인코딩되거나 원래의 가공되지 않은 근단 비디오 및 인코딩된 원단 비디오를 제공할 수 있다. 근단 장치로부터 인코딩된 원단 비디오를 제공하는데 대한 대안으로, ROI 추출 서버(61)는 원단 장치로부터 직접 원단 비디오를 수신할 수 있다. 상기 정보를 사용하여, 추출 서버(61)는 원단 ROI와 로컬 근단 ROI 중 하나 또는 둘 다를 발생하고, 이들을 개별 장치(12, 14)에 제공한다. 추출 서버(61)는 통신 네트워크 내의 임의의 위치에 위치된 서버가 될 수 있고, 유선 매체, 무선 매체 또는 이들의 조합에 의해 장치들(12, 14)에 결합될 수 있다. 추출 서버(61)는 비디오 통신 장치들(12, 14)로부터 원격으로 배치되거나 장치들(12, 14) 중 하나와 함께 배치될 수 있다. 그러나, 다수의 경우들에서, 추출 서버(61)는 원격 서버가 될 수 있다. 일반적으로, 추출 서버(61)는 비디오 통신 장치들(12, 14)로부터 구조적으로 떨어져 있다.

추출 서버(61)는 추출 모듈(60)과 매우 유사하게 기능하지만, 원격의 분산된 기준으로 동작하며, 따라서 ROI 추출은 장치(12, 14) 내에서 로컬적으로 수행될 필요는 없다. 상기 방식에서, ROI 추출의 처리 비용은 더 많은 처리 전력을 가지는 서로 다른 장치로 분산될 수 있다. ROI 추출 모듈(60)과 유사하게, 추출 서버(61)는 사용자에 의해 구두형, 문서형 또는 그래픽 설명들과 같은 서로 다른 종류의 ROI 설명들을 처리할 수 있다. 이를 위해, ROI 추출 서버(61)는 설명들을 처리하기 위해 음성 인식 성능들과 같은 적절한 성능들을 포함할 수 있다. 부가적으로, ROI 추출 서버(61)는 비디오의 분석 및 ROI의 추출을 허용하는 비디오 디코딩 성능들과 함께 요구되는 경우에, 비디오를 다시 인코딩하고 ROI 정보를 삽입하기 위한 인코딩 성능들을 구비할 수 있다.

도 6은 다수의 비디오 전화기 세션들을 위해 분포된 ROI 추출을 도시하는 블럭 다이어그램이다. 도 6의 예에서, ROI 추출 서버(61)는 다수의 비디오 통신 장치들(12A-14A, 12B-14B, 12C-14C 내지 12N-14N) 사이에서 VT 세션들을 위한 ROI 추출을 처리하도록 동작한다. 상기 방식에서, ROI 추출 서버(61)는 주어진 통신 네트워크에서 수행되는 다양한 VT 세션들을 지원하기 위해 다수의 ROI 추출 작업들을 병렬로 수행한다.

도 7A-7D는 로컬 또는 원격 사용자에 의한 선택을 위해 미리 정의된 ROI 패턴들을 도시하는 다이어그램들이다. 도 7A-7D의 ROI 패턴들은 예를 위한 것이며, 제한을 위해 고려되는 것은 아니다. 도 7A는 무선 통신 장치(38)와 결합된 디스플레이(36)에 표현된 비디오 장면(34) 내의 ROI(62)를 도시한다. ROI(62)는 비디오 장면 내에 실질적으로 중심에 위치된 기본의 정사각형이다. 직사각형 ROI(62)의 주 길이는 비디오 장면(34) 내에서 수직으로 연장한다. 대부분의 경우들에서, 미리 정의된 중심에 위치된 직사각형(62)은 인간의 얼굴, 즉 VT 호출에 참여한 원격 사용자의 얼굴을 포착하는데 유효할 것이다.

도 7B는 비디오 장면(34) 내에서 수평으로 연장하는 주 길이를 가지는 직사각형 형태의 또다른 ROI(64)를 도시한다. ROI(64)는 비디오 장면(34) 내에 실질적으로 중심에 위치되며, 차량들, 보트들, 제품들, 프리젠테이션들 등등과 같은 물체들을 포착하는데 유효하다.

도 7C는 VT 호출에 참여한 원격 사용자의 얼굴과 어깨를 포착하도록 설계된 모양을 가지는 또다른 ROI(66)를 도시한다. 선택적으로, ROI(66)는 예를 들면 한방향 비디오 스트리밍 애플리케이션에서 뉴스 방송, 모임의 사회자, 또는 회의의 발화자를 제공하는 통신자의 얼굴 및 어깨를 포착할 수 있다. 임의의 경우에, 미리 정의된 OI(66)는 인간 VT 참여자 또는 제출자에 집중하며, 상기 참여자 또는 제출자의 물리적인 특징들에 대한 우선적인 코딩을 달성한다.

도 7D는 비디오 장면(34) 내에 나란히 제공된 ROI들(68, 70)의 이중 세트를 도시한다. 도 5D의 예에서, ROI들(68, 70)은 나란히 앉아있거나 서있는 2명의 사람들의 얼굴들을 포착하는데 유효할 수 있다. 상기 방식에서, 2명의 참여자들의 얼굴은 얼굴 표정들 및 움직임에 대하여 더 높은 이미지 품질을 지원하기 위해 우선적으로 인코딩될 수 있다.

도 7A-7D에 도시된 미리 정의된 ROI 패턴들은 설명을 위한 것이다. 선택적인 위치들 또는 모양들을 가지는 다른 미리 정의된 ROI 패턴들이 제공될 수 있다. 예를 들어, 몇몇 ROI 패턴들은 패턴들이 MB 경계들로 맵핑될 수 있는 경우에 둥글거나 불규칙한 모양을 가질 수 있다.

몇몇 실시예들에서, 사용자는 선택된 ROI 패턴을 크기 조정하거나 위치 조정하도록 허용될 수 있다. 종래의 커서 및 코너 드래그 기술들은 위치 조정 및 크기 조정을 달성하기 위해 사용될 수 있다. 부가적으로, ROI 크기를 다시 스케일링하는 것은 코너 드래그를 수행하거나 또는 스케일 퍼센트율을 명백하게 규정함으로써 달성될 수 있다. 물론, ROI가 더 커질수록, 우선적인 코딩의 정도는 대역폭 제한들로 인해 감소된다. 따라서, 몇몇 경우들에서, 최대 ROI 사이즈는 비디오 통신 장치(12) 내에서 강제될 수 있다.

도 8은 송신측 장치에서 근단 비디오 내의 우선적인 ROI 인코딩을 제어하기 위해 수신측 장치에서 원단 ROI 정보의 발생을 설명하는 흐름도이다. 도 8에 도시된 프로세스는 도 4의 비디오 통신 장치(12')와 도 3의 비디오 통신 장치(12) 내에서 구현될 수 있다. 동작시에, 비디오 통신 장치(12) 내의 ROI-인식형 비디오 디코더(48)는 비디오 통신 장치(12;도 1)와 같은 원격 송신측 장치(72)로부터 원단 비디오를 디코딩한다. 원단 비디오를 디코딩하면, 수신측 장치(12)의 사용자 인터페이스(42)는 로컬 사용자(74)에 의한 관찰을 위해 원단 비디오를 디스플레이한다.

만약 로컬 사용자가 ROI 선택(76)을 요청하지 않으면, 어떤 동작도 수행되지 않으며, 원단 비디오의 다음 프레임은 디코딩된다(72). 그러나, 만약 ROI 선택이 요청되면(76), 사용자 인터페이스(42)는 로컬 사용자로부터 원단 ROI 정보를 수신한다(78). ROI 제어기(52) 및 ROI 맵퍼(54)는 원단 ROI MB 맵을 발생하도록 함께 동작한다(80). ROI-인식형 인코더(46)는 인코딩된 근단 비디오 내에 원단 ROI MB 맵을 삽입하며, 따라서 원단 ROI 맵을 원단 비디오를 인코딩하는 원격 송신측 장치(14)로 전송한다(82). 원단 ROI MB 맵은 원격 비디오 통신 장치(14)와 결합된 인코더가 비디오 통신 장치(12)에 전송될 원단 비디오의 적절한 ROI 내의 MB들에 우선적인 코딩을 적용해야함을 규정할 수 있다.

도 9는 ROI 트래킹과 함께 송신측에서 근단 비디오 내의 우선적인 ROI 인코딩을 위해 수신측 장치로부터 근단 ROI 정보의 처리를 설명하는 흐름도이다. 도 9의 예에서, 사용자 인터페이스(42)는 비디오 포착 장치(40)에 의해 발생된 근단 비디오 스트림을 수신하여 근단 비디오를 로컬 사용자(84)에게 제공한다. 만약 로컬 사용자 또는 원격 사용자가 근단 ROI 선택을 요청하지 않으면(86), 각각의 비디오 프레임 내의 모든 MB들은 정상적으로 즉, ROI 내의 MB들의 임의의 우선적인 인코딩 없이 인코딩된다(88). 인코딩된 근단 비디오는 원격 수신측 장치(14)로 전송된다(89).

만약 근단 ROI 선택이 원격 사용자 또는 로컬 사용자에 의해 요청되면(86), ROI 제어기(52) 및 ROI 맵퍼(54)는 근단 ROI MB 맵을 발생하기 위해 적절한 근단 ROI 정보를 처리한다(90). 만약 근단 ROI가 로컬 사용자 및 원격 사용자 모두에 의해 규정되면, 인증 모듈(58)은 ROI들 중 하나를 위해 충돌을 해결하는 것을 방해할 수 있다. 근단 ROI MB 맵을 수신하면(90), ROI-인식형 비디오 인코더(46)는 더 높은 품질의 인코딩, 더 강한 에러 보호 또는 두가지 모두를 적용함으로써 ROI 내에서 MB들을 우선적으로 인코딩한다(92).

트래킹 모듈(56)은 ROI-인식형 비디오 인코더(46)에 의해 발생된 모션 정보를 모니터함으로써 근단 비디오 내의 ROI의 위치를 트래킹한다(94). 만약 ROI 내에서 쉬프트가 검출되지 않으면(96), 현존하는 ROI 맵은 근단 비디오 내의 ROI MB들을 인코딩하도록 적용되며(100), 인코딩된 근단 비디오는 원격 수신측 장치에 전송된다(102). 만약 ROI내에서 쉬프트가 검출되면(96), 비디오 트래킹 모듈(56)은 근단 비디오를 인코딩(100)하기 전에 모션 정보에 기초하여 ROI MB 맵을 조정한다(98).

도 10은 사용자 인증과 함께 송신측 장치에서 근단 비디오 내의 우선적인 ROI 인코딩을 위해 수신측 장치로부터 ROI 정보를 처리하는 것을 설명하는 흐름도이다. 도 10은 원격 사용자가 근단 ROI를 제어하는 것을 허용할 때 도 3 또는 도 4의 인증 모듈(58)의 동작을 도시하며, 간단함을 위해, 어떤 로컬 근단 ROI도 규정되지 않는다고 가정한다. 도 10에 도시된 것과 같이, 비디오 통신 장치(12) 내의 비디오 포착 장치(40)에 의해 발생된 근단 비디오 스트림에 대하여(104), 인증 모듈(58)은 원격 근단 ROI가 비디오 통신 장치(14)의 원격 사용자에 의해 요청되는지(106)의 여부를 결정한다.

만약 어떤 원격 근단 ROI도 요청되지 않고(106), 어떤 로컬 근단 ROI도 규정되지 않으면, 근단 비디오 내의 모든 MB들은 정상적으로 인코딩된다(110). 그러나, 만약 원격 근단 ROI가 요청되면(106), 인증 모듈(58)은 다음에 근단 ROI를 요청한 원격 사용자가 인증되는지의 여부를 결정한다(108). 특히, 인증 모듈(58)은 비디오 통신 장치(12)에 로컬적으로 저장된 어드레스 북을 참조하여 원격 사용자의 액세스 권리들을 자동으로 결정할 수 있다. 선택적으로, 인증 모듈(58)은 원격 사용자에 의한 근단 ROI 제어를 위한 액세스 권리들의 승인 또는 거부를 획득하기 위해 사용자 인터페이스(42)를 통해 로컬 사용자에게 능동적으로 질의할 수 있다.

만약 원격 사용자가 인증되지 않으면(108), 근단 비디오 내의 모든 MB들은 정상적으로 인코딩된다(110). 그러나, 만약 원격 사용자가 인증되면(108), 원격 사용자는 근단 ROI 제어가 승인된다. 상기 경우에, ROI 제어기(52) 및 ROI 맵퍼(54)는 원격 사용자로부터의 근단 ROI 정보를 처리하고, 근단 MB 맵(112)을 발생한다. 근단 MB 맵을 사용하여, ROI-인식형 인코더(46)는 근단 MB 맵에 의해 식별된 MB들을 우선적으로 인코딩한다(114). 비디오 통신 장치(12)는 원격 비디오 통신 장치(14)에 인코딩된 근단 비디오를 전송한다(116).

도 11은 미리-정의된 ROI 패턴들의 선택을 설명하는 흐름도이다. ROI-인식형 비디오 디코더(48)가 원격 비디오 통신 장치(14)로부터 원단 비디오를 디코딩하면(118), 원단 비디오는 사용자 인터페이스(42)를 통해 로컬 사용자에게 디스플레이된다(120). 만약 로컬 사용자가 ROI 선택을 요청하면(122), 사용자 인터페이스(120는 도 7A-7D에 도시된 ROI 패턴들과 같은 미리 정의된 ROI 패턴들의 메뉴를 디스플레이한다(124). 선택적으로, 사용자는 ROI 설명을 제공하거나 ROI 패턴을 그리거나, 위치 조정하거나, 크기 조정할 수 있다. 그러나 도 11의 예에서, 동작은 미리 정의된 ROI 패턴들의 표현에 집중된다. 로컬 사용자에 의한 미리 정의된 ROI 패턴의 선택시(126), ROI 제어기(52) 및 ROI 맵퍼(54)는 선택된 패컨에 기초하여 ROI MB 맵을 정의한다(128). ROI-인식형 비디오 인코더(46)는 인코딩된 근단 비디오 내에 ROI MB 맵을 삽입하며, 원단 비디오 내의 ROI의 우선적인 인코딩에서 사용하기 위한 상기 ROI MB 맵을 원격 비디오 통신 장치(14)로 전송한다(130).

도 12는 ROI 템플릿(132)의 확대 및 축소에 의해 디스플레이된 비디오 장면(34)에서 ROI 패턴의 정의를 도시하는 다이어그램이다. 도 12는 실질적으로 도 2와 일치하지만, 사용자에 의해 크기가 조정될 수 있는 ROI 템플릿(132)의 표현을 도시한다. 도 12의 예에서, ROI 템플릿(132)은 ROI 템플릿을 확대 및 축소하기 위해 ROI 템플릿의 코너들 중 하나를 코너 드래그함으로써 크기가 조정될 수 있다. ROI 템플릿(132)을 확장하기 위해 코너 드래그한 결과는 확장된 ROI 템플릿(134)에 의해 표현된다. 코너 드래그는 ROI 템플릿(132)의 크기를 증가 또는 감소시키지만, 상대적인 길이 대 폭 비율 스케일링을 유지한다. 그러나 몇몇 실시예들에서, 사용자는 ROI 템플릿의 크기를 감소 또는 증가시키면서 길이 대 폭 비율 스케일링을 변경하기 위해 ROI 템플릿(132)의 측면을 드래그하도록 허용될 수 있다. 드래그는 터치스크린과 결합된 스타일러스 또는 비디오 통신 장치(12)의 사용자 인터페이스(42)와 연관된 또다른 포인팅 장치를 사용하여 달성될 수 있다. 다른 포인팅 장치들은 조이스틱들, 터치패드들, 스크롤 휠들, 트랙볼들 등등을 포함할 수 있다.

도 13은 ROI 템플릿(132)을 드래그함으로써 디스플레이된 비디오 장면 내의 ROI 패턴의 정의를 도시하는 다이어그램이다. 특히, 도 13은 비디오 장면(34) 내의 또다른 위치(135)로 ROI 템플릿을 드래그함으로써 ROI 테플릿의 위치를 조정하는 것을 도시한다. 드래그는 사용자 인터페이스(42)와 연관된 스타일러스 및 터치 스크린 또는 또다른 포인팅 장치에 의해 수행될 수 있다.

도 14는 스타일러스(138)를 사용하여 터치스크린에 ROI 패턴(136)을 그림으로써 디스플레이된 비디오 장면에 ROI 패턴의 정의를 도시하는 다이어그램이다. 도 14의 예에서, ROI 패턴(136)은 프리-핸드 드로잉에 의해 발생된다. ROI 제어기(52) 및 ROI 맵퍼(54)는 그려진 ROI 패턴과 연관된 좌표들을 대략적으로 ROI 패턴(136) 내에 존재하는 비디오 장면(34) 내의 MB들을 식별하는 MB 맵으로 변환하도록 함께 동작한다. 도 12, 13, 14에 도시된 것과 같은 ROI 패턴의 정의는 근단 비디오 또는 원단 비디오 내의 ROI를 위해 적용될 수 있다.

도 15는 규정된 ROI 물체들이 동적으로 트래킹되는 드롭-다운 메뉴(140)를 사용하여 디스플레이된 비디오 장면 내의 ROI 패턴의 정의를 도시하는 다이어그램이다. 도 15에 도시된 것과 같이, 사용자 인터페이스(42)는 "얼굴", "입술", "배경", "운동"과 같은 ROI 설명들을 표현하는 드롭-다운 메뉴(140)를 제공한다. 로컬 사용자는 요구되는 ROI 설명으로서 드롭-다운 메뉴 내의 입력들 중 하나를 선택한다. 이에 응답하여, ROI 추출 모듈(60; 도 4)은 상기 설명과 일치하는 ROI 패턴을 검출하기 위해 적용가능하게 근단 비디오 또는 원단 비디오를 분석한다. 드롭-다운 메뉴(140)에 대한 대안으로서, 사용자는 사용자 인터페이스(42)를 통해 텍스트를 입력하거나 텍스트를 마이크로폰에 구두로 입력할 수 있다. 각각의 경우에, 선택된 ROI는 스킨-톤 검출, 물체 세분화 등등과 같은 종래의 특징 검출 알고리즘들을 사용하여 적절한 ROI 패턴에 매치된다. ROI 패턴의 선택시, ROI 제어기(52) 및 ROI 맵퍼(54)는 적절한 ROI MB 맵을 발생한다. 도 15의 프로세스는 각각의 ROI 설명이 고려중에 특정 비디오 장면 내의 ROI 패턴과 동적으로 매치되어야 한다는 점에서 '동적인" 것으로 간주된다.

도 16은 도 7A-7D에서와 같이 미리 정의된 ROI 패턴들로 맵핑된 규정된 ROI 물체들을 가지는 드롭-다운 메뉴(142)를 사용하여 디스플레이된 비디오 장면 내에 ROI 패턴의 정의를 도시하는 다이어그램이다. 도 16에 도시된 것과 같이, 사용자 인터페이스(42)는 "단일 얼굴", "이중 얼굴", "머리/어깨" 및 "물체"와 같은 ROI 설명들을 표현하는 드롭-다운 메뉴(142)를 제공한다. 로컬 사용자는 드롭-다운 메뉴 내의 입력들 중 하나를 요구되는 ROI 패턴으로 선택한다. 이에 응답하여, ROI 제어기(52)는 도 7A-7D에 도시된 것과 같은 상응하는 미리 정의된 ROI 패턴에 선택된 ROI 패턴을 매치한다. 따라서, 도 15에 도시된 ROI 설명들과 달리, 고정된 ROI 패턴들은 어떤 비디오 분석도 요구하지 않는다. 대신에, ROI 제어기(52) 및 ROI 맵퍼(54)는 드롭-다운 메뉴(142)에서 선택들에 상응하는 미리 구성된 ROI MB 맵들을 발생한다. 다시 말해서, 드롭-다운 메뉴(142)에 대한 대안으로서, 사용자는 사용자 인터페이스(42를 통해 텍스트를 입력할 수 있거나 텍스트를 마이크로전화기에 구두로 입력할 수 있다. 도 15의 프로세스는 각각의 ROI 패턴이 미리 정의된 ROI 패턴 및 MB 맵과 일치한다는 관점에서 "정적인" 것으로 간주된다.

도 17은 ROI 설명 인터페이스를 사용하여 디스플레이된 비디오 장면에서 ROI 패턴의 정의를 설명하는 흐름도이다. 도 17에 도시된 프로세스는 도 15의 드롭-다운 메뉴 또는 다른 입력 매체와 함께 사용될 수 있다. 도 17에 도시된 것과 같이, ROI-인식형 비디오 디코더(48)는 원격 송신측 장치(14)로부터 수신된 원단 비디오를 디코딩한다(144). 사용자 인터페이스(42)는 원단 비디오를 로컬 사용자에게 디스플레이한다(146). 만약 로컬 사용자가 원단 비디오에 대한 ROI 선택을 요청하지 않으면(148), 어떤 ROI 정보도 원격 비디오 통신 장치(14)로 전송되지 않는다. 만약 ROI 선택이 요청되면(148), 사용자 인터페이스(42)는 도 17의 드롭-다운 메뉴와 같은 ROI 설명 인터페이스(150)를 제공한다.

로컬 사용자 ROI 설명의 수신시(152), ROI 제어기(52) 및 ROI 맵퍼(54)는 상기 설명에 기초하여 ROI 패턴을 선택하고(154) 선택된 ROI 패턴에 기초하여 ROI MB 맵을 정의한다(156). 다시 말해서, 선택된 ROI 패턴은 종래의 검출 기술들을 사용하여 원단 비디오를 분석하고, ROI 설명을 원단 비디오 내의 특정 MB들에 매칭하여 결정될 수 있다. 원단 ROI MB 맵의 발생시, ROI-인식형 비디오 인코더(12)는 인코딩된 근단 비디오 내에 원단 ROI MB 맵을 삽입하고, 원단 ROI의 우선적인 인코딩을 위해 원격 비디오 통신 장치(14)로 전송한다.

도 18은 송신측 및 수신측 장치들(12, 14) 사이에서 ROI 충돌들이 해결을 설명하는 흐름도이다. 특히, 도 18은 로컬 사용자에 의해 지정된 근단 ROI와 원격 사용자에 의해 지정된 근단 ROI 사이의 충돌들을 해결할 때 인증 모듈(58; 도 3 또는 도 4)의 동작을 도시한다. 송신측 장치에서 근단 비디오이 발생시(160), 인증 모듈(58)은 근단 ROI가 로컬 사용자 또는 원격 사용자에 의해 요청되는지의 여부를 결정한다(162). 만약 아니라면, 모든 MB들은 ROI를 우선적으로 인코딩하지 않고 정상적으로 인코딩되며(164), 그 결과 인코딩된 비디오들은 수신측 비디오 통신 장치(14)로 전송된다(166).

만약 근단 ROI가 요청되면(162), 인증 모듈(580은 로컬 사용자에 의해 규정된 근단 ROI와 원격 사용자에 의해 규정된 근단 ROI 사이에 충돌이 발생하는지의 여부를 결정한다(168). 만약 어떤 규정된 원격 근단 ROI도 존재하지 않거나, 로컬 및 원격 근단 ROI가 일치하면, 인증은 처리를 위해 ROI제어기(52)로 선택된 근단 ROI를 전송할 수 있다.

만약 어떤 로컬 근단 ROI도 존재하지 않지만, 원격 근단 ROI가 선택되면, 인증 모듈(58)은 원격 근단 ROI가 적용되도록 허용할 수 있다. 선택적으로, 몇몇 실시예들에서, 인증 모듈(58)은 로컬 사용자 상호 작용 또는 어드레스 북내에 기록된 액세스 레벨에 의해 원격 사용자에게 허가된 명백한 액세스가 존재하는 경우에만 원격 근단 ROI가 적용되도록 허용할 수 있다. 만약 어떤 ROI 충돌도 존재하지 않으면, ROI 맵퍼(54)는 적용가능한 근단 ROI에 기초하여 근단 MB 맵을 발생하고, 이를 ROI-인식형 비디오 인코더(46)에 적용한다. ROI-인식형 비디오 인코더(46)는 그후에 근단 비디오의 ROI 내의 MB들을 우선적으로 인코딩한다(172).

만약 로컬 및 원격 근단 ROI 사이에 충돌이 존재하면(168), 인증 모듈(58)은 비디오 통신 장치(12) 내에 로컬적으로 저장된 어드레스북 내에 액세스레벨들이 이미 할당되었는지(174)의 여부를 결정한다. 만약 액세스 레벨들이 할당되었으면(174), 인증 모듈(58)은 액세스 레벨들에 따라 ROI 충돌을 해결한다(176). 예를 들어, 원격 사용자를 위해 저장된 액세스 레벨은 원격 사용자가 로컬 사용자에 대하여 ROI 제어가 승인되어야 한다고 표시할 수 있다. 만약 액세스 레벨들이 할당되지 않으면(174), 인증 모듈(58)은 로컬 사용자로부터 원격 ROI 제어의 승인을 획득한다(178). 특히, 인증 모듈(58)은 원격 사용자에 의한 근단 ROI 제어의 승인을 요청하기 위해 사용자 인터페이스(42)를 통해 질의를 제공할 수 있다.

만약 로컬 사용자에 의해 승인이 제공되면, 인증 모듈(580은 처리를 위해 원격 근단 ROI를 ROI 제어기(52)에 제공한다. 만약 승인이 제공되지 않으면, ROI 제어기(52)는 로컬 근단 ROI를 처리한다. 상기 경우에, ROI-인식 비디오 인코더(46)는 ROI 내에 존재하는 근단 비디오 내의 MB들을 우선적으로 인코딩하기 위해 선택된 ROI를 사용하고(172), 인코딩된 근단 비디오를 원격 수신측 장치(14)로 전송한다(166). 몇몇 경우들에서, 인증 모듈(58)은 로컬 사용자와 원격 사용자 사이뿐만 아니라 가능하면 몇몇 원격 사용자들 사이에서 ROI 충돌들을 해결할 수 있다. 로컬 사용자는 원격 사용자들 중 한 명에게 근단 ROI를 제어하기 위한 액세스 권리들을 능동적으로 허가하거나 다양한 원격 사용자들의 ROI 제어 권리들을 우선순위를 결정하는 상대적인 액세스 레벨들을 할당할 수 있다. 일반적으로, ROI를 제어하기 위한 액세스 권리들은 예를 들면, 로컬 사용자 또는 원격 사용자들 중 한 명과 같이 한 명의 사용자에게만 독점적으로 허가된다.

도 19는 원단 비디오 내의 ROI 매크로 블럭들의 우선적인 디코딩을 설명하는 흐름도이다. 도 19에 도시된 것과 같이, 원격 송신측 장치(14)로부터 원단 비디오의 수신시(180), 로컬 수신측 장치(12) 내의 ROI-인식형 비디오 디코더(48)는 원단 ROI가 로컬 사용자(182)에 의해 규정되는지를 결정한다. 만약 아니라면, ROI-인식형 비디오 디코더(48)는 원단 비디오(184) 내에서 모든 MB들을 정상적으로 인코딩한다. 그러나 만약 원단 ROI 정보가 로컬 사용자에 의해 규정되면, ROI-인식형 비디오 디코더(48)는 수신된 원단 비디오(186) 내에 있는 ROI MB들을 우선적으로 디코딩한다(186). ROI MB들은 비-ROI MB들에 적용된 보간 식들 및 에러 숨김 기술들과 관련하여 더 높은 품질의 보간 식들 또는 더 견고한 에러 숨김 기술들을 적용함으로써 우선적으로 디코딩될 수 있다. 우선적인 디코딩은 더 높은 품질의 블럭킹 차단 또는 벨울림 차단 필터들과 같은 우선적인 사후-처리를 포함할 수 있다.

본 명세서에 개시된 기술들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합에서 구현될 수 있다. 소프트웨어에서 구현되는 경우에, 기술들은 실행될 때 전술된 하나 또는 그 이상의 방법들을 수행하는 명령들을 포함하는 프로그램 코드를 포함하는 컴퓨터로 읽을 수 있는 매체에 의해 부분적으로 구현될 수 있다. 상기 경우에, 컴퓨터로 읽을 수 있는 매체는 동기식 동적 랜덤 액세스 메모리(SDRAM)와 같은 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 비휘발성 랜덤 액세스 메모리(NVRAM), 전기적으로 소거 가능한 프로그래밍 가능한 판독 전용 메모리(EEPROM), FLASH 메모리 자기 또는 광학 데이터 저장 매체 등등을 포함할 수 있다.

프로그램 코드는 하나 또는 그 이상의 디지털 신호 처리기들(DSPs), 범용 마 이크로프로세서들, 애플리케이션용 집적 회로들(ASICs), 현장 프로그램 가능한 로직 어레이들(FPGAs), 또는 다른 등가의 집적 또는 이산 로직 회로에 의해 실행될 수 있다. 몇몇 실시예들에서, 본 명세서에 개시된 기능은 인코딩 및 디코딩을 위해 형성된 지정된 소프트웨어 모듈들 또는 하드웨어 유니트들 내에서 제공되거나 결합된 비디오 인코더-디코더(CODEC)에 통합될 수 있다.

다양한 실시예들이 개시되었다. 상기 및 다른 실시예들은 하기의 청구항들의 사상 내에 있다.

Claims

로컬 장치(local device)에 의해 인코딩될 근단(near-end) 비디오 내의 관심 영역(ROI)의 설명(description)을, 상기 로컬 장치의 로컬 사용자로부터 수신하는 단계 -여기서, 상기 설명은 상기 로컬 장치에 의해 인코딩될 상기 근단 비디오에 대한 상기 ROI를 정의함-;

상기 설명에 기초하여 상기 ROI를 규정하는 정보를 발생시키는 단계; 및

상기 근단 비디오의 비-ROI 영역들에 비해 상기 ROI의 이미지 품질을 개선하도록 상기 ROI를 규정하는 정보에 기초하여 상기 로컬 장치 상에서 상기 근단 비디오를 인코딩하는 단계 ―상기 ROI를 규정하는 정보는 상기 인코딩된 근단 비디오와 별개임―;

상기 인코딩된 근단 비디오에 관련된 모션 정보를 모니터하는 단계 -여기서, 상기 모션 정보는 상기 ROI의 움직임을 나타냄-;

상기 모션 정보에 기초하여 상기 ROI의 위치를 조정하는 단계; 및

상기 ROI의 조정된 위치에 기초하여 상기 근단 비디오를 인코딩하는 단계를 포함하고,

상기 설명에 기초하여 상기 ROI를 규정하는 정보를 발생시키는 단계는, 상기 ROI 내에 존재하는 매크로블럭(MB)들을 식별하는 MB 맵을 발생시키는 단계를 포함하며, 상기 ROI의 상기 위치를 조정하는 단계는 상기 모션 정보에 기초하여 상기 MB들의 상태를 상기 ROI 내에 포함되거나 상기 ROI로부터 제외되는 것으로 수정하는 단계를 포함하는, 방법.
제 1항에 있어서,

상기 설명은 문서형(textual) 설명인 방법.
제 1항에 있어서,

상기 설명은 구두형(verbal) 설명인 방법.
제 3항에 있어서,

음성 인식에 의해 상기 구두형 설명을 처리하는 단계, 및 하나 또는 그 이상의 인식된 용어들에 기초하여 상기 ROI를 규정하는 정보를 발생시키는 단계를 더 포함하는 방법.
제 1항에 있어서,

상기 설명은 그래픽 설명인 방법.
제 5항에 있어서,

상기 그래픽 설명은 상기 사용자에 의해 사용자 인터페이스 스크린에 그려진 영역으로서 수신되는 방법.
제 1항에 있어서,

상기 로컬 장치 내에서 상기 ROI를 규정하는 정보를 발생시키기 위해 상기 설명을 처리하는 단계를 더 포함하는 방법.
제 1항에 있어서,

상기 로컬 장치와 별개인 중간 서버 내에서 상기 ROI를 규정하는 정보를 발생시키기 위해 상기 설명을 처리하는 단계를 더 포함하는 방법.
제 1항에 있어서,

상기 인코딩된 근단 비디오 내에서 상기 ROI를 규정하는 정보를 삽입하는 단계; 및

상기 ROI를 규정하는 상기 삽입된 정보를 포함하는 상기 인코딩된 근단 비디오를 상기 로컬 장치로부터 원격 장치로 전송하는 단계를 더 포함하는 방법.
제 1항에 있어서,

상기 ROI를 규정하는 정보를 대역 외(out-of-band) 시그널링에 의해 상기 로컬 장치로부터 원격 장치로 전송하는 단계를 더 포함하는 방법.
제 1항에 있어서,

상기 로컬 장치가 원격 장치로부터 수신한 인코딩된 원단(far-end) 비디오 내에서 제 2 ROI를 규정하는 정보를 발생시키는 단계; 및

상기 제 2 ROI를 규정하는 정보를 상기 인코딩된 근단 비디오와 함께 상기 로컬 장치로부터 상기 원격 장치로 전송하는 단계를 더 포함하는 방법.
제 1항에 있어서,

상기 원단 비디오의 비-ROI 영역들에 비해 상기 원단 비디오의 제 2 ROI의 이미지 품질을 개선하기 위해 원격 장치로부터 수신된 인코딩된 원단 비디오를 디코딩하는 단계를 더 포함하는 방법.
제 1항에 있어서,

상기 설명에 기초하여 상기 ROI를 규정하는 정보를 발생시키는 단계는 상기 ROI 내에 존재하는 MB들을 식별하는 매크로블럭(MB) 맵을 발생시키는 단계를 더 포함하는 방법.
삭제
삭제
비디오 인코딩 장치로서,

상기 비디오 인코딩 장치에 의해 인코딩될 근단(near-end) 비디오 내의 관심 영역(ROI)의 설명을 상기 비디오 인코딩 장치의 로컬 사용자로부터 수신하고, 상기 설명에 기초하여 상기 ROI를 규정하는 정보를 발생시키는 관심 영역(ROI) 엔진 -여기서, 상기 설명은 상기 비디오 인코딩 장치에 의해 인코딩될 상기 근단 비디오에 대한 상기 ROI를 정의함-;

상기 근단 비디오의 비-ROI 영역들에 비해 상기 ROI의 이미지 품질을 개선하도록, 상기 ROI를 규정하는 정보에 기초하여 상기 비디오 인코딩 장치 상에서 상기 근단 비디오를 인코딩하는 비디오 인코더―상기 ROI를 규정하는 정보는 상기 인코딩된 근단 비디오와 별개임―

상기 인코딩된 근단 비디오에 관련된 모션 정보를 모니터하고, 상기 모션 정보에 기초하여 상기 ROI의 위치를 조정하는 트래킹 모듈을 포함하며,

상기 모션 정보는 상기 ROI의 움직임을 나타내며, 상기 비디오 인코더는 상기 ROI의 조정된 위치에 기초하여 상기 근단 비디오를 인코딩하며,

상기 ROI 엔진은, 상기 ROI 내에 존재하는 매크로블럭(MB)들을 식별하는 MB 맵을 발생시킴으로써 상기 ROI를 규정하는 정보를 발생시키는 맵퍼 모듈을 포함하며, 상기 트래킹 모듈은 상기 모션 정보에 기초하여 MB들의 상태를 상기 ROI 내에 포함되거나 상기 ROI로부터 제외되는 것으로 수정함으로써 상기 ROI의 위치를 조정하는,

비디오 인코딩 장치.
제 16항에 있어서,

상기 설명은 문서형 설명인 비디오 인코딩 장치.
제 16항에 있어서,

상기 설명은 구두형 설명인 비디오 인코딩 장치.
제 18항에 있어서,

음성 인식에 의해 상기 구두형 설명을 처리하고, 하나 또는 그 이상의 인식된 용어들에 기초하여 상기 ROI를 규정하는 정보를 발생시키는 추출 모듈을 더 포함하는 비디오 인코딩 장치.
제 16항에 있어서,

상기 설명은 그래픽 설명인 비디오 인코딩 장치.
제 20항에 있어서,

상기 그래픽 설명은 상기 사용자에 의해 사용자 인터페이스 스크린에 그려진 영역으로서 수신되는 비디오 인코딩 장치.
삭제
제 16항에 있어서,

상기 ROI 엔진은 상기 ROI를 규정하는 정보를 발생하기 위해 상기 설명을 중간 서버에 전송하는 비디오 인코딩 장치.
제 16항에 있어서,

상기 ROI를 규정하는 정보는 상기 인코딩된 근단 비디오 내에 삽입되며, 상기 비디오 인코더는 상기 ROI를 규정하는 상기 삽입된 정보를 포함하는 상기 인코딩된 근단 비디오를 상기 비디오 인코딩 장치로부터 원격 장치로 전송하는, 비디오 인코딩 장치.
제 16항에 있어서,

상기 비디오 인코더는 상기 ROI를 규정하는 정보를 대역 외(out-of-band) 시그널링에 의해 상기 비디오 인코딩 장치로부터 원격 장치로 전송하는, 비디오 인코딩 장치.
제 16항에 있어서,

상기 ROI 엔진은 상기 비디오 인코딩 장치가 원격 장치로부터 수신한 인코딩된 원단 비디오 내에서 제 2 ROI를 규정하는 정보를 발생시키고, 상기 비디오 인코더는 상기 제 2 ROI를 규정하는 정보를 상기 인코딩된 근단 비디오와 함께 상기 비디오 장치로부터 상기 원격 장치로 전송하는, 비디오 인코딩 장치.
제 16항에 있어서,

상기 원단 비디오의 비-ROI 영역들에 비해 상기 원단 비디오의 제 2 ROI의 이미지 품질을 개선하기 위해 상기 원격 장치로부터 수신된 인코딩된 원단 비디오를 디코딩하는 비디오 디코더를 더 포함하는 비디오 인코딩 장치.
제 16항에 있어서,

상기 ROI 엔진은, 상기 ROI 내에 존재하는 MB들을 식별하는 매크로블럭(MB) 맵을 발생시킴으로써, 상기 ROI를 규정하는 정보를 발생시키는 맵퍼 모듈을 포함하는, 비디오 인코딩 장치.
삭제
삭제
프로세서로 하여금,

로컬 장치에 의해 인코딩될 근단 비디오 내의 관심 영역(ROI)의 설명을, 로컬 장치의 로컬 사용자로부터 수신하게 하는 명령;

상기 설명에 기초하여 상기 ROI를 규정하는 정보를 발생시키게 하는 명령;

상기 근단 비디오의 비-ROI 영역들에 비해 상기 ROI의 이미지 품질을 개선하도록 상기 ROI를 규정하는 정보에 기초하여 상기 로컬 장치 상에서 상기 근단 비디오를 인코딩하게 하는 명령 ―상기 설명은 상기 로컬 장치에 의해 인코딩될 상기 근단 비디오에 대한 상기 ROI를 정의하고, 상기 ROI를 규정하는 정보는 상기 인코딩된 근단 비디오와 별개임―

상기 로컬 장치의 사용자로부터 상기 로컬 장치에 의해 인코딩된 근단 비디오에 관련한 상기 ROI를 정의하는 설명을 수신하게 하는 명령;

상기 인코딩된 근단 비디오에 관련된 모션 정보를 모니터링하게 하는 명령;

상기 모션 정보에 기초하여 상기 ROI의 위치를 조정하게 하는 명령; 및

상기 조정된 ROI의 위치에 기초하여 상기 근단 비디오를 인코딩하게 하는 명령을 포함하며,

상기 모션 정보는 상기 ROI의 움직임을 나타내며,

상기 프로세서로 하여금 상기 설명에 기초하여 상기 ROI를 규정하는 정보를 발생시키게 하는 명령은, 상기 프로세서로 하여금, 상기 ROI 내에 존재하는 매크로블럭(MB)들을 식별하는 MB 맵을 발생시키게 하고, 상기 움직임 정보에 기초하여 상기 MB들의 상태를 상기 ROI 내에 포함되거나 상기 ROI로부터 제외되는 것으로 수정함으로써 상기 ROI의 위치를 조정하게 하는 명령을 포함하는, 컴퓨터로 읽을 수 있는 매체.
제 31항에 있어서,

상기 설명은 문서형 설명인 컴퓨터로 읽을 수 있는 매체.
제 31항에 있어서,

상기 설명은 구두형 설명인 컴퓨터로 읽을 수 있는 매체.
제 33항에 있어서,

상기 명령들은 상기 프로세서로 하여금, 음성 인식에 의해 상기 구두형 설명을 처리하게 하고, 하나 또는 그 이상의 인식된 용어들에 기초하여 상기 ROI를 규정하는 정보를 발생시키게 하는, 컴퓨터로 읽을 수 있는 매체.
제 31항에 있어서,

상기 설명은 그래픽 설명인, 컴퓨터로 읽을 수 있는 매체.
제 35항에 있어서,

상기 그래픽 설명은 상기 사용자에 의해 사용자 인터페이스 스크린에 그려진 영역으로서 수신되는, 컴퓨터로 읽을 수 있는 매체.
삭제
제 31항에 있어서,

상기 명령들은 상기 프로세서로 하여금, 상기 로컬 장치 내에서 상기 ROI를 규정하는 정보를 발생시키게 하는, 컴퓨터로 읽을 수 있는 매체.
삭제
제 31항에 있어서,

상기 명령들은 상기 프로세서로 하여금, 상기 인코딩된 근단 비디오 내에서 상기 ROI를 규정하는 정보를 삽입하게 하고, 상기 ROI를 규정하는 상기 삽입된 정보를 포함하는 상기 인코딩된 근단 비디오를 상기 로컬 장치로부터 원격 장치로 전송하게 하는, 컴퓨터로 읽을 수 있는 매체.
제 31항에 있어서,

상기 명령들은 상기 프로세서로 하여금, 대역 외(out-of-band) 시그널링에 의해 상기 설명을 상기 로컬 장치로부터 원격 장치로 전송하게 하는, 컴퓨터로 읽을 수 있는 매체.
제 31항에 있어서,

상기 명령들은 상기 프로세서로 하여금, 상기 로컬 장치가 원격 장치로부터 수신한 인코딩된 원단 비디오 내에서 제 2 ROI를 규정하는 정보를 발생시키게 하고, 상기 제 2 ROI를 규정하는 정보를 상기 인코딩된 근단 비디오와 함께 상기 로컬 장치로부터 상기 원격 장치로 전송하게 하는, 컴퓨터로 읽을 수 있는 매체.
제 42항에 있어서,

상기 명령들은 상기 프로세서로 하여금, 상기 원단 비디오의 비-ROI 영역들에 비해 상기 원단 비디오의 제 2 ROI의 이미지 품질을 개선하도록 상기 원격 장치로부터 수신된 상기 인코딩된 원단 비디오를 디코딩하게 하는, 컴퓨터로 읽을 수 있는 매체.
제 31항에 있어서,

상기 프로세서로 하여금, 상기 설명에 기초하여 상기 ROI를 규정하는 정보를 발생시키게 하는 명령은, 상기 프로세서로 하여금, 상기 ROI 내에 존재하는 MB들을 식별하는 매크로블럭(MB) 맵을 발생시키게 하는 명령을 포함하는, 컴퓨터로 읽을 수 있는 매체.
삭제
삭제
삭제