KR20110009271A

KR20110009271A - 디코더측 관심 영역 비디오 프로세싱

Info

Publication number: KR20110009271A
Application number: KR1020117000835A
Authority: KR
Inventors: 칼레드 헬미 엘-마레; 비제이 마하데반; 하오훙 왕
Original assignee: 퀄컴 인코포레이티드
Priority date: 2006-12-22
Filing date: 2007-12-20
Publication date: 2011-01-27
Also published as: TW200843514A; KR20090094317A; EP2123046A2; US8744203B2; JP2010515300A; JP5479504B2; WO2008079960A2; WO2008079960A3; US20080152245A1; US20120213409A1; CN101563925B; CN101563925A; US8315466B2; KR101036783B1; JP2012120199A; KR101058759B1; EP2123046B1

Abstract

본 개시물은 디코더측 관심 영역 (ROI; region-of-interest) 비디오 프로세싱에 관한 것이다. 비디오 디코더는 ROI 보조 정보가 이용가능한지의 여부를 판정한다. ROI 보조 정보가 이용불가한 경우, 디코더는 디코더측 ROI 프로세싱을 이행하지 않는다. 디코더측 ROI 프로세싱은 비트스트림 도메인에서 ROI 추출의 신뢰도를 추정할 수도 있다. ROI 신뢰도가 양호하면, 디코더는 비트스트림 도메인 ROI 추출을 적용한다. ROI 신뢰도가 양호하지 않으면, 디코더는 픽셀 도메인 ROI 추출을 적용한다. 디코더는 인트라-코딩된 (I) 데이터 및 인터-코딩된 (P 또는 B) 데이터에 대해 상이한 ROI 추출 프로세스를 적용할 수도 있다. 디코더는 인트라-코딩된 데이터에 대해 컬러-기반 ROI 생성을 이용하고, 인터-코딩된 데이터에 대해 코딩된 블록 패턴 (CBP)-기반 ROI 생성을 이용할 수도 있다. ROI 정제는 인트라-코딩된 데이터에 대한 형상-기반 정제, 및 인터-코딩된 데이터에 대한 모션- 및 컬러-기반 정제를 수반할 수도 있다.

Description

디코더측 관심 영역 비디오 프로세싱{DECODER-SIDE REGION OF INTEREST VIDEO PROCESSING}

본 개시물은, 디지털 비디오 디코딩에 관한 것이고, 더욱 상세하게는, 비디오 프레임의 관심 영역 (ROI; region-of-interest) 부분을 식별하고 프로세싱하기 위한 기술에 관한 것이다.

디지털 비디오 성능은, 디지털 텔레비전, 디지털 직접 브로드캐스트 시스템, 무선 통신 디바이스, PDA (personal digital assistant), 랩탑 컴퓨터, 데스크탑 컴퓨터, 디지털 뮤직 및 비디오 플레이어, 휴대용 게이밍 디바이스, 비디오 게임 콘솔, 디지털 카메라, 디지털 리코딩 디바이스, 셀룰러 또는 위성 라디오 전화 등을 포함하는 광범위한 디바이스들에 통합될 수 있다. 디지털 비디오 디바이스는 종래의 아날로그 비디오 시스템에 상당한 개선을 제공하여 개선된 대역폭 효율로 비디오 시퀀스를 프로세싱하고 송신할 수 있다.

디지털 비디오 시퀀스들을 인코딩하기 위한 상이한 비디오 인코딩 표준이 확립되어 있다. MPEG (Moving Picture Experts Group) 은, 예를 들어, MPEG-1, MPEG-2 및 MPEG-4 를 포함하는 다수의 표준을 개발했다. 다른 예는, ITU (International Telecommunication Union)-T H.263 표준, 및 ITU-T H.264 표준과 그 대응물, ISO/IEC MPEG-4, Part 10, 즉, AVC (Advanced Video Coding) 를 포함한다. 이러한 비디오 인코딩 표준은 데이터를 압축 방식으로 인코딩함으로써 비디오 시퀀스의 개선된 송신 효율을 지원한다.

ROI 콘텐츠의 검출은, 비디오 이벤트 분석 및 편집, 비디오 검색 및 브라우징, 비디오 감시 장치, 비디오 텔레포니, 및 비디오 브로드캐스팅을 포함하는 다양한 비디오 어플리케이션에서 바람직할 수도 있다. 비디오 씬 (scene) 에서 다른 오브젝트가 중요할 수도 있지만, ROI 의 일 예는 인간의 얼굴이다. 예를 들어, 화상 회의 (video conference) 에서, ROI 는 참가자의 얼굴 표정 또는 화이트보드상의 그림을 나타낼 수도 있다. 우선적인 인코딩 (preferential encoding) 을 이용하여, 다른 비-ROI 영역에 비해 더 큰 선명도 및/또는 세부사항을 가지고 ROI 가 표현될 수도 있다.

본 개시물은 디코더측 ROI 비디오 프로세싱을 위한 기술에 관한 것이다. 비디오 디코더는, 예를 들어, 인코딩된 비트스트림에서의 신호 또는 코드를 검출함으로써, 인코딩된 비트스트림의 특성을 검출함으로써, 또는 대역외측 (out-of-band side) 정보를 검출함으로써, ROI 보조 정보가 이용가능한지의 여부를 판정하도록 구성될 수도 있다. 예로서, ROI 보조 정보는 ROI 내의 크로마 값의 범위를 식별하는 크로마 임계 정보 또는 ROI 를 식별하는 ROI 맵을 포함할 수도 있다.

ROI 보조 정보는 인코더에 의해 제공될 수도 있다. 다른 방식으로, ROI 보조 정보는 인코더와 디코더 사이의 하나 이상의 매개 디바이스들, 예를 들어, 네트워크 내의 또는 네트워크에 연결되어 있는 네트워크 디바이스에 의해 제공될 수도 있다. ROI 보조 정보가 이용가능하면, 비디오 디코더는 보조된 ROI 프로세싱 기술을 이용하여 비디오 프레임의 ROI 및/또는 비-ROI 영역에 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉을 적용할 수도 있다. 인코더 ROI 보조 정보가 이용불가하면, 비디오 디코더는 디코더측 ROI 프로세싱 기술을 이행하지 않을 수도 있다.

디코더측 ROI 프로세싱 기술은 비트스트림 도메인에서 ROI 추출의 신뢰도를 추정하는 신뢰도 분석을 적용할 수도 있다. ROI 신뢰도가 양호하면, 디코더는 비디오 프레임 디코딩 이전에 비트스트림 도메인 ROI 추출 프로세스를 적용할 수도 있다. ROI 신뢰도가 양호하지 않으면, 디코더는 비디오 프레임 디코딩 이후에 픽셀 도메인 ROI 추출 프로세스를 적용할 수도 있다. 양자의 경우 모두, 결과로 나타나는 ROI 및/또는 비-ROI 영역에 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉이 적용될 수도 있다.

비트스트림 도메인 ROI 추출을 위해, 비디오 디코더는 대략적인 (coarse) ROI 를 생성하는 제 1 스테이지를 적용할 수도 있다. 제 2 스테이지는 정밀한 (fine) ROI 를 생성하기 위해 제 1 스테이지로부터의 대략적인 ROI 를 정제한다. 비디오 디코더는 인트라-코딩된 (I) 비디오 데이터 또는 인터-코딩된 (P 또는 B) 비디오 데이터에 대해 상이한 ROI 추출 프로세스를 적용할 수도 있다. 예를 들어, 비디오 디코더는 인트라-코딩된 데이터에 대해 컬러-기반 ROI 마스크 생성기를, 그리고 인터-코딩된 데이터에 대해 코딩된 블록 패턴 (CBP)-기반 ROI 마스크 생성기를 이용할 수도 있다. ROI 정제는 인트라-코딩된 데이터에 대해 형상-기반 마스크 정제, 및 인터-코딩된 데이터에 대해 컬러-기반 마스크 정제에 의해 달성될 수도 있다.

일 양태에서, 본 개시물은, 관심 영역 (ROI; region of interest) 식별을 보조하는 정보가 이용가능한 경우 인코딩된 비디오 데이터에서의 ROI 를 식별하기 위해 제 1 프로세스를 적용하는 단계, 및 ROI 식별을 보조하는 정보가 이용불가한 경우 인코딩된 비디오 데이터에서의 ROI 를 식별하기 위해 제 2 프로세스를 적용하는 단계를 포함하는 방법을 제공한다.

다른 양태에서, 본 개시물은, 인코딩된 비디오 데이터의 비트스트림 도메인 분석을 이용하여 ROI 식별의 신뢰도를 판정하기 위해 인코딩된 비디오 데이터의 하나 이상의 특성들을 분석하는 단계, 판정된 신뢰도가 수용가능한 경우 인코딩된 비디오 데이터의 비트스트림 도메인 분석을 이용하여 ROI 를 식별하는 단계, 및 판정된 신뢰도가 수용불가한 경우 인코딩된 비디오 데이터의 픽셀 도메인 분석을 이용하여 ROI 를 식별하는 단계를 포함하는 방법을 제공한다.

또 다른 양태에서, 본 개시물은, 인트라-코딩된 데이터에 대해 인코딩된 비디오 데이터의 컬러 특성들에 기초하여 인코딩된 비디오 데이터에서의 ROI 를 식별하는 단계, 및 인터-코딩된 데이터에 대해 인코딩된 비디오 데이터의 코딩된 블록 패턴 (CBP) 특성들에 기초하여 ROI 를 식별하는 단계를 포함하는 방법을 제공한다.

다른 양태에서, 본 개시물은, ROI 식별을 보조하는 정보가 이용가능한 경우 인코딩된 비디오 데이터에서의 ROI 를 식별하기 위해 제 1 프로세스를 적용하는 제 1 모듈, 및 ROI 식별을 보조하는 정보가 이용불가한 경우 인코딩된 비디오 데이터의 ROI 를 식별하기 위해 제 2 프로세스를 적용하는 제 2 모듈을 포함하는 디바이스를 제공한다.

추가적인 양태에서, 본 개시물은, 인코딩된 비디오 데이터의 비트스트림 도메인 분석을 이용하여 ROI 식별의 신뢰도를 판정하기 위해 인코딩된 비디오 데이터의 하나 이상의 특성들을 분석하는 제 1 모듈, 판정된 신뢰도가 수용가능한 경우 인코딩된 비디오 데이터의 비트스트림 도메인 분석을 이용하여 ROI 를 식별하는 제 2 모듈, 및 판정된 신뢰도가 수용불가한 경우 인코딩된 비디오 데이터의 픽셀 도메인 분석을 이용하여 ROI 를 식별하는 제 3 모듈을 포함하는 디바이스를 제공한다.

또 다른 양태에서, 본 개시물은, 인트라-코딩된 데이터에 대해 인코딩된 비디오 데이터의 컬러 특성에 기초하여 인코딩된 비디오 데이터에서의 ROI 를 식별하는 제 1 모듈, 및 인터-코딩된 데이터에 대한 인코딩된 비디오 데이터의 코딩된 블록 패턴 (CBP) 특성에 기초하여 ROI 를 식별하는 제 2 모듈을 포함하는 디바이스를 제공한다.

본 개시물에 설명된 기술은 하드웨어, 소프트웨어, 펌웨어, 또는 그들의 임의의 조합으로 디지털 비디오 디코딩 장치에서 구현될 수도 있다. 소프트웨어로 구현되는 경우, 이 소프트웨어는 컴퓨터에서 실행될 수도 있다. 이 소프트웨어는 명령, 프로그램 코드 등으로서 초기에 저장될 수도 있다. 따라서, 본 개시물은, 컴퓨터-판독가능 매체를 포함하는 디지털 비디오 디코딩을 위한 컴퓨터 프로그램 제품을 고찰하고, 여기서, 컴퓨터-판독가능 매체는 컴퓨터로 하여금 본 개시물에 따른 기술을 실행하게 하는 명령을 포함한다.

이하 첨부된 도면 및 상세한 설명에서 하나 이상의 실시형태의 세부사항이 기술된다. 다른 특징, 목적, 및 이점은 상세한 설명 및 도면, 그리고 청구범위로부터 명백하게 될 것이다.

도 1 은 디코더측 ROI 프로세싱을 위해 구성된 비디오 디코더를 통합하는 비디오 인코딩 및 디코딩 시스템을 도시하는 블록도이다.
도 2 는 무선 통신 디바이스와 연관된 디스플레이상에 나타난 비디오 씬 내의 ROI 의 정의를 설명하는 도면이다.
도 3 은 도 1 의 비디오 디코더의 일례를 더욱 상세하게 도시하는 블록도이다.
도 4 는 도 3 의 비디오 디코더의 디코더측 ROI 모듈 형성 부분을 도시하는 블록도이다.
도 5 는 도 4 의 디코더측 ROI 모듈에서 I 데이터 ROI 프로세서의 제 1 스테이지를 형성하는 컬러-기반 ROI 마스크 생성기의 동작을 설명하는 흐름도이다.
도 6 은 도 4 의 디코더측 ROI 모듈에서 I 데이터 ROI 프로세서의 제 2 스테이지를 형성하는 형상-기반 ROI 마스크 정제기의 동작을 설명하는 흐름도이다.
도 7 은 도 4 의 디코더측 ROI 모듈의 P (또는 B) 데이터 ROI 프로세서의 제 1 스테이지를 형성하는 CBP-기반 ROI 마스크 생성기의 동작을 설명하는 흐름도이다.
도 8 은 도 4 의 디코더측 ROI 모듈의 P (또는 B) 데이터 ROI 프로세서의 제 2 스테이지를 형성하는 모션- 및 컬러-기반 ROI 마스크 정제기의 동작을 설명하는 흐름도이다.
도 9 는 비디오 프레임에서 ROI 에 대한 예시적인 매크로블록(MB) 맵을 도시하는 도면이다.
도 10 은 P 프레임에서 ROI 의 정의를 설명하는 도면이다.
도 11a 및 도 11b 는 제 1 비디오 씬 및 그 제 1 비디오 씬에서 대략적인 (approximate) ROI 에 대한 CBP 값의 상관을 나타내는 도면이다.
도 12a 및 도 12b 는 제 2 비디오 씬 및 그 제 2 비디오 씬에서 대략적인 ROI 에 대한 CBP 값의 상관을 나타내는 도면이다.
도 13a 및 도 13b 는 제 3 비디오 씬 및 그 제 3 비디오 씬에서 대략적인 ROI 에 대한 CBP 값의 상관을 나타내는 도면이다.
도 14a, 도 14b 및 도 14c 는 비디오 프레임의 ROI 에서 MB 에 대한 모션 벡터 (MV; motion vector) 의 균일성의 관점에서 모션 벡터의 일관성을 설명하는 도면이다.
도 15 는 도 1 의 비디오 디코더에서 보조된 ROI 추출 또는 디코더측 ROI 추출의 선택적인 활성화를 설명하는 흐름도이다.
도 16 은 ROI 신뢰도 분석의 어플리케이션 및 비트스트림-기반의 픽셀 도메인 ROI 추출의 선택적인 어플리케이션을 설명하는 흐름도이다.
도 17 은 I 데이터 및 P (또는 B) 데이터에 대한 스테이지가 정해진 ROI 추출 기술의 어플리케이션을 설명하는 흐름도이다.

본 개시물은 디코더측 ROI 비디오 프로세싱을 위한 기술에 관한 것이다. 비디오 디코더는, 예를 들어, 인코딩된 비트스트림 내의 신호 또는 코드를 검출함으로써, 인코딩된 비트스트림의 특성을 검출함으로써, 또는 대역외 부가 정보를 검출함으로써, ROI 보조 정보가 이용가능한지의 여부를 판정하도록 구성될 수도 있다. 일반적으로, ROI 보조 정보는 ROI 를 식별할 때 디코더를 보조하기 위해 인코딩된 비디오 비트스트림에 부가되거나 부가 정보로서 전송된 임의의 정보를 포함할 수도 있다. 일례로서, ROI 보조 정보는, 예를 들어 비디오 프레임 내의 매크로블록 (MB; macroblock) 과 같은 블록들을 ROI 또는 비-ROI 블록으로서 마킹함으로써 ROI 를 식별하는 ROI 맵을 포함할 수도 있다. 대안으로서, 보조 정보는 ROI 내의 크로마 값의 범위를 식별하는 크로마 임계 정보를 포함할 수도 있다. ROI 보조 정보는 인코더에 의해 제공될 수도 있다. 이와 다르게, ROI 보조 정보는 인코더와 디코더 사이의 하나 이상의 매개 디바이스, 예를 들어, 네트워크 내의 또는 네트워크에 연결된 네트워크 디바이스에 의해 제공될 수도 있다.

ROI 보조 정보가 이용가능하면, 비디오 디코더는 보조된 ROI 프로세싱 기술을 이용하여 ROI 를 판정하고 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉을 비디오 프레임의 ROI 및/또는 비-ROI 영역에 적용할 수도 있다. ROI 보조 정보가 이용불가한 경우, 비디오 디코더는 디코더측 ROI 프로세싱 기술을 이행하지 않을 수도 있다. 통상적으로, 본 개시물에서 디코딩, 포스트-프로세싱 및/또는 에러 은닉은 프로세싱으로 지칭될 수도 있다. 본 개시물에 이용된 용어 "우선적인" 은 일반적으로, 우선적인 프로세싱이 수행되지 않는 다른 영역의 보통의 프로세싱에 비해 강화되고, 증진되고 또는 다른 방식으로 개선된 디코딩, 포스트-프로세싱 및/또는 에러 은닉의 품질 및/또는 양을 지칭할 수도 있다. 통상, 우선적인 프로세싱은 이 프로세싱이 적용된 영역의 시각적 품질을 강화하도록 공식화될 수도 있고, 비디오 프레임의 ROI 또는 비-ROI 영역에 적용될 수도 있다.

디코더측 ROI 프로세싱 기술은 비트스트림 ROI 추출의 신뢰도를 추정하는 신뢰도 분석을 적용할 수도 있다. ROI 신뢰도가 양호하면, 디코더는 비디오 프레임 디코딩 이전에 비트스트림 도메인 ROI 추출 프로세스를 적용할 수도 있다. ROI 신뢰도가 양호하지 않으면, 디코더는 비디오 프레임 디코딩 이후에 픽셀 도메인 ROI 추출 프로세스를 적용할 수도 있다. 양자의 경우 모두, 결과로 나타난 ROI 및/또는 결과로 나타난 비-ROI 에 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉이 적용될 수도 있다. 비트스트림 도메인 ROI 추출은, 코딩된 블록 패턴 (CBP) 값, 모션 벡터 (MV), 크로마 값 등을 비제한적으로 포함하는, 인코딩된 비디오 비트스트림 내에서 이용가능한 데이터를 이용하는 ROI 추출을 지칭할 수도 있다. 코딩된 블록 패턴 (CBP) 은, 매크로블록 내의 어떤 블록이 코딩된 0 이 아닌 계수를 포함하는지를 나타낸다. 픽셀 도메인 ROI 추출은, 픽셀 강도 및 컬러 값을 포함하는, 인코딩된 비디오 비트스트림이 디코딩되고 복원된 후에 이용가능한 픽셀 도메인 데이터를 이용하는 ROI 추출을 지칭할 수도 있다.

압축된 도메인 ROI 추출에 대해, 비디오 디코더는 대략적인 ROI 를 생성하는 제 1 스테이지를 적용할 수도 있다. 제 2 스테이지는 정밀한 ROI 를 생성하기 위해 제 1 스테이지로부터의 대략적인 ROI 를 정제한다. 비디오 디코더는 인트라-코딩된 (I) 데이터 또는 인터-코딩된 (P 또는 B) 데이터를 포함하는 프레임에서의 ROI 추출을 위해 상이한 프로세스를 적용할 수도 있다. P 프레임은 일 방향의 예측가능한 프레임을 지칭하고, B 프레임은 양 방향의 예측가능한 프레임을 지칭한다. P 또는 B 데이터는 인터-코딩된 프레임을 지칭하거나 또는 인터-코딩된 프레임 내의 데이터를 지칭한다. I 데이터는 인트라-코딩된 프레임을 지칭하거나 또는 인트라-코딩된 프레임 내의 데이터를 지칭한다.

비디오 디코더는 인트라-코딩된 데이터를 위한 컬러-기반 ROI 마스크 생성기, 및 인터-코딩된 데이터를 위한 CBP-기반 ROI 마스크 생성기를 이용할 수도 있다. 프레임은, 이 프레임이 인트라 MB 를 포함하는 경우 I 프레임으로서 분류될 수도 있고, 이 프레임이 인터 MB 를 지배적으로 포함하는 경우 P 프레임으로서 분류될 수도 있다. 몇몇 경우, 컬러-기반 ROI 마스크 생성기 및 CBP-기반 ROI 마스크 생성기는 인터-코딩된 데이터 및 인트라-코딩된 데이터 모두를 포함하는 공동 프레임 내의 MB 의 상이한 세트들에 적용될 수도 있다.

비디오 디코더는 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉을 적용하여 결과 ROI 및/또는 ROI 의 품질을 향상시킬 수도 있다. 예를 들어, 비디오 디코더는 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉을 적용하여 ROI 의 시각적인 품질을 강화시킬 수도 있다. 이와 다르게, 또는 추가적으로, 비디오 디코더는 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉을 적용하여 비-ROI 영역의 시각적 품질을 강화시킬 수도 있다. 예로서, 인코더 또는 몇몇 매개 디바이스는 우선적인 인코딩을 ROI 영역에 적용했을 수도 있다. 이에 따라, ROI 영역이 이미 더 높은 품질로 인코딩될 수도 있다는 인식에서, 디코더는 추가적인 프로세싱 전력을 적용하여 인코더측에서 우선적인 프로세싱으로부터 이익을 얻지 못한 비-ROI 영역에 대해 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉을 제공할 수도 있다.

몇몇 양태에서, ROI 보조 정보는, ROI 식별에 도움을 주는 정보뿐만 아니라, 인코더 또는 몇몇 매개 디바이스가 우선적인 인코딩 또는 다른 프로세싱을 ROI 에 적용했는지의 여부를 나타내는 정보를 포함할 수도 있다. 이 정보는, 디코더가 비디오 프레임의 ROI 영역에 우선적인 프로세싱을 적용할지 또는 비-ROI 영역에 우선적인 프로세싱을 적용할지의 여부를 결정하는데 이용될 수도 있다. 따라서, 디코더는, 비디오 프레임의 ROI 영역에 우선적인 프로세싱이 적용되어야 할지 또는 비-ROI 영역에 우선적인 프로세싱이 적용되어야만 할지의 여부를 결정하기 위해 ROI 보조 정보를 분석하도록 추가적으로 구성될 수도 있다.

도 1 은 소스 디바이스 (12) 및 목적지 디바이스 (14) 를 포함하는 비디오 인코딩 및 디코딩 시스템 (10) 을 도시하는 블록도이다. 소스 디바이스 (12) 는 인코딩된 비디오를 통신 채널 (16) 을 통해서 목적지 디바이스 (14) 에 송신한다. 소스 디바이스는 비디오 인코더 (18) 및 송신기 (TX; 20) 를 포함한다. 목적지 디바이스 (14) 는 수신기 (RX; 22) 및 ROI-인에이블 비디오 디코더 (24) 를 포함한다. 통신 채널 (16) 은 유선 통신 매체 또는 무선 통신 매체일 수도 있다. 시스템 (10) 은 채널 (16), 예를 들어, 비디오 텔레포니를 통해서 양-방향 멀티미디어 통신을 지원할 수도 있다. 이와 다르게, 시스템 (10) 은 일 방향, 예를 들어, 소스 디바이스 (12) 에서 목적지 디바이스 (14) 로의 멀티미디어 스트리밍 또는 브로드캐스팅을 위해 구성될 수도 있다. 몇몇 양태에서, ROI 분석 또는 다른 비디오 프로세싱을 비디오 인코더 (18) 에 의해 생성된 비디오 프레임에 적용하기 위해, 예를 들어, 채널 (16) 과 연관된 네트워크 내에 하나 이상의 매개 디바이스가 제공될 수도 있다.

소스 디바이스 (12) 로부터 목적지 디바이스 (14) 로의 멀티미디어 콘텐츠의 송신은 예시의 목적으로 설명될 것이며, 멀티미디어 콘텐츠의 일-방향 또는 양-방향 통신에 적용될 수도 있다. 양-방향 통신에서, 상호 (reciprocal) 인코딩, 디코딩, 멀티플렉싱 (MUX) 및 디멀티플렉싱 (DEMUX) 컴포넌트는 채널 (16) 의 반대측 단부들에 제공될 수도 있다. 특히, 소스 디바이스 (12) 및 목적지 디바이스 (14) 각각은 양-방향 멀티미디어 통신에 대해, 예를 들어, 조합된 CODEC 내에 배치된, 인코더 및 디코더를 포함할 수도 있다. 이러한 경우, 소스 디바이스 (12) 및 목적지 디바이스 (14) 는 비디오 텔레포니뿐만 아니라 음성 텔레포니을 위해 장착된 모바일 무선 단말일 수도 있다.

일-방향 통신에서, 소스 디바이스 (12) 는 하나 이상의 가입자 디바이스에 비디오를 브로드캐스팅 또는 스트리밍하는 멀티미디어 브로드캐스트 디바이스의 일부를 형성할 수도 있다. 이 경우, 목적지 디바이스 (14) 는 멀티미디어 브로드캐스트를 수신하는 것뿐만 아니라 비디오 텔레포니를 지원하도록 장착된 모바일 무선 단말과 같은 비디오 통신 디바이스내에 내장될 수도 있다. ROI-인에이블 비디오 디코더 (24) 는 일-방향 또는 양-방향 통신의 일부로서 소스 디바이스 (12) 로부터 수신된 비디오에 대한 ROI 식별에 적용될 수도 있다. 각각의 경우, 목적지 디바이스 (14) 에 의해 수신된 비디오는 시각적 품질을 강화시키기 위해 우선적인 프로세싱이 바람직할 수도 있는 ROI 를 포함할 수도 있다.

시스템 (10) 은 세션 초기화 프로토콜 (SIP; Session Initiated Protocol), ITU-T H.323 표준, ITU-T H.324 표준, 또는 다른 표준들에 따라서 비디오 텔레포니 또는 비디오 스트리밍을 지원할 수도 있다. 비디오 인코더 (18) 는 비디오 압축 표준, 예를 들어, MPEG-2, MPEG-4, ITU-T H.263, 또는 ITU-T H.264 및 그 대응물, ISO/IEC MPEG-4, Part 10, 즉, 개선된 비디오 코딩 (Advanced Video Coding) 에 따라서 인코딩된 비디오 데이터를 생성한다. 도 1 에 도시되지 않았지만, 비디오 인코더 (18) 및 비디오 디코더 (24) 는 오디오 인코더 및 디코더 내에 각각 통합될 수도 있고, 공통의 데이터 스트림 또는 별도의 데이터 스트림으로 오디오 및 비디오 모두의 인코딩을 처리하기 위해 적절한 MUX-DEMUX 유닛, 또는 다른 하드웨어 및 소프트웨어를 포함할 수도 있다. 적절한 경우, MUX-DEMUX 유닛은 ITU H.223 멀티플렉서 프로토콜, 또는 사용자 데이터그램 프로토콜 (UDP) 과 같은 다른 프로토콜에 따를 수도 있다.

몇몇 양태에서, 이 개시물은, 기술 표준 TIA-1099 ("FLO (Forward Link Only) 규격") 으로서 발행된 "지상 모바일 멀티미디어 멀티캐스트를 위한 순방향 링크전용 에어 인터페이스 규격 (Forward Link Only Air Interface Specification for Terrestrial Mobile Multimedia Multicast)" 이라는 순방향 링크 전용 (Forward Link Only) 에어 인터페이스 규격을 이용하여 지상 모바일 멀티미디어 멀티캐스트 (TM3) 시스템에서 실시간 비디오 서비스를 전달하기 위해 Enhanced H.264 비디오 코딩으로의 어플리케이션을 고찰한다. FLO 규격은, FLO 에어 인터페이스를 통해 서비스를 전달하는데 적절한 디코딩 프로세스와 비트스트림 구문 (syntax) 및 의미 (semantic) 를 정의하는 예시들을 포함한다. 그러나, 본 개시물에 설명된 ROI 기술은 브로드캐스트, 멀티캐스트, 또는 포인트-투-포인트 시스템의 임의의 특정 유형으로 제한되지 않는다.

비디오 인코더 (18) 및 ROI-인에이블 비디오 디코더 (24) 각각은 하나 이상의 프로세서로서, 디지털 신호 프로세서, 주문형 집적 회로 (ASIC), 필드 프로그래머블 게이트 어레이 (FPGA), 이산 로직, 소프트웨어, 하드웨어, 펌웨어 또는 그 임의의 조합으로 구현될 수도 있다. 비디오 인코더 (18) 및 비디오 디코더 (24) 각각은 하나 이상의 인코더 또는 디코더에 포함될 수도 있고, 이들 중 하나는 각각의 가입자 디바이스, 브로드캐스트 디바이스, 서버 등에서 조합된 인코더/디코더 (CODEC) 의 일부로서 통합될 수도 있다. 추가적으로, 송신기 (20) 및 수신기 (22) 각각은 인코딩된 비디오의 송신 및 수신을 위한 적절한 변조, 복조, 주파수 변환, 필터링, 및 증폭기 컴포넌트를 포함할 수도 있고, 적용가능하다면, 무선 주파수 (RF; radio frequency) 무선 컴포넌트 및 안테나를 포함할 수도 있다. 그러나, 설명의 용이함을 위해, 이러한 컴포넌트들은 도 1 에 도시되지 않는다.

본 명세서에 설명된 바와 같이, 시스템 (10) 은 ROI 코딩에 대한 기술을 지원하도록 구성될 수도 있다. 예를 들어, 소스 디바이스 (12) 내의 비디오 인코더 (18) 는 비디오 프레임 내의 ROI 를 식별하도록 구성될 수도 있고, 비디오 디코더 (24) 가 ROI 를 식별하도록 지원하기 위해 인코딩된 비디오 프레임과 함께 ROI 보조 정보를 포함할 수도 있다. ROI 보조 정보는 인코딩된 비디오 프레임 비트스트림 내에 내장될 수도 있고, 또는 대역외 부가 정보로서 제공될 수도 있다. ROI 보조 정보는, 인코더 (18) 에 의해 또는 소스 디바이스 (12) 와 목적지 디바이스 (14) 가 통신하는 네트워크 내에 있거나 또는 그 네트워크에 커플링된 매개 디바이스에 의해 생성될 수도 있다. 매개 디바이스는, 예를 들어, 비트스트림 도메인 ROI 추출 또는 픽셀 도메인 ROI 추출을 포함하는 다양한 기술을 이용하여 ROI 를 식별하도록 구성될 수도 있다. 매개 디바이스는 소스 디바이스 (12) 보다 더 큰 프로세싱 전력을 갖고 있어, 임의의 또는 다양한 효과적인 ROI 검출 기술의 어플리케이션을 가능하게 할 수도 있다.

예로서, 비디오 인코더 (18) 또는 매개 디바이스는, 예를 들어, 사용자에 의한 ROI 의 명시적인 지정 또는 스킨 톤 검출과 같은 기술을 이용하는 자동화된 ROI 검출에 기초하여, ROI 내에 상주하는 비디오 프레임 내의 블록을 지정하는 ROI 맵을 생성하도록 구성될 수도 있다. ROI 보조 정보의 다른 예는, ROI 에 대응하는 크로마 값의 범위를 나타내는 크로마 임계 정보, 예를 들어, 스킨 톤에 대응하는 크로마 값이다. 또한, 이러한 정보는 인코딩된 비디오 비트스트림 내에 상주할 수도 있고 또는 인코딩된 비디오 비트스트림과는 별개의 대역외 부가 정보로서 송신될 수도 있다.

통상적으로, ROI 를 식별하는 콘텍스트에서, 용어, '추출', '검출' 및 '식별' 은 상호교환가능하게 이용될 수도 있다. ROI 블록 및 비-ROI 블록을 각각 지정하기 위해 매크로블록 (MB) 과 같은 개별적인 블록을 1 또는 0 으로 식별함으로써 ROI 맵이 형성될 수도 있다. 매크로블록은 프레임의 일부를 형성하는 비디오 블록이다. MB 의 크기는 16×16 픽셀일 수도 있다. 그러나, 다른 서브-블록 크기도 가능하다. 예를 들어, H.264 표준은 다양한 상이한 크기, 예를 들어, 16×16, 16×8, 8×16, 8×8, 4×4, 8×4, 및 4×8 를 갖는 블록들의 인코딩을 허용한다. 매크로블록은 예시의 목적으로 본 명세서에 설명될 것이고, 매크로블록 또는 다른 비디오 블록이 다양한 상이한 크기를 가질 수도 있다는 것을 이해한다.

수신된 비디오 프레임에서 ROI 내에 상주하는 인코딩된 비디오 데이터의 일부를 나타내는 다른 정보 또는 ROI 맵을 이용하여, 비디오 인코더 (18) 또는 매개 디바이스는 ROI-인에이블 비디오 디코더 (24) 에 의해 인코더-보조된 ROI 검출을 지원할 수도 있다. 다른 방법으로, ROI-인에이블 비디오 디코더 (24) 는 비디오 인코더 (18) 또는 임의의 매개 디바이스의 보조없이 디코더측 ROI 검출을 적용할 수도 있다. 따라서, 디코더 (24) 는, 인코딩된 비디오 데이터가 ROI 식별을 보조하는 정보를 포함하는 경우 인코딩된 비디오 데이터에서의 ROI 를 식별하기 위해 제 1 프로세스를 적용하고, 인코딩된 비디오 데이터가 ROI 식별을 보조하는 정보를 포함하지 않는 경우 인코딩된 비디오 데이터에서의 ROI 를 식별하기 위해 제 2 프로세스를 적용할 수도 있다.

각각의 경우, 디코더측에서 ROI 의 검출시에, 비디오 디코더 (24) 는 ROI 또는 비-ROI 둘 중 하나의 시각적 품질을 향상시키기 위해 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉을 적용할 수도 있고, 또는, 가능하다면 ROI 및 비-ROI 에 상이한 레벨의 이러한 우선적인 프로세싱을 적용할 수도 있다. ROI 보조가 이용가능한지 여부를 판정하기 위해, 비디오 디코더 (24) 는 인코딩된 비트스트림에서의 신호 또는 코드를 검출하거나 또는 인코딩된 비트스트림의 특성들을 검출할 수도 있다. 따라서, 비디오 인코더 (18) 또는 매개 디바이스는 ROI 보조의 이용가능성을 나타내기 위해 인코딩된 비트스트림 내에 신호 또는 코드를 포함할 수도 있다. 몇몇 경우, 인코딩된 비트스트림 내의 ROI 맵 또는 다른 ROI 보조 정보의 존재는 ROI 보조를 나타내기 위한 신호 또는 코드로서 작용할 수도 있다. 이와 다르게, 비디오 인코더 (18) 또는 매개 디바이스는 비디오 비트스트림 내에 ROI 보조 정보의 존재를 나타내기 위해 대역외 신호를 제공하거나, 또는, 대역외 부가 정보로서 대역-외 신호 및 ROI 보조 정보를 제공할 수도 있다. 예를 들어, 이 정보는, 비디오 프레임을 통해 송신된 관리 (administrative) 헤더 또는 프레임에 제공될 수도 있다.

ROI 보조가 이용불가한 경우, 비디오 디코더 (24) 는 디코더측 ROI 프로세싱 기술을 적용한다. 비디오 디코더 (24) 는 비트스트림 도메인 또는 복원된 픽셀 도메인에서 ROI 프로세싱을 적용할지의 여부를 결정하기 위해 신뢰도 분석을 적용할 수도 있다. 비트스트림 도메인에서 추출된 ROI 의 유망한 신뢰도가 양호하지 않다고 발견되는 경우, 디코더 (24) 는 비디오 프레임 디코딩 이후에 픽셀 도메인 ROI 추출 프로세스를 적용할 수도 있다. 디코더 (24) 는, 신뢰가능하다고 발견된 경우, 압축 도메인 ROI 추출을 선택한다. 신뢰도 분석은 비트스트림 도메인 분석을 이용하여 ROI 식별의 신뢰도를 판정하기 위해 인코딩된 비디오 데이터의 하나 이상의 특성의 분석을 수반할 수도 있다. 후술하는 바와 같이, 예를 들어, 디코더 (24) 에 의해 적용된 신뢰도 분석은 평가시에 비디오 프레임에 대한 양자화 파라미터 (QP; quantization parameter) 값의 분석에 의존할 수도 있다. 더욱 상세하게, 디코더 (24) 에 의해 적용된 신뢰도 분석은 프레임 내의 인코딩된 비디오 데이터의 루마 및 크로마 성분에 대한 평균 QP 값을 분석할 수도 있고, 평균 QP 값이 임계값을 초과하는 경우 수용불가한 신뢰도를 나타낼 수도 있다.

신뢰도가 양호하지 않으면, 디코더 (24) 는 비디오 프레임 디코딩 이후에 픽셀 도메인 ROI 추출 프로세스를 적용할 수도 있다. 디코더측에서 복원된 픽셀 도메인 내의 ROI 추출은 효과적이지만, 예를 들어, 모바일 무선 통신 디바이스 내의 어플리케이션과 같은 저전력 소모 제한을 갖는 실시간 어플리케이션에 대해서는 덜 바람직할 수도 있다. 따라서, 비트스트림내에서의 ROI 추출이 신뢰가능한 경우, 비트스트림-기반 ROI 추출이 보통 더욱 바람직할 것이다. 특히, 비트스트림 도메인내에서의 ROI 추출은 복원된 픽셀 도메인에서보다 감소된 계산적 복잡도 및 전력 소모를 나타낼 수도 있다. 그러나, 비트스트림 도메인 ROI 추출의 정확도는 비트스트림을 생성하기 위해 이용된 비디오 인코더의 특성에 의해 영향을 받을 수도 있다.

따라서, 비트스트림 도메인 ROI 추출이 인코딩된 비디오 데이터의 특성으로 인해 신뢰불가한 경우, 시스템 (10) 은 비트스트림 도메인 ROI 추출에서 픽셀 도메인 ROI 추출로 전환할 수 있는 ROI 추출에 대한 강건한 기술을 구현할 수도 있다. 또한, 몇몇 양태에서, 시스템 (10) 은 ROI 보조 정보가 이용가능한 상황을 자동으로 식별하고 이러한 상황에 적응할 수도 있는 의미에서 정보화될 수도 있다. ROI 보조 정보가 이용가능하면, 디코더 (24) 는 그 ROI 보조 정보를 이용하여 ROI 를 식별할 수도 있다. ROI 보조 정보가 이용불가하면, 디코더 (24) 는 비트스트림 도메인 ROI 추출의 예측 신뢰도에 기초하여 전술한 바와 같이 비트스트림 도메인 또는 복원된 픽셀 도메인 둘 중 하나가 적용된 디코더측 ROI 추출 기술을 이행하지 않을 수도 있다.

추정된 신뢰도가 수용가능하면, 비디오 디코더 (24) 는 2 개의 상이한 경로 (하나는 인트라-코딩된 (I) 데이터용 경로, 다른 하나는 인터-코딩된 (P 또는 B) 데이터용 경로) 를 포함할 수도 있는 비트스트림 도메인 ROI 추출 프로세스를 적용한다. 하나의 경로는 I 프레임을 처리하고, 몇몇 경우에는, P 프레임으로부터의 인트라-코딩된 MB 를 처리할 수도 있다. 다른 경로는 P 프레임을 처리하고, 몇몇 경우, 인트라 MB 및 인터 MB 를 포함하는 P 프레임 내의 인터-코딩된 MB 를 처리한다. 또한, 각각의 경로는 2 개의 스테이지를 포함할 수도 있는데, 제 1 스테이지는 대략적인 ROI 추정 스테이지이고 제 2 스테이지는 정밀한 ROI 를 생성하기 위해 제 1 스테이지로부터 대략적인 ROI 를 정제하는 정밀한 ROI 추정 스테이지이다. I 프레임 또는 P 프레임에서와 같은 인트라-코딩된 데이터에 대해, 비디오 디코더 (24) 는 대략적인 ROI 를 식별하기 위해 컬러-기반 ROI 마스크 생성기를 이용하고, 그후, 인코딩된 비디오 데이터의 형상 특성에 기초하여 대략적인 ROI 를 정제할 수도 있다. P 프레임 또는 B 프레임에서와 같이 인터-코딩된 데이터에 대해, 비디오 디코더 (24) 는 인코딩된 비디오 데이터의 코딩된 블록 패턴 (CBP) 특성에 기초하여 대략적인 ROI 를 식별한 후, 인코딩된 비디오 데이터의 모션 및 컬러 특성에 기초하여 대략적인 ROI 를 정제할 수도 있다. ROI 의 보조된 식별 또는 디코더측 식별시에, 디코더 (24) 는 우선적인 프로세싱으로 집합적으로 지칭되는 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉을 적용하여 결과 ROI 영역 또는 결과 비-ROI 영역의 품질을 향상시킬 수도 있다.

도 2 는 무선 통신 디바이스 (34) 와 연관된 디스플레이 (32) 상에 표현된 비디오 씬 (30) 내의 ROI (28) 의 정의를 나타내는 도면이다. 도 2 의 예시에서, ROI (28) 는, 예를 들어, 인간의 머리 (36) 또는 얼굴과 같은 오브젝트에 실질적으로 일치하는 둥근 또는 불규칙적인 형상을 갖는 비-직사각형 ROI 로서 도시된다. 이와 다르게, 직사각형 ROI 가 제공될 수도 있다. 양자의 경우 모두, ROI (28) 는 소스 디바이스 (12) (예를 들어, 인코더 (18)) 에서 검출 또는 이와 다르게 식별될 수도 있고, 매개 디바이스 (예를 들어, 네트워크) 에서 검출될 수도 있고, 또는 ROI 보조를 받거나 또는 ROI 보조를 받지 않는 목적지 디바이스 (14) (예를 들어, 디코더 (24)) 에서 자동으로 검출될 수도 있다.

소스 디바이스 (12) 가 ROI 보조를 제공하도록 구성된 경우, 소스 디바이스 (12) 는 사용자로부터의 ROI 입력에 기초하여 수동으로, 자동화된 식별 기술을 이용하여 자동으로, 또는 수동 및 자동 ROI 식별의 조합을 이용하여 ROI (28) 를 정의할 수도 있다. ROI (28) 는 머리 (36) 또는 얼굴을 포함하는 비디오 씬 (30) 의 일부분을 내포할 수도 있다. 그러나, ROI (28) 는 얼굴 이외의 오브젝트를 특정하도록 이용될 수도 있다. ROI (28) 의 크기 및 위치는 고정될 수도 있고 또는 조절가능할 수도 있으며, 다양한 방식으로 정의되고, 묘사되고 또는 조절될 수도 있다. ROI (28) 는 송신된 비디오 씬 (30) 내의 개별적인 오브젝트의 시각적 품질을 향상시키기 위해 우선적인 프로세싱을 허용한다. 이러한 방식으로, ROI (28) 는 수신된 비디오 씬 (30) 내의 원하는 오브젝트를 더욱 선명하게 뷰잉하는 비디오 수신을 허용한다. 예를 들어, 인코더 (18) 는 ROI 에 우선적인 인코딩을 적용하여 시각적 품질을 향상시킬 수도 있고, 또는 디코더 (24) 는 ROI 또는 비-ROI 에 우선적인 프로세싱을 적용하여 시각적 품질을 향상시킬 수도 있다.

몇몇 경우, 인코더 (18) 가 ROI (28) 를 식별하는 경우, 인코더는 비디오 씬 (30) 의 배경 영역과 같은 비-ROI 영역에 비해 더 높은 이미지 품질로 ROI 를 인코딩할 수도 있다. 이러한 방식으로, 목적지 디바이스 (14) 와 연관된 사용자는 인코더 (18) 에 의해 인코딩된 비디오 내에서 얼굴 표정, 입술의 움직임, 눈의 움직임 등을 더욱 선명하게 뷰잉할 수 있다. 이와 다른 방식으로, 또는 추가적으로, 목적지 디바이스 (14) 내의 디코더 (24) 는 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉을 적용하여 ROI (28) 또는 그 ROI 내에 속하지 않는 영역의 시각적 품질을 향상시킬 수도 있다. 예를 들어, 비디오 디코더 (24) 는 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉을 적용하여 비-ROI 영역의 시각적 품질을 향상시킬 수도 있다. 예로서, 인코더 (18) 또는 몇몇 매개 디바이스는 ROI 영역에 우선적인 인코딩을 제공했을 수도 있다. 이에 따라, ROI (28) 가 보다 높은 품질로 이미 인코딩되어 있을 수도 있다는 인지 하에서, 디코더 (24) 는 추가적인 프로세싱 전력을 적용하여 인코더측에서의 우선적인 프로세싱으로부터의 이익을 획득하지 못했던 비-ROI 영역에 대해 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉을 제공할 수도 있다. 양자의 경우 모두, 디코더 (24) 는 인코더 (18) 또는 매개 디바이스에 의해 제공된 ROI 보조 정보로부터의 보조를 받거나 또는 그 보조 없이 ROI (28) 를 식별할 수도 있다. 따라서, 디코더 (24) 는 임의의 다양한 상이한 콘텍스트에 우선적인 프로세싱을 적용할 수도 있다. ROI MB 맵을 이용하여, 예를 들어, 디코더 (24) 는 우선적인 디코딩, 포스트-프로세싱, 및/또는 에러 은닉을 위해 비-ROI MB 로부터 ROI MB 를 구별할 수도 있다.

제 1 대안으로서, 인코더 (18) 는 ROI (28) 를 식별하여 우선적으로 인코딩하고, 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉의 적용을 위해 ROI 의 보조된 검출에 이용되는 디코더 (24) 에 정보를 통과시킬 수도 있다. 제 2 대안으로서, 인코더 (18) 는 ROI (28) 를 식별하고, ROI 의 우선적인 인코딩 없이 ROI 의 보조된 검출에 이용되는 디코더 (24) 에 정보를 통과시킬 수도 있다. 제 3 대안으로서, 인코더 (18) 는 ROI 검출을 보조하는 디코더 (24) 에 정보를 통과시키지 않고 ROI (28) 를 식별하고 우선적으로 인코딩할 수도 있다. 제 4 대안으로서, 인코더 (18) 는 ROI 를 식별하지 않을 수도 있고, 이에 따라, ROI 검출을 보조하는 어떠한 우선적인 인코딩 또는 정보도 제공하지 않을 수도 있다. 제 5 대안으로서, 인코더 (18) 는 ROI (28) 를 식별할 수도 있고, 디코더 (24) 에 ROI 보조 정보를 통과시킬 수도 있지만, ROI 에 우선적인 인코딩은 적용하지 않을 수도 있다. 제 6 대안으로서, 예를 들어, 소스 디바이스 (12) 와 목적 디바이스 (14) 사이의 네트워크 내에 있는 매개 디바이스가 ROI 를 식별하고, ROI 보조 정보를 디코더 (24) 에 통과시킬 수도 있다. 몇몇 예시에서, 디코더 (24) 는 인코더 (18) 또는 매개 디바이스로부터의 ROI 보조 정보를 활용하여 ROI (28) 를 검출할 수도 있다. 다른 예시에서, 디코더 (24) 는 인코더 (18) 또는 임의의 매개 디바이스로부터의 어떠한 도움도 없이 ROI (28) 를 검출한다.

전술한 바와 같이, ROI (28) 는 머리 (36) 또는 얼굴 이외의 오브젝트를 특정하도록 이용될 수도 있다. 일반적으로, 비디오 텔레포니 (VT) 어플리케이션에서의 ROI 는 매우 주관적 (subjective) 일 수 있고, 사용자마다 상이할 수도 있다. 또한, 원하는 ROI 는 VT 가 어떻게 이용되는지에 의존한다. 몇몇 경우에, 화상 회의와는 대조적으로, VT 가 오브젝트를 뷰잉하고 평가하는데 이용될 수도 있다. 예를 들어, 특히, 프리젠팅이 카메라로부터 이격되어 화이트보트를 향하고 있을 경우, 사용자가 프리젠터 (presenter) 의 얼굴보다는 식 또는 도면을 포함하는 화이트보드의 섹션에 포커싱하기를 희망할 수도 있다. 몇몇 경우에서, 비디오 씬은 우선적인 인코딩을 위해 지정된 2 개 이상의 ROI 들을 포함할 수도 있다. 이러한 경우들을 수용하기 위해, 몇몇 양태에서, 디코더 (24) 는, 예를 들어, ROI 가 사람인지 또는 화이트보드의 일부와 같은 오브젝트인지를 나타내는 사용자 입력에 응답하여, 상이한 콘텍스트에 적응하도록 구성될 수도 있다.

도 3 은 도 1 의 ROI-인에이블 비디오 디코더 (24) 의 일 예를 더욱 상세하게 도시하는 블록도이다. 도 3 에 도시된 바와 같이, 디코더 (24) 는 채널 (16) 을 통해서 소스 디바이스 (12) 로부터 인코딩된 비디오 데이터를 수신하는 수신기 (22) 를 포함한다. 도 3 의 예에서, ROI-인에이블 비디오 디코더 (24) 는 ROI 보조 검출기 모듈 (40), 보조된 ROI 모듈 (42), 디코더측 ROI 모듈 (44), 디코딩 엔진 (46), 및 포스트-프로세서 (48) 를 포함한다. 모듈로서의 상이한 특징부들의 설명은 디코더 (24) 의 상이한 기능적인 양태들을 강조하도록 의도되고, 이러한 모듈들이 별개의 하드웨어 및/또는 소프트웨어 컴포넌트들에 의해 실현되어야만 한다는 것을 함축할 필요는 없다. 또한, 하나 이상의 모듈과 연관된 기능은 공동의 또는 별개의 하드웨어 및/또는 소프트웨어 컴포넌트 내에 통합될 수도 있다.

ROI 보조 검출기 모듈 (40) 은 소스 디바이스 (12) 또는 매개 디바이스로부터 수신된 인코딩된 비디오 데이터 또는 부가 정보가 ROI 식별을 보조하는 정보를 포함하는지의 여부를 판정한다. 예를 들어, ROI 보조 검출기 모듈 (40) 은, ROI 맵의 존재, 또는 소정의 비디오 프레임 또는 비디오 프레임의 시퀀스에 대한 비트스트림 내에 포함된 신호 또는 코드를 검출할 수도 있다. ROI-인에이블 비디오 디코더 (24) 는, 인코딩된 비디오 데이터 또는 부가 정보가 ROI 식별을 보조하는 정보를 포함하는 경우, 인코딩된 비디오 데이터내에서 ROI 를 식별하기 위해 제 1 프로세스를 적용한다. ROI 식별을 보조하는 정보는 ROI 내에 속하는 인코딩된 비디오 데이터의 일부를 식별하는 정보를 포함할 수도 있고, 우선적인 인코딩 또는 다른 우선적인 프로세싱이 ROI 에 적용되었는지의 여부를 나타낼 수도 있다.

제 1 프로세스는 보조된 ROI 모듈 (42), 디코딩 엔진 (46) 및 포스트-프로세서 (48) 에 의해 수행될 수도 있다. 예를 들어, 보조된 ROI 모듈 (42) 은, 예를 들어, ROI 내에 포함된 블록을 식별함으로써, 인코더 (18) 에 의해 제공된 정보에 기초하여 ROI 를 식별한다. 그후, 디코딩 엔진 (46) 및 포스트-프로세서 (48) 는 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉을 보조된 ROI 모듈 (42) 에 의해 식별된 ROI 에 적용한다. 예를 들어, 보조된 ROI 모듈 (42) 은 우선적인 프로세싱이 적용되어야만 하는 블록들의 표시, 예를 들어, MB 또는 서브-구획 (sub-partition) 을 생성할 수도 있고, 디코딩 엔진 (46) 및 포스트-프로세서 (48) 에 그 표시를 통과시킬 수도 있다. 디스플레이 (38) 는 디코딩 엔진 (46) 및 포스트-프로세서 (48) 에 의해 생성된 디코딩된 비디오 데이터의 시각적인 표현을 목적지 디바이스 (14) 의 사용자에게 제공한다.

ROI-인에이블 비디오 디코더 (24) 는, 인코딩된 비디오 데이터가 ROI 식별을 보조하는 정보를 포함하지 않으면 인코딩된 비디오 데이터 내의 ROI 를 식별하기 위해 제 2 프로세스를 적용한다. 제 2 프로세스는 디코더측 ROI 모듈 (44), 디코딩 엔진 (46) 및 포스트-프로세서 (48) 에 의해 수행될 수도 있다. 후술하는 바와 같이, 디코더측 ROI 모듈 (44) 은 인코더 (18) 또는 매개 디바이스의 보조 없이 ROI 를 자동으로 식별하기 위해 인코딩된 비디오 데이터를 분석할 수도 있다. 이러한 의미에서, 디코더측 ROI 모듈 (44) 은 디코더-전용 ROI 모듈로 고려될 수도 있다. 디코더측 ROI 모듈 (44) 은 인코딩된 비디오 데이터의 비트스트림 도메인 분석을 이용하여 ROI 식별의 신뢰도를 판정하기 위해 인코딩된 비디오 데이터의 하나 이상의 특성들을 분석할 수도 있다.

실례로서, 디코더측 ROI 모듈 (44) 은 인코딩된 비디오 데이터에 대한 하나 이상의 양자화 파라미터 (QP) 값을 분석할 수도 있다. QP 값의 분석에 기초하여, 디코더측 ROI 모듈 (44) 은 ROI 가 인코딩된 비디오 데이터의 비트스트림 도메인으로부터 신뢰가능하게 추출될 수 있는지의 여부를 판정한다. 더욱 상세하게, 디코더측 ROI 모듈 (44) 은 인코딩된 비디오 데이터의 루마 및 크로마 성분에 대한 평균 QP 값을 분석할 수도 있고, 그 평균 QP 값이 임계값을 초과할 때 수용불가한 신뢰도를 나타낼 수도 있다. 비디오 프레임에 대한 평균 루마 및 크로마 QP 값이 크면, 변환 계수의 불량한 양자화를 나타내고, 이에 따라 에지와 같은 중요한 신호 정보의 손실을 나타내며, 정확한 ROI 를 추출할 가능성이 낮아지게 되는 경향이 있다. QP 값이 크고, 비트스트림 도메인의 ROI 신뢰도가 낮으면, 비트스트림 도메인보다 픽셀 도메인에서 ROI 검출을 수행하는 것이 바람직하다.

이를 달성하기 위해, 디코더측 ROI 모듈 (44) 은 신뢰도가 수용가능할 때 비트스트림 도메인 ROI 검출을 적용하고, 신뢰도가 수용불가할 때 픽셀 도메인 ROI 검출을 적용하도록 구성될 수도 있다. 픽셀-기반 ROI 추출이 적용될 때, 디코더측 ROI 모듈 (44) 은 디코딩 엔진 (46) 과 서로 상호작용하여, ROI 추출이 디코딩된 비트스트림에 적용될 수 있다. 비트스트림 도메인 ROI 검출이 적용될 때, 디코더측 ROI 모듈 (44) 은, 전술한 바와 같이, 인트라-코딩된 비디오 데이터 및 인터-코딩된 비디오 데이터에 대해 2 개의 상이한 ROI 검출 경로를 적용할 수도 있다. 각각의 경로는 대략적인 ROI 추정 및 정밀한 ROI 추정 각각을 생성하는 2 개의 상이한 스테이지를 포함할 수도 있다. 디코더측 ROI 모듈 (44) 은 디코딩 엔진 (46) 및 포스트-프로세서 (48) 로 각각의 비디오 프레임 또는 비디오 프레임들의 시퀀스에 대한 정밀한 ROI 표시를 통과시킨다. ROI 표시를 이용하여, 디코딩 엔진 (46) 및 포스트-프로세서 (48) 에, 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉을 비디오 데이터내에서 식별된 ROI 에 적용한다. 디스플레이 (38) 는 디코딩 엔진 (46) 및 포스트-프로세서 (48) 에 의해 생성된 디코딩된 비디오 데이터의 시각적인 표현을 목적지 디바이스 (14) 의 사용자에게 제공한다.

전술한 바와 같이, ROI 보조 검출기 모듈 (40) 은, 인코더 (18) 또는 매개 디바이스가 ROI 추출의 보조를 위해, 인코딩된 비디오 비트스트림에서의 임의의 정보, 또는 임의의 대역외 부가 정보를 포함하는지의 여부를 판정한다. 만약 포함하면, ROI 보조 검출기 모듈 (40) 은 ROI 식별을 보조하는 정보가 이용가능한 것으로 판정한다. 일 예시로서, ROI 보조 검출 모듈 (40) 은, 신호, 코드 또는 고유한 패턴이 존재하는지의 여부를 판정하기 위해 수신된 비디오 비트스트림을 분석할 수도 있다. 고유한 패턴은, 인코더 (18) 또는 매개 디바이스가 인코더측에서 ROI 추출을 수행한 신호에 이용될 수도 있다. 이 고유한 패턴은 실제 인코딩된 비디오 데이터에서 발생하지 않거나, 또는 매우 드물게 발생하도록 선택될 수도 있다. 예를 들어, 1000100010001000 의 패턴은 인코딩된 비디오 비트스트림 내에 내장되어, 디코더 (24) 가 ROI 를 추출하는 것을 보조하기 위해 그 정보가 이용가능하다는 것을 나타낼 수도 있다.

패턴의 내장은, M. Wu, H.Yu 및 A.Gelman 의 "디지털 이미지 및 비디오에 대한 다중-레벨 데이터 숨기기 (Multi-level data hiding for digital image and video)" SPIE, Vol.3854, 1999 에 설명된 홀수-짝수 방법을 이용하여 실행될 수 있다. 예를 들어, 인코딩된 비디오 비트스트림의 0 이 아닌 양자화된 AC 계수에 이 데이터가 내장될 수 있다. 내장될 비트가 "0" 이면, 예를 들어, 양자화된 AC 계수는 짝수로 변경되고; 내장될 비트가 "1" 이면 AC 계수는 홀수로 변경된다. 인코딩된 비디오 프레임의 처음 16 개 AC 계수들을 주목함으로써, 의도된 신호가 디코딩될 수 있다. 패턴 1000100010001000 이 관찰되면, 디코더 (24) 는 디코더로 하여금 ROI 의 식별을 보조하기 위한 정보를 인코더 (18) 가 내장하고 있다는 것을 추측할 수 있다. 패턴이 검출된 경우, 디코더 (24) 는 보조 정보를 획득하기 위해 비디오 비트스트림을 프로세싱한다. 그러나, 비트스트림 내에 어떠한 패턴도 존재하지 않는 경우, 디코더 (24) 는 디코더측 ROI 방식 (scheme) 을 이행하지 않는다.

디코더 (24) 는 인코더 (18) 또는 매개 디바이스로부터의 ROI 보조 정보의 레벨을 변화시키는 것을 처리하도록 구성될 수도 있다. ROI 보조 검출기 모듈 (40) 이 보조 신호, 코드 또는 패턴을 검출하면, ROI 보조 검출기 모듈은 또한 인코딩된 비디오 비트스트림 내의 다른 패턴에 의해 표시될 수도 있는 보조 모드를 검출할 수도 있다. 예를 들어, 인코더 (18) 는 크로마 임계 모드 또는 완전한 매크로블록 (MB) 레벨 맵 모드에 따라서 ROI 보조 정보를 제공할 수도 있다. 인코더 (18) 가 센서-기반 ROI 추출을 수행하는 경우, 예를 들어, ROI 로서 분류되었을 크로마 값에 대한 임계 범위를 송신할 수 있다. 크로마 임계 범위는 ROI 와 상관된 스킨 톤 값의 범위에 대응할 수도 있다. 이러한 경우, ROI 보조 검출기 모듈 (40) 은 그 비트스트림 내의 패턴에 기초하여 크로마 임계 모드를 검출하고, 보조된 ROI 모듈 (42) 에 크로마 값의 임계 범위를 적용하여 ROI 를 식별하도록 명령한다.

이와 다르게, 인코더 (18) 또는 매개 디바이스는 완전한 MB 레벨 ROI 맵을 전송할 수도 있다. 이러한 경우, 비디오 프레임 내의 각각의 MB 에 대해, MB 가 ROI 의 일부인 경우 플래그는 1 로 설정되고, 이와 다르게, MB 가 ROI 의 일부가 아닌 경우 플래그는 0 으로 설정될 수도 있다. 이러한 MB ROI 맵 정보는 또한 전술한 바와 같은 홀수-짝수 방법과 같은 다양한 기술 중 임의의 기술을 이용하여 데이터 스트림에 내장될 수 있다. ROI 보조 검출기 모듈 (40) 이 비트스트림 내의 패턴에 기초하여 MB 레벨 맵 모드를 검출하는 경우, 보조된 ROI 모듈 (42) 에 MB ROI 맵 정보를 이용하여 ROI 를 식별하도록 명령한다. 둘 중 어느 경우에도, 즉, 크로마 임계 모드 또는 MB 레벨 맵 모드에서, 보조된 ROI 모듈 (42) 은 디코딩 엔진 (46) 및 포스트-프로세서 (48) 에 의해 우선적인 디코딩, 포스트-프로세싱, 및/또는 에러 은닉을 ROI 에 적용하는데 이용되는 ROI 식별을 생성한다. 이와 다르게, ROI 보조 검출기 모듈 (40) 이 압축된 비디오 비트스트림내의 인코더 보조 신호를 검출하지 않는 경우, ROI 식별을 보조하는 정보는 이용불가한 것으로 판정된다. 이 경우, ROI-인에이블 비디오 디코더 (24) 는, 예를 들어, 디코더측 ROI 모듈 (44) 에 의해 적용된 디코더측 ROI 추출 프로세스를 이행하지 않을 수도 있다.

도 4 는, 도 3 의 ROI-인에이블 비디오 디코더 (24) 의 일부를 형성하는 디코더측 ROI 모듈 (44) 을 설명하는 블록도이다. 도 4 의 예시에서, 디코더측 ROI 모듈 (44) 은 ROI 신뢰도 분석기 (51), 프레임 타입 검출기 (52), 픽셀 도메인 ROI 검출기 (53), P 데이터 ROI 프로세서 (54), I 데이터 ROI 프로세서 (56), 및 결정 융합-기반 ROI 맵 생성기 (66) 를 포함할 수도 있다. P 데이터 ROI 프로세서 (54) 는 코딩된 블록 패턴 (CBP; coded block pattern)-기반 ROI 마스크 생성기 (58), 및 모션- 및 컬러-기반 ROI 마스크 정제기 (60) 를 포함할 수도 있다. 또한, 모듈로서 상이한 특성의 묘사는 디코더 (24) 의 상이한 기능적 양태들을 강조하기 위한 것이며, 이러한 모듈이 별도의 하드웨어 및/또는 소프트웨어 컴포넌트에 의해 실행되어야만 한다는 것을 함축하는 것은 아니다. I 데이터 ROI 프로세서 (56) 는 컬러-기반 ROI 마스크 생성기 (62) 및 형상-기반 ROI 마스크 정제기 (64) 를 포함할 수도 있다. 비트스트림 도메인 ROI 검출의 신뢰도가 수용가능한 경우, 디코더측 ROI 모듈 (44) 은 디코딩 엔진 (46) 및 포스트 프로세서 (48) 에 ROI 표시를 제공한다. 다른 방식으로, 비트스트림 도메인 ROI 검출의 신뢰도가 수용불가한 경우, 디코딩 엔진 (46) 은 비디오를 디코딩하고 픽셀 도메인에서 ROI 검출을 적용하였다.

인코딩된 비디오 데이터의 비트스트림내에서 비디오 프레임 수신 시에, ROI 신뢰도 분석기 (51) 는 비트스트림 도메인의 ROI 검출이 정확하고 이에 따라 신뢰가능한지의 여부를 판정한다. ROI 신뢰도의 이전-분석에 기초하여, ROI 신뢰도 분석기 (51) 는 비트스트림 도메인 ROI 추출 또는 복원된 픽셀 도메인 ROI 추출 둘 중 하나를 디코더측에 명령할 수 있다. ROI 신뢰도 분석기 (51) 가 도입 비트스트림을 분석하고 ROI 추출 신뢰도가 다소 높다는 것을 발견하면, 낮은-복잡도의 압축-비트스트림 도메인 ROI 검출 접근방식이 이용될 수 있다. 낮은 복잡도로 인해, 비트스트림 도메인에서의 ROI 추출이 바람직하다. ROI 추출 신뢰도가 높지 않다는 것을 ROI 신뢰도 분석기가 발견하면, 더욱 높은 복잡도의 복원된 픽셀 도메인 ROI 검출 접근방식이 이용된다. ROI 신뢰도 분석을 위해, ROI 신뢰도 분석기는 루마 및 크로마 QP 값의 조합을 이용할 수도 있다. 예를 들어, ROI 추출 신뢰도가 비디오 프레임에 대한 평균 QP 값을 이용하여 계산될 수도 있다.

비디오 프레임에 대한 평균 루마 및 크로마 QP 가 너무 높으면, 즉, 소정의 임계값을 초과하면, 비트스트림 도메인에서의 ROI 추출은 불량할 것으로 예상된다. 이러한 경우, ROI 신뢰도 분석기 (51) 는 신뢰불가한 ROI 추출을 나타내고, 픽셀 도메인 ROI 검출기 (53) 에게 복원된 픽셀 도메인에서의 ROI 를 추출하도록 지시한다. 비디오 프레임에 대한 평균 루마 및 크로마 QP 가 소정의 임계값을 초과하지 않는 경우, 비트스트림 도메인에서의 ROI 추출은 수용가능한 것으로 예상된다. 이러한 경우, ROI 신뢰도 분석기 (51) 는 신뢰가능한 ROI 추출을 나타내고, 예를 들어 프레임 타입 검출기 (52) 로 하여금 디코더측 ROI 비트스트림 프로세싱을 시작하게 함으로써 비트스트림 도메인 ROI 추출을 지시한다.

따라서, ROI 신뢰도 분석기 (51) 에 의해 적용된 신뢰도 분석은, 결과 ROI 가 효과적일 몇몇 상황에서 더욱 낮은 복잡도의 프로세싱을 허용하지만, 결과 ROI 가 덜 정확할 수 있는 다른 상황에서 복원된 픽셀 도메인에 더욱 높은 복잡도의 프로세싱을 지시한다. 이 예시에서, 평균 QP 값은 비트스트림 도메인 ROI 추출의 유효성을 방해하는 인코딩된 비디오 콘텐츠의 표시로서 작용한다. ROI 신뢰도에 기초한 비트스트림 또는 픽셀 도메인 둘 중 하나의 적응성 ROI 검출은 프로세싱 시간 소비 및 검출 정확도의 트레이드오프를 효과적으로 균형 잡을 수 있고, 그 검출이 압축된-도메인 또는 픽셀-도메인에서 신뢰가능하게 수행될 수 있는지의 여부에 대해 동적으로 판정한다. ROI 신뢰도 분석은 오류가 있는 ROI 추출을 회피할 필요성이 있을 때에만 픽셀 도메인 ROI 추출의 추가적인 비용을 부과할 수도 있다.

도 4 의 예시에서, ROI 신뢰도 분석기 (51) 는 디코더측 ROI 모듈 (44) 내에 속한다. 다른 방법으로서, 신뢰도 분석은 인코더 (18) 또는 매개 디바이스에 의해 수행될 수 있다. 예를 들어, 신뢰도 표시는 인코더 (18) 또는 매개 디바이스에 의해 대역외 부가 정보로서 또는 인코딩된 비디오 비트스트림과 함께 송신될 수 있다. 양자의 경우, 디코더측 ROI 모듈 (44) 은 수신된 신뢰도 정보를 이용하여 비트스트림 도메인 ROI 추출 또는 픽셀 도메인 ROI 추출 둘 중 하나를 지시할 수 있다.

도 4 에 더 도시된 바와 같이, 비트스트림 도메인에서의 ROI 추출이 ROI 신뢰도 분석기 (51) 에 의해 신뢰가능한 것으로 판단되는 경우, 프레임 타입 검출기 (52) 는 2 개의 프로세싱 경로 중 어느 경로를 적용할 것인지 결정한다. 특히, 프레임 타입 검출기 (52) 는, 비디오 프레임이 인트라-코딩된 (I) 프레임인 경우 I 데이터 ROI 프로세서 (56) 를 선택하고, 비디오 프레임이 인터-코딩된 (P 또는 B) 프레임인 경우 P 데이터 ROI 프로세서 (54) 를 선택한다. 그러나, 많은 경우에, P 프레임은 인터-코딩된 MB 및 인트라-코딩된 MB 모두를 포함할 수도 있다. P 프레임이 상당히 많은 수의 인트라-코딩된 MB 를 포함하는 경우, 프레임 타입 검출기 (52) 는 인트라-코딩된 MB 가 I 데이터 ROI 프로세서 (56) 에 의해 프로세싱되고 인터-코딩된 MB 는 P 데이터 ROI 프로세서 (54) 에 의해 프로세싱되도록 지시할 수도 있다.

예를 들어, I 데이터 ROI 프로세서 (56) 및 P 데이터 ROI 프로세서 (54) 모두를 통해서 조합된 프로세싱은, 인트라-코딩된 MB 의 수가 소정의 임계값을 초과하는 경우 P 프레임에 적용될 수도 있다. 이 경우, 결정 융합-기반 ROI 맵 생성기 (66) 는 인트라-코딩된 MB 에 대해 I 데이터 ROI 프로세서 (56) 에 의해 생성된 ROI 맵 정보를 조합하고 인터-코딩된 MB 에 대해 P 데이터 ROI 프로세서 (54) 에 의해 생성된 ROI 맵 정보를 조합할 수도 있다. 그러나, P 프레임이 임계값을 초과하는 수많은 인트라-코딩된 MB 를 포함하지 않으면, P 프레임은 P 데이터 ROI 프로세서 (54) 에 의해서만 프로세싱될 수도 있다.

I 프레임 프로세싱 또는 P 프레임 프로세싱의 각각의 프로세싱 경로에 대해, 디코더측 ROI 모듈 (44) 은 대략적인 ROI 를 생성하는 제 1 스테이지 및 최종 ROI 를 생성하기 위해 대략적인 ROI 를 정제하는 제 2 스테이지를 포함하는 2-스테이지 프로세스를 적용한다. 프로세싱 경로는 I 프레임과 P 프레임에 대해 상이하게 작동한다. I 프레임 또는 상당한 수의 인트라-코딩된 MB 를 갖는 P 프레임으로부터의 인트라-코딩된 MB 와 같은 인트라 코딩된 데이터에 대해, I 데이터 ROI 프로세서 (56) 는 제 1 스테이지로서 컬러-기반 ROI 마스크 생성기 (62) 를 적용하고, 제 2 스테이지로서 형상-기반 ROI 마스크 정제기 (64) 를 적용한다. P 프레임 또는 상당한 수의 인터-코딩된 MB 를 갖는 P 프레임으로부터의 인터-코딩된 MB 에 대해, P 데이터 ROI 프로세서 (54) 는 CBP-기반 ROI 마스크 생성기 (58) 및 모션- 및 컬러-기반 ROI 마스크 정제기 (60) 를 적용한다. I 프레임 도메인 및 P 프레임 도메인에서 하이브리드, 2-스테이지 ROI 검출은, 예를 들어, 빠른 일주 검출 (quick round detection) 을 수행하기 위해 CBP 정보를 이용하여, 확장성의 이점을 가질 수도 있다.

인트라-코딩된 데이터의 프로세싱에 대해, 컬러-기반 ROI 마스크 생성기 (62) 는 비트스트림 도메인에서의 비디오 프레임을 분석하고, ROI 를 나타내는 대략적인 ROI "마스크" 를 생성한다. 컬러-기반 ROI 마스크 생성기 (62) 는 비디오 프레임의 크로마 DC 성분에 기초하여 ROI 매크로블록 (MB) 을 식별하도록 구성될 수도 있다. 스킨 범위의 크로마 성분은 컬러 공간의 잘 정의된 범위 내에 포함된다. 이 정보는 소정의 MB 의 Cr (적색 색차) 블록 및 Cb (청색 색차) 블록의 DC 값에 적용될 수 있는 임계값을 생성하도록 이용될 수 있다. 소정의 MB 내에서의 Cr 블록 및 Cb 블록의 DC 값들이 소정의 스킨 톤 범위 내에 포함되는 경우, 그 MB 는 ROI 의 부분임을 나타내는 "1" 로 마킹된다.

예를 들어, 다음과 같이, Cr DC 값 DC(Cr) 가 낮은 Cr 스킨 톤 임계값 (Th_Cr_low) 와 높은 Cr 스킨 톤 임계값 (Th_Cr_high) 사이에 해당되고, Cb DC 값 DC(Cb) 가 낮은 Cb 스킨 톤 임계값 (Th_Cb_low) 와 높은 Cb 스킨 톤 임계값 (Th_Cb_high) 사이에 해당된다면,

Th_Cr_low < DC(Cr) < Th_Cr_high

Th_Cb_low < DC(Cb) < Th_Cb_high

MB 는, ROI 의 부분으로서, 예를 들어 0 대신 1 로 마킹된다. MB 가 그 범위 밖에 있으면, 비-ROI MB 를 나타내기 위해 0 으로 마킹될 수도 있다. 이 예시는 스킨 톤 범위 또는 다른 컬러 범위 분석에 기초하는 ROI 검출에 속한다. 화이트보드 영역, 이동 오브젝트 등과 같은 상이한 유형의 ROI 에 대해, ROI 추출을 위한 (예를 들어, 대안적인 컬러 임계치를 포함하는) 다른 기술이 적용될 수도 있다.

따라서, 이 예시에서, 컬러-기반 ROI 마스크 생성기 (62) 는 비디오 프레임 내의 각각의 MB 에 대해 1 들 및 0 들을 할당하는 이진 ROI 맵을 생성할 수도 있다. 이진 ROI 맵이 비디오 프레임에 대해 획득되면, 컬러-기반 ROI 마스크 생성기 (62) 는 1 로 마킹된 인접 MB 를 가지는 클러스터를 식별할 수도 있다. 컬러-기반 ROI 마스크 생성기 (62) 는 종결 동작과 같은 형태 연산자 (morphological operator) 를 이용하여 클러스터에 충진할 수도 있다. 즉, 각각의 클러스터가 0 으로 마킹된 MB 를 포함하는 경우, 컬러-기반 ROI 마스크 생성기 (62) 는 클러스터 내의 모든 MB 가 ROI 내에 있는 것으로 공통적으로 식별되도록 0 에서 1 로 변화할 수도 있다. 형상-기반 ROI 마스크 정제기 (64) 에 의해 제공된 바와 같이, 클러스터의 결과는 프로세스의 제 2 스테이지에서 정제될 수 있는 잠재적인 ROI 영역의 세트가 된다.

도 5 는, 도 4 의 컬러-기반 ROI 마스크 생성기 (62) 의 예시적인 동작을 설명하는 흐름도이다. 도 5 에 도시된 바와 같이, 컬러-기반 ROI 마스크 생성기 (62) 는 전술한 바와 같이 임계치 비교 (65) 를 적용한다. 특히, 임계치 비교는, 소정의 MB 에 대한 DC 크로마 값 (Chroma DC) 이 낮은 크로마 값 임계치 (Th_low) 와 높은 크로마 값 임계치 (Th_high) 에 의해 정의된 범위내에 포함되는지의 여부를 판정한다. 전술한 바와 같이, DC 크로마 값 비교는 적색 색차 (Cr) 및 청색 색차 (Cb) 에 대한 DC 크로마 값들의 개별적인 비교를 수반할 수도 있다.

MB 에 대한 적용가능한 DC 색차 값이 적용가능한 범위내에 포함된 경우, 컬러-기반 ROI 마스크 생성기 (62) 는 MB 가 ROI MB 이고 MB 를 ROI 의 부분으로서 예를 들어 "1" 로 마킹하기로 (66) 고 결정한다. 이 비교가 MB 에 대한 DC 색차 값이 적용가능한 범위 내에 있지 않다는 것을 나타내는 경우, 컬러-기반 ROI 마스크 생성기 (62) 는 MB 를 비-ROI 로서 예를 들어 "0" 으로 마킹한다 (68). ROI 마킹 프로세스는 적용가능한 비디오 프레임 내의 각각의 MB 에 대해 수행될 수도 있고, 이는, MB 가 ROI 내에 있거나 또는 ROI 내부에 있지 않은 것으로 식별하는 ROI 맵을 생성한다.

ROI 마킹 프로세스 (65, 66, 68) 의 종료시에, 컬러-기반 ROI 마스크 생성기 (62) 는 인접 ROI 영역, 예를 들어, 인접 MB 가 ROI 로서 마킹된 비디오 프레임 내의 영역을 발견한다 (70). 인접 영역은, 작은 홀 (hole) 을 생성하는, ROI 로서 식별되지 않은 몇몇 MB 를 포함할 수도 있다. 이 경우, 컬러-기반 ROI 마스크 생성기 (62) 는 종료 동작과 같은 형태 연산자를 이용하여 홀을 충진한다 (72). 컬러-기반 ROI 마스크 생성기 (62) 는, ROI 인접 영역의 비-ROI MB 마킹을 ROI MB 로서 변화시킴으로써, 예를 들어, 인접 ROI 영역 내에 속하는 MB 에 대해 비-ROI "0" 플래그를 ROI "1" 플래그로 변화시킴으로써 홀을 충진할 수도 있다. 그후, 컬러-기반 ROI 마스크 생성기 (62) 는 그 결과 MB 맵 또는 "마스크" 를 I 프레임 프로세싱 경로의 다음 스테이지로 통과시킨다.

특히, 도 4 를 더 참조하여, 컬러-기반 ROI 마스크 생성기 (62) 는, 컬러-기반 ROI 마스크 생성기 (62) 에 의해 정의된 대략적인 ROI 를 프로세싱하여 정밀한 ROI 맵을 생성하는 형상-기반 ROI 마스크 정제기 (64) 에 ROI 를 통과시킨다. 도 6 은 도 4 의 디코더측 ROI 모듈 (44) 의 I 데이터 ROI 프로세서 (56) 의 제 2 스테이지를 형성하는 형상-기반 ROI 마스크 정제기 (64) 의 예시적인 동작을 설명하는 흐름도이다. 형상-기반 ROI 마스크 정제기 (64) 는 형상 제약을 이용하여 제 1 스테이지에서 획득된 대략적인 ROI 맵을 정제한다. 형상 제약은 대략적인 ROI 영역 주변 및 비-평탄한 내부 주위에 에지의 조합 (예를 들어, 루마 및 크로마 에지 모두) 에 포커싱할 수도 있다. 이러한 제약은 원하는 ROI 영역의 예상되는 형상에 따라서 변형될 수 있다. ROI 가 얼굴 영역이면, 얼굴 영역은 일반적으로 ROI 로, 즉 대략적인 ROI MB 클러스터로 식별되는 MB 클러스터의 주변 부근에서 루마 및 크로마 에지의 분석에 의해 용이하게 식별될 수 있는 별개의 경계를 갖는다.

얼굴 영역의 식별은 다양한 에지 검출 기술 중 임의의 기술을 이용하여 수행될 수 있다. 예를 들어, 적절한 에지 검출 기술이 1996년 3월 Proceedings of SPIE, 1996, pp. 404-414 에서 B Shen, IK Sethi 의 "압축 이미지로부터의 직접적인 특징부 추출 (Direct feature extraction from compressed images)", 및 2005년 Fuzzy Systems and Knowledge Discovery 2005, LNAI 3613, pp. 547-556 에서 Wenyin Zhang, Jianguo Tang, 그리고 Chao Li 의 "이미지 검색을 위한 이미지의 두드러진 포인트의 추출 (The Extraction of Image's Salient Points for Image Retrieval)" 에서 설명된다. 이와 다른 방식으로, 얼굴 영역의 식별은, 고주파 텍스쳐 계수를 특정 수보다 많이 갖는 경우 대략적인 ROI MB 클러스터의 에지를 블록과 연관시키는 발견적 기술 (heuristic technique) 을 이용하여 수행될 수 있다. 컬러로 인해 ROI 로서 검출될 수 있는 나무 조각과는 대조적으로, 얼굴은 에지뿐만 아니라 내부를 평탄하지 않게 유발하는 눈, 코 및 다른 특징부들을 갖는 것으로 예상된다. 따라서, 고주파 계수를 갖는 클러스터의 MB 수를 임계치와 비교함으로써 비-평탄 내부 제약이 부과될 수 있다.

도 6 에 도시된 바와 같이, 일 예시에서, 형상-기반 ROI 마스크 정제기 (64) 는 대략적인 ROI MB 클러스터 내에 고주파 계수를 갖는 내부 MB 의 퍼센티지를 판정할 수도 있다 (74). 내부 MB 의 퍼센티지는 α_int 로 표현될 수도 있다. 또한, 형상-기반 ROI 마스크 정제기 (64) 는 루마 및 크로마 에지를 갖는 주변 MB 의 퍼센티지를 판정할 수도 있다 (76). 주변 MB 의 퍼센티지는 α_per 로 표현될 수도 있다. 내부 퍼센티지 α_int 가 적용가능 임계치 Th_int 보다 크고, 주변 퍼센티지 α_per 가 적용가능 임계치 Th_per 보다 큰 경우 (78), 형상-기반 ROI 마스크 정제기 (64) 는 적용가능 클러스터를 ROI 클러스터로서 라벨링한다 (80). 이들 퍼센티지들 중 하나 또는 모두가 해당 임계치를 초과하지 않는 경우 (78, 80), 형상-기반 ROI 마스크 정제기 (64) 는 적용가능 클러스터를 비-ROI 클러스터로서 라벨링한다 (82).

형상-기반 ROI 마스크 정제기 (64) 는 비디오 프레임 내의 각각의 대략적인 ROI MB 클러스터에 대해 도 6 에 설명된 프로세스를 적용하고, 이에 따라, 컬러-기반 ROI 마스크 생성기 (62) 에 의해 생성된 ROI 맵을 정제하여 정밀한 ROI 맵을 생성한다. 그후, 형상-기반 ROI 마스크 정제기 (64) 는 정밀한 ROI 맵을 결정 융합-기반 ROI 맵 생성기 (66) (도 4) 에 통과시켜서 우선적인 디코딩, 포스트 프로세싱 및/또는 에러 은닉을 적용하여 디코딩 엔진 (46) 및 포스트 프로세서 (48) 에 의해 이용하기 위한 최종 ROI 맵을 생성한다. 결정 융합-기반 ROI 맵 생성기 (66) 는 I 데이터 ROI 프로세서 (56) 에 의해 생성된 ROI 맵 또는 P 데이터 ROI 프로세서 (54) 에 의해 생성된 ROI 맵을 수신하고, 현재의 프레임이 I 프레임인지 또는 P 프레임인지의 여부에 기초하여 적절한 ROI 맵을 출력한다. 그 결과 ROI 맵은 간단하게 ROI 플래그 및 비-ROI 플래그, 예를 들어, 1 및 0 을 갖는 MB 의 다른 맵일 수도 있다. 이와 다르게, ROI 맵은 다른 포맷을 가질 수도 있다.

몇몇 경우에서, 결정 융합은 P 데이터 ROI 프로세서 (54) 를 통해 비디오 프레임의 몇몇 MB 의 프로세싱을 처리하고, I 데이터 ROI 프로세서 (56) 를 통해 동일한 비디오 프레임의 다른 MB 의 프로세싱을 처리하도록 구성될 수도 있다. 예를 들어, 몇몇 P 프레임은 인터-코딩된 MB 뿐만 아니라 상당한 수의 인트라-코딩된 MB 를 가질 수도 있다. 이 경우, 프레임 타입 검출기 (52) 는, P 프레임이 인트라-코딩된 MB 의 임계 레벨보다 큰 임계 레벨을 갖는지의 여부를 판정하도록 구성될 수도 있다. P 프레임이 인트라-코딩된 MB 의 임계 레벨보다 큰 임계 레벨을 가지면, 소정의 프레임에 대한 인트라-코딩된 MB 는 I 데이터 ROI 프로세서 (56) 를 통해서 통과될 수 있고, 동일한 프레임에 대한 인터-코딩된 MB 는 P 데이터 ROI 프로세서 (54) 를 통해서 통과될 수 있다. 그후, 결정 융합-기반 ROI 맵 생성기 (66) 는 2 개의 프로세싱 경로, 즉, P 데이터 ROI 프로세서 (54) 및 I 데이터 ROI 프로세서 (56) 로부터 획득된 ROI 정보를 이용하여 조합된 ROI 맵을 구성할 수도 있다. 특히, 결정 융합-기반 ROI 맵에 의해 생성된 조합된 맵은 소정의 프레임에 대해 I 데이터 ROI 프로세서 (56) 에 의해 인트라-코딩된 MB 에 적용된 마킹 및 P 데이터 ROI 프로세서 (54) 에 의해 인터-코딩된 MB 에 적용된 ROI 마킹을 포함할 수도 있다.

도 4 를 더 참조하여, 프레임 검출기 (52) 가 현재 비디오 프레임이 P 프레임이라고 나타내는 경우, 다음으로, P 데이터 ROI 프로세서 (54) 는 비디오 프레임에 대해 대략적인 ROI 맵 및 정밀한 ROI 맵을 생성한다. CBP-기반 ROI 마스크 생성기 (58) 는 비디오 프레임과 관련된 코딩된 블록 패턴 (CBP) 을 분석하여 대략적인 ROI 를 식별한다. 다음으로, 모션- 및 컬러-기반 ROI 마스크 정제기 (60) 는 모션 및 컬러 제약을 적용하여 대략적인 CBP-기반 ROI 맵을 정제한다. 따라서, P 데이터 ROI 프로세서 (54) 는 ROI 맵 생성에 대한 별도의 경로를 제공하고, CBP-기반 ROI 마스크 생성기 (58) 및 모션- 및 컬러-기반 ROI 마스크 정제기 (60) 는 그 경로의 제 1 스테이지 및 제 2 스테이지를 각각 제공한다.

CBP-기반 ROI 마스크 생성을 위해, 인코더 (18) 는 모션 추정시에 합리적인 성능을 제공한다고 가정할 수도 있다. 이러한 방식으로, 모션 벡터는 적어도 수용가능한 정확도를 갖는다고 가정할 수도 있다. 이러한 가정은 1/2 픽셀 또는 심지어 1/4 픽셀 레벨 모션 추정을 지원하는 ITU H.264 표준에 따르는 CODEC 과 같은 현재 진보된 비디오 CODEC 에 대해 가능하게 이루어진다. 또한, 비디오 텔레포니와 같은 헤드-앤-숄더 ROI 비디오 어플리케이션에서, ROI 는 일반적으로 이동 헤드 (moving head) 를 포함한다. 이러한 설정에서, 얼굴 표정의 변화가 인코더 (18) 에 의해 코딩된 CBP 값에 의해 효율적으로 포착될 수 있다. 그 결과, 변화된 그리고 몇몇 중요성을 가지는 프레임의 영역을 판정하기 위해 MB 의 CBP 에 제약이 부과될 수도 있다. 즉, CBP 가 MB 내의 상당한 변화를 나타내는 경우, CBP-기반 ROI 마스크 생성기 (58) 는, 이러한 변화가 얼굴 표정 또는 머리 움직임의 변화에 의해 야기되는 경향이 있다는 가정에서 ROI 의 부분으로서 MB 를 식별한다. 코딩되지 않은, 또는 최소한으로 코딩된 다른 MB 들은 이전 프레임과 비교했을 때 훨씬 새로운 정보를 함유하고 있지 않고, ROI 산정에 대해 고려될 필요가 없다.

프레임내의 각각의 MB 에 대해, CBP 는 4 개의 루마 블록, 및 Cr 및 Cb 블록을 포함한다. 2 개 이상의 루마 (Y) 블록이 코딩된 경우, 이하의 표 1 에 나타나는 바와 같이 CBP-기반 ROI 마스크 생성기 (58) 는 MB 의 루마가 코딩될 것으로 고려한다. CBP 는 표 1 에 나타낸 방식을 이용하여 랭킹될 수 있다. 랭킹 방식을 이용하여, CBP-기반 ROI 마스크 생성기 (58) 는 프레임 내의 상위 2 개의 랭크 레벨에 일치하는 CBP 를 갖는 MB 로부터 ROI 클러스터들을 형성하며, 단, 이 클러스터들은 MB 의 최소수 보다 많은 수의 MB 를 포함한다는 점에서 중요하다. 표 1 에 대해, MB 가 코딩된 2 개 이상의 루마 블록을 가지고, 크로마 블록 (Cb 및 Cr) 모두가 코딩된 경우, 1 의 랭크를 갖는다. 2 개 이상의 루마 블록이 코딩되고, 적어도 하나의 크로마 블록이 코딩된 경우, MB 는 2 의 랭크를 갖는다.

소정의 프레임 내의 가장 높은 2 개의 랭크를 갖는 MB 만이 ROI MB 로 고려된다. 예를 들어, 프레임에서 MB 에 대한 CBP 의 가장 높은 2 개의 랭크가 1 및 2 이면, MB 는 ROI MB 로서 지정되기 위해 랭크 1 또는 랭크 2 의 CBP 를 가져야만 한다. 다른 예시로서, 소정의 프레임에서 MB 에 대한 CBP 의 가장 높은 2 개의 랭크가 2 및 3 이면, MB 는 ROI MB 로서 지정되기 위해 랭크 2 또는 랭크 3 의 CBP 를 가져야 한다. 또한, 전술한 바와 같이, 오직 중요한 클러스터만이 임의의 랭크로 고려된다. 그후, 이들 클러스터는 형태 연산자를 이용하여 홀을 클로즈하도록 프로세싱될 수 있다. 클러스터 내의 MB 는 이들이 초기 대략적인 ROI 의 부분이라고 나타내기 위해 "1" 로 마킹된다. 특정 프레임에 대해 가장 높은 2 개의 랭크 아래에 있는 낮은 랭크들을 갖는 다른 MB 는 비-ROI MB 를 나타내기 위해 "0" 으로 마킹된다.

CBP 표

	Y (2 개 이상의 블록들에 대해 코딩된 루마)	Cb	Cr	랭크
1	1	1	1	1
2	1	1	0	2
3	1	0	1	2
4	1	0	0	3
5	0	1	1	4
6	0	1	0	5
7	0	0	1	5
8	0	0	0	6

도 7 은 도 4 의 CBP-기반 ROI 마스크 생성기의 동작을 설명하는 흐름도이다. 도 7 에 도시된 바와 같이, CBP-기반 ROI 마스크 생성기 (58) 는 표 1 에서의 방식에 따라서 주어진 MB 에 대해 CBP 랭크를 연관시킨다 (81). 소정의 프레임에서 가장 높은 2 개의 랭크가 고려되고 프레임마다 추적한다 (83). 예를 들어, 랭크 2, 랭크 3 및 랭크 4 의 MB 들을 갖는 중요한 클러스터들이 있는 경우, 상위 2 개의 랭크 (랭크 2 및 랭크 3) 를 갖는 클러스터는 ROI 클러스터로서 지정된다. 따라서, ROI 로서 자격을 갖추기 위한 MB 의 가장 높은 2 개의 랭크는 항상 랭크 1 및 랭크 2 일 필요는 없다. 오히려, 가장 높은 2 개의 랭크는 콘텐츠에 따라서 프레임마다 변화될 수도 있다. 그리고, MB 의 중요한 클러스터는 가장 높은 2 개의 랭크를 설계하기 위해 고려된다. 예를 들어, 프레임이 랭크 1 을 갖는 작은 수의 MB, 즉, 클러스터가 아니고 또는 중요하지 않은 클러스터만을 포함하는 경우, 상위 랭크는 1 로 선언되지 않을 것이다. 또한, 이 예시에서, 몇몇 MB 는 소정의 프레임에 대한 상위 2 개의 랭크들을 설정할 목적으로 고려되기 위해 소정의 랭크를 가져야만 한다.

MB 가 상위 2 개의 CBP 랭크 중 하나를 갖는 경우 (84), CBP-마스크 생성기 (58) 는 MB 를 ROI MB, 예를 들어, "1" 로 마킹한다. MB 가 상위 2 개의 랭크 미만의 CBP 를 갖는 경우, MB 는 비-ROI, 예를 들어, "0" 플래그로서 마킹된다 (86). CBP-기반 ROI 마스크 생성기 (58) 는 MB 의 적용가능한 CBP 에 기초하고 그 프레임에 대한 상위 2 개의 CBP 랭크에 관련하여 ROI 또는 비-ROI 로서 비디오 프레임 내의 MB 들 각각의 마킹을 계속한다. 모든 MB 가 마킹된 후, CBP-기반 ROI 마스크 생성기 (58) 는 인접하는 ROI 영역, 즉, 인접하는 MB 가 ROI MB 로 마킹된 영역을 발견하고, 인접하는 영역의 임의의 홀에 클로즈 기능과 같은 형태 연산자를 이용하여 충진한다 (90). 이 순간에, CBP-기반 ROI 마스크 생성기 (58) 는 결과로서 나타나는 대략적인 ROI 맵을 모션- 및 컬러-기반 ROI 마스크 정제기 (60) 에 후속 정제를 위해서 통과시킨다.

모션- 및 컬러-기반 ROI 마스크 정제기 (60) 는 DC 크로마 값 및 모션 벡터 일관성 (motion vector consistency) 을 이용하여 CBP-기반 마스크 생성기 (58) 로부터 ROI 를 정제할 수 있다. 예를 들어, 이전 프레임으로부터 모션 보상된 DC 크로마 값을 이용하여, 모션- 및 컬러-기반 마스크 정제기 (60) 는 구체화된 스킨 톤 범위를 매칭하는 컬러를 갖는 MB 를 탐색할 수 있다. 또한, 인간의 얼굴 영역 내의 MB 의 대부분은, 공간을 통한 3D 단단한 보디의 모션에 의해 생성되기 때문에, 유사한 모션을 겪을 것이라고 가정하는 것이 바람직하다. 대략적으로, 이 모션은, 회전 모션에 대해 모션 벡터 크기가 변화할 수도 있지만 그 각도는 유사하기 때문에, 동일한 방향 또는 동일한 양이다. 입의 영역과 눈 또는 다른 얼굴 특징부 주변은 예외이다. 그러나, ROI 마스크 정제기 (60) 가 대부분의 블록의 모션 일관성을 평가할 수 있고, 이들이 유사하다는 것을 보장할 수 있다.

예를 들어, ROI 마스크 정제기 (60) 는 대략적인 ROI MB 클러스터 내의 모션 벡터의 각도 및 크기의 표준 편자를 계산할 수도 있고, 이것은 평균에 비해 작음을 보장할 수도 있다. 일 예시에서, 모션 벡터 각도의 평균 μ_angle 에 대한 모션 벡터 각도의 표준 편차 σ_angle 의 비율이 0.2 미만이거나, 또는 모션 벡터 크기의 평균 μ_mag 에 대한 모션 벡터 크기의 표준 편차 σ_mag 의 비율이 0.2 미만이라는 것을 이하와 같이 증명함으로써 이 동작은 표현될 수도 있다:

DC 크로마 값 및 모션 벡터 (MV) 일관성을 이용하여, ROI 마스크 정제기 (60) 는, 정밀한 ROI MB 내에 대략적인 MB 를 보유하는지의 여부를 판정하거나 또는, MB 의 상태를 비-ROI 로 변경한다.

도 8 은 모션- 및 컬러-기반 ROI 마스크 정제기 (60) 의 동작을 설명하는 흐름도이다. 도 8 에 도시된 바와 같이, ROI 마스크 정제기 (60) 는 범위, 즉, 낮은 임계치 (Th_low) 와 높은 임계치 (Th_high) 사이의 DC 크로마 값을 갖는 클러스터의 MB 의 퍼센티지 (β_color) 를 판정하도록 구성될 수도 있다 (94). 또한, ROI 마스크 정제기 (60) 는, 예를 들어, 모션 벡터 각도의 평균 μ_angle 에 대한 모션 벡터 각도의 표준 편차 σ_angle 의 비율이 0.2 미만인, 범위의 MV 일관성을 갖는 MB 의 퍼센티지 (β_angle) 를 판정하도록 구성될 수도 있다 (96). β_color 가 적용가능한 DC 크로마 값 임계치 (Th_color) 보다 크고, β_angle 는 적용가능한 MV 일관성 (Th_angle) 보다 큰 경우, ROI 마스크 정제기 (60) 는 클러스터가 ROI 로서 라벨링되어야 함을 확인한다 (100). 클러스터가 ROI 로 라벨링되지 않은 경우, ROI 마스크 정제기 (60) 는 클러스터를 비-ROI 로 재라벨링한다 (102).

ROI 마스크 정제기 (60) 가 비디오 프레임 내의 대략적인 ROI 클러스터로서 라벨링된 각각의 클러스터에 대해 이러한 프로세스를 수행한다. 그 결과는, ROI 내에 포함된 MB 의 클러스터를 식별하는 정밀한 ROI 맵이 된다. 모션- 및 컬러-기반 ROI 마스크 정제기 (60) 는, 디코딩 엔진 (46) 및 포스트 프로세서 (48) 에 의해 이용되는 최종 ROI 맵을 생성하는, 결정 융합-기반 ROI 맵 생성기 (66) 에 정제된 ROI 맵을 통과시킨다. 특히, 디코딩 엔진 (46) 및 포스트 프로세서 (48) 는 ROI 맵에 의해 식별된 ROI MB 에 우선적인 디코딩, 포스트 프로세싱 및/또는 에러 은닉을 적용하여 비-ROI MB 에 비해 시각적 품질을 개선시킬 수도 있다.

도 4 를 참조하여, ROI 신뢰도 분석기 (51) 가 비트스트림 도메인에서의 ROI 추출이 신뢰가능하다는 것을 나타내는 경우, P 데이터 ROI 프로세서 (54) 및 I 데이터 ROI 프로세서 (56) 는 비디오 프레임을 프로세싱하여 ROI 를 검출하고 ROI 맵을 공식화한다. 그러나, 비트스트림 도메인에서의 ROI 추출이 신뢰가능하지 않으면, 픽셀 도메인 ROI 검출기 (53) 는 픽셀 도메인에서 ROI 추출을 수행한다. 예를 들어, 픽셀 도메인 ROI 검출기 (53) 는 디코딩 엔진 (46) 과 상호작용하여 디코딩된 픽셀 도메인 비디오 데이터를 수신할 수도 있다. 디코딩 엔진 (46) 은 인코딩된 비디오 비트스트림의 디코딩을 수행하고, 픽셀 도메인 ROI 검출기 (53) 에 의해 이용되기 위한 픽셀 도메인 데이터를 생성한다.

픽셀 도메인 ROI 검출기 (53) 는 디코딩 엔진 (46) 으로부터 획득된 픽셀 데이터를 이용하여 ROI 를 식별하기 위해 스킨 톤 검출 또는 다른 기술을 적용할 수도 있다. 또한, 픽셀 도메인 ROI 검출기 (53) 는 형상-기반 동작을 적용하여 초기 스킨 톤-기반 ROI 맵을 정제 또는 검증할 수도 있다. 포스트 프로세서 (48) 는 ROI 검출기 (53) 로부터 픽셀 도메인 ROI 맵을 수신하고, 그 픽셀 도메인 ROI 맵을 이용하여 우선적인 포스트 프로세싱 및/또는 에러 은닉을 적용한다. 따라서, 픽셀 도메인 ROI 분석이 요구되는 경우, 인코딩된 비디오는 디코딩되어 픽셀 도메인 데이터를 생성한다. 그 결과, 픽셀 도메인 ROI 검출이 비디오 프레임에 요구되는 경우, 우선적인 디코딩은 불가능할 수도 있다. 그러나, 포스트 프로세싱, 에러 은닉 또는 이 모두에 의해 여전히 이점이 획득될 수 있다.

다양한 픽셀 도메인 ROI 검출 기술들 중 임의의 기술은 픽셀 도메인 ROI 검출기 (53) 에 의해 적용될 수도 있다. 일반적으로, 픽셀 도메인 ROI 검출은 비트스트림 도메인 ROI 검출보다 더욱 계산 집중적이고, 전력 소모를 증가시킨다. 따라서, 비트스트림 ROI 검출이 복잡도 및 전력 소모 관점에서 더욱 바람직하다. 그러나, ROI 신뢰도 분석기 (51) 는, 비트스트림 도메인 ROI 검출이 수용가능한 결과를 생성할 가능성이 없을 때, 디코더 (24) 로 하여금 비트스트림 도메인 ROI 검출에서 픽셀 도메인 ROI 검출로 스위칭하게 한다. 이러한 방식으로, ROI 신뢰도 분석기는 계산 오버헤드 및 전력 소비와 시각적 품질의 균형을 유지한다.

도 9 는 비디오 프레임의 ROI 에 대한 예시적인 매크로블록 (MB) 맵을 설명하는 도면이다. 도 9 의 예시에서, ROI (104) 는 인간 얼굴 (106) 과 관련되고, 얼굴의 일부와 적어도 부분적으로 중첩하는 인접 MB 의 그룹을 포함한다. 또한, 다른 오브젝트 또는 다수의 인간 얼굴들을 포함하는 다수의 오브젝트가 ROI 의 대상 (subject) 일 수도 있다. 그러나, 인간의 상호작용이 수반된 VT 및 다른 어플리케이션에 대해, ROI 로서의 인간 얼굴 (106) 의 검출이 가장 일반적일 것이다. ROI (104) 로 정의된 바운더리 내의 MB 는 ROI MB 로서 예를 들어 "1" 로 마킹된다. 개별적인 MB 는 도 9 의 격자 라인으로 정의된 블록에 의해 식별된다. MB 를 ROI 또는 비-ROI MB 로 마킹함으로써, 우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉이 ROI MB 에 적용되어 시각적 품질을 향상시킬 수 있다. 이러한 방식으로, 뷰어는 ROI 의 얼굴 표정 또는 다른 특성들을 더욱 잘 관찰할 수 있다.

도 9 의 도면은, 제 1 스테이지로부터의 ROI 의 정제, 즉, DC 크로마 값 및 MV 일관성을 이용하는 CBP-기반 ROI 마스크 생성기 (58) 를 도시한다. 이전 프레임 N-1 로부터 모션 보상된 DC 크로마 값을 이용하여, 모션- 및 컬러-기반 ROI 마스크 정제기 (60) 는 특정 스킨 톤 범위에 일치하는 컬러를 갖는 현재의 프레임 N 에서 MB 를 식별한다. 이를 근거로 하여, ROI 마스크 정제기 (60) 는, 크로마 값에 기초하여, CBP 랭크에 기초한 CBP-기반 ROI 마스크 생성기에 의해 식별된 ROI MB 의 ROI 상태를 확인하거나 또는 변화시킨다.

도 10 은 P 프레임에서 ROI 의 정의를 설명하는 도면이다. 도 10 의 도면은 MV 일관성을 이용하는 ROI 정제를 설명한다. 도 10 의 예시에서, 프레임 N 은 기준 프레임 N-1 에 기초한다. 기준 프레임 N-1 과 프레임 N 사이에, 인간 얼굴 (106) 의 상당한 움직임이 있다. 모션 벡터 MV 는 프레임 N 의 블록 (108A) 과 이전 프레임 N-1 의 대응 MB (108B) 사이의 모션을 나타낸다. 모션- 및 컬러-기반 ROI 마스크 정제기 (60) 는 동일한 ROI 클러스터내의 MB 에 대한 MV 의 일관성을 MB (108A) 로서 분석한다. 또한, 얼굴 (106) 에 대응하는 임의의 블록의 움직임은 전체 얼굴이 하나의 오브젝트로서 이동하는 경향이 있기 때문에 유사해야만 한다. ROI 의 MB 에 대한 MV 의 각도 및 크기의 표준 편차가 평균값과 비교하여 작은 경우, MV 일관성이 보장되고, ROI MB 는 ROI MB 로서 유지된다. MV 일관성이 존재하지 않는 경우, 그 MV 가 외부 (outlier) 에 있고 MV 일관성의 부족에 기여할 때, 몇몇 MB 는 비-ROI MB 로서 마킹될 수도 있다. 도 10b 의 대응 MB (CMB) 는, 현재의 프레임 (108A) 에서 고려되는 MB (108A) 에 가장 가까운 매치인, 예를 들어, 제곱 에러 (squared error) 에 기초한, 이전 프레임의 MB 이다. 모션이 반드시 MB 길이 (16 픽셀) 로 환산되지는 않기 때문에, CMB 는 이전의 프레임의 어느 곳에서도 나타날 수 있다. 따라서, 이 모션 벡터 MV 가 공지되어 있는 경우, 현재의 MB 와 가장 유사하게 보이는 이전 프레임의 위치가 식별될 수 있다.

도 11a 및 도 11b 는 제 1 비디오 씬 및 그 비디오 씬에서 대략적인 ROI 에 대한 CBP 의 상관을 도시하는 도면이다. 제 1 비디오 씬은 엄마-딸 (mother-daughter) 비디오 테스트 시퀀스로부터의 프레임이다. 도 12a 및 도 12b 는 제 2 비디오 씬 및 제 2 비디오 씬의 대략적인 ROI 에 대한 CBP 의 상관을 도시하는 도면이다. 제 2 비디오 씬은 무비 클립 (movie clip) 이다. 도 13a 및 도 13b 는 제 3 비디오 씬 및 제 3 비디오 씬의 대략적인 ROI 에 대한 CBP 의 상관을 도시하는 도면이다. 제 3 비디오 씬은 탁구 테스트 시퀀스로부터의 프레임이다. 도 11b, 도 12b 및 도 13b 는 각각 도 11a, 도 12a 및 도 13a 의 비디오 프레임에 대한 CBP 맵을 표현한다.

도 11a 에서, 엄마-딸 비디오 테스트 시퀀스로부터의 프레임은 가능한 ROI 검출을 위한 2 개의 얼굴 영역을 포함한다. 도 4 의 CBP-기반 ROI 마스크 생성기에 관련하여 설명된 바와 같이 CBP-기반 ROI 검출을 적용하여, 도 11a 의 프레임에 대한 인코딩된 비디오는 도 11b 에 도시된 CBP 맵을 생성한다. 이 CBP 맵에서, 상이하게 쉐이딩된 (different shaded) 블록들은 상이한 CBP 들에 대응하고, 이는, ROI 맵 내의 포함 및 랭킹에 대한 표 1 에서의 CBP 들과 비교될 수 있다. 예를 들어, 도 11b 는 (랭크 3 을 갖는) Y 코딩에 대응하는 제 1 쉐이드, (랭크 1 을 갖는) Y, Cb 및 Cr 코딩에 대응하는 제 2 쉐이드, Cb 및 Cr 의 코딩에 대응하는 제 3 쉐이드, 및 (다른 더 낮은 랭크를 갖는) 어떠한 모션도 나타내지 않고 따라서 아무것도 코딩되지 않은 다른 쉐이드를 갖는 다양한 클러스터들을 나타낸다. 표 1 에 대해, 가장 높은 2 개의 랭크, 즉, 랭크 1 또는 랭크 3 중 하나로서 권한이 부여된 CBP 를 갖는 MB 는 ROI MB 로서 마킹된다.

도 11a, 도 11b, 도 12a, 도 12b, 도 13a, 및 도 13b 는 비트스트림 분석기를 이용하여 경험적으로 검증된, 본 개시물에 설명된 기술의 설계로 이루어진 가정의 타당성을 나타낸다. I 프레임에 대한 DC 의 이용이 이 I 프레임의 서브-샘플링된 버전을 이용하는 픽셀 도메인으로부터 ROI 의 추출과 유사하고, 여기서 각각의 MB 는 그 DC 값에 의해 대체된다. P 프레임에 대해, 대략적인 ROI 에 대한 CBP 의 상관은 도 11a, 도 11b, 도 12a, 도 12b, 도 13a 및 도 13b 로부터 명백하다. 도 11b 에서, 주된 클러스터는, Y 만이 코딩되기 때문에, 표 1 로부터 랭크 3 을 갖는 MB 에 의해 형성된다. 이 클러스터는 프레임 내의 엄마와 딸의 얼굴 영역에 대한 강한 대응성 (strong correspondence) 을 나타낸다. 유사하게, 도 12b 에서, 주된 클러스터는 Y, Cb 및 Cr 가 코딩된 랭크 1 의 MB 로 형성된다. 도 13b 에서, 주된 클러스터는, 본 개시물에서 설명된 기술이 얼굴 영역 이외의 ROI 를 효과적으로 검출할 수 있는 것을 나타내는 운동선수의 전체 보디이다. 이러한 경우, ROI 마스크 정제기 (60) 에 의해 제공된 형상 기반 정제 스테이지가 변경되어 얼굴이 아닌 ROI 를 정제할 수 있다. 즉, ROI 마스크 정제기 (60) 는, 도 13b 의 예시에서 보디와 같은, 원하는 오브젝트에 적합한 에지 및 비-평탄 내부 기준을 이용할 수도 있다.

도 14a, 도 14b 및 도 14c 는 비디오 프레임의 ROI 에서 MB 에 걸친 모션 벡터의 균일성의 관점에서 MV (motion vector) 일관성을 설명하는 도면이다. 각각의 도면은 해당 ROI 의 MB 와 관련된 MV 의 방향 및 크기를 나타내는 화살표들을 갖는 MB 의 그리드를 포함한 비디오 프레임을 도시한다. 도 14a 는 직장의 (foreman) 비디오 테스트 시퀀스로부터의 프레임의 얼굴 영역에서 대부분의 MB 에 대한 모션 벡터의 균일성을 나타낸다. 도 14b 는 엄마-딸 비디오 테스트 시퀀스로부터의 프레임의 얼굴 영역에서 대부분의 MB 에 대한 모션 벡터의 균일성을 나타낸다. 도 14a 및 도 14b 의 ROI 에서, 대부분의 MB 는 매우 유사한 MV 방향 및/또는 크기를 갖는다. 도 14c 는 영화 클립으로부터의 프레임에서 MV 일관성을 나타낸다. 도 14c 의 예시에서, ROI (즉, 얼굴) 의 모션 벡터 크기 및 각도는 크게 변화하지 않는다. 따라서, CBP 와 모션 벡터 일관성의 조합을 2 개의 스테이지 방식으로 이용하는 것은 소정의 프레임에서 ROI 를 효과적으로 식별할 수 있게 한다. 높은 QP 를 갖는 프레임의 경우, 대부분의 MB 는 "코딩되지 않았을" 수 있다. 이 경우, CBP 및 MV 정보가 신뢰불가하고, 제안된 2-스테이지 방식은 실패할 수 있다. 따라서, 이들 경우에 ROI-신뢰도 분석기에서 검출되어, 전체적인 비트스트림 도메인 ROI 추출 프로세스가 픽셀 도메인 ROI 추출을 위해 바이패싱된다.

도 15 는 도 1 의 비디오 디코더 (24) 에서 인코더-보조 ROI 추출 또는 디코더 온리 ROI 추출의 선택적인 활성화를 설명하는 흐름도이다. 도 15 에 도시된 바와 같이, 비디오 디코더 (24) 는 인코딩된 비디오 비트스트림을 수신하고 (112), 비트스트림이 예를 들어 ROI 신호 검출기 모듈 (40) (도 3) 을 통해서 ROI 보조 신호, 코드 또는 패턴을 포함하는지의 여부를 판단한다 (114). 이와 다르게, 전술한 바와 같이, ROI 보조 신호, 코드 또는 패턴은 대역외 부가 정보로 제공될 수도 있다. ROI 보조 신호가 존재하면 (114), 디코더 (24) 는 보조된 ROI 추출을 적용한다 (118). 예를 들어, 디코더 (24) 는 인코더 (18) 또는 매개 디바이스에 의해 제공된 ROI MB 맵 또는 다른 정보를 이용할 수도 있다. 또한, ROI 보조 신호 또는 정보가 존재하지 않으면, 디코더 (24) 는 예를 들어 도 4 내지 도 10 을 참조하여 설명된 기술에 따라서 디코더측 ROI 추출을 적용한다 (116). 모든 경우, 디코더 (24) 는 우선적인 디코딩, 포스트 프로세싱 및/또는 에러 은닉을 ROI, 또는 비디오 프레임의 비-ROI 영역에 적용하기 위해 결과 ROI 를 이용한다 (120). 디코딩, 포스트 프로세싱, 및/또는 에러 은닉시에, 목적지 디바이스 (14) 는 디스플레이 (38) 를 구동하여 (122) 디코딩된 비디오의 시각적 표현을 제공한다.

도 16 은 비트스트림-기반 픽셀 도메인 ROI 추출의 선택적인 어플리케이션 및 ROI 신뢰도 분석의 어플리케이션을 설명하는 흐름도이다. 도 16 에 도시된 동작은, 예를 들어, 도 4 에 도시된 컴포넌트들을 통해서 구현될 수도 있다. 인코딩된 비디오 프레임의 수신시에 (126), 그리고 어떠한 인코더 ROI 보조도 수용불가할 때, 디코더 (24) 는 ROI 신뢰도 분석을 적용하여 (128) 비트스트림 도메인 ROI 추출이 신뢰가능한지의 여부를 결정한다 (130). 신뢰불가하면, 디코더 (24) 는 인코딩된 비디오를 디코딩하고 디코딩 동작으로부터 결과로 나타나는 픽셀에 픽셀 도메인 ROI 추출을 적용한다 (139). 픽셀 도메인 ROI 추출을 이용하여 (139), 디코더 (24) 는 ROI 에 우선적인 포스트 프로세싱 및/또는 에러 은닉을 적용하고 (140), 결과 비디오를 표현하기 위해 디스플레이를 구동한다 (138).

비트스트림 도메인 ROI 추출이 신뢰가능한 것으로 판단되면 (128, 130), 디코더 (24) 는 비트스트림-기반 ROI 추출을 적용한다 (132). 그 중에서, 디코더 (24) 는 현재 프레임이 I 프레임인지의 여부를 판정한다 (133). 현재 프레임이 I 프레임이면, 디코더 (24) 는 예를 들어 컬러-기반 ROI 마스크 생성기 (62) 를 통해 컬러-기반 ROI 추출 (134) 을 적용한다. 현재 프레임이 I 프레임이 아니면, 이 프레임은 P (또는 B) 프레임이고, 디코더 (24) 는 예를 들어 CBP-기반 ROI 마스크 생성기 (58) 를 통해서 CBP-기반 ROI 추출 (135) 을 적용한다. 그러나, 전술한 바와 같이, P 프레임이 수많은 I MB 들을 포함하는 경우, P 프레임에서 인트라-코딩된 MB 는 몇몇 경우 컬러-기반 ROI 추출 (134) 이 수행될 수도 있다. 디코더 (24) 는 동작 (134 및 135) 에 따라서 생성된 ROI 를 정제하기 위해 ROI 추출의 제 2 스테이지를 적용할 수도 있다. 예를 들어, 형상-기반, 모션-기반, 및/또는 컬러-기반 정제 기술은 본 개시물에 설명된 바와 같이 ROI 에 적용될 수도 있다. 각각의 경우, 디코더 (24) 는 우선적인 디코딩, 포스트 프로세싱 및/또는 에러 은닉을 ROI, 또는 비디오 프레임의 비-ROI 영역에 적용하고 (136), 디코딩된 비디오를 나타내기 위해 디스플레이를 구동한다 (138).

도 17 은 I 프레임 및 P 프레임에 대한 단계적인 ROI 추출 기술의 어플리케이션을 나타내는 흐름도이다. 도 17 에 도시된 바와 같이, 비디오 프레임의 수신시에 (142), 디코더측 ROI 추출에 대해, 디코더 (24) 는 그 프레임이 I 프레임인지 또는 P (또는 B) 프레임인지의 여부를 판정한다 (144). I 프레임에 대해, 디코더 (24) 는 제 1 스테이지에서 컬러-기반 ROI 마스크 생성기 (62) 를 적용하여 대략적인 ROI 를 생성하고 (146), 그후, 형상-기반 ROI 마스크 정제기 (64) 를 적용하여 대략적인 ROI 를 정제한다. P (또는 B) 프레임에 대해, 디코더 (24) 는 대략적인 ROI 를 생성하기 위해 CBP-기반 ROI 마스크 생성기 (58) 를 적용하고 (150), 그후, 대략적인 ROI 를 정제하기 위해 모션- 및 컬러-기반 ROI 마스크 정제기 (60) 를 적용한다 (152). 디코더 (24) 는 I 프레임 경로 또는 P 프레임 경로로부터 ROI 를 선택하거나 또는 양 경로로부터 ROI 정보를 조합하기 위해 결정 융합을 적용하여 프레임에 대한 ROI 맵을 생성한다 (154).

추가적으로, 또는 다른 방법으로, 결정 융합은 P 프레임이 상당한 수의 인트라-코딩된 MB 를 가질 경우에 대해 적용될 수도 있다. 이 경우, 프레임 타입 검출기 (52) 는 P 프레임이 인트라-코딩된 MB 의 임계치 레벨보다 큰 레벨을 가지는지의 여부를 판정하도록 구성될 수도 있다. 만약 P 프레임이 인트라-코딩된 MB 의 임계치 레벨보다 큰 레벨을 가지면, 소정의 프레임에 대한 인트라-코딩된 MB 는 I 데이터 ROI 프로세서 (56) 를 통과될 수 있고, 동일한 프레임에 대한 인터-코딩된 MB 는 P 데이터 ROI 프로세서 (54) 를 통과될 수 있다. 그후, 결정 융합-기반 ROI 맵 생성기 (66) 는 소정의 프레임에 대해 I 데이터 ROI 프로세서 (56) 에 의해 인트라-코딩된 MB 에 적용된 ROI 마킹 및 P 데이터 ROI 프로세서 (54) 에 의해 인터-코딩된 MB 에 적용된 ROI 마킹을 이용하여 ROI 맵을 구성할 수도 있다. 또한, 몇몇 구현에서, 결정 융합-기반 ROI 맵 생성기 (66) 는 예를 들어 이전 프레임으로부터의 과거의 ROI 정보를 이용하여 지정된 ROI 를 더 유효하게 하는 지능 (intelligence) 을 포함할 수도 있다. ROI 맵이 이용가능하면 (154), 디코더는 ROI 의 우선적인 디코딩, 포스트 프로세싱 및/또는 에러 은닉을 ROI 에 적용하여 (156) 시각적인 품질을 강화한다.

본 개시물은 인코더 보조가 이용가능한지의 여부를 판정하는 기술 및 디코더측 ROI 검출 기술을 포함하는 ROI 검출에 대한 다양한 기술을 설명한다. 디코더측 ROI 검출 기술은 비트스트림 도메인 ROI 검출, 픽셀 도메인 검출, 및 비트스트림 도메인 ROI 검출을 이용할지 또는 픽셀 도메인 검출을 이용할지를 판정하는 신뢰도 분석을 위한 기술을 포함할 수도 있다. 비트스트림 도메인 ROI 검출은 인터-코딩된 정보 및 인트라-코딩된 정보에 대해 상이한 기술을 포함할 수도 있고, CBP-기반, 컬러-기반, 모션-기반 및 형상-기반 ROI 검출 그리고 정제의 이용을 포함하는 2-스테이지 또는 다중-스테이지 ROI 정제 프로세스를 포함할 수도 있다.

우선적인 디코딩, 포스트-프로세싱 및/또는 에러 은닉은 ROI 의 시각적인 품질을 강화하기 위해 ROI 에 적용될 수도 있다. ROI 영역에 대한 우선적인 디코딩은, 고복잡도 디코딩이 ROI 영역에 대해 채용될 수 있고 저복잡도 디코딩이 비-ROI 영역에 대해 이용될 수 있는 복잡도 조절가능 디코더에 유용할 수 있다. 예를 들어, 2001 년 International Consumer Electronics 에서 S.Peng 의 "IDCT 데이터 제거를 통한 복잡도 조절가능 비디오 디코딩 (Complexity scalable video decoding via IDCT data pruning)" 에 설명된 것과 같이, 비-ROI 영역에서는, IDCT 를 계산하기 전에 DCT 계수가 제거될 수 있다. 비디오 디코딩의 복잡도 조절가능은 비디오 프레임의 비-ROI 영역을 디코딩하는데 수반된 계산 비용을 절약할 수 있고, ROI 영역의 디코딩에 대한 계산 비용을 재할당할 수 있다.

인코더 (18) 가 ROI 에 우선적인 인코딩을 미리 적용하는 것으로 공지되거나 그럴 가능성이 있는 경우, 디코더 (24) 는 비디오 프레임의 비-ROI 영역에 우선적인 디코딩을 적용할 수도 있다. 비-ROI 영역의 우선적인 프로세싱은, 송신기측에서 예를 들어 더 적은 인코딩 비트를 갖는, 불량한 인코딩에 대해 보상할 수도 있다. 즉, ROI 가 인코더측에서 우선적인 프로세싱으로부터 이득을 얻어낸 경우, 추가적인 프로세싱이 ROI 영역 대신에 비-ROI 영역에 적용될 수도 있다. 다른 예로서, 우선적인 ROI 프로세싱이 인코더측에 적용되었는지의 여부에 대한 판정 또는 가정에 기초하여 상이한 레벨의 프로세싱이 디코더측에서의 ROI 및 비-ROI 에 적용될 수도 있다. ROI 또는 비-ROI 에 우선적인 인코딩을 적용할 지의 여부를 판정하기 위해, 디코더 (24) 는 ROI 및 비-ROI 영역의 양자화 파라미터 (QP) 값을 분석하는 모듈을 포함할 수도 있다. 예를 들어, 비-ROI MB 의 평균 QP 가 소정의 임계값에 준하여 ROI MB 의 평균 QP 보다 작음으로써, 비-ROI 의 불량한 양자화를 나타내는 경우, 우선적인 프로세싱이 네트워크의 매개 디바이스 또는 인코더에서 ROI 에 이미 적용되었다고 디코더 (24) 는 합리적으로 결론을 내릴 수도 있다. 이 경우, 디코더 (24) 는 우선적인 프로세싱, 예를 들어, 우선적인 디코딩, 포스트-프로세싱 또는 에러 은닉을 비디오 프레임의 비-ROI 영역에 적용할 수도 있다. 따라서, 우선적인 프로세싱, 예를 들어, 각각 도 15, 도 16 및 도 17 의 박스 (120, 136, 또는 156) 마다의 어플리케이션은, 전술한 바와 같이 ROI 및 비-ROI 에서 상대적인 평균 QP 값과 같은 몇몇 기준에 기초하여 우선적인 프로세싱을 ROI 에 적용할지 또는 비-ROI 에 적용할지의 여부를 판정하는 단계를 더 포함할 수도 있다. 일 예시에서, 디코더 (24) 는 비디오 데이터의 비-ROI 영역의 양자화와 식별된 ROI 의 양자화를 비교할 수도 있고, 그 비교 결과가 ROI 에 비해 비-ROI 의 불량한 양자화를 나타내는 경우 비-ROI 를 우선적으로 프로세싱하며, 그렇지 않으면 ROI 를 우선적으로 프로세싱할 수도 있다. 예를 들어, 이 기능은 디코더 (24) 의 포스트-프로세서 모듈 (48), 또는 디코더 (24) 내의 다른 곳 내부에서 수행될 수도 있다.

우선적인 포스트-프로세싱은 ROI 에, 또는 이와 다르게 비-ROI 영역에 대해 디-링잉 (de-ringing) 및 컬러 블리딩 (color bleeding) 감소와 같은 개선된 포스트-프로세싱 방식의 선택적인 어플리케이션을 포함할 수도 있다. 예를 들어, 이와 같은 포스트-프로세싱 방식은 ROI 에 선택적으로 적용되고 비-ROI 영역에 적용되지 않을 수도 있고, 그 반대일 수도 있으며, 이에 따라, 이러한 프로세싱으로부터 더욱 많은 이득을 낼 수 있는 영역에 더욱 많은 프로세싱 자원을 헌납한다. 따라서, 디코더측 자원이 제한되고 포스트-프로세싱이 값 비싼 경우, 포스트-프로세싱 동작은 ROI 에 선택적으로 적용될 수 있다. 이는, 아티팩트 (artifact) 가 이미지의 가장 중요한 영역에서 감소된다고 보장한다. 예를 들어, 컬러 블리딩 감소는 계산적으로 비용이 들 수 있다. 얼굴 영역 (즉, ROI) 주변에 컬러 블리딩 감소를 적용함으로써, 우세하게 보일 컬러 아티팩트가 감소될 수 있다. 또한, 샤프닝 (sharpening) 또는 디-링잉과 같은 다른 포스트-프로세싱 기술이 ROI 및/또는 비-ROI 영역에 선택적으로 적용될 수도 있다.

또한, 뷰어에게 가장 중요한 영역, 즉, ROI, 또는 ROI 가 이미 우선적인 인코더측 프로세싱으로부터 이득을 얻은 경우에는 비-ROI 의 에러를 제거하기 위해 에러 은닉이 우선적으로 적용될 수도 있다. 소정의 프레임 및 또한 이전 프레임의 ROI 맵의 지식이 개선된 에러 은닉을 수행하는데 도움을 줄 수 있다. 소정의 프레임에서 패킷 손실의 정도에 의존하여, 에러 은닉 기술은 미묘한 동작에서 공격적인 동작까지 범위를 정할 수도 있다. 예를 들어, 에러가 까다로운 경우, 예를 들어, ROI 의 주요 부분이 손실된 경우, 이전 프레임이 반복될 수도 있다. 이와 다르게, 현재의 프레임 내의 ROI 의 몇몇 부분이 손실되면, ROI 는 이전 프레임으로부터의 ROI 로 대체될 수 있다. 추가적인 방법으로서, ROI 영역이 패킷 손실에 의해 크게 영향을 받지 않은 경우, 에러 은닉 동작은 종래의 공간/임시 에러 은닉을 수행하는 단계를 수반할 수도 있다.

각각의 경우, 디코더측 ROI 검출은 디코더 (24) 로 하여금 비디오 프레임의 시각적으로 가장 중요한 영역, 즉, ROI 에 추가적인 프로세싱 비용을 헌납하도록 허용한다. 이 방식으로, 디코더 (24) 는 ROI 를 시각적으로 강화하도록 설계된 하나 이상의 동작을 적용할 수 있고 사용자의 전반적인 뷰잉 경험을 개선시킬 수 있다. 비트스트림 도메인 ROI 추출이 신뢰가능한 것으로 판단될 때, 디코더 (24) 는 픽셀 도메인 ROI 추출보다 훨씬 낮은 복잡도를 통해서 ROI 의 시각적 강화를 달성할 수 있다. 디코더 (24) 는 프로세싱 오버헤드 및 전력 소모와 시각적 품질을 현명하게 균형을 맞추기 위해 신뢰도에 기초하여 비트스트림 도메인 또는 픽셀 도메인 ROI 추출을 선택적으로 적용하도록 구성될 수 있다.

본 명세서에 설명된 기술은 하드웨어, 소프트웨어, 펌웨어, 또는 그 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현된 경우, 이 기술은 컴퓨터-판독가능 매체에 하나 이상의 저장되거나 또는 송신된 명령 또는 코드에 의해 적어도 부분적으로 실현될 수도 있다. 컴퓨터-판독가능 매체는 컴퓨터 저장 매체, 통신 매체, 또는 모두를 포함할 수도 있고, 하나의 장소에서 다른 장소로 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함할 수도 있다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체일 수도 있다.

제한이 아닌 예시의 방법으로, 이러한 컴퓨터-판독가능 매체는 RAM (예를 들어, SDRAM (synchronous dynamic random access)), ROM (read only memory), 비휘발성 RAM (NVRAM), EEPROM (electrically erasable programmable read-only memory), 플래시 메모리, CD-ROM 또는 다른 광학 디스크 저장매체, 자기 디스크 저장매체 또는 다른 자기 저장 디바이스와 같은 데이터 저장 매체, 또는 명령 또는 데이터 구조의 형태로 소정의 프로그램 코드를 운반 또는 저장하도록 이용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다.

또한, 임의의 접속은 컴퓨터-판독가능 매체로 적절하게 지칭된다. 예를 들어, 동축 케이블, 광섬유 케이블, 나선 (twisted) 페어, 디지털 가입자 회선 (DSL), 또는 무선 기술 (예를 들어, 적외선, 라디오, 및 마이크로웨이브) 을 이용하여 다른 원격 소스, 서버 또는 웹사이트로부터 소프트웨어가 송신되는 경우, 동축 케이블, 광섬유 케이블, 나선 페어, DSL, 또는 무선 기술 (예를 들어, 적외선, 라디오, 및 마이크로웨이브) 은 매체의 정의에 포함된다. 본 명세서에 이용된 디스크 (disk) 및 디스크 (disc) 는 콤팩트 디스크 (CD; compact disc), 레이저 디스크, 광학 디스크, 디지털 다목적 디스크 (DVD), 플로피 디스크 (floppy disk) 및 블루-레이 디스크 (blu-ray disc) 를 포함하며, 여기서, 디스크 (disk) 들은 통상 데이터를 자기적으로 재생성하지만 디스크 (disc) 들은, 예컨대, 레이저를 통해서 광학적으로 데이터를 재생성한다. 또한, 전술한 것들의 조합은 컴퓨터-판독가능 매체의 범위 내에 포함되어야만 한다.

컴퓨터 프로그램 제품의 컴퓨터-판독가능 매체와 연관된 코드는 컴퓨터에 의해, 예를 들어, 하나 이상의 프로세서 (예를 들어, 하나 이상의 디지털 신호 프로세서 (DSP), 범용 마이크로프로세서, 주문형 집적 회로 (ASIC), 필드 프로그래머블 로직 어레이 (FPGA), 또는 다른 동등한 집적 또는 이산 로직 회로) 에 의해 실행될 수도 있다. 몇몇 양태에서, 본 명세서에 설명된 기능이 인코딩 및 디코딩을 위해 구성된 전용 소프트웨어 모듈 또는 하드웨어 모듈 내에 제공될 수도 있고, 또는, 조합된 비디오 인코더-디코더 (CODEC) 에 통합될 수도 있다.

다양한 실시형태들이 설명되었다. 이들 및 다른 실시형태들이 이하의 청구범위 내에 있다.

Claims

디코더측 관심 영역 비디오 프로세싱 방법으로서,
인트라-코딩된 데이터에 대해 인코딩된 비디오 데이터의 컬러 특성들에 기초하여 상기 인코딩된 비디오 데이터에서의 관심 영역 (ROI; region of interest) 을 식별하는 단계; 및
인터-코딩된 데이터에 대해 상기 인코딩된 비디오 데이터의 코딩된 블록 패턴 (CBP; coded block pattern) 특성들에 기초하여 상기 ROI 를 식별하는 단계를 포함하는, 디코더측 관심 영역 비디오 프로세싱 방법.
제 1 항에 있어서,
인트라-코딩된 데이터에 대해 상기 인코딩된 비디오 데이터의 형상 특성들에 기초하여 상기 ROI 를 정제하는 단계를 더 포함하는, 디코더측 관심 영역 비디오 프로세싱 방법.
제 1 항에 있어서,
인터-코딩된 데이터에 대해 상기 인코딩된 비디오 데이터의 모션 및 컬러 특성들에 기초하여 상기 식별된 ROI 를 정제하는 단계를 더 포함하는, 디코더측 관심 영역 비디오 프로세싱 방법.
제 1 항에 있어서,
상기 식별된 ROI 에 대한 강화된 포스트-프로세싱 및 강화된 에러 은닉 중 적어도 하나를 이용하여, 상기 식별된 ROI 에 기초하여 상기 인코딩된 비디오 데이터의 일부를 상기 인코딩된 비디오 데이터의 다른 부분들에 비해 더 높은 시각적 품질을 생성하도록 프로세싱하는 단계를 더 포함하는, 디코더측 관심 영역 비디오 프로세싱 방법.
제 4 항에 있어서,
상기 인코딩된 비디오 데이터의 비-ROI 영역의 양자화와 상기 식별된 ROI 의 양자화를 비교하는 단계를 더 포함하고,
상기 프로세싱하는 단계는, 상기 비교가 상기 ROI 의 양자화에 비해 상기 비-ROI 의 양자화가 불량하다고 나타내는 경우 상기 비-ROI 를 프로세싱하고, 상기 비교가 상기 비-ROI 의 양자화에 비해 상기 ROI 의 양자화가 불량하다고 나타내는 경우 상기 ROI 를 프로세싱하는 단계를 포함하는, 디코더측 관심 영역 비디오 프로세싱 방법.
디코더측 관심 영역 비디오 프로세싱을 위한 디바이스로서,
인트라-코딩된 데이터에 대해 인코딩된 비디오 데이터의 컬러 특성들에 기초하여 상기 인코딩된 비디오 데이터에서의 관심 영역 (ROI; region of interest) 을 식별하는 제 1 모듈; 및
인터-코딩된 데이터에 대해 상기 인코딩된 비디오 데이터의 코딩된 블록 패턴 (CBP; coded block pattern) 특성들에 기초하여 상기 ROI 를 식별하는 제 2 모듈을 포함하는, 디코더측 관심 영역 비디오 프로세싱을 위한 디바이스.
제 6 항에 있어서,
인트라-코딩된 데이터에 대해 상기 제 1 모듈은 상기 인코딩된 비디오 데이터의 형상 특성들에 기초하여 상기 ROI 를 정제하는, 디코더측 관심 영역 비디오 프로세싱을 위한 디바이스.
제 6 항에 있어서,
인터-코딩된 데이터에 대해 상기 제 2 모듈은 상기 인코딩된 비디오 데이터의 모션 및 컬러 특성들에 기초하여 상기 식별된 ROI 를 정제하는, 디코더측 관심 영역 비디오 프로세싱 디바이스.
제 6 항에 있어서,
강화된 포스트-프로세싱 및 강화된 에러 은닉 중 적어도 하나를 이용하여, 상기 식별된 ROI 에 기초한 상기 인코딩된 비디오 데이터의 일부를 상기 인코딩된 비디오 데이터의 다른 부분들에 비해 더 높은 시각적 품질을 생성하도록 프로세싱하는 포스트-프로세싱 모듈을 더 포함하는, 디코더측 관심 영역 비디오 프로세싱을 위한 디바이스.
제 9 항에 있어서,
상기 포스트-프로세싱 모듈은 상기 인코딩된 비디오 데이터의 비-ROI 영역의 양자화와 상기 식별된 ROI 의 양자화를 비교하고, 상기 비교가 상기 ROI 의 양자화에 비해 상기 비-ROI 의 양자화가 불량하다고 나타내는 경우 상기 비-ROI 를 프로세싱하고, 상기 비교가 상기 비-ROI 의 양자화에 비해 상기 ROI 의 양자화가 불량하다고 나타내는 경우 상기 ROI 를 프로세싱하는, 디코더측 관심 영역 비디오 프로세싱을 위한 디바이스.
디코더측 관심 영역 비디오 프로세싱을 위한 디바이스로서,
인트라-코딩된 데이터에 대해 인코딩된 비디오 데이터의 컬러 특성들에 기초하여 상기 인코딩된 비디오 데이터에서의 관심 영역 (ROI; region of interest) 을 식별하는 수단; 및
인터-코딩된 데이터에 대해 상기 인코딩된 비디오 데이터의 코딩된 블록 패턴 (CBP; coded block pattern) 특성들에 기초하여 상기 ROI 를 식별하는 수단을 포함하는, 디코더측 관심 영역 비디오 프로세싱을 위한 디바이스.
디코더측 관심 영역 비디오 프로세싱을 위한 컴퓨터-판독가능 매체로서,
프로세서로 하여금,
인트라-코딩된 데이터에 대해 인코딩된 비디오 데이터의 컬러 특성들에 기초하여 상기 인코딩된 비디오 데이터에서의 관심 영역 (ROI; region of interest) 을 식별하고; 그리고
인터-코딩된 데이터에 대해 상기 인코딩된 비디오 데이터의 코딩된 블록 패턴 (CBP; coded block pattern) 특성들에 기초하여 상기 ROI 를 식별하게
하는 명령들을 포함하는, 디코더측 관심 영역 비디오 프로세싱을 위한 컴퓨터-판독가능 매체.