KR20160126861A

KR20160126861A - 비디오 카메라 내의 비디오 스트림을 프로세싱하는 방법 및 디바이스

Info

Publication number: KR20160126861A
Application number: KR1020160036125A
Authority: KR
Inventors: 송 유안; 알렉산더 마틴스
Original assignee: 엑시스 에이비
Priority date: 2015-04-23
Filing date: 2016-03-25
Publication date: 2016-11-02
Also published as: CA2927295C; KR101780761B1; CN106067974B; US20160316219A1; CN106067974A; TWI669959B; JP6454659B2; EP3086562B1; TW201639376A; US10057591B2; JP2017005687A; CA2927295A1; EP3086562A1

Abstract

비디오 디바이스에서 이미지를 프로세싱하는 방법이 제공되며, 상기 방법은, 이미지를 판독하는 단계, 및 메타데이터를 상기 이미지 내에 또는 상기 이미지와 함께 내장함으로써, 상기 이미지에 관한 메타데이터와 상기 이미지를 결합하는 단계를 포함한다. 상기 방법은 또한, 내장된 메타데이터를 구비한 이미지를 변환하는 단계, 이미지로부터 메타데이터를 추출하는 단계, 인코더에서 이미지를 인코딩하는 단계; 및 추가 프로세싱에서 입력으로서 상기 메타데이터를 사용하는 단계를 포함한다.

Description

비디오 카메라 내의 비디오 스트림을 프로세싱하는 방법 및 디바이스{METHOD AND DEVICE FOR PROCESSING A VIDEO STREAM IN A VIDEO CAMERA}

본 발명은 비디오 스트림을 프로세싱하는 방법에 관한 것이며, 보다 상세하게는 비디오 카메라 내의 비디오 스트림을 프로세싱하는 방법 및 디바이스에 관한 발명이다.

비디오 카메라에서는 비디오 카메라의 이미징 옵틱스를 통해 획득되는 바와 같은 이미지를 획득하는데 이미지 센서가 이용된다. 전형적으로는, 이미지 센서는 방사(통상적으로는 빛 형태인)에 민감한 픽셀들의 매트릭스이다.

이미지 센서로부터 판독된 미가공(raw) 이미지는 곧 바로 디스플레이하기에는 적합하지 않는 경우가 통상적이며, 이에 대한 여러 이유들이 존재한다. 따라서 이미지는 디스플레이를 위해 포워딩되기 전에 상당한(substantial) 프로세싱을 받게된다. 비디오 카메라의 주요 목적은 이미지를 획득하는 것이며 그리고 보여주기 위하여 상기 이미지를 준비시키는 것이다. 본 명세서에서 사용된 바와 같은 비디오 카메라에서, 카메라는 가령, 감시 목적으로, 동작들을 모니터링하는데 주로 이용된다. 이러한 카메라에서, 이미지는 비디오 스트림 내의 하나의 프레임으로서 상기 카메라를 떠나며, 그리고 이와 같이 상기 카메라는 비디오 스트림을 준비시키고 포워딩하는 인코더를 포함할 것이다

프로세싱 단계들은 가령, 디모자이크(demosaicing), 강도 밸런싱(balancing intensities), 색상 밸런싱(balancing color), 이미지 왜곡들에 대한 보정 등과 같은, 이미지 상에 수행되는 동작들을 포함할 수 있으며, 또한 상기 이미지는 리사이즈 및 회전될 수 있으며 그리고 인코더에서 최종적으로 프로세싱될 수 있다. 언급한 단계들은 단지 일례들인 뿐이며, 임의의 특정 순서대로 주어진 것도 아니다.

이미지를 프로세싱할 때에 메타데이터(metadata), 예컨대, 미가공 이미지로부터 추론된(deduced) 데이터가 활용될 수 있다. 이와 관련된 일례들을 몇개 예시하면 메타데이터는 다음에 관련된 것이다.

이미지의 다양한 부분들에 대한 신호 대 잡음비(SNR). SNR 데이터는 가령, 노이즈 필터링 등과 같은 카메라 내부의 필터들을 구성 혹은 변경하는데 이용될 수 있으며, 그리고 이것은 광 조건들을 향상시키기 위하여 외부 광들을 트리거링하는데도 또한 이용될 수 있다.

비디오 카메라가 모니터링 혹은 감시 목적으로 이용되는 경우, 움직임(motion: 이하, '움직임' 또는 '모션' 이라 함)이 검출된 영역들이 통상적으로 식별되며, 여기서 이미지에서의 변화는 일반적으로 관심있는 이벤트를 식별한다.

가령, 얼굴, 특정 형상 등등의 이미지 프로세싱을 위한 특정한 관심 분야의 프리셋(preset) 관심 영역들(ROI)의 식별(혹은 사용자에 의해서 특별히 관심있는 것으로 식별됨).

이러한 유형의 메타데이터의 마지막 일례는 이미지에 대한 압축 맵(compression map)에 관한 것이다.

압축 맵은 압축 파라미터들을 공간적으로(spatially) 변경하기 위해 인코더에게 제공되는 테이블이 될 수도 있으며, 그리고 압축 맵은 압축 레벨, 상수들(constants) 및 임계값들을 구비한 테이블, 또는 블록 타입 결정(block type decisions)을 위한 상수들에 관한 것일 수도 있다. 이미지를 과거의 이미지들과 비교함으로써, 특정 프로토콜에 따라 이미지가 어떻게 인코딩될 수 있는지를 나타내는 맵이 생성될 수 있다.

메타데이터에 관한 상기 일례들은 이미지 센서로부터 판독되었던 미가공 이미지로부터 추출될 수 있으며, 그리고 다운스트림 프로세스들을 위해서 이용될 수 있다.

본 발명의 문맥에서 메타데이터로 간주되기 위하여, 메타데이터는 이미지로부터 추출된 정보를 포함할 필요는 없다. 이러한 유형의 메타데이터의 일례는, 이미지 프로세싱의 후속 스테이지에서 이미지를 보정 또는 조절하는데 이용되는 다양한 마스크들에 대한 것일 수도 있다. 다른 일례는 사용자에 의해서 프리셋(미리 설정)되는 관심 영역에 대한 것일 수 있다. 또한, 메타데이터는 사용자-정의된 관심 영역, 프라이버시 마스크, 우선 영역들(priority regions)(필요하다면, 이미지 품질이 어디에서 우선적으로 처리되어야만 하는지를 나타내는 맵), 카메라의 세팅들 또는 센서로부터의 입력들에 관한 정보(줌 레벨, 셔터 속도, 틸트 센서들)에 관한 것일 수도 있다.

비디오 카메라의 이미징 옵틱스는 대부분, 소정 정도의 왜곡을 이미지에 종종 도입할 것이다. 몇몇 공통적인 일례들은 배럴 왜곡(barrel distorion) 및 핀쿠션 왜곡(pincushion distortion)이다. 다른 유형들의 왜곡은 색수차(chromatic aberration), 단색수차(monochromatic aberration), 및 관련 서브그룹들을 포함할 수 있다.

이러한 왜곡들은, 이미지 센서로부터 판독된 바와 같은 이미지가 그 현재 형태로는 디스플레이하기에 적절하지 않음을 시사할 것이며; 이미지를 디스플레이하기 전에 변환(transformation)에 대한 필요가 있을 수 있다.

서술된 이미지 프로세싱은 비디오 카메라에 대한 몇몇 대안예들에서는 물론이고, 인코더, 트랜스코더, 또는 비디오 관리 시스템에서 수행될 수 있다. 즉, 이미지가 이미지 센서로부터 판독되는지 또는 파일로부터 제공되는지에 관계없이, 프로세싱은 동일하거나 또는 유사할 수 있다.

이미지들에 대한 프로세싱을 간략화하기 위한 노력으로서, 특히 상기 프로세싱이 이미지의 변환(transformation)을 포함하고 있는 경우, 본 발명은 비디오 디바이스에서 이미지를 프로세싱하기 위한 방법을 제공한다. 상기 방법은 개시된 순서대로 수행될 수도 수행되지 않을 수도 있는 일련의 단계들로 구성되며, 그리고 이미지를 판독하는 단계, 메타데이터를 상기 이미지 내에 또는 상기 이미지와 함께 내장함으로써, 상기 이미지에 관한 메타데이터와 상기 이미지를 결합하는 단계, 상기 이미지를 변환하는 단계, 상기 이미지로부터 메타데이터를 추출하는 단계, 인코더에서 상기 이미지를 인코딩하는 단계, 및 추가 프로세싱에서 입력으로서 상기 메타데이터를 사용하는 단계를 포함한다.

본 방법은 변환 이전에 메타데이터가 이미지 내에 혹은 이미지와 함께 내장되는 경우에 특히 유용한데, 왜냐하면 이미지의 특정 영역(픽셀, 픽셀들의 블록, 기타 등등)에 관한 메타데이터는 상기 변환 동안에 그 영역을 뒤따를 것이기 때문이다. 본 발명의 다른 효과는, 메타데이터 및 이미지의 각각의 세트에 대하여 변환이 오직 한번만 수행될 필요가 있을 것이라는 점이다(이들을 차례차례로 변환하는 대신에).

하나 이상의 실시예들에서, 상기 추가 프로세싱은 상기 이미지에 대한 프로세싱 또는 후속 이미지들에 대한 프로세싱을 포함한다. 즉, 하나의 이미지로부터 추출된 메타데이터는 그 특정 이미지를 프로세싱하는데 이용될 수 있으며(예컨대, 상기 특정 이미지를 인코딩하는 동안), 또한 상기 메타데이터는 후속 이미지들에 대한 프로세싱에서 이용될 수도 있다(예컨대, 상기 이미지의 특정 영역에서의 특정한 신호 대 잡음비로 인하여 세팅들을 변경함으로써).

다른 혹은 관련 실시예들에서, 상기 프로세싱은 이미지와는 별개인, 이러한 메타데이터에 대한 프로세싱을 포함할 수 있다. 상기 프로세싱은 SNR-메타데이터의 평가, 모션-메타데이터, 객체 인식 메타데이터 기타 등등을 포함할 수 있다. SNR-메타데이터는 에지 검출에서의 오류들을 회피하기 위하여 이용될 수 있으며 그리고 모션 메타데이터는 모션 검출을 수행함에 있어서 분석 섹션(analytics section)을 지원하기 위하여 이용될 수 있다(몇몇 다른 사용-사례들이 있지만).

관련된 또는 개별 실시예들에서, 상기 추가 프로세싱은 이미지 분석, 비젼 어플리케이션(vision application), 속도 제어 또는 프레임 스티칭(frame stitching) 등과 같은 프로세스를 포함할 수 있다. 이들 프로세스들이 개별적으로 또는 조합으로 수행될 수도 있음은 자명하다. 이미지 분석은 예컨대, 모션 검출, 객체 검출, 안면 검출 등등의 객체, 모션, 또는 다른 기본적인 정보에 대하여 이미지를 분석하기 위한 프로세스들을 포함하는 것으로 의도된다. 비젼 어플리케이션은 이미지를 이해하기 위한, 그리고 인간의 시야(human vision) 및 인지 방법들(cognitive methods)을 모방하기 위한 이미지 프로세싱을 예상하며, 일례들은 객체 식별, 안면 식별(face identification), 사람수 세기(people counting) 등등을 포함한다.

이러한 프로세싱의 결과 혹은 기초는 이미지 또는 메타데이터 형태의 이미지들의 시퀀스로부터 도출될 수 있으며, 그리고 메타데이터는 개별적으로 이용될 수도 있으며 및/또는 다른 프로세스들을 지원하도록 이용될 수도 있다.

하나 이상의 실시예들에서, 이미지 내에 또는 이미지와 함께 내장된 메타데이터는 이미지로부터 유도된 것이다. 즉, 이미지는 다양한 유형들의 메타데이터가 도출되도록 다양한 알고리즘을 이용하여 분석된다. 이러한 것은 발명의 상세한 설명에서 보다 상세히 예시될 것이다. 본 방법이 비디오 카메라에서 이용되는 경우, 본 실시예는 그렇지 않은 경우보다 더 자주 적용가능할 것이다. 미가공(raw) 이미지가 서로 다른 알고리즘들을 이용하여 평가되며 그리고 그 결과는 메타데이터의 형태일 수 있다. 이후, 이러한 메타데이터는 편의상(for convenience) 이미지 내에 또는 이미지와 함께 내장될 수 있다.

하나 이상의 실시예들에서는, 이미지를 변환하는 단계 이전에, 래스터 포맷으로부터 블록 포맷으로 이미지를 전환하는 단계가 수행되며, 그리고 메타데이터를 입력으로 이용하여 이미지를 프로세싱하기 전에, 블록 포맷으로부터 래스터 포맷으로 이미지를 다시 전환하는 단계가 수행된다.

하나 이상의 실시예들에서, 상기 방법은 이미지를 변환하기 전에 및/또는 그 이후에 이미지와 메타데이터를 결합하는 단계를 포함하며, 여기서 메타데이터는 오베레이들의 형태이다. 본 발명에 관하여 언급된 여러 장점들은 변환을 수행하기 전에 메타데이터를 내장하는 것에 관련되지만, 변환 이후에만 메타데이터가 부가되는 경우가 있을 수도 있다.

하나 이상의 실시예들에서, 대응 픽셀 블록에 대한 추가적인 색 공간 성분으로서 메타데이터를 내장함으로써, 메타데이터가 이미지와 함께 내장된다.

하나 이상의 다른 실시예들에서, 특정 픽셀 블록에 대응하는 메타데이터와 함께 상기 특정 픽셀 블록의 색 공간 성분을 패딩(padding)함으로써, 메타데이터가 이미지와 함께 내장된다.

또 다른 실시예들에서는, 이미지 내의 색상 혹은 휘도 정보의 일부분을 대체함으로써, 메타데이터가 이미지 내에 내장된다.

이미지가 블록 포맷형 이미지(block formatted image)인 실시예들에서는, 메타데이터가 상기 블록 포맷형 이미지의 모든 매크로 블록에 첨부될 수도 있다.

여러 실시예들에서, 메타데이터는 이미지를 인코더로 포워딩하기 전에 이미지로부터 분리된다(단순히 추출하는 것이 아니라). 표준형 인코더가 이용되는 경우, 이미지를 인코더로 전송하기 전에 메타데이터를 제거하는 것에 대한 장점이 존재할 수 있는데, 왜냐하면 이미지 내에 내장된 메타데이터의 존재가 인코더에서 오작동 또는 충돌을 유발할 수도 있기 때문이다.

하나 이상의 실시예들에서, 메타데이터는 신호 대 잡음 메타데이터, 압축 메타데이터, 모션 메타데이터, 프라이버시 마스크 메타데이터, 관심영역 메타데이터, 및 이들의 조합을 포함하는 그룹으로부터 선택된다.

임의의 실시예들에서, 또는 추가적인 실시예들에서, 비디오 디바이스는 비디오 카메라, 인코더, 트랜스코더, 혹은 비디오 관리 시스템(VMS)의 컴포넌트가 될 수 있다.

본 발명의 다른 양상에 따르면, 본 발명은 하나 이상의 선행하는 또는 후속하는 실시예들의 방법을 수행하도록 구성된 비디오 디바이스에 관한 것이다. 비디오 디바이스는 다음을 포함할 수 있다. 이미지로부터 메타데이터를 추출하도록 구성된 그리고 상기 메타데이터 또는 다른 메타데이터를 이미지 내에 내장하도록 또한 구성된 이미지 프로세싱 파이프라인; 내장된 메타데이터를 구비한 이미지를 수신하고 그리고 내장된 메타데이터를 구비한 이미지를 기정의된 세팅들에 따라 변환하는 변환기(transformer); 메타데이터를 구비한 변환된 이미지로부터 메타데이터를 추출하도록 구성되고 그리고 특정 프로토콜에 따라 상기 이미지를 압축하도록 구성된 가령 이미지 인코더로 상기 이미지를 포워딩하도록 구성된 추출기.

하나 이상의 실시예들에서, 메타데이터의 적어도 선택된 부분이 또한, 추가 프로세싱으로 포워딩되며, 그리고 선택된 부분들은 이미지를 압축할 때에 입력으로 이용된다.

본 발명의 다양한 실시예들에 따른 비디오 디바이스의 추가 피처들은 별도로 논의되지 않을 것이다. 대신에, 비디오 디바이스의 추가 실시예들은 방법에 대한 해당 실시예들로부터 추론될 수 있으며 그리고 이들 피처들의 효과들도 역시 해당 방법의 효과들로부터 추론될 수 있다. 일례로서, 비디오 디바이스는 비디오 카메라, 비디오 인코더, 비디오 트랜스코더, 혹은 VMS의 컴포넌트가 될 수 있다.

도 1은 본 발명의 제 1 실시예를 예시한 블록도이다.
도 2는 본 발명의 제 2 실시예를 예시한 블록도이다.
도 3은 본 발명의 제 3 실시예를 예시한 블록도이다.
도 4는 본 발명의 제 4 실시예를 예시한 기능적 차트이다.

도 1은 본 발명의 제 1 실시예(100)에 따른 방법을 예시한다.

도 1을 상세히 설명하기 전에, 본 발명의 문맥에서 메타데이터의 정의 내에 어떤 것들이 포함될 수 있는지에 대한 몇몇 일례를 언급하는 것이 바람직하다. 먼저, 관심있는 메타데이터는 이미지의 서로 다른 영역들과 소정의 상관관계(correlation)를 갖는 메타데이터이다. 이것은 하나의 픽셀 레벨로부터 서로 다른 사이즈를 갖는 픽셀들의 블록들까지가 될 수 있다. 넓은 정의의 일례들은 이미지들의 속성들을 서술하는 통계 자료 또는 다른 데이터를 포함하는바, 가령, 백그라운드 섹션내에 주어진 일례들에 부가되거나 또는 포함되는 색상, 관심 영역들, 움직임들(motions), 등등을 포함한다. 비디오 카메라에 통합된 이미지 프로세서의 분석 유닛은 이미지의 특정 부분에서 움직임을 검출할 수 있으며, 또는 저장부는 이미지 센서의 불규칙성(irregularity)을 처리하기 위하여 이미지의 다양한 부분들에서 강도(intensity)가 어떻게 밸런싱되어야하는지에 관한 마스크를 포함할 수 있다. 또한, 메타데이터는 이전의 이미지에 대하여 강도들(intensities)이 이미지에서 어떻게 변화했는지, 그리고 이미지의 다양한 부분들이 어떻게 움직였는지를 추적할 수 있으며, 이에 의해서 상기 메타데이터는 이미지의 다양한 부분들이 어떻게 행동했는지 그리고 이미지들의 스트림 내에서 이미지가 어떻게 인코딩되어야하는지를 정의할 것이다. 또한, 메타데이터는 이미지의 다양한 부분들에 대한 신호 대 잡음비, 이미지의 다양한 부분들에 대한 콘트라스트, 이미지의 다양한 부분들에 대한 강도 히스토그램, 기타 등등에 관한 것일 수도 있다. 메타데이터가 개별 픽셀 레벨 혹은 픽셀들의 그룹에 영향을 미친다는 점은 별개로 하고, 상기 메타데이터는 바람직하게는 다운스트림 프로세스에 의해서(가령, 인코더에 의해서) 이용되도록 의도되어야 하며, 요즘에는 그러하다.

도 1로 되돌아가서, 메타데이터가 이미지 내에 내장된다는 점에서, 메타데이터(102)는 미가공 이미지(104)와 결합된다.

실제적인 내장은 수 많은 다양한 방식들 중 하나로 수행될 수 있다. 제 1 일례는, 기존의 색 공간(color space) 내에 메타데이터를 패딩(padding)하는 것을 포함할 수 있다. 전형적으로, U/V 성분은 1 바이트가 될 것이며, 반면에 이미지 품질을 과도한 정도까지 훼손하지 않는다면 6 혹은 7 비트로의 감소는 수용가능할 것이다. 다음으로, 메타데이터는 이제 이용가능한 2 비트 혹은 1 비트에 부가될 수 있다. 이러한 해결책이 카메라 내에서의 전적으로 내부적인 것이기 때문에, 특정 어플리케이션을 위한 최적의 방법을 선택하는 것이 가능하다. 제 2 일례는 1 바이트의 메타데이터를 부가함으로써 색 공간 성분(color space component)을 확장하는 것이 될 수 있다. 일례로서, 상기 U/V 성분은 1 바이트 길이가 될 수 있지만, 이것을 2 바이트 길이로 만드는 대신에, 메타데이터를 위한 추가 바이트가 각각의 U/V 성분에 부가된다.

이미지와 메타데이터의 결합이 어떻게 수행될 수 있는지에 대한 또 다른 몇몇 특정 일례들은 다음을 포함할 수 있다.

- YUV422 의 경우, 픽셀 당 1xY 바이트 및 U 및 V 둘다에 대하여 2x1 픽셀 블록 당 1x 바이트를 갖는다면, UYVY 이고, 추가 1 바이트의 메타데이터가 UYVY 포맷에 부가될 수 있으며, 이는 이것을 UYVYM으로 만들며, 여기서 M은 부가된 메타데이터를 나타낸다.

- YUV420 의 경우, 픽셀 당 1xY 바이트 및 U 및 V 둘다에 대하여 2x2 픽셀 블록 당 1x 바이트를 갖는다면, YYYYUV 이고, 2x2 블록 각각에 대하여 추가 1 바이트의 메타데이터가 부가될 수 있으며, 이는 이것을 YYYYUVM 으로 만들며, 여기서 M은 부가된 메타데이터를 나타낸다.

- NV12의 경우, 메타데이터는 별도의 평면(plane)에 세이브될 수 있다. NV12 를 위해 이미 제공된 2개의 Y 및 UV 평면들 이외에도 메타데이터를 위한 제 3 평면이 부가될 수 있다.

또한, 메타데이터는 Y, U 또는 V 색 공간 성분들 내에 하나 이상의 비트들로서 패드(padded)될 수 있다.

메타데이터를 이미지 내에 내장하는 다양한 방법들이 존재하며, 따라서 전술한 바와 같은 매우 특정한 일례들은 청구항들에 의해서 정의되는 본 발명을 한정하는 것으로 간주되지 말아야 한다. 전술한 일례들은 메타데이터가 이미지와 함께 내장되는 경우들에 주로 관련된다. 또 다른 카테고리는 메타데이터가 이미지 내에 내장되는 경우가 될 수 있는바 즉, 예컨대, 색상 정보 혹은 휘도(luminance) 정보의 그 부분들이 제거되고 그리고 메타데이터에 의해서 대체된다. 일부 이미지 정보는 손실될 수도 있으며, 그렇지만 메타데이터는 이미지를 보통의 인코더(standard encoder)로 전송하기 전에 반드시 제거되어야할 필요는 없을 수 있으며, 이는 인코더를 참조하여 나중에 논의될 것이다.

이와 같이, 메타데이터는 이미지와 함께 또는 이미지 내에 내장될 수 있다(예시된 바와 같이). 만일 메타데이터가 너무 광범위하다면(too extensive), 또는 다른 이유들로 인해 이것이 적절하다면, 메타데이터는 포인터들에 의해서 대체될 수도 있다.

포인터들을 메타데이터에 내장하기 위한 수단 및 효과는, 메타데이터를 이와 같이 내장하는 것과 완전히 유사하며, 그리고 포인터들은 메타데이터가 그랬던 것과 동일한 방식으로, 픽셀, 픽셀들의 블록 혹은 영역들에 관련될 것이다. 이러한 이유로, 메타데이터에 대한 포인터들은, 본 설명을 위한 목적으로, 더 넓은 정의의 "메타데이터" 내에 포함될 것이다. 각각의 포인터는 실제 메타데이터가 위치하고 있는 메모리 공간 내의 위치를 가리킨다.

이러한 일례들의 목록은 완전한 것을 의미하는 것이 아니며 오히려, 이미지와 메타데이터의 결합을 유효하게 하기 위한 여러가지 옵션들이 존재함을 예시하기 위한 것이다. 그리고 방법에 대한 선택은 상황에 의존할 수 있다.

데이터의 결합에 후속하여, 이미지는 래스터 포맷(raster format)이라고도 지칭되는 라인 포맷(line format)으로부터 블록 포맷(block format)으로 전환된다(108). 이러한 전환(conversion)은 모든 실시예들에 대해서 필수적인 것은 아닌데, 왜냐하면 몇몇 변환들(예컨대, 드와핑(dewarping))은 블록 데이터를 요구할 수 있는 반면에 다른 여러 케이스들은 래스터 이미지 상에 직접 적용될 수 있기 때문이다. 본 실시예에서, 메타데이터는 블록 마다 부가되며, 따라서 트랜스레이션이 의미가 통한다(translation makes sense). 사실, 래스터 이미지에 대하여 블록-당 메타데이터를 사용하는 것도 가능하지만, 이러한 프로세스는 불필요하게 복잡하고 번거롭다.

결합 이후에, 이미지(이제 내장된 메타데이터를 포함하는)는 다양한 방식으로 변환될 수 있다(110). 전형적인 변환들은 디와핑(dewarping); 가령, 배럴 왜곡, 뿐만 아니라 다른 이미지 왜곡들 등과 같은 광학적 왜곡들에 대하여 이미지를 보정하는 것; 및 회전(rotation)을 포함하며, 여기서 이미지는 특정한 참조 시스템에 대하여 바르게(correctly) 정렬된다. 다른 일례는 이미지 안정화(image stabilization)인바, 여기서 픽셀 정보는 이미지 획득 동안의 제어되지 않는 움직임(uncontrolled motion)을 해결하도록, 주위에 쉬프트될 수 있다(shifted around). 임의의 변환의 결과는, 개별 픽셀들 혹은 픽셀들의 블록들이 이미지 내에서 주위에 쉬프트된다는 점이다.

변환(110) 이후에(비록 반드시 직후일 필요는 없지만), 이미지가 인코더(114)로 포워딩되며, 그리고 인코더 이전에 이미지로부터 메타데이터를 추출(및 제거)하는 것이 다음과 같은 이유로 바람직할 수도 있다. 인코더(114)에서, 이미지는 비디오 스트림 내의 프레임으로서 혹은 별도의 압축된 이미지로서 인코딩 및 포워딩된다. 메타데이터를 추출하기 전에 및 이미지 데이터를 인코딩하기 전에, 상기 결합된 이미지는 블록 포맷으로부터 라인 포맷으로 다시 변환된다(112). 이와 같은 인코딩은 현존하는 수 많은 인코딩 기법들 중 하나에 따라 수행될 수 있으며, 그리고 이러한 인코딩은 본 발명의 핵심 내용이 아니므로, 미래의 인코딩 기법도 또한 포함할 수 있다. 인코딩에서, 메타데이터 또는 적어도 그 일부가 이용된다. 메타데이터가 이미지 내에 또는 이미지와 함께 내장된다라는 사실로 인하여, 메타데이터는 변환 단계에서 픽셀들 또는 픽셀들의 블록들이 움직이는 것처럼 움직일 것이다. 이는 다음을 의미하는바, 메타데이터는 용이하게 추출될 수 있으며 그리고 이미지의 정정 부분(correction portion)에 커플링될 수 있는데, 왜냐하면 이미지의 정정 부분에 대한 커플링은 프로세스 전체에서 유지되기 때문이다. 메타데이터의 추출은 실제 인코더에 입력되기 전에 수행되는 것이 바람직하며, 임의의 표준형 인코더가 사용될 수 있게 하는 점에서 그 이유는 실제적인 것이다. 인코더에 입력되기 전에 메타데이터를 추출하기 위한 이유들이 될 수 있다라는 점 뿐만 아니라, 인코더 내부에서 메타데이터를 추출하는 것은 전혀 불가능하지 않을 뿐만 아니라 심지어 어렵지도 않다. 따라서, 이는 첨부된 청구항들에 의해서 정의되는 바와 같은 본 발명의 범위로부터 배제되지 않아야 한다

메타데이터가 이미지 내에 내장되는 경우, 즉, 메타데이터가 예컨대, 색상 정보의 일부분들을 대체하는 경우, 이러한 정보는 여전히 이미지로부터 추출될 수 있지만, 이미지를 인코더로 전송하기 전에 이미지로부터 메타데이터를 제거할 필요는 없을 수도 있다. 인코더는 그것이 거기에 있었는지를 인식하지 못할 것이며 그리고 비록, 그것이 이미지의 외양(appearance)에 영향을 미칠 수 있을지라도, 이러한 영향을 무시될 수 있다. 그 효과는 다음이 될 수 있는바, 전체 프로세스에 걸쳐서 그리고 그 이후에도 메타데이터가 이미지 내에 내포된다.

인코더에 대하여 주요 관심있는 메타데이터는 압축 메타데이터 또는 압축 맵이 될 수 있다. 그렇지만, 본 발명의 또 다른 효과는 인코더로부터 전송된 이미지(즉, 사용자에게 보여질 이미지 또는 클라이언트 측에서 추가로 프로세싱될 이미지)에 완벽하게 매칭되는 메타데이터의 모음(collection)이 있을 것이라는 점이다. 이것은 메타데이터 혹은 메타데이터의 선택된 부분이 다운스트림 프로세스로 포위딩 될 수 있음을 의미한다. 다운스트림 프로세스는 비디오 카메라의 제약사항들 내에 있는 프로세스일 수도 있지만, 제약사항들 외부에 있는 프로세스일 수도 있다. 이것은 도 2에 또한 예시되며 그리고 제 2 실시예에 관련된다. 실제로 도 2는 도 2의 116에 도시된 바와 같이, 추출된 메타데이터가 인코딩 이외의 다른 프로세스에서 이용된다라는 공통점을 갖는 일련의 실시예들을 포함하고 있는 것으로 간주될 수 있다. 일실시예에서, 메타데이터는 속도 제어부(rate control)(118)로 포워딩된다. 다른 실시예에서 메타데이터는 외부 어플리케이션(120)으로 그리고 VMS(Video Management System: 비디오 관리 시스템)으로 및/또는 내부 어플리케이션으로 포워딩될 수도 있다. 또 다른 실시예에서, 메타데이터는 프레임 스티칭 프로세스(frame stitching process)(122)로 포워딩되는바, 프레임 스티칭 프로세스에서는 예컨대, 4개의 비디오 카메라들 각각으로부터의 4개의 서로 다른 뷰(view)들이 단일 뷰로 결합되며, 상기 단일 뷰가 오퍼레이터에게 보여진다. 이들 실시예들 중 임의의 것은 자유롭게 조합될 수 있다. 다른 일례들은, 긍정 오류(false positive)를 회피하도록 즉, 실제로는 에지들이 아닌 에지들을 검출하는 리스크를 감소시키도록, 영역 당 SNR을 사용하는 에지 검출 알고리즘을 포함할 수 있다. 다른 일례들에서, 모션 검출 알고리즘의 결과는 메타데이터로서 이미지 내에 또는 이미지와 함께 내장되며, 여기서 상기 결과는 교차 보호 구역들(crossing protected areas)을 예측하기 위하여 경계선(borderline) 검출 알고리즘으로 보내질 수도 있다.

도 3에 예시된 바와 같은 제 3 실시예에서는, 이미지를 변환하는 단계 이전에 혹은 이후에 오버레이(124)를 부가하는 추가적인 단계가 존재하며, 그리고 이러한 오버레이는 이미지와 함께 결합되는 추가적인 메타데이터로서 간주될 수 있다. 오버레이는 프라이버시 마스크 또는 사용자 편의를 위해 이미지에 텍스트 정보를 부가하는 텍스트 계층(text layer)이 될 수 있으며, 그리고 유형에 따라 이것은 변환 이전에 혹은 이후에 이미지 내에 내장될 수 있다. 텍스트 계층은 변환이 일어날 때까지 부가되지 않은 것이 일반적인바, 왜냐하면 텍스트 계층은 특정 픽셀들 또는 영역들에 연결되지 않을 수도 있기 때문이다. 반면에, 프라이버시 마스크는 마스크의 유형에 따라, 변환 전에 혹은 후에 부가될 수 있다. 만일, 프라이버시 마스크가 동적으로 적용된다면, 마스킹될 영역들을 식별하는 알고리즘들은 비-변환된 이미지(non-transformed image)를 사용할 수도 있다.

다음을 유의해야 하는바, 본 명세서에 개시된 실시예들은 추가 실시예들을 생성하기 위하여 자유롭게 조합될 수도 있다. 예컨대, 도 3에 도시된 제 3 실시예에서 사용된 바와 같은 오버레이 소스의 부가는, 도 2의 제 2 실시예에 추가될 수도 있으며, 이는 제 4 실시예를 생성할 것이다.

도 1 내지 도 3의 도식적인 소개에 후속하여, 도 4는 본 발명의 보다 상세한 몇몇 어플리케이션들을 예시한다. 도 4는 본 발명의 제 4 실시예에 따른 이미지 프로세싱의 기능적인 차트이다. 이러한 실시예들은 앞서 설명된 여러 피처들을 포함하며, 따라서 다수의 실시예들로 또한 분할될 수도 있다. 도 4의 목적은 도 1 내지 도 3과는 약간 다른 본 발명의 양상들을 서술하는 것이며, 따라서 본 발명에 대한 이해도를 증가시킬 수 있다.

제 1 단계에서 이미지가 획득된다.

이러한 이미지는 이미지 센서로부터 판독될 수 있다. 그렇지만, 이러한 이미지는 파일로부터 판독될 수도 있으며 또는 다른 이미지 소스로부터 획득될 수도 있다. 본 실시예에서는, 나무가 이미지화된다. 상기 이미지는 이러한 단순한 레이아웃에서 4개의 섹터들로 분할된다. 4개의 섹터들은 좌측상단(Upper Left: UL), 우측상단(Upper Right: UR), 좌측하단(Lower Left: LL), 우측하단(Lower Right: LR) 이다.

다음으로, 이미지는 이미지 프로세싱 파이프라인(406)으로 입력되며, 그리고 제 1 단계(408)에서 각 섹터에서의 움직임이 검출될 수 있다. 본 일례에서는, 410에서 출력 이미지에 표시된 바와 같이, 좌측상단 섹터에서 움직임 m1 이 검출되고, 좌측하단 섹터에서 움직임 m2 가 검출된다. 본 일례에서는 다른 섹터들에서는 움직임이 검출되지 않는다.

제 2 단계(412)에서, 각각의 섹터에 대하여 신호 대 잡음 비율이 계산되어, 이미지의 좌측상단으로부터 우측하단으로 카운팅되는 값들 snr1 - snr4 이 생성되며, 각각의 값들은 특정 섹터에 대한 SNR 레벨을 나타낸다.

신호 대 잡음 비율들의 추론(deduction) 이후에, 관심영역들(414) 및 압축 맵(416)을 식별하는 단계가 수행될 수 있으며, 대응 메타데이터가 이미지(418) 내에 내장된다.

이미지 프로세싱 파이프라인 이후에, 출력은, 내장된 메타데이터를 구비한 가공 이미지이며, 그리고 상기 이미지(418) 각각의 섹터에 대한 결과물은 다음과 같다.

UL: m1, snr1, comp1

UR: snr1, roi1, comp1

LL: m2, snr3, comp1

LR: snr4, roi1, comp3

이제 결합된 이미지가 변환 단계(420)에 진입함에 따라, 본 발명의 장점이 분명해진다. 본 실시예에서, 변환은 이미지의 180도 회전에 해당하며, 그리고 이미지가 회전함에 따라 상기 내장된 메타데이터도 또한 회전될 것이다. 메타데이터의 경우, 이것은 시계 방향으로(또는 반시계 방향으로) 2 개의 섹터들을 이동하는 것에 해당한다. 하지만, 변환에 관계없이, 상기 내장된 메타데이터는 해당 이미지 데이터를 뒤따를 것이라는 점이 명백하다(출력 이미지(422)에 표시된 바와 같이).

변환에 후속하여, 메타데이터는 이미지로부터 분리될 수 있으며 그리고 이미지로부터 디스패치(424)될 수 있다. 그리고 압축 맵(426)에 관한 메타데이터는 변환된 이미지(428)와 함께 인코더(430)로 포워딩될 수있으며, 인코더(430)로부터의 출력은 압축된 이미지(432)이다. 다른 유형들의 메타데이터 가령, 신호 대 잡음 비율(434)에 관한 메타데이터(이는 관심영역들(436)에 관한 메타데이터와 결합될 수도 있음)는, 다른 어플리케이션들로 포워딩될 수도 있는바, 예를 들면, 어플리케이션 플랫폼들(438)에서 이용가능한 어플리케이션들로 포워딩될 수 있다.

본 일례에서, 이미지는 4개의 섹터들로 분할되었으나, 이는 단지 예시적인 목적만을 갖는, 본 발명에 대한 비제한적인 일례로 간주되어야 한다. 다른 실시예들에서, 이러한 분할은 가령, 16x16 ~ 32x32 픽셀들과 같은 픽셀 사이즈에 보다 가까울 수도 있다. 몇몇 추가적인 일례를 단지 제공하기 위하여, 이는 이미지 블록들로, 가령 각각의 이미지가 32x32 섹터들 혹은 64x64 섹터들을 포함하도록 분할될 수도 있다. 이들 섹터들은 폭 및 높이에 있어서 대칭일 필요는 없으며, 이들 섹터들은 또한 이미지를 슬라이스들로, 기타 등등으로 분할할 수 있다.

도 4의 실시예는 다수의 실시예들 및 그 대안예들을 포함한다. 도 4의 실시예는 예컨대, 도 4의 흐름으로부터 단계 408 또는 412 또는 416 등의 하나의 이미지 프로세싱 단계를 선택함으로써, 또는 하나 이상의 단계들을 생략함으로써, 또 다른 실시예들로 분할될 수도 있다.

메타데이터의 정의에 관한 앞서 설명된 내용에 부가하여, 다음과 같은 점이 강조될 수 있는데, 메타데이터는 실제 데이터에 관련될 수 있지만(본 명세서의 일례들 대부분에서와 같이), 메타데이터는 메타데이터의 테이블에 대한 ID 혹은 포인터를 또한 포함할 수도 있다(첨부된 청구범위에 의해서 정의되는 본 발명의 범위를 벗어남이 없이도). 또한, 메타데이터는 이미지 프로세싱 동안의 임의의 스테이지에서 사용될 수 있다. 메타데이터에 대한 다수의 일례들이 본 명세서에 제공되었으며, 그리고 다음을 유의해야 하는바 메타데이터의 리스트는 완벽한 것(exhaustive)이 아니다. 본 발명은 새로운 유형의 메타데이터에 관한 발명이 아니라, 이미지 프로세싱 파이프라인에서 이미지들과 함께 메타데이터를 프로세싱하는 새로운 방식에 관한 발명이다(청구항들에 의해서 정의되는 바와 같이). 또한, 본 명세서의 실시예들에서 이미지는 센서로부터 획득되고 있지만, 본 발명에 따른 방법들은, 이미지가 파일로부터 또는 다른 입력 소스로부터 판독되는 경우에도 동등하게 유용할 수 있다. 물론, 이러한 이미지는 소정의 포인트에서 센서로부터 획득될 수도 있지만, 본 발명은 이러한 양상만으로 한정되지 않아야 한다.

본 발명에 따른 방법 및 그 실시예들은 인코딩 시퀀스 또는 트랜스코딩 시퀀스의 일부로서 별도로 이용될 수도 있으며, 그리고 "비디오 디바이스" 라는 용어는 예시적인 디바이스들 즉, 비디오 카메라, 비디오 인코딩 디바이스, 비디오 트랜스코딩 디바이스, 및 비디오 관리 시스템 등을 포함하는 범용 용어로서 이용된다.

Claims

비디오 디바이스에서 이미지를 프로세싱하는 방법으로서,
이미지를 판독하는 단계;
메타데이터를 상기 이미지 내에 내장함으로써, 상기 이미지에 관한 메타데이터와 상기 이미지를 결합하는 단계;
내장된 메타데이터를 구비한 상기 이미지를 변환하는 단계, 픽셀 혹은 픽셀들의 블록에 관련된 메타데이터는 이러한 픽셀 혹은 픽셀들의 블록의 움직임을 뒤따르며(follow);
상기 이미지로부터 상기 메타데이터를 추출하고 그리고 상기 이미지를 인코더로 포워딩하는 단계;
상기 인코더에서 상기 이미지를 인코딩하는 단계; 및
추가(further) 프로세싱에서 상기 메타데이터를 입력으로 사용하는 단계
를 포함하는 것을 특징으로 하는 비디오 디바이스에서 이미지를 프로세싱하는 방법.
제1항에 있어서,
상기 추가 프로세싱은 상기 이미지에 대한 프로세싱 또는 후속 이미지들에 대한 프로세싱을 포함하는 것을 특징으로 하는 비디오 디바이스에서 이미지를 프로세싱하는 방법.
제1항에 있어서,
상기 추가 프로세싱은 상기 메타데이터에 대한 프로세싱을 포함하는 것을 특징으로 하는 비디오 디바이스에서 이미지를 프로세싱하는 방법.
제1항에 있어서,
상기 추가 프로세싱은
이미지 분석, 비젼 어플리케이션들(vision applications), 속도 제어(rate control), 프레임 스티칭(frame stitching) 및 이들의 조합; 속도 제어, 프레임 스티칭, 액션 트리거링(action triggering)의 수행, 이미지 분석 툴들의 지원 및 이들의 조합을 포함하는 것을 특징으로 하는 비디오 디바이스에서 이미지를 프로세싱하는 방법.
제1항에 있어서,
메타데이터를 상기 이미지에 내장하기 전에 상기 이미지로부터 메타데이터를 도출하는 단계를 더 포함하는 것을 특징으로 하는 비디오 디바이스에서 이미지를 프로세싱하는 방법.
제1항에 있어서,
상기 이미지를 변환하는 단계 이전에, 상기 이미지가 래스터 포맷으로부터 블록 포맷으로 전환되며, 그리고
상기 메타데이터를 입력으로 이용하여 상기 이미지를 프로세싱하기 전에, 상기 이미지는 블록 포맷으로부터 래스터 포맷으로 다시 전환되는 것을 특징으로 하는 비디오 디바이스에서 이미지를 프로세싱하는 방법.
제1항에 있어서,
상기 이미지를 변환하기 전에 및/또는 변환한 후에, 상기 이미지를 메타데이터와 결합하는 단계를 포함하며, 상기 메타데이터는 오버레이들(overlays)의 형태인 것을 특징으로 하는 비디오 디바이스에서 이미지를 프로세싱하는 방법.
제1항에 있어서,
상기 메타데이터를 추가적인 색 공간 성분(color space component)으로서 대응 픽셀 블록에 내장함으로써, 상기 메타데이터가 이미지와 결합하는 것을 특징으로 하는 비디오 디바이스에서 이미지를 프로세싱하는 방법.
제1항에 있어서,
특정 픽셀 블록에 대응하는 메타데이터로 상기 특정 픽셀 블록의 추가적인 색 공간 성분을 패딩(padding)함으로써, 상기 메타데이터가 이미지와 결합하는 것을 특징으로 하는 비디오 디바이스에서 이미지를 프로세싱하는 방법.
제1항에 있어서,
상기 메타데이터는 상기 이미지의 색상 정보 또는 휘도 정보의 일부분을 대체하는 것을 특징으로 하는 비디오 디바이스에서 이미지를 프로세싱하는 방법.
제1항에 있어서,
블록 포맷형 이미지의 모든 매크로 블록에 상기 메타데이터가 첨부되는 것을 특징으로 하는 비디오 디바이스에서 이미지를 프로세싱하는 방법.
제1항에 있어서,
상기 메타데이터는 상기 이미지를 인코더로 포워딩하기 전에 상기 이미지로부터 분리되는 것을 특징으로 하는 비디오 디바이스에서 이미지를 프로세싱하는 방법.
제1항에 있어서,
상기 메타데이터는,
신호 대 잡음 메타데이터, 압축 메타데이터, 움직임(motion) 메타데이터, 프라이버시 마스크 메타데이터, 관심영역 메타데이터, 및 이들의 조합를 포함하는 그룹으로부터 선택되는 것을 특징으로 하는 비디오 디바이스에서 이미지를 프로세싱하는 방법.
제1항에 있어서,
상기 비디오 디바이스는 비디오 카메라, 비디오 인코더, 비디오 트랜스코더, 또는 비디오 관리 시스템인 것을 특징으로 하는 비디오 디바이스에서 이미지를 프로세싱하는 방법.
제1항에 따른 방법을 수행하도록 된 비디오 디바이스로서,
이미지로부터 메타데이터를 추출하도록 구성되고 그리고 상기 메타데이터 또는 다른 메타데이터를 상기 이미지에 내장하도록 또한 구성된 이미지 프로세싱 파이프라인;
내장된 메타데이터와 함께 이미지를 수신하도록 구성되고 그리고 정의된 세팅들에 따라 상기 내장된 메타데이터와 함께 상기 이미지를 변환하도록 구성된 변환기(transformer);
메타데이터를 구비한 변환된 이미지로부터 메타데이터를 추출하도록 구성되고 그리고 특정 프로토콜에 따라 상기 이미지를 압축하도록 구성된 이미지 인코더와 같이 상기 이미지를 후속 프로세싱으로 포워딩하는 추출기
를 포함하는 비디오 디바이스.
제15항에 있어서,
상기 비디오 디바이스는 비디오 카메라, 비디오 인코더, 비디오 트랜스코더, 또는 비디오 관리 시스템인 것을 특징으로 하는 비디오 디바이스.