KR20150086385A - Object of interest based image processing - Google Patents

Object of interest based image processing Download PDF

Info

Publication number
KR20150086385A
KR20150086385A KR1020157018057A KR20157018057A KR20150086385A KR 20150086385 A KR20150086385 A KR 20150086385A KR 1020157018057 A KR1020157018057 A KR 1020157018057A KR 20157018057 A KR20157018057 A KR 20157018057A KR 20150086385 A KR20150086385 A KR 20150086385A
Authority
KR
South Korea
Prior art keywords
engine
various embodiments
interest
ooi
image frame
Prior art date
Application number
KR1020157018057A
Other languages
Korean (ko)
Inventor
치앙 리
웬롱 리
펭 왕
타오 왕
양조우 두
지안구오 리
Original Assignee
인텔 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔 코포레이션 filed Critical 인텔 코포레이션
Priority to KR1020157018057A priority Critical patent/KR20150086385A/en
Publication of KR20150086385A publication Critical patent/KR20150086385A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding

Abstract

장치, 방법 및 시스템이 제공되며, 시스템은 개별 이미지 프레임들 내의 하나 이상의 관심 객체를, 이들의 배경을 인코딩 및/또는 압축하는 데 사용되는 비트 밀도보다 높은 비트 밀도들로 인코딩 및/또는 압축하기 위한 인코딩 엔진을 포함한다. 시스템은 하나 이상의 관심 객체의 적어도 일부를 포함하는 관심 영역을 식별하고, 개별 이미지 프레임들 내의 관심 영역을 스케일링하여 관심 객체들을 강조하기 위한 상황 엔진을 더 포함할 수 있다.Apparatus, method and system are provided for encoding and / or compressing one or more objects of interest within individual image frames with bit densities higher than the bit density used to encode and / or compress their background Encoding engine. The system may further include a status engine for identifying an area of interest that includes at least a portion of one or more objects of interest, and for scaling the area of interest within the individual image frames to highlight the objects of interest.

Description

관심 객체 기반 이미지 처리{OBJECT OF INTEREST BASED IMAGE PROCESSING}[0001] OBJECT OF INTEREST BASED IMAGE PROCESSING [0002]

본 발명은 일반적으로 데이터 처리에 관한 것으로서, 구체적으로는 관심 객체 기반 이미지 처리에 관한 것이다.Field of the Invention [0002] The present invention relates generally to data processing, and more specifically, to object-based image processing of interest.

본 명세서에서 달리 지시되지 않는 한, 이 섹션에서 설명되는 내용은 본 출원의 청구항들에 대한 종래 기술이 아니며, 이 섹션 내의 포함에 의해 종래 기술인 것으로 인정되지 않는다.Unless otherwise indicated herein, the contents set forth in this section are not prior art to the claims of the present application and are not to be construed as prior art by the inclusion therein.

일반적으로 이미징 처리 애플리케이션들, 구체적으로 비디오 회의 솔루션들은 하나 이상의 카메라로부터 라이브 비디오 이미지 프레임들을 수신 또는 캡처하고, 캡처된 비디오 이미지 프레임들을 압축하고, 압축된 비디오 이미지 프레임들을 하나 이상의 수신자에게 전송할 수 있으며, 이어서 하나 이상의 수신자는 수신된 비디오 이미지 프레임들을 압축 해제(decompress)할 수 있다. 오늘날, 비디오 회의와 같은 점점 더 많은 이미지 처리 애플리케이션들은 고정 장치들을 이용하는 애플리케이션들을 지원하도록 구성된 전통적인 네트워크들에 비해 비교적 더 낮은 대역폭을 가질 수 있는 네트워크들을 통해 이동 장치들을 이용하여 실행된다. 따라서, 전송되는 비디오의 품질 및 이러한 애플리케이션들의 사용자 경험은 이상적이지 못할 수 있다.Generally, imaging processing applications, specifically video conferencing solutions, can receive or capture live video image frames from one or more cameras, compress captured video image frames, and send the compressed video image frames to one or more recipients, The one or more recipients may then decompress the received video image frames. Today, more and more image processing applications, such as video conferencing, are implemented using mobile devices over networks that may have a relatively lower bandwidth than conventional networks configured to support applications using fixed devices. Thus, the quality of the transmitted video and the user experience of these applications may not be ideal.

본 발명의 실시예들은 첨부 도면들에 도시된, 한정이 아니라 예시적인 도해들을 통해 설명되며, 도면들에서 동일한 참조 부호들은 유사한 요소들을 나타낸다.
도 1은 본 발명의 다양한 실시예들에 따른 예시적인 이미지 처리 장치를 나타내는 블록도이다.
도 2는 본 발명의 다양한 실시예들에 따른 비디오 신호의 예시적인 개별 이미지 프레임을 나타내는 블록도이다.
도 3은 본 발명의 다양한 실시예들에 따른 이미지 처리 장치의 인코딩 엔진의 동작들의 일부를 나타내는 흐름도이다.
도 4는 본 발명의 다양한 실시예들에 따른 이미지 처리 장치의 상황 엔진의 동작들의 일부를 나타내는 흐름도이다.
도 5는 본 발명의 다양한 실시예들에 따른 이미지 처리 장치의 동작들의 일부를 나타내는 흐름도이다.
도 6은 본 발명의 실시예들에 따른, 설명되는 방법들 및/또는 장치들의 다양한 양태들을 실시하는 데 사용하기에 적합한 예시적인 컴퓨터 시스템을 나타내는 블록도이다.
도 7은 본 발명의 실시예들에 따른, 장치로 하여금, 이미지 처리 장치의 다양한 동작들을 실시하게 하도록 구성된 프로그래밍 명령어들을 갖는 제조물을 나타내는 블록도이다.
BRIEF DESCRIPTION OF THE DRAWINGS Embodiments of the present invention will now be described, by way of example only, with reference to the accompanying drawings, in which: FIG.
Figure 1 is a block diagram illustrating an exemplary image processing apparatus in accordance with various embodiments of the present invention.
2 is a block diagram illustrating exemplary individual image frames of a video signal in accordance with various embodiments of the present invention.
3 is a flow diagram illustrating a portion of the operations of an encoding engine of an image processing apparatus in accordance with various embodiments of the present invention.
4 is a flow diagram illustrating a portion of the operations of the context engine of an image processing apparatus according to various embodiments of the present invention.
5 is a flow diagram illustrating a portion of the operations of an image processing apparatus in accordance with various embodiments of the present invention.
Figure 6 is a block diagram illustrating an exemplary computer system suitable for use in implementing various aspects of the methods and / or devices described in accordance with embodiments of the present invention.
7 is a block diagram illustrating an article of manufacture having programming instructions configured to cause the apparatus to perform various operations of the image processing apparatus, in accordance with embodiments of the present invention.

본 발명의 다양한 실시예들은 개별 이미지 프레임들 내의 하나 이상의 관심 객체를, 이미지 프레임들의 배경을 인코딩 및/또는 압축하는 데 사용되는 비트 밀도보다 높은 비트 밀도로 인코딩 및/또는 압축하도록 구성된 인코딩 엔진을 포함하는 장치들, 방법들 및 시스템들을 설명할 수 있다. 이미지 처리 시스템은 하나 이상의 관심 객체의 적어도 일부를 포함하는 관심 영역을 식별하고, 각각의 프레임 내의 관심 영역을 스케일링하여 관심 객체들을 강조하도록 구성된 상황 엔진을 더 포함할 수 있다.Various embodiments of the present invention include an encoding engine configured to encode and / or compress one or more objects of interest within individual image frames with a bit density higher than the bit density used to encode and / or compress the background of image frames Desc / Clms Page number 5 > devices, methods and systems. The image processing system may further comprise a status engine configured to identify a region of interest that includes at least a portion of the one or more objects of interest, and to scale the region of interest within each frame to highlight the objects of interest.

다양한 실시예들에서, 장치는 비디오 신호의 다수의 이미지 프레임을 수신하고, 각각의 이미지 프레임의 배경을 인코딩 및/또는 압축하는 데 사용되는 비트 밀도보다 높은 하나 이상의 비트 밀도에 기초하여 각각의 이미지 프레임 내의 하나 이상의 관심 객체와 관련된 하나 이상의 영역을 인코딩 및/또는 압축하도록 구성된 인코딩 엔진을 포함할 수 있으며, 배경 및 하나 이상의 영역은 각각의 이미지 프레임을 형성한다. 장치는 인코딩 엔진에 결합되고, 인코딩/압축된 다수의 이미지 프레임을 하나 이상의 수신자에게 전송하도록 구성된 송신기를 더 포함할 수 있다.In various embodiments, the apparatus receives a plurality of image frames of a video signal and, based on one or more bit densities higher than the bit density used to encode and / or compress the background of each image frame, The image processing system may include an encoding engine configured to encode and / or compress one or more regions associated with one or more objects of interest in the background, and wherein the background and one or more regions form respective image frames. The apparatus may further comprise a transmitter coupled to the encoding engine and configured to transmit a plurality of encoded / compressed image frames to one or more receivers.

다양한 실시예들에서, 하나 이상의 관심 객체는 비디오 회의의 참여자들의 하나 이상의 얼굴을 포함할 수 있다.In various embodiments, the one or more objects of interest may include one or more faces of the participants of the video conference.

다양한 실시예들에서, 장치는 인코딩 엔진에 결합되고, 각각의 이미지 프레임 내의 하나 이상의 관심 객체를 식별하도록 구성된 상황 엔진을 더 포함할 수 있다.In various embodiments, the apparatus may further comprise a context engine coupled to the encoding engine and configured to identify one or more objects of interest within each image frame.

다양한 실시예들에서, 상황 엔진은 각각의 이미지 프레임 내의 관심 영역을 식별하도록 더 구성될 수 있으며, 관심 영역은 하나 이상의 관심 객체를 적어도 부분적으로 포함할 수 있다.In various embodiments, the context engine may be further configured to identify a region of interest within each image frame, wherein the region of interest may include, at least in part, one or more objects of interest.

다양한 실시예들에서, 상황 엔진은 각각의 이미지 프레임 내의 관심 영역을 스케일링 업하여, 각각의 이미지 프레임 내의 관심 영역의 현저성을 증가시키도록 더 구성될 수 있다.In various embodiments, the context engine may be further configured to scale up the region of interest within each image frame, thereby increasing the saliency of the region of interest within each image frame.

다양한 실시예들에서, 상황 엔진은 관심 영역을 조정하여 하나 이상의 관심 객체 중 적어도 하나를 각각의 이미지 프레임 내의 중심에 배치하도록 더 구성될 수 있다.In various embodiments, the context engine may be further configured to adjust the region of interest and center at least one of the one or more objects of interest in each image frame.

다양한 실시예들에서, 상황 엔진은 상황 정보에 기초하여 관심 영역을 조정하여 하나 이상의 관심 객체 중 적어도 하나를 각각의 이미지 프레임 내의 중심을 벗어난 위치에 배치하도록 더 구성될 수 있다.In various embodiments, the context engine may be further configured to adjust the region of interest based on contextual information to place at least one of the one or more objects of interest at off-center locations within each image frame.

다양한 실시예들에서, 장치의 하나 이상의 관심 객체는 비디오 회의의 참여자들의 하나 이상의 얼굴을 포함할 수 있으며, 상황 정보는 하나 이상의 얼굴의 얼굴 배향들을 포함할 수 있다.In various embodiments, one or more objects of interest of the device may include one or more faces of participants of a video conference, and the contextual information may include one or more face orientations.

다양한 실시예들에서, 송신기는 하나 이상의 관심 객체 및 배경을 개별적으로 전송하도록 더 구성될 수 있다.In various embodiments, the transmitter may be further configured to separately transmit one or more objects of interest and a background.

다양한 실시예들에서, 방법은 비디오 신호의 다수의 이미지 프레임을 수신하는 단계; 및 각각의 이미지 프레임의 배경을 인코딩 및/또는 압축하는 데 사용되는 비트 밀도보다 높은 하나 이상의 비트 밀도에 기초하여 각각의 이미지 프레임 내의 하나 이상의 관심 객체와 관련된 하나 이상의 영역을 인코딩 및/또는 압축하는 단계를 포함할 수 있으며, 배경 및 하나 이상의 영역은 각각의 이미지 프레임을 형성한다.In various embodiments, the method includes receiving a plurality of image frames of a video signal; And encoding and / or compressing one or more regions associated with one or more objects of interest in each image frame based on one or more bit densities higher than the bit density used to encode and / or compress the background of each image frame And the background and at least one region form respective image frames.

다양한 실시예들에서, 방법은 각각의 이미지 프레임 내의 하나 이상의 관심 객체를 식별하는 단계를 더 포함할 수 있다.In various embodiments, the method may further comprise identifying one or more objects of interest within each image frame.

다양한 실시예들에서, 방법은 각각의 이미지 프레임 내의 관심 영역을 식별하는 단계를 더 포함할 수 있으며, 관심 영역은 하나 이상의 관심 객체를 적어도 부분적으로 포함한다.In various embodiments, the method may further comprise identifying a region of interest within each image frame, wherein the region of interest includes at least in part at least one object of interest.

다양한 실시예들에서, 방법은 각각의 이미지 프레임 내의 관심 영역을 스케일링 업하여 각각의 이미지 프레임 내의 관심 영역의 현저성을 증가시키는 단계를 더 포함할 수 있다.In various embodiments, the method may further comprise scaling up the region of interest within each image frame to increase the saliency of the region of interest within each image frame.

다양한 실시예들에서, 방법은 각각의 이미지 프레임 내의 관심 영역을 조정하여 하나 이상의 관심 객체 중 적어도 하나를 각각의 이미지 프레임 내의 중심에 배치하는 단계를 더 포함할 수 있다.In various embodiments, the method may further comprise adjusting the region of interest within each image frame to center at least one of the one or more objects of interest in each image frame.

다양한 실시예들에서, 방법은 상황 정보에 기초하여 관심 영역을 조정하여 하나 이상의 관심 객체 중 적어도 하나를 각각의 이미지 프레임 내의 중심을 벗어난 위치에 배치하는 단계를 더 포함할 수 있다.In various embodiments, the method may further comprise adjusting at least one of the one or more objects of interest at a location off center in each image frame by adjusting the region of interest based on contextual information.

다양한 실시예들에서, 방법의 하나 이상의 관심 객체는 비디오 회의의 참여자들의 하나 이상의 얼굴을 포함할 수 있으며, 상황 정보는 하나 이상의 얼굴의 얼굴 배향들을 포함할 수 있다.In various embodiments, one or more objects of interest of the method may include one or more faces of participants of a video conference, and the contextual information may include one or more face orientations.

다양한 실시예들에서, 방법은 인코딩/압축된 다수의 이미지 프레임을 하나 이상의 수신자에게 전송하는 단계를 더 포함할 수 있으며, 상기 전송하는 단계는 하나 이상의 관심 객체 및 배경을 개별적으로 전송하는 단계를 포함할 수 있다.In various embodiments, the method may further comprise transmitting a plurality of encoded / compressed image frames to one or more recipients, said transmitting comprising separately transmitting one or more objects of interest and a background can do.

다양한 실시예들에서, 시스템은 다수의 이미지 프레임을 갖는 비디오 신호를 캡처하도록 구성된 카메라; 카메라에 기능적으로 결합되며, 캡처된 다수의 이미지 프레임을 수신하고, 각각의 이미지 프레임의 배경을 인코딩 및/또는 압축하는 데 사용되는 비트 밀도보다 높은 하나 이상의 비트 밀도에 기초하여 각각의 이미지 프레임 내의 하나 이상의 관심 객체를 인코딩 및/또는 압축하도록 구성된 인코딩 엔진을 포함할 수 있으며, 배경 및 하나 이상의 관심 객체는 각각의 이미지 프레임을 형성한다. 시스템은 인코딩 엔진에 결합되고, 인코딩/압축된 다수의 이미지 프레임을 하나 이상의 수신자에게 전송하도록 구성된 송신기를 더 포함할 수 있다.In various embodiments, the system includes a camera configured to capture a video signal having a plurality of image frames; A plurality of image frames, operatively coupled to the camera, configured to receive the plurality of captured image frames and to generate one of the plurality of image frames based on one or more bit densities higher than the bit density used to encode and / And may include an encoding engine configured to encode and / or compress the object of interest, wherein the background and one or more objects of interest form respective image frames. The system may further comprise a transmitter coupled to the encoding engine and configured to transmit a plurality of encoded / compressed image frames to one or more receivers.

다양한 실시예들에서, 상황 정보는 하나 이상의 수신자 중 하나의 수신자의 시야각을 포함할 수 있으며, 시스템의 상황 엔진은 하나 이상의 수신자 중 하나의 수신자의 시야각에 기초하여 캡처된 비디오 신호를 조정하기 위해 카메라를 제어하도록 더 구성될 수 있다.In various embodiments, the contextual information may include a viewing angle of one of the one or more recipients, and the contextual engine of the system may be adapted to adjust the captured video signal based on the viewing angle of one of the one or more recipients, Lt; / RTI >

다양한 실시예들에서, 제조물은 유형의 비일시적 컴퓨터 판독 가능 저장 매체; 및 저장 매체에 저장된 다수의 프로그래밍 명령어를 포함할 수 있으며, 프로그래밍 명령어들은, 장치로 하여금, 프로그래밍 명령어들의 실행에 응답하여, 비디오 신호의 다수의 이미지 프레임을 수신하는 동작; 및 각각의 이미지 프레임의 배경을 인코딩 및/또는 압축하는 데 사용되는 비트 밀도보다 높은 하나 이상의 비트 밀도에 기초하여 각각의 이미지 프레임 내의 하나 이상의 관심 객체를 인코딩 및/또는 압축하는 동작을 포함하는 동작들을 수행하게 하도록 구성되며, 배경 및 하나 이상의 관심 객체는 이미지 프레임들을 형성한다.In various embodiments, the article of manufacture may be of a type of non-volatile computer-readable storage medium; And a plurality of programming instructions stored on a storage medium, wherein the programming instructions cause the device to: receive a plurality of image frames of the video signal in response to execution of programming instructions; And encoding and / or compressing one or more objects of interest in each image frame based on one or more bit densities higher than the bit density used to encode and / or compress the background of each image frame Wherein the background and one or more objects of interest form image frames.

아래의 상세한 설명에서는, 그 일부를 형성하고, 본 발명이 실시될 수 있는 실시예들을 예시적으로 나타내는 첨부 도면들을 참조한다. 본 발명의 범위로부터 벗어나지 않고, 다른 실시예들이 이용될 수 있으며, 구조적 또는 논리적 변경들이 이루어질 수 있다는 것을 이해할 것이다. 따라서, 아래의 상세한 설명은 제한적인 것으로 간주되지 않아야 하며, 본 발명에 따른 실시예들의 범위는 첨부된 청구항들 및 이들의 균등물들에 의해 정의된다.In the following detailed description, reference is made to the accompanying drawings that form a part hereof, and in which is shown, by way of illustration, embodiments in which the invention may be practiced. It will be appreciated that other embodiments may be utilized and structural or logical changes may be made without departing from the scope of the present invention. The following detailed description is, therefore, not to be taken in a limiting sense, and the scope of the embodiments according to the invention is defined by the appended claims and their equivalents.

다양한 동작들은 본 발명의 실시예들의 이해를 도울 수 있는 방식으로 다수의 개별 동작들로서 차례차례 설명될 수 있지만, 설명의 순서는 이러한 동작들이 순서 의존적임을 암시하는 것으로 해석되지 않아야 한다.While various operations may be described one after another as a number of separate operations in a manner that may facilitate understanding of embodiments of the present invention, the order of description should not be construed as implying that such operations are order dependent.

설명의 목적을 위해, "A/B" 형태 또는 "A 및/또는 B" 형태의 문구는 (A), (B) 또는 (A 및 B)를 의미한다. 설명의 목적을 위해, "A, B 및 C 중 적어도 하나" 형태의 문구는 (A), (B), (C), (A 및 B), (A 및 C), (B 및 C) 또는 (A, B 및 C)를 의미한다. 설명의 목적을 위해, "(A)B" 형태의 문구는 (B) 또는 (AB)를 의미하는데, 즉 A는 옵션 요소이다.For purposes of explanation, the phrase "A / B" or "A and / or B" means (A), (B) or (A and B). For purposes of illustration, the phrase "at least one of A, B, and C" is used to refer to a combination of (A), (B), (C), (A and B), (A and C) (A, B, and C). For purposes of illustration, the phrase "(A) B" means (B) or (AB), that is, A is an optional element.

설명은 "실시예에서" 또는 "실시예들에서"라는 문구들을 이용할 수 있으며, 이들 각각은 동일 또는 상이한 실시예들 중 하나 이상을 지칭할 수 있다. 더구나, 본 발명의 실시예들과 관련하여 사용되는 바와 같은 "이루어지는", "포함하는", "갖는" 등의 용어들은 동의어이다. 설명은 각각의 이미지 프레임의 "관심 객체" 및 "배경"을 참조할 수 있다. 청구항을 포함하는 본 출원의 목적을 위해, "배경"이라는 용어는 달리 명확히 지시하지 않는 한 이미지 프레임의 하나 이상의 "관심 객체"를 제외한 나머지 부분을 지칭한다.The description may use the phrases "in an embodiment" or "in embodiments ", each of which may refer to one or more of the same or different embodiments. Moreover, terms such as " comprising ", "comprising ", and" having ", as used in connection with the embodiments of the present invention, are synonymous. The description may refer to the "object of interest" and "background" of each image frame. For purposes of the present application, including the claims, the term "background" refers to the remainder of the image frame except for one or more "objects of interest", unless expressly indicated otherwise.

도 1은 본 발명의 다양한 실시예들에 따른 예시적인 이미지 처리 장치를 나타내는 블록도이다. 도 1에 도시된 바와 같이, 이미지 처리 장치(100)는 버스(140)를 통해 서로 결합된 인코딩 엔진(110), 상황 엔진(120) 및 송신기(130)를 포함할 수 있다. 도 1은 버스(140)를 통해 결합된 장치(100)의 다양한 컴포넌트들을 도시하지만, 다양한 실시예들에서 인코딩 엔진(110), 상황 엔진(120) 및 송신기(130)는 하나 이상의 점대점 접속, 또는 버스들의 계층 구조와 같은 임의의 적절한 메커니즘들을 통해 결합될 수 있다.Figure 1 is a block diagram illustrating an exemplary image processing apparatus in accordance with various embodiments of the present invention. As shown in FIG. 1, the image processing apparatus 100 may include an encoding engine 110, a context engine 120, and a transmitter 130 coupled together via a bus 140. Although FIG. 1 illustrates various components of the device 100 coupled through the bus 140, in various embodiments, the encoding engine 110, the context engine 120, and the transmitter 130 may include one or more point- Or via any suitable mechanisms such as a hierarchy of buses.

도 1은 특정 컴포넌트들을 도시하지만, 장치(100)는 발명의 이해의 편의를 위해 도시되지 않은 안테나, 카메라, 디코딩 엔진, 디스플레이 등과 같이 이미지 처리 및/또는 송신을 용이하게 하기 위한 다른 적절한 컴포넌트들을 포함할 수 있다. 또한, 도 1에 도시된 컴포넌트들은 장치(100) 내에 개별 블록들로서 도시되지만, 이러한 블록들 중 일부에 의해 수행되는 기능들은 단일 컴포넌트 내에 통합될 수 있거나, 둘 이상의 개별 컴포넌트를 이용하여 더 세분될 수 있다. 예컨대, 디코딩 엔진(도시되지 않음) 및 인코딩 엔진(110)이 단일 디코딩/인코딩 엔진으로 통합될 수 있다. 게다가, 인코딩 엔진(110), 상황 엔진(120) 및 송신기(130)의 전부 또는 일부를 포함하는 장치(100)는 소프트웨어 또는 하드웨어, 또는 이들의 조합으로 구현될 수 있다.Although FIG. 1 illustrates specific components, device 100 includes other suitable components for facilitating image processing and / or transmission, such as an antenna, camera, decoding engine, display, etc., can do. 1 are shown as separate blocks within device 100, the functions performed by some of these blocks may be incorporated within a single component, or may be further subdivided using two or more separate components have. For example, a decoding engine (not shown) and an encoding engine 110 may be integrated into a single decoding / encoding engine. In addition, the device 100 including all or a portion of the encoding engine 110, the context engine 120, and the transmitter 130 may be implemented in software or hardware, or a combination thereof.

다양한 실시예들에서, 이미지 처리 장치(100)는 데스크탑 컴퓨터, 랩탑 컴퓨터, 핸드헬드 컴퓨터, 태블릿, 셀룰러 전화, 페이저, 오디오 및/또는 비디오 플레이어(예로서, MP3 플레이어 또는 DVD 플레이어), 게이밍 장치, 비디오 카메라, 디지털 카메라, 내비게이션 장치(예로서, GPS 장치), 무선 주변 장치(예로서, 프린터, 스캐너, 헤드셋, 키보드, 마우스 등), 의료 장치(예로서, 심박수 모니터, 혈압 모니터 등), 셋톱 박스, 및/또는 다른 적절한 비교적 고정, 휴대 또는 이동 전자 장치들과 같은 유선 또는 무선 전자 장치들을 포함할 수 있다.In various embodiments, the image processing apparatus 100 may be a desktop computer, a laptop computer, a handheld computer, a tablet, a cellular telephone, a pager, an audio and / or video player (e.g., an MP3 player or a DVD player) (E. G., A heart rate monitor, a blood pressure monitor, etc.), a set-top box (e. G., A digital camera, a digital camera, a navigation device Boxes, and / or other suitable relatively fixed, portable or mobile electronic devices.

다양한 실시예들에서, 이미지 처리 장치(100)는 처리된 이미지들을 하나 이상의 유선 또는 무선 네트워크 접속들, 예를 들어 사설 네트워크, 개인 영역 네트워크(PAN), 근거리 네트워크(LAN), 가상 사설 네트워크(VPN), 도시 영역 네트워크(MAN), 광역 네트워크(WAN), 독점 네트워크, 또는 일반적으로 인터넷으로 지칭되는 공개 네트워크, 또는 이들의 조합을 통해 전송할 수 있다.In various embodiments, the image processing apparatus 100 may provide the processed images to one or more wired or wireless network connections, such as a private network, a personal area network (PAN), a local area network (LAN), a virtual private network ), An urban area network (MAN), a wide area network (WAN), a proprietary network, or an open network generally referred to as the Internet, or a combination thereof.

다양한 실시예들에서, 이미지 처리 장치(100)는, 확산 스펙트럼 변조(예를 들어, 직접 시퀀스 코드 분할 다중 액세스(DS-CDMA) 및/또는 주파수 홉핑 코드 분할 다중 액세스(FH-CDMA)), 시분할 다중화(TDM) 변조, 주파수 분할 다중화(FDM) 변조, 직교 주파수 분할 다중화(OFDM) 변조, 다중 캐리어 변조(MDM), 직교 주파수 분할 다중 액세스(OFDMA), SC-FDMA(단일 캐리어 FDMA), 및/또는 무선 링크들을 통해 통신하기 위한 다른 적절한 변조 기술들을 포함한, 다양한 변조 기술들을 이용하여, 처리된 이미지들을 무선 전송하기 위한 능력들을 가질 수 있다. 일례에서, 비디오 회의 장치(100)는 무선 개인 영역 네트워크(WPAN), 무선 근거리 네트워크(WLAN) 및/또는 무선 도시 영역 네트워크(WMAN)를 구현하기 위해 블루투스(Bluetooth), 지그비(Zigbee), 근거리장 통신(near field communication; NFC), 초광대역(UWB) 및/또는 무선 주파수 식별(RFID)과 같이 매우 낮은 전력을 필요로 하는 적절한 무선 통신 프로토콜들에 따라 동작할 수 있다.In various embodiments, the image processing apparatus 100 may be configured to perform spread spectrum modulation (e.g., direct sequence code division multiple access (DS-CDMA) and / or frequency hopping code division multiple access (FH-CDMA) (OFDM), Orthogonal Frequency Division Multiplexing (OFDM), Orthogonal Frequency Division Multiplexing (OFDM), Orthogonal Frequency Division Multiplexing (OFDMA), SC-FDMA (Single Carrier FDMA), and / Or any other suitable modulation technique for communicating over wireless links, using a variety of modulation techniques. In one example, the video conferencing device 100 may be a Bluetooth, Zigbee, short-range (WLAN), or wireless local area network (WLAN) for implementing a Wireless Personal Area Network (WPAN), a Wireless Local Area Network May operate in accordance with suitable wireless communication protocols requiring very low power such as near field communication (NFC), ultra wide band (UWB) and / or radio frequency identification (RFID).

다양한 실시예들에서, 이미지 처리 장치(100)는 비디오 회의 애플리케이션 또는 시스템의 일부일 수 있으며, 이미지 처리 장치(100)와 유사하거나 유사하지 않을 수 있는 하나 이상의 다른 이미지 처리 장치(도시되지 않음)와 비디오 회의를 용이하게 할 수 있다.In various embodiments, the image processing apparatus 100 may be part of a video conferencing application or system, and may include one or more other image processing devices (not shown), which may or may not be similar to the image processing apparatus 100, The conference can be facilitated.

다양한 실시예들에서, 인코딩 엔진(110)은 일련의 이미지 프레임들을 포함하는 비디오 신호를 수신할 수 있다. 다양한 실시예들에서, 비디오 신호는 압축되지 않은 원시(raw) 데이터 포맷의 이미지 프레임들을 포함할 수 있다. 다양한 실시예들에서, 비디오 신호는 1984년에 국제 통신 연합 통신 표준 섹터(International Telecommunication Union Telecommunication Standardization Sector)(ITU-T)에 의해 발표된 H.261, 1993년에 국제 표준화 기구(ISO)에 의해 발표된 MPEG-1 파트 2 및 1998년에 ISO에 의해 발표된 H.264/MPEG-4 AVC 등과 같은 소정의 손실 또는 무손실 인코딩/압축 스킴들로 이미 인코딩/압축되었을 수 있다. 인코딩 엔진(110)은 외부 소스로부터 비디오 신호를 수신할 수 있는 장치(100)의 통신 인터페이스(도시되지 않음)로부터 비디오 신호를 수신할 수 있다. 대안으로서, 인코딩 엔진(110)은 장치(100)에 부착되거나 그렇지 않으면 통합된 비디오 카메라로부터 버스(140)를 통해 비디오 신호를 수신할 수 있다.In various embodiments, the encoding engine 110 may receive a video signal comprising a series of image frames. In various embodiments, the video signal may comprise image frames of uncompressed raw data format. In various embodiments, the video signal is transmitted by H.261, published by the International Telecommunication Union Telecommunication Standardization Sector (ITU-T) in 1984, by the International Organization for Standardization (ISO) May have already been encoded / compressed with some lossy or lossless encoding / compression schemes such as the announced MPEG-1 Part 2 and the H.264 / MPEG-4 AVC published by ISO in 1998. [ Encoding engine 110 may receive a video signal from a communication interface (not shown) of device 100 that may receive a video signal from an external source. Alternatively, the encoding engine 110 may receive the video signal via the bus 140 from a video camera attached to or otherwise integrated with the device 100.

인코딩 엔진(110)은 이미지 프레임들을 하나씩 스트림으로서, 또는 병렬로 인코딩 및/또는 압축하도록 구성될 수 있다. 인코딩 엔진(110)은 비디오 신호가 이미 인코딩/압축된 경우에 비디오 신호를 트랜스코딩할 수 있다(예를 들어, 비디오 신호를 디코딩하고, 상이한 스킴에 기초하여 비디오 신호를 다시 인코딩할 수 있다). 인코딩 엔진(110)은 비디오 신호의 검색된 순방향, 역방향 또는 랜덤 액세스, 서브타이틀 및 디지털 저작권 관리 등과 관련된 정보와 같은 추가적인 정보를 인코딩하거나 비디오 신호에 추가할 수 있다. 인코딩 엔진(110)은 프레임간 압축, 프레임내 압축, 이산 코사인 변환(DCT), 프랙탈 압축, 매칭 추적, 이산 웨이블릿 변환(DWT) 등과 같은 임의의 공지된 비디오/이미지 압축 스킴들 또는 방법들을 이용하여 이미지 프레임들을 인코딩/압축할 수 있다.The encoding engine 110 may be configured to encode and / or compress image frames one by one as a stream or in parallel. The encoding engine 110 may transcode the video signal (e.g., decode the video signal and re-encode the video signal based on a different scheme) if the video signal is already encoded / compressed. Encoding engine 110 may encode or add to the video signal additional information, such as information related to the retrieved forward, reverse or random access, subtitle, and digital rights management, etc. of the video signal. Encoding engine 110 may use any known video / image compression schemes or methods such as interframe compression, intra-frame compression, discrete cosine transform (DCT), fractal compression, matching tracking, discrete wavelet transform Image frames can be encoded / compressed.

다양한 실시예들에서, 인코딩 엔진(110)은 하나 이상의 이미지 프레임 내의 하나 이상의 관심 객체(object of interest; OOI)와 관련된 정보를 가질 수 있다. OOI는 장치(100)의 애플리케이션들 또는 사용 시나리오들과 관련될 수 있다. 예시적인 OOI들은 비디오 회의 세션 동안의 화자의 얼굴 및/또는 어깨 영역, 텔레비전 방송 동안 경주 트랙을 통해 질주하는 자동차, 감시 카메라에 의해 캡처 및/또는 추적되는 이동 객체 등을 포함할 수 있다. 다양한 실시예들에서, 비디오 신호의 이미지 프레임 내에 포함된 OOI 영역들의 수는 프레임마다 변할 수 있다. 예를 들어, 이미지 프레임 내에 단일 OOI가 존재할 수 있고, 후속 또는 다른 이미지 프레임들 내에 다수의 OOI가 존재할 수 있다.In various embodiments, the encoding engine 110 may have information associated with one or more object of interest (OOI) in one or more image frames. The OOI may be associated with applications or usage scenarios of the device 100. Exemplary OOIs may include a face and / or shoulder area of the speaker during a video conference session, a car riding through a racing track during a television broadcast, a moving object captured and / or tracked by a surveillance camera, and the like. In various embodiments, the number of OOI regions included in an image frame of a video signal may vary from frame to frame. For example, a single OOI may exist within an image frame, and there may be multiple OOIs in subsequent or other image frames.

도 2는 본 발명의 다양한 실시예들에 따른 비디오 스트림의 예시적인 개별 이미지 프레임을 나타내는 블록도이다. 도시된 바와 같이, 이미지 프레임(200)은 OOI 영역(210), OOI 영역(212), OOI 영역(214), 및 이미지 프레임(200) 내에 음영 영역으로 표시되고 OOI 영역들(210-214)을 둘러싸는 배경(230)을 포함할 수 있다. 도 2는 3개의 OOI 영역을 갖는 이미지 프레임(200)을 도시하지만, 다양한 실시예들에서 이미지 프레임(200)은 더 많거나 적은 OOI 영역들을 포함할 수 있다. 도 2는 동일한 크기 및 형상을 갖는 다수의 OOI 영역(210-214)을 도시하지만, 다양한 OOI 영역들(210-214)의 크기, 형상 및 위치는 예시적일 뿐이며, 다양한 실시예들에서 상이할 수 있다는 것을 이해한다. 또한, 예시적인 도면은 OOI 영역들(210-214)을 둘러싸는 배경(230)을 도시하며, 다른 이미지 프레임들에서 배경(230)은 OOI 영역들(210-214)을 부분적으로만 둘러싸거나 그것들에 인접할 수 있다.2 is a block diagram illustrating exemplary individual image frames of a video stream in accordance with various embodiments of the present invention. As shown, the image frame 200 includes an OOI region 210, an OOI region 212, an OOI region 214, and a shadow region within the image frame 200, and the OOI regions 210-214 May include an enclosing background (230). Although Figure 2 shows an image frame 200 with three OOI regions, in various embodiments the image frame 200 may include more or fewer OOI regions. Although FIG. 2 shows multiple OOI regions 210-214 having the same size and shape, the size, shape, and location of the various OOI regions 210-214 are exemplary only and may be different in various embodiments . In addition, the illustrative drawing shows a background 230 surrounding OOI areas 210-214, in which background 230 partially surrounds OOI areas 210-214, Respectively.

다양한 실시예들에서, 인코딩 엔진은 상이한 양자화 파라미터들을 적용하여, 하나 이상의 OOI 영역(210-214) 및 OOI 영역들(210-214)과 함께 이미지 프레임을 구성하는 배경(230)을 인코딩/압축할 수 있다. 소정 실시예들에서, 인코딩 엔진(110)은 배경(230)을 인코딩/압축하는 데 사용되는 비트 밀도보다 높은 하나 이상의 비트 밀도를 이용하여 하나 이상의 OOI 영역(210-214)을 인코딩/압축하도록 구성될 수 있다. 예를 들어, 장치(100)를 이용하는 비디오 회의 애플리케이션에서, 화자의 얼굴 및 어깨 주위의 영역들은 각각 2개의 OOI 영역으로서 식별될 수 있다. 인코딩 엔진(110)은 다른 회의 출석자들로 하여금 화자의 얼굴 표현을 더 명확하게 볼 수 있게 해주는 높은 비트 밀도를 이용하여 화자의 얼굴 주위의 영역을 인코딩/압축하고, 중간 비트 밀도를 이용하여 화자의 어깨 주위의 영역을 인코딩/압축하고, 낮은 비트 밀도를 이용하여 이미지 프레임의 배경을 인코딩/압축할 수 있다. 따라서, 화자의 얼굴 영역(예를 들어, 하나 이상의 OOI 영역)은 각각의 이미지 프레임 내의 얼굴 아닌 영역들(예로서, 배경)보다 많은 비트를 할당받을 수 있다. 높은, 중간 또는 낮은 비트 밀도를 구성하는 것은 애플리케이션마다 다를 수 있다.In various embodiments, the encoding engine applies different quantization parameters to encode / compress the background 230 that constitutes the image frame with one or more OOI regions 210-214 and OOI regions 210-214 . In some embodiments, the encoding engine 110 may be configured to encode / compress one or more OOI regions 210-214 using one or more bit densities higher than the bit density used to encode / compress the background 230 . For example, in a video conferencing application using the device 100, the areas around the face and shoulder of the speaker may be identified as two OOI regions, respectively. The encoding engine 110 encodes / compresses the area around the face of the speaker using a high bit density that allows other meeting attendees to see the face representation of the speaker more clearly, Encoding / compressing the area around the shoulder, and encoding / compressing the background of the image frame using low bit density. Thus, the face region of the speaker (e.g., one or more OOI regions) may be allocated more bits than non-face regions (e.g., background) in each image frame. Configuring high, medium, or low bit densities may vary from application to application.

다양한 실시예들에서, 전술한 비트 밀도 차등(bit-density preferential) 인코딩 및/또는 압축에 더하여 또는 그 대신에, 인코딩 엔진(110)은 영역 기반 코딩 기술들을 이용하여 이미지 프레임(200)을 인코딩/압축할 수 있다. 예를 들어, OOI 영역들(210-214) 및 배경(230)은 상이한 인코딩/압축 모델들을 이용하여 별개로 인코딩/압축될 수 있다. 인코딩 엔진(110)은 비파라미터(non-parametric) 배경 모델에 기초하여 배경(230)을 인코딩/압축할 수 있다. 인코딩 엔진(110)은 개별 인코딩 및/또는 압축 모델에 기초하여 OOI 영역들(210-214)을 인코딩/압축 및 압축할 수 있다. 이미지 프레임(200)의 인코딩/압축된 OOI 영역들(210-214)은 인코딩/압축된 배경(230)과 별개로 송신기(130)를 통해 하나 이상의 수신자(도 1에 도시되지 않음)에게 전송될 수 있다. 하나 이상의 수신자는 배경 및 OOI 영역들을 수신되는 대로 개별적으로 압축 해제 및 디코딩하고, 영역들과 배경을 결합하여 완전한 이미지 프레임을 재구성할 수 있다.In various embodiments, the encoding engine 110 may encode / decode the image frame 200 using region-based coding techniques in addition to or in place of the bit-density preferential encoding and / Can be compressed. For example, OOI regions 210-214 and background 230 may be separately encoded / compressed using different encoding / compression models. Encoding engine 110 may encode / compress background 230 based on a non-parametric background model. Encoding engine 110 may encode / compress and compress OOI regions 210-214 based on a separate encoding and / or compression model. The encoded / compressed OOI regions 210-214 of the image frame 200 are transmitted to one or more recipients (not shown in FIG. 1) via the transmitter 130 separately from the encoded / compressed background 230 . One or more receivers can decompress and decode the background and OOI regions individually as received, and combine the regions and background to reconstruct the complete image frame.

다양한 실시예들에서, 인코딩 엔진(110)은 더 효율적인 압축을 달성하기 위해 이전 또는 후속 이미지 프레임들에 기초하여, 예를 들어 프레임간 압축 등의 이용에 의해 특정 이미지 프레임(200)을 인코딩/압축할 수 있다.In various embodiments, the encoding engine 110 may encode / compress a particular image frame 200 based on previous or subsequent image frames to achieve more efficient compression, for example, by use of inter-frame compression, can do.

비디오 회의 애플리케이션들과 같은 다양한 실시예들에서, 배경(230)은 대부분의 시간 동안 정적 또는 실질적으로 정적일 수 있으며, 프레임마다 변하지 않거나 최소로 변할 수 있다. 따라서, 송신기(130)는 각각의 이미지 프레임에서 배경을 전송하는 것이 아니라, 배경(230)을 2개 이상의 이미지 프레임마다 주기적으로 전송할 수 있다. 다른 실시예들에서, 송신기(130)는 하나 이상의 이전 이미지 프레임을 통해 배경의 (실질적) 변화가 검출될 때 동적으로 배경(230)을 전송할 수 있다. 배경 및 OOI 영역들을 개별적으로 인코딩, 압축 및 전송하는 비트 밀도 최적화 인코딩 및/또는 영역 기반 인코딩/압축 기술들을 이용함으로써, 장치(100)의 코딩 및/또는 전송 효율이 향상될 수 있다. 따라서, 장치(100)에 기초하는 비디오 회의 애플리케이션의 사용자 경험은 특히 네트워크 대역폭이 제한될 수 있는 이동 장치들을 이용하여 수행되는 비디오 회의에서 개선될 수 있다.In various embodiments, such as video conferencing applications, the background 230 may be static or substantially static for most of the time, and may be unchanged or minimized for each frame. Thus, the transmitter 130 may periodically transmit the background 230 for every two or more image frames, rather than transmitting the background in each image frame. In other embodiments, the transmitter 130 may dynamically transmit the background 230 when a (substantial) change in background is detected via one or more previous image frames. The coding and / or transmission efficiency of the device 100 may be improved by using bit-density optimized encoding and / or region-based encoding / compression techniques that individually encode, compress, and transfer background and OOI regions. Thus, the user experience of the video conferencing application based on the device 100 may be improved in video conferencing, particularly performed using mobile devices where network bandwidth may be limited.

다양한 실시예들에서, 상황 엔진(120)은 이미지 프레임(200) 내의 또는 비디오 스트림 내의 하나 이상의 OOI 영역(210-214)을 검출, 식별 및/또는 추적하고, OOI 영역들(210-214)과 관련된 정보를 인코딩 엔진(110)에 제공하도록 구성될 수 있다. 상황 엔진(120)은 객체 추적 또는 얼굴 인식을 위해 알려진 다양한 기술들에 기초하여 OOI 영역들(210-214)을 검출할 수 있다. 그러한 객체 추적 기술 중 하나는 AdaBoost 분류자들의 캐스케이드에 기초하여 이미지 프레임에 걸쳐 윈도를 철저히 스캐닝하는 것일 수 있다. 다양한 실시예들에서, 상황 엔진(120)은 OOI 정보를 제공하여, 인코딩 엔진(110)이 이미지 프레임들을 인코딩 및/또는 압축하는 것을 도울 수 있다.In various embodiments, the context engine 120 may detect, identify and / or track one or more OOI regions 210-214 within an image frame 200 or in a video stream, and may include OOI regions 210-214 and And provide the associated information to the encoding engine 110. The context engine 120 may detect the OOI regions 210-214 based on various techniques known for object tracking or face recognition. One such object tracking technique may be to thoroughly scan the window across the image frame based on the cascade of AdaBoost classifiers. In various embodiments, the context engine 120 may provide OOI information to help the encoding engine 110 to encode and / or compress image frames.

다양한 실시예들에서, 상황 엔진(120)은 하나 이상의 OOI 영역 중 적어도 일부를 포함할 수 있는 이미지 프레임 내의 관심 영역(ROI)을 식별하도록 더 구성될 수 있다. 예시적인 ROI는 도 2에 점선에 의해 둘러싸인 영역으로 도시된 ROI(220)일 수 있다. ROI(220)의 위치 및 크기는 (Rx, Ry)와 같은 좌표들에 의해 표현되는 경계 박스에 기초하여 식별될 수 있다. 다양한 실시예들에서, ROI(220)는 배경(230)의 부분들을 포함하거나 포함하지 않을 수 있다.In various embodiments, the context engine 120 may be further configured to identify a region of interest (ROI) within an image frame that may include at least a portion of one or more OOI regions. An exemplary ROI may be an ROI 220 illustrated as an area surrounded by a dotted line in FIG. The location and size of the ROI 220 may be identified based on the bounding box represented by coordinates such as (Rx, Ry). In various embodiments, ROI 220 may or may not include portions of background 230.

다양한 실시예들에서, 상황 엔진(120)은 또한 ROI 영역(220) 내의 중심 포인트(Pc)를 식별할 수 있다. 소정 실시예들에서, Pc는 ROI 내의 모든 OOI 영역들의 가중화된 중심(weighted center)으로서 정의될 수 있다. 예를 들어, Pc는 아래의 식에 기초하여 식별될 수 있다.In various embodiments, the context engine 120 may also identify a central point (P c ) in the ROI region 220. In certain embodiments, P c may be defined as the weighted center (weighted center) of all OOI region in the ROI. For example, P c can be identified based on the following equation:

Figure pat00001
Figure pat00001

여기서, Pi는 검출된 OOI 영역들 각각의 중심 위치이고, N은 검출된 OOI 영역들의 수이다. 다른 실시예들에서, Pc는 카메라에 가장 가까운 관심 객체와 같은 ROI 내의 최대 OOI 영역의 중심 포인트로서 식별될 수 있다. 예를 들어, PcWhere P i is the center position of each of the detected OOI regions and N is the number of detected OOI regions. In other embodiments, P c can be identified as the center point of the maximum OOI region within ROI, such as the closest object of interest in the camera. For example, P c

Figure pat00002
Figure pat00002

로서 정의될 수 있으며, 여기서, arg max(size(Pi))는 최대 크기를 갖는 OOI 영역의 중심 포인트이다. 또 다른 일부 실시예들에서, Pc는 하나 이상의 이전 프레임으로부터 변화들이 검출된 OOI의 중심 포인트일 수 있다. 예를 들어, Pc는 비디오 회의에서 다수의 참석자와 현재 이야기하고 있는 사람, 또는 감시 카메라에 의해 추적되는 이동 객체들 중 하나를 나타내는 OOI를 지시하는 데 사용될 수 있다. 다양한 실시예들에서, 전술한 바와 같이, Pc는 ROI(220)의 진정한 "중심"이거나 아닐 수 있다., Where arg max (size (P i )) is the center point of the OOI region with the maximum size. In some other embodiments, P c may be the center point of the OOI from which changes from one or more previous frames are detected. For example, P c may be used to indicate an OOI that represents one of the moving persons being tracked by a surveillance camera, or a person currently speaking with multiple participants in a video conference. In various embodiments, P c may or may not be the true "center" of ROI 220, as described above.

다양한 실시예들에서, 도시된 바와 같이, 상황 엔진(120)은 모든 OOI 영역들(210-214)을 포함하는 경계 박스에 의해 ROI 영역(220)을 식별할 수 있다. 다양한 실시예들에서, ROI(220)가 식별되면, 상황 엔진(120)은 ROI(220)의 크기, 위치 및 스케일링의 조정을 포함하는 ROI의 조정을 수행하여, 중심 포인트(Pc)를 이미지 프레임(200)의 중심 부분에 있게 하거나 그에 가깝게 할 수 있다. 다양한 실시예들에서, ROI(220)를 둘러싸는 영역도 ROI(220)와 함께 이동 및/또는 스케일링되어, ROI(220)와 ROI(220)를 둘러싸는 배경(230)의 부분 사이의 공간 상관성을 유지할 수 있다.In various embodiments, as shown, the context engine 120 may identify the ROI region 220 by a bounding box that includes all of the OOI regions 210-214. In various embodiments, when ROI 220 is identified, context engine 120 performs ROI adjustment, including adjustment of size, position, and scaling of ROI 220 to determine center point (P c ) It may be at or near the center of the frame 200. [ The area surrounding the ROI 220 may also be moved and / or scaled along with the ROI 220 to provide a spatial correlation between the ROI 220 and the portion of the background 230 surrounding the ROI 220. In other embodiments, Lt; / RTI >

소정 실시예들에서, 상황 엔진(120)은 이미지 프레임(200)의 치수(또는 원시 크기)까지 가능한 한 많이 ROI(220)를 스케일링 업할 수 있으며, 이는 ROI(220) 내의 이미지를 왜곡시키거나 왜곡시키지 않을 수 있다. 소정 실시예들에서, ROI(220)의 치수(또는 종횡비)는 이미지 프레임(200)의 치수(또는 종횡비)와 매칭되도록 스케일링 업되지 않을 수 있다. 따라서, 상황 엔진은 정확한 종횡비로 ROI(220) 내에 이미지를 표시하기 위해 배경 영역(230)의 일부를 포함하거나 ROI(220)의 일부를 제거하기로 선택적으로 결정할 수 있다. 유사하게, 상황 엔진(120)은 중심 포인트(Pc)를 이미지 프레임(200)의 중심 위치로 또는 그에 가깝게 이동시키기 위해 ROI(220) 및 배경(230)의 일부를 선택적으로 제거/포함할 수 있다. 결과적으로, ROI(220) 내의 OOI들 중 적어도 하나, 예를 들어 OOI(210)는 더 크게 보이고, 이미지 프레임(200)의 중심 부분에 또는 그 근처에 포커싱될 수 있다.In some embodiments, the situation engine 120 may scale up the ROI 220 as much as possible to the dimensions (or raw size) of the image frame 200, which may distort or distort the image within the ROI 220 . In some embodiments, the dimensions (or aspect ratio) of the ROI 220 may not scale up to match the dimensions (or aspect ratio) of the image frame 200. Thus, the context engine may optionally include a portion of the background region 230 or remove a portion of the ROI 220 to display the image within the ROI 220 with the correct aspect ratio. Similarly, the situation engine 120 may selectively remove / include portions of the ROI 220 and the background 230 to move the center point P c to or near the center position of the image frame 200 have. As a result, at least one of the OOIs in the ROI 220, e.g., the OOI 210, may appear larger and may be focused at or near the center portion of the image frame 200. [

다양한 실시예들에서, 상황 엔진(120)은 스케일링/수정된 ROI(220)를 포함하는 이미지 프레임을 인코딩 엔진(110)에 제공하여, 인코딩 엔진(110)이 전술한 바와 같이 이미지 프레임들을 인코딩 및/또는 압축하고 후속하여 전송하는 것을 도울 수 있다.In various embodiments, the context engine 120 may provide the encoding engine 110 with an image frame that includes the scaled / modified ROI 220 to enable the encoding engine 110 to encode and / And / or compressed and subsequently transmitted.

다양한 실시예들에서, 카메라(도시되지 않음)가 장치(100)에 부착되거나 그와 통합되어, 이미지 프레임들의 스트림을 갖는 비디오 신호를 캡처할 수 있다. 상황 엔진(120)은 카메라에 기능적으로 결합되고, 카메라를 제어하도록 구성될 수 있다. 각각의 이미지 프레임 내의 ROI(220)의 식별시, 상황 엔진(120)은 ROI(220)를 스케일링 업 또는 이동시키는 것이 아니라, 카메라를 제어하여 줌 인 또는 아웃하거나 카메라 각도를 패닝(panning)하여 ROI(220) 상에 포커싱함으로써, ROI(220) 내의 OOI 중 적어도 하나를 이미지 프레임(200)의 중심 부분에 배치할 수 있다.In various embodiments, a camera (not shown) may be attached to or integrated with apparatus 100 to capture a video signal having a stream of image frames. The situation engine 120 may be functionally coupled to the camera and configured to control the camera. Upon identification of the ROI 220 within each image frame, the context engine 120 does not scale up or move the ROI 220 but controls the camera to zoom in or out, or panning the camera angle, At least one of the OOIs in the ROI 220 may be located in the central portion of the image frame 200. [

다양한 실시예들에서, 상황 엔진(120)은 하나 이상의 상황 정보에 기초하여 OOI 중 적어도 하나를 중심에서 벗어난 위치에 의도적으로 배치하기 위해 ROI(220)의 크기 및 위치를 조정하도록 더 구성될 수 있다. 상황 정보는 장치(100)의 애플리케이션 또는 사용 시나리오에 의존할 수 있다. 예를 들어, 비디오 회의 세션에서, 상황 엔진(120)은 현재 화자의 얼굴 배향(예를 들어, 포즈)을 상황 정보로서 사용할 수 있다.In various embodiments, the context engine 120 may be further configured to adjust the size and position of the ROI 220 to deliberately place at least one of the OOIs in an off-center location based on the one or more contextual information . The context information may depend on the application of the device 100 or the usage scenario. For example, in a video conference session, the context engine 120 may use the face orientation (e.g., pose) of the current speaker as context information.

다양한 실시예들에서, 얼굴 배향 정보는 식별된 ROI에 더하여 잠재적 관심 영역을 추정하는 데 사용될 수 있으며, ROI의 추출을 안정화하는 데 사용될 수 있다. 예를 들어, 화자가 카메라를 똑바로 보고 있는 경우, 화자는 비디오의 중심 부분에 또는 그 근처에 나타날 수 있다. 그러나, 화자가 그의 우측을 보면서 이야기하는 경우, 다양한 실시예들에서 상황 엔진(120)은 선택적으로 ROI(220)의 윈도를 화자의 "우측"으로 이동 또는 패닝시키거나, ROI(220)를 스케일링 업 또는 다운하거나 달리 조정하여, 화자의 "우측"에 더 많은 배경(230)을 표시할 수 있다. 다른 예로서, 비디오 회의는 다수의 참여자를 포함할 수 있다. 상황 엔진(120)은 처음에 모든 참여자들을 관심 객체들로서 인식하고, 모든 참여자들을 포함하도록 ROI를 그릴 수 있다. 그러나, 얼굴 배향 정보는 참여자들 중 하나가 카메라를 보지 않고 그의 머리를 수그리고 있는 것을(아마도 읽고 있는 것을) 지시할 수 있다. 다양한 실시예들에서, 상황 엔진(120)은 그 참여자(또는 OOI)를 ROI로부터 임시 배제하기로 결정할 수 있으며, 따라서 현재 대화에 관여하고 있는 사람이 스크린의 중심에 더 현저하게 나타날 수 있다. 다양한 실시예들에서, 그 참여자의 얼굴 배향의 (실질적) 변화의 검출시, 상황 엔진(120)은 이미지 내에 그 참여자를 포함하도록 ROI(220)를 재조정할 수 있다.In various embodiments, facial orientation information can be used to estimate potential ROIs in addition to the identified ROIs and can be used to stabilize ROI extraction. For example, if the speaker is looking straight at the camera, the speaker may appear at or near the center of the video. However, if the speaker speaks while looking at his right side, in various embodiments context engine 120 may optionally move or pan the window of ROI 220 to the "right" side of the speaker, or scaling ROI 220 Up or down, or otherwise adjustments, to display more background 230 on the "right" side of the speaker. As another example, a video conference may include multiple participants. The context engine 120 may initially recognize all participants as objects of interest and draw an ROI to include all participants. However, face orientation information can indicate that one of the participants is reading (perhaps reading) his head and not looking at the camera. In various embodiments, the context engine 120 may decide to temporarily exclude its participant (or OOI) from the ROI, so that the person currently engaged in the conversation may appear more prominently in the center of the screen. In various embodiments, upon detection of a (substantial) change in the face orientation of the participant, the context engine 120 may re-adjust the ROI 220 to include its participants in the image.

다양한 실시예들에서, 상황 엔진(120)은 이미지 프레임(200)을 분석하고, 상황 정보를 생성하도록 구성될 수 있다. 예를 들어, 비디오 회의 애플리케이션에서, 화자의 얼굴 배향을 상황 정보로서 포함하기 위해, 상황 엔진(120)은 화자의 얼굴 배향을 분석하도록 구성될 수 있다. 상황 엔진(120)은 얼굴의 3개의 상이한 각도, 예를 들어, 피치, 요(yaw) 및 롤(roll)의 측정 및 분석에 기초하여 화자의 얼굴 배향을 분석할 수 있다.In various embodiments, the context engine 120 may be configured to analyze the image frame 200 and generate contextual information. For example, in a video conferencing application, the context engine 120 may be configured to analyze the face orientation of the speaker to include the face orientation of the speaker as contextual information. The context engine 120 may analyze the face orientation of the speaker based on measurement and analysis of three different angles of the face, e.g., pitch, yaw and roll.

다양한 실시예들에서, 상황 엔진(120)이 이미지 프레임을 분석하여 상황 정보를 생성하는 대신에, 상황 정보가 상황 엔진(120)에 제공될 수 있다. 예를 들어, 장치(100)의 송신기(130)가 비디오를 네트워크를 통해 하나 이상의 수신자에게 전송할 수 있다. 수신자 측에 설치된 하나 이상의 카메라는 전술한 것과 유사한 얼굴 배향 추적 방법들 또는 다른 공지 방법들에 기초하여 하나 이상의 수신자의 시점들(또는 시야각들)을 추적할 수 있다. 대안으로서, 얼굴 배향 추적에 더하여, 카메라들은 적절한 소프트웨어를 갖는, 워싱턴 레드몬드 마이크로소프트사로부터 입수 가능한 Xbox 360® Kinect® 카메라 키트와 같은 임의의 공지 방법을 이용하여 하나 이상의 수신자의 제스처들을 유사하게 식별 및/또는 추적할 수 있다. 따라서, 소정 실시예들에서, 상황 정보는 비디오의 하나 이상의 수신자의 시점들 및/또는 제스처들을 포함할 수 있다. 예를 들어, 수신자가 비디오의 좌측을 보고 있는 경우, 그러한 시점 정보는 네트워크를 통해 상황 엔진(120)에 피드백될 수 있고, 상황 엔진(120)은 비디오의 ROI 영역(220) 또는 부착된 카메라들 중 하나 이상을 조정하여, 비디오의 좌측을 향해 더 많은 정보를 나타낼 수 있다. 수신자들의 제스처들도 유사한 목적을 위해 상황 엔진(120)에 피드백될 수 있다. 대안으로서, 비디오의 수신자들은 상황 정보를 키보드, 마우스, 마이크를 통한 음성 입력 등과 같은 다른 입력 방법들을 통해 상황 엔진(120)에 제공할 수 있다. 따라서, 하나 이상의 수신자로부터 상황 정보를 수신함으로써, 장치(100)는 비디오 회의의 출석자들에게 가상 현실 효과를 또는 비디오의 수신자들에게 원격 제어 능력들을 제공하는 것이 가능할 수 있다.In various embodiments, instead of the context engine 120 analyzing the image frame to generate contextual information, contextual information may be provided to the contextual engine 120. [ For example, the transmitter 130 of the device 100 may transmit video over the network to one or more recipients. One or more cameras installed on the recipient side may track the viewpoints (or viewing angles) of one or more recipients based on face orientation tracking methods or other known methods similar to those described above. Alternatively, in addition to face orientation tracking, cameras may similarly identify and / or identify gestures of one or more recipients using any known method, such as the Xbox 360 Kinect < ' > camera kit available from Washington Redmond, / Or can be tracked. Thus, in some embodiments, the context information may include one or more recipient's views of the video and / or gestures. For example, if the recipient is viewing the left side of the video, such point-of-view information may be fed back to the situation engine 120 over the network, and the situation engine 120 may provide feedback to the ROI region 220 of the video, To display more information towards the left side of the video. Gestures of recipients may also be fed back to the situation engine 120 for a similar purpose. Alternatively, the recipients of the video may provide contextual information to the context engine 120 via other input methods such as keyboard, mouse, voice input via a microphone, and the like. Thus, by receiving status information from one or more recipients, the device 100 may be able to provide virtual reality effects to attendees of the video conference or remote control capabilities to the recipients of the video.

다양한 실시예들에서, 상황 엔진(120)은 상황 정보에 기초하여 조정된 ROI(220)를 포함하는 이미지 프레임을 인코딩 엔진(110)에 제공하여, 전술한 바와 같이 이미지 프레임들의 인코딩 및/또는 압축, 및 송신기(130)에 의한 후속 전송을 도울 수 있다.In various embodiments, the situation engine 120 may provide the encoding engine 110 with an image frame that includes the adjusted ROI 220 based on contextual information, so that encoding and / or compression of image frames, , And subsequent transmission by the transmitter 130. [

도 3은 본 발명의 다양한 실시예들에 따른 이미지 처리 장치의 인코딩 엔진의 동작들의 일부를 나타내는 흐름도이다. 블록 310에서, 인코딩 엔진(110)은 이미지 프레임들의 스트림 및 각각의 이미지 프레임에 삽입된 하나 이상의 OOI 영역과 관련된 정보를 수신할 수 있다. 블록 320에서, 인코딩 엔진(110)은 전술한 바와 같이 비트 밀도 차등 인코딩/압축 및/또는 영역 기반 차별 인코딩/압축을 이용하여 각각의 이미지 프레임을 인코딩/압축할 수 있다. 영역 기반 인코딩/압축에서, 송신기(130)는 배경 및 하나 이상의 OOI 영역을 개별적으로 하나 이상의 수신자에게 전송할 수 있다. 송신기(130)는 2개 이상의 이미지 프레임마다 주기적으로 또는 배경 변화의 검출시에 동적으로 배경을 전송할 수 있다. 인코딩 엔진(110)은 모든 이미지들이 처리될 때까지 위의 동작들을 반복할 수 있다. 하나 이상의 OOI 영역은 각각의 이미지 프레임에서 전송될 수 있다. 이어서, 하나 이상의 수신자는 이미지들이 수신될 때 이들을 압축 해제하고 재구성할 수 있다.3 is a flow diagram illustrating a portion of the operations of an encoding engine of an image processing apparatus in accordance with various embodiments of the present invention. At block 310, the encoding engine 110 may receive a stream of image frames and information associated with one or more OOI regions inserted into each image frame. At block 320, the encoding engine 110 may encode / compress each image frame using bit-density differential encoding / compression and / or region-based differential encoding / compression as described above. In region-based encoding / compression, the transmitter 130 may transmit the background and one or more OOI regions separately to one or more recipients. Transmitter 130 may dynamically transmit the background on a periodic basis for every two or more image frames or upon detection of a background change. The encoding engine 110 may repeat the above operations until all of the images have been processed. One or more OOI regions may be transmitted in each image frame. The one or more recipients can then decompress and reconstruct images as they are received.

도 4는 본 발명의 다양한 실시예들에 따른 이미지 처리 장치의 상황 엔진의 동작들의 일부를 나타내는 흐름도이다. 블록 410에서, 상황 엔진(120)은 이미지 프레임들의 스트림을 수신할 수 있으며, 이미지 프레임들의 스트림을 하나씩 또는 병렬로 처리하도록 구성될 수 있다. 상황 엔진(120)은 이미지 프레임들의 스트림을 인코딩 엔진(110)과 병렬로 수신할 수 있거나, 대안으로서 인코딩 엔진(110)에 앞서 이미지 프레임들을 처리할 수 있다. 블록 420에서, 상황 엔진(120)은 이미지 프레임 내의 하나 이상의 OOI 영역을 식별하고, 전술한 바와 같이 인코딩 및/또는 압축을 위해 OOI 영역 정보를 인코딩 엔진(110)에 제공할 수 있다. 블록 430에서, 상황 엔진(120)은 OOI 영역들 중 적어도 하나를 포함하는 이미지 프레임 내의 ROI를 설정할 수 있다. 상황 엔진(120)은 ROI를 스케일링하고, 이미지 프레임 내의 ROI 밖의 영역들을 줄일 수 있으며, 따라서 OOI 영역들 중 하나 이상이 현저하게 표시되고, 이미지 내에 이미지의 중심에 포커싱되어 나타날 수 있다. 상황 엔진(120)은 ROI의 크기 및 위치를 조정하여, 적어도 하나 이상의 OOI를 이미지 프레임 내의 중앙에 배치할 수 있다. 블록 440에서, 상황 엔진(120)은 이미지 프레임을 분석하여 이미지 프레임과 관련된 상황 정보를 생성할 수 있다. 블록 450에서, 상황 엔진(120)은 상황 정보에 기초하여 ROI를 조정하여, 하나 이상의 OOI 영역 중 적어도 하나를 이미지 프레임 내의 중심에서 벗어난 위치에 배치할 수 있다. 상황 엔진(120)은 상황 정보에 따라 조정되거나 조정되지 않은 OOI 및/또는 ROI 정보를 인코딩 엔진(110)으로 전송할 수 있다. 상황 엔진(120)은 모든 이미지들이 처리될 때까지 위의 단계들을 반복할 수 있다.4 is a flow diagram illustrating a portion of the operations of the context engine of an image processing apparatus according to various embodiments of the present invention. At block 410, the situation engine 120 may receive a stream of image frames and may be configured to process the streams of image frames one by one or in parallel. The context engine 120 may receive a stream of image frames in parallel with the encoding engine 110, or alternatively may process image frames prior to the encoding engine 110. At block 420, the situation engine 120 may identify one or more OOI regions within an image frame and provide OOI region information to the encoding engine 110 for encoding and / or compression as described above. At block 430, the context engine 120 may set an ROI within an image frame that includes at least one of the OOI regions. The context engine 120 scales the ROI and can reduce regions outside the ROI in the image frame, so that one or more of the OOI regions can be marked significantly and appear focused in the center of the image in the image. The context engine 120 may adjust the size and position of the ROI so that at least one OOI may be centered within the image frame. At block 440, the context engine 120 may analyze the image frame to generate contextual information associated with the image frame. At block 450, the situation engine 120 may adjust the ROI based on contextual information to place at least one of the one or more OOI regions at a location off center in the image frame. The context engine 120 may send the OOI and / or ROI information to the encoding engine 110, which may or may not be adjusted according to context information. The context engine 120 may repeat the above steps until all of the images have been processed.

도 5는 본 발명의 다양한 실시예들에 따른 이미지 처리 장치의 동작들의 일부를 나타내는 흐름도이다. 블록 510에서, 이미지 처리 장치(100)에 부착된 하나 이상의 비디오 카메라(도 1에 도시되지 않음)가 비디오 이미지들을 이차원(2D) 또는 삼차원(3D) 포맷으로 캡처할 수 있다. 블록 520에서, 상황 엔진은 각각의 이미지 프레임을 분석하여 하나 이상의 OOI 영역을 식별할 수 있다. 블록 530에서, 상황 엔진(120)은 이미지 프레임 내에 ROI를 설정하고, 이미지 프레임 내의 ROI를 스케일링하여 적어도 하나의 OOI를 이미지 프레임의 중심 부분에 배치할 수 있다. 블록 540에서, 상황 엔진은 이미지 프레임을 분석하고, 얼굴 배향 정보의 추정을 포함하는 하나 이상의 상황 정보를 생성하며, 상황 정보에 따라 ROI를 수정할 수 있다. 상황 엔진(120)은 수정된 ROI를 포함하는 이미지 프레임을 인코딩 엔진(110)으로 전송할 수 있다. 블록 550에서, 인코딩 엔진(110)은 비트 밀도 차등 또는 영역 기반 차별 인코딩 및/또는 압축에 기초하여 이미지 프레임들의 스트림을 하나씩 또는 병렬로 인코딩/압축할 수 있다. 블록 560에서, 송신기(130)는 인코딩/압축된 이미지 프레임들을 하나 이상의 수신자에게 전송할 수 있다. 상황 엔진(120), 인코딩 엔진(110) 및 송신기(130)는 모든 이미지 프레임들이 처리될 때까지 위의 단계들을 반복할 수 있다.5 is a flow diagram illustrating a portion of the operations of an image processing apparatus in accordance with various embodiments of the present invention. At block 510, one or more video cameras (not shown in FIG. 1) attached to the image processing apparatus 100 may capture video images in a two-dimensional (2D) or three-dimensional (3D) format. At block 520, the context engine may analyze each image frame to identify one or more OOI regions. At block 530, the context engine 120 may set the ROI within the image frame and scale the ROI within the image frame to place at least one OOI in the central portion of the image frame. At block 540, the context engine may analyze the image frame, generate one or more contextual information including an estimate of the face orientation information, and modify the ROI according to the contextual information. The context engine 120 may send an image frame containing the modified ROI to the encoding engine 110. At block 550, the encoding engine 110 may encode / compress the streams of image frames one by one or in parallel based on bit-density differential or region-based differential encoding and / or compression. At block 560, the transmitter 130 may transmit the encoded / compressed image frames to one or more recipients. The context engine 120, the encoding engine 110, and the transmitter 130 may repeat the above steps until all image frames have been processed.

도 6은 본 발명의 실시예들에 따른, 설명되는 방법들 및/또는 장치들의 다양한 양태들을 실시하는 데 사용하기에 적합한 예시적인 컴퓨터 시스템을 나타내는 블록도이다. 도시된 바와 같이, 컴퓨터 시스템(600)은 전원 유닛(601), 다수의 프로세서 또는 프로세서 코어(602), 시스템 메모리(604), 대용량 저장 장치(606) 및 통신 인터페이스(610)를 포함할 수 있다. 청구항들을 포함하는 본원의 목적을 위해, "프로세서" 및 "프로세서 코어"라는 용어들은 상황이 달리 명확히 요구하지 않는 한은 동의어인 것으로 간주될 수 있다.Figure 6 is a block diagram illustrating an exemplary computer system suitable for use in implementing various aspects of the methods and / or devices described in accordance with embodiments of the present invention. As shown, the computer system 600 may include a power unit 601, a plurality of processors or processor cores 602, a system memory 604, a mass storage device 606, and a communication interface 610 . For purposes of this description including the claims, the terms "processor" and "processor core" may be considered synonymous unless the context clearly dictates otherwise.

게다가, 컴퓨팅 시스템(600)은 하나 이상의 유형의 비일시적 컴퓨터 판독 가능 대용량 저장 장치(606)(예를 들어, 디스켓, 하드 드라이브, 컴팩트 디스크 판독 전용 메모리(CDROM) 등), 입출력 장치들(608)(예를 들어, 키보드, 커서 제어 등)을 포함할 수 있다. 다양한 실시예들에서, I/O 장치들(608)은 하나 이상의 카메라(618)를 포함할 수 있다. 요소들은 서로 그리고 하나 이상의 버스를 나타내는 시스템 버스(612)를 통해 이전에 열거된 요소들에 결합될 수 있다. 다수의 버스의 경우, 이들은 하나 이상의 버스 브리지(도시되지 않음)에 의해 브리징될 수 있다. 데이터가 I/O 장치들(608)로부터, 예를 들어 카메라(618)로부터 시스템 버스(612)를 통해 프로세서들(602)로 전송될 수 있다.In addition, computing system 600 may include one or more types of non-volatile computer readable mass storage devices 606 (e.g., diskettes, hard drives, compact disk read only memory (CDROM) (E. G., Keyboard, cursor control, etc.). In various embodiments, I / O devices 608 may include one or more cameras 618. The elements may be coupled to the elements previously listed via the system bus 612 to represent one or more buses and to each other. In the case of multiple buses, they may be bridged by one or more bus bridges (not shown). Data may be transferred from the I / O devices 608, e.g., from the camera 618, to the processors 602 via the system bus 612. [

시스템 메모리(604) 및 대용량 저장 장치(606)는 본 명세서에서 622로서 집합적으로 표시되는 하나 이상의 운영 체제, 펌웨어 모듈 또는 드라이버, 애플리케이션 등을 구현하는 프로그래밍 명령어들의 실행 사본 및 영구 사본을 저장하는 데 사용될 수 있다. 프로그래밍 명령어들은 프로세서들(602)에 의해 실행될 때 컴퓨팅 시스템(600)으로 하여금 전술한 바와 같은 인코딩 엔진(110), 상황 엔진(120) 및/또는 송신기(130)의 동작들을 수행하게 할 수 있다. 카메라(618)는 비디오 이미지들의 스트림을 캡처할 수 있고, 전술한 바와 같이 상황 엔진(120)의 제어를 받을 수 있다.The system memory 604 and mass storage device 606 store executable and permanent copies of programming instructions that implement one or more operating systems, firmware modules or drivers, applications, etc., collectively represented herein as 622 Can be used. The programming instructions may cause the computing system 600 to perform operations of the encoding engine 110, the context engine 120, and / or the transmitter 130 as described above when executed by the processors 602. [ The camera 618 may capture a stream of video images and may be under the control of the context engine 120 as described above.

프로그래밍 명령어들의 영구 사본은 예를 들어 컴팩트 디스크(CD)와 같은 배포 매체(도시되지 않음)를 통해 또는 (배포 서버(도시되지 않음)로부터) 통신 인터페이스(610)를 통해 공장에서 또는 현장에서 영구 저장 장치(606) 내에 배치될 수 있다. 즉, 에이전트 프로그램의 구현을 가진 하나 이상의 배포 매체가 에이전트 및 프로그램을 다양한 컴퓨팅 장치들에 배포하는 데 사용될 수 있다.A permanent copy of the programming instructions may be stored permanently at the factory or in the field, for example, via a distribution medium (not shown) such as a compact disk (CD) or via a communication interface 610 (from a distribution server May be located within the device 606. [ That is, one or more distribution media having an implementation of the agent program may be used to distribute the agent and program to the various computing devices.

이러한 요소들(601-622)의 나머지 구성은 공지되어 있으며, 따라서 더 설명되지 않는다.The remainder of the configuration of these elements 601-622 is known and is therefore not further described.

도 7은 본 발명의 실시예들에 따른, 장치로 하여금 이미지 처리 장치의 다양한 동작들을 실시하는 것을 가능하게 하도록 구성된 프로그래밍 명령어들을 갖는 제조물을 나타낸다. 도시된 바와 같이, 제조물(700)은 컴퓨터 판독 가능 비일시적 저장 매체(710)를 포함할 수 있다. 저장 매체(710)는 이미지 처리 장치를 구현하도록 구성된 프로그래밍 명령어들(720)을 포함할 수 있다.Figure 7 illustrates an article of manufacture having programming instructions configured to enable a device to perform various operations of an image processing apparatus, in accordance with embodiments of the present invention. As shown, the article 700 may include a computer readable non-volatile storage medium 710. Storage medium 710 may include programming instructions 720 configured to implement an image processing apparatus.

저장 매체(710)는 플래시 메모리, 광학 또는 자기 디스크들을 포함하지만 이에 한정되지 않는, 이 분야에 공지된 광범위한 지속성 저장 매체를 나타낸다. 프로그래밍 명령어들(720)은 특히 이미지 처리 장치에 의한 그들의 실행에 응답하여 장치로 하여금 비디오 신호의 다수의 이미지 프레임을 수신하는 동작; 및 각각의 이미지 프레임의 배경을 인코딩/압축하는 데 사용되는 비트 밀도보다 높은 하나 이상의 비트 밀도에 기초하여 각각의 이미지 프레임 내의 하나 이상의 관심 객체를 인코딩 및/또는 압축하는 동작을 포함하는 동작들을 수행하는 것을 가능하게 할 수 있으며, 배경 및 하나 이상의 관심 객체는 각각의 이미지 프레임을 형성한다.Storage medium 710 represents a wide variety of persistent storage media known in the art, including, but not limited to, flash memory, optical or magnetic disks. Programming instructions 720 may include, in response to their execution by an image processing device, an operation that causes the device to receive a plurality of image frames of a video signal; And encoding and / or compressing one or more objects of interest in each image frame based on one or more bit densities higher than the bit density used to encode / compress the background of each image frame And the background and one or more objects of interest form respective image frames.

특정 실시예들이 본 명세서에서 예시되고 설명되었지만, 이 분야의 통상의 기술자들은 본 발명의 실시예들의 범위로부터 벗어나지 않고 다양한 대안 및/또는 균등한 구현들이 도시되고 설명된 특정 실시예들을 대체할 수 있다는 것을 알 것이다. 본원은 본 명세서에서 설명된 실시예들의 임의의 개량들 또는 변형들을 포함하는 것을 의도한다. 따라서, 본 발명의 실시예들은 청구항들 및 이들의 균등물들에 의해서만 한정되는 것을 명확히 의도한다.Although specific embodiments have been illustrated and described herein, those of ordinary skill in the art will recognize that various alternatives and / or equivalent implementations may be substituted for the specific embodiments shown and described without departing from the scope of the embodiments of the invention You will know. This application is intended to cover any adaptations or variations of the embodiments described herein. Accordingly, it is manifestly intended that embodiments of the invention are limited only by the claims and their equivalents.

Claims (1)

제1항에 있어서,
이미지 처리를 위한 장치.
The method according to claim 1,
Apparatus for image processing.
KR1020157018057A 2011-04-11 2011-04-11 Object of interest based image processing KR20150086385A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020157018057A KR20150086385A (en) 2011-04-11 2011-04-11 Object of interest based image processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020157018057A KR20150086385A (en) 2011-04-11 2011-04-11 Object of interest based image processing

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020137026710A Division KR20130129471A (en) 2011-04-11 2011-04-11 Object of interest based image processing

Publications (1)

Publication Number Publication Date
KR20150086385A true KR20150086385A (en) 2015-07-27

Family

ID=53875106

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157018057A KR20150086385A (en) 2011-04-11 2011-04-11 Object of interest based image processing

Country Status (1)

Country Link
KR (1) KR20150086385A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190109662A (en) * 2018-03-08 2019-09-26 주식회사 에스원 User Concern Image Detecting Method at Security System and System thereof

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190109662A (en) * 2018-03-08 2019-09-26 주식회사 에스원 User Concern Image Detecting Method at Security System and System thereof

Similar Documents

Publication Publication Date Title
US9871995B2 (en) Object of interest based image processing
CN111295884B (en) Image processing apparatus and image processing method
US11184584B2 (en) Method for image decoding, method for image encoding, apparatus for image decoding, apparatus for image encoding
US9992502B2 (en) Apparatus and methods for video compression using multi-resolution scalable coding
EP2359596B1 (en) Video conference rate matching
US9723315B2 (en) Frame encoding selection based on frame similarities and visual quality and interests
US11856191B2 (en) Method and system for real-time content-adaptive transcoding of video content on mobile devices to save network bandwidth during video sharing
JP2009512316A (en) Multi-view video encoding and decoding apparatus and method using camera parameters, and recording medium on which a program for performing the method is recorded
CN112771859A (en) Video data coding method and device based on region of interest and storage medium
US9877056B1 (en) Compressed media with still images selected from a video stream
EP1227684A2 (en) Encoding of video signals
US20130223525A1 (en) Pixel patch collection for prediction in video coding system
WO2020053688A1 (en) Rate distortion optimization for adaptive subband coding of regional adaptive haar transform (raht)
KR20150086385A (en) Object of interest based image processing
WO2021248349A1 (en) Combining high-quality foreground with enhanced low-quality background
WO2022061194A1 (en) Method and system for real-time content-adaptive transcoding of video content on mobile devices
KR102183895B1 (en) Indexing of tiles for region of interest in virtual reality video streaming
WO2020181540A1 (en) Video processing method and device, encoding apparatus, and decoding apparatus
WO2022242880A1 (en) Encoding of a three-dimensional representation of a user and decoding of the same
JP2006304060A (en) Image communication apparatus, system, and method
JP2007282270A (en) Method and device for encoding image
JP2007300657A (en) Image-decoding method and apparatus

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application