KR100997064B1 - 멀티-모드 관심-영역 비디오 오브젝트 세그먼트화 - Google Patents

멀티-모드 관심-영역 비디오 오브젝트 세그먼트화 Download PDF

Info

Publication number
KR100997064B1
KR100997064B1 KR1020087021818A KR20087021818A KR100997064B1 KR 100997064 B1 KR100997064 B1 KR 100997064B1 KR 1020087021818 A KR1020087021818 A KR 1020087021818A KR 20087021818 A KR20087021818 A KR 20087021818A KR 100997064 B1 KR100997064 B1 KR 100997064B1
Authority
KR
South Korea
Prior art keywords
roi
video frame
video
segmentation
segmentation mode
Prior art date
Application number
KR1020087021818A
Other languages
English (en)
Other versions
KR20080100242A (ko
Inventor
할레드 헬미 엘-말레
하오홍 왕
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20080100242A publication Critical patent/KR20080100242A/ko
Application granted granted Critical
Publication of KR100997064B1 publication Critical patent/KR100997064B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 비디오 시퀀스로부터 관심-영역 (ROI) 비디오 오브젝트의 자동적인 세그먼트화를 위한 기술에 관한 것이다. ROI 오브젝트 세그먼트화는, 뷰어에게 관심있을 수도 있는 비디오 시퀀스의 선택된 ROI 또는 "전경" 오브젝트들이 비디오 시퀀스의 비-ROI 또는 "배경" 영역으로부터 추출될 수 있게 한다. ROI 오브젝트의 예는 사람의 안면 또는 사람 몸의 머리 및 어깨 영역이다. 개시된 기술들은, ROI 피처 검출, 영역 세그먼트화, 및 배경 제거를 결합시키는 하이브리드 기술을 포함한다. 이러한 방식으로, 개시된 기술들은 정확한 전경 오브젝트 생성 및 비디오 시퀀스로부터의 전경 오브젝트의 낮은-복잡도 추출을 제공할 수도 있다. ROI 오브젝트 세그먼트화 시스템은 여기에 설명된 기술들을 구현할 수도 있다. 또한, ROI 오브젝트 세그먼트화는, 비디오 전화 애플리케이션 및 비디오 감시 애플리케이션과 같은, 비디오 시퀀스들을 이용하는 광범위한 멀티미디어 애플리케이션에 유용할 수도 있다.
ROI 오브젝트, ROI 오브젝트 세그먼트화, 인터-모드, 인트라-모드

Description

멀티-모드 관심-영역 비디오 오브젝트 세그먼트화{MULTI-MODE REGION-OF-INTEREST VIDEO OBJECT SEGMENTATION}
기술분야
본 발명은 비디오 오브젝트 세그먼트화에 관한 것으로, 더 상세하게는, 멀티미디어 애플리케이션을 위한 비디오 시퀀스들로부터의 관심-영역 (ROI) 비디오 오브젝트들의 자동적인 세그먼트화를 위한 기술에 관한 것이다.
배경
자동적인 관심-영역 (ROI) 비디오 오브젝트 세그먼트화는, 비디오 시퀀스들을 이용하는 광범위한 멀티미디어 애플리케이션에 유용할 수도 있다. ROI 오브젝트는 비디오 프레임내에서 "전경 (foreground)" 오브젝트로서 지칭될 수도 있고, 비-ROI 영역은 비디오 프레임내에서 "배경" 영역으로서 지칭될 수도 있다. ROI 오브젝트 세그먼트화는, 뷰어에게 관심있을 수도 있는 비디오 시퀀스의 선택된 전경 오브젝트들이 비디오 시퀀스의 배경으로부터 추출될 수 있게 한다. 그 후, 멀티미디어 애플리케이션이 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트를 우선적으로 이용할 수도 있다. ROI 오브젝트의 통상적인 예는 사람의 안면 (face) 또는 사람 몸의 머리 및 어깨 영역이다.
예를 들어, 비디오 감시 애플리케이션에서, 캡쳐된 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트는 안면 데이터베이스 시스템으로 입력될 수 있다. 그 안면 데이터베이스 시스템은 세그먼트화된 ROI 오브젝트, 예를 들어, 사람의 안면을 사용하여, 데이터베이스내에 저장된 타겟 안면 오브젝트들과 정확하게 매칭시킬 수도 있다. 법 집행 기관들은 ROI 오브젝트 세그먼트화의 이러한 애플리케이션을 이용하여 감시 비디오 시퀀스들로부터 용의자를 식별할 수도 있다.
또 다른 예로서, 비디오 전화 (VT) 애플리케이션에서, 캡쳐된 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트는 비디오 시퀀스 인코더로 입력될 수 있다. 비디오 시퀀스 인코더는 더 많은 리소스들을 세그먼트화된 ROI 오브젝트에 할당하여, 수신자로의 송신을 위해 더 높은 품질로 그 ROI 오브젝트를 코딩할 수도 있다. VT 애플리케이션은, 사용자들이 비디오 및 오디오 정보를 공유하여 화상회의와 같은 애플리케이션을 지원하도록 허용한다. VT 시스템에서, 사용자는 비디오 정보를 전송 및 수신할 수도 있거나, 단지 비디오 정보를 수신만 할 수도 있거나, 단지 비디오 정보를 전송만 할 수도 있다. 일반적으로, 수신자는 전송자로부터 송신된 형태로 수신 비디오 정보를 뷰잉 (view) 한다. 세그먼트화된 ROI 오브젝트의 우선적인 인코딩으로, 수신자는 비디오 시퀀스의 비-ROI 영역보다 더 선명하게 ROI 오브젝트를 뷰잉할 수 있다.
다른 예들은, 사람이 생방송 또는 미리 레코딩된 뉴스 또는 엔터테인먼트 브로드캐스트와 같은 정보 비디오를 제공하는 비디오 브로드캐스팅 애플리케이션을 포함한다. 그러한 애플리케이션에서, 뉴스 리포터 또는 토크쇼 호스트와 같은 사람 발표자의 안면에 대응하는 ROI 오브젝트를 우선적으로 인코딩하는 것이 바람직할 수도 있다.
종래에, 자동적인 ROI 오브젝트 세그먼트화는, 모션 분석, 모션 세그먼트화 및 영역 세그먼트화에 포커싱 (focuse) 한다. 일 경우에서, 통계적 모델-기반 오브젝트 세그먼트화 알고리즘은 블롭-기반 (blob-based) 통계적 영역 모델 및 형상 모델로 ROI 오브젝트를 발췌한다. 따라서, ROI 오브젝트 세그먼트화 문제는 모델 검출 및 추적 문제로 변환될 수도 있다. 또 다른 경우에서, 스테레오 카메라 셋업으로부터의 2개의 뷰들 사이의 불일치 추정에 기초하여, 전경 오브젝트가 비디오 프레임으로부터 추출될 수도 있다. 영역-기반 및 피처-기반 (feature-based) 세그먼트화 접근법 양자를 포함하는 ROI 오브젝트 세그먼트화 알고리즘을 또 다른 경우가 제안한다. 그 알고리즘은, 모션, 컬러, 및 텍스처 피처에 관해 동종인 오브젝트 영역들을 나타내기 위해 영역 디스크립터 (region descriptor) 를 사용하고, 그 영역들을 비디오 시퀀스에 걸쳐 추적한다.
요약
본 발명은, 비디오 시퀀스로부터의 관심-영역 (ROI) 비디오 오브젝트의 자동적인 세그먼트화를 위한 기술에 관한 것이다. ROI 오브젝트 세그먼트화는 비디오 시퀀스의 선택된 ROI 또는 "전경" 오브젝트들이 비디오 시퀀스의 비-ROI 또는 "배경" 영역으로부터 추출될 수 있게 한다. ROI 오브젝트의 예는 사람의 안면 또는 사람 몸의 머리 및 어깨 영역이다. 개시된 기술들은, ROI 피처 검출, 영역 세그먼트화, 및 배경 제거를 결합시키는 하이브리드 기술을 포함한다. 이러한 방식으로, 개시된 기술들은, 정확한 전경 오브젝트 생성 및 비디오 시퀀스로부터의 그 전경 오브젝트의 낮은-복잡도 추출을 제공할 수도 있다.
또한, 개시된 기술들은, 대칭적인 위치 및 형상 특징과 같은 안면 피처들의 고유의 특성들에 기초하여 비디오 시퀀스의 비디오 프레임내에서 검출된 안면 피처들의 확인을 위한 기술을 포함한다. 또한, 개시된 기술들은, 비디오 시퀀스의 비디오 프레임내의 다중의 개별 안면들에 대한 검출된 안면 피처들의 분리를 위한 기술을 포함한다. 여기에 설명된 바와 같이, 멀티-안면 분리 기술은, 지수식으로부터 다항식으로 계산 복잡도를 감소시키는 최대 매칭 그래프 이론 문제로 매핑될 수도 있다. 이러한 방식으로, 그 기술들은 비디오 시퀀스의 프레임내의 각각의 안면에 대한 정확한 피처 검출을 제공한다.
예를 들어, ROI 오브젝트 세그먼트화 시스템은 여기에 설명된 기술들을 구현할 수도 있다. ROI 오브젝트 세그먼트화 시스템은 인트라-모드 (intra-mode) 세그먼트화 및 인터-모드 (inter-mode) 세그먼트화를 지원한다. 인트라-모드 세그먼트화는, ROI 오브젝트 모션 정보를 사용하지 않고 비디오 시퀀스의 다른 프레임들과는 독립적으로 비디오 시퀀스의 프레임을 프로세싱하는 높은-복잡도 세그먼트화 모드이다. 인터-모드 세그먼트화는, 비디오 시퀀스의 현재의 프레임과 이전 또는 후속 프레임 사이의 모션을 나타내는 ROI 오브젝트에 대한 모션 정보에 기초하여 비디오 시퀀스의 프레임을 프로세싱하는 낮은-복잡도 세그먼트화 모드이다. ROI 오브젝트 세그먼트화 시스템은 멀티-모드 세그먼트화를 지원할 수도 있다. 특히, ROI 오브젝트 세그먼트화 시스템은, 높은-복잡도 세그먼트화 또는 낮은-복잡도 세그먼트화에 대한 필요성을 나타내는 하나 이상의 세그먼트화 모드 결정 인자들에 기초하여, 수신 프레임에 대해 인트라-모드 세그먼트화 또는 인터- 모드 세그먼트화를 수행할지의 여부를 결정할 수도 있다.
개시된 기술들은, ROI 오브젝트 형상내에 위치된 비디오 프레임의 정의된 영역들을 전체 프레임내의 후보 영역들의 세트로부터 자동적으로 선택함으로써, 인트라-모드 세그먼트화 동안의 전경 오브젝트의 생성을 위한 기술을 더 포함할 수도 있다. 또한, 개시된 기술들은, 배경 모델링 및 감산에 기초하여 인터-모드 세그먼트화 동안 전경 오브젝트내에서 이동 영역들을 검출하기 위한 기술을 포함한다. 이동 전경 영역을 성공적으로 검출하는 것은, 인터-모드 세그먼트화 동안 ROI 피처 검출의 수행 속도를 개선시킬 수도 있다.
일 실시형태에서, 본 발명은, 비디오 시퀀스의 비디오 프레임을 수신하는 단계, 및 하나 이상의 세그먼트화 모드 결정 인자들을 비디오 프레임에 적용하는 단계를 포함하는 방법을 제공한다. 또한, 그 방법은, 그 하나 이상의 세그먼트화 모드 결정 인자들이 높은-복잡도 세그먼트화 모드를 선택할 경우, 비디오 프레임에 대한 모션 정보를 참조하지 않고 그 비디오 프레임으로부터의 ROI 오브젝트를 세그먼트화하는 단계, 및 그 하나 이상의 세그먼트화 모드 결정 인자들이 낮은-복잡도 세그먼트화 모드를 선택할 경우, 비디오 시퀀스의 비디오 프레임 및 다른 비디오 프레임에 대한 모션 정보에 기초하여 그 비디오 프레임으로부터의 ROI 오브젝트를 세그먼트화하는 단계를 포함한다.
또 다른 실시형태에서, 본 발명은 프로그래밍가능한 프로세서로 하여금, 비디오 시퀀스의 비디오 프레임을 수신하게 하는 명령들 및 하나 이상의 세그먼트화 모드 결정 인자들을 비디오 프레임에 적용하게 하는 명령들을 포함하는 컴퓨터-판 독가능 매체를 제공한다. 또한, 그 명령들은 프로그래밍가능한 프로세서로 하여금, 그 하나 이상의 세그먼트화 모드 결정 인자들이 높은-복잡도 세그먼트화 모드를 선택할 경우, 비디오 프레임에 대한 모션 정보를 참조하지 않고 그 비디오 프레임으로부터의 ROI 오브젝트를 세그먼트화하게 하며, 그 하나 이상의 세그먼트화 모드 결정 인자들이 낮은-복잡도 세그먼트화 모드를 선택할 경우, 비디오 시퀀스의 비디오 프레임 및 다른 비디오 프레임에 대한 모션 정보에 기초하여 그 비디오 프레임으로부터의 ROI 오브젝트를 세그먼트화하게 한다.
또 다른 실시형태에서, 비디오 인코딩 디바이스는, 높은-복잡도 세그먼트화 모드 또는 낮은-복잡도 세그먼트화 모드를 선택하기 위해 비디오 시퀀스의 비디오 프레임에 하나 이상의 세그먼트화 모드 결정 인자들을 적용하고, 그 높은-복잡도 세그먼트화 모드가 선택된 경우, 비디오 프레임에 대한 모션 정보를 참조하지 않고 그 비디오 프레임으로부터의 관심 영역 (ROI) 오브젝트를 세그먼트화하며, 그 낮은-복잡도 세그먼트화 모드가 선택된 경우, 비디오 시퀀스의 비디오 프레임 및 다른 비디오 프레임에 대한 모션 정보에 기초하여 그 비디오 프레임으로부터의 ROI 오브젝트를 세그먼트화하도록 프로그래밍된 프로세서를 포함한다.
여기에 설명된 기술들은, 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현되면, 기술들은, 프로그래밍가능한 프로세서에 의해 실행될 때 여기에 설명된 방법들 중 하나 이상의 방법을 수행하는 명령들을 포함한 프로그램 코드를 포함하는 컴퓨터 판독가능 매체에 의해 부분적으로 실현될 수도 있다.
하나 이상의 실시형태들의 세부사항은 첨부한 도면 및 아래의 설명에서 개시된다. 다른 특성들, 목적들, 및 이점들은 설명 및 도면 및 청구항으로부터 명백할 것이다.
도면의 간단한 설명
도 1은, 비디오 시퀀스로부터의 ROI 비디오 오브젝트의 자동적인 세그먼트화를 위한 기술을 구현하는 관심-영역 (ROI) 오브젝트 세그먼트화 시스템을 도시한 블록도이다.
도 2a 및 도 2b는 비디오 시퀀스의 비디오 프레임내의 ROI 오브젝트 및 비-ROI 영역의 정의를 도시한 다이어그램이다.
도 3은 비디오 시퀀스의 ROI 오브젝트내에 제공된 오브젝트에 대한 오브젝트 이동/회전 및 형상 변형에서의 변화들을 도시한다.
도 4는 비디오 시퀀스의 ROI 오브젝트내에서 사람에 대한 안면 표정에서의 변화들을 도시한다.
도 5a는 도 1로부터의 ROI 오브젝트 세그먼트화 시스템의 예시적인 동작을 도시한 흐름도이다.
도 5b는 도 5a로부터의 세그먼트화 모드 결정을 더 상세하게 도시한 흐름도이다.
도 6은, 비디오 소스로부터 수신된 비디오 시퀀스의 프레임에 대해 인트라-모드 세그먼트화를 수행할 경우의 ROI 오브젝트 세그먼트화 시스템을 도시한 블록도이다.
도 7 내지 도 13은, 인트라-모드 세그먼트화 동안 ROI 오브젝트 세그먼트화 시스템에 의해 구현된 기술들의 예시적인 결과들을 도시한 스크린 샷이다.
도 14는, 인트라-모드 세그먼트화를 수행하는 ROI 오브젝트 세그먼트화 시스템의 동작을 도시한 흐름도이다.
도 15는, 비디오 소스로부터 수신된 비디오 시퀀스의 프레임에 대해 인터-모드 세그먼트화를 수행할 경우의 ROI 오브젝트 세그먼트화 시스템을 도시한 블록도이다.
도 16 및 도 17은, 인터-모드 세그먼트화 동안 ROI 오브젝트 세그먼트화 시스템에 의해 구현된 기술들의 예시적인 결과들을 도시한 스크린 샷이다.
도 18은 인터-모드 세그먼트화를 수행하는 ROI 오브젝트 세그먼트화 시스템의 동작을 도시한 흐름도이다.
상세한 설명
도 1은, 비디오 시퀀스로부터 ROI 비디오 오브젝트의 자동적인 세그먼트화를 위한 기술들을 구현한 관심-영역 (ROI) 오브젝트 세그먼트화 시스템 (14) 을 도시한 블록도이다. ROI 오브젝트 세그먼트화는, 비디오 전화 (VT) 애플리케이션 및 비디오 감시 애플리케이션과 같은, 비디오 시퀀스들을 이용하는 광범위한 멀티미디어 애플리케이션에 유용할 수도 있다.
예를 들어, 비디오 감시 애플리케이션에서, 캡쳐된 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트는 안면 데이터베이스 시스템에 입력될 수 있다. 그 안면 데이터베이스 시스템은 세그먼트화된 ROI 오브젝트, 예를 들어, 사람의 안면 을 사용하여, 그 데이터베이스내에 저장된 타겟 안면 오브젝트들과 정확하게 매칭시킬 수도 있다.
또 다른 예로서, VT 애플리케이션에서, 캡쳐된 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트는 비디오 시퀀스 인코더로 입력될 수 있다. 그 비디오 시퀀스 인코더는 세그먼트화된 ROI 오브젝트에 더 많은 리소스들을 할당하여, 수신자로의 송신을 위해 더 높은 품질로 ROI 오브젝트를 코딩할 수도 있다.
다른 예들은, 사람이 생방송 또는 미리 레코딩된 뉴스 또는 엔터테인먼트 브로드캐스트와 같은 정보 비디오를 제공하는 비디오 브로드캐스팅 애플리케이션을 포함한다. 그러한 애플리케이션에서, 뉴스 리포터 또는 토크쇼 호스트와 같은 사람 발표자의 안면에 대응하는 ROI 오브젝트를 우선적으로 인코딩하는 것이 바람직할 수도 있다.
도 1에 도시된 바와 같이, 시스템 (14) 은 비디오 소스 (12) 로부터 비디오 시퀀스를 수신한다. 비디오 소스 (12) 는, 비디오 시퀀스를 획득하는 카메라와 같은 비디오 캡쳐 디바이스, 또는 미리-레코딩된 비디오 시퀀스를 저장하는 비디오 아카이브 (archive) 일 수도 있다. 시스템 (14) 은 수신된 비디오 시퀀스로부터 ROI 오브젝트를 자동적으로 세그먼트화한다. ROI 오브젝트 세그먼트화 시스템 (14) 은, ROI 오브젝트 세그먼트화 프로세스 동안, 비디오 소스 (12) 로부터 획득된 비디오 시퀀스의 비디오 프레임들을 비디오 메모리 (16) 에 저장한다. 비디오 시퀀스의 각각의 프레임이 프로세싱된 이후, 시스템 (14) 은 세그먼트화된 비디오 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다.
예를 들어, ROI 오브젝트는 사람의 안면 또는 사람 몸의 머리 및 어깨 영역을 포함할 수도 있다. ROI 오브젝트는 비디오 프레임내에서 "전경" 오브젝트로서 지칭될 수도 있고, 비-ROI 영역은 비디오 프레임내에서 "배경" 영역으로서 지칭될 수도 있다. ROI 오브젝트 세그먼트화 시스템 (14) 은, 멀티미디어 애플리케이션 (18) 의 사용자에게 관심있을 수도 있는 비디오 시퀀스의 프레임들의 하나 이상의 선택된 전경 오브젝트들을 비디오 시퀀스의 배경 영역들로부터 추출한다. 멀티미디어 애플리케이션 (18) 은 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트를 우선적으로 이용할 수도 있다. 일 실시형태에서, 멀티미디어 애플리케이션 (18) 은, 안면 데이터베이스 시스템을 포함하는 비디오 감시 애플리케이션을 포함할 수도 있다. 또 다른 실시형태에서, 멀티미디어 애플리케이션 (18) 은, ROI-인에이블된 비디오 인코더-디코더 (CODEC) 을 포함하는 비디오 전화 (VT) 애플리케이션을 포함할 수도 있다.
멀티미디어 애플리케이션 (18) 이 비디오 감시 애플리케이션을 포함하는 실시형태에서, 캡쳐된 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트는 안면 데이터베이스 시스템으로 입력될 수 있다. 이러한 경우, 비디오 소스 (12) 는, 감시 카메라로부터의 미리-레코딩된 비디오 시퀀스를 저장하는 비디오 아카이브일 수도 있다. 안면 데이터베이스 시스템은 세그먼트화된 ROI 오브젝트, 예를 들어, 사람의 안면을 사용하여, 데이터베이스내에 저장된 타겟 안면 오브젝트들과 정확하게 매칭시킬 수도 있다. 법 집행 기관들은, 감시 비디오 시퀀스들로부터 용의자들을 식별하기 위해, 안면 데이터베이스 시스템을 갖는 ROI 오브젝트 세그먼트화 시스템 (14) 을 이용할 수도 있다.
멀티미디어 애플리케이션 (18) 이 VT 애플리케이션을 포함하는 일 실시형태에서, 캡쳐된 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트는 ROI-인에이블된 비디오 인코더로 입력될 수 있다. VT 애플리케이션은, 비디오 화상회의와 같은 애플리케이션을 지원하기 위해 사용자들이 비디오 및 오디오 정보를 공유하도록 허용한다. VT 시스템에서, 사용자는 비디오 정보를 전송 및 수신할 수도 있거나, 단지 비디오 정보를 수신만 할 수도 있거나, 단지 비디오 정보를 전송만 할 수도 있다. 이러한 경우, 비디오 소스 (12) 는 비디오 시퀀스를 획득하는 카메라와 같은 비디오 캡쳐 디바이스일 수도 있다. 예를 들어, 비디오 소스 (12) 는, 또 다른 통신 디바이스와의 비디오 전화에 참가할 수 있는 통신 디바이스내에 포함된 비디오 카메라를 포함할 수도 있다.
ROI-인에이블된 비디오 인코더는, 유선 또는 무선 통신을 지원하기 위한 적절한 송신, 수신, 모뎀 및 프로세싱 전자기기를 추가적으로 포함하는 통신 디바이스내에 상주할 수도 있다. 예를 들어, ROI-인에이블된 비디오 인코더는, 다른 단말기들과의 통신을 위해 탑재된 무선 이동 단말기 또는 유선 단말기내에 상주할 수도 있다. 무선 이동 단말기들의 예는, 이동 무선 전화기, 이동 개인 휴대 정보 단말기 (PDA), 이동 컴퓨터, 또는 무선 통신 능력 및 비디오 인코딩 및/또는 디코딩 능력을 갖춘 다른 이동 디바이스들을 포함한다. 예를 들어, ROI-인에이블된 비디오 인코더는, VT 애플리케이션에서 사용되는 이른바 카메라 전화기 또는 비디오 전화기내에 상주할 수도 있다. 유선 단말기들의 예는, 데스크탑 컴퓨터, 비디오 전화기, 네트워크 장비, 셋-탑 박스, 인터랙티브 (interactive) 텔레비전 등을 포함한다.
ROI-인에이블된 비디오 인코더는, ROI 오브젝트 세그먼트화 시스템 (14) 으로부터 수신된 출력 이미지에 포함되는 세그먼트화된 ROI 오브젝트를 우선적으로 인코딩할 수도 있다. 예를 들어, ROI-인에이블된 비디오 인코더는, 비디오 프레임의 ROI 오브젝트에 부가적인 코딩 비트들을 할당하고, 비디오 프레임의 비-ROI 영역에 감소된 수의 코딩 비트들을 할당할 수도 있다. 특히, 이동 애플리케이션에서, 비디오 프레임을 인코딩하는데 이용가능한 인코딩 비트들의 양은 무선 채널 조건에 따라 낮아지고 변할 수 있다. 따라서, ROI 오브젝트들로의 코딩 비트들의 우선적인 할당은, 적용가능한 비트 레이트 요건들에 효율적으로 부합하면서 ROI 오브젝트의 시각적인 품질을 개선시키는데 도움이 될 수 있다. 따라서, ROI 오브젝트의 우선적인 인코딩으로, 수신자는 비디오 시퀀스의 비-ROI 영역들보다 더 선명하게 ROI 오브젝트를 뷰잉할 수 있다. 그 후, 인코딩된 비디오 프레임은 유선 또는 무선 통신 채널을 통해 또 다른 통신 디바이스로 송신될 수도 있다.
상술된 바와 같이, ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 시퀀스로부터의 ROI 비디오 오브젝트의 자동적인 세그먼트화를 위한 기술들을 구현할 수도 있다. 개시된 기술들은, 비디오 시퀀스의 비디오 프레임내에서 ROI 피처들 (즉, 안면 마스크 및 안면 피처) 을 검출하는 것, 다중의 후보 영역들로 비디오 프레임을 세그먼트화하는 것, 및 비디오 시퀀스의 그 비디오 프레임 및 이전의 비디 오 프레임에 기초하여 배경 (비-ROI) 감산을 수행하는 것을 결합시키는 하이브리드 기술을 포함한다. 이러한 방식으로, 개시된 기술들은, 정확한 전경 (ROI) 오브젝트 생성 및 비디오 시퀀스의 프레임들로부터의 전경 오브젝트의 낮은-복잡도 추출을 제공할 수도 있다.
또한, 개시된 기술들은, 대칭적인 위치 및 형상 특징과 같은 안면 피처들의 고유 특성에 기초하여, 비디오 시퀀스의 비디오 프레임내에서 검출된 안면 피처들의 확인을 위한 기술을 포함한다. 또한, 개시된 기술들은, 비디오 시퀀스의 비디오 프레임내의 다중의 개별 안면들에 대한 검출된 안면 피처들의 분리를 위한 기술을 포함한다. 여기에 설명된 바와 같이, 멀티-안면 분리 기술은, 지수식으로부터 다항식으로 계산 복잡도를 감소시키는 최대 매칭 방식 문제로 매핑될 수도 있다. 이러한 방식으로, 그 기술들은 비디오 시퀀스의 프레임내의 각각의 안면에 대한 정확한 피처 검출에 감소된 프로세싱 요건을 제공한다.
ROI 오브젝트 세그먼트화 시스템 (14) 은 세그먼트화의 다중의, 예를 들어, 2개의 모드들, 즉, 인트라-모드 및 인터-모드를 지원한다. 인트라-모드 세그먼트화는 비디오 시퀀스의 다른 프레임들과는 독립적으로 비디오 시퀀스의 프레임을 프로세싱한다. 이러한 경우, ROI 오브젝트 모션 정보는 사용되지 않는다. 인트라-모드 세그먼트화는 제 1의 높은-복잡도 세그먼트화 모드이다. 인터-모드 세그먼트화는, 이전의 또는 후속 프레임 정보에 기초하여 비디오 시퀀스의 프레임을 프로세싱하는 제 2의 낮은-복잡도 세그먼트화 모드이며, 일반적으로 더 낮은 복잡도 세그먼트화 모드이다. 인터-모드 세그먼트화는, 비디오 시퀀스의 현재 의 프레임과 하나 이상의 이전의 또는 후속 프레임 사이의, ROI 오브젝트에 대한 모션 정보를 이용한다. 따라서, 인터-모드 세그먼트화는 비교적 낮은-복잡도 세그먼트화 모드이다.
ROI 오브젝트 세그먼트화 시스템 (14) 은, 하나 이상의 세그먼트화 모드 결정 인자들에 기초하여 수신 프레임에 대해 인트라-모드 세그먼트화 또는 인터-모드 세그먼트화를 수행할지의 여부를 판정할 수도 있다. 비디오 프레임에 대한 모션 정보를 참조하지 않는 비디오 프레임으로부터의 ROI 오브젝트의 세그먼트화, 즉, 인트라-모드 세그먼트화는, 높은-복잡도 세그먼트화 모드가 선택될 경우에 적용된다. 비디오 시퀀스의 비디오 프레임 및 다른 비디오 프레임에 대한 모션 정보에 기초한 비디오 프레임으로부터의 ROI 오브젝트의 세그먼트화는, 낮은-복잡도 세그먼트화 모드가 선택될 경우 적용된다.
개시된 기술들은, ROI 오브젝트 형상내에 위치된 비디오 프레임의 정의된 영역들을 전체 프레임내의 후보 영역들의 세트로부터 자동적으로 선택함으로써, 인트라-모드 세그먼트화 동안의 전경 오브젝트의 생성을 위한 기술을 더 포함한다. 또한, 개시된 기술들은, 배경 모델링 및 감산에 기초하여, 인터-모드 세그먼트화 동안 전경 오브젝트내에서 이동 영역들을 검출하기 위한 기술을 포함한다. 이동 전경 영역을 성공적으로 검출하는 것은, 인터-모드 세그먼트화 동안 ROI 피처 검출의 수행 속도를 개선시킬 수도 있다. 배경 모델링 및 감산 기술은 잡음 및 이동 배경 영역들에 대해 강인하다. 또한, 그 기술은, 계산 집약적인 모션 추정 동작을 이용하는 이동 오브젝트 세그먼트화 접근법보다 실질적으로 더 효율적이 다.
인트라-모드 세그먼트화의 경우에서, 먼저, ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 프레임내에서 안면 마스크를 검출하고, 그 후, 안면 마스크내에서 사람의 눈 및 입과 같은 안면 피처들을 검출한다. 그 후, 시스템 (14) 은 사람의 안면 피처들의 기하학적 특성 및 형상 특징에 기초하여 피처 확인을 수행하여, 잘못된 안면 피처 검출을 제거한다. 그 후, 시스템 (14) 은 프레임이 2개 이상의 사람의 안면을 포함하는지 여부를 판정하고, 검출된 안면 피처들을 개별 안면들에 대한 그룹들로 분리한다. 안면 피처들의 기하학적 위치 및 ROI 기하학적 모델에 기초하여, ROI 오브젝트 형상이 근사화된다. 예를 들어, ROI 기하학적 모델은 사람의 머리 및 어깨의 기하학적 모델을 포함할 수도 있다.
시스템 (14) 은 비디오 프레임에 대해 영역 확대를 수행하여, 후보 영역들의 세트를 생성한다. 그 후, 시스템 (14) 은, 전체 프레임에 대한 후보 영역들의 세트로부터 결과적인 ROI 오브젝트 형상내에 위치된 영역들을 선택함으로써 전경 오브젝트를 생성한다. 그 후, 시스템 (14) 은 2개 이상의 전경 오브젝트가 존재하는지 여부를 판정하고 다중의 전경 오브젝트들을 함께 병합하여, 출력 이미지를 위한 결합된 전경 오브젝트를 형성한다. 적용가능하다면, 다중의 전경 오브젝트들을 병합할 시에, 시스템 (14) 은, 예를 들어, 감시 애플리케이션에서의 개인의 아이덴티티 검출 또는 VT 애플리케이션에서의 우선적인 인코딩을 위해, 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다.
인터-모드 세그먼트화의 경우에서, ROI 오브젝트 세그먼트화 시스템 (14) 은 배경 모델링 및 감산 기술을 사용하여, 비디오 시퀀스의 연속하는 비디오 프레임들의 시간적인 상관을 이용한다. 이러한 방식으로, 여기에 설명된 기술은 향상된 효율성을 제공한다. 시스템 (14) 은, 현재의 프레임과 이전의 프레임 사이에서의 ROI 오브젝트내의 이동 픽셀들을 전경 픽셀들로서 분류한다. 그 후, 시스템 (14) 은 그 전경 픽셀들에 기초하여 이동 전경 영역을 생성한다. 그 후, 시스템 (14) 은 이동 전경 영역내의 ROI 피처들, 및 이전의 프레임내의 안면 마스크 및 안면 피처 위치를 검출할 수도 있다. 이러한 방식으로, 시스템 (14) 은, 비디오 시퀀스의 각각의 프레임에 대한 영역 세그먼트화를 수행하는 계산 복잡도를 감소시킨다. 그 후, 시스템 (14) 은 출력 이미지를 형성하기 위해 이전의 프레임의 전경 오브젝트와 이동 전경 영역을 병합하고, 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다.
ROI 오브젝트 세그먼트화 시스템 (14) 은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 예를 들어, ROI 오브젝트 세그먼트화 시스템 (14) 의 다양한 양태들은, 하나 이상의 디지털 신호 프로세서 (DSP), 마이크로프로세서, 주문형 집적 회로 (ASIC), 필드 프로그래밍가능 로직 어레이 (FPGA), 또는 임의의 다른 동등한 집적 또는 별개의 로직 회로뿐만 아니라, 그러한 컴포넌트들의 임의의 조합내에서 구현될 수도 있다. 일반적으로, "프로세서" 라는 용어는 단독의 또는 다른 로직 회로와의 결합인 전술한 로직 회로 중 임의의 회로를 지칭할 수도 있으며, 그러한 프로세서들 중 하나 이상의 프로세서들을 지칭할 수도 있다. 소프트웨어로 구현될 경우, ROI 오브젝트 세그먼트화 시 스템에 속하는 기능은, 랜덤 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 랜덤 액세스 메모리 (NVRAM), 전기적으로 소거가능한 프로그래밍가능 판독-전용 메모리 (EEPROM), 플래시 메모리, 자성 매체, 광학 매체 등과 같은 컴퓨터-판독가능 매체상에 명령들로서 포함될 수도 있다. 그 명령들은 본 발명에 설명된 기능의 하나 이상의 양태들을 지원하도록 실행된다.
도 2a 및 도 2b는 비디오 시퀀스의 비디오 프레임 (22) 내의 ROI 오브젝트 (24) 및 비-ROI 영역 (25) 의 정의를 도시한 다이어그램이다. 도 2b의 예에서, ROI 오브젝트는 머리 및 어깨 ROI 오브젝트 (24) 로 나타낸다. 다른 실시형태에서, ROI 오브젝트는 직사각형 ROI 오브젝트 또는 원형 또는 불규칙한 형상을 가질 수도 있는 비-직사각형 ROI 오브젝트를 포함할 수도 있다. ROI 오브젝트 (24) 는 비디오 프레임 (22) 에서 제공되는 사람의 안면 (26) 을 포함한다. 비-ROI 영역 (25), 즉, 배경은 도 2b에서 음영에 의해 강조된다.
ROI 오브젝트 (24) 는, 도 1로부터의 ROI 오브젝트 세그먼트화 시스템 (14) 에 의해 비디오 시퀀스로부터 자동적으로 세그먼트화될 수도 있다. VT 애플리케이션에 있어서, 통신 디바이스는 ROI-인에이블된 인코더로 ROI 오브젝트 (24) 를 우선적으로 인코딩할 수도 있다. 이러한 경우, ROI 오브젝트 (24) 는, 화상회의에서의 참가자의 안면 (26) 을 포함하는 비디오 프레임 (22) 의 일부를 포함할 수도 있다. 다른 예들은, 스트리밍 비디오, 예를 들어, 정보 비디오 또는 뉴스 또는 엔터테인먼트 브로드캐스트에서 정보를 제공하는 사람의 안면의 우선적인 인코딩을 포함한다. ROI 오브젝트 (24) 의 사이즈, 형상 및 위치는 고정되거나 조정가능할 수도 있으며 다양한 방식으로 정의, 설명 또는 조정될 수도 있다.
ROI 오브젝트 (24) 는, 비디오 전송자가 사람의 안면 (26) 과 같은, 송신된 비디오 프레임 (22) 내의 개별 오브젝트들을 강조하도록 허용한다. 이와 대조적으로, ROI 오브젝트 (24) 는, 비디오 수신자가 수신 비디오 프레임 (22) 내에서 원하는 오브젝트들을 더 선명하게 뷰잉하도록 허용한다. 어느 경우에서든, ROI 오브젝트 (24) 내의 안면 (26) 은, 비디오 프레임 (22) 의 배경 영역들과 같은 비-ROI 영역 (25) 에 비해 더 높은 이미지 품질로 인코딩된다. 이러한 방식으로, 사용자는 안면 표정, 입술 이동, 눈 이동 등을 더 선명하게 뷰잉할 수 있다. 몇몇 실시형태에서, ROI 오브젝트는, 또한, 부가적인 코딩 비트뿐만 아니라 향상된 에러 검출 및 내성으로 인코딩될 수도 있다.
도 3은 비디오 시퀀스의 ROI 오브젝트내에서 제공된 오브젝트에 대한 오브젝트 이동/회전 및 형상 변형에서의 변화들을 도시한다. 특히, 도 3의 프레임 0 및 프레임 1에 도시된 사람의 머리는 그의 위치를 현저하게 변경한다. 도 3의 예에서, 사람의 머리는 프레임 0에 비해 프레임 1에서 기울어져 있다. 도 4는 비디오 시퀀스의 ROI 오브젝트내의 사람에 대한 안면 표정에서의 변화들을 도시한다. 특히, 프레임 0 및 프레임 1에 도시된 사람의 입은, 실질적으로 닫혀진 위치로부터 크게 열려진 위치로 전이한다. 따라서, 도 3 및 도 4는 비디오 시퀀스의 ROI 오브젝트에서의 큰 양의 이동의 경우들을 나타낸다.
도 5a는 도 1로부터의 ROI 오브젝트 세그먼트화 시스템 (14) 의 예시적인 동작을 도시한 흐름도이다. ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 시 퀀스로부터의 ROI 오브젝트의 자동적인 세그먼트화를 위한 기술들을 구현한다. 상술된 바와 같이, ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 시퀀스를 프로세싱하기 위해 인트라-모드 세그먼트화 및 인터-모드 세그먼트화 양자를 지원한다.
ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 소스 (12) 로부터 비디오 시퀀스의 제 1 프레임을 수신한다 (30). ROI 오브젝트 세그먼트화 시스템 (14) 은 그 수신 프레임에 대해 인트라-모드 세그먼트화를 수행한다 (32). 인트라-모드 세그먼트화는, 비디오 시퀀스의 다른 프레임들과는 독립적으로 비디오 시퀀스의 현재 프레임을 프로세싱한다. 인트라-모드 세그먼트화의 경우에서, ROI 오브젝트 세그먼트화 시스템 (14) 은 ROI 오브젝트 모션 정보를 사용하지 않는다. 인트라-모드 세그먼트화를 수행하는 동안, ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 시퀀스의 수신 프레임을 비디오 메모리 (16) 에 저장한다. 그 후, ROI 오브젝트 세그먼트화 시스템 (14) 은 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다 (34).
ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 시퀀스의 다음의 프레임을 비디오 소스 (12) 로부터 수신한다 (36). 그 후, 시스템 (14) 은, 그 수신 프레임에 대해 인트라-모드 세그먼트화 또는 인터-모드 세그먼트화를 수행할지의 여부를 판정하기 위해 모드 결정을 수행한다 (37). 그 모드 결정은 하나 이상의 세그먼트화 모드 결정 인자들에 기초할 수도 있다. 예를 들어, 수신 프레임의 계산 복잡도, 수신 프레임에 대한 세그먼트화의 원하는 품질, 수신 프레임과 이전 의 프레임 사이의 유사도의 양, 수신 프레임과 이전의 프레임 사이의 모션 활성도의 양, 이전의 프레임에 대해 사용된 세그먼트화 모드, 및 최종 인트라-모드 프로세스 이후에 세그먼트화된 프레임들의 수와 같은 세그먼트화 모드 결정 인자들에 기초하여 시스템 (14) 은 수신 프레임에 대해 수행할 세그먼트화 모드를 결정할 수도 있다. 다른 실시형태에서, 세그먼트화 모드 결정은 부가적인 세그먼트화 모드 결정 인자들에 기초할 수도 있다.
시스템 (14) 이 인트라-모드 세그먼트화를 수행하지 않는다고 결정할 경우 (도면부호 (37) 의 아니오 브렌치), ROI 오브젝트 세그먼트화 시스템 (14) 은 이전의 프레임에 기초하여 수신 프레임에 대해 인터-모드 세그먼트화를 수행한다 (38). 이러한 경우, ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 시퀀스의 이전의 프레임으로부터, 예를 들어, 비디오 메모리 (16) 로부터 모션 정보를 검색하고, 현재의 프레임과 이전의 프레임 사이의, ROI 오브젝트에 대한 모션 정보를 사용한다. 인터-모드 세그먼트화를 수행하는 동안, ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 시퀀스의 수신 프레임을 비디오 메모리 (16) 에 저장한다. 그 후, ROI 오브젝트 세그먼트화 시스템 (14) 은 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다 (40).
ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 소스 (12) 로부터 비디오 시퀀스의 프레임들을 계속 수신한다. 시스템 (14) 이 인트라-모드 세그먼트화를 수행한다고 결정할 경우 (도면부호 (37) 의 예 브렌치), ROI 세그먼트화 시스템 (14) 은 수신 프레임에 대해 인트라-모드 세그먼트화를 다시 수행한다 (32). 따라서, ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 소스 (12) 로부터 수신된 비디오 시퀀스의 프레임들 중 일부에 대해 인트라-모드 세그먼트화를 수행하고, 비디오 시퀀스의 다른 프레임들에 대해 인터-모드 세그먼트화를 수행한다.
도 5b는 도 5a로부터의 세그먼트화 모드 결정 (단계 37) 을 더 상세히 도시한 흐름도이다. ROI 오브젝트 세그먼트화 시스템 (14) 은 하나 이상의 세그먼트화 모드 결정 인자들에 기초하여 세그먼트화 모드 결정을 수행할 수도 있다. 시스템 (14) 은 도 5에 도시된 단계들 중 하나 이상의 단계들을 수행하여, 수신 프레임에 대해 수행할 세그먼트의 모드를 결정할 수도 있다. 몇몇 실시형태에서, 시스템 (14) 은 단계들을 개별적으로 수행할 수도 있거나, 단계들 중 하나 이상의 단계들을 임의의 순서로 결합시킬 수도 있다. 다른 실시형태에서, ROI 오브젝트 세그먼트화 시스템 (14) 은, 수신 프레임에 대해 인트라-모드 세그먼트화 또는 인터-모드 세그먼트화를 수행할지의 여부를 결정할 경우, 부가적인 세그먼트화 모드 결정 인자들을 고려할 수도 있다.
시스템 (14) 은 수신 프레임의 계산 복잡도를 결정할 수도 있다 (46). 예를 들어, 시스템 (14) 은 수신 프레임을 검사하여, 그 수신 프레임에 포함된 ROI 피처 후보들의 수를 결정할 수도 있다. 프레임이 큰 수의 ROI 피처들을 포함하면, 수신 프레임은, 인터-모드 세그먼트화 프로세스가 그 수신 프레임으로부터의 ROI 오브젝트를 정확하게 세그먼트화하기에 너무 복잡할 수도 있다. 따라서, 시스템 (14) 은, 높은-복잡도 비디오 프레임을 프로세싱하기 위해, 계산 복잡도가 미리-결정된 레벨을 초과할 경우 인트라-모드 세그먼트화를 수행하는 것을 결정할 수도 있다. 또한, 시스템 (14) 은 엔드-사용자 (end-user) 로부터의 원하는 품질의 세그먼트화를 결정할 수도 있다 (48). 예를 들어, ROI 세그먼트화 시스템 (14) 을 구현하는 비디오 통신 디바이스의 엔드-사용자가 수신 비디오 프레임에 대한 미리-결정된 레벨을 초과하는 세그먼트화의 품질을 요청하면, 시스템 (14) 은 수신 프레임에 대해 인트라-모드 세그먼트화를 수행할 수도 있다. 이와 대조적으로, 엔드-사용자가 수신 비디오 프레임에 대한 미리-결정된 레벨 미만인 세그먼트화의 품질을 요청하면, 시스템 (14) 은 수신 프레임에 대해 인터-모드 세그먼트화를 수행할 수도 있다.
또한, 시스템 (14) 은 수신 프레임과 이전 프레임 사이의 유사도의 양을 결정할 수도 있다 (50). 예를 들어, 시스템 (14) 은 이전의 프레임과 수신 프레임을 비교하여, 그 2개의 프레임들의 컬러 히스토그램들 사이의 유사도의 양이 미리-결정된 레벨을 초과하는지 여부를 판정할 수도 있다. 그 2개의 프레임들 사이의 큰 컬러 변화는 장면의 변화를 나타낼 수도 있다. 이러한 경우, 시스템 (14) 은 수신 프레임내의 잠재적인 신규한 ROI 오브젝트들을 세그먼트화하기 위해 인트라-모드 세그먼트화를 수행할 수도 있다. 컬러 히스토그램이 그 2개의 프레임들 사이에서 실질적으로 유사한 상태로 유지되면, 시스템 (14) 은 인터-모드 세그먼트화를 수행할 수도 있다.
시스템 (14) 은 수신 프레임과 이전 프레임 사이의 모션 활성도의 양을 결정할 수도 있다 (52). 예를 들어, 시스템 (14) 은 수신 프레임을 이전의 프레임과 비교하여, 그 프레임들내의 ROI 오브젝트들의 위치들 사이의 이동량이 미리-결 정된 레벨을 초과하는지 여부를 판정할 수도 있다. ROI 오브젝트들이 그 2개의 프레임들내에서 실질적으로 상이한 영역들 또는 위치들을 점유하면, 시스템 (14) 은 인트라-모드 세그먼트화를 수행할 수도 있다. ROI 오브젝트들이 그 2개의 프레임들내에서 실질적으로 동일한 영역 또는 위치를 점유하면, 시스템 (14) 은 인터-모드 세그먼트화를 수행할 수도 있다.
상기 단계들에서, 비디오 시퀀스의 ROI 세그먼트화 프로세스들은, 비디오 시퀀스의 비디오 프레임에 대해 임의의 순서로 수행된 임의의 수의 인트라-모드 세그먼트화 및 인터-모드 세그먼트화를 포함할 수도 있다. 예를 들어, 인트라-모드 세그먼트화는 0으로서 나타낼 수도 있고, 인터-모드 세그먼트화는 1로서 나타낼 수도 있다. 예시적인 비디오 시퀀스 세그먼트화에서의 프레임들의 세트의 인트라-모드 상태 (0) 및 인터-모드 상태 (1) 는 0 0 1 1 0 1 1 1 1 0 으로서 나타낼 수도 있다. 이러한 경우, 세그먼트화 모드 결정은, 수신 프레임의 특성 또는 수신 프레임과 이전 프레임 사이의 특성에 순수하게 기초한다.
또한, 시스템 (14) 은, 이전의 프레임을 세그먼트화하는데 사용되는 세그먼트화 모드에 기초하여 수신 프레임에 대해 수행할 세그먼트화 모드를 결정할 수도 있다. 시스템 (14) 은, 이전의 프레임이 인트라-모드 프로세스에 의해 세그먼트화되었는지의 여부를 판정할 수도 있다 (54). 이전의 프레임이 인트라-모드 프로세스에 의해 세그먼트화되었다면, 시스템 (14) 은 인터-모드 프로세스에 의해 수신 프레임을 세그먼트화하는 것을 결정할 수도 있다. 이러한 단계에서, 비디오 시퀀스의 ROI 세그먼트화 프로세스들은, 인터-모드 세그먼트화가 인트라-모드 세그먼트화에 항상 후속하도록, 비디오 시퀀스의 비디오 프레임들에 대해 수행된 임의의 수의 인트라-모드 세그먼트화 및 인터-모드 세그먼트화를 포함할 수도 있다. 예시적인 비디오 시퀀스 세그먼트화에서의 프레임들의 세트의 인트라-모드 상태 (0) 및 인터-모드 상태 (1) 는 0 1 1 0 1 1 1 1 0 1 로서 나타낼 수도 있다. 이러한 경우, 세그먼트화 모드 결정은, 이전 프레임의 세그먼트화 모드에 순수하게 기초한다.
또한, 시스템 (14) 은 최종 인트라-모드 세그먼트화된 프레임 이후 세그먼트화된 프레임들의 수를 결정할 수도 있다 (56). 예를 들어, 시스템 (14) 은 매 N개의 프레임들과 같이 주기적으로 인트라-모드 세그먼트화를 수행하는 것을 결정할 수도 있다. 몇몇 경우, n번째 프레임은 10번째 프레임을 포함할 수도 있다. 다른 실시형태에서, N은 10개의 프레임 초과 또는 미만일 수도 있다. 이러한 단계에서, 비디오 시퀀스의 ROI 세그먼트화 프로세스들은, 인트라-모드 세그먼트화가 주기적으로 수행되도록, 비디오 시퀀스의 비디오 프레임들에 대해 수행된 임의의 수의 인트라-모드 세그먼트화 및 인터-모드 세그먼트화를 포함할 수도 있다. 예시적인 비디오 시퀀스 세그먼트화에서의 프레임들의 세트의 인트라-모드 상태 (0) 및 인터-모드 상태 (1) 는 0 1 1 1 0 1 1 1 0 1 로서 나타낼 수도 있다. 이러한 경우, 세그먼트화 모드 결정은 매 4번째 프레임마다 인트라-모드 세그먼트화를 수행하는 것에 기초한다.
도 6은, 비디오 소스 (12) 로부터 수신된 비디오 시퀀스의 프레임에 대해 인트라-모드 세그먼트화를 수행할 경우의 ROI 오브젝트 세그먼트화 시스템 (14) 을 도시한 블록도이다. 이러한 경우, ROI 오브젝트 세그먼트화 시스템 (14) 은, 모션 정보없이 비디오 시퀀스의 다른 프레임들과는 독립적으로 비디오 시퀀스의 프레임을 프로세싱한다. 도 7 내지 도 13은, 인트라-모드 세그먼트화 동안 ROI 오브젝트 세그먼트화 시스템 (14) 에 의해 구현된 기술들의 예시적인 결과들을 도시한 스크린 샷이다.
도 6에 도시된 실시형태에서, 비디오 소스 (12) 는 크로미넌스 (chrominance) 블루 채널 (Cb) (60), 크로미넌스 레드 채널 (Cr) (61), 및 루미넌스 채널 (Y) (62) 을 포함한다. ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 소스 (12) 로부터 수신된 비디오 시퀀스의 비디오 프레임으로부터 사람의 머리 및 어깨 영역과 같은 ROI 오브젝트를 자동적으로 세그먼트화하기 위한 기술을 구현한다. 개시된 기술들은, 인트라-모드 세그먼트화 동안 영역 세그먼트화와 피처-기반 및 모델-기반 검출을 결합시키는 하이브리드 기술을 포함한다.
ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 소스 (12) 의 크로미넌스 블루 채널 (60) 및 크로미넌스 레드 채널 (61) 로부터 수신된 블루 및 레드 채널 크로미넌스 값에 기초하여, 비디오 프레임내의 스킨-컬러 영역을 검출하는 안면 마스크 검출기 (64) 를 포함한다. 그 후, 안면 마스크 검출기 (64) 는, 검출된 스킨-컬러 영역들의 픽셀들을 안면 픽셀들로서 분류한다. 이러한 방식으로, 안면 마스크 검출기 (64) 는, 안면 픽셀이 아닌 수신 프레임내의 픽셀들을 제거함으로써 안면 마스크를 획득할 수도 있다. 안면 마스크가 획득된 이후, 안면 마스크 검출기 (64) 는 팽창 및 침식의 수학적인 모폴로지 동작을 사용하여, 눈 및 입 영역과 같은 안면 피처들로 인한 안면 마스크내의 잡음 및 홀 (hole) 을 제거한다. 도 7은 표준 "모녀" 비디오 테스트 시퀀스의 프레임에 대한 신속한 안면 마스크 검출의 일 예를 도시한다.
통상적으로, 안면 마스크 검출기 (64) 는, YCbCr 컬러 공간에 협소하고 일관되게 분배된 크로미넌스 값들의 특정 세트의 존재에 의해 비디오 프레임내에서 스킨-컬러 영역들을 식별할 수 있는 스킨-컬러 맵을 사용한다. 스킨-컬러 맵은 상이한 타입의 스킨 컬러에 대해 강인하다. 인종의 스킨 컬러는, 주로 스킨의 어두움 또는 옅음 (fairness) 으로 인해 상이하게 인식된다. 즉, 스킨 컬러는, Cr 또는 Cb가 아닌 Y에 의해 관리되는 컬러의 밝기 (brightness) 에서의 차이를 특징으로 한다. 따라서, 유효한 스킨-컬러 맵은, 수신 프레임의 Cr 및 Cb 컴포넌트에만 기초하여 달성될 수 있다. 안면 마스크 검출기 (64) 는 Cr∈[133, 173] 및 Cb∈[77, 127] 의 범위를 갖는 CbCr 스킨-컬러 맵을 이용하여, 수신 비디오 프레임내에서 스킨-컬러 영역들을 검출할 수도 있다. 그러나, Cr 및 Cb 범위는 제한하는 것으로 고려되지 않아야 하며, 안면 마스크 검출기 (64) 는 상이한 Cr 및 Cb 범위를 갖는 스킨-컬러 맵을 이용할 수도 있다.
몇몇의 경우에서, 안면 마스크 검출기 (64) 는 사람의 안면을 배타적으로 획득할 수 없을 수도 있다. 도 7에 도시된 바와 같이, 프레임내의 모녀의 의복 영역은 스킨-톤 맵에 의해 정의된 톤과 유사한 톤을 갖는 것으로 보인다. 따라서, 안면 마스크 검출기 (64) 는 안면 마스크의 일부로서 의복 영역을 잘못 선택할 수도 있다. 여기에 설명된 신속한 안면 마스크 검출 단계는 프레임내의 몇몇 비-안면 영역들을 제거하지만, 추가적인 프로세싱이 정확한 안면 영역을 획득 및 확인하는데 필요할 수도 있다.
또한, 시스템 (14) 은 안면 마스크내의 안면 피처 후보들을 검출하는 눈 검출기 (66) 및 입 검출기 (67), 및 그 눈 및 입 후보들로부터 안면 피처들을 선택하는 피처 확인 모듈 (68) 을 포함한다. 통상적으로, 안면 필터는, 안면 영역의 타원 형상 및 안면 피처들 사이의 전체 공간 관계 제약과 같은, 사람의 안면 및 그 안면의 피처들의 공통적인 정보에 기초하여 구축된다. 따라서, 이러한 안면 피처들을 위치결정하는 것은 비디오 프레임내의 근사적인 안면 위치를 유도하는데 유용하다.
눈 검출기 (66) 는 안면 마스크 검출기 (64) 에 의해 획득된 안면 마스크내의 눈 피처 후보들을 검출한다. 눈 검출기 (66) 는 2개의 관측치에 기초하여 눈 피처 후보들을 검출한다. 먼저, 눈 주변의 크로미넌스 컴포넌트들은 일반적으로 높은 Cb 및 낮은 Cr 값을 포함한다. 따라서, 눈 검출기 (66) 는 아래에 주어진 수학식 (1) 에 기초하여 프레임의 크로미넌트 눈 맵을 구성할 수도 있다.
Figure 112008063337600-pct00001
일단 크로미넌스 눈 맵이 획득되면, 눈 검출기 (66) 는 눈 맵 내의 각각의 픽셀의 크로미넌스 눈 맵 값 (C) 에 임계값을 적용하여, 눈 후보들에 대해 눈 맵내에 가장 밝은 영역들을 위치결정한다. 그 후, 눈 검출기 (66) 는 모폴로지 동작을 적용하여, 실질적으로 근접한 가장 밝은 영역들을 단일 눈 후보들로 병합시킨다. 도 8a는 "모녀" 비디오 테스트 시퀀스 프레임의 크로미넌스 눈 맵내의 눈 검출의 일 예를 도시한다.
둘째로, 눈은 일반적으로 루미넌스 컴포넌트에서 어두운 픽셀 및 밝은 픽셀 양자를 포함한다. 따라서, 그레이스케일 (grayscale) 모폴로지 동작은, 눈 영역들 주변의 루미넌스 컴포넌트에서 더 밝은 픽셀 및 더 어두운 픽셀을 강조하는데 사용될 수도 있다. 눈 검출기 (66) 는, 아래에 주어진 수학식 (2) 에 기초하여 프레임의 루미넌스 눈 맵을 구성할 수도 있다.
Figure 112008063337600-pct00002
일단 루미넌스 눈 맵이 획득되면, 눈 검출기 (66) 는 눈 맵 내의 각각의 픽셀의 루미넌스 눈 맵 값 (L) 에 임계값을 적용하여, 눈 후보들에 대해 눈 맵내에 가장 밝은 영역들을 위치결정할 수도 있다. 그 후, 눈 검출기 (66) 는 모폴로지 동작을 적용하여, 실질적으로 근접한 가장 밝은 영역들을 단일 눈 후보들로 병합시킨다. 도 8b는 "모녀" 비디오 테스트 시퀀스 프레임의 루미넌스 눈 맵내의 눈 검출의 일 예를 도시한다.
눈 검출기 (66) 는 (도 8a에 도시된) 크로미넌스 눈 맵내에서 검출된 눈 후보들을 (도 8b에 도시된) 루미넌스 눈 맵내에서 검출된 눈 후보들과 결합시켜, 안면 마스크내에서 최종 눈 후보들을 발견한다. 그러나, 몇몇의 경우, 최종 눈 후보들은 여전히 부정확한 눈 후보들을 포함할 수도 있다. 이러한 관계없는 눈 후보들은, 이후에 피처 확인 프로세스 동안 제거될 수도 있다.
입 검출기 (67) 는 안면 마스크 검출기 (64) 에 의해 획득된 안면 마스크내에서 입 피처 후보들을 검출한다. 통상적으로, 입 영역의 컬러는, 다른 안면 영역들보다는 더 강한 레드 컴포넌트 및 더 약한 블루 컴포넌트를 포함한다. 따라서, 크로미넌트 컴포넌트 Cr은 입 영역에서 크로미넌스 컴포넌트 Cb보다 더 커야 한다. 그러나, 입 영역은, Cr/Cb 피처에서 비교적 낮은 응답을 갖지만, Cr2 피처에서 비교적 높은 응답을 갖는다. 입 검출기 (67) 는, 아래에 주어진 수학식 (3) 및 수학식 (4) 에 기초하여 프레임의 입 맵을 구성할 수도 있다.
Figure 112008063337600-pct00003
, 여기서,
Figure 112008063337600-pct00004
일단 입 맵이 획득되면, 입 검출기 (67) 는 입 맵내의 각각의 픽셀의 입 값 (M) 에 임계값을 적용하여, 입 후보들에 대해 입 맵내에 가장 밝은 영역들을 위치결정한다. 그 후, 입 검출기 (67) 는 모폴로지 동작을 적용하여, 실질적으로 근접한 가장 밝은 영역들을 단일 입 후보들로 병합시킨다. 도 9는 "모녀" 비디오 테스트 시퀀스 프레임의 입 맵내의 입 검출의 일 예를 도시한다.
피처 확인 모듈 (68) 은, 눈 검출기 (66) 및 입 검출기 (67) 에 의하여 안면 마스크내에서 검출된 안면 피처 후보들을 확인하여, 눈 및 입 후보들로부터 정확한 안면 피처들을 선택한다. 피처 확인 모듈 (68) 은 강인한 ROI 피처 검출 프로세스를 보장한다. 상술된 눈 및 입 맵 프로세스가 눈 및 입 영역들을 분류하는데 효과적이지만, 몇몇 잘못된 분류가 잘못된 안면 피처 검출을 여전히 초래할 수도 있다. 피처 확인 모듈 (68) 은 3개의 확인 단계들을 수행하여, 안면 마스크내의 안면 피처 후보들을 확인하고 임의의 잘못된 안면 피처 검출을 제거한다.
먼저, 안면 토포그래피 (topography) 의 관점에서, 통상적으로 안면 피처가, 영역내에서 고밀도 콘트라스트 (contrast) 를 특징으로 하는 "밸리 (valley)" 영역, 즉, 리세스 (recessed) 영역에 위치된다는 것이 관측된다. 따라서, 피처 확인 모듈 (68) 은, 그레이스케일-근접 및 팽창 모폴로지 동작을 수행함으로써 밸리 영역들을 식별한다. 그 후, 피처 확인 모듈 (68) 은 프레임 내의 안면 피처 후보들의 위치들을 프레임내의 밸리 영역들의 위치들과 비교한다. 안면 피처 후보들이 검출된 밸리 영역에 적어도 부분적으로 중첩하지 않는다면, 피처 확인 모듈 (68) 은 그 안면 피처 후보를 고려사항으로부터 제거할 것이다. 따라서, 안면 피처 후보를 유지하기 위해, 피처 확인 모듈 (68) 은 식별된 밸리 영역들 중 하나의 영역과 피처의 상관을 요구한다. 도 10a는 "모녀" 비디오 시퀀스 프레임내에서 식별된 밸리 영역들을 도시한다.
둘째로, 피처 확인 모듈 (68) 은, 프레임내의 대칭적인 위치 및 형상 특징과 같은 눈 쌍의 고유 특성에 기초하여 눈 피처 후보들을 확인한다. 도 10b는 각각 중심 O1 및 O2 를 갖는 눈 쌍의 고유 특성들을 도시한다. 예를 들어, 2개의 눈들은,
Figure 112008063337600-pct00005
이고, 양 눈들이 유사한 면적을 가지며, 양 눈들이 축 OA로 투영함으로써 비교될 수 있는 유사한 형상을 갖도록 안면의 주축 A에 대해 대칭이다. 또한, 2개의 눈들은 각각의 PCA (Principle Component Analysis) 축들, PCA1 및 PCA2 에 대해 대칭이다. 또한, 통상적으로 눈썹은 그 2개의 눈 위에서 검출될 수 있다.
피처 확인 모듈 (68) 은 가중된 스코어-시스템을 이용하여, 안면 마스크내의 눈 피처 후보들을 확인할 수도 있다. 이러한 경우에서, 피처 확인 모듈 (68) 은 눈 쌍 특성들에 기초하여 다수의 기준을 체크하고, 그 기준 각각에 대한 스코어를 제공한다. 예를 들어, 피처 확인 모듈 (68) 은, 눈 중심 위치가 밸리 영역내에 있는지 여부를 판정한다. 다음으로, 피처 확인 모듈 (68) 은, 눈 중심 및 검출된 홍채의 위치가 실질적으로 근접한지의 여부를 판정한다. 홍채의 위치는, 눈의 강도값을 수평 및 수직 축에 투영하고 최소의 누산된 총 강도값에 대응하는 포인트를 식별함으로써 발견될 수도 있다. 그 후, 피처 확인 모듈 (68) 은 눈썹이 그 눈 위에서 발견되는지 여부를 판정한다. 다음으로, 피처 확인 모듈 (68) 은, 눈의 PCA 축이 합당한 방향의 범위내에 존재하는지 여부를 판정하며, 그 범위는 통상적인 사람의 눈 쌍의 경험적인 특성화로부터 결정될 수도 있다. 그 후, 피처 확인 모듈 (68) 은 눈이 합당한 거리내에서의 눈 쌍을 갖는지 여부를 판정하며, 그 거리는 또한 경험적인 특성화로부터 결정될 수도 있다. 다음으로, 피처 확인 모듈 (68) 은 눈 쌍이 축 OA에 따라 대칭적인 PCA 축들을 갖는지 여부를 판정한다. 그 후, 피처 확인 모듈 (68) 은 눈 쌍이 축 OA에 따라 대칭적인 형상을 갖는지 여부를 판정한다.
피처 확인 모듈 (68) 은, 정확한 안면 피처들을 후보들로부터 선택하기 위해 상술된 각각의 기준으로부터의 스코어들을 누산하고, 비디오 프레임의 안면 피처 맵을 구성한다. 다양한 개별 기준에 대해 결정된 스코어들은 동등하게 가중될 수도 있거나, 다른 기준보다 하나 이상의 기준을 강조하도록 상이하게 가중될 수도 있다. 피처 확인 모듈 (68) 은, 미리 설정된 임계값 미만의 누산 스코어들을 갖는 안면 피처 후보들로서 잘못된 검출을 식별한다. 그 후, 피처 확인 모듈 (68) 은 이러한 잘못 검출된 안면 피처 후보들을 제거한다.
세 번째로, 피처 확인 모듈 (68) 은, 안면 피처 맵내에서 2개의 눈 후보들과 하나의 입 후보의 모든 가능한 조합으로부터 눈-입 삼각형들을 확인한다. 먼저, 피처 확인 모듈 (68) 은 눈-입 삼각형들의 기하학적 구조 및 배향을 검토하고, 합당하지 않는 눈-입 삼각형들을 추가적인 고려사항으로부터 제거한다. 합당하지 않다고 간주되는 눈-입 삼각형들은, 통상적인 사람에 대해 경험적으로 결정된 눈-입 삼각형 기하학적 구조의 범위에 실질적으로 매칭되지 않는 것이다. 도 10c는 "모녀" 비디오 시퀀스 프레임의 안면 피처 맵내의 2개의 가능한 눈-입 삼각형들 (파선) 을 도시한다. 그 후, 피처 확인 모듈 (68) 은 템플릿 (template) 를 사용하여, 눈-입 삼각형 영역의 기울기 특징을 확인한다. 사람의 안면이 3-차원 (3-D) 오브젝트이기 때문에, 안면 영역 전반에 걸친 루미넌스는 비-균일한 경향이 있다. 정당한 눈-입 삼각형 영역은, 턱과 같은 다른 안면 영역들보다 기울기 정보를 더 복잡하게 하는 코를 포함해야 한다. 눈-입 삼각형 영역으로부터 이용가능한 더 구별된 기울기 정보를 사용하여, 피처 확인 모듈 (68) 은 비디오 프레임에서의 안면에 대해 정확한 눈 및 입 후보를 선택할 수도 있다.
또한, 시스템 (14) 은, 피처 확인 모듈 (68) 에 의해 선택된 안면 피처들을 프레임내의 개별 안면들에 대한 그룹들로 분리하는 멀티-안면 분리 모듈 (70) 을 포함한다. 비디오 프레임에서 2개 이상의 안면을 포함하는 모녀 시퀀스와 같은 비디오 시퀀스에서, 멀티-안면 분리 모듈 (70) 은, 상이한 안면들에 대응하는 그룹들로 눈 및 입 후보들의 세트들을 분리한다. 이러한 태스크의 어려움은 3배가 된다. 먼저, 비디오 프레임내에 포함된 안면들의 총 수가 알려져 있지 않다. 둘째, 몇몇 안면 피처들이 비디오 프레임내에서 검출되지 않을 수도 있다. 셋째, 모든 잠재적인 안면 피처 그룹 조합들의 완전한 체크는 지수적인 계산 복잡도를 갖는다. 눈들과 입을 쌍으로 하는 태스크로 그 문제를 간략화함으로써, 본래의 문제는, 다항식의 계산 복잡도를 갖는 그래픽 이론 문제로 매핑될 수 있다. 계산 복잡도에서의 결과적인 감소는, 제한된 전력 및 프로세싱 리소스들을 갖는 이동 애플리케이션들 및 신속하고 가급적 실시간 결과들을 요구하는 다른 애플리케이션들을 포함하는 많은 애플리케이션들에 대해 매우 바람직할 수도 있다.
그래프 이론을 적용하면, 멀티-안면 분리 모듈 (70) 은, 꼭지점 (vertex) 세 트 V={입}+{눈 쌍} 및 에지 (edge) 세트 E={(vi, vj)} 를 갖는 이분 그래프 (bipartite graph) G=(V, E) 를 고려하며, 여기서, vi 및 vj 는 상이한 세트에 속하고, 노드 vi 와 노드 vj 사이의 거리는 합당한 범위내에 있다. 매칭 S의 2개의 에지가 동일한 꼭지점으로 입사하지 않거나 꼭지점에 직접 연결되지 않도록 그 매칭 S가 E의 서브세트로서 정의되면, 그 문제는 최대 매칭 방식 문제가 된다. 이러한 방식으로, 본래의 최대 매칭 방식 문제 정의에서, 매칭에 대한 제약은 S에서의 2개의 에지가 동일한 꼭지점으로 입사하지 않는다는 것만을 요구하기 때문에, 멀티-안면 분리 프로세스는 본래의 최대 매칭 방식 문제의 변형이다.
멀티-안면 분리 문제를 본래의 최대 매칭 방식 문제로 변환하는 확률을 관측하는 것은 중요하다. (vi, vk)∈E, (vj, vk)∈E 지만 (vi, vj)
Figure 112008063337600-pct00006
E 이도록 vk가 존재하는 에지 세트 E'={(vi, vj)} 가 E 로부터 E∪E' 로 에지 세트를 확장시킨 후에 정의되면, 결과 매칭들이 E∪E' 대신 E의 서브세트가 되어야 하도록 부가적인 제약이 포함되어야 하는 것을 제외하고, 그 문제는 본래의 최대 매칭 방식 문제가 된다. 따라서, 멀티-안면 분리 모듈 (70) 은 다항식적 시간 복잡도에서 멀티-안면 분리 문제를 풀 수 있다.
시스템 (14) 은, ROI 오브젝트 기하학적 모델에 기초하여 비디오 프레임내의 각각의 안면에 대한 ROI 오브젝트 형상을 근사화하는 오브젝트 형상 근사화 모듈 (72) 을 포함한다. 예를 들어, ROI 오브젝트 형상은, 사람의 머리 및 어깨의 기하학적 모델에 기초하여 프레임내에서 근사화될 수도 있다. 피처 확인 모듈 (68) 이 안면에 대한 정확한 눈-입 삼각형을 획득한 이후, 오브젝트 형상 근사화 모듈 (72) 은, 눈-입 삼각형의 노드들 사이의 기하학적 관계에 기초하여, ROI 오브젝트 형상, 예를 들어, 머리 및 어깨 모델을 구축할 수도 있다.
인트라-모드 세그먼트화 동안 수행의 속도를 증가시키기 위해, 오브젝트 형상 근사화 모듈 (72) 은 간단한 직사각형 모델을 사용하여, 사람의 머리 및 어깨 오브젝트 형상과 같은 ROI 오브젝트 형상을 근사화할 수도 있다. 비디오 프레임에서 2개 이상의 안면을 포함하는 비디오 시퀀스에 있어서, 멀티-안면 분리 모듈 (70) 이 눈 및 입 후보들을 상이한 안면들에 대한 그룹들로 분리시킨 후, 오브젝트 형상 근사화 모듈 (72) 은, 별개의 눈-입 삼각형들에 기초하여 안면들 각각에 대한 ROI 오브젝트 형상을 근사화한다. 예를 들어, 오브젝트 형상 근사화 모듈 (72) 은 비디오 프레임내에 포함된 각각의 안면에 대한 머리 및 어깨 오브젝트 형상을 근사화할 수도 있다. 도 11은, "모녀" 비디오 테스트 시퀀스 프레임내의 각각의 안면에 대해 정의된 머리 및 어깨 오브젝트 형상을 도시한다.
또한, ROI 오브젝트 세그먼트화 시스템 (14) 은, 전체 프레임에 대해 스플릿트-및-병합 영역 확대를 수행하는 영역 세그먼트화 모듈 (74) 을 포함한다. 영역 세그먼트화 모듈 (74) 은 다중의 동종 후보 영역들로 본래의 프레임을 분할한다. 스플릿트-및-병합 영역 확대를 수행할 경우, 영역 세그먼트화 모듈 (74) 은, 비디오 프레임내의 이웃 픽셀들 사이의 관계를 유사한 클래스 및 비유사한 클래스로 분류한다. 영역 유사성은, 영역에서의 평균 픽셀 강도값에 기초하여 결 정될 수도 있다. 그 후, 영역 세그먼트화 모듈 (74) 은 연결된 유사한 픽셀들을 작은 영역들로 클러스터화하며, 최소 수의 후보 영역들을 형성하기 위해 이러한 영역들을 계속 병합한다. 도 12는 비디오 프레임이 초기에 1195 개의 영역들로 스플릿트되고, 그 후, 그 영역들은 22개의 후보 영역들이 생성될 때까지 함께 병합되는 영역 확대 프로세스를 도시한다.
시스템 (14) 은, 근사화된 ROI 오브젝트 형상내에 위치된 프레임의 영역들을 전체 프레임내의 후보 영역들로부터 자동적으로 선택하는 오브젝트 생성 모듈 (76) 을 더 포함한다. 선택된 영역들은 전경 영역들로 고려될 수도 있으며, 선택되지 않은 영역들은 배경 영역들로 고려될 수도 있다. 그 후, 오브젝트 생성 모듈 (76) 은 전경 영역들에 기초하여 전경 오브젝트를 생성한다.
오브젝트 생성 모듈 (76) 은, 영역 세그먼트 모듈 (74) 에 의해 생성된 후보 영역들의 세트로부터 오브젝트 형상 근사화 모듈 (72) 에 의해 근사화되는 ROI 오브젝트 형상내에 위치된 영역들만을 선택한다. 상술된 바와 같이, ROI 오브젝트 형상은 ROI 오브젝트, 예를 들어, 안면을 포함한 직사각형 영역을 포함할 수도 있으며, 그 ROI 오브젝트 형상의 사이즈는 그 안면에 대한 선택된 눈-입 삼각형에 기초하여 추정될 수도 있다. 이러한 방식으로, 전체 비디오 프레임내 대신 ROI 오브젝트 형상 내에서 추가적인 프로세싱이 수행될 수도 있다.
오브젝트 생성 모듈 (76) 은 영역 세그먼트화 모듈 (74) 에 의해 생성된 비디오 프레임내에서 후보 영역들 각각을 검사하고, 그 영역들이 ROI 오브젝트 형상내에 위치되는지 여부를 판정한다. 오브젝트 생성 모듈 (76) 은, 전경 영역이 될 ROI 오브젝트 형상 내의 총 픽셀의 미리 정의된 퍼센트, 예를 들어, 60% 를 초과하는 영역들을 고려할 수도 있다. 그 후, 오브젝트 생성 모듈 (76) 은, 배경 영역이 될 ROI 오브젝트 형상내의 총 픽셀의 미리 정의된 퍼센트 미만인 비디오 프레임내의 나머지 영역들을 고려할 수도 있다. 이러한 방식으로 오브젝트 생성 모듈 (76) 은 비디오 프레임내의 전경 영역들로부터 전경 오브젝트를 생성한다.
최종적으로, 시스템 (14) 은, 프레임내의 다중의 전경 오브젝트들을 최종 출력 이미지로 병합하는 오브젝트 퓨징 (fuse) 모듈 (78) 을 포함한다. 2개 이상의 전경 오브젝트를 포함하는 비디오 시퀀스에 있어서, 오브젝트 퓨징 모듈 (78) 은 전경 오브젝트들을 병합하여 출력 이미지를 형성한다. 도 13은, 비디오 프레임내의 안면들 각각에 대한 전경 오브젝트의 생성, 및 2개의 전경 오브젝트들의 병합에 의한 출력 이미지의 생성을 도시한다. 그 후, ROI 오브젝트 세그먼트화 시스템 (14) 은 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송할 수도 있다.
도 14는 인트라-모드 세그먼트화를 수행하는 ROI 오브젝트 세그먼트화 시스템 (14) 의 동작을 도시하는 흐름도이다. 그 동작은, 도 7에 도시된 ROI 오브젝트 세그먼트화 시스템 (14) 을 참조하여 여기에 설명될 것이다. ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 소스 (12) 로부터 비디오 시퀀스의 프레임을 수신한다 (80). 인트라-모드 세그먼트화의 경우에서, ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 시퀀스의 다른 프레임들과는 독립적으로 및 모션 정보 없이 비디오 시퀀스의 수신 프레임을 프로세싱한다.
안면 마스크 검출기 (64) 는, 비디오 프레임내에서 식별된 스킨-컬러 영역들에 기초하여 수신 프레임내에서 안면 마스크를 검출한다 (82). 그 후, 안면 마스크 검출기 (64) 는 식별된 스킨-컬러 영역들의 픽셀들을 안면 픽셀들로서 분류한다. 이러한 방식으로, 안면 마스크 검출기 (64) 는, 안면 픽셀들이 아닌 수신 프레임내의 픽셀들을 제거함으로써 안면 마스크를 획득할 수도 있다.
그 후, 눈 검출기 (66) 및 입 검출기 (67) 는 안면 마스크내에서 안면 피처 후보들을 검출한다 (84). 눈 검출기 (66) 는, 안면 마스크내의 픽셀들의 크로미넌스 값 및 루미넌스 값에 기초하여 눈 피처 후보들을 검출할 수도 있다. 입 검출기 (67) 는, 안면 마스크내의 픽셀들의 크로미넌스 값에 기초하여 입 피처 후보들을 검출할 수도 있다. 피처 확인 모듈 (68) 은, 정확한 안면 피처들을 선택하기 위하여 눈 검출기 (66) 및 입 검출기 (67) 에 의해 검출된 안면 피처 후보들의 확인을 수행한다 (86).
그 후, ROI 오브젝트 세그먼트화 시스템 (14) 은, 수신 비디오 프레임이 2개 이상의 안면을 포함하는지 여부를 판정한다 (87). 비디오 프레임이 2개 이상의 안면을 포함하면, 멀티-안면 분리 모듈 (70) 은 프레임에 포함된 개별 안면들에 대한 그룹들로, 피처 확인 모듈 (68) 에 의해 선택된 안면 피처들을 분리시킨다 (88). 그 후, 오브젝트 형상 근사화 모듈 (72) 은, 피처 확인 모듈 (68) 에 의하여 선택된 안면 피처들에 의해 정의된 ROI 오브젝트 기하학적 모델에 기초하여, 비디오 프레임내의 각각의 안면에 대한 ROI 오브젝트 형상을 근사화한다 (90). 예를 들어, 머리 및 어깨 오브젝트 형상은, 정확한 눈-입 삼각형의 위치에 기초하 여, 프레임내의 각각의 안면에 대해 근사화될 수도 있다.
영역 세그먼트화 모듈 (74) 은, 전체 프레임에 대해 스플릿트-및-병합 영역 확대를 수행한다 (92). 영역 세그먼트화 모듈 (74) 은 본래의 프레임을 다중의 동종 후보 영역들로 분할한다. 그 후, 오브젝트 생성 모듈 (76) 은, 근사화된 ROI 오브젝트 형상내에 위치된 프레임의 영역들을 전체 프레임내의 후보 영역들로부터 자동적으로 선택한다. 선택된 영역들은 전경 영역들로 고려될 수도 있으며, 선택되지 않은 영역들은 배경 영역들로 고려될 수도 있다. 그 후, 오브젝트 생성 모듈 (76) 은 전경 영역들에 기초하여 전경 오브젝트를 생성한다 (94).
ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 프레임이 2개 이상의 전경 오브젝트를 포함하는지 여부를 판정한다 (95). 비디오 프레임이 2개 이상의 전경 오브젝트를 포함할 경우, 오브젝트 퓨징 모듈 (78) 은 프레임내의 전경 오브젝트들을 최종 출력 이미지로 병합한다 (96). 그 후, ROI 오브젝트 세그먼트화 시스템 (14) 은 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다 (98).
도 15는, 비디오 소스 (12) 로부터 수신된 비디오 시퀀스의 프레임에 대해 인터-모드 세그먼트화를 수행할 경우의 ROI 오브젝트 세그먼트화 시스템 (14) 을 도시한 블록도이다. 이러한 경우에서, ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 메모리 (16) 에 저장된 비디오 시퀀스의 현재 프레임과 이전의 또는 후속 프레임 사이의 ROI 오브젝트에 대한 모션 정보에 기초하여 비디오 시퀀스의 프레임을 프로세싱한다. 도 16 및 도 17은, 인터-모드 세그먼트화 동안 ROI 오브 젝트 세그먼트화 시스템 (14) 에 의해 구현된 기술들의 예시적인 결과들을 도시한 스크린 샷이다. 몇몇 실시형태에서, ROI 오브젝트 세그먼트화 시스템 (14) 은, 하나 이상의 세그먼트화 모드 결정 인자들에 기초하여, 도 6 내지 도 14에 설명된 바와 같이, 비디오 시퀀스의 프레임들 중 일부의 프레임에 대해 인트라-모드 세그먼트화를 수행할 수도 있으며, 후술될 바와 같이, 비디오 시퀀스의 다른 프레임들에 대해 인터-모드 세그먼트화를 수행할 수도 있다.
상술된 바와 같이, ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 소스 (12) 로부터 수신된 비디오 시퀀스의 비디오 프레임으로부터 사람의 머리 및 어깨 영역과 같은 ROI 오브젝트를 자동적으로 세그먼트화하기 위한 기술들을 구현한다. ROI 오브젝트 세그먼트화 시스템 (14) 은, ROI 오브젝트에 대한 모션 정보에 기초하여 인터-모드 세그먼트화를 수행한다. 개시된 기술들은, 배경 모델링 및 감산에 기초하여 전경 오브젝트내에서 이동 영역들을 검출하기 위한 기술을 포함한다. 이동 전경 영역을 성공적으로 검출하는 것은, 인터-모드 세그먼트화 동안의 ROI 피처 검출의 수행 속도를 개선시킬 수도 있다.
도 15에 도시된 실시형태에서, 또한, 비디오 소스 (12) 는, 크로미넌스 블루 채널 (Cb) (100), 크로미넌스 레드 채널 (Cr) (101) 및 루미넌스 채널 (Y) (102) 을 포함한다. ROI 오브젝트 세그먼트화 시스템 (14) 은, 도 15에 도시된 바와 같이 인터-모드 세그먼트화를 수행할 경우 배경 제거 모듈 (112) 을 더 포함한다. 이러한 경우, ROI 오브젝트 세그먼트화 시스템 (14) 은 도 6에 도시된 바와 같이 인트라-모드 세그먼트화를 수행할 경우 사용된 컴포넌트들을 또한 포함한다. 예를 들어, ROI 오브젝트 세그먼트화 시스템 (14) 은, 도 6으로부터의 안면 마스크 검출기 (64), 눈 검출기 (68), 및 입 검출기 (67) 을 포함한 ROI 피처 검출기 (104) 를 포함한다. 또한, ROI 오브젝트 세그먼트화 모듈 (14) 은, 도 6에서의 대응하는 컴포넌트들과 유사한 방식으로 동작할 수도 있는, 피처 확인 모듈 (106), 멀티-안면 분리 모듈 (108), 오브젝트 형상 근사화 모듈 (110), 영역 세그먼트화 모듈 (114), 오브젝트 생성 모듈 (116), 및 오브젝트 퓨징 모듈 (118) 을 또한 포함한다.
배경 제거 모듈 (112) 은 ROI 피처 검출기 (104) 및 영역 세그먼트화 모듈 (114) 과 상호작용하여, 인터-모드 세그먼트화를 지원한다. 배경 제거 모듈 (112) 로, 시스템 (14) 은, 비디오 시퀀스에서의 다른 비디오 프레임에 대한 이동을 나타내는 비디오 프레임의 이동 전경 영역을 식별한다. 특히, 이동 전경 영역을 식별하기 위해, 배경 제거 모듈 (112) 은, 비디오 프레임의 ROI 오브젝트내의 픽셀들의 제 1 위치들을 다른 비디오 프레임, 예를 들어, 비디오 시퀀스의 이전 프레임내의 픽셀들의 제 2 위치들과 비교한다.
그 후, 배경 제거 모듈 (112) 은 제 2 위치로부터 이동하지 않은 픽셀들을 배경 픽셀들로서 분류하고, 제 2 위치로부터 이동한 픽셀들을 전경 픽셀들로서 분류한다. 이동 전경 영역은 식별된 전경 픽셀들에 기초하여 식별된다. 그 후, 시스템 (14) 은, 이동 전경 영역 및 다른, 예를 들어, 이전의 비디오 프레임에서 이전에 식별된 전경 영역에 대응하는 비디오 프레임의 결합된 전경 영역내에서 ROI 피처들을 검출한다. 그 검출된 ROI 피처들에 기초하여, 형상 근사화 모듈 (110) 은 비디오 프레임내의 ROI 오브젝트의 형상을 근사화한다.
배경 제거 모듈 (112) 은 비디오 시퀀스의 연속하는 비디오 프레임들의 시간적인 상관을 이용한다. 배경 제거 모듈 (112) 은, 비디오 소스 (12) 로부터 수신된 비디오 시퀀스의 ROI 오브젝트내에서 픽셀들의 픽셀 단위 분류 프로세스를 수행한다. 이러한 방식으로, 배경 제거 모듈 (112) 은, 비디오 메모리 (16) 로부터 검색된 비디오 시퀀스의 이전 또는 후속 프레임과 현재 프레임 사이의 모션 정보에 기초하여, 현재 프레임의 어느 픽셀들이 배경 픽셀들인지를 결정한다. 즉, 배경 제거 모듈 (112) 은 인터-모드 동작에 이용가능한 부가적인 정보를 사용하여, 전경 오브젝트의 이동 영역을 신속하고 효율적으로 발견한다. 배경 제거 모듈 (112) 은, 그 픽셀들의 이전 위치로부터 이동하지 않는 현재 프레임의 픽셀들을 배경 픽셀들로서 다시 분류한다. 그 후, 차례로, 배경 제거 모듈 (112) 은 이러한 픽셀들의 이전 위치로부터 이동한 그 픽셀들을 전경 픽셀들로서 분류한다. 이러한 방식으로, 배경 제거 모듈 (112) 은, 모션 추정-기반 기술보다 더 효율적이며 더 낮은 복잡도를 갖는다.
배경 제거 모듈 (112) 은 하나 이상의 이점들을 제공할 수도 있다. 예를 들어, 안면 마스크의 탐색 공간은 전체 이미지로부터, 결합된 전경 영역으로 고려될 수도 있는 이동 전경 영역 플러스 이전 프레임으로부터의 안면 마스크 영역으로 감소될 수 있다. 또한, 안면 피처들은 이동 전경 영역 내부 또는 이전의 프레임에서와 동일한 위치에 존재할 것이다. 또 다른 가능한 이점으로서, 연결된 이동 전경 영역들은 동종 영역으로서 처리될 수 있다.
도 16은 "모녀" 비디오 시퀀스의 프레임들 사이에서의 픽셀 모션에 기초한 전경 픽셀 분류의 일 예를 도시한다. 도 16에서, 프레임 8 로부터 프레임 10 으로의 전경 오브젝트의 이동이 다소 작아지므로, 배경 제거 모듈 (112) 이 머리 픽셀들의 일부만을 전경 픽셀들로서 분류하는 동안, 몸의 픽셀들은 첫번째 10개의 프레임들 동안 정적이다.
픽셀 단위 분류 프로세스를 수행하기 위해, 배경 제거 모듈 (112) 은 배경 모델을 적용한다. 특히, 배경 제거 모듈 (112) 은 픽셀 강도를 모델링하기 위해 K개의 가우시안 분포들의 혼합을 적응시키며 (예를 들어, K=5), 여기서, 각각의 가우시안은 그 각각의 가우시안이 관측된 배경을 설명하는 주파수에 따라 가중된다. 따라서, 전경 영역내의 특정 픽셀이 시간 t에서 강도 Xt를 갖는 확률은,
Figure 112008063337600-pct00007
와 같이 추정되며, 여기서, wi,t 는 정규화된 가중치이고, μi 및 σi 는 i번째 분포의 평균 및 표준 편차이다.
각각의 픽셀의 혼합 모델의 파라미터들이 변하므로, 배경 제거 모듈 (112) 은, 그 혼합의 어느 가우시안이 배경 프로세스에 의해 가장 가능성있게 생성되는지를 결정한다. 경험적 정보에 기초하여, 배경 제거 모듈 (112) 은, 가장 많은 입증 자료 (supporting evidence) 및 가장 적은 분산을 갖는 가우시안 분포를 선택 한다. 이것은, K개의 분포들이 w/σ의 값에 기초하여 순서화되기 때문이다. 모델의 이러한 순서화는 효과적으로 순서화된 리스트이며, 여기서, 가장 가능성있는 배경 분포는 상단에 존재하고, 가능성이 적은 일시적인 배경 분포는 저부를 향해 하강한다. 배경 제거 모듈 (112) 은,
Figure 112008063337600-pct00008
와 같이 주어진 수학식 (6) 에 기초하여 가장 가능성있는 분포 모델을 발견할 수도 있으며, 여기서, 임계값 T는 배경에 주어진 총 가중치의 일부이다.
그 후, 배경 제거 모델 (112) 은 매칭이 발견될 때까지 기존의 K개의 가우시안 분포들에 대해 신규한 픽셀을 체크한다. 배경 제거 모듈 (112) 은, 분포의 평균과 신규한 픽셀값 사이의 거리가 분포들의 2.5 표준 편차내에 있을 경우 매칭을 발견한다. K개의 분포들 중 어떠한 것도 현재의 픽셀값에 매칭하지 않으면, w/σ의 가장 작은 값을 갖는 가장 가능성이 적은 분포는, 평균으로서 현재의 신규한 픽셀값, 초기에 높은 분산 및 낮은 이전의 가중치를 갖는 신규한 분포로 대체된다. 일반적으로, 신규한 픽셀값은, K개의 가우시안 분포들의 혼합 모델의 주요 컴포넌트들 중 하나에 의해 항상 나타낼 수 있다. 이러한 매칭된 분포가 B개의 배경 분포들 중 하나이면, 신규한 픽셀은 배경으로서 마킹 (mark) 된다. 그렇지 않으면, 그 픽셀은 전경으로서 마킹된다.
혼합 모델을 적응성으로 유지하기 위해, 배경 제거 모델 (112) 은 신규한 픽 셀값들을 사용하여 모델 파라미터들을 계속 업데이트한다. 매칭된 가우시안 분포에 있어서, 배경 제거 모듈 (112) 은 시간 t에서 이러한 신규한 픽셀 값 Xt 로 모든 파라미터들을 업데이트한다. 또한, 배경 제거 모듈 (112) 은,
Figure 112008063337600-pct00009
로서 이전의 가중치를 업데이트하고, 평균 및 분산은
Figure 112008063337600-pct00010
Figure 112008063337600-pct00011
로서 업데이트되며, 여기서, α는 적응 속도를 제어하는 학습 레이트 (learning rate) 이고, 1/α는 변경을 결정하는 시상수를 정의하며, ρ는 현재의 픽셀과 관련되고 학습 레이트 α에 의해 스케일링된 확률이다. 따라서, ρ는 다음과 같이 나타낼 수도 있다.
Figure 112008063337600-pct00012
매칭되지 않은 분포들에 있어서, 평균 μt 및 분산 σt 가 변화되지 않게 유지되는 동안, 배경 제거 모듈 (112) 은 다음과 같이 이전의 가중치를 업데이트한다.
Figure 112008063337600-pct00013
이러한 업데이트 방법의 일 이점은, 배경 제거 모듈 (112) 이 오브젝트로 하여금 배경의 일부가 되게 할 경우, 본래의 배경 모델이 파괴되지 않는다는 것이다. 즉, 본래의 배경 분포는, 그것이 가장 가능성이 적은 분포가 되고 신규한 컬러가 관측될 때까지 혼합 상태로 유지된다. 따라서, 이러한 정적 오브젝트가 다시 이동하면, 배경 제거 모듈 (112) 은 이전의 배경 분포를 그 모델로 신속하게 재통합한다.
일단 배경 제거 모듈 (112) 이 이동 픽셀들을 전경 픽셀들로서 분류하면, 영역 세그먼트화 모듈 (114) 은 그 전경 픽셀들에 대해 스플릿트-및-병합 영역 확대를 수행하여, 비디오 프레임의 이동 전경 영역을 생성할 수도 있다. 이러한 방식에서, 분류된 전경 픽셀들이 영역 확대 접근법으로부터 획득된 영역들을 병합하는데 사용되며, 그에 의해, 전경 영역들을 형성한다. 특히, 배경 제거로부터 기인하는 이동 전경 영역을 스플릿트-및-병합 확대 기술들로 퓨징함으로써, 전경 오브젝트의 이동 영역이 획득될 수 있다.
전경 픽셀들을 검출하고 이동 전경 영역을 생성하는 것은, 인터-모드 세그먼트화 프로세스의 강인성을 증가시키고 ROI 피처 검출 수행의 속도를 증가시킬 수도 있다. ROI 피처들에 대한 탐색은, 이동 전경 영역 및 이전의 프레임의 안면 마스크에 의해 형성된 전경 영역을 포함하는 결합된 전경 영역에 한정될 수 있다. 도 17은 "모녀" 비디오 시퀀스의 비디오 프레임의 배경 영역으로부터 추출된 이동 전경 영역을 도시한다.
그 후, ROI 오브젝트 세그먼트화 시스템 (14) 은 실질적으로 유사한 기술들을 사용하여, 상술된 인트라-모드 세그먼트화를 수행하는데 사용되는 바와 같이 인터-모드 세그먼트화 프로세스를 완료할 수도 있다. 예를 들어, ROI 피처 검출기 (104) 는, 이동 전경 영역 및 이전의 프레임내의 안면 마스크 및 안면 피처 위치에 의해 형성되는 결합된 전경 영역내에서 그 안면 마스크 및 안면 피처를 검출한다. 이러한 방식으로, 배경 제거 모듈 (112) 은 전체 비디오 프레임내에서 ROI 피처 검출을 수행하는 계산 복잡도를 감소시킨다. 그 후, 오브젝트 퓨징 모듈 (118) 은 그 전경 오브젝트들을 병합하여, 출력 이미지를 형성한다. ROI 오브젝트 세그먼트화 모듈 (14) 은 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다.
도시된 실시형태에서, 비디오 시퀀스 동안 신규한 안면 또는 안면 피처가 도입되지 않는다. 따라서, ROI 피처 검출기 (104) 와 오브젝트 형상 근사화 모듈 (110) 사이에서 연장하는 파선에 의해 표시된 바와 같이, ROI 오브젝트 세그먼트화 시스템 (14) 은 인터-모드 세그먼트화를 수행할 경우 피처 확인 모듈 (106) 및 멀티-안면 분리 모듈 (108) 을 스킵할 수도 있다. 특히, 이전의 프레임에서의 오브젝트가 현저한 이동을 나타내지 않는다는 것을 의미하는, 검출된 안면 피처들이 이전의 프레임에서의 피처들에 근접하여 위치되면, 현재 프레임의 오브젝트는, 피처 확인 모듈 (106) 및 멀티-안면 분리 모듈 (108) 의 기능을 적용할 필요없이, 오 브젝트 형상 근사화 모듈 (110) 및 오브젝트 생성 모듈 (116) 을 사용함으로써 신속하게 생성될 수 있다.
그렇지 않고 신규한 안면들 또는 안면 피처들이 도입되면, 전체 프로세스가 적용되며, 즉, 피처 확인 모듈 (106), 멀티-안면 분리 모듈 (108), 오브젝트 형상 근사화 모듈 (110) 및 오브젝트 생성 모듈 (116) 이 적용된다. 오브젝트 생성 모듈 (116) 에서, 연결된 이동 전경 영역들은 동종 영역들로서 처리된다. 오브젝트 퓨징 모듈 (118) 은 전경 오브젝트들을 병합하여 출력 이미지를 형성한다. ROI 오브젝트 세그먼트화 시스템 (14) 은 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다.
안면 마스크 및 안면 피처 검출기 (104) 는 인터-모드 세그먼트화 동안 비디오 프레임내에서 부가적인 ROI 피처들을 검출할 수도 있다. 이러한 경우에서, ROI 오브젝트 세그먼트화 시스템 (14) 은 피처 확인 모듈 (106) 을 사용하여, 신규하게 검출된 안면 피처들을 확인할 수도 있다. 또한, 시스템 (14) 은, 비디오 프레임에 포함된 신규한 안면들에 대하여, 오브젝트 형상 근사화 모듈 (110) 및 오브젝트 생성 모듈 (116) 에 선행하여 멀티-안면 분리 모듈 (108) 을 사용할 수도 있다.
도 18은 인터-모드 세그먼트화를 수행하는 ROI 오브젝트 세그먼트화 시스템 (14) 의 동작을 도시한 흐름도이다. 그 동작은, 도 15에 도시된 ROI 오브젝트 세그먼트화 시스템 (14) 을 참조하여 여기에 설명될 것이다. ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 소스 (12) 로부터 비디오 시퀀스의 프레임을 수신 하고, 비디오 메모리 (16) 로부터 비디오 시퀀스의 이전 프레임을 검색한다 (120). 인터-모드 세그먼트화의 경우에서, ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 시퀀스의 현재 프레임과 이전 프레임 사이에서의 ROI 오브젝트에 대한 모션 정보에 기초하여 비디오 시퀀스의 프레임을 프로세싱한다. 몇몇 실시형태에서, ROI 오브젝트 세그먼트화 시스템 (14) 은 후속 비디오 프레임에 대한 ROI 오브젝트 모션을 나타내는 모션 정보를 대안적으로 또는 추가적으로 사용할 수도 있다.
배경 제거 모듈 (112) 은 수신 비디오 프레임에 대해 배경 제거를 수행하여, 이전 프레임과 현재 프레임 사이의 ROI 오브젝트내의 이동 픽셀들을 전경 픽셀들로서 분류한다 (122). 배경 제거 모듈 (112) 은, 현재 프레임의 어느 픽셀들이 이전 프레임에서의 그들의 이전 위치로부터 이동하는지를 결정하기 위해 픽셀 단위분류 프로세스를 수행한다. 일단 배경 제거 모듈 (112) 이 이동 픽셀들을 전경 픽셀들로서 분류하면, 영역 세그먼트화 모듈 (114) 은 전경 픽셀들에 대해 스플릿트-및-병합 영역 확대를 수행하여, 비디오 프레임의 이동 전경 영역을 생성할 수도 있다 (124).
그 후, ROI 오브젝트 세그먼트화 시스템 (14) 은 실질적으로 유사한 기술들을 사용하여, 상술된 인트라-모드를 수행하는데 사용된 바와 같이 인터-모드 세그먼트화 프로세스를 완료할 수도 있다. ROI 피처 검출기 (104) 는 이동 전경 영역 및 이전 프레임으로부터의 안면 마스크 위치 양자를 포함하는 영역, 즉, 결합된 전경 영역내에서 안면 마스크를 검출한다 (126). 또한, ROI 피처 검출기 (104) 는, 이동 전경 영역 및 이전 프레임내의 안면 피처 위치들을 포함하는 결합된 전경 영역내에서 안면 피처들, 예를 들어, 눈 및 입 후보들을 검출한다 (128).
ROI 피처 검출기 (104) 에 의해 검출된 안면 피처들이 이전 프레임에서 검출된 안면 피처들에 근접하여 위치되면 (130), 이전 프레임에서의 오브젝트는 현저한 이동을 나타내지 않는다. 이러한 경우, 피처 확인 모듈 (106) 의 기능 (132) 및 멀티-안면 분리 모듈 (108) 의 기능 (134) 을 스킵하면서, 오브젝트 형상 근사화 모듈 (110) 을 사용 (136) 하고 오브젝트 생성 모듈 (116) 을 사용 (138) 함으로써 현재 프레임의 오브젝트가 신속하게 형성될 수 있다.
그렇지 않고 ROI 피처 검출기 (104) 에 의해 검출된 안면 피처들이 이전 프레임에서 검출된 안면 피처들에 근접하여 위치되지 않으면, 이전 프레임에서의 오브젝트는 현저하게 이동한다. 이러한 경우, 전체 프로세스가 적용된다. 특히, 피처 확인 모듈 (106) 은 검출된 피처들을 확인하고 (132), 멀티-안면 분리 모듈 (108) 은 안면 분리를 수행한다 (134). 그 후, 오브젝트 형상 근사화 모듈 (110) 이 적용되고 (136), 그 후, 오브젝트 생성 모듈 (116) 이 적용된다 (138). 오브젝트 생성 모듈 (116) 에서, 연결된 이동 전경 영역들은 동종 영역들로서 처리되어 오브젝트를 생성한다 (138). 그 후, 오브젝트 퓨징 모듈 (118) 은 전경 오브젝트들을 병합하여 출력 이미지를 형성한다 (140). ROI 오브젝트 세그먼트화 시스템 (14) 은 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다 (142).
여기에 설명된 기술들은, 하드웨어, 소프트웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현되면, 기술들은, 실행될 때 상술된 방 법들 중 하나 이상을 수행하는 명령들을 포함한 프로그램 코드를 포함하는 컴퓨터 판독가능 매체에 의해 부분적으로 실현될 수도 있다. 이러한 경우, 컴퓨터 판독가능 매체는, 동기식 동적 랜덤 액세스 메모리 (SDRAM) 와 같은 랜덤 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 랜덤 액세스 메모리 (NVRAM), 전기적으로 소거가능한 프로그래밍가능 판독-전용 메모리 (EEPROM), 플래시 메모리, 자성 또는 광학 데이터 저장 매체 등을 포함할 수도 있다.
프로그램 코드는, 하나 이상의 디지털 신호 프로세서 (DSP), 범용 마이크로프로세서, 주문형 집적회로 (ASIC), 필드 프로그래밍가능 로직 어레이 (FPGA), 또는 동등한 집적 또는 별개의 로직 회로의 다른 조합들에 의해 실현될 수도 있는 프로그래밍가능한 프로세서에 의해 실행될 수도 있다. 몇몇 실시형태에서, 여기에 설명된 기능은, 자동적인 오브젝트 세그먼트화를 위해 구성되거나 자동적인 오브젝트 세그먼트화 시스템에 통합되는 전용 소프트웨어 모듈 또는 하드웨어 유닛들내에서 제공될 수도 있다.
본 발명에서, 비디오 시퀀스로부터의 ROI 오브젝트의 자동적인 세그먼트화를 위한 다양한 기술들이 설명되었다. ROI 오브젝트 세그먼트화 시스템은, VT 애플리케이션, 비디오 스트리밍 애플리케이션 또는 비디오 감시 애플리케이션과 같은 멀티미디어 애플리케이션에서의 사용을 위해 정확하게 세그먼트화된 ROI 오브젝트를 제공하기 위하여, 개시된 기술들 중 하나 이상을 개별적으로 또는 조합하여 구현할 수도 있다.
개시된 기술들은, ROI 피처 검출, 영역 세그먼트화, 및 배경 제거를 포함하 는 하이브리드 기술을 포함한다. 개시된 기술들은 인트라-모드 및 인터-모드 오브젝트 세그먼트화 양자를 포함할 수도 있다. 인터-모드 세그먼트화는 종래의 계산 집약적인 모션 추정 동작 대신에 배경 모델링 및 감산을 사용함으로써 비디오 시퀀스의 연속하는 비디오 프레임들의 시간적인 상관을 이용하여, ROI 오브젝트 세그먼트화 시스템의 수행 속도를 증가시킨다. 또한, 개시된 기술들은, ROI 오브젝트 세그먼트화 시스템에 의한 인트라-모드 세그먼트화 수행의 속도를 증가시키기 위해, 안면 피처 확인, 멀티-안면 분리, 및 ROI 오브젝트 생성을 포함한다. 이들 및 다른 실시형태들은 다음의 청구항의 범위내에 있다.

Claims (31)

  1. 삭제
  2. 삭제
  3. 비디오 시퀀스로부터 관심 영역 (ROI) 오브젝트의 자동 세그먼트화를 위한 방법으로서,
    비디오 시퀀스의 비디오 프레임을 수신하는 단계;
    적어도 제 1 세그먼트화 모드 및 제 2 세그먼트화 모드로부터 세그먼트화 모드를 선택하기 위해, 하나 이상의 세그먼트화 모드 결정 인자들을 상기 비디오 프레임에 적용하는 단계;
    상기 제 1 세그먼트화 모드가 선택될 경우, 상기 비디오 프레임에 대한 모션 정보를 참조하지 않고 상기 비디오 프레임으로부터 관심 영역 (ROI) 오브젝트를 세그먼트화하는 단계; 및
    상기 제 2 세그먼트화 모드가 선택될 경우, 상기 비디오 시퀀스의 상기 비디오 프레임 및 다른 비디오 프레임에 대한 모션 정보에 기초하여, 상기 비디오 프레임으로부터 ROI 오브젝트를 세그먼트화하는 단계를 포함하고,
    상기 하나 이상의 세그먼트화 모드 결정 인자들을 적용하는 단계는,
    상기 비디오 프레임의 계산 복잡도를 결정하는 단계; 및
    상기 계산 복잡도가 미리-결정된 레벨을 초과할 경우 상기 제 1 세그먼트화 모드를 선택하는 단계를 포함하는, ROI 오브젝트의 자동 세그먼트화 방법.
  4. 제 3 항에 있어서,
    상기 계산 복잡도를 결정하는 단계는 상기 비디오 프레임내의 ROI 피처들의 수를 결정하는 단계를 포함하는, ROI 오브젝트의 자동 세그먼트화 방법.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 비디오 시퀀스로부터 관심 영역 (ROI) 오브젝트의 자동 세그먼트화를 위한 방법으로서,
    비디오 시퀀스의 비디오 프레임을 수신하는 단계;
    적어도 제 1 세그먼트화 모드 및 제 2 세그먼트화 모드로부터 세그먼트화 모드를 선택하기 위해, 하나 이상의 세그먼트화 모드 결정 인자들을 상기 비디오 프레임에 적용하는 단계;
    상기 제 1 세그먼트화 모드가 선택될 경우, 상기 비디오 프레임에 대한 모션 정보를 참조하지 않고 상기 비디오 프레임으로부터 관심 영역 (ROI) 오브젝트를 세그먼트화하는 단계; 및
    상기 제 2 세그먼트화 모드가 선택될 경우, 상기 비디오 시퀀스의 상기 비디오 프레임 및 다른 비디오 프레임에 대한 모션 정보에 기초하여, 상기 비디오 프레임으로부터 ROI 오브젝트를 세그먼트화하는 단계를 포함하고,
    상기 하나 이상의 세그먼트화 모드 결정 인자들을 적용하는 단계는,
    상기 비디오 시퀀스의 상기 비디오 프레임과 상기 다른 비디오 프레임 사이의 모션 활성도의 양을 결정하는 단계, 및
    상기 모션 활성도의 양이 미리-결정된 레벨을 초과할 경우 상기 제 1 세그먼트화 모드를 선택하는 단계를 포함하는, ROI 오브젝트의 자동 세그먼트화 방법.
  9. 제 8 항에 있어서,
    상기 모션 활성도의 양을 결정하는 단계는, 상기 비디오 프레임내의 ROI 오브젝트의 제 1 위치를 상기 다른 비디오 프레임내의 ROI 오브젝트의 제 2 위치와 비교하여, 상기 제 1 위치와 상기 제 2 위치 사이의 이동량을 결정하는 단계를 포함하는, ROI 오브젝트의 자동 세그먼트화 방법.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 실행시 프로그래밍가능한 프로세서로 하여금 비디오 시퀀스로부터 관심 영역 (ROI) 오브젝트의 자동 세그먼트화를 위한 방법을 수행하게 하는 명령들을 포함하는 프로그램 코드를 포함하는 컴퓨터-판독가능 기록 매체로서,
    상기 방법은,
    비디오 시퀀스의 비디오 프레임을 수신하는 단계;
    적어도 제 1 세그먼트화 모드 및 제 2 세그먼트화 모드로부터 세그먼트화 모드를 선택하기 위해, 하나 이상의 세그먼트화 모드 결정 인자들을 상기 비디오 프레임에 적용하는 단계;
    상기 제 1 세그먼트화 모드가 선택될 경우, 상기 비디오 프레임에 대한 모션 정보를 참조하지 않고 상기 비디오 프레임으로부터 관심 영역 (ROI) 오브젝트를 세그먼트화하는 단계; 및
    상기 제 2 세그먼트화 모드가 선택될 경우, 상기 비디오 시퀀스의 상기 비디오 프레임 및 다른 비디오 프레임에 대한 모션 정보에 기초하여, 상기 비디오 프레임으로부터 ROI 오브젝트를 세그먼트화하는 단계를 포함하고,
    상기 하나 이상의 세그먼트화 모드 결정 인자들을 적용하는 단계는,
    상기 비디오 프레임의 계산 복잡도를 결정하는 단계, 및
    상기 계산 복잡도가 미리-결정된 레벨을 초과할 경우 상기 제 1 세그먼트화 모드를 선택하는 단계를 포함하는, 컴퓨터-판독가능 기록 매체.
  14. 제 13 항에 있어서,
    상기 계산 복잡도를 결정하는 단계는, 상기 비디오 프레임 내의 ROI 피처들의 수를 결정하는 단계를 포함하는, 컴퓨터-판독가능 기록 매체.
  15. 삭제
  16. 삭제
  17. 삭제
  18. 실행시 프로그래밍가능한 프로세서로 하여금 비디오 시퀀스로부터 관심 영역 (ROI) 오브젝트의 자동 세그먼트화를 위한 방법을 수행하게 하는 명령들을 포함하는 프로그램 코드를 포함하는 컴퓨터-판독가능 기록 매체로서,
    상기 방법은,
    비디오 시퀀스의 비디오 프레임을 수신하는 단계;
    적어도 제 1 세그먼트화 모드 및 제 2 세그먼트화 모드로부터 세그먼트화 모드를 선택하기 위해, 하나 이상의 세그먼트화 모드 결정 인자들을 상기 비디오 프레임에 적용하는 단계;
    상기 제 1 세그먼트화 모드가 선택될 경우, 상기 비디오 프레임에 대한 모션 정보를 참조하지 않고 상기 비디오 프레임으로부터 관심 영역 (ROI) 오브젝트를 세그먼트화하는 단계; 및
    상기 제 2 세그먼트화 모드가 선택될 경우, 상기 비디오 시퀀스의 상기 비디오 프레임 및 다른 비디오 프레임에 대한 모션 정보에 기초하여, 상기 비디오 프레임으로부터 ROI 오브젝트를 세그먼트화하는 단계를 포함하고,
    상기 하나 이상의 세그먼트화 모드 결정 인자들을 적용하는 단계는,
    상기 비디오 시퀀스의 상기 비디오 프레임과 상기 다른 비디오 프레임 사이의 모션 활성도의 양을 결정하는 단계, 및
    상기 모션 활성도의 양이 미리-결정된 레벨을 초과할 경우 상기 제 1 세그먼트화 모드를 선택하는 단계를 포함하는, 컴퓨터-판독가능 기록 매체.
  19. 제 18 항에 있어서,
    상기 모션 활성도의 양을 결정하는 단계는,
    상기 비디오 프레임내의 ROI 오브젝트의 제 1 위치를 상기 다른 비디오 프레임내의 ROI 오브젝트의 제 2 위치와 비교하여, 상기 제 1 위치와 상기 제 2 위치 사이의 이동량을 결정하는 단계를 포함하는, 컴퓨터-판독가능 기록 매체.
  20. 삭제
  21. 삭제
  22. 삭제
  23. 비디오 시퀀스의 비디오 프레임을 수신하고;
    적어도 제 1 세그먼트화 모드 및 제 2 세그먼트화 모드로부터 세그먼트화 모드를 선택하기 위해, 하나 이상의 세그먼트화 모드 결정 인자들을 상기 비디오 프레임에 적용하고;
    상기 제 1 세그먼트화 모드가 선택될 경우, 상기 비디오 프레임에 대한 모션 정보를 참조하지 않고 상기 비디오 프레임으로부터의 관심 영역 (ROI) 오브젝트를 세그먼트화하며; 그리고,
    상기 제 2 세그먼트화 모드가 선택될 경우, 상기 비디오 시퀀스의 상기 비디오 프레임 및 다른 비디오 프레임에 대한 모션 정보에 기초하여, 상기 비디오 프레임으로부터 ROI 오브젝트를 세그먼트화하도록 프로그래밍된 프로세서를 포함하고,
    상기 프로세서는,
    상기 비디오 프레임의 계산 복잡도를 결정하고,
    상기 계산 복잡도가 미리-결정된 레벨을 초과할 경우 상기 제 1 세그먼트화 모드를 선택하는, 비디오 인코딩 디바이스.
  24. 제 23 항에 있어서,
    상기 프로세서는 상기 비디오 프레임내의 ROI 피처들의 수를 결정하는, 비디오 인코딩 디바이스.
  25. 삭제
  26. 삭제
  27. 삭제
  28. 비디오 시퀀스의 비디오 프레임을 수신하고;
    적어도 제 1 세그먼트화 모드 및 제 2 세그먼트화 모드로부터 세그먼트화 모드를 선택하기 위해, 하나 이상의 세그먼트화 모드 결정 인자들을 상기 비디오 프레임에 적용하고;
    상기 제 1 세그먼트화 모드가 선택될 경우, 상기 비디오 프레임에 대한 모션 정보를 참조하지 않고 상기 비디오 프레임으로부터 관심 영역 (ROI) 오브젝트를 세그먼트화하며; 그리고,
    상기 제 2 세그먼트화 모드가 선택될 경우, 상기 비디오 시퀀스의 상기 비디오 프레임 및 다른 비디오 프레임에 대한 모션 정보에 기초하여, 상기 비디오 프레임으로부터 ROI 오브젝트를 세그먼트화하도록 프로그래밍된 프로세서를 포함하고,
    상기 프로세서는,
    상기 비디오 시퀀스의 상기 비디오 프레임과 상기 다른 비디오 프레임 사이의 모션 활성도의 양을 결정하고,
    상기 모션 활성도의 양이 미리-결정된 레벨을 초과할 경우 상기 제 1 세그먼트화 모드를 선택하는, 비디오 인코딩 디바이스.
  29. 제 28 항에 있어서,
    상기 프로세서는, 상기 비디오 프레임내의 ROI 오브젝트의 제 1 위치를 상기 다른 비디오 프레임내의 ROI 오브젝트의 제 2 위치와 비교하여, 상기 제 1 위치와 상기 제 2 위치 사이의 이동량을 결정하는, 비디오 인코딩 디바이스.
  30. 삭제
  31. 삭제
KR1020087021818A 2006-02-07 2007-02-07 멀티-모드 관심-영역 비디오 오브젝트 세그먼트화 KR100997064B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/349,659 2006-02-07
US11/349,659 US8150155B2 (en) 2006-02-07 2006-02-07 Multi-mode region-of-interest video object segmentation

Publications (2)

Publication Number Publication Date
KR20080100242A KR20080100242A (ko) 2008-11-14
KR100997064B1 true KR100997064B1 (ko) 2010-11-29

Family

ID=38037461

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087021818A KR100997064B1 (ko) 2006-02-07 2007-02-07 멀티-모드 관심-영역 비디오 오브젝트 세그먼트화

Country Status (7)

Country Link
US (2) US8150155B2 (ko)
EP (3) EP2378486B1 (ko)
JP (1) JP4819912B2 (ko)
KR (1) KR100997064B1 (ko)
CN (1) CN101375312B (ko)
AT (1) ATE520102T1 (ko)
WO (1) WO2007092906A1 (ko)

Families Citing this family (181)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8902971B2 (en) 2004-07-30 2014-12-02 Euclid Discoveries, Llc Video compression repository and model reuse
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
US8942283B2 (en) 2005-03-31 2015-01-27 Euclid Discoveries, Llc Feature-based hybrid video codec comparing compression efficiency of encodings
US8908766B2 (en) * 2005-03-31 2014-12-09 Euclid Discoveries, Llc Computer method and apparatus for processing image data
US8208758B2 (en) 2005-10-05 2012-06-26 Qualcomm Incorporated Video sensor-based automatic region-of-interest detection
US8019170B2 (en) 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US8265349B2 (en) 2006-02-07 2012-09-11 Qualcomm Incorporated Intra-mode region-of-interest video object segmentation
US8265392B2 (en) 2006-02-07 2012-09-11 Qualcomm Incorporated Inter-mode region-of-interest video object segmentation
US8150155B2 (en) * 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
CN101496387B (zh) 2006-03-06 2012-09-05 思科技术公司 用于移动无线网络中的接入认证的系统和方法
US8553782B2 (en) * 2007-01-23 2013-10-08 Euclid Discoveries, Llc Object archival systems and methods
JP2010517427A (ja) 2007-01-23 2010-05-20 ユークリッド・ディスカバリーズ・エルエルシー 個人向けのビデオサービスを提供するシステムおよび方法
US7751620B1 (en) * 2007-01-25 2010-07-06 Bitdefender IPR Management Ltd. Image spam filtering systems and methods
US8446454B2 (en) 2007-05-21 2013-05-21 Polycom, Inc. Dynamic adaption of a continuous presence videoconferencing layout based on video content
WO2008150840A1 (en) * 2007-05-29 2008-12-11 University Of Iowa Research Foundation Methods and systems for determining optimal features for classifying patterns or objects in images
AU2008202703B2 (en) * 2007-06-20 2012-03-08 Mcomms Design Pty Ltd Apparatus and method for providing multimedia content
US8396296B2 (en) * 2007-12-31 2013-03-12 Intel Corporation Brand image detection
US8797377B2 (en) 2008-02-14 2014-08-05 Cisco Technology, Inc. Method and system for videoconference configuration
US8319819B2 (en) 2008-03-26 2012-11-27 Cisco Technology, Inc. Virtual round-table videoconference
US8390667B2 (en) 2008-04-15 2013-03-05 Cisco Technology, Inc. Pop-up PIP for people not in picture
US8306262B2 (en) * 2008-05-15 2012-11-06 Arcsoft, Inc. Face tracking method for electronic camera device
US8527525B2 (en) * 2008-06-30 2013-09-03 Microsoft Corporation Providing multiple degrees of context for content consumed on computers and media players
US8218831B2 (en) * 2008-06-30 2012-07-10 Cisco Technology, Inc. Combined face detection and background registration
US9141863B2 (en) * 2008-07-21 2015-09-22 Facefirst, Llc Managed biometric-based notification system and method
US8699858B2 (en) * 2008-08-29 2014-04-15 Adobe Systems Incorporated Combined visual and auditory processing
US8694658B2 (en) 2008-09-19 2014-04-08 Cisco Technology, Inc. System and method for enabling communication sessions in a network environment
US8265167B2 (en) * 2008-10-31 2012-09-11 Sprint Communications Company L.P. Application specific video format
KR20100065677A (ko) * 2008-12-08 2010-06-17 한국전자통신연구원 고해상도 영상에서의 효과적인 움직이는 다중 물체 검출 방법 및 시스템
US8548257B2 (en) * 2009-01-05 2013-10-01 Apple Inc. Distinguishing between faces and non-faces
US8385638B2 (en) 2009-01-05 2013-02-26 Apple Inc. Detecting skin tone in images
CN102576412B (zh) 2009-01-13 2014-11-05 华为技术有限公司 图像处理以为图像中的对象进行分类的方法和系统
EP2382532B1 (en) * 2009-01-24 2020-10-21 Hewlett-Packard Development Company, L.P. System and method for enhancing security printing
US8659637B2 (en) 2009-03-09 2014-02-25 Cisco Technology, Inc. System and method for providing three dimensional video conferencing in a network environment
US8659639B2 (en) 2009-05-29 2014-02-25 Cisco Technology, Inc. System and method for extending communications between participants in a conferencing environment
US8345990B2 (en) * 2009-08-03 2013-01-01 Indian Institute Of Technology Bombay System for creating a capsule representation of an instructional video
US9082297B2 (en) 2009-08-11 2015-07-14 Cisco Technology, Inc. System and method for verifying parameters in an audiovisual environment
US8498453B1 (en) * 2009-09-30 2013-07-30 Lifetouch, Inc. Evaluating digital images using head points
CN102170552A (zh) * 2010-02-25 2011-08-31 株式会社理光 一种视频会议系统及其中使用的处理方法
US9225916B2 (en) 2010-03-18 2015-12-29 Cisco Technology, Inc. System and method for enhancing video images in a conferencing environment
JP2011210139A (ja) * 2010-03-30 2011-10-20 Sony Corp 画像処理装置および方法、並びにプログラム
US9313452B2 (en) 2010-05-17 2016-04-12 Cisco Technology, Inc. System and method for providing retracting optics in a video conferencing environment
US8698961B2 (en) 2010-05-21 2014-04-15 Vixs Systems, Inc. Enhanced histogram equalization
US8599318B2 (en) * 2010-05-21 2013-12-03 Vixs Systems, Inc. Contrast control device and method therefor
US8896655B2 (en) 2010-08-31 2014-11-25 Cisco Technology, Inc. System and method for providing depth adaptive video conferencing
US8599934B2 (en) 2010-09-08 2013-12-03 Cisco Technology, Inc. System and method for skip coding during video conferencing in a network environment
IT1402430B1 (it) * 2010-09-17 2013-09-04 St Microelectronics Srl "procedimento e dispositivo per l'elaborazione di segnali video, trasmettitore o prodotto informatico relativi"
US8599865B2 (en) 2010-10-26 2013-12-03 Cisco Technology, Inc. System and method for provisioning flows in a mobile network environment
CN102232220B (zh) * 2010-10-29 2014-04-30 华为技术有限公司 一种视频兴趣物体提取与关联的方法及系统
US8699457B2 (en) 2010-11-03 2014-04-15 Cisco Technology, Inc. System and method for managing flows in a mobile network environment
US9143725B2 (en) 2010-11-15 2015-09-22 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US8902244B2 (en) 2010-11-15 2014-12-02 Cisco Technology, Inc. System and method for providing enhanced graphics in a video environment
US9338394B2 (en) 2010-11-15 2016-05-10 Cisco Technology, Inc. System and method for providing enhanced audio in a video environment
US8730297B2 (en) 2010-11-15 2014-05-20 Cisco Technology, Inc. System and method for providing camera functions in a video environment
US8542264B2 (en) 2010-11-18 2013-09-24 Cisco Technology, Inc. System and method for managing optics in a video environment
US8723914B2 (en) 2010-11-19 2014-05-13 Cisco Technology, Inc. System and method for providing enhanced video processing in a network environment
US9111138B2 (en) 2010-11-30 2015-08-18 Cisco Technology, Inc. System and method for gesture interface control
WO2012078636A1 (en) 2010-12-07 2012-06-14 University Of Iowa Research Foundation Optimal, user-friendly, object background separation
USD682854S1 (en) 2010-12-16 2013-05-21 Cisco Technology, Inc. Display screen for graphical user interface
AU2010257409B2 (en) * 2010-12-23 2013-01-31 Canon Kabushiki Kaisha Temporal-correlation-based mode connection
EP2665406B1 (en) 2011-01-20 2021-03-10 University of Iowa Research Foundation Automated determination of arteriovenous ratio in images of blood vessels
US9544543B2 (en) 2011-02-11 2017-01-10 Tangome, Inc. Augmenting a video conference
US8665307B2 (en) * 2011-02-11 2014-03-04 Tangome, Inc. Augmenting a video conference
US8692862B2 (en) 2011-02-28 2014-04-08 Cisco Technology, Inc. System and method for selection of video data in a video conference environment
US8380711B2 (en) * 2011-03-10 2013-02-19 International Business Machines Corporation Hierarchical ranking of facial attributes
US9271035B2 (en) 2011-04-12 2016-02-23 Microsoft Technology Licensing, Llc Detecting key roles and their relationships from video
US8670019B2 (en) 2011-04-28 2014-03-11 Cisco Technology, Inc. System and method for providing enhanced eye gaze in a video conferencing environment
US8786631B1 (en) 2011-04-30 2014-07-22 Cisco Technology, Inc. System and method for transferring transparency information in a video environment
US8934026B2 (en) 2011-05-12 2015-01-13 Cisco Technology, Inc. System and method for video coding in a dynamic environment
US9560314B2 (en) 2011-06-14 2017-01-31 Microsoft Technology Licensing, Llc Interactive and shared surfaces
KR101311100B1 (ko) * 2011-08-27 2013-09-25 고려대학교 산학협력단 천장 임의 형상 특성 활용 이동 로봇 위치 인식 방법
GB2497915B (en) 2011-10-25 2015-09-09 Skype Estimating quality of a video signal
US9025835B2 (en) 2011-10-28 2015-05-05 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US9025836B2 (en) * 2011-10-28 2015-05-05 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US8938100B2 (en) 2011-10-28 2015-01-20 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US9008436B2 (en) * 2011-10-28 2015-04-14 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
US8811747B2 (en) * 2011-10-28 2014-08-19 Intellectual Ventures Fund 83 Llc Image recomposition from face detection and facial features
KR101960844B1 (ko) 2011-11-01 2019-03-22 삼성전자주식회사 영상 처리 장치 및 방법
US8947493B2 (en) 2011-11-16 2015-02-03 Cisco Technology, Inc. System and method for alerting a participant in a video conference
US20140003662A1 (en) * 2011-12-16 2014-01-02 Peng Wang Reduced image quality for video data background regions
US8682087B2 (en) 2011-12-19 2014-03-25 Cisco Technology, Inc. System and method for depth-guided image filtering in a video conference environment
US8619148B1 (en) 2012-01-04 2013-12-31 Audience, Inc. Image correction after combining images from multiple cameras
WO2013103523A1 (en) * 2012-01-04 2013-07-11 Audience, Inc. Image enhancement methods and systems
US9262670B2 (en) * 2012-02-10 2016-02-16 Google Inc. Adaptive region of interest
JP5984439B2 (ja) * 2012-03-12 2016-09-06 キヤノン株式会社 画像表示装置、画像表示方法
US9092675B2 (en) 2012-03-29 2015-07-28 The Nielsen Company (Us), Llc Methods and apparatus to count people in images
KR20130111061A (ko) * 2012-03-30 2013-10-10 한국전자통신연구원 이진 분할 트리를 이용한 영상 인코딩 방법
US10469851B2 (en) 2012-04-16 2019-11-05 New Cinema, LLC Advanced video coding method, system, apparatus, and storage medium
US20150312575A1 (en) * 2012-04-16 2015-10-29 New Cinema, LLC Advanced video coding method, system, apparatus, and storage medium
US9070004B2 (en) * 2012-05-03 2015-06-30 General Electric Company Automatic segmentation and characterization of cellular motion
WO2013165614A1 (en) 2012-05-04 2013-11-07 University Of Iowa Research Foundation Automated assessment of glaucoma loss from optical coherence tomography
CN103581603B (zh) * 2012-07-24 2017-06-27 联想(北京)有限公司 一种多媒体数据的传输方法及电子设备
TWI511101B (zh) * 2012-08-17 2015-12-01 Active Learning Solutions Ltd 供教室主動學習之方法與系統
GB2513090B (en) 2013-01-28 2019-12-11 Microsoft Technology Licensing Llc Conditional concealment of lost video data
KR20140098959A (ko) * 2013-01-31 2014-08-11 한국전자통신연구원 증거 영상 생성 장치 및 방법
US9754154B2 (en) 2013-02-15 2017-09-05 Microsoft Technology Licensing, Llc Identification using depth-based head-detection data
US9544550B1 (en) * 2013-03-14 2017-01-10 Hrl Laboratories, Llc Low power surveillance camera system for intruder detection
US10462365B1 (en) 2013-03-14 2019-10-29 Hrl Laboratories, Llc Low power surveillance system
US10528818B1 (en) * 2013-03-14 2020-01-07 Hrl Laboratories, Llc Video scene analysis system for situational awareness
WO2014143891A1 (en) 2013-03-15 2014-09-18 University Of Iowa Research Foundation Automated separation of binary overlapping trees
WO2014175919A1 (en) 2013-04-26 2014-10-30 Intel IP Corporation Shared spectrum reassignment in a spectrum sharing context
US9843621B2 (en) 2013-05-17 2017-12-12 Cisco Technology, Inc. Calendaring activities based on communication processing
CN103297801A (zh) * 2013-06-09 2013-09-11 浙江理工大学 一种针对视频会议的无参考视频质量评价方法
US9094667B1 (en) * 2013-10-31 2015-07-28 Electronic Arts Inc. Encoding of computer-generated video content
IN2013CH05313A (ko) * 2013-11-18 2015-05-29 Nokia Corp
US10346465B2 (en) * 2013-12-20 2019-07-09 Qualcomm Incorporated Systems, methods, and apparatus for digital composition and/or retrieval
US9589595B2 (en) 2013-12-20 2017-03-07 Qualcomm Incorporated Selection and tracking of objects for display partitioning and clustering of video frames
US20150189191A1 (en) * 2013-12-27 2015-07-02 Telemetrio LLC Process and system for video production and tracking of objects
US9386275B2 (en) 2014-01-06 2016-07-05 Intel IP Corporation Interactive video conferencing
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
CA2942336A1 (en) 2014-03-10 2015-09-17 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
WO2015143435A1 (en) 2014-03-21 2015-09-24 University Of Iowa Research Foundation Graph search using non-euclidean deformed graph
GB2525587A (en) * 2014-04-14 2015-11-04 Quantum Vision Technologies Ltd Monocular camera cognitive imaging system for a vehicle
KR20160020917A (ko) * 2014-08-14 2016-02-24 삼성전자주식회사 컴퓨터 보조 진단 장치 및 방법
US10620826B2 (en) * 2014-08-28 2020-04-14 Qualcomm Incorporated Object selection based on region of interest fusion
US10115194B2 (en) 2015-04-06 2018-10-30 IDx, LLC Systems and methods for feature detection in retinal images
US9542751B2 (en) 2015-05-08 2017-01-10 Qualcomm Incorporated Systems and methods for reducing a plurality of bounding regions
CN104992418B (zh) * 2015-07-07 2018-11-20 华东理工大学 一种适用于热像视频彩色化的异常色校正方法
US10043075B2 (en) * 2015-11-19 2018-08-07 Microsoft Technology Licensing, Llc Eye feature identification
CN105426515B (zh) * 2015-12-01 2018-12-18 小米科技有限责任公司 视频归类方法及装置
FR3046519B1 (fr) * 2016-01-04 2022-11-04 Netatmo Dispositif d'eclairage automatique
US9865062B2 (en) 2016-02-12 2018-01-09 Qualcomm Incorporated Systems and methods for determining a region in an image
EP3287947A1 (en) * 2016-08-25 2018-02-28 Dolby Laboratories Licensing Corp. Automatic video framing of conference participants
CN106331711B (zh) * 2016-08-26 2019-07-05 北京工业大学 一种基于网络特征与视频特征的动态码率控制方法
US20180082428A1 (en) * 2016-09-16 2018-03-22 Qualcomm Incorporated Use of motion information in video data to track fast moving objects
US10902249B2 (en) 2016-10-31 2021-01-26 Hewlett-Packard Development Company, L.P. Video monitoring
KR102561305B1 (ko) * 2016-11-03 2023-07-31 한화비전 주식회사 영상 제공 장치 및 방법
US10635981B2 (en) 2017-01-18 2020-04-28 Microsoft Technology Licensing, Llc Automated movement orchestration
US10637814B2 (en) 2017-01-18 2020-04-28 Microsoft Technology Licensing, Llc Communication routing based on physical status
US10437884B2 (en) 2017-01-18 2019-10-08 Microsoft Technology Licensing, Llc Navigation of computer-navigable physical feature graph
US10482900B2 (en) 2017-01-18 2019-11-19 Microsoft Technology Licensing, Llc Organization of signal segments supporting sensed features
US11094212B2 (en) 2017-01-18 2021-08-17 Microsoft Technology Licensing, Llc Sharing signal segments of physical graph
US10679669B2 (en) 2017-01-18 2020-06-09 Microsoft Technology Licensing, Llc Automatic narration of signal segment
US10606814B2 (en) 2017-01-18 2020-03-31 Microsoft Technology Licensing, Llc Computer-aided tracking of physical entities
US10504259B2 (en) 2017-04-24 2019-12-10 Intel Corporation Separately processing regions or objects or interest from a render engine to a display engine or a display panel
CN109299714A (zh) * 2017-07-25 2019-02-01 上海中科顶信医学影像科技有限公司 Roi模板生成方法、roi提取方法及系统、设备、介质
US10816354B2 (en) 2017-08-22 2020-10-27 Tusimple, Inc. Verification module system and method for motion-based lane detection with multiple sensors
US10762673B2 (en) 2017-08-23 2020-09-01 Tusimple, Inc. 3D submap reconstruction system and method for centimeter precision localization using camera-based submap and LiDAR-based global map
US10565457B2 (en) 2017-08-23 2020-02-18 Tusimple, Inc. Feature matching and correspondence refinement and 3D submap position refinement system and method for centimeter precision localization using camera-based submap and LiDAR-based global map
US10649458B2 (en) 2017-09-07 2020-05-12 Tusimple, Inc. Data-driven prediction-based system and method for trajectory planning of autonomous vehicles
US10953881B2 (en) 2017-09-07 2021-03-23 Tusimple, Inc. System and method for automated lane change control for autonomous vehicles
US10953880B2 (en) 2017-09-07 2021-03-23 Tusimple, Inc. System and method for automated lane change control for autonomous vehicles
US10410055B2 (en) * 2017-10-05 2019-09-10 TuSimple System and method for aerial video traffic analysis
US10860859B2 (en) * 2017-11-30 2020-12-08 Nvidia Corporation Budget-aware method for detecting activity in video
US11166080B2 (en) 2017-12-21 2021-11-02 Facebook, Inc. Systems and methods for presenting content
US11312334B2 (en) 2018-01-09 2022-04-26 Tusimple, Inc. Real-time remote control of vehicles with high redundancy
CN111989716B (zh) 2018-01-11 2022-11-15 图森有限公司 用于自主车辆操作的监视系统
US11009356B2 (en) 2018-02-14 2021-05-18 Tusimple, Inc. Lane marking localization and fusion
US11009365B2 (en) 2018-02-14 2021-05-18 Tusimple, Inc. Lane marking localization
US10685244B2 (en) 2018-02-27 2020-06-16 Tusimple, Inc. System and method for online real-time multi-object tracking
US10460156B2 (en) * 2018-03-06 2019-10-29 Sony Corporation Automated tracking and retaining of an articulated object in a sequence of image frames
CN110378184A (zh) 2018-04-12 2019-10-25 北京图森未来科技有限公司 一种应用于自动驾驶车辆的图像处理方法、装置
CN116129376A (zh) 2018-05-02 2023-05-16 北京图森未来科技有限公司 一种道路边缘检测方法和装置
CN108833818B (zh) * 2018-06-28 2021-03-26 腾讯科技(深圳)有限公司 视频录制方法、装置、终端及存储介质
CN109002801B (zh) * 2018-07-20 2021-01-15 燕山大学 一种基于视频监控的人脸遮挡检测方法及系统
CN118289018A (zh) 2018-09-13 2024-07-05 图森有限公司 远程安全驾驶方法和系统
CN109166261B (zh) * 2018-10-11 2022-06-07 平安科技(深圳)有限公司 基于图像识别的图像处理方法、装置、设备及存储介质
US10942271B2 (en) 2018-10-30 2021-03-09 Tusimple, Inc. Determining an angle between a tow vehicle and a trailer
CN111319629B (zh) 2018-12-14 2021-07-16 北京图森智途科技有限公司 一种自动驾驶车队的组队方法、装置及系统
US10937169B2 (en) * 2018-12-18 2021-03-02 Qualcomm Incorporated Motion-assisted image segmentation and object detection
CN109977262B (zh) * 2019-03-25 2021-11-16 北京旷视科技有限公司 从视频中获取候选片段的方法、装置及处理设备
CN111954053B (zh) * 2019-05-17 2023-09-05 上海哔哩哔哩科技有限公司 获取蒙版帧数据的方法、计算机设备及可读存储介质
US11606574B2 (en) * 2019-05-31 2023-03-14 Apple Inc. Efficient coding of source video sequences partitioned into tiles
US11823460B2 (en) 2019-06-14 2023-11-21 Tusimple, Inc. Image fusion for autonomous vehicle operation
JP7000588B2 (ja) * 2019-08-07 2022-01-19 グーグル エルエルシー ビデオ通話のための顔に基づくフレームレートのアップサンプリング
TWI749370B (zh) * 2019-09-16 2021-12-11 緯創資通股份有限公司 臉部辨識方法及其相關電腦系統
CN110996099B (zh) * 2019-11-15 2021-05-25 网宿科技股份有限公司 一种视频编码方法、系统及设备
CN110933446B (zh) * 2019-11-15 2021-05-25 网宿科技股份有限公司 一种感兴趣区域的识别方法、系统及设备
KR20210061072A (ko) 2019-11-19 2021-05-27 삼성전자주식회사 비디오 세그먼테이션 방법 및 장치
US11451746B1 (en) * 2020-03-26 2022-09-20 Amazon Technologies, Inc. Image and audio data processing to create mutual presence in a video conference
EP3893150A1 (en) 2020-04-09 2021-10-13 Tusimple, Inc. Camera pose estimation techniques
US11790535B2 (en) * 2020-05-12 2023-10-17 True Meeting Inc. Foreground and background segmentation related to a virtual three-dimensional (3D) video conference
AU2021203567A1 (en) 2020-06-18 2022-01-20 Tusimple, Inc. Angle and orientation measurements for vehicles with multiple drivable sections
CN112507786B (zh) * 2020-11-03 2022-04-08 浙江大华技术股份有限公司 人体多部位检测框关联方法、装置、电子装置和存储介质
CN113066092A (zh) * 2021-03-30 2021-07-02 联想(北京)有限公司 视频对象分割方法、装置及计算机设备
US11736660B2 (en) 2021-04-28 2023-08-22 Zoom Video Communications, Inc. Conference gallery view intelligence system
CN113177483B (zh) * 2021-04-30 2023-07-11 北京百度网讯科技有限公司 视频目标分割方法、装置、设备以及存储介质
US11843898B2 (en) 2021-09-10 2023-12-12 Zoom Video Communications, Inc. User interface tile arrangement based on relative locations of conference participants
US11882383B2 (en) 2022-01-26 2024-01-23 Zoom Video Communications, Inc. Multi-camera video stream selection for in-person conference participants

Family Cites Families (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59194274A (ja) 1983-04-18 1984-11-05 Nippon Telegr & Teleph Corp <Ntt> 人物判定装置
EP0330455A3 (en) * 1988-02-22 1990-07-04 Kabushiki Kaisha Toshiba Image encoding apparatus
US5150432A (en) * 1990-03-26 1992-09-22 Kabushiki Kaisha Toshiba Apparatus for encoding/decoding video signals to improve quality of a specific region
US5048095A (en) * 1990-03-30 1991-09-10 Honeywell Inc. Adaptive image segmentation system
JP2863818B2 (ja) 1990-08-31 1999-03-03 工業技術院長 動画像の変化点検出方法
US5323470A (en) * 1992-05-08 1994-06-21 Atsushi Kara Method and apparatus for automatically tracking an object
KR950009699B1 (ko) * 1992-06-09 1995-08-26 대우전자주식회사 움직임벡터 검출방법 및 장치
GB9308952D0 (en) * 1993-04-30 1993-06-16 Philips Electronics Uk Ltd Tracking objects in video sequences
US5852669A (en) * 1994-04-06 1998-12-22 Lucent Technologies Inc. Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video
KR100235345B1 (ko) * 1994-12-29 1999-12-15 전주범 분할영역에서의 움직임 추정방법 및 장치
KR100235343B1 (ko) * 1994-12-29 1999-12-15 전주범 영역분할 기법을 이용한 동영상신호 부호화기의 움직임 벡터 측정장치
JPH08297744A (ja) * 1995-04-26 1996-11-12 Sharp Corp 動画像領域分割装置
KR0180170B1 (ko) * 1995-06-30 1999-05-01 배순훈 움직임 추정 방법 및 추정 장치
US6026183A (en) * 1995-10-27 2000-02-15 Texas Instruments Incorporated Content-based video compression
KR0181069B1 (ko) * 1995-11-08 1999-05-01 배순훈 움직임 추정장치
US5774591A (en) * 1995-12-15 1998-06-30 Xerox Corporation Apparatus and method for recognizing facial expressions and facial gestures in a sequence of images
US5764283A (en) * 1995-12-29 1998-06-09 Lucent Technologies Inc. Method and apparatus for tracking moving objects in real time using contours of the objects and feature paths
US5692063A (en) * 1996-01-19 1997-11-25 Microsoft Corporation Method and system for unrestricted motion estimation for video
JPH1051755A (ja) * 1996-05-30 1998-02-20 Fujitsu Ltd テレビ会議端末の画面表示制御装置
US6343141B1 (en) * 1996-10-08 2002-01-29 Lucent Technologies Inc. Skin area detection for video image systems
US5828769A (en) * 1996-10-23 1998-10-27 Autodesk, Inc. Method and apparatus for recognition of objects via position and orientation consensus of local image encoding
US5864630A (en) * 1996-11-20 1999-01-26 At&T Corp Multi-modal method for locating objects in images
US6456328B1 (en) * 1996-12-18 2002-09-24 Lucent Technologies Inc. Object-oriented adaptive prefilter for low bit-rate video systems
US6993201B1 (en) * 1997-07-08 2006-01-31 At&T Corp. Generalized scalability for video coder based on video objects
US6188777B1 (en) * 1997-08-01 2001-02-13 Interval Research Corporation Method and apparatus for personnel detection and tracking
US6335985B1 (en) * 1998-01-07 2002-01-01 Kabushiki Kaisha Toshiba Object extraction apparatus
US6148092A (en) * 1998-01-08 2000-11-14 Sharp Laboratories Of America, Inc System for detecting skin-tone regions within an image
GB2333590A (en) * 1998-01-23 1999-07-28 Sharp Kk Detecting a face-like region
US6301370B1 (en) * 1998-04-13 2001-10-09 Eyematic Interfaces, Inc. Face recognition from video images
US6477201B1 (en) * 1998-05-22 2002-11-05 Sarnoff Corporation Content-adaptive compression encoding
AUPP400998A0 (en) * 1998-06-10 1998-07-02 Canon Kabushiki Kaisha Face detection in digital images
US6023183A (en) * 1998-06-15 2000-02-08 International Business Machines Corporation Voltage conversion circuit and method
US6141041A (en) * 1998-06-22 2000-10-31 Lucent Technologies Inc. Method and apparatus for determination and visualization of player field coverage in a sporting event
US6292575B1 (en) * 1998-07-20 2001-09-18 Lau Technologies Real-time facial recognition and verification system
JP3725784B2 (ja) * 1998-08-07 2005-12-14 コリア インスティテュート オブ サイエンス アンド テクノロジー 色フレームイメージシーケンスで移動体を検出する装置及び方法
US6924832B1 (en) * 1998-08-07 2005-08-02 Be Here Corporation Method, apparatus & computer program product for tracking objects in a warped video image
GB2341231A (en) 1998-09-05 2000-03-08 Sharp Kk Face detection in an image
US6480615B1 (en) * 1999-06-15 2002-11-12 University Of Washington Motion estimation within a sequence of data frames using optical flow with adaptive gradients
US6545706B1 (en) * 1999-07-30 2003-04-08 Electric Planet, Inc. System, method and article of manufacture for tracking a head of a camera-generated image of a person
US6526161B1 (en) 1999-08-30 2003-02-25 Koninklijke Philips Electronics N.V. System and method for biometrics-based facial feature extraction
EP1968012A3 (en) * 1999-11-16 2008-12-03 FUJIFILM Corporation Image processing apparatus, image processing method and recording medium
US7123745B1 (en) * 1999-11-24 2006-10-17 Koninklijke Philips Electronics N.V. Method and apparatus for detecting moving objects in video conferencing and other applications
US6754389B1 (en) * 1999-12-01 2004-06-22 Koninklijke Philips Electronics N.V. Program classification using object tracking
GB2358098A (en) * 2000-01-06 2001-07-11 Sharp Kk Method of segmenting a pixelled image
US6829395B2 (en) * 2000-01-20 2004-12-07 Axis, Ab Apparatus and method for storing and reading digital images
US6970598B1 (en) * 2000-01-21 2005-11-29 Xerox Corporation Data processing methods and devices
US6668070B2 (en) * 2000-03-29 2003-12-23 Sony Corporation Image processing device, image processing method, and storage medium
US6580821B1 (en) * 2000-03-30 2003-06-17 Nec Corporation Method for computing the location and orientation of an object in three dimensional space
JP3603737B2 (ja) * 2000-03-30 2004-12-22 日本電気株式会社 移動体追尾方法及びその装置
EP1158786A3 (en) * 2000-05-24 2005-03-09 Sony Corporation Transmission of the region of interest of an image
US6731799B1 (en) * 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US6826292B1 (en) * 2000-06-23 2004-11-30 Sarnoff Corporation Method and apparatus for tracking moving objects in a sequence of two-dimensional images using a dynamic layered representation
US6665450B1 (en) * 2000-09-08 2003-12-16 Avid Technology, Inc. Interpolation of a sequence of images using motion analysis
US6965684B2 (en) 2000-09-15 2005-11-15 Canon Kabushiki Kaisha Image processing methods and apparatus for detecting human eyes, human face, and other objects in an image
US6680745B2 (en) * 2000-11-10 2004-01-20 Perceptive Network Technologies, Inc. Videoconferencing method with tracking of face and dynamic bandwidth allocation
US6678413B1 (en) * 2000-11-24 2004-01-13 Yiqing Liang System and method for object identification and behavior characterization using video analysis
US7020305B2 (en) * 2000-12-06 2006-03-28 Microsoft Corporation System and method providing improved head motion estimations for animation
JP2002175538A (ja) * 2000-12-08 2002-06-21 Mitsubishi Electric Corp 似顔絵生成装置及び似顔絵生成方法及び似顔絵生成プログラムを記録した記録媒体及び通信用端末及び通信用端末による通信方法
US6670963B2 (en) 2001-01-17 2003-12-30 Tektronix, Inc. Visual attention model
US6964023B2 (en) 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
GB2372165A (en) * 2001-02-10 2002-08-14 Hewlett Packard Co A method of selectively storing images
US20020168091A1 (en) * 2001-05-11 2002-11-14 Miroslav Trajkovic Motion detection via image alignment
US6870945B2 (en) * 2001-06-04 2005-03-22 University Of Washington Video object tracking by estimating and subtracting background
JP4596222B2 (ja) * 2001-06-26 2010-12-08 ソニー株式会社 画像処理装置および方法、記録媒体、並びにプログラム
JP4840630B2 (ja) * 2001-06-27 2011-12-21 ソニー株式会社 画像処理装置および方法、記録媒体、並びにプログラム
EP1404133A4 (en) * 2001-06-29 2010-04-21 Ntt Docomo Inc IMAGE ENCODER, IMAGE DECODER, IMAGE ENCODING METHOD, AND IMAGE DECODING METHOD
US7861169B2 (en) * 2001-11-19 2010-12-28 Ricoh Co. Ltd. Multimedia print driver dialog interfaces
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
JP2003174504A (ja) 2001-12-05 2003-06-20 Mitsubishi Electric Corp 通話機能付き携帯端末装置およびそのための制御装置、ならびにバックライト制御方法
KR100456619B1 (ko) * 2001-12-05 2004-11-10 한국전자통신연구원 에스.브이.엠(svm)을 이용한 얼굴 등록/인증 시스템 및방법
US7277580B2 (en) * 2001-12-12 2007-10-02 Sony Corporation Multiple thresholding for video frame segmentation
KR100411347B1 (ko) * 2001-12-29 2003-12-18 엘지전자 주식회사 동영상 비디오의 장면전환 검출 방법
AUPS140502A0 (en) * 2002-03-27 2002-05-09 Seeing Machines Pty Ltd Method for automatic detection of facial features
US7212670B1 (en) * 2002-05-03 2007-05-01 Imagetree Corp. Method of feature identification and analysis
US7082211B2 (en) * 2002-05-31 2006-07-25 Eastman Kodak Company Method and system for enhancing portrait images
US7425981B2 (en) 2002-06-12 2008-09-16 British Telecommunications Plc Video pre-processing
US7190809B2 (en) * 2002-06-28 2007-03-13 Koninklijke Philips Electronics N.V. Enhanced background model employing object classification for improved background-foreground segmentation
KR100474848B1 (ko) * 2002-07-19 2005-03-10 삼성전자주식회사 영상시각 정보를 결합하여 실시간으로 복수의 얼굴을검출하고 추적하는 얼굴 검출 및 추적 시스템 및 방법
US7035461B2 (en) * 2002-08-22 2006-04-25 Eastman Kodak Company Method for detecting objects in digital images
US7227893B1 (en) * 2002-08-22 2007-06-05 Xlabs Holdings, Llc Application-specific object-based segmentation and recognition system
EP1418530B1 (en) * 2002-10-08 2012-12-05 Sony France S.A. Adaptive artificial vision method and system
JP2004140630A (ja) * 2002-10-18 2004-05-13 Fujitsu Ltd フレーム間引き処理を行うための画像圧縮方法及び装置
KR100455294B1 (ko) * 2002-12-06 2004-11-06 삼성전자주식회사 감시 시스템에서의 사용자 검출 방법, 움직임 검출 방법및 사용자 검출 장치
JP2004220555A (ja) 2002-12-27 2004-08-05 Fuji Photo Film Co Ltd 画像から被写体領域を抽出する装置、方法、プログラムおよびプログラムを記録した記録媒体
JP2004227519A (ja) * 2003-01-27 2004-08-12 Matsushita Electric Ind Co Ltd 画像処理方法
US6999600B2 (en) * 2003-01-30 2006-02-14 Objectvideo, Inc. Video scene background maintenance using change detection and classification
US7599524B2 (en) * 2003-04-04 2009-10-06 Sarnoff Corporation Method and apparatus for providing a robust object finder
US7418134B2 (en) * 2003-05-12 2008-08-26 Princeton University Method and apparatus for foreground segmentation of video sequences
US7430335B2 (en) * 2003-08-13 2008-09-30 Apple Inc Pre-processing method and system for data reduction of video sequences and bit rate reduction of compressed video sequences using spatial filtering
WO2005041579A2 (en) * 2003-10-24 2005-05-06 Reactrix Systems, Inc. Method and system for processing captured image information in an interactive video display system
US7127083B2 (en) * 2003-11-17 2006-10-24 Vidient Systems, Inc. Video surveillance system with object detection and probability scoring based on object class
US20050104960A1 (en) * 2003-11-17 2005-05-19 Mei Han Video surveillance system with trajectory hypothesis spawning and local pruning
US7136507B2 (en) * 2003-11-17 2006-11-14 Vidient Systems, Inc. Video surveillance system with rule-based reasoning and multiple-hypothesis scoring
JP2005182196A (ja) * 2003-12-16 2005-07-07 Canon Inc 画像表示方法および画像表示装置
JP2005293539A (ja) 2004-03-08 2005-10-20 Matsushita Electric Works Ltd 表情認識装置
JP4819380B2 (ja) * 2004-03-23 2011-11-24 キヤノン株式会社 監視システム、撮像設定装置、制御方法、及びプログラム
US8594391B2 (en) * 2004-05-06 2013-11-26 Avago Technologies General Ip (Singapore) Pte. Ltd. Finger-based identification systems and methods
GB2414614A (en) * 2004-05-28 2005-11-30 Sony Uk Ltd Image processing to determine most dissimilar images
WO2006025185A1 (ja) * 2004-08-31 2006-03-09 Matsushita Electric Industrial Co., Ltd. 監視記録装置およびその方法
US20060067562A1 (en) * 2004-09-30 2006-03-30 The Regents Of The University Of California Detection of moving objects in a video
US7391907B1 (en) * 2004-10-01 2008-06-24 Objectvideo, Inc. Spurious object detection in a video surveillance system
US7583287B2 (en) * 2005-03-22 2009-09-01 Microsoft Corp. System and method for very low frame rate video streaming for face-to-face video conferencing
WO2006105655A1 (en) * 2005-04-06 2006-10-12 March Networks Corporation Method and system for counting moving objects in a digital video stream
US7409076B2 (en) * 2005-05-27 2008-08-05 International Business Machines Corporation Methods and apparatus for automatically tracking moving entities entering and exiting a specified region
US7526102B2 (en) * 2005-09-13 2009-04-28 Verificon Corporation System and method for object tracking and activity analysis
US8265392B2 (en) 2006-02-07 2012-09-11 Qualcomm Incorporated Inter-mode region-of-interest video object segmentation
US8150155B2 (en) 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
US8265349B2 (en) 2006-02-07 2012-09-11 Qualcomm Incorporated Intra-mode region-of-interest video object segmentation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
G. Panin, A. Ladikos and A. Knoll, An Efficient and Robust Real-Time Contour Tracking System, IEEE International Conference on Computer Vision Systems (ICVS 2006), pp. 44-44, Janu. 04-07, 2006.*
L. Huiping, D. Doermann and O. Kia, Automatic text detection and tracking in digital video, IEEE Transactions on Image Processing, vol. 9, no. 1, pp. 147-156, Jan. 2000.*
L. Sigal, S. Sclaroff and V. Athitsos, Skin color-based video segmentation under time-varying illumination, IEEE Trans. PAMI, vol. 26, no. 7, pp. 862-877, July 2004.*

Also Published As

Publication number Publication date
US8150155B2 (en) 2012-04-03
EP1984896A1 (en) 2008-10-29
JP4819912B2 (ja) 2011-11-24
CN101375312A (zh) 2009-02-25
KR20080100242A (ko) 2008-11-14
JP2009526331A (ja) 2009-07-16
CN101375312B (zh) 2013-03-20
EP2381420A1 (en) 2011-10-26
EP2378486B1 (en) 2015-07-08
US20120189168A1 (en) 2012-07-26
US8605945B2 (en) 2013-12-10
EP2381420B1 (en) 2015-06-17
WO2007092906A1 (en) 2007-08-16
ATE520102T1 (de) 2011-08-15
EP1984896B1 (en) 2011-08-10
EP2378486A1 (en) 2011-10-19
US20070183661A1 (en) 2007-08-09

Similar Documents

Publication Publication Date Title
KR100997064B1 (ko) 멀티-모드 관심-영역 비디오 오브젝트 세그먼트화
KR100983204B1 (ko) 인터-모드 관심-영역 비디오 오브젝트 세그먼트화
KR101023733B1 (ko) 인트라-모드 관심 영역 비디오 오브젝트 세그멘테이션
Chai et al. Face segmentation using skin-color map in videophone applications
WO2007044674A2 (en) Video sensor-based automatic region-of-interest detection
JP2005513656A (ja) 体積成長および変化検出マスクを使用してビデオ内の移動オブジェクトを識別するための方法
Haque et al. Perception-inspired background subtraction
Zafarifar et al. Blue sky detection for picture quality enhancement
KR102194511B1 (ko) 대표 영상프레임 결정시스템 및 이를 이용한 방법
KR100438303B1 (ko) 객체 추출방법
CN109583262B (zh) 对象侦测的适应系统与方法
Yamazaki Study on Data-driven Methods for Image and Video Understanding
Sarris et al. Detection of Human Faces in Images using a Novel Neural Network Technique
Dane et al. A Multi-Mode Video Object Segmentation Scheme for Wireless Video Applications
CODING Centre for Communication Systems Research University of Surrey, Guildford, GU27XH, UK E-mail: y. sheng (@ surrey. ac. uk

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131030

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141030

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150930

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20161028

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170929

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180928

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190924

Year of fee payment: 10