KR100983204B1 - 인터-모드 관심-영역 비디오 오브젝트 세그먼트화 - Google Patents

인터-모드 관심-영역 비디오 오브젝트 세그먼트화 Download PDF

Info

Publication number
KR100983204B1
KR100983204B1 KR1020087021817A KR20087021817A KR100983204B1 KR 100983204 B1 KR100983204 B1 KR 100983204B1 KR 1020087021817 A KR1020087021817 A KR 1020087021817A KR 20087021817 A KR20087021817 A KR 20087021817A KR 100983204 B1 KR100983204 B1 KR 100983204B1
Authority
KR
South Korea
Prior art keywords
roi
video frame
video
features
detected
Prior art date
Application number
KR1020087021817A
Other languages
English (en)
Other versions
KR20080100241A (ko
Inventor
하오홍 왕
할레드 헬미 엘-말레
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20080100241A publication Critical patent/KR20080100241A/ko
Application granted granted Critical
Publication of KR100983204B1 publication Critical patent/KR100983204B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/40Analysis of texture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • Ophthalmology & Optometry (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

본 발명은 비디오 시퀀스로부터 관심-영역 (ROI) 비디오 오브젝트의 자동적인 세그먼트화를 위한 기술에 관한 것이다. ROI 오브젝트 세그먼트화는, 뷰어에게 관심있을 수도 있는 비디오 시퀀스의 선택된 ROI 또는 "전경" 오브젝트들이 비디오 시퀀스의 비-ROI 또는 "배경" 영역으로부터 추출될 수 있게 한다. ROI 오브젝트의 예는 사람의 안면 또는 사람 몸의 머리 및 어깨 영역이다. 개시된 기술들은, ROI 피처 검출, 영역 세그먼트화, 및 배경 제거를 결합시키는 하이브리드 기술을 포함한다. ROI 검출은, 이동 전경 영역 및 비디오 시퀀스에서의 이전 비디오 프레임의 전경 영역에 대응하는 프레임의 결합된 전경 영역을 사용한다. 이러한 방식으로, 개시된 기술들은 정확한 전경 오브젝트 생성 및 비디오 시퀀스로부터의 전경 오브젝트의 낮은-복잡도 추출을 제공할 수도 있다. ROI 오브젝트 세그먼트화 시스템은 여기에 설명된 기술들을 구현할 수도 있다. 또한, ROI 오브젝트 세그먼트화는, 비디오 전화 애플리케이션 및 비디오 감시 애플리케이션과 같은, 비디오 시퀀스들을 이용하는 광범위한 멀티미디어 애플리케이션에 유용할 수도 있다.
ROI 오브젝트, ROI 오브젝트 세그먼트화, 인터-모드, 인트라-모드

Description

인터-모드 관심-영역 비디오 오브젝트 세그먼트화{INTER-MODE REGION-OF-INTEREST VIDEO OBJECT SEGMENTATION}
기술분야
본 발명은 비디오 오브젝트 세그먼트화에 관한 것으로, 더 상세하게는, 멀티미디어 애플리케이션을 위한 비디오 시퀀스들로부터의 관심-영역 (ROI) 비디오 오브젝트들의 자동적인 세그먼트화를 위한 기술에 관한 것이다.
배경
자동적인 관심-영역 (ROI) 비디오 오브젝트 세그먼트화는, 비디오 시퀀스들을 이용하는 광범위한 멀티미디어 애플리케이션에 유용할 수도 있다. ROI 오브젝트는 비디오 프레임내에서 "전경 (foreground)" 오브젝트로서 지칭될 수도 있고, 비-ROI 영역은 비디오 프레임내에서 "배경" 영역으로서 지칭될 수도 있다. ROI 오브젝트 세그먼트화는, 뷰어에게 관심있을 수도 있는 비디오 시퀀스의 선택된 전경 오브젝트들이 비디오 시퀀스의 배경으로부터 추출될 수 있게 한다. 그 후, 멀티미디어 애플리케이션이 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트를 우선적으로 이용할 수도 있다. ROI 오브젝트의 통상적인 예는 사람의 안면 (face) 또는 사람 몸의 머리 및 어깨 영역이다.
예를 들어, 비디오 감시 애플리케이션에서, 캡쳐된 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트는 안면 데이터베이스 시스템으로 입력될 수 있다. 그 안면 데이터베이스 시스템은 세그먼트화된 ROI 오브젝트, 예를 들어, 사람의 안면을 사용하여, 데이터베이스내에 저장된 타겟 안면 오브젝트들과 정확하게 매칭시킬 수도 있다. 법 집행 기관들은 ROI 오브젝트 세그먼트화의 이러한 애플리케이션을 이용하여 감시 비디오 시퀀스들로부터 용의자를 식별할 수도 있다.
또 다른 예로서, 비디오 전화 (VT) 애플리케이션에서, 캡쳐된 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트는 비디오 시퀀스 인코더로 입력될 수 있다. 비디오 시퀀스 인코더는 더 많은 리소스들을 세그먼트화된 ROI 오브젝트에 할당하여, 수신자로의 송신을 위해 더 높은 품질로 그 ROI 오브젝트를 코딩할 수도 있다. VT 애플리케이션은, 사용자들이 비디오 및 오디오 정보를 공유하여 화상회의와 같은 애플리케이션을 지원하도록 허용한다. VT 시스템에서, 사용자는 비디오 정보를 전송 및 수신할 수도 있거나, 단지 비디오 정보를 수신만 할 수도 있거나, 단지 비디오 정보를 전송만 할 수도 있다. 일반적으로, 수신자는 전송자로부터 송신된 형태로 수신 비디오 정보를 뷰잉 (view) 한다. 세그먼트화된 ROI 오브젝트의 우선적인 인코딩으로, 수신자는 비디오 시퀀스의 비-ROI 영역보다 더 선명하게 ROI 오브젝트를 뷰잉할 수 있다.
다른 예들은, 사람이 생방송 또는 미리 레코딩된 뉴스 또는 엔터테이먼트 브로드캐스트와 같은 정보 비디오를 제공하는 비디오 브로드캐스팅 애플리케이션을 포함한다. 그러한 애플리케이션에서, 뉴스 리포터 또는 토크쇼 호스트와 같은 사람 발표자의 안면에 대응하는 ROI 오브젝트를 우선적으로 인코딩하는 것이 바람직할 수도 있다.
일반적으로, 자동적인 ROI 오브젝트 세그먼트화는, 모션 분석, 모션 세그먼트화 및 영역 세그먼트화에 포커싱 (focuse) 한다. 일 경우에서, 통계적 모델-기반 오브젝트 세그먼트화 알고리즘은 블롭-기반 (blob-based) 통계적 영역 모델 및 형상 모델로 ROI 오브젝트를 발췌한다. 따라서, ROI 오브젝트 세그먼트화 문제는 모델 검출 및 추적 문제로 변환될 수도 있다. 또 다른 경우에서, 스테레오 카메라 셋업으로부터의 2개의 뷰들 사이의 불일치 추정에 기초하여, 전경 오브젝트가 비디오 프레임으로부터 추출될 수도 있다. 영역-기반 및 피처-기반 (feature-based) 세그먼트화 접근법 양자를 포함하는 ROI 오브젝트 세그먼트화 알고리즘을 또 다른 경우가 제안한다. 그 알고리즘은, 모션, 컬러, 및 텍스처 피처에 관해 동종인 오브젝트 영역들을 나타내기 위해 영역 디스크립터 (region descriptor) 를 사용하고, 그 영역들을 비디오 시퀀스에 걸쳐 추적한다.
요약
본 발명은, 비디오 시퀀스로부터의 관심-영역 (ROI) 비디오 오브젝트의 자동적인 세그먼트화를 위한 기술에 관한 것이다. ROI 오브젝트 세그먼트화는 비디오 시퀀스의 선택된 ROI 또는 "전경" 오브젝트들이 비디오 시퀀스의 비-ROI 또는 "배경" 영역으로부터 추출될 수 있게 한다. ROI 오브젝트의 예는 사람의 안면 또는 사람 몸의 머리 및 어깨 영역이다. 개시된 기술들은, ROI 피처 검출, 영역 세그먼트화, 및 배경 제거를 결합시키는 하이브리드 기술을 포함한다. 이러한 방식으로, 개시된 기술들은, 정확한 전경 오브젝트 생성 및 비디오 시퀀스로부터의 그 전경 오브젝트의 낮은-복잡도 추출을 제공할 수도 있다.
또한, 개시된 기술들은, 대칭적인 위치 및 형상 특징과 같은 안면 피처들의 고유의 특성들에 기초하여 비디오 시퀀스의 비디오 프레임내에서 검출된 안면 피처들의 확인을 위한 기술을 포함한다. 또한, 개시된 기술들은, 비디오 시퀀스의 비디오 프레임내의 다중의 개별 안면들에 대한 검출된 안면 피처들의 분리를 위한 기술을 포함한다. 여기에 설명된 바와 같이, 멀티-안면 분리 기술은, 지수식으로부터 다항식으로 계산 복잡도를 감소시키는 최대 매칭 방식 문제로 매핑될 수도 있다. 이러한 방식으로, 그 기술들은 비디오 시퀀스의 프레임내의 각각의 안면에 대한 정확한 피처 검출을 제공한다.
예를 들어, ROI 오브젝트 세그먼트화 시스템은 여기에 설명된 기술들을 구현할 수도 있다. ROI 오브젝트 세그먼트화 시스템은 인트라-모드 (intra-mode) 세그먼트화 및 인터-모드 (inter-mode) 세그먼트화를 지원한다. 인트라-모드 세그먼트화는, ROI 오브젝트 모션 정보를 사용하지 않고 비디오 시퀀스의 다른 프레임들과는 독립적으로 비디오 시퀀스의 프레임을 프로세싱한다. 인터-모드 세그먼트화는, 비디오 시퀀스의 현재의 프레임과 이전 또는 후속 프레임 사이의 모션을 나타내는 ROI 오브젝트에 대한 모션 정보에 기초하여, 비디오 시퀀스의 프레임을 프로세싱한다. ROI 오브젝트 세그먼트화 시스템은, 하나 이상의 세그먼트화 모드 결정 인자들에 기초하여, 수신 프레임에 대해 인트라-모드 세그먼트화 또는 인터-모드 세그먼트화를 수행할지의 여부를 결정할 수도 있다.
개시된 기술들은, ROI 오브젝트 형상내에 위치된 비디오 프레임의 정의된 영역들을 전체 프레임내의 후보 영역들의 세트로부터 자동적으로 선택함으로써, 인트 라-모드 세그먼트화 동안의 전경 오브젝트의 생성을 위한 기술을 더 포함할 수도 있다. 또한, 개시된 기술들은, 배경 모델링 및 감산에 기초하여 인터-모드 세그먼트화 동안 전경 오브젝트내에서 이동 영역들을 검출하기 위한 기술을 포함한다. 이동 전경 영역을 성공적으로 검출하는 것은, 인터-모드 세그먼트화 동안 ROI 피처 검출의 수행 속도를 개선시킬 수도 있다.
일 실시형태에서, 본 발명은, 비디오 시퀀스의 비디오 프레임을 수신하는 단계, 비디오 시퀀스의 다른 비디오 프레임에 대한 이동을 나타내는 비디오 프레임의 이동 전경 영역을 식별하는 단계, 그 이동 전경 영역 및 다른 비디오 프레임의 전경 영역에 대응하는 비디오 프레임의 결합된 전경 영역내에서 관심 영역 (ROI) 피처를 검출하는 단계, 및 그 검출된 ROI 피처들에 기초하여 비디오 프레임내의 ROI 오브젝트의 형상을 근사화하는 단계를 포함하는 방법을 제공한다.
또 다른 실시형태에서, 본 발명은, 프로그래밍가능한 프로세서로 하여금, 비디오 시퀀스의 비디오 프레임을 수신하게 하고, 비디오 시퀀스의 다른 비디오 프레임에 대한 이동을 나타내는 비디오 프레임의 이동 전경 영역을 식별하게 하고, 그 이동 전경 영역 및 다른 비디오 프레임의 전경 영역에 대응하는 비디오 프레임의 결합된 전경 영역내의 관심 영역 (ROI) 피처를 검출하게 하며, 그 검출된 ROI 피처들에 기초하여 비디오 프레임내의 ROI 오브젝트의 형상을 근사화하게 하는 명령들을 포함하는 컴퓨터-판독가능 매체를 제공한다.
또 다른 실시형태에서, 본 발명은, 비디오 시퀀스의 비디오 프레임을 수신하고, 비디오 시퀀스의 다른 비디오 프레임에 대한 이동을 나타내는 비디오 프레임의 이동 전경 영역을 식별하고, 그 이동 전경 영역 및 다른 비디오 프레임의 전경 영역에 대응하는 비디오 프레임의 결합된 전경 영역내의 관심 영역 (ROI) 피처를 검출하며, 그 검출된 ROI 피처들에 기초하여 비디오 프레임내의 ROI 오브젝트의 형상을 근사화하도록 프로그래밍된 프로세서를 포함하는 시스템을 제공한다.
여기에 설명된 기술들은, 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현되면, 기술들은, 단일 프로세서 또는 프로세서들의 임의의 조합을 포함하는 프로그래밍가능한 프로세서에 의해 실행될 때 여기에 설명된 방법들 중 하나 이상의 방법을 수행하는 명령들을 포함한 프로그램 코드를 포함하는 컴퓨터 판독가능 매체에 의해 부분적으로 실현될 수도 있다.
하나 이상의 실시형태들의 세부사항은 첨부한 도면 및 아래의 설명에서 개시된다. 다른 특성들, 목적들, 및 이점들은 설명 및 도면 및 청구항으로부터 명백할 것이다.
도면의 간단한 설명
도 1은, 비디오 시퀀스로부터의 ROI 비디오 오브젝트의 자동적인 세그먼트화를 위한 기술을 구현하는 관심-영역 (ROI) 오브젝트 세그먼트화 시스템을 도시한 블록도이다.
도 2a 및 도 2b는 비디오 시퀀스의 비디오 프레임내의 ROI 오브젝트 및 비-ROI 영역의 정의를 도시한 다이어그램이다.
도 3은 비디오 시퀀스의 ROI 오브젝트내에 제공된 오브젝트에 대한 오브젝트 이동/회전 및 형상 변형에서의 변화들을 도시한다.
도 4는 비디오 시퀀스의 ROI 오브젝트내에서 사람에 대한 안면 표정에서의 변화들을 도시한다.
도 5a는 도 1로부터의 ROI 오브젝트 세그먼트화 시스템의 예시적인 동작을 도시한 흐름도이다.
도 5b는 도 5a로부터의 세그먼트화 모드 결정을 더 상세하게 도시한 흐름도이다.
도 6은, 비디오 소스로부터 수신된 비디오 시퀀스의 프레임에 대해 인트라-모드 세그먼트화를 수행할 경우의 ROI 오브젝트 세그먼트화 시스템을 도시한 블록도이다.
도 7 내지 도 13은, 인트라-모드 세그먼트화 동안 ROI 오브젝트 세그먼트화 시스템에 의해 구현된 기술들의 예시적인 결과들을 도시한 스크린 샷이다.
도 14는, 인트라-모드 세그먼트화를 수행하는 ROI 오브젝트 세그먼트화 시스템의 동작을 도시한 흐름도이다.
도 15는, 비디오 소스로부터 수신된 비디오 시퀀스의 프레임에 대해 인터-모드 세그먼트화를 수행할 경우의 ROI 오브젝트 세그먼트화 시스템을 도시한 블록도이다.
도 16 및 도 17은, 인터-모드 세그먼트화 동안 ROI 오브젝트 세그먼트화 시스템에 의해 구현된 기술들의 예시적인 결과들을 도시한 스크린 샷이다.
도 18은 인터-모드 세그먼트화를 수행하는 ROI 오브젝트 세그먼트화 시스템 의 동작을 도시한 흐름도이다.
상세한 설명
도 1은, 비디오 시퀀스로부터의 ROI 비디오 오브젝트의 자동적인 세그먼트화를 위한 기술들을 구현한 관심-영역 (ROI) 오브젝트 세그먼트화 시스템 (14) 을 도시한 블록도이다. ROI 오브젝트 세그먼트화는, 비디오 전화 (VT) 애플리케이션 및 비디오 감시 애플리케이션과 같은, 비디오 시퀀스들을 이용하는 광범위한 멀티미디어 애플리케이션에 유용할 수도 있다.
예를 들어, 비디오 감시 애플리케이션에서, 캡쳐된 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트는 안면 데이터베이스 시스템에 입력될 수 있다. 그 안면 데이터베이스 시스템은 세그먼트화된 ROI 오브젝트, 예를 들어, 사람의 안면을 사용하여, 그 데이터베이스내에 저장된 타겟 안면 오브젝트들과 정확하게 매칭시킬 수도 있다.
또 다른 예로서, VT 애플리케이션에서, 캡쳐된 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트는 비디오 시퀀스 인코더로 입력될 수 있다. 그 비디오 시퀀스 인코더는 세그먼트화된 ROI 오브젝트에 더 많은 리소스들을 할당하여, 수신자로의 송신을 위해 더 높은 품질로 ROI 오브젝트를 코딩할 수도 있다.
다른 예들은, 사람이 생방송 또는 미리 레코딩된 뉴스 또는 엔터테인먼트 브로드캐스트와 같은 정보 비디오를 제공하는 비디오 브로드캐스팅 애플리케이션을 포함한다. 그러한 애플리케이션에서, 뉴스 리포터 또는 토크쇼 호스트와 같은 사람 발표자의 안면에 대응하는 ROI 오브젝트를 우선적으로 인코딩하는 것이 바람직할 수도 있다.
도 1에 도시된 바와 같이, 시스템 (14) 은 비디오 소스 (12) 로부터 비디오 시퀀스를 수신한다. 비디오 소스 (12) 는, 비디오 시퀀스를 획득하는 카메라와 같은 비디오 캡쳐 디바이스, 또는 미리-레코딩된 비디오 시퀀스를 저장하는 비디오 아카이브 (archive) 일 수도 있다. 시스템 (14) 은 수신된 비디오 시퀀스로부터 ROI 오브젝트를 자동적으로 세그먼트화한다. ROI 오브젝트 세그먼트화 시스템 (14) 은, ROI 오브젝트 세그먼트화 프로세스 동안, 비디오 소스 (12) 로부터 획득된 비디오 시퀀스의 비디오 프레임들을 비디오 메모리 (16) 에 저장한다. 비디오 시퀀스의 각각의 프레임이 프로세싱된 이후, 시스템 (14) 은 세그먼트화된 비디오 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다.
예를 들어, ROI 오브젝트는 사람의 안면 또는 사람 몸의 머리 및 어깨 영역을 포함할 수도 있다. ROI 오브젝트는 비디오 프레임내에서 "전경" 오브젝트로서 지칭될 수도 있고, 비-ROI 영역은 비디오 프레임내에서 "배경" 영역으로서 지칭될 수도 있다. ROI 오브젝트 세그먼트화 시스템 (14) 은, 멀티미디어 애플리케이션 (18) 의 사용자에게 관심있을 수도 있는 비디오 시퀀스의 프레임들의 하나 이상의 선택된 전경 오브젝트들을 비디오 시퀀스의 배경 영역들로부터 추출한다. 멀티미디어 애플리케이션 (18) 은 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트를 우선적으로 이용할 수도 있다. 일 실시형태에서, 멀티미디어 애플리케이션 (18) 은, 안면 데이터베이스 시스템을 포함하는 비디오 감시 애플리케이션을 포함할 수도 있다. 또 다른 실시형태에서, 멀티미디어 애플리케이션 (18) 은, ROI- 인에이블된 비디오 인코더-디코더 (CODEC) 을 포함하는 비디오 전화 (VT) 애플리케이션을 포함할 수도 있다.
멀티미디어 애플리케이션 (18) 이 비디오 감시 애플리케이션을 포함하는 실시형태에서, 캡쳐된 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트는 안면 데이터베이스 시스템으로 입력될 수 있다. 이러한 경우, 비디오 소스 (12) 는, 감시 카메라로부터의 미리-레코딩된 비디오 시퀀스를 저장하는 비디오 아카이브일 수도 있다. 안면 데이터베이스 시스템은 세그먼트화된 ROI 오브젝트, 예를 들어, 사람의 안면을 사용하여, 데이터베이스내에 저장된 타겟 안면 오브젝트들과 정확하게 매칭시킬 수도 있다. 법 집행 기관들은, 감시 비디오 시퀀스들로부터 용의자들을 식별하기 위해, 안면 데이터베이스 시스템을 갖는 ROI 오브젝트 세그먼트화 시스템 (14) 을 이용할 수도 있다.
멀티미디어 애플리케이션 (18) 이 VT 애플리케이션을 포함하는 일 실시형태에서, 캡쳐된 비디오 시퀀스로부터 세그먼트화된 ROI 오브젝트는 ROI-인에이블된 비디오 인코더로 입력될 수 있다. VT 애플리케이션은, 비디오 화상회의와 같은 애플리케이션을 지원하기 위해 사용자들이 비디오 및 오디오 정보를 공유하도록 허용한다. VT 시스템에서, 사용자는 비디오 정보를 전송 및 수신할 수도 있거나, 단지 비디오 정보를 수신만 할 수도 있거나, 단지 비디오 정보를 전송만 할 수도 있다. 이러한 경우, 비디오 소스 (12) 는 비디오 시퀀스를 획득하는 카메라와 같은 비디오 캡쳐 디바이스일 수도 있다. 예를 들어, 비디오 소스 (12) 는, 또 다른 통신 디바이스와의 비디오 전화에 참가할 수 있는 통신 디바이스내에 포함된 비디오 카메라를 포함할 수도 있다.
ROI-인에이블된 비디오 인코더는, 유선 또는 무선 통신을 지원하기 위한 적절한 송신, 수신, 모뎀 및 프로세싱 전자기기를 추가적으로 포함하는 통신 디바이스내에 상주할 수도 있다. 예를 들어, ROI-인에이블된 비디오 인코더는, 다른 단말기들과의 통신을 위해 탑재된 무선 이동 단말기 또는 유선 단말기내에 상주할 수도 있다. 무선 이동 단말기들의 예는, 이동 무선 전화기, 이동 개인 휴대 정보 단말기 (PDA), 이동 컴퓨터, 또는 무선 통신 능력 및 비디오 인코딩 및/또는 디코딩 능력을 갖춘 다른 이동 디바이스들을 포함한다. 예를 들어, ROI-인에이블된 비디오 인코더는, VT 애플리케이션에서 사용되는 이른바 카메라 전화기 또는 비디오 전화기내에 상주할 수도 있다. 유선 단말기들의 예는, 데스크탑 컴퓨터, 비디오 전화기, 네트워크 장비, 셋-탑 박스, 인터랙티브 (interactive) 텔레비전 등을 포함한다.
ROI-인에이블된 비디오 인코더는, ROI 오브젝트 세그먼트화 시스템 (14) 으로부터 수신된 출력 이미지에 포함되는 세그먼트화된 ROI 오브젝트를 우선적으로 인코딩할 수도 있다. 예를 들어, ROI-인에이블된 비디오 인코더는, 비디오 프레임의 ROI 오브젝트에 부가적인 코딩 비트들을 할당하고, 비디오 프레임의 비-ROI 영역에 감소된 수의 코딩 비트들을 할당할 수도 있다. 특히, 이동 애플리케이션에서, 비디오 프레임을 인코딩하는데 이용가능한 인코딩 비트들의 양은 무선 채널 조건에 따라 낮아지고 변할 수 있다. 따라서, ROI 오브젝트들로의 코딩 비트들의 우선적인 할당은, 적용가능한 비트 레이트 요건들에 효율적으로 부합하면서 ROI 오브젝트의 시각적인 품질을 개선시키는데 도움이 될 수 있다. 따라서, ROI 오브젝트의 우선적인 인코딩으로, 수신자는 비디오 시퀀스의 비-ROI 영역들보다 더 선명하게 ROI 오브젝트를 뷰잉할 수 있다. 그 후, 인코딩된 비디오 프레임은 유선 또는 무선 통신 채널을 통해 또 다른 통신 디바이스로 송신될 수도 있다.
상술된 바와 같이, ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 시퀀스로부터의 ROI 비디오 오브젝트의 자동적인 세그먼트화를 위한 기술들을 구현할 수도 있다. 개시된 기술들은, 비디오 시퀀스의 비디오 프레임내에서 ROI 피처들 (즉, 안면 마스크 및 안면 피처) 을 검출하는 것, 다중의 후보 영역들로 비디오 프레임을 세그먼트화하는 것, 및 비디오 시퀀스의 그 비디오 프레임 및 이전의 비디오 프레임에 기초하여 배경 (비-ROI) 감산을 수행하는 것을 결합시키는 하이브리드 기술을 포함한다. 이러한 방식으로, 개시된 기술들은, 정확한 전경 (ROI) 오브젝트 생성 및 비디오 시퀀스의 프레임들로부터의 전경 오브젝트의 낮은-복잡도 추출을 제공할 수도 있다.
또한, 개시된 기술들은, 대칭적인 위치 및 형상 특징과 같은 안면 피처들의 고유 특성에 기초하여, 비디오 시퀀스의 비디오 프레임내에서 검출된 안면 피처들의 확인을 위한 기술을 포함한다. 또한, 개시된 기술들은, 비디오 시퀀스의 비디오 프레임내의 다중의 개별 안면들에 대한 검출된 안면 피처들의 분리를 위한 기술을 포함한다. 여기에 설명된 바와 같이, 멀티-안면 분리 기술은, 지수식으로부터 다항식으로 계산 복잡도를 감소시키는 최대 매칭 방식 문제로 매핑될 수도 있 다. 이러한 방식으로, 그 기술들은 비디오 시퀀스의 프레임내의 각각의 안면에 대한 정확한 피처 검출에 감소된 프로세싱 요건을 제공한다.
ROI 오브젝트 세그먼트화 시스템 (14) 은 세그먼트화의 다중의, 예를 들어, 2개의 모드들, 즉, 인트라-모드 및 인터-모드를 지원한다. 인트라-모드 세그먼트화는 비디오 시퀀스의 다른 프레임들과는 독립적으로 비디오 시퀀스의 프레임을 프로세싱한다. 이러한 경우, ROI 오브젝트 모션 정보는 사용되지 않는다. 인트라-모드 세그먼트화는 제 1의 높은-복잡도 세그먼트화 모드이다. 인터-모드 세그먼트화는, 이전의 또는 후속 프레임 정보에 기초하여 비디오 시퀀스의 프레임을 프로세싱하는 제 2의 낮은-복잡도 세그먼트화 모드이며, 일반적으로 더 낮은 복잡도 세그먼트화 모드이다. 인터-모드 세그먼트화는, 비디오 시퀀스의 현재의 프레임과 하나 이상의 이전의 또는 후속 프레임 사이의, ROI 오브젝트에 대한 모션 정보를 이용한다. 따라서, 인터-모드 세그먼트화는 비교적 낮은-복잡도 세그먼트화 모드이다.
ROI 오브젝트 세그먼트화 시스템 (14) 은, 하나 이상의 세그먼트화 모드 결정 인자들에 기초하여 수신 프레임에 대해 인트라-모드 세그먼트화 또는 인터-모드 세그먼트화를 수행할지의 여부를 판정할 수도 있다. 비디오 프레임에 대한 모션 정보를 참조하지 않는 비디오 프레임으로부터의 ROI 오브젝트의 세그먼트화, 즉, 인트라-모드 세그먼트화는, 높은-복잡도 세그먼트화 모드가 선택될 경우에 적용된다. 비디오 시퀀스의 비디오 프레임 및 다른 비디오 프레임에 대한 모션 정보에 기초한 비디오 프레임으로부터의 ROI 오브젝트의 세그먼트화는, 낮은-복잡 도 세그먼트화 모드가 선택될 경우 적용된다.
개시된 기술들은, ROI 오브젝트 형상내에 위치된 비디오 프레임의 정의된 영역들을 전체 프레임내의 후보 영역들의 세트로부터 자동적으로 선택함으로써, 인트라-모드 세그먼트화 동안의 전경 오브젝트의 생성을 위한 기술을 더 포함한다. 또한, 개시된 기술들은, 배경 모델링 및 감산에 기초하여, 인터-모드 세그먼트화 동안 전경 오브젝트내에서 이동 영역들을 검출하기 위한 기술을 포함한다. 이동 전경 영역을 성공적으로 검출하는 것은, 인터-모드 세그먼트화 동안 ROI 피처 검출의 수행 속도를 개선시킬 수도 있다. 배경 모델링 및 감산 기술은 잡음 및 이동 배경 영역들에 대해 강인하다. 또한, 그 기술은, 계산 집약적인 모션 추정 동작을 이용하는 이동 오브젝트 세그먼트화 접근법보다 실질적으로 더 효율적이다.
인트라-모드 세그먼트화의 경우에서, 먼저, ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 프레임내에서 안면 마스크를 검출하고, 그 후, 안면 마스크내에서 사람의 눈 및 입과 같은 안면 피처들을 검출한다. 그 후, 시스템 (14) 은 사람의 안면 피처들의 기하학적 특성 및 형상 특징에 기초하여 피처 확인을 수행하여, 잘못된 안면 피처 검출을 제거한다. 그 후, 시스템 (14) 은 프레임이 2개 이상의 사람의 안면을 포함하는지 여부를 판정하고, 검출된 안면 피처들을 개별 안면들에 대한 그룹들로 분리한다. 안면 피처들의 기하학적 위치 및 ROI 기하학적 모델에 기초하여, ROI 오브젝트 형상이 근사화된다. 예를 들어, ROI 기하학적 모델은 사람의 머리 및 어깨의 기하학적 모델을 포함할 수도 있다.
시스템 (14) 은 비디오 프레임에 대해 영역 확대를 수행하여, 후보 영역들의 세트를 생성한다. 그 후, 시스템 (14) 은, 전체 프레임에 대한 후보 영역들의 세트로부터 결과적인 ROI 오브젝트 형상내에 위치된 영역들을 선택함으로써 전경 오브젝트를 생성한다. 그 후, 시스템 (14) 은 2개 이상의 전경 오브젝트가 존재하는지 여부를 판정하고 다중의 전경 오브젝트들을 함께 병합하여, 출력 이미지를 위한 결합된 전경 오브젝트를 형성한다. 적용가능하다면, 다중의 전경 오브젝트들을 병합할 시에, 시스템 (14) 은, 예를 들어, 감시 애플리케이션에서의 개인의 아이덴티티 검출 또는 VT 애플리케이션에서의 우선적인 인코딩을 위해, 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다.
인터-모드 세그먼트화의 경우에서, ROI 오브젝트 세그먼트화 시스템 (14) 은 배경 모델링 및 감산 기술을 사용하여, 비디오 시퀀스의 연속하는 비디오 프레임들의 시간적인 상관을 이용한다. 이러한 방식으로, 여기에 설명된 기술은 향상된 효율성을 제공한다. 시스템 (14) 은, 현재의 프레임과 이전의 프레임 사이에서의 ROI 오브젝트내의 이동 픽셀들을 전경 픽셀들로서 분류한다. 그 후, 시스템 (14) 은 그 전경 픽셀들에 기초하여 이동 전경 영역을 생성한다. 그 후, 시스템 (14) 은 이동 전경 영역내의 ROI 피처들, 및 이전의 프레임내의 안면 마스크 및 안면 피처 위치를 검출할 수도 있다. 이러한 방식으로, 시스템 (14) 은, 비디오 시퀀스의 각각의 프레임에 대한 영역 세그먼트화를 수행하는 계산 복잡도를 감소시킨다. 그 후, 시스템 (14) 은 출력 이미지를 형성하기 위해 이전의 프레임의 전경 오브젝트와 이동 전경 영역을 병합하고, 세그먼트화된 프레임의 출력 이미 지를 멀티미디어 애플리케이션 (18) 으로 전송한다.
ROI 오브젝트 세그먼트화 시스템 (14) 은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 예를 들어, ROI 오브젝트 세그먼트화 시스템 (14) 의 다양한 양태들은, 하나 이상의 디지털 신호 프로세서 (DSP), 마이크로프로세서, 주문형 집적 회로 (ASIC), 필드 프로그래밍가능 로직 어레이 (FPGA), 또는 임의의 다른 동등한 집적 또는 별개의 로직 회로뿐만 아니라, 그러한 컴포넌트들의 임의의 조합내에서 구현될 수도 있다. 일반적으로, "프로세서" 라는 용어는 단독의 또는 다른 로직 회로와의 결합인 전술한 로직 회로 중 임의의 회로를 지칭할 수도 있으며, 그러한 프로세서들 중 하나 이상의 프로세서들을 지칭할 수도 있다. 소프트웨어로 구현될 경우, ROI 오브젝트 세그먼트화 시스템에 속하는 기능은, 랜덤 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 랜덤 액세스 메모리 (NVRAM), 전기적으로 소거가능한 프로그래밍가능 판독-전용 메모리 (EEPROM), 플래시 메모리, 자성 매체, 광학 매체 등과 같은 컴퓨터-판독가능 매체상에 명령들로서 포함될 수도 있다. 그 명령들은 본 발명에 설명된 기능의 하나 이상의 양태들을 지원하도록 실행된다.
도 2a 및 도 2b는 비디오 시퀀스의 비디오 프레임 (22) 내의 ROI 오브젝트 (24) 및 비-ROI 영역 (25) 의 정의를 도시한 다이어그램이다. 도 2b의 예에서, ROI 오브젝트는 머리 및 어깨 ROI 오브젝트 (24) 로 나타낸다. 다른 실시형태에서, ROI 오브젝트는 직사각형 ROI 오브젝트 또는 원형 또는 불규칙한 형상을 가질 수도 있는 비-직사각형 ROI 오브젝트를 포함할 수도 있다. ROI 오브젝트 (24) 는 비디오 프레임 (22) 에서 제공되는 사람의 안면 (26) 을 포함한다. 비-ROI 영역 (25), 즉, 배경은 도 2b에서 음영에 의해 강조된다.
ROI 오브젝트 (24) 는, 도 1로부터의 ROI 오브젝트 세그먼트화 시스템 (14) 에 의해 비디오 시퀀스로부터 자동적으로 세그먼트화될 수도 있다. VT 애플리케이션에 있어서, 통신 디바이스는 ROI-인에이블된 인코더로 ROI 오브젝트 (24) 를 우선적으로 인코딩할 수도 있다. 이러한 경우, ROI 오브젝트 (24) 는, 화상회의에서의 참가자의 안면 (26) 을 포함하는 비디오 프레임 (22) 의 일부를 포함할 수도 있다. 다른 예들은, 스트리밍 비디오, 예를 들어, 정보 비디오 또는 뉴스 또는 엔터테인먼트 브로드캐스트에서 정보를 제공하는 사람의 안면의 우선적인 인코딩을 포함한다. ROI 오브젝트 (24) 의 사이즈, 형상 및 위치는 고정되거나 조정가능할 수도 있으며 다양한 방식으로 정의, 설명 또는 조정될 수도 있다.
ROI 오브젝트 (24) 는, 비디오 전송자가 사람의 안면 (26) 과 같은, 송신된 비디오 프레임 (22) 내의 개별 오브젝트들을 강조하도록 허용한다. 이와 대조적으로, ROI 오브젝트 (24) 는, 비디오 수신자가 수신 비디오 프레임 (22) 내에서 원하는 오브젝트들을 더 선명하게 뷰잉하도록 허용한다. 어느 경우에서든, ROI 오브젝트 (24) 내의 안면 (26) 은, 비디오 프레임 (22) 의 배경 영역들과 같은 비-ROI 영역 (25) 에 비해 더 높은 이미지 품질로 인코딩된다. 이러한 방식으로, 사용자는 안면 표정, 입술 이동, 눈 이동 등을 더 선명하게 뷰잉할 수 있다. 몇몇 실시형태에서, ROI 오브젝트는, 또한, 부가적인 코딩 비트뿐만 아니라 향상된 에러 검출 및 내성으로 인코딩될 수도 있다.
도 3은 비디오 시퀀스의 ROI 오브젝트내에서 제공된 오브젝트에 대한 오브젝트 이동/회전 및 형상 변형에서의 변화들을 도시한다. 특히, 도 3의 프레임 0 및 프레임 1에 도시된 사람의 머리는 그의 위치를 현저하게 변경한다. 도 3의 예에서, 사람의 머리는 프레임 0에 비해 프레임 1에서 기울어져 있다. 도 4는 비디오 시퀀스의 ROI 오브젝트내의 사람에 대한 안면 표정에서의 변화들을 도시한다. 특히, 프레임 0 및 프레임 1에 도시된 사람의 입은, 실질적으로 닫혀진 위치로부터 크게 열려진 위치로 전이한다. 따라서, 도 3 및 도 4는 비디오 시퀀스의 ROI 오브젝트에서의 큰 양의 이동의 경우들을 나타낸다.
도 5a는 도 1로부터의 ROI 오브젝트 세그먼트화 시스템 (14) 의 예시적인 동작을 도시한 흐름도이다. ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 시퀀스로부터의 ROI 오브젝트의 자동적인 세그먼트화를 위한 기술들을 구현한다. 상술된 바와 같이, ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 시퀀스를 프로세싱하기 위해 인트라-모드 세그먼트화 및 인터-모드 세그먼트화 양자를 지원한다.
ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 소스 (12) 로부터 비디오 시퀀스의 제 1 프레임을 수신한다 (30). ROI 오브젝트 세그먼트화 시스템 (14) 은 그 수신 프레임에 대해 인트라-모드 세그먼트화를 수행한다 (32). 인트라-모드 세그먼트화는, 비디오 시퀀스의 다른 프레임들과는 독립적으로 비디오 시퀀스의 현재 프레임을 프로세싱한다. 인트라-모드 세그먼트화의 경우에서, ROI 오브젝트 세그먼트화 시스템 (14) 은 ROI 오브젝트 모션 정보를 사용하지 않는다. 인트라-모드 세그먼트화를 수행하는 동안, ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 시퀀스의 수신 프레임을 비디오 메모리 (16) 에 저장한다. 그 후, ROI 오브젝트 세그먼트화 시스템 (14) 은 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다 (34).
ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 시퀀스의 다음의 프레임을 비디오 소스 (12) 로부터 수신한다 (36). 그 후, 시스템 (14) 은, 그 수신 프레임에 대해 인트라-모드 세그먼트화 또는 인터-모드 세그먼트화를 수행할지의 여부를 판정하기 위해 모드 결정을 수행한다 (37). 그 모드 결정은 하나 이상의 세그먼트화 모드 결정 인자들에 기초할 수도 있다. 예를 들어, 수신 프레임의 계산 복잡도, 수신 프레임에 대한 세그먼트화의 원하는 품질, 수신 프레임과 이전의 프레임 사이의 유사도의 양, 수신 프레임과 이전의 프레임 사이의 모션 활성도의 양, 이전의 프레임에 대해 사용된 세그먼트화 모드, 및 최종 인트라-모드 프로세스 이후에 세그먼트화된 프레임들의 수와 같은 세그먼트화 모드 결정 인자들에 기초하여 시스템 (14) 은 수신 프레임에 대해 수행할 세그먼트화 모드를 결정할 수도 있다. 다른 실시형태에서, 세그먼트화 모드 결정은 부가적인 세그먼트화 모드 결정 인자들에 기초할 수도 있다.
시스템 (14) 이 인트라-모드 세그먼트화를 수행하지 않는다고 결정할 경우 (도면부호 (37) 의 아니오 브렌치), ROI 오브젝트 세그먼트화 시스템 (14) 은 이전의 프레임에 기초하여 수신 프레임에 대해 인터-모드 세그먼트화를 수행한다 (38). 이러한 경우, ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 시퀀스의 이전 의 프레임으로부터, 예를 들어, 비디오 메모리 (16) 로부터 모션 정보를 검색하고, 현재의 프레임과 이전의 프레임 사이의, ROI 오브젝트에 대한 모션 정보를 사용한다. 인터-모드 세그먼트화를 수행하는 동안, ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 시퀀스의 수신 프레임을 비디오 메모리 (16) 에 저장한다. 그 후, ROI 오브젝트 세그먼트화 시스템 (14) 은 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다 (40).
ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 소스 (12) 로부터 비디오 시퀀스의 프레임들을 계속 수신한다. 시스템 (14) 이 인트라-모드 세그먼트화를 수행한다고 결정할 경우 (도면부호 (37) 의 예 브렌치), ROI 세그먼트화 시스템 (14) 은 수신 프레임에 대해 인트라-모드 세그먼트화를 다시 수행한다 (32). 따라서, ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 소스 (12) 로부터 수신된 비디오 시퀀스의 프레임들 중 일부에 대해 인트라-모드 세그먼트화를 수행하고, 비디오 시퀀스의 다른 프레임들에 대해 인터-모드 세그먼트화를 수행한다.
도 5b는 도 5a로부터의 세그먼트화 모드 결정 (단계 37) 을 더 상세히 도시한 흐름도이다. ROI 오브젝트 세그먼트화 시스템 (14) 은 하나 이상의 세그먼트화 모드 결정 인자들에 기초하여 세그먼트화 모드 결정을 수행할 수도 있다. 시스템 (14) 은 도 5에 도시된 단계들 중 하나 이상의 단계들을 수행하여, 수신 프레임에 대해 수행할 세그먼트의 모드를 결정할 수도 있다. 몇몇 실시형태에서, 시스템 (14) 은 단계들을 개별적으로 수행할 수도 있거나, 단계들 중 하나 이상의 단계들을 임의의 순서로 결합시킬 수도 있다. 다른 실시형태에서, ROI 오브젝 트 세그먼트화 시스템 (14) 은, 수신 프레임에 대해 인트라-모드 세그먼트화 또는 인터-모드 세그먼트화를 수행할지의 여부를 결정할 경우, 부가적인 세그먼트화 모드 결정 인자들을 고려할 수도 있다.
시스템 (14) 은 수신 프레임의 계산 복잡도를 결정할 수도 있다 (46). 예를 들어, 시스템 (14) 은 수신 프레임을 검사하여, 그 수신 프레임에 포함된 ROI 피처 후보들의 수를 결정할 수도 있다. 프레임이 큰 수의 ROI 피처들을 포함하면, 수신 프레임은, 인터-모드 세그먼트화 프로세스가 그 수신 프레임으로부터의 ROI 오브젝트를 정확하게 세그먼트화하기에 너무 복잡할 수도 있다. 따라서, 시스템 (14) 은, 높은-복잡도 비디오 프레임을 프로세싱하기 위해, 계산 복잡도가 미리-결정된 레벨을 초과할 경우 인트라-모드 세그먼트화를 수행하는 것을 결정할 수도 있다. 또한, 시스템 (14) 은 엔드-사용자 (end-user) 로부터의 원하는 품질의 세그먼트화를 결정할 수도 있다 (48). 예를 들어, ROI 세그먼트화 시스템 (14) 을 구현하는 비디오 통신 디바이스의 엔드-사용자가 수신 비디오 프레임에 대한 미리-결정된 레벨을 초과하는 세그먼트화의 품질을 요청하면, 시스템 (14) 은 수신 프레임에 대해 인트라-모드 세그먼트화를 수행할 수도 있다. 이와 대조적으로, 엔드-사용자가 수신 비디오 프레임에 대한 미리-결정된 레벨 미만인 세그먼트화의 품질을 요청하면, 시스템 (14) 은 수신 프레임에 대해 인터-모드 세그먼트화를 수행할 수도 있다.
또한, 시스템 (14) 은 수신 프레임과 이전 프레임 사이의 유사도의 양을 결정할 수도 있다 (50). 예를 들어, 시스템 (14) 은 이전의 프레임과 수신 프레 임을 비교하여, 그 2개의 프레임들의 컬러 히스토그램들 사이의 유사도의 양이 미리-결정된 레벨을 초과하는지 여부를 판정할 수도 있다. 그 2개의 프레임들 사이의 큰 컬러 변화는 장면의 변화를 나타낼 수도 있다. 이러한 경우, 시스템 (14) 은 수신 프레임내의 잠재적인 신규한 ROI 오브젝트들을 세그먼트화하기 위해 인트라-모드 세그먼트화를 수행할 수도 있다. 컬러 히스토그램이 그 2개의 프레임들 사이에서 실질적으로 유사한 상태로 유지되면, 시스템 (14) 은 인터-모드 세그먼트화를 수행할 수도 있다.
시스템 (14) 은 수신 프레임과 이전 프레임 사이의 모션 활성도의 양을 결정할 수도 있다 (52). 예를 들어, 시스템 (14) 은 수신 프레임을 이전의 프레임과 비교하여, 그 프레임들내의 ROI 오브젝트들의 위치들 사이의 이동량이 미리-결정된 레벨을 초과하는지 여부를 판정할 수도 있다. ROI 오브젝트들이 그 2개의 프레임들내에서 실질적으로 상이한 영역들 또는 위치들을 점유하면, 시스템 (14) 은 인트라-모드 세그먼트화를 수행할 수도 있다. ROI 오브젝트들이 그 2개의 프레임들내에서 실질적으로 동일한 영역 또는 위치를 점유하면, 시스템 (14) 은 인터-모드 세그먼트화를 수행할 수도 있다.
상기 단계들에서, 비디오 시퀀스의 ROI 세그먼트화 프로세스들은, 비디오 시퀀스의 비디오 프레임에 대해 임의의 순서로 수행된 임의의 수의 인트라-모드 세그먼트화 및 인터-모드 세그먼트화를 포함할 수도 있다. 예를 들어, 인트라-모드 세그먼트화는 0으로서 나타낼 수도 있고, 인터-모드 세그먼트화는 1로서 나타낼 수도 있다. 예시적인 비디오 시퀀스 세그먼트화에서의 프레임들의 세트의 인트라 -모드 상태 (0) 및 인터-모드 상태 (1) 는 0 0 1 1 0 1 1 1 1 0 으로서 나타낼 수도 있다. 이러한 경우, 세그먼트화 모드 결정은, 수신 프레임의 특성 또는 수신 프레임과 이전 프레임 사이의 특성에 순수하게 기초한다.
또한, 시스템 (14) 은, 이전의 프레임을 세그먼트화하는데 사용되는 세그먼트화 모드에 기초하여 수신 프레임에 대해 수행할 세그먼트화 모드를 결정할 수도 있다. 시스템 (14) 은, 이전의 프레임이 인트라-모드 프로세스에 의해 세그먼트화되었는지의 여부를 판정할 수도 있다 (54). 이전의 프레임이 인트라-모드 프로세스에 의해 세그먼트화되었다면, 시스템 (14) 은 인터-모드 프로세스에 의해 수신 프레임을 세그먼트화하는 것을 결정할 수도 있다. 이러한 단계에서, 비디오 시퀀스의 ROI 세그먼트화 프로세스들은, 인터-모드 세그먼트화가 인트라-모드 세그먼트화에 항상 후속하도록, 비디오 시퀀스의 비디오 프레임들에 대해 수행된 임의의 수의 인트라-모드 세그먼트화 및 인터-모드 세그먼트화를 포함할 수도 있다. 예시적인 비디오 시퀀스 세그먼트화에서의 프레임들의 세트의 인트라-모드 상태 (0) 및 인터-모드 상태 (1) 는 0 1 1 0 1 1 1 1 0 1 로서 나타낼 수도 있다. 이러한 경우, 세그먼트화 모드 결정은, 이전 프레임의 세그먼트화 모드에 순수하게 기초한다.
또한, 시스템 (14) 은 최종 인트라-모드 세그먼트화된 프레임 이후 세그먼트화된 프레임들의 수를 결정할 수도 있다 (56). 예를 들어, 시스템 (14) 은 매 N개의 프레임들과 같이 주기적으로 인트라-모드 세그먼트화를 수행하는 것을 결정할 수도 있다. 몇몇 경우, n번째 프레임은 10번째 프레임을 포함할 수도 있다. 다른 실시형태에서, N은 10개의 프레임 초과 또는 미만일 수도 있다. 이러한 단계에서, 비디오 시퀀스의 ROI 세그먼트화 프로세스들은, 인트라-모드 세그먼트화가 주기적으로 수행되도록, 비디오 시퀀스의 비디오 프레임들에 대해 수행된 임의의 수의 인트라-모드 세그먼트화 및 인터-모드 세그먼트화를 포함할 수도 있다. 예시적인 비디오 시퀀스 세그먼트화에서의 프레임들의 세트의 인트라-모드 상태 (0) 및 인터-모드 상태 (1) 는 0 1 1 1 0 1 1 1 0 1 로서 나타낼 수도 있다. 이러한 경우, 세그먼트화 모드 결정은 매 4번째 프레임마다 인트라-모드 세그먼트화를 수행하는 것에 기초한다.
도 6은, 비디오 소스 (12) 로부터 수신된 비디오 시퀀스의 프레임에 대해 인트라-모드 세그먼트화를 수행할 경우의 ROI 오브젝트 세그먼트화 시스템 (14) 을 도시한 블록도이다. 이러한 경우, ROI 오브젝트 세그먼트화 시스템 (14) 은, 모션 정보없이 비디오 시퀀스의 다른 프레임들과는 독립적으로 비디오 시퀀스의 프레임을 프로세싱한다. 도 7 내지 도 13은, 인트라-모드 세그먼트화 동안 ROI 오브젝트 세그먼트화 시스템 (14) 에 의해 구현된 기술들의 예시적인 결과들을 도시한 스크린 샷이다.
도 6에 도시된 실시형태에서, 비디오 소스 (12) 는 크로미넌스 (chrominance) 블루 채널 (Cb) (60), 크로미넌스 레드 채널 (Cr) (61), 및 루미넌스 채널 (Y) (62) 을 포함한다. ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 소스 (12) 로부터 수신된 비디오 시퀀스의 비디오 프레임으로부터 사람의 머리 및 어깨 영역과 같은 ROI 오브젝트를 자동적으로 세그먼트화하기 위한 기술을 구현한다. 개시된 기술들은, 인트라-모드 세그먼트화 동안 영역 세그먼트화와 피처-기반 및 모델-기반 검출을 결합시키는 하이브리드 기술을 포함한다.
ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 소스 (12) 의 크로미넌스 블루 채널 (60) 및 크로미넌스 레드 채널 (61) 로부터 수신된 블루 및 레드 채널 크로미넌스 값에 기초하여, 비디오 프레임내의 스킨-컬러 영역을 검출하는 안면 마스크 검출기 (64) 를 포함한다. 그 후, 안면 마스크 검출기 (64) 는, 검출된 스킨-컬러 영역들의 픽셀들을 안면 픽셀들로서 분류한다. 이러한 방식으로, 안면 마스크 검출기 (64) 는, 안면 픽셀이 아닌 수신 프레임내의 픽셀들을 제거함으로써 안면 마스크를 획득할 수도 있다. 안면 마스크가 획득된 이후, 안면 마스크 검출기 (64) 는 팽창 및 침식의 수학적인 모폴로지 동작을 사용하여, 눈 및 입 영역과 같은 안면 피처들로 인한 안면 마스크내의 잡음 및 홀 (hole) 을 제거한다. 도 7은 표준 "모녀" 비디오 테스트 시퀀스의 프레임에 대한 신속한 안면 마스크 검출의 일 예를 도시한다.
통상적으로, 안면 마스크 검출기 (64) 는, YCbCr 컬러 공간에 협소하고 일관되게 분배된 크로미넌스 값들의 특정 세트의 존재에 의해 비디오 프레임내에서 스킨-컬러 영역들을 식별할 수 있는 스킨-컬러 맵을 사용한다. 스킨-컬러 맵은 상이한 타입의 스킨 컬러에 대해 강인하다. 인종의 스킨 컬러는, 주로 스킨의 어두움 또는 옅음 (fairness) 으로 인해 상이하게 인식된다. 즉, 스킨 컬러는, Cr 또는 Cb가 아닌 Y에 의해 관리되는 컬러의 밝기 (brightness) 에서의 차이를 특징으로 한다. 따라서, 유효한 스킨-컬러 맵은, 수신 프레임의 Cr 및 Cb 컴포넌 트에만 기초하여 달성될 수 있다. 안면 마스크 검출기 (64) 는 Cr∈[133, 173] 및 Cb∈[77, 127] 의 범위를 갖는 CbCr 스킨-컬러 맵을 이용하여, 수신 비디오 프레임내에서 스킨-컬러 영역들을 검출할 수도 있다. 그러나, Cr 및 Cb 범위는 제한하는 것으로 고려되지 않아야 하며, 안면 마스크 검출기 (64) 는 상이한 Cr 및 Cb 범위를 갖는 스킨-컬러 맵을 이용할 수도 있다.
몇몇의 경우에서, 안면 마스크 검출기 (64) 는 사람의 안면을 배타적으로 획득할 수 없을 수도 있다. 도 7에 도시된 바와 같이, 프레임내의 모녀의 의복 영역은 스킨-톤 맵에 의해 정의된 톤과 유사한 톤을 갖는 것으로 보인다. 따라서, 안면 마스크 검출기 (64) 는 안면 마스크의 일부로서 의복 영역을 잘못 선택할 수도 있다. 여기에 설명된 신속한 안면 마스크 검출 단계는 프레임내의 몇몇 비-안면 영역들을 제거하지만, 추가적인 프로세싱이 정확한 안면 영역을 획득 및 확인하는데 필요할 수도 있다.
또한, 시스템 (14) 은 안면 마스크내의 안면 피처 후보들을 검출하는 눈 검출기 (66) 및 입 검출기 (67), 및 그 눈 및 입 후보들로부터 안면 피처들을 선택하는 피처 확인 모듈 (68) 을 포함한다. 통상적으로, 안면 필터는, 안면 영역의 타원 형상 및 안면 피처들 사이의 전체 공간 관계 제약과 같은, 사람의 안면 및 그 안면의 피처들의 공통적인 정보에 기초하여 구축된다. 따라서, 이러한 안면 피처들을 위치결정하는 것은 비디오 프레임내의 근사적인 안면 위치를 유도하는데 유용하다.
눈 검출기 (66) 는 안면 마스크 검출기 (64) 에 의해 획득된 안면 마스크내 의 눈 피처 후보들을 검출한다. 눈 검출기 (66) 는 2개의 관측치에 기초하여 눈 피처 후보들을 검출한다. 먼저, 눈 주변의 크로미넌스 컴포넌트들은 일반적으로 높은 Cb 및 낮은 Cr 값을 포함한다. 따라서, 눈 검출기 (66) 는 아래에 주어진 수학식 (1) 에 기초하여 프레임의 크로미넌트 눈 맵을 구성할 수도 있다.
Figure 112008063335697-pct00001
일단 크로미넌스 눈 맵이 획득되면, 눈 검출기 (66) 는 눈 맵 내의 각각의 픽셀의 크로미넌스 눈 맵 값 (C) 에 임계값을 적용하여, 눈 후보들에 대해 눈 맵내에 가장 밝은 영역들을 위치결정한다. 그 후, 눈 검출기 (66) 는 모폴로지 동작을 적용하여, 실질적으로 근접한 가장 밝은 영역들을 단일 눈 후보들로 병합시킨다. 도 8a는 "모녀" 비디오 테스트 시퀀스 프레임의 크로미넌스 눈 맵내의 눈 검출의 일 예를 도시한다.
둘째로, 눈은 일반적으로 루미넌스 컴포넌트에서 어두운 픽셀 및 밝은 픽셀 양자를 포함한다. 따라서, 그레이스케일 (grayscale) 모폴로지 동작은, 눈 영역들 주변의 루미넌스 컴포넌트에서 더 밝은 픽셀 및 더 어두운 픽셀을 강조하는데 사용될 수도 있다. 눈 검출기 (66) 는, 아래에 주어진 수학식 (2) 에 기초하여 프레임의 루미넌스 눈 맵을 구성할 수도 있다.
Figure 112008063335697-pct00002
일단 루미넌스 눈 맵이 획득되면, 눈 검출기 (66) 는 눈 맵 내의 각각의 픽셀의 루미넌스 눈 맵 값 (L) 에 임계값을 적용하여, 눈 후보들에 대해 눈 맵내에 가장 밝은 영역들을 위치결정할 수도 있다. 그 후, 눈 검출기 (66) 는 모폴로지 동작을 적용하여, 실질적으로 근접한 가장 밝은 영역들을 단일 눈 후보들로 병합시킨다. 도 8b는 "모녀" 비디오 테스트 시퀀스 프레임의 루미넌스 눈 맵내의 눈 검출의 일 예를 도시한다.
눈 검출기 (66) 는 (도 8a에 도시된) 크로미넌스 눈 맵내에서 검출된 눈 후보들을 (도 8b에 도시된) 루미넌스 눈 맵내에서 검출된 눈 후보들과 결합시켜, 안면 마스크내에서 최종 눈 후보들을 발견한다. 그러나, 몇몇의 경우, 최종 눈 후보들은 여전히 부정확한 눈 후보들을 포함할 수도 있다. 이러한 관계없는 눈 후보들은, 이후에 피처 확인 프로세스 동안 제거될 수도 있다.
입 검출기 (67) 는 안면 마스크 검출기 (64) 에 의해 획득된 안면 마스크내에서 입 피처 후보들을 검출한다. 통상적으로, 입 영역의 컬러는, 다른 안면 영역들보다는 더 강한 레드 컴포넌트 및 더 약한 블루 컴포넌트를 포함한다. 따라서, 크로미넌트 컴포넌트 Cr은 입 영역에서 크로미넌스 컴포넌트 Cb보다 더 커야 한다. 그러나, 입 영역은, Cr/Cb 피처에서 비교적 낮은 응답을 갖지만, Cr2 피처에서 비교적 높은 응답을 갖는다. 입 검출기 (67) 는, 아래에 주어진 수학식 (3) 및 수학식 (4) 에 기초하여 프레임의 입 맵을 구성할 수도 있다.
Figure 112008063335697-pct00003
, 여기서,
Figure 112008063335697-pct00004
일단 입 맵이 획득되면, 입 검출기 (67) 는 입 맵내의 각각의 픽셀의 입 값 (M) 에 임계값을 적용하여, 입 후보들에 대해 입 맵내에 가장 밝은 영역들을 위치결정한다. 그 후, 입 검출기 (67) 는 모폴로지 동작을 적용하여, 실질적으로 근접한 가장 밝은 영역들을 단일 입 후보들로 병합시킨다. 도 9는 "모녀" 비디오 테스트 시퀀스 프레임의 입 맵내의 입 검출의 일 예를 도시한다.
피처 확인 모듈 (68) 은, 눈 검출기 (66) 및 입 검출기 (67) 에 의하여 안면 마스크내에서 검출된 안면 피처 후보들을 확인하여, 눈 및 입 후보들로부터 정확한 안면 피처들을 선택한다. 피처 확인 모듈 (68) 은 강인한 ROI 피처 검출 프로세스를 보장한다. 상술된 눈 및 입 맵 프로세스가 눈 및 입 영역들을 분류하는데 효과적이지만, 몇몇 잘못된 분류가 잘못된 안면 피처 검출을 여전히 초래할 수도 있다. 피처 확인 모듈 (68) 은 3개의 확인 단계들을 수행하여, 안면 마스크 내의 안면 피처 후보들을 확인하고 임의의 잘못된 안면 피처 검출을 제거한다.
먼저, 안면 토포그래피 (topography) 의 관점에서, 통상적으로 안면 피처가, 영역내에서 고밀도 콘트라스트 (contrast) 를 특징으로 하는 "밸리 (valley)" 영역, 즉, 리세스 (recessed) 영역에 위치된다는 것이 관측된다. 따라서, 피처 확인 모듈 (68) 은, 그레이스케일-근접 및 팽창 모폴로지 동작을 수행함으로써 밸리 영역들을 식별한다. 그 후, 피처 확인 모듈 (68) 은 프레임 내의 안면 피처 후보들의 위치들을 프레임내의 밸리 영역들의 위치들과 비교한다. 안면 피처 후보들이 검출된 밸리 영역에 적어도 부분적으로 중첩하지 않는다면, 피처 확인 모듈 (68) 은 그 안면 피처 후보를 고려사항으로부터 제거할 것이다. 따라서, 안면 피처 후보를 유지하기 위해, 피처 확인 모듈 (68) 은 식별된 밸리 영역들 중 하나의 영역과 피처의 상관을 요구한다. 도 10a는 "모녀" 비디오 시퀀스 프레임내에서 식별된 밸리 영역들을 도시한다.
둘째로, 피처 확인 모듈 (68) 은, 프레임내의 대칭적인 위치 및 형상 특징과 같은 눈 쌍의 고유 특성에 기초하여 눈 피처 후보들을 확인한다. 도 10b는 각각 중심 O1 및 O2 를 갖는 눈 쌍의 고유 특성들을 도시한다. 예를 들어, 2개의 눈들은,
Figure 112008063335697-pct00005
이고, 양 눈들이 유사한 면적을 가지며, 양 눈들이 축 OA로 투영함으로써 비교될 수 있는 유사한 형상을 갖도록 안면의 주축 A에 대해 대칭이다. 또한, 2개의 눈들은 각각의 PCA (Principle Component Analysis) 축들, PCA1 및 PCA2 에 대해 대칭이다. 또한, 통상적으로 눈썹은 그 2개의 눈 위에서 검출될 수 있다.
피처 확인 모듈 (68) 은 가중된 스코어-시스템을 이용하여, 안면 마스크내의 눈 피처 후보들을 확인할 수도 있다. 이러한 경우에서, 피처 확인 모듈 (68) 은 눈 쌍 특성들에 기초하여 다수의 기준을 체크하고, 그 기준 각각에 대한 스코어를 제공한다. 예를 들어, 피처 확인 모듈 (68) 은, 눈 중심 위치가 밸리 영역내에 있는지 여부를 판정한다. 다음으로, 피처 확인 모듈 (68) 은, 눈 중심 및 검출된 홍채의 위치가 실질적으로 근접한지의 여부를 판정한다. 홍채의 위치는, 눈의 강도값을 수평 및 수직 축에 투영하고 최소의 누산된 총 강도값에 대응하는 포인트를 식별함으로써 발견될 수도 있다. 그 후, 피처 확인 모듈 (68) 은 눈썹이 그 눈 위에서 발견되는지 여부를 판정한다. 다음으로, 피처 확인 모듈 (68) 은, 눈의 PCA 축이 합당한 방향의 범위내에 존재하는지 여부를 판정하며, 그 범위는 통상적인 사람의 눈 쌍의 경험적인 특성화로부터 결정될 수도 있다. 그 후, 피처 확인 모듈 (68) 은 눈이 합당한 거리내에서의 눈 쌍을 갖는지 여부를 판정하며, 그 거리는 또한 경험적인 특성화로부터 결정될 수도 있다. 다음으로, 피처 확인 모듈 (68) 은 눈 쌍이 축 OA에 따라 대칭적인 PCA 축들을 갖는지 여부를 판정한다. 그 후, 피처 확인 모듈 (68) 은 눈 쌍이 축 OA에 따라 대칭적인 형상을 갖는지 여부를 판정한다.
피처 확인 모듈 (68) 은, 정확한 안면 피처들을 후보들로부터 선택하기 위해 상술된 각각의 기준으로부터의 스코어들을 누산하고, 비디오 프레임의 안면 피처 맵을 구성한다. 다양한 개별 기준에 대해 결정된 스코어들은 동등하게 가중될 수도 있거나, 다른 기준보다 하나 이상의 기준을 강조하도록 상이하게 가중될 수도 있다. 피처 확인 모듈 (68) 은, 미리 설정된 임계값 미만의 누산 스코어들을 갖는 안면 피처 후보들로서 잘못된 검출을 식별한다. 그 후, 피처 확인 모듈 (68) 은 이러한 잘못 검출된 안면 피처 후보들을 제거한다.
세 번째로, 피처 확인 모듈 (68) 은, 안면 피처 맵내에서 2개의 눈 후보들과 하나의 입 후보의 모든 가능한 조합으로부터 눈-입 삼각형들을 확인한다. 먼저, 피처 확인 모듈 (68) 은 눈-입 삼각형들의 기하학적 구조 및 배향을 검토하고, 합당하지 않는 눈-입 삼각형들을 추가적인 고려사항으로부터 제거한다. 합당하지 않다고 간주되는 눈-입 삼각형들은, 통상적인 사람에 대해 경험적으로 결정된 눈-입 삼각형 기하학적 구조의 범위에 실질적으로 매칭되지 않는 것이다. 도 10c는 "모녀" 비디오 시퀀스 프레임의 안면 피처 맵내의 2개의 가능한 눈-입 삼각형들 (파선) 을 도시한다. 그 후, 피처 확인 모듈 (68) 은 템플릿 (template) 를 사용하여, 눈-입 삼각형 영역의 기울기 특징을 확인한다. 사람의 안면이 3-차원 (3-D) 오브젝트이기 때문에, 안면 영역 전반에 걸친 루미넌스는 비-균일한 경향이 있다. 정당한 눈-입 삼각형 영역은, 턱과 같은 다른 안면 영역들보다 기울기 정보를 더 복잡하게 하는 코를 포함해야 한다. 눈-입 삼각형 영역으로부터 이용가능한 더 구별된 기울기 정보를 사용하여, 피처 확인 모듈 (68) 은 비디오 프레임에서의 안면에 대해 정확한 눈 및 입 후보를 선택할 수도 있다.
또한, 시스템 (14) 은, 피처 확인 모듈 (68) 에 의해 선택된 안면 피처들을 프레임내의 개별 안면들에 대한 그룹들로 분리하는 멀티-안면 분리 모듈 (70) 을 포함한다. 비디오 프레임에서 2개 이상의 안면을 포함하는 모녀 시퀀스와 같은 비디오 시퀀스에서, 멀티-안면 분리 모듈 (70) 은, 상이한 안면들에 대응하는 그룹들로 눈 및 입 후보들의 세트들을 분리한다. 이러한 태스크의 어려움은 3배가 된다. 먼저, 비디오 프레임내에 포함된 안면들의 총 수가 알려져 있지 않다. 둘째, 몇몇 안면 피처들이 비디오 프레임내에서 검출되지 않을 수도 있다. 셋째, 모든 잠재적인 안면 피처 그룹 조합들의 완전한 체크는 지수적인 계산 복잡도를 갖는다. 눈들과 입을 쌍으로 하는 태스크로 그 문제를 간략화함으로써, 본래의 문제는, 다항식의 계산 복잡도를 갖는 그래픽 이론 문제로 매핑될 수 있다. 계산 복잡도에서의 결과적인 감소는, 제한된 전력 및 프로세싱 리소스들을 갖는 이동 애플리케이션들 및 신속하고 가급적 실시간 결과들을 요구하는 다른 애플리케이션들을 포함하는 많은 애플리케이션들에 대해 매우 바람직할 수도 있다.
그래프 이론을 적용하면, 멀티-안면 분리 모듈 (70) 은, 꼭지점 (vertex) 세트 V={입}+{눈 쌍} 및 에지 (edge) 세트 E={(vi, vj)} 를 갖는 이분 그래프 (bipartite graph) G=(V, E) 를 고려하며, 여기서, vi 및 vj 는 상이한 세트에 속하고, 노드 vi 와 노드 vj 사이의 거리는 합당한 범위내에 있다. 매칭 S의 2개의 에지가 동일한 꼭지점으로 입사하지 않거나 꼭지점에 직접 연결되지 않도록 그 매칭 S가 E의 서브세트로서 정의되면, 그 문제는 최대 매칭 방식 문제가 된다. 이러한 방식으로, 본래의 최대 매칭 방식 문제 정의에서, 매칭에 대한 제약은 S에서의 2개의 에지가 동일한 꼭지점으로 입사하지 않는다는 것만을 요구하기 때문에, 멀티-안면 분리 프로세스는 본래의 최대 매칭 방식 문제의 변형이다.
멀티-안면 분리 문제를 본래의 최대 매칭 방식 문제로 변환하는 확률을 관측하는 것은 중요하다. (vi, vk)∈E, (vj, vk)∈E 지만 (vi, vj)
Figure 112008063335697-pct00006
E 이도록 vk가 존재하는 에지 세트 E'={(vi, vj)} 가 E 로부터 E∪E' 로 에지 세트를 확장시킨 후에 정의되면, 결과 매칭들이 E∪E' 대신 E의 서브세트가 되어야 하도록 부가적인 제약이 포함되어야 하는 것을 제외하고, 그 문제는 본래의 최대 매칭 방식 문제가 된다. 따라서, 멀티-안면 분리 모듈 (70) 은 다항식적 시간 복잡도에서 멀티-안면 분리 문제를 풀 수 있다.
시스템 (14) 은, ROI 오브젝트 기하학적 모델에 기초하여 비디오 프레임내의 각각의 안면에 대한 ROI 오브젝트 형상을 근사화하는 오브젝트 형상 근사화 모듈 (72) 을 포함한다. 예를 들어, ROI 오브젝트 형상은, 사람의 머리 및 어깨의 기하학적 모델에 기초하여 프레임내에서 근사화될 수도 있다. 피처 확인 모듈 (68) 이 안면에 대한 정확한 눈-입 삼각형을 획득한 이후, 오브젝트 형상 근사화 모듈 (72) 은, 눈-입 삼각형의 노드들 사이의 기하학적 관계에 기초하여, ROI 오브젝트 형상, 예를 들어, 머리 및 어깨 모델을 구축할 수도 있다.
인트라-모드 세그먼트화 동안 수행의 속도를 증가시키기 위해, 오브젝트 형상 근사화 모듈 (72) 은 간단한 직사각형 모델을 사용하여, 사람의 머리 및 어깨 오브젝트 형상과 같은 ROI 오브젝트 형상을 근사화할 수도 있다. 비디오 프레임에서 2개 이상의 안면을 포함하는 비디오 시퀀스에 있어서, 멀티-안면 분리 모듈 (70) 이 눈 및 입 후보들을 상이한 안면들에 대한 그룹들로 분리시킨 후, 오브젝트 형상 근사화 모듈 (72) 은, 별개의 눈-입 삼각형들에 기초하여 안면들 각각에 대한 ROI 오브젝트 형상을 근사화한다. 예를 들어, 오브젝트 형상 근사화 모듈 (72) 은 비디오 프레임내에 포함된 각각의 안면에 대한 머리 및 어깨 오브젝트 형상을 근사화할 수도 있다. 도 11은, "모녀" 비디오 테스트 시퀀스 프레임내의 각각의 안면에 대해 정의된 머리 및 어깨 오브젝트 형상을 도시한다.
또한, ROI 오브젝트 세그먼트화 시스템 (14) 은, 전체 프레임에 대해 스플릿트-및-병합 영역 확대를 수행하는 영역 세그먼트화 모듈 (74) 을 포함한다. 영역 세그먼트화 모듈 (74) 은 다중의 동종 후보 영역들로 본래의 프레임을 분할한다. 스플릿트-및-병합 영역 확대를 수행할 경우, 영역 세그먼트화 모듈 (74) 은, 비디오 프레임내의 이웃 픽셀들 사이의 관계를 유사한 클래스 및 비유사한 클래스로 분류한다. 영역 유사성은, 영역에서의 평균 픽셀 강도값에 기초하여 결정될 수도 있다. 그 후, 영역 세그먼트화 모듈 (74) 은 연결된 유사한 픽셀들을 작은 영역들로 클러스터화하며, 최소 수의 후보 영역들을 형성하기 위해 이러한 영역들을 계속 병합한다. 도 12는 비디오 프레임이 초기에 1195 개의 영역들로 스플릿트되고, 그 후, 그 영역들은 22개의 후보 영역들이 생성될 때까지 함께 병합되는 영역 확대 프로세스를 도시한다.
시스템 (14) 은, 근사화된 ROI 오브젝트 형상내에 위치된 프레임의 영역들을 전체 프레임내의 후보 영역들로부터 자동적으로 선택하는 오브젝트 생성 모듈 (76) 을 더 포함한다. 선택된 영역들은 전경 영역들로 고려될 수도 있으며, 선택되 지 않은 영역들은 배경 영역들로 고려될 수도 있다. 그 후, 오브젝트 생성 모듈 (76) 은 전경 영역들에 기초하여 전경 오브젝트를 생성한다.
오브젝트 생성 모듈 (76) 은, 영역 세그먼트 모듈 (74) 에 의해 생성된 후보 영역들의 세트로부터 오브젝트 형상 근사화 모듈 (72) 에 의해 근사화되는 ROI 오브젝트 형상내에 위치된 영역들만을 선택한다. 상술된 바와 같이, ROI 오브젝트 형상은 ROI 오브젝트, 예를 들어, 안면을 포함한 직사각형 영역을 포함할 수도 있으며, 그 ROI 오브젝트 형상의 사이즈는 그 안면에 대한 선택된 눈-입 삼각형에 기초하여 추정될 수도 있다. 이러한 방식으로, 전체 비디오 프레임내 대신 ROI 오브젝트 형상 내에서 추가적인 프로세싱이 수행될 수도 있다.
오브젝트 생성 모듈 (76) 은 영역 세그먼트화 모듈 (74) 에 의해 생성된 비디오 프레임내에서 후보 영역들 각각을 검사하고, 그 영역들이 ROI 오브젝트 형상내에 위치되는지 여부를 판정한다. 오브젝트 생성 모듈 (76) 은, 전경 영역이 될 ROI 오브젝트 형상 내의 총 픽셀의 미리 정의된 퍼센트, 예를 들어, 60% 를 초과하는 영역들을 고려할 수도 있다. 그 후, 오브젝트 생성 모듈 (76) 은, 배경 영역이 될 ROI 오브젝트 형상내의 총 픽셀의 미리 정의된 퍼센트 미만인 비디오 프레임내의 나머지 영역들을 고려할 수도 있다. 이러한 방식으로 오브젝트 생성 모듈 (76) 은 비디오 프레임내의 전경 영역들로부터 전경 오브젝트를 생성한다.
최종적으로, 시스템 (14) 은, 프레임내의 다중의 전경 오브젝트들을 최종 출력 이미지로 병합하는 오브젝트 퓨징 (fuse) 모듈 (78) 을 포함한다. 2개 이상의 전경 오브젝트를 포함하는 비디오 시퀀스에 있어서, 오브젝트 퓨징 모듈 (78) 은 전경 오브젝트들을 병합하여 출력 이미지를 형성한다. 도 13은, 비디오 프레임내의 안면들 각각에 대한 전경 오브젝트의 생성, 및 2개의 전경 오브젝트들의 병합에 의한 출력 이미지의 생성을 도시한다. 그 후, ROI 오브젝트 세그먼트화 시스템 (14) 은 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송할 수도 있다.
도 14는 인트라-모드 세그먼트화를 수행하는 ROI 오브젝트 세그먼트화 시스템 (14) 의 동작을 도시하는 흐름도이다. 그 동작은, 도 7에 도시된 ROI 오브젝트 세그먼트화 시스템 (14) 을 참조하여 여기에 설명될 것이다. ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 소스 (12) 로부터 비디오 시퀀스의 프레임을 수신한다 (80). 인트라-모드 세그먼트화의 경우에서, ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 시퀀스의 다른 프레임들과는 독립적으로 및 모션 정보 없이 비디오 시퀀스의 수신 프레임을 프로세싱한다.
안면 마스크 검출기 (64) 는, 비디오 프레임내에서 식별된 스킨-컬러 영역들에 기초하여 수신 프레임내에서 안면 마스크를 검출한다 (82). 그 후, 안면 마스크 검출기 (64) 는 식별된 스킨-컬러 영역들의 픽셀들을 안면 픽셀들로서 분류한다. 이러한 방식으로, 안면 마스크 검출기 (64) 는, 안면 픽셀들이 아닌 수신 프레임내의 픽셀들을 제거함으로써 안면 마스크를 획득할 수도 있다.
그 후, 눈 검출기 (66) 및 입 검출기 (67) 는 안면 마스크내에서 안면 피처 후보들을 검출한다 (84). 눈 검출기 (66) 는, 안면 마스크내의 픽셀들의 크로미넌스 값 및 루미넌스 값에 기초하여 눈 피처 후보들을 검출할 수도 있다. 입 검출기 (67) 는, 안면 마스크내의 픽셀들의 크로미넌스 값에 기초하여 입 피처 후보들을 검출할 수도 있다. 피처 확인 모듈 (68) 은, 정확한 안면 피처들을 선택하기 위하여 눈 검출기 (66) 및 입 검출기 (67) 에 의해 검출된 안면 피처 후보들의 확인을 수행한다 (86).
그 후, ROI 오브젝트 세그먼트화 시스템 (14) 은, 수신 비디오 프레임이 2개 이상의 안면을 포함하는지 여부를 판정한다 (87). 비디오 프레임이 2개 이상의 안면을 포함하면, 멀티-안면 분리 모듈 (70) 은 프레임에 포함된 개별 안면들에 대한 그룹들로, 피처 확인 모듈 (68) 에 의해 선택된 안면 피처들을 분리시킨다 (88). 그 후, 오브젝트 형상 근사화 모듈 (72) 은, 피처 확인 모듈 (68) 에 의하여 선택된 안면 피처들에 의해 정의된 ROI 오브젝트 기하학적 모델에 기초하여, 비디오 프레임내의 각각의 안면에 대한 ROI 오브젝트 형상을 근사화한다 (90). 예를 들어, 머리 및 어깨 오브젝트 형상은, 정확한 눈-입 삼각형의 위치에 기초하여, 프레임내의 각각의 안면에 대해 근사화될 수도 있다.
영역 세그먼트화 모듈 (74) 은, 전체 프레임에 대해 스플릿트-및-병합 영역 확대를 수행한다 (92). 영역 세그먼트화 모듈 (74) 은 본래의 프레임을 다중의 동종 후보 영역들로 분할한다. 그 후, 오브젝트 생성 모듈 (76) 은, 근사화된 ROI 오브젝트 형상내에 위치된 프레임의 영역들을 전체 프레임내의 후보 영역들로부터 자동적으로 선택한다. 선택된 영역들은 전경 영역들로 고려될 수도 있으며, 선택되지 않은 영역들은 배경 영역들로 고려될 수도 있다. 그 후, 오브젝트 생성 모듈 (76) 은 전경 영역들에 기초하여 전경 오브젝트를 생성한다 (94).
ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 프레임이 2개 이상의 전경 오브젝트를 포함하는지 여부를 판정한다 (95). 비디오 프레임이 2개 이상의 전경 오브젝트를 포함할 경우, 오브젝트 퓨징 모듈 (78) 은 프레임내의 전경 오브젝트들을 최종 출력 이미지로 병합한다 (96). 그 후, ROI 오브젝트 세그먼트화 시스템 (14) 은 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다 (98).
도 15는, 비디오 소스 (12) 로부터 수신된 비디오 시퀀스의 프레임에 대해 인터-모드 세그먼트화를 수행할 경우의 ROI 오브젝트 세그먼트화 시스템 (14) 을 도시한 블록도이다. 이러한 경우에서, ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 메모리 (16) 에 저장된 비디오 시퀀스의 현재 프레임과 이전의 또는 후속 프레임 사이의 ROI 오브젝트에 대한 모션 정보에 기초하여 비디오 시퀀스의 프레임을 프로세싱한다. 도 16 및 도 17은, 인터-모드 세그먼트화 동안 ROI 오브젝트 세그먼트화 시스템 (14) 에 의해 구현된 기술들의 예시적인 결과들을 도시한 스크린 샷이다. 몇몇 실시형태에서, ROI 오브젝트 세그먼트화 시스템 (14) 은, 하나 이상의 세그먼트화 모드 결정 인자들에 기초하여, 도 6 내지 도 14에 설명된 바와 같이, 비디오 시퀀스의 프레임들 중 일부의 프레임에 대해 인트라-모드 세그먼트화를 수행할 수도 있으며, 후술될 바와 같이, 비디오 시퀀스의 다른 프레임들에 대해 인터-모드 세그먼트화를 수행할 수도 있다.
상술된 바와 같이, ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 소스 (12) 로부터 수신된 비디오 시퀀스의 비디오 프레임으로부터 사람의 머리 및 어깨 영역과 같은 ROI 오브젝트를 자동적으로 세그먼트화하기 위한 기술들을 구현한다. ROI 오브젝트 세그먼트화 시스템 (14) 은, ROI 오브젝트에 대한 모션 정보에 기초하여 인터-모드 세그먼트화를 수행한다. 개시된 기술들은, 배경 모델링 및 감산에 기초하여 전경 오브젝트내에서 이동 영역들을 검출하기 위한 기술을 포함한다. 이동 전경 영역을 성공적으로 검출하는 것은, 인터-모드 세그먼트화 동안의 ROI 피처 검출의 수행 속도를 개선시킬 수도 있다.
도 15에 도시된 실시형태에서, 또한, 비디오 소스 (12) 는, 크로미넌스 블루 채널 (Cb) (100), 크로미넌스 레드 채널 (Cr) (101) 및 루미넌스 채널 (Y) (102) 을 포함한다. ROI 오브젝트 세그먼트화 시스템 (14) 은, 도 15에 도시된 바와 같이 인터-모드 세그먼트화를 수행할 경우 배경 제거 모듈 (112) 을 더 포함한다. 이러한 경우, ROI 오브젝트 세그먼트화 시스템 (14) 은 도 6에 도시된 바와 같이 인트라-모드 세그먼트화를 수행할 경우 사용된 컴포넌트들을 또한 포함한다. 예를 들어, ROI 오브젝트 세그먼트화 시스템 (14) 은, 도 6으로부터의 안면 마스크 검출기 (64), 눈 검출기 (68), 및 입 검출기 (67) 을 포함한 ROI 피처 검출기 (104) 를 포함한다. 또한, ROI 오브젝트 세그먼트화 모듈 (14) 은, 도 6에서의 대응하는 컴포넌트들과 유사한 방식으로 동작할 수도 있는, 피처 확인 모듈 (106), 멀티-안면 분리 모듈 (108), 오브젝트 형상 근사화 모듈 (110), 영역 세그먼트화 모듈 (114), 오브젝트 생성 모듈 (116), 및 오브젝트 퓨징 모듈 (118) 을 또한 포함한다.
배경 제거 모듈 (112) 은 ROI 피처 검출기 (104) 및 영역 세그먼트화 모듈 (114) 과 상호작용하여, 인터-모드 세그먼트화를 지원한다. 배경 제거 모듈 (112) 로, 시스템 (14) 은, 비디오 시퀀스에서의 다른 비디오 프레임에 대한 이동을 나타내는 비디오 프레임의 이동 전경 영역을 식별한다. 특히, 이동 전경 영역을 식별하기 위해, 배경 제거 모듈 (112) 은, 비디오 프레임의 ROI 오브젝트내의 픽셀들의 제 1 위치들을 다른 비디오 프레임, 예를 들어, 비디오 시퀀스의 이전 프레임내의 픽셀들의 제 2 위치들과 비교한다.
그 후, 배경 제거 모듈 (112) 은 제 2 위치로부터 이동하지 않은 픽셀들을 배경 픽셀들로서 분류하고, 제 2 위치로부터 이동한 픽셀들을 전경 픽셀들로서 분류한다. 이동 전경 영역은 식별된 전경 픽셀들에 기초하여 식별된다. 그 후, 시스템 (14) 은, 이동 전경 영역 및 다른, 예를 들어, 이전의 비디오 프레임에서 이전에 식별된 전경 영역에 대응하는 비디오 프레임의 결합된 전경 영역내에서 ROI 피처들을 검출한다. 그 검출된 ROI 피처들에 기초하여, 형상 근사화 모듈 (110) 은 비디오 프레임내의 ROI 오브젝트의 형상을 근사화한다.
배경 제거 모듈 (112) 은 비디오 시퀀스의 연속하는 비디오 프레임들의 시간적인 상관을 이용한다. 배경 제거 모듈 (112) 은, 비디오 소스 (12) 로부터 수신된 비디오 시퀀스의 ROI 오브젝트내에서 픽셀들의 픽셀 단위 분류 프로세스를 수행한다. 이러한 방식으로, 배경 제거 모듈 (112) 은, 비디오 메모리 (16) 로부터 검색된 비디오 시퀀스의 이전 또는 후속 프레임과 현재 프레임 사이의 모션 정보에 기초하여, 현재 프레임의 어느 픽셀들이 배경 픽셀들인지를 결정한다. 즉, 배경 제거 모듈 (112) 은 인터-모드 동작에 이용가능한 부가적인 정보를 사용 하여, 전경 오브젝트의 이동 영역을 신속하고 효율적으로 발견한다. 배경 제거 모듈 (112) 은, 그 픽셀들의 이전 위치로부터 이동하지 않은 현재 프레임의 픽셀들을 배경 픽셀들로서 다시 분류한다. 그 후, 차례로, 배경 제거 모듈 (112) 은 이러한 픽셀들의 이전 위치로부터 이동한 그 픽셀들을 전경 픽셀들로서 분류한다. 이러한 방식으로, 배경 제거 모듈 (112) 은, 모션 추정-기반 기술보다 더 효율적이며 더 낮은 복잡도를 갖는다.
배경 제거 모듈 (112) 은 하나 이상의 이점들을 제공할 수도 있다. 예를 들어, 안면 마스크의 탐색 공간은 전체 이미지로부터, 결합된 전경 영역으로 고려될 수도 있는 이동 전경 영역 플러스 이전 프레임으로부터의 안면 마스크 영역으로 감소될 수 있다. 또한, 안면 피처들은 이동 전경 영역 내부 또는 이전의 프레임에서와 동일한 위치에 존재할 것이다. 또 다른 가능한 이점으로서, 연결된 이동 전경 영역들은 동종 영역으로서 처리될 수 있다.
도 16은 "모녀" 비디오 시퀀스의 프레임들 사이에서의 픽셀 모션에 기초한 전경 픽셀 분류의 일 예를 도시한다. 도 16에서, 프레임 8 로부터 프레임 10 으로의 전경 오브젝트의 이동이 다소 작아지므로, 배경 제거 모듈 (112) 이 머리 픽셀들의 일부만을 전경 픽셀들로서 분류하는 동안, 몸의 픽셀들은 첫번째 10개의 프레임들 동안 정적이다.
픽셀 단위 분류 프로세스를 수행하기 위해, 배경 제거 모듈 (112) 은 배경 모델을 적용한다. 특히, 배경 제거 모듈 (112) 은 픽셀 강도를 모델링하기 위해 K개의 가우시안 분포들의 혼합을 적응시키며 (예를 들어, K=5), 여기서, 각각 의 가우시안은 그 각각의 가우시안이 관측된 배경을 설명하는 주파수에 따라 가중된다. 따라서, 전경 영역내의 특정 픽셀이 시간 t에서 강도 Xt를 갖는 확률은,
Figure 112008063335697-pct00007
와 같이 추정되며, 여기서, wi,t 는 정규화된 가중치이고, μi 및 σi 는 i번째 분포의 평균 및 표준 편차이다.
각각의 픽셀의 혼합 모델의 파라미터들이 변하므로, 배경 제거 모듈 (112) 은, 그 혼합의 어느 가우시안이 배경 프로세스에 의해 가장 가능성있게 생성되는지를 결정한다. 경험적 정보에 기초하여, 배경 제거 모듈 (112) 은, 가장 많은 입증 자료 (supporting evidence) 및 가장 적은 분산을 갖는 가우시안 분포를 선택한다. 이것은, K개의 분포들이 w/σ의 값에 기초하여 순서화되기 때문이다. 모델의 이러한 순서화는 효과적으로 순서화된 리스트이며, 여기서, 가장 가능성있는 배경 분포는 상단에 존재하고, 가능성이 적은 일시적인 배경 분포는 저부를 향해 하강한다. 배경 제거 모듈 (112) 은,
Figure 112008063335697-pct00008
와 같이 주어진 수학식 (6) 에 기초하여 가장 가능성있는 분포 모델을 발견할 수도 있으며, 여기서, 임계값 T는 배경에 주어진 총 가중치의 일부이다.
그 후, 배경 제거 모델 (112) 은 매칭이 발견될 때까지 기존의 K개의 가우시안 분포들에 대해 신규한 픽셀을 체크한다. 배경 제거 모듈 (112) 은, 분포의 평균과 신규한 픽셀값 사이의 거리가 분포들의 2.5 표준 편차내에 있을 경우 매칭을 발견한다. K개의 분포들 중 어떠한 것도 현재의 픽셀값에 매칭하지 않으면, w/σ의 가장 작은 값을 갖는 가장 가능성이 적은 분포는, 평균으로서 현재의 신규한 픽셀값, 초기에 높은 분산 및 낮은 이전의 가중치를 갖는 신규한 분포로 대체된다. 일반적으로, 신규한 픽셀값은, K개의 가우시안 분포들의 혼합 모델의 주요 컴포넌트들 중 하나에 의해 항상 나타낼 수 있다. 이러한 매칭된 분포가 B개의 배경 분포들 중 하나이면, 신규한 픽셀은 배경으로서 마킹 (mark) 된다. 그렇지 않으면, 그 픽셀은 전경으로서 마킹된다.
혼합 모델을 적응성으로 유지하기 위해, 배경 제거 모델 (112) 은 신규한 픽셀값들을 사용하여 모델 파라미터들을 계속 업데이트한다. 매칭된 가우시안 분포에 있어서, 배경 제거 모듈 (112) 은 시간 t에서 이러한 신규한 픽셀 값 Xt 로 모든 파라미터들을 업데이트한다. 또한, 배경 제거 모듈 (112) 은,
Figure 112008063335697-pct00009
로서 이전의 가중치를 업데이트하고, 평균 및 분산은
Figure 112008063335697-pct00010
Figure 112008063335697-pct00011
로서 업데이트되며, 여기서, α는 적응 속도를 제어하는 학습 레이트 (learning rate) 이고, 1/α는 변경을 결정하는 시상수를 정의하며, ρ는 현재의 픽셀과 관련되고 학습 레이트 α에 의해 스케일링된 확률이다. 따라서, ρ는 다음과 같이 나타낼 수도 있다.
Figure 112008063335697-pct00012
매칭되지 않은 분포들에 있어서, 평균 μt 및 분산 σt 가 변화되지 않게 유지되는 동안, 배경 제거 모듈 (112) 은 다음과 같이 이전의 가중치를 업데이트한다.
Figure 112008063335697-pct00013
이러한 업데이트 방법의 일 이점은, 배경 제거 모듈 (112) 이 오브젝트로 하여금 배경의 일부가 되게 할 경우, 본래의 배경 모델이 파괴되지 않는다는 것이다. 즉, 본래의 배경 분포는, 그것이 가장 가능성이 적은 분포가 되고 신규한 컬러가 관측될 때까지 혼합 상태로 유지된다. 따라서, 이러한 정적 오브젝트가 다시 이동하면, 배경 제거 모듈 (112) 은 이전의 배경 분포를 그 모델로 신속하게 재통합한다.
일단 배경 제거 모듈 (112) 이 이동 픽셀들을 전경 픽셀들로서 분류하면, 영역 세그먼트화 모듈 (114) 은 그 전경 픽셀들에 대해 스플릿트-및-병합 영역 확대를 수행하여, 비디오 프레임의 이동 전경 영역을 생성할 수도 있다. 이러한 방식에서, 분류된 전경 픽셀들이 영역 확대 접근법으로부터 획득된 영역들을 병합하는데 사용되며, 그에 의해, 전경 영역들을 형성한다. 특히, 배경 제거로부터 기인하는 이동 전경 영역을 스플릿트-및-병합 확대 기술들로 퓨징함으로써, 전경 오브젝트의 이동 영역이 획득될 수 있다.
전경 픽셀들을 검출하고 이동 전경 영역을 생성하는 것은, 인터-모드 세그먼트화 프로세스의 강인성을 증가시키고 ROI 피처 검출 수행의 속도를 증가시킬 수도 있다. ROI 피처들에 대한 탐색은, 이동 전경 영역 및 이전의 프레임의 안면 마스크에 의해 형성된 전경 영역을 포함하는 결합된 전경 영역에 한정될 수 있다. 도 17은 "모녀" 비디오 시퀀스의 비디오 프레임의 배경 영역으로부터 추출된 이동 전경 영역을 도시한다.
그 후, ROI 오브젝트 세그먼트화 시스템 (14) 은 실질적으로 유사한 기술들을 사용하여, 상술된 인트라-모드 세그먼트화를 수행하는데 사용되는 바와 같이 인터-모드 세그먼트화 프로세스를 완료할 수도 있다. 예를 들어, ROI 피처 검출기 (104) 는, 이동 전경 영역 및 이전의 프레임내의 안면 마스크 및 안면 피처 위치에 의해 형성되는 결합된 전경 영역내에서 그 안면 마스크 및 안면 피처를 검출한다. 이러한 방식으로, 배경 제거 모듈 (112) 은 전체 비디오 프레임내에서 ROI 피처 검출을 수행하는 계산 복잡도를 감소시킨다. 그 후, 오브젝트 퓨징 모듈 (118) 은 그 전경 오브젝트들을 병합하여, 출력 이미지를 형성한다. ROI 오브젝트 세그먼트화 모듈 (14) 은 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다.
도시된 실시형태에서, 비디오 시퀀스 동안 신규한 안면 또는 안면 피처가 도입되지 않는다. 따라서, ROI 피처 검출기 (104) 와 오브젝트 형상 근사화 모듈 (110) 사이에서 연장하는 파선에 의해 표시된 바와 같이, ROI 오브젝트 세그먼트화 시스템 (14) 은 인터-모드 세그먼트화를 수행할 경우 피처 확인 모듈 (106) 및 멀티-안면 분리 모듈 (108) 을 스킵할 수도 있다. 특히, 이전의 프레임에서의 오브젝트가 현저한 이동을 나타내지 않는다는 것을 의미하는, 검출된 안면 피처들이 이전의 프레임에서의 피처들에 근접하여 위치되면, 현재 프레임의 오브젝트는, 피처 확인 모듈 (106) 및 멀티-안면 분리 모듈 (108) 의 기능을 적용할 필요없이, 오브젝트 형상 근사화 모듈 (110) 및 오브젝트 생성 모듈 (116) 을 사용함으로써 신속하게 생성될 수 있다.
그렇지 않고 신규한 안면들 또는 안면 피처들이 도입되면, 전체 프로세스가 적용되며, 즉, 피처 확인 모듈 (106), 멀티-안면 분리 모듈 (108), 오브젝트 형상 근사화 모듈 (110) 및 오브젝트 생성 모듈 (116) 이 적용된다. 오브젝트 생성 모듈 (116) 에서, 연결된 이동 전경 영역들은 동종 영역들로서 처리된다. 오브젝트 퓨징 모듈 (118) 은 전경 오브젝트들을 병합하여 출력 이미지를 형성한다. ROI 오브젝트 세그먼트화 시스템 (14) 은 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다.
안면 마스크 및 안면 피처 검출기 (104) 는 인터-모드 세그먼트화 동안 비디오 프레임내에서 부가적인 ROI 피처들을 검출할 수도 있다. 이러한 경우에서, ROI 오브젝트 세그먼트화 시스템 (14) 은 피처 확인 모듈 (106) 을 사용하여, 신규하게 검출된 안면 피처들을 확인할 수도 있다. 또한, 시스템 (14) 은, 비디오 프레임에 포함된 신규한 안면들에 대하여, 오브젝트 형상 근사화 모듈 (110) 및 오브젝트 생성 모듈 (116) 에 선행하여 멀티-안면 분리 모듈 (108) 을 사용할 수도 있다.
도 18은 인터-모드 세그먼트화를 수행하는 ROI 오브젝트 세그먼트화 시스템 (14) 의 동작을 도시한 흐름도이다. 그 동작은, 도 15에 도시된 ROI 오브젝트 세그먼트화 시스템 (14) 을 참조하여 여기에 설명될 것이다. ROI 오브젝트 세그먼트화 시스템 (14) 은 비디오 소스 (12) 로부터 비디오 시퀀스의 프레임을 수신하고, 비디오 메모리 (16) 로부터 비디오 시퀀스의 이전 프레임을 검색한다 (120). 인터-모드 세그먼트화의 경우에서, ROI 오브젝트 세그먼트화 시스템 (14) 은, 비디오 시퀀스의 현재 프레임과 이전 프레임 사이에서의 ROI 오브젝트에 대한 모션 정보에 기초하여 비디오 시퀀스의 프레임을 프로세싱한다. 몇몇 실시형태에서, ROI 오브젝트 세그먼트화 시스템 (14) 은 후속 비디오 프레임에 대한 ROI 오브젝트 모션을 나타내는 모션 정보를 대안적으로 또는 추가적으로 사용할 수도 있다.
배경 제거 모듈 (112) 은 수신 비디오 프레임에 대해 배경 제거를 수행하여, 이전 프레임과 현재 프레임 사이의 ROI 오브젝트내의 이동 픽셀들을 전경 픽셀들로서 분류한다 (122). 배경 제거 모듈 (112) 은, 현재 프레임의 어느 픽셀들이 이전 프레임에서의 그들의 이전 위치로부터 이동하는지를 결정하기 위해 픽셀 단위분류 프로세스를 수행한다. 일단 배경 제거 모듈 (112) 이 이동 픽셀들을 전경 픽셀들로서 분류하면, 영역 세그먼트화 모듈 (114) 은 전경 픽셀들에 대해 스플릿트-및-병합 영역 확대를 수행하여, 비디오 프레임의 이동 전경 영역을 생성할 수도 있다 (124).
그 후, ROI 오브젝트 세그먼트화 시스템 (14) 은 실질적으로 유사한 기술들을 사용하여, 상술된 인트라-모드를 수행하는데 사용된 바와 같이 인터-모드 세그먼트화 프로세스를 완료할 수도 있다. ROI 피처 검출기 (104) 는 이동 전경 영역 및 이전 프레임으로부터의 안면 마스크 위치 양자를 포함하는 영역, 즉, 결합된 전경 영역내에서 안면 마스크를 검출한다 (126). 또한, ROI 피처 검출기 (104) 는, 이동 전경 영역 및 이전 프레임내의 안면 피처 위치들을 포함하는 결합된 전경 영역내에서 안면 피처들, 예를 들어, 눈 및 입 후보들을 검출한다 (128).
ROI 피처 검출기 (104) 에 의해 검출된 안면 피처들이 이전 프레임에서 검출된 안면 피처들에 근접하여 위치되면 (130), 이전 프레임에서의 오브젝트는 현저한 이동을 나타내지 않는다. 이러한 경우, 피처 확인 모듈 (106) 의 기능 (132) 및 멀티-안면 분리 모듈 (108) 의 기능 (134) 을 스킵하면서, 오브젝트 형상 근사화 모듈 (110) 을 사용 (136) 하고 오브젝트 생성 모듈 (116) 을 사용 (138) 함으로써 현재 프레임의 오브젝트가 신속하게 형성될 수 있다.
그렇지 않고 ROI 피처 검출기 (104) 에 의해 검출된 안면 피처들이 이전 프레임에서 검출된 안면 피처들에 근접하여 위치되지 않으면, 이전 프레임에서의 오 브젝트는 현저하게 이동한다. 이러한 경우, 전체 프로세스가 적용된다. 특히, 피처 확인 모듈 (106) 은 검출된 피처들을 확인하고 (132), 멀티-안면 분리 모듈 (108) 은 안면 분리를 수행한다 (134). 그 후, 오브젝트 형상 근사화 모듈 (110) 이 적용되고 (136), 그 후, 오브젝트 생성 모듈 (116) 이 적용된다 (138). 오브젝트 생성 모듈 (116) 에서, 연결된 이동 전경 영역들은 동종 영역들로서 처리되어 오브젝트를 생성한다 (138). 그 후, 오브젝트 퓨징 모듈 (118) 은 전경 오브젝트들을 병합하여 출력 이미지를 형성한다 (140). ROI 오브젝트 세그먼트화 시스템 (14) 은 세그먼트화된 프레임의 출력 이미지를 멀티미디어 애플리케이션 (18) 으로 전송한다 (142).
여기에 설명된 기술들은, 하드웨어, 소프트웨어, 또는 이들의 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현되면, 기술들은, 실행될 때 상술된 방법들 중 하나 이상을 수행하는 명령들을 포함한 프로그램 코드를 포함하는 컴퓨터 판독가능 매체에 의해 부분적으로 실현될 수도 있다. 이러한 경우, 컴퓨터 판독가능 매체는, 동기식 동적 랜덤 액세스 메모리 (SDRAM) 와 같은 랜덤 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 랜덤 액세스 메모리 (NVRAM), 전기적으로 소거가능한 프로그래밍가능 판독-전용 메모리 (EEPROM), 플래시 메모리, 자성 또는 광학 데이터 저장 매체 등을 포함할 수도 있다.
프로그램 코드는, 하나 이상의 디지털 신호 프로세서 (DSP), 범용 마이크로프로세서, 주문형 집적회로 (ASIC), 필드 프로그래밍가능 로직 어레이 (FPGA), 또는 동등한 집적 또는 별개의 로직 회로의 다른 조합들에 의해 실현될 수도 있는 프 로그래밍가능한 프로세서에 의해 실행될 수도 있다. 몇몇 실시형태에서, 여기에 설명된 기능은, 자동적인 오브젝트 세그먼트화를 위해 구성되거나 자동적인 오브젝트 세그먼트화 시스템에 통합되는 전용 소프트웨어 모듈 또는 하드웨어 유닛들내에서 제공될 수도 있다.
본 발명에서, 비디오 시퀀스로부터의 ROI 오브젝트의 자동적인 세그먼트화를 위한 다양한 기술들이 설명되었다. ROI 오브젝트 세그먼트화 시스템은, VT 애플리케이션, 비디오 스트리밍 애플리케이션 또는 비디오 감시 애플리케이션과 같은 멀티미디어 애플리케이션에서의 사용을 위해 정확하게 세그먼트화된 ROI 오브젝트를 제공하기 위하여, 개시된 기술들 중 하나 이상을 개별적으로 또는 조합하여 구현할 수도 있다.
개시된 기술들은, ROI 피처 검출, 영역 세그먼트화, 및 배경 제거를 포함하는 하이브리드 기술을 포함한다. 개시된 기술들은 인트라-모드 및 인터-모드 오브젝트 세그먼트화 양자를 포함할 수도 있다. 인터-모드 세그먼트화는 종래의 계산 집약적인 모션 추정 동작 대신에 배경 모델링 및 감산을 사용함으로써 비디오 시퀀스의 연속하는 비디오 프레임들의 시간적인 상관을 이용하여, ROI 오브젝트 세그먼트화 시스템의 수행 속도를 증가시킨다. 또한, 개시된 기술들은, ROI 오브젝트 세그먼트화 시스템에 의한 인트라-모드 세그먼트화 수행의 속도를 증가시키기 위해, 안면 피처 확인, 멀티-안면 분리, 및 ROI 오브젝트 생성을 포함한다. 이들 및 다른 실시형태들은 다음의 청구항의 범위내에 있다.

Claims (27)

  1. 비디오 시퀀스로부터 관심 영역 (ROI) 오브젝트의 자동 세그먼트화를 위한 방법으로서,
    상기 비디오 시퀀스의 비디오 프레임을 수신하는 단계;
    상기 비디오 시퀀스에서의 다른 비디오 프레임에 대한 이동을 나타내는 상기 비디오 프레임의 이동 전경 (foreground) 영역을 식별하는 단계;
    상기 이동 전경 영역 및 상기 다른 비디오 프레임의 전경 영역에 대응하는 상기 비디오 프레임의 결합된 전경 영역내에서 관심 영역 (ROI) 피처 (feature) 들을 검출하는 단계; 및
    상기 검출된 ROI 피처들에 기초하여 상기 비디오 프레임내의 상기 ROI 오브젝트의 형상을 근사화하는 단계를 포함하는, ROI 오브젝트의 자동 세그먼트화 방법.
  2. 제 1 항에 있어서,
    상기 비디오 프레임에서의 상기 검출된 ROI 피처들의 위치들이 상기 다른 비디오 프레임에서 검출된 다른 ROI 피처들의 위치들에 대응하지 않으면, 상기 ROI 오브젝트에 대해 정확한 ROI 피처들을 선택하기 위해 상기 검출된 ROI 피처들을 확인하는 단계를 더 포함하는, ROI 오브젝트의 자동 세그먼트화 방법.
  3. 제 1 항에 있어서,
    상기 ROI 오브젝트를 식별하는 출력 이미지를 생성하는 단계, 및
    상기 비디오 프레임의 비-ROI 영역들에 비해 상기 ROI 오브젝트를 우선적으로 인코딩하는 단계를 더 포함하는, ROI 오브젝트의 자동 세그먼트화 방법.
  4. 제 1 항에 있어서,
    상기 다른 비디오 프레임은 상기 비디오 시퀀스에서의 이전 비디오 프레임인, ROI 오브젝트의 자동 세그먼트화 방법.
  5. 제 1 항에 있어서,
    상기 이동 전경 영역을 식별하는 단계는,
    상기 비디오 프레임의 상기 ROI 오브젝트내의 픽셀들의 제 1 위치를 상기 다른 비디오 프레임내의 상기 픽셀들의 제 2 위치와 비교하는 단계;
    상기 제 2 위치로부터 이동하지 않은 픽셀들을 배경 픽셀들로서 분류하는 단계;
    상기 제 2 위치로부터 이동한 픽셀들을 전경 픽셀들로서 분류하는 단계; 및
    상기 전경 픽셀들에 기초하여 상기 이동 전경 영역을 식별하는 단계를 포함하는, ROI 오브젝트의 자동 세그먼트화 방법.
  6. 제 1 항에 있어서,
    상기 이동 전경 영역을 식별하는 단계는,
    상기 비디오 시퀀스의 상기 비디오 프레임과 상기 다른 비디오 프레임 사이의 모션 정보에 기초하여, 어느 영역이 배경 영역인지를 결정하기 위해 상기 비디오 프레임내에서 배경 제거 프로세스를 수행하는 단계를 포함하는, ROI 오브젝트의 자동 세그먼트화 방법.
  7. 제 1 항에 있어서,
    상기 ROI 피처들을 검출하는 단계는,
    상기 비디오 프레임내의 스킨-컬러 영역의 크로미넌스 (chrominance) 값에 기초하여 상기 결합된 전경 영역내에서 안면 마스크를 검출하는 단계;
    상기 검출된 안면 마스크내의 픽셀들의 크로미넌스 값 및 루미넌스 (luminance) 값 양자에 기초하여 상기 결합된 전경 영역내에서 눈 피처들을 검출하는 단계; 및
    상기 검출된 안면 마스크내의 픽셀들의 크로미넌스 값에 기초하여 상기 결합된 전경 영역내에서 입 피처들을 검출하는 단계를 포함하는, ROI 오브젝트의 자동 세그먼트화 방법.
  8. 제 1 항에 있어서,
    상기 검출된 ROI 피처들은 상기 결합된 전경 영역내에서, 검출된 안면 피처 후보들을 포함하며,
    상기 방법은,
    상기 ROI 오브젝트에 대해 정확한 안면 피처들을 선택하고 안면 피처 후보들의 세트로부터 잘못된 안면 피처들을 제거하기 위해, 상기 검출된 안면 피처 후보들을 확인하는 단계를 더 포함하는, ROI 오브젝트의 자동 세그먼트화 방법.
  9. 제 1 항에 있어서,
    상기 결합된 전경 영역은 2개 이상의 ROI 오브젝트를 포함하며,
    상기 방법은,
    상기 비디오 프레임에서의 상기 검출된 ROI 피처들의 위치들이 상기 다른 비디오 프레임에서 검출된 다른 ROI 피처들의 위치들에 대응하지 않으면, 상기 검출된 ROI 피처들을 개별 ROI 오브젝트들에 대한 그룹들로 분리시키는 단계; 및
    상기 이동 전경 영역내의 상기 검출된 ROI 피처들에 최대 매칭 방식 문제 (maximum matching scheme problem) 를 적용하는 단계를 더 포함하는, ROI 오브젝트의 자동 세그먼트화 방법.
  10. 실행시 프로그래밍가능한 프로세서로 하여금 비디오 시퀀스로부터 관심 영역 (ROI) 오브젝트의 자동 세그먼트화를 위한 방법을 수행하게 하는 명령들을 포함하는 프로그램 코드를 포함하는 컴퓨터-판독가능 기록 매체로서,
    상기 방법은,
    상기 비디오 시퀀스의 비디오 프레임을 수신하는 단계;
    상기 비디오 시퀀스에서의 다른 비디오 프레임에 대한 이동을 나타내는 상기 비디오 프레임의 이동 전경 영역을 식별하는 단계;
    상기 이동 전경 영역 및 상기 다른 비디오 프레임의 전경 영역에 대응하는 상기 비디오 프레임의 결합된 전경 영역내에서 관심 영역 (ROI) 피처들을 검출하는 단계; 및
    상기 검출된 ROI 피처들에 기초하여 상기 비디오 프레임내의 상기 ROI 오브젝트의 형상을 근사화하는 단계를 포함하는, 컴퓨터-판독가능 기록 매체.
  11. 제 10 항에 있어서,
    상기 방법은,
    상기 비디오 프레임에서의 상기 검출된 ROI 피처들의 위치들이 상기 다른 비디오 프레임에서 검출된 다른 ROI 피처들의 위치들에 대응하지 않으면, 상기 ROI 오브젝트에 대해 정확한 ROI 피처들을 선택하기 위해 상기 검출된 ROI 피처들을 확인하는 단계를 더 포함하는, 컴퓨터-판독가능 기록 매체.
  12. 제 10 항에 있어서,
    상기 방법은,
    상기 ROI 오브젝트를 식별하는 출력 이미지를 생성하는 단계; 및
    상기 비디오 프레임의 비-ROI 영역들에 비해 상기 ROI 오브젝트를 우선적으로 인코딩하는 단계를 더 포함하는, 컴퓨터-판독가능 기록 매체.
  13. 제 10 항에 있어서,
    상기 다른 비디오 프레임은 상기 비디오 시퀀스에서의 이전 비디오 프레임인, 컴퓨터-판독가능 기록 매체.
  14. 제 10 항에 있어서,
    상기 이동 전경 영역을 식별하는 단계는,
    상기 비디오 프레임의 상기 ROI 오브젝트내의 픽셀들의 제 1 위치를 상기 다른 비디오 프레임내의 상기 픽셀들의 제 2 위치와 비교하는 단계,
    상기 제 2 위치로부터 이동하지 않은 픽셀들을 배경 픽셀들로서 분류하는 단계,
    상기 제 2 위치로부터 이동한 픽셀들을 전경 픽셀들로서 분류하는 단계, 및
    상기 전경 픽셀들에 기초하여 상기 이동 전경 영역을 식별하는 단계를 포함하는, 컴퓨터-판독가능 기록 매체.
  15. 제 10 항에 있어서,
    상기 이동 전경 영역을 식별하는 단계는,
    상기 비디오 시퀀스의 상기 비디오 프레임과 상기 다른 비디오 프레임 사이의 모션 정보에 기초하여 어느 영역이 배경 영역인지를 결정하기 위해 상기 비디오 프레임내에서 배경 제거 프로세스를 수행하는 단계를 포함하는, 컴퓨터-판독가능 기록 매체.
  16. 제 10 항에 있어서,
    상기 관심 영역 (ROI) 피처들을 검출하는 단계는,
    상기 비디오 프레임내의 스킨-컬러 영역의 크로미넌스 값에 기초하여 상기 결합된 전경 영역내에서 안면 마스크를 검출하는 단계,
    상기 검출된 안면 마스크내의 픽셀들의 크로미넌스 값 및 루미넌스 값 양자에 기초하여 상기 결합된 전경 영역내에서 눈 피처들을 검출하는 단계, 및
    상기 검출된 안면 마스크내의 픽셀들의 크로미넌스 값에 기초하여 상기 결합된 전경 영역내에서 입 피처들을 검출하는 단계를 포함하는, 컴퓨터-판독가능 기록 매체.
  17. 제 10 항에 있어서,
    상기 검출된 ROI 피처들은 상기 결합된 전경 영역내에서, 검출된 안면 피처 후보들을 포함하며,
    상기 방법은,
    상기 ROI 오브젝트에 대해 정확한 안면 피처들을 선택하고 안면 피처 후보들의 세트로부터 잘못된 안면 피처들을 제거하기 위해, 상기 검출된 안면 피처 후보들을 확인하는 단계를 더 포함하는, 컴퓨터-판독가능 기록 매체.
  18. 제 10 항에 있어서,
    상기 결합된 전경 영역은 2개 이상의 ROI 오브젝트를 포함하며,
    상기 방법은,
    상기 비디오 프레임에서의 상기 검출된 ROI 피처들의 위치들이 상기 다른 비디오 프레임에서 검출된 다른 ROI 피처들의 위치들에 대응하지 않으면, 상기 검출된 ROI 피처들을 개별 ROI 오브젝트들에 대한 그룹들로 분리시키는 단계, 및
    상기 이동 전경 영역내의 상기 검출된 ROI 피처들에 최대 매칭 방식 문제를 적용하는 단계를 더 포함하는, 컴퓨터-판독가능 기록 매체.
  19. 비디오 시퀀스로부터 관심 영역 (ROI) 오브젝트의 자동 세그먼트화를 수행하는 장치로서,
    상기 비디오 시퀀스에서의 비디오 프레임을 수신하는 수단;
    상기 비디오 시퀀스에서의 다른 비디오 프레임에 대한 이동을 나타내는 상기 비디오 프레임의 이동 전경 영역을 식별하는 수단;
    상기 이동 전경 영역 및 상기 다른 비디오 프레임의 전경 영역에 대응하는 상기 비디오 프레임의 결합된 전경 영역내에서 관심 영역 (ROI) 피처들을 검출하는 수단; 및
    상기 검출된 ROI 피처들에 기초하여 상기 비디오 프레임내의 상기 ROI 오브젝트의 형상을 근사화하는 수단을 포함하는, ROI 오브젝트의 자동 세그먼트화를 수행하는 장치.
  20. 제 19 항에 있어서,
    상기 비디오 프레임에서의 상기 검출된 ROI 피처들의 위치들이 상기 다른 비디오 프레임에서 검출된 다른 ROI 피처들의 위치들에 대응하지 않으면, 상기 ROI 오브젝트에 대해 정확한 ROI 피처들을 선택하기 위해 상기 검출된 ROI 피처들을 확인하는 수단을 더 포함하는, ROI 오브젝트의 자동 세그먼트화를 수행하는 장치.
  21. 제 19 항에 있어서,
    상기 ROI 오브젝트를 식별하는 출력 이미지를 생성하는 수단, 및
    상기 비디오 프레임의 비-ROI 영역들에 비해 상기 ROI 오브젝트를 우선적으로 인코딩하는 수단을 더 포함하는, ROI 오브젝트의 자동 세그먼트화를 수행하는 장치.
  22. 제 19 항에 있어서,
    상기 다른 비디오 프레임은 상기 비디오 시퀀스에서의 이전 비디오 프레임인, ROI 오브젝트의 자동 세그먼트화를 수행하는 장치.
  23. 제 19 항에 있어서,
    상기 이동 전경 영역을 식별하는 수단은,
    상기 비디오 프레임의 상기 ROI 오브젝트내의 픽셀들의 제 1 위치를 상기 다른 비디오 프레임내의 상기 픽셀들의 제 2 위치와 비교하는 수단;
    상기 제 2 위치로부터 이동하지 않은 픽셀들을 배경 픽셀들로서 분류하는 수단;
    상기 제 2 위치로부터 이동한 픽셀들을 전경 픽셀들로서 분류하는 수단; 및
    상기 전경 픽셀들에 기초하여 상기 이동 전경 영역을 식별하는 수단을 포함하는, ROI 오브젝트의 자동 세그먼트화를 수행하는 장치.
  24. 제 19 항에 있어서,
    상기 이동 전경 영역을 식별하는 수단은,
    상기 비디오 시퀀스의 상기 비디오 프레임과 상기 다른 비디오 프레임 사이의 모션 정보에 기초하여 어느 영역이 배경 영역인지를 결정하기 위해 상기 비디오 프레임내에서 배경 제거 프로세스를 수행하는 수단을 포함하는, ROI 오브젝트의 자동 세그먼트화를 수행하는 장치.
  25. 제 19 항에 있어서,
    상기 관심 영역 (ROI) 피처들을 검출하는 수단은,
    상기 비디오 프레임내의 스킨-컬러 영역의 크로미넌스 값에 기초하여 상기 결합된 전경 영역내에서 안면 마스크를 검출하는 수단;
    상기 검출된 안면 마스크내의 픽셀들의 크로미넌스 값 및 루미넌스 값 양자에 기초하여 상기 결합된 전경 영역내에서 눈 피처들을 검출하는 수단; 및
    상기 검출된 안면 마스크내의 픽셀들의 크로미넌스 값에 기초하여 상기 결합된 전경 영역내에서 입 피처들을 검출하는 수단을 포함하는, ROI 오브젝트의 자동 세그먼트화를 수행하는 장치.
  26. 제 19 항에 있어서,
    상기 검출된 ROI 피처들은 상기 결합된 전경 영역내에서, 검출된 안면 피처 후보들을 포함하며,
    상기 장치는,
    상기 ROI 오브젝트에 대해 정확한 안면 피처들을 선택하고 안면 피처 후보들의 세트로부터 잘못된 안면 피처들을 제거하기 위해, 상기 검출된 안면 피처 후보들을 확인하는 수단을 더 포함하는, ROI 오브젝트의 자동 세그먼트화를 수행하는 장치.
  27. 제 19 항에 있어서,
    상기 결합된 전경 영역은 2개 이상의 ROI 오브젝트를 포함하며,
    상기 장치는,
    상기 비디오 프레임에서의 상기 검출된 ROI 피처들의 위치들이 상기 다른 비디오 프레임에서 검출된 다른 ROI 피처들의 위치들에 대응하지 않으면, 상기 검출된 ROI 피처들을 개별 ROI 오브젝트들에 대한 그룹들로 분리시키는 수단; 및
    상기 이동 전경 영역내의 상기 검출된 ROI 피처들에 최대 매칭 방식 문제를 적용하는 수단을 더 포함하는, ROI 오브젝트의 자동 세그먼트화를 수행하는 장치.
KR1020087021817A 2006-02-07 2007-02-07 인터-모드 관심-영역 비디오 오브젝트 세그먼트화 KR100983204B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/350,344 US8265392B2 (en) 2006-02-07 2006-02-07 Inter-mode region-of-interest video object segmentation
US11/350,344 2006-02-07

Publications (2)

Publication Number Publication Date
KR20080100241A KR20080100241A (ko) 2008-11-14
KR100983204B1 true KR100983204B1 (ko) 2010-09-20

Family

ID=38266658

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087021817A KR100983204B1 (ko) 2006-02-07 2007-02-07 인터-모드 관심-영역 비디오 오브젝트 세그먼트화

Country Status (6)

Country Link
US (1) US8265392B2 (ko)
EP (1) EP1982529A2 (ko)
JP (1) JP4981818B2 (ko)
KR (1) KR100983204B1 (ko)
CN (1) CN101375607B (ko)
WO (1) WO2007092904A2 (ko)

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8019170B2 (en) 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US8208758B2 (en) 2005-10-05 2012-06-26 Qualcomm Incorporated Video sensor-based automatic region-of-interest detection
US8150155B2 (en) 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
EP2116044A2 (en) * 2007-01-30 2009-11-11 Fergason Patent Properties, LLC Image acquistion and display system and method using information derived from an area of interest in a video image implementing system synchronized brightness control and use of metadata
JP4663699B2 (ja) * 2007-09-27 2011-04-06 富士フイルム株式会社 画像表示装置、及び画像表示方法
JP5464799B2 (ja) * 2007-11-16 2014-04-09 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
WO2009078957A1 (en) * 2007-12-14 2009-06-25 Flashfoto, Inc. Systems and methods for rule-based segmentation for objects with full or partial frontal view in color images
FR2926384B1 (fr) * 2008-01-10 2010-01-15 Gen Electric Procede de traitement d'images de radiologie interventionnelle et systeme d'imagerie associe.
US8233676B2 (en) * 2008-03-07 2012-07-31 The Chinese University Of Hong Kong Real-time body segmentation system
US8243987B2 (en) * 2008-06-06 2012-08-14 International Business Machines Corporation Object tracking using color histogram and object size
US9031279B2 (en) * 2008-07-09 2015-05-12 Disney Enterprises, Inc. Multiple-object tracking and team identification for game strategy analysis
WO2010083238A1 (en) 2009-01-13 2010-07-22 Futurewei Technologies, Inc. Method and system for image processing to classify an object in an image
US8345990B2 (en) 2009-08-03 2013-01-01 Indian Institute Of Technology Bombay System for creating a capsule representation of an instructional video
EP2507742A2 (en) * 2009-12-02 2012-10-10 Tata Consultancy Services Limited A cost effective and robust system and method for eye tracking and driver drowsiness identification
CN102236899B (zh) 2010-05-07 2013-12-04 株式会社理光 物体检测方法和装置
US8954885B2 (en) 2010-10-05 2015-02-10 Fergason Patent Properties, Llc Display system using metadata to adjust area of interest and method
AU2010241260B2 (en) * 2010-10-29 2013-12-19 Canon Kabushiki Kaisha Foreground background separation in a scene with unstable textures
KR20120052767A (ko) * 2010-11-16 2012-05-24 한국전자통신연구원 영상 분리 장치 및 방법
TR201101980A1 (tr) * 2011-03-01 2012-09-21 Ulusoy İlkay Bir nesne temelli bölütleme yöntemi.
TWI439967B (zh) * 2011-10-31 2014-06-01 Hon Hai Prec Ind Co Ltd 安全監控系統及安全監控方法
TWI495339B (zh) * 2011-11-11 2015-08-01 Univ Nat Cheng Kung 摘要影像的製造方法
US9262670B2 (en) * 2012-02-10 2016-02-16 Google Inc. Adaptive region of interest
KR20130108949A (ko) * 2012-03-26 2013-10-07 한국전자통신연구원 영상부호 및 복호화 단계에서의 이중 객체검출 및 이동경로 정보를 이용한 영상 압축 방법
KR20130111061A (ko) * 2012-03-30 2013-10-10 한국전자통신연구원 이진 분할 트리를 이용한 영상 인코딩 방법
CN103517072B (zh) * 2012-06-18 2017-11-03 联想(北京)有限公司 视频通信方法和设备
US10757369B1 (en) * 2012-10-08 2020-08-25 Supratik Mukhopadhyay Computer implemented system and method for high performance visual tracking
CN109862373B (zh) 2013-07-15 2021-10-15 索尼公司 用于对比特流进行编码的方法和装置
CN104346802B (zh) * 2013-08-05 2018-02-16 浙江大华技术股份有限公司 一种人员离岗监控方法及设备
WO2015045233A1 (ja) * 2013-09-26 2015-04-02 日本電気株式会社 情報処理システム
GB201318658D0 (en) 2013-10-22 2013-12-04 Microsoft Corp Controlling resolution of encoded video
GB2523330A (en) 2014-02-20 2015-08-26 Nokia Technologies Oy Method, apparatus and computer program product for segmentation of objects in media content
CN103957423A (zh) * 2014-05-14 2014-07-30 杭州古北电子科技有限公司 一种基于计算机视觉的视频压缩和重建方法
US9454819B1 (en) * 2015-06-03 2016-09-27 The United States Of America As Represented By The Secretary Of The Air Force System and method for static and moving object detection
US10043075B2 (en) * 2015-11-19 2018-08-07 Microsoft Technology Licensing, Llc Eye feature identification
US9846808B2 (en) * 2015-12-31 2017-12-19 Adaptive Computation, Llc Image integration search based on human visual pathway model
CN105872448A (zh) * 2016-05-31 2016-08-17 宇龙计算机通信科技(深圳)有限公司 一种视频通话中视频图像展示方法及装置
US10269123B2 (en) 2017-01-09 2019-04-23 Qualcomm Incorporated Methods and apparatus for video background subtraction
US10699139B2 (en) * 2017-03-30 2020-06-30 Hrl Laboratories, Llc System for real-time object detection and recognition using both image and size features
US10816354B2 (en) 2017-08-22 2020-10-27 Tusimple, Inc. Verification module system and method for motion-based lane detection with multiple sensors
US10762673B2 (en) 2017-08-23 2020-09-01 Tusimple, Inc. 3D submap reconstruction system and method for centimeter precision localization using camera-based submap and LiDAR-based global map
US10565457B2 (en) 2017-08-23 2020-02-18 Tusimple, Inc. Feature matching and correspondence refinement and 3D submap position refinement system and method for centimeter precision localization using camera-based submap and LiDAR-based global map
US10649458B2 (en) 2017-09-07 2020-05-12 Tusimple, Inc. Data-driven prediction-based system and method for trajectory planning of autonomous vehicles
US10953880B2 (en) 2017-09-07 2021-03-23 Tusimple, Inc. System and method for automated lane change control for autonomous vehicles
US10953881B2 (en) 2017-09-07 2021-03-23 Tusimple, Inc. System and method for automated lane change control for autonomous vehicles
US10410055B2 (en) * 2017-10-05 2019-09-10 TuSimple System and method for aerial video traffic analysis
JP7122815B2 (ja) * 2017-11-15 2022-08-22 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
CN112004729B (zh) 2018-01-09 2023-12-01 图森有限公司 具有高冗余的车辆的实时远程控制
CN115834617A (zh) 2018-01-11 2023-03-21 图森有限公司 用于自主车辆操作的监视系统
US11009356B2 (en) 2018-02-14 2021-05-18 Tusimple, Inc. Lane marking localization and fusion
US11009365B2 (en) 2018-02-14 2021-05-18 Tusimple, Inc. Lane marking localization
US10685244B2 (en) 2018-02-27 2020-06-16 Tusimple, Inc. System and method for online real-time multi-object tracking
CN110378185A (zh) 2018-04-12 2019-10-25 北京图森未来科技有限公司 一种应用于自动驾驶车辆的图像处理方法、装置
CN116129376A (zh) 2018-05-02 2023-05-16 北京图森未来科技有限公司 一种道路边缘检测方法和装置
EP3849868A4 (en) 2018-09-13 2022-10-12 Tusimple, Inc. REMOTE SAFE DRIVING PROCESSES AND SYSTEMS
US10942271B2 (en) 2018-10-30 2021-03-09 Tusimple, Inc. Determining an angle between a tow vehicle and a trailer
CN111319629B (zh) 2018-12-14 2021-07-16 北京图森智途科技有限公司 一种自动驾驶车队的组队方法、装置及系统
US11386562B2 (en) 2018-12-28 2022-07-12 Cyberlink Corp. Systems and methods for foreground and background processing of content in a live video
CN116916080A (zh) * 2019-05-17 2023-10-20 上海哔哩哔哩科技有限公司 视频数据处理方法、装置、计算机设备及可读存储介质
US11823460B2 (en) 2019-06-14 2023-11-21 Tusimple, Inc. Image fusion for autonomous vehicle operation
CN110929597A (zh) * 2019-11-06 2020-03-27 普联技术有限公司 一种基于图像的树叶过滤方法、装置及存储介质
EP3893150A1 (en) 2020-04-09 2021-10-13 Tusimple, Inc. Camera pose estimation techniques
AU2021203567A1 (en) 2020-06-18 2022-01-20 Tusimple, Inc. Angle and orientation measurements for vehicles with multiple drivable sections
CN113052923B (zh) * 2021-03-31 2023-02-28 维沃移动通信(深圳)有限公司 色调映射方法、装置、电子设备和存储介质
FR3131047A1 (fr) * 2021-12-21 2023-06-23 Orange Procédé de détection du mouvement d’au moins un objet, dispositif électronique, système, produit programme d’ordinateur et support de stockage correspondants

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003107677A1 (en) * 2002-06-12 2003-12-24 British Telecommunications Public Limited Company Video pre-processing

Family Cites Families (103)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59194274A (ja) * 1983-04-18 1984-11-05 Nippon Telegr & Teleph Corp <Ntt> 人物判定装置
EP0330455A3 (en) * 1988-02-22 1990-07-04 Kabushiki Kaisha Toshiba Image encoding apparatus
US5150432A (en) * 1990-03-26 1992-09-22 Kabushiki Kaisha Toshiba Apparatus for encoding/decoding video signals to improve quality of a specific region
US5048095A (en) 1990-03-30 1991-09-10 Honeywell Inc. Adaptive image segmentation system
JP2863818B2 (ja) 1990-08-31 1999-03-03 工業技術院長 動画像の変化点検出方法
US5323470A (en) * 1992-05-08 1994-06-21 Atsushi Kara Method and apparatus for automatically tracking an object
KR950009699B1 (ko) * 1992-06-09 1995-08-26 대우전자주식회사 움직임벡터 검출방법 및 장치
GB9308952D0 (en) * 1993-04-30 1993-06-16 Philips Electronics Uk Ltd Tracking objects in video sequences
US5852669A (en) * 1994-04-06 1998-12-22 Lucent Technologies Inc. Automatic face and facial feature location detection for low bit rate model-assisted H.261 compatible coding of video
KR100235343B1 (ko) * 1994-12-29 1999-12-15 전주범 영역분할 기법을 이용한 동영상신호 부호화기의 움직임 벡터 측정장치
KR100235345B1 (ko) * 1994-12-29 1999-12-15 전주범 분할영역에서의 움직임 추정방법 및 장치
KR0180170B1 (ko) * 1995-06-30 1999-05-01 배순훈 움직임 추정 방법 및 추정 장치
US6026183A (en) 1995-10-27 2000-02-15 Texas Instruments Incorporated Content-based video compression
KR0181069B1 (ko) * 1995-11-08 1999-05-01 배순훈 움직임 추정장치
US5774591A (en) 1995-12-15 1998-06-30 Xerox Corporation Apparatus and method for recognizing facial expressions and facial gestures in a sequence of images
US5764283A (en) * 1995-12-29 1998-06-09 Lucent Technologies Inc. Method and apparatus for tracking moving objects in real time using contours of the objects and feature paths
US5692063A (en) * 1996-01-19 1997-11-25 Microsoft Corporation Method and system for unrestricted motion estimation for video
JPH1051755A (ja) * 1996-05-30 1998-02-20 Fujitsu Ltd テレビ会議端末の画面表示制御装置
US6343141B1 (en) * 1996-10-08 2002-01-29 Lucent Technologies Inc. Skin area detection for video image systems
US5828769A (en) 1996-10-23 1998-10-27 Autodesk, Inc. Method and apparatus for recognition of objects via position and orientation consensus of local image encoding
US5864630A (en) * 1996-11-20 1999-01-26 At&T Corp Multi-modal method for locating objects in images
US6456328B1 (en) * 1996-12-18 2002-09-24 Lucent Technologies Inc. Object-oriented adaptive prefilter for low bit-rate video systems
US6993201B1 (en) 1997-07-08 2006-01-31 At&T Corp. Generalized scalability for video coder based on video objects
US6188777B1 (en) * 1997-08-01 2001-02-13 Interval Research Corporation Method and apparatus for personnel detection and tracking
US6335985B1 (en) * 1998-01-07 2002-01-01 Kabushiki Kaisha Toshiba Object extraction apparatus
US6148092A (en) 1998-01-08 2000-11-14 Sharp Laboratories Of America, Inc System for detecting skin-tone regions within an image
GB2333590A (en) * 1998-01-23 1999-07-28 Sharp Kk Detecting a face-like region
US6301370B1 (en) * 1998-04-13 2001-10-09 Eyematic Interfaces, Inc. Face recognition from video images
US6477201B1 (en) * 1998-05-22 2002-11-05 Sarnoff Corporation Content-adaptive compression encoding
AUPP400998A0 (en) * 1998-06-10 1998-07-02 Canon Kabushiki Kaisha Face detection in digital images
US6023183A (en) 1998-06-15 2000-02-08 International Business Machines Corporation Voltage conversion circuit and method
US6141041A (en) * 1998-06-22 2000-10-31 Lucent Technologies Inc. Method and apparatus for determination and visualization of player field coverage in a sporting event
US6292575B1 (en) * 1998-07-20 2001-09-18 Lau Technologies Real-time facial recognition and verification system
US6924832B1 (en) * 1998-08-07 2005-08-02 Be Here Corporation Method, apparatus & computer program product for tracking objects in a warped video image
US6999604B1 (en) * 1998-08-07 2006-02-14 Korea Institute Of Science And Technology Apparatus and method for detecting a moving object in a sequence of color frame images
JP4235854B2 (ja) * 1998-11-02 2009-03-11 独立行政法人情報通信研究機構 画像処理方法及び装置
US6480615B1 (en) * 1999-06-15 2002-11-12 University Of Washington Motion estimation within a sequence of data frames using optical flow with adaptive gradients
US6545706B1 (en) * 1999-07-30 2003-04-08 Electric Planet, Inc. System, method and article of manufacture for tracking a head of a camera-generated image of a person
US6526161B1 (en) 1999-08-30 2003-02-25 Koninklijke Philips Electronics N.V. System and method for biometrics-based facial feature extraction
EP1968012A3 (en) * 1999-11-16 2008-12-03 FUJIFILM Corporation Image processing apparatus, image processing method and recording medium
US7123745B1 (en) * 1999-11-24 2006-10-17 Koninklijke Philips Electronics N.V. Method and apparatus for detecting moving objects in video conferencing and other applications
US6754389B1 (en) * 1999-12-01 2004-06-22 Koninklijke Philips Electronics N.V. Program classification using object tracking
GB2358098A (en) * 2000-01-06 2001-07-11 Sharp Kk Method of segmenting a pixelled image
US6829395B2 (en) * 2000-01-20 2004-12-07 Axis, Ab Apparatus and method for storing and reading digital images
US6970598B1 (en) 2000-01-21 2005-11-29 Xerox Corporation Data processing methods and devices
US6668070B2 (en) * 2000-03-29 2003-12-23 Sony Corporation Image processing device, image processing method, and storage medium
US6580821B1 (en) 2000-03-30 2003-06-17 Nec Corporation Method for computing the location and orientation of an object in three dimensional space
JP3603737B2 (ja) * 2000-03-30 2004-12-22 日本電気株式会社 移動体追尾方法及びその装置
EP1158786A3 (en) * 2000-05-24 2005-03-09 Sony Corporation Transmission of the region of interest of an image
US6731799B1 (en) 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US6826292B1 (en) * 2000-06-23 2004-11-30 Sarnoff Corporation Method and apparatus for tracking moving objects in a sequence of two-dimensional images using a dynamic layered representation
US6665450B1 (en) * 2000-09-08 2003-12-16 Avid Technology, Inc. Interpolation of a sequence of images using motion analysis
US6965684B2 (en) 2000-09-15 2005-11-15 Canon Kabushiki Kaisha Image processing methods and apparatus for detecting human eyes, human face, and other objects in an image
US6680745B2 (en) * 2000-11-10 2004-01-20 Perceptive Network Technologies, Inc. Videoconferencing method with tracking of face and dynamic bandwidth allocation
US6678413B1 (en) * 2000-11-24 2004-01-13 Yiqing Liang System and method for object identification and behavior characterization using video analysis
US7020305B2 (en) * 2000-12-06 2006-03-28 Microsoft Corporation System and method providing improved head motion estimations for animation
JP2002175538A (ja) * 2000-12-08 2002-06-21 Mitsubishi Electric Corp 似顔絵生成装置及び似顔絵生成方法及び似顔絵生成プログラムを記録した記録媒体及び通信用端末及び通信用端末による通信方法
US6670963B2 (en) 2001-01-17 2003-12-30 Tektronix, Inc. Visual attention model
US6964023B2 (en) 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
JP2002312793A (ja) * 2001-02-07 2002-10-25 Victor Co Of Japan Ltd 動画像からの物体抽出方法及びその装置
GB2372165A (en) * 2001-02-10 2002-08-14 Hewlett Packard Co A method of selectively storing images
US20020168091A1 (en) * 2001-05-11 2002-11-14 Miroslav Trajkovic Motion detection via image alignment
US6870945B2 (en) * 2001-06-04 2005-03-22 University Of Washington Video object tracking by estimating and subtracting background
JP4596222B2 (ja) * 2001-06-26 2010-12-08 ソニー株式会社 画像処理装置および方法、記録媒体、並びにプログラム
JP4840630B2 (ja) * 2001-06-27 2011-12-21 ソニー株式会社 画像処理装置および方法、記録媒体、並びにプログラム
JP3920849B2 (ja) * 2001-06-29 2007-05-30 株式会社エヌ・ティ・ティ・ドコモ 画像符号化装置、画像復号装置、画像符号化方法、及び画像復号方法
US7861169B2 (en) 2001-11-19 2010-12-28 Ricoh Co. Ltd. Multimedia print driver dialog interfaces
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
KR100456619B1 (ko) * 2001-12-05 2004-11-10 한국전자통신연구원 에스.브이.엠(svm)을 이용한 얼굴 등록/인증 시스템 및방법
JP2003174504A (ja) 2001-12-05 2003-06-20 Mitsubishi Electric Corp 通話機能付き携帯端末装置およびそのための制御装置、ならびにバックライト制御方法
US7277580B2 (en) * 2001-12-12 2007-10-02 Sony Corporation Multiple thresholding for video frame segmentation
KR100411347B1 (ko) 2001-12-29 2003-12-18 엘지전자 주식회사 동영상 비디오의 장면전환 검출 방법
AUPS140502A0 (en) * 2002-03-27 2002-05-09 Seeing Machines Pty Ltd Method for automatic detection of facial features
US7212670B1 (en) 2002-05-03 2007-05-01 Imagetree Corp. Method of feature identification and analysis
US7082211B2 (en) 2002-05-31 2006-07-25 Eastman Kodak Company Method and system for enhancing portrait images
US7190809B2 (en) * 2002-06-28 2007-03-13 Koninklijke Philips Electronics N.V. Enhanced background model employing object classification for improved background-foreground segmentation
KR100474848B1 (ko) 2002-07-19 2005-03-10 삼성전자주식회사 영상시각 정보를 결합하여 실시간으로 복수의 얼굴을검출하고 추적하는 얼굴 검출 및 추적 시스템 및 방법
US7035461B2 (en) 2002-08-22 2006-04-25 Eastman Kodak Company Method for detecting objects in digital images
US7227893B1 (en) * 2002-08-22 2007-06-05 Xlabs Holdings, Llc Application-specific object-based segmentation and recognition system
EP1418530B1 (en) 2002-10-08 2012-12-05 Sony France S.A. Adaptive artificial vision method and system
KR100455294B1 (ko) * 2002-12-06 2004-11-06 삼성전자주식회사 감시 시스템에서의 사용자 검출 방법, 움직임 검출 방법및 사용자 검출 장치
JP2004220555A (ja) 2002-12-27 2004-08-05 Fuji Photo Film Co Ltd 画像から被写体領域を抽出する装置、方法、プログラムおよびプログラムを記録した記録媒体
US6999600B2 (en) * 2003-01-30 2006-02-14 Objectvideo, Inc. Video scene background maintenance using change detection and classification
US7599524B2 (en) * 2003-04-04 2009-10-06 Sarnoff Corporation Method and apparatus for providing a robust object finder
WO2005036456A2 (en) * 2003-05-12 2005-04-21 Princeton University Method and apparatus for foreground segmentation of video sequences
US7430335B2 (en) 2003-08-13 2008-09-30 Apple Inc Pre-processing method and system for data reduction of video sequences and bit rate reduction of compressed video sequences using spatial filtering
US7536032B2 (en) * 2003-10-24 2009-05-19 Reactrix Systems, Inc. Method and system for processing captured image information in an interactive video display system
US7127083B2 (en) * 2003-11-17 2006-10-24 Vidient Systems, Inc. Video surveillance system with object detection and probability scoring based on object class
US7136507B2 (en) * 2003-11-17 2006-11-14 Vidient Systems, Inc. Video surveillance system with rule-based reasoning and multiple-hypothesis scoring
US20050104960A1 (en) * 2003-11-17 2005-05-19 Mei Han Video surveillance system with trajectory hypothesis spawning and local pruning
JP2005182196A (ja) * 2003-12-16 2005-07-07 Canon Inc 画像表示方法および画像表示装置
JP2005293539A (ja) 2004-03-08 2005-10-20 Matsushita Electric Works Ltd 表情認識装置
JP4819380B2 (ja) * 2004-03-23 2011-11-24 キヤノン株式会社 監視システム、撮像設定装置、制御方法、及びプログラム
US8594391B2 (en) 2004-05-06 2013-11-26 Avago Technologies General Ip (Singapore) Pte. Ltd. Finger-based identification systems and methods
GB2414614A (en) * 2004-05-28 2005-11-30 Sony Uk Ltd Image processing to determine most dissimilar images
WO2006025185A1 (ja) * 2004-08-31 2006-03-09 Matsushita Electric Industrial Co., Ltd. 監視記録装置およびその方法
US20060067562A1 (en) * 2004-09-30 2006-03-30 The Regents Of The University Of California Detection of moving objects in a video
US7391907B1 (en) * 2004-10-01 2008-06-24 Objectvideo, Inc. Spurious object detection in a video surveillance system
US7583287B2 (en) * 2005-03-22 2009-09-01 Microsoft Corp. System and method for very low frame rate video streaming for face-to-face video conferencing
US7602944B2 (en) * 2005-04-06 2009-10-13 March Networks Corporation Method and system for counting moving objects in a digital video stream
US7409076B2 (en) * 2005-05-27 2008-08-05 International Business Machines Corporation Methods and apparatus for automatically tracking moving entities entering and exiting a specified region
JP2009508450A (ja) * 2005-09-13 2009-02-26 ヴェリフィコン コーポレーション 物体のトラッキングおよび活動分析のためのシステムおよび方法
US8150155B2 (en) 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003107677A1 (en) * 2002-06-12 2003-12-24 British Telecommunications Public Limited Company Video pre-processing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Athitsos V. et al, Skin Color-Based Video Segmentation under Time-Varying Illumination, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 26, no. 7, pp. 862-877.(2004.07.)
M.-H. Yang, D. J. Kriegman and N. Ahuja, Detecting Faces in Images: A Survey, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, no. 1, pp. 34-58.(2002.01.)*

Also Published As

Publication number Publication date
US8265392B2 (en) 2012-09-11
CN101375607A (zh) 2009-02-25
US20070183662A1 (en) 2007-08-09
KR20080100241A (ko) 2008-11-14
WO2007092904A3 (en) 2007-10-18
CN101375607B (zh) 2011-03-02
EP1982529A2 (en) 2008-10-22
JP2009526292A (ja) 2009-07-16
WO2007092904A2 (en) 2007-08-16
JP4981818B2 (ja) 2012-07-25

Similar Documents

Publication Publication Date Title
KR100983204B1 (ko) 인터-모드 관심-영역 비디오 오브젝트 세그먼트화
KR100997064B1 (ko) 멀티-모드 관심-영역 비디오 오브젝트 세그먼트화
KR101023733B1 (ko) 인트라-모드 관심 영역 비디오 오브젝트 세그멘테이션
Chai et al. Face segmentation using skin-color map in videophone applications
WO2007044674A2 (en) Video sensor-based automatic region-of-interest detection
JP2005513656A (ja) 体積成長および変化検出マスクを使用してビデオ内の移動オブジェクトを識別するための方法
Haque et al. Perception-inspired background subtraction
Zafarifar et al. Blue sky detection for picture quality enhancement
KR102194511B1 (ko) 대표 영상프레임 결정시스템 및 이를 이용한 방법
Pahor et al. A fuzzy approach to mouth corner detection
KR20030062584A (ko) 객체 추출방법
CN109583262B (zh) 对象侦测的适应系统与方法
Yamazaki Study on Data-driven Methods for Image and Video Understanding
Sarris et al. Detection of Faces and Facial Features in Images using a Novel Neural Network Technique
Sarris et al. Detection of Human Faces in Images using a Novel Neural Network Technique

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130830

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140828

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160629

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170629

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee