KR101242259B1 - 영상 분할 - Google Patents

영상 분할 Download PDF

Info

Publication number
KR101242259B1
KR101242259B1 KR1020077025761A KR20077025761A KR101242259B1 KR 101242259 B1 KR101242259 B1 KR 101242259B1 KR 1020077025761 A KR1020077025761 A KR 1020077025761A KR 20077025761 A KR20077025761 A KR 20077025761A KR 101242259 B1 KR101242259 B1 KR 101242259B1
Authority
KR
South Korea
Prior art keywords
motion
likelihood
determining
pixels
image
Prior art date
Application number
KR1020077025761A
Other languages
English (en)
Other versions
KR20080015078A (ko
Inventor
안토니오 크리미니시
앤드류 블레이크
제프리 크로스
블라디미르 콜모고로브
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20080015078A publication Critical patent/KR20080015078A/ko
Application granted granted Critical
Publication of KR101242259B1 publication Critical patent/KR101242259B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/45Picture in picture, e.g. displaying simultaneously another television channel in a region of the screen
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/162Segmentation; Edge detection involving graph-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20121Active appearance model [AAM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

소정의 영상에서 배경층으로부터의 전경 분할은 모션, 컬러, 콘트라스트 등을 포함하는 하나 또는 그 이상의 요소에 기초할 수 있는 분할 프로세스를 통해 이루어질 수 있다. 컬러, 모션 및 선택 콘트라스트 정보를 확률론적으로 통합시켜 전경층 및/또는 배경층을 정확하고 효율적으로 추론해 낼 수 있다. 모션 대 비모션 우도가 트레이닝 데이터로부터 자동적으로 학습된 다음에 콘트라스트 감응 컬러 모델과 통합될 수 있다. 그러면, 그래프 컷과 같은 최적화 알고리즘을 이용하여 분할 문제가 효율적으로 해결될 수 있다.
모션, 컬러, 콘트라스트, 분할 프로세스, 전경층, 배경층, 최적화 알고리즘, 모션 대 비모션 우도

Description

영상 분할{IMAGE SEGMENTATION}
본 발명은 영상 분할에 관한 것이다.
비디오로부터 전경층(foreground layer)을 실시간으로 분리해내는 것은 원격회의(teleconferencing), 라이브 미팅(live meeting), 기타 비디오 디스플레이 애플리케이션에서 라이브 배경 대체(live background substitution), 팬/틸트/줌(pan/tilt/zoom), 객체 삽입 등과 같은 여러 응용분야에서 유용할 수 있다. 전경층을 실시간으로 분리해 내기 위해서는, 비디오 매팅(video-matting)에서와 같이 투명도 결정을 포함하여 거의 컴퓨터 그래픽 품질 수준의 층 분리를 필요로 하며, 라이브 스트리밍 속도를 얻을 수 있을 정도로 연산 능력도 충분해야 한다.
본 발명의 기본적 이해를 위해서 본 발명을 다음과 같이 요약한다. 이 요약은 본 발명의 전체를 보여주는 것은 아니며 본 발명의 핵심/중요 구성 요소들을 확인하거나 본 발명의 범위를 나타내는 것도 아니다. 이 요약은 단지 후술할 본 발명의 상세한 설명에 대한 서문으로서 몇 가지 개념을 간략하게 제시할 뿐이다.
종래의 단안(monocular) 비디오 시퀀스에서 배경층으로부터의 실시간 전경 분할은 모션(motion), 컬러(color), 콘트라스트(contrast) 등을 포함하는 하나 또는 그 이상의 요소에 기초할 수 있는 분할 프로세스(segmentation process)를 통해 이루어질 수 있다. 컬러/콘트라스트 또는 모션 만으로부터 층을 자동적으로 분리시키는 경우에 에러가 발생할 수 있다. 분할 에러를 줄이기 위해서, 컬러, 모션 및 콘트라스트(콘트라스트는 선택 사항임) 정보를 확률론적으로 통합시켜(fused) 전경층 및/또는 배경층을 정확하고 효율적으로 추론해 낼 수 있다. 이 경우에는 화소 속도(pixel velocities)는 필요치 않다. 이에 따라, 광학적 흐름 추정(optical flow estimation)에 관련된 많은 문제가 해소된다. 대신에, 모션 대 비모션 우도(likelihood of motion vs. non-motion)가 트레이닝(training) 데이터로부터 자동적으로 학습된 다음에 콘트라스트 감응 컬러 모델(contrast-sensitive color model)과 통합될 수 있다. 그러면, 그래프 컷(graph cut)과 같은 최적화 알고리즘을 이용하여 분할 문제가 효율적으로 해결될 수 있다. 여기서 최적화는 하나 또는 그 이상의 선택적 결과에 대해 점수를 매기고, 소정의 임계치를 초과하는 점수나 복수의 점수 중 최적의 점수를 가진 선택적 결과를 선택하는 것을 포함할 수 있다. 예컨대, 최적화는 최고 점수를 갖는 선택적 결과를 선택하는 것을 포함할 수 있다. 선택적 결과의 점수 매김은 최소 에너지를 갖는 선택적 결과를 고려하는 것을 포함하는 경우도 있다.
전경/배경 분리의 정확도는 라이브 배경 대체의 적용 시에 후술하는 바와 같이 실증되며, 양호한 품질의 합성 비디오 출력을 나타낸다. 그러나, 영상에서 전경 및 배경의 분할은 여러 가지 응용과 용도를 가질 수 있음을 알아야 한다.
본 발명의 여러 가지 부수적인 특성들은 첨부 도면과 관련한 하기의 상세한 설명을 참조로 더 잘 이해될 것이다.
본 발명은 첨부 도면을 참조로 하기의 상세한 설명으로부터 더 잘 이해될 것이다.
도 1은 단안 방식 영상 처리 시스템을 구현하기 위한 예시적인 시스템을 도시한 도;
도 2는 영상 처리 시스템의 예시적인 개략도;
도 3은 모션 우도(motion likelihood)를 트레이닝(training)하는데 이용된 트레이닝 데이터 시퀀스와 그에 따라 수동적으로 얻은 분할 마스크의 두 가지 예시적인 프레임을 도시한 도;
도 4는 트레이닝 전경 2D 미분계수 점과 트레이닝 배경 미분계수 점의 예시적인 그래프도;
도 5는 트레이닝 전경 및 배경 미분계수 점의 예시적인 플롯을 나타낸 도;
도 6은 예시적인 테스트 시퀀스와 그에 대응하는 각 화소의 모션 우도를 나타낸 도;
도 7은 예시적인 입력 영상 시퀀스를 나타낸 도;
도 8은 도 7의 영상 시퀀스의 전경 분할을 나타낸 도;
도 9는 도 8의 영상 시퀀스의 전경 분할로의 배경 대체를 나타낸 도;
도 10은 온 라인 채팅 애플리케이션에서의 배경 대체의 예시적인 프레임 디스플레이를 도시한 도;
도 11은 예시적인 영상 처리 방법을 나타낸 도.
첨부 도면과 관련한 하기의 상세한 설명은 본 발명의 실시예로서 제공되는 것으로, 본 실시예들이 구성 또는 활용될 수 있는 형태만을 설명하고자 하는 것은 아니다. 하기의 상세한 설명은 실시예들의 기능, 실시예를 구성하고 동작시키는 일련의 단계들을 설명한다. 그러나, 그와 같은 기능 및 단계들과 그 등가물은 다른 실시예로서 이루어질 수 있다.
본 실시예들은 여기서는 분할 시스템에서 구현되는 것으로 설명되지만, 설명되는 시스템은 예시적인 것으로 그에 한정되는 것은 아니다. 본 기술 분야의 통상의 전문가라면 본 실시예들이 각종 영상 처리 시스템에 잘 응용될 수 있음을 알 것이다.
도 1과 그에 관련된 하기의 설명은 영상의 배경 영역으로부터 영상의 전경 영역을 분할해 내기 위한 영상 처리 시스템의 구현될 수 있는 적당한 컴퓨팅 환경에 대해 간략한 일반적인 개념을 제공하기 위한 것이다. 도 1의 동작 환경은 단지 적당한 동작 환경의 일례로서 든 것이며 동작 환경의 용도나 기능의 범위를 한정하려는 것은 아니다. 여기서 설명되는 단안 방식 영상 처리 시스템에 적합하게 이용될 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 프로그램가능한 가전제품, 네트워크 퍼스널 컴퓨터, 미니컴퓨터, 메인프레임 컴퓨터, 상기 시스템들이나 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경, 기타 등등이 있지만 이에 제한되는 것은 아니다.
요구되는 것은 아니지만, 영상 처리 시스템은 일반적으로 하나 또는 그 이상의 컴퓨터나 기타 장치에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어와 관련하여 기술될 것이다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 통상적으로 프로그램 모듈의 기능은 여러 가지 환경에 따라 조합되거나 분산될 수 있다.
도 1을 참조로 설명하면, 영상 처리 시스템을 구현하기 위한 예시적인 시스템은 컴퓨팅 장치(100)와 같은 컴퓨팅 장치를 포함한다. 가장 기본적인 구성으로서, 컴퓨팅 장치(100)는 통상적으로 적어도 하나의 처리 유닛(102)과 메모리(104)를 포함한다. 컴퓨팅 장치의 구성과 유형에 따라서 메모리는 RAM과 같은 휘발성 메모리, ROM, 플래시 메모리 등과 같은 불휘발성 메모리나, 이들을 조합한 메모리일 수 있다. 이와 같은 가장 기본적인 구성은 도 1에서 점선(106)으로 나타나 있다. 이에 더하여, 장치(100)는 부가적인 특성 및/또는 기능을 가질 수도 있다. 예컨대, 장치(100)는 자기 또는 광학 디스크나 테이프와 같은 추가적인 (예컨대, 착탈식 및/또는 고정식) 저장 장치를 포함할 수 있으나, 이에 제한되는 것은 아니다. 그와 같은 추가적인 저장 장치는 도 1에서는 착탈식 저장 장치(108)와 고정식 저장 장치(110)로서 나타나 있다. 컴퓨터 저장 매체는 컴퓨터 판독 명령어, 데이터 구조, 프로그램 모듈, 기타 다른 데이터와 같은 정보 저장을 위한 임의의 방법이나 기술로 구현되는 휘발성 및 불휘발성, 착탈식 및 고정식 매체를 포함한다. 메모리(104), 착탈식 저장 장치(108), 및 고정식 저장 장치(110)는 모두 컴퓨터 저장 매체의 예이다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 장치(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다. 그와 같은 임의의 컴퓨터 저장 매체는 장치(100)의 구성 요소가 될 수 있다.
장치(100)는 이 장치(100)가 네트워크(120)를 통해 다른 컴퓨팅 장치와 같은 다른 장치와 통신할 수 있도록 하는 통신 연결부(112)를 포함할 수 있다. 통신 연결부(112)는 통신 매체의 일례이다. 통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 피변조 데이터 신호(modulated data signal)에 컴퓨터 판독 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 임의의 정보 전달 매체를 포함한다. "피변조 데이터 신호"라는 용어는, 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 배선 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, 무선 주파수, 적외선, 기타 무선 매체와 같은 무선 매체를 포함한다. 여기서 사용된 컴퓨터 판독가능 매체라는 용어는 저장 매체와 통신 매체 모두를 포함한다.
본 기술 분야의 통상의 전문가라면 프로그램 명령어를 저장하는 저장 장치들은 네트워크 상에 분산될 수 있음을 잘 알 것이다. 예컨대, 원격 컴퓨터는 소프트 웨어로서 설명되는 프로세스를 저장할 수 있다. 로컬 또는 터미널 컴퓨터는 원격 컴퓨터에 액세스하여 그 소프트웨어의 일부 또는 전부를 다운로드받아 그 프로그램을 실행시킬 수 있다. 또는 로컬 컴퓨터는 필요에 따라 그 소프트웨어의 일부를 다운로드받아, 소프트웨어 명령어의 일부는 로컬 터미널 측에서 실행하고 또는 다른 일부는 원격 컴퓨터(또는 컴퓨터 네트워크) 측에서 실행함으로써 분산적으로 처리할 수 있다. 본 기술 분야의 통상의 전문가라면 종래의 공지된 기술을 이용하여 소프트웨어 명령어의 일부가 DSP, 프로그램가능 로직 어레이 등과 같은 전용 회로에 의해 실행될 수 있음을 잘 알 것이다.
장치(100)는 키보드, 마우스, 펜, 음성 입력 장치, 터치 입력 장치, 레이저 거리 측정기, 적외선 카메라, 비디오 입력 장치와 같은 입력 장치(114), 및/또는 기타 다른 입력 장치를 포함할 수 있다. 하나 또는 그 이상의 디스플레이, 스피커, 프린터와 같은 출력 장치(116), 및/또는 기타 다른 출력 장치도 포함될 수 있다.
디지털 비디오 카메라는 소비자와 전문가 모두에게 유용하다. 일반적으로 디지털 비디오 카메라는 일련의 디지털 영상을 포착하고, 포착된 디지털 영상은 디스플레이나 처리를 위해 컴퓨팅 장치로 또는 저장을 위해 저장 장치로 전달될 수 있다. 일례로서 비디오 회의 응용분야에서의 디지털 비디오 카메라가 있다. 통상의 비디오 회의에서는 회의 참석자를 묘사하는 영상 계열이 하나 또는 그 이상의 다른 참석자에게 전송된다. 그와 동시에, 다른 참석자를 묘사하는 영상 계열이 첫 번째 참석자의 디스플레이 장치로 전송된다. 이런 식으로 각 참석자는 회의 중에 다른 참석자의 비디오를 볼 수 있다.
도 2는 자신의 디스플레이 장치(206)의 비디오 디스플레이 프레임에서 다른 참석자를 보고 있는 회의 참석자(204)에 초점을 맞춘 비디오 카메라(202)를 갖춘 통상의 비디오 원격 회의 환경(200)을 도시한 것이다. 비디오 카메라(202)는 통상적으로 참석자가 그 비디오 카메라의 시야 내에 들어오도록 시야가 넓은 컴퓨팅 장치의 디스플레이(206) 상에 또는 그 근처에 설치된다. 그러나, 넓은 시야는 장면의 배경(208)을 포착하기도 한다. 다른 장소, 배향, 카메라 수, 참석자 수 등과 같이 다른 카메라 및 디스플레이 설정도 적당하게 이용될 수 있음을 알아야 한다.
단일의 정지 영상에서 전경과 배경을 분할하는데 있어 대화식(interactive) 컬러/콘트라스트 방식 분할 기법이 효과적인 것으로 실증되어 있다. 컬러.콘트라스크 만에 기초한 분할은 전경과 배경 영역을 정하는 데 있어 수동적인 조작을 필요로 하기 때문에, 컬러/콘트라스트 분할은 완전히 자동적인 방법의 능력 밖에 있다.
전경층을 실시간으로 비디오 영상에 적용할 수 있도록 정확하고 그리고/또는 효율적으로(예컨대, 자동적으로) 분할하기 위해서는 여러 가지 큐(cue)의 통합을 이용하는 강력한 접근법이 이용될 수 있다. 예컨대, 영상의 비디오 스트림에서 배경 정보를 분할하기 위하여 모션과 컬러 및 콘트라스트와의 통합과 층내 공간적 간섭성을 위한 프라이어(prior for intra-layer spatial coherence)가 구현될 수 있다. 스테레오, 컬러 및 콘트라스트를 통합함으로써 전경/배경 분리는 스테레오 이미징 기법을 이용하여 약 10 fps로 달성될 수 있다. 훨씬 고속도의 종래의 단안 카메라로도 유사한 분할 정확도를 달성할 수 있다.
다른 예로서, 컬러 및/또는 콘트라스트와의 통합 여부를 나타내는 스테레오 우도(stereo likelihood)는 모션 우도와 함께 증가될 수 있다. 스테레오 우도에 대해서는 「브이. 콜모고르프(V. Kolmogorov) 등의 "Bi-layer segmentation of binocular stereo video," In Proc. Conf. Comp. Vision Pattern Rec., San Die해, Ca, June 2005 」와 미국 특허출원 제11/195027호(2005년 8월 2일 출원, 발명의 명칭: 스테레오 기반 분할(STEREO-BASED SEGMENTATION))에 기재되어 있으며, 이 두 문헌의 내용은 본 명세서에서 인용으로서 포함되어 있다. 특히 스테레오 영상 처리 시스템에서는 모션도 마찬가지로 스테레오 우도와 통합될 수 있으며, 컬러 및/또는 콘트라스트와는 선택적으로 통합될 수 있다.
종래에는 화소 속도, 예컨대 모션은 통상적으로 광학적 흐름 알고리즘을 적용하여 평가된다. 그러면, 분할을 위해서 광학적 흐름은 소정의 모션 모델에 따라서 영역들로 분할될 수 있다. 그러나, 이렇게 광학적 흐름을 영역들로 분해하는 것은 통상적으로 부족 제한 문제(under-constained problem)이며, 따라서 그와 같은 분해를 조정하기(regularize) 위해서는 많은 "평탄화(smoothness)" 구속이 부가될 수 있다. 불행히도 조정 기술은 객체 경계(object boundaries)를 따라 부정확성을 나타낸다. 분할의 경우에 경계 부정확성과 같은 잔류 효과(residual effects)는 부정확한 전경/배경 천이(transitions)를 나타낼 수 있기 때문에 바람직하지 못하다. 조정 기술의 잔류 효과를 줄이기 위해서는, 최대 속도를 계산하기 보다는 우도비 테스트(liekelihhod ratio test)를 통해 모션과 비모션 이벤트 간을 구별할 수 있다. 그러면 트레이닝 예로부터 학습된 모션 우도 기능은 컬러/콘트라스트 우도와 공간적 프라이어(spatial priors)와 확률론적으로 통합되어 더 정확한 분할을 달성할 수 있다. 더욱이, 최대 속도 연산의 필요성을 줄이는 것이 알고리즘 효율 상 편리할 수 있다.
도 2는 영상 시퀀스에서 전경과 배경을 자동적으로 분리하는 예시적인 영상 처리 시스템을 도시한다. 이 예시적인 영상 처리 시스템은 영상 분할의 기초로서 이용될 수 있는 확률론적 모델과 에너지 최소화 기법을 이용한다. 정확하게 추출된 전경은, 실질적으로 위신호(aliasing) 없이, 다른 정지 또는 움직이고 있는 배경과 합성될 수 있으며, 이는 비디오 회의 응용에 있어 유용할 수 있다.
도 2의 예에서, 입력 영상(210)은 단안적(monocular), 즉, 단일의 단안 비디오 입력 장치(202)로부터 입력되는 영상이다. 그러나, 이 입력 영상은 스테레오일 수도 있고, 하기의 수학식 (1)의 에너지 함수에서 스테레오 우도와 통합될 수도 있다.
비디오 입력 장치(202)로부터의 입력 영상은 농도 인덱서(intensity indexer)(212)에 입력되고, 농도 인덱서는 이 영상의 복수의 화소를 그들 각자의 농도에 따라서 지수화(index)할 수 있다. 입력 영상으로부터의 적당한 화소량이 지수화될 수 있다. 예컨대, 전체 영상이 지수화되거나, 입력 영상의 일부가 스테레오 시스템에서 하나 또는 그 이상의 스캔 라인, 에피폴라(epipolar) 라인 등과 같이 지수화될 수 있다. 도 2에 도시된 바와 같이, 농도 인덱서((212)는 입력 영상의 화소의 농도치(214)를 출력할 수 있다. 이 농도치는 데이터 저장소 내의 데 이터 어레이와 같은 곳에 임의의 적당한 방식과 적당한 포맷으로 저장될 수 있다.
데이터 저장소는 관계형 데이터베이스, 객체 지향 데이터베이스, 비구조적(unstructured) 데이터베이스 또는 기타 데이터 저장소 중 하나 또는 그 이상을 포함할 수 있다. 저장 어레이는 데이터 저장소의 일 형태이며, ASCII 텍스트, 바이너리 파일, 통신망을 통해 전송된 데이터와 같은 플랫 파일 시스템(flat file system)이나 기타 다른 파일 시스템을 이용하여 구성될 수 있다. 이와 같은 상기 또는 기타 다른 데이터 저장소의 구현에도 불구하고, 여기서 사용된 데이터 저장소와 저장 어레이라는 용어는 컴퓨팅 장치가 액세스할 수 있는 임의의 방식으로 수집 저장되는 임의의 데이터를 말한다.
도 2를 참조로 설명하면, 소정의 영상 시퀀스가 주어지면, 시각 t에서의 입력 영상 프레임(210)은 RGB 색공간에서 N개 화소 어레이(z)로서 나타낼 수 있다. 이 어레이, 즉 복수의 지수화된 N게 화소는 단일 지수(n)로 지수화된 z = (z1, z2, ..., zn, ..., zN)으로 표시될 수 있다. 지수화된 화소(z)는 배경으로부터 전경을 분할해내는 분할 모듈(216)에 입력될 수 있다. 입력 영상의 화소를 분할하기 위하여 각 화소는, 모션 모델(230), 컬러 모델(232) 및 선택적인 콘트라스트 모델(234)로부터의 입력에 기초하여, 전경이나 배경으로 정의될 수 있다. 예컨대, 분할 모듈(216)은 입력 영상 내의 복수의 화소를, 입력 화상의 하나 또는 그 이상의 화소와 연관된 하나 또는 그 이상의 분할 표시자(218)에 의한 전경 또는 배경으로서 분류될 수 있다.
영상 프레임(210)의 분할은 대응하는 어레이, 즉 복수의 불투명도(opacity) 또는 분할 상태값 α= (α1, α2,..., αn,..., αN)(도 2에서 분할 표시자(218)로 나타남)으로 표현될 수 있다. 여기서 αn의 값은 분할 표시자와 연관된 화소의 분할층을 나타낼 수 있다. 분할 표시자는 데이터 저장소와 같은 곳에 임의 적당한 포맷과 방식으로 저장될 수 있다.
분할은 하드 분할(hard segmentation)이다(즉, 화소가 전경이나 배경으로 분류될 수 있다). 전경 및 배경 분할 표시자 또는 라벨은 바이너리 값, 텍스트 라벨, 정수 값, 실수 값 등과 같이 임의의 적당한 값을 가질 수 있다. 일례로서, 특정 화소(n)에 대한 분할 표시자(αn)는 0 또는 1의 세트로 될 수 있다. 일례로서, 값 0은 배경을, 값 1은 전경을 나타낼 수 있다. 어떤 경우에는 층의 특정 분할 상태를 나타내는데 영(null) 및/또는 음수 값을 이용할 수 있다. 다른 예로서, 전경 분할 표시자는 "F" 열(string)이고, 배경 분할 표시자는 "G" 열일 수 있다. 다른 라벨, 값, 라벨 수 등이 이용될 수 있음을 잘 알아야 한다. 분수 불투명도(fractional opcities) 또는 분할 표시자 값도 가능하며 관련 화소의 미지 또는 가능성있는 상태를 나타낸다. 분수 불투명도(즉, α)는 이하에서 더 설명되는 SPS를 이용한 α-매팅 기법이나 「로더(Rother) 등의 "GraCut: Interactive foreground extraction using iterated graph cuts," ACM Trans.Graph., vol.23, No.3, 2004, pp.309-314」(본 명세서에서 인용으로 포함됨)에서 더 설명되는 경계선 매팅(border matting) 등과 같은 임의의 적당한 기법을 이용하여 계산될 수 있 다.
전경 또는 배경으로서의 입력 영상의 화소는 도 2의 분할 모듈(216)에 의해 임의의 방식으로 식별될 수 있다. 예컨대, 모션에 기초한 분할은 컬러 분할과 선택적으로는 콘트라스트 분할과 통합될 수 있다. 모션 분할 만으로부터 도출된 영상은 컬러 및/또는 콘트라스트 분할로부터 도출되는 영상과 통합되는 것뿐만 아니라, 분할 모듈은 모션 모델(230), 컬러 모델(232) 및 선택적으로 콘트라스트 모델(234)을 이용하여 모션은 물론 컬러와 선택적으로 콘트라스트를 처리한다.
입력 영상(210)의 분할 표시자(218)를 결정하기 위하여, 분할 모듈(216)은 적어도 하나의 입력 영상(210)을 수신하여 이를 전경부와 배경부로 분리할 수 있다. 이 영상(210)은 RGB 색공간에 있을 수 있는 화소 값(214)의 어레이로서 나타낼 수 있으며, 이는 영상 인덱서(214)에 의해 결정된다. 분할 모듈(216)은 에너지 함수를 최소화하는 입력 영상(210) 내의 복수의 화소 각각에 대한 분할 표시자를 결정할 수 있다. 에너지 함수는 모션 모델(230), 컬러 모델(232) 및 선택적으로 콘트라스트 모델(234)을 포함할 수 있다. 에너지 함수는 상기 인용된 보이코프(Boykov) 등에 설명된 바이너리 라벨에 대한 그래프 컷을 통하는 것과 같이 임의의 적당한 방식으로 최소화될 수 있다. 에너지 함수는 모션 우도, 컬러 우도, 및 선택적으로 콘트라스트 우도를 포함하는 하나 또는 그 이상의 요소를 포함할 수 있다. 모션 우도는 모션 초기화 모듈로부터 발생된 모션 파라미터, 입력 영상의 화소 값, 입력 영상 내의 복수의 화소 각각의 시간적 미분계수, 및 입력 영상 내의 복수의 화소 각각의 공간적 기울기를 이용할 수 있다. 콘트라스트 우도는 입력 영 상의 화소 값을 이용할 수 있다. 컬러 우도는, 모션 우도와 선택적으로 콘트라스트 우도에 의해 초기에 결정되는, 컬러 초기화 모듈로부터 발생된 컬러 파라미터, 이전(prior) 영상의 화소 값, 및 이전 영상의 화소와 연관된 추정된 분할 표시자를 이용할 수 있다.
모션 모델(230)의 모션 파라미터를 결정하기 위하여, 하나 또는 그 이상의 트레이닝 영상(250) 세트가 수동 영상 처리 모듈(252)에 입력될 수 있으며, 이 모듈에서 사용자는 트레이닝 영상의 전경부와 배경부를 수동으로 또는 대화식으로(interactively) 정의할 수 있다. 수동 영상 처리 모듈은, 「보이코프(Boykov) 등의 "Interactive graph cuts for optimal boundary and region segmentation of objects in N-D images," Proc.Intl'l Conf. on Computer Vision, 2001」(본 명세서에서 인용으로 포함됨)과 「로더(Rother) 등의 "Interactive foreground extraction using iterated graph cuts," ACM Trans.Graph., vol.23, No.3, 2004, pp.309-314」(본 명세서에서 인용으로 포함됨)의 기술과 같이, 트레이닝 영상의 화소에 대한 전경 및 배경 라벨을 정의하는 임의의 적당한 기술을 이용할 수 있다. 수동 영상 처리 모듈은 각각이 트레이닝 영상의 화소와 연관된 복수의 트레이닝 분할 표시자(254)를 출력할 수 있다. 분할 표시자는 트레이닝 영상의 연관 화소가 전경인지 아니면 배경인지를 나타낸다. 트레이닝 영상의 화소에 대한 분할 표시자는 데이터 저장소에 저장될 수 있는 데이터 어레이에서와 같이 임의의 적당한 방식과 포맷으로 저장될 수 있다.
모션 초기화 모듈(256)은 트레이닝 영상 화소의 분할 표시자(254)를 수신하 여 모션 대 비모션 이벤트의 우도비의 모션 파라미터 값을 결정할 수 있다. 모션 파라미터 값은, 이하에서 더 자세히 설명되겠지만, 트레이닝 데이터의 라벨의 분류 에러를 최소화할 수 있다. 예컨대, 가우시안 혼합 모델(Guassian mixture model)을 라벨링된 트레이닝 영상의 화소의 시간적 및 공간적 기울기의 전경 분포에 맞추기 위해서 기대값 최대화(expectation maximization)가 이용될 수 있다. 다른 가우시안 혼합 모델도 라벨링된 트레이닝 영상의 화소의 시간적 및 공간적 기울기의 배경 분포에 맞추어 질 수 있다. 특히, 시간적 및 공간적 기울기는 트레이닝 영상의 복수의 화소에 대해서 결정되어 이들 화소와 연관될 수 있으며, 가우시안 혼합 모델은 수동적으로 분할된 트레이닝 영상으로부터 모아질(pooled) 수 있는 트레이닝 영상의 복수의 화소에 대한 각 시간적 및 공간적 기울기 쌍에 맞추어진다. 이런 식으로, 모션 초기화 모듈(256)은 모션 파라미터(258)를 출력할 수 있으며, 출력된 모션 파라미터는 데이터 저장소와 같은 곳에 임의의 적당한 방식과 포맷으로 저장될 수 있다. 모션 파라미터(258)는 분할 모듈(216)에 의해 모션 모델(230)에서 모션 우도를 결정하는데 이용될 수 있다.
컬러 우도 초기화 모듈(260)은 임의의 적당한 방식으로 컬러 모델(232)에서 컬러 우도 알고리즘의 파라미터를 결정할 수 있다. 예컨대, 컬러 우도 초기화 모듈은 상기 인용된 로더 등의 문헌에서 설명된 기법(이하에서 더 자세히 설명됨)을 이용할 수 있다. 특히, 가우시안 혼합 모델은 분할될 입력 영상(210)에 앞서 이미 분할된 하나 또는 그 이상의 영상 프레임에 맞추어질 수 있다. 가우시안 혼합 모델은 기대치 최대화를 이용하여 상기 하나 또는 그 이상의 이전 영상의 전경 화소 와 이에 연관된 분할 표시자에 맞추어 질 수 있으며, 또한 가우시안 혼합 모델은 기대치 최대화를 이용하여 상기 하나 또는 그 이상의 이전 영상의 배경 화소와 이에 연관된 분할 표시자에 맞추어 질 수 있다. 이런 식으로, 컬러 초기화 모듈(260)은 컬러 파라미터(262)를 출력할 수 있으며, 출력된 컬러 파라미터는 데이터 저장소와 같은 곳에 임의의 적당한 방식과 포맷으로 저장될 수 있으며, 분할 모듈(216)에 의해 컬러 모델(232)에서 컬러 우도를 결정하는데 이용될 수 있다.
선택적 콘트라스트 모델(234)은 공간적 프라이어에 영향을 미칠 수 있으며, 이에 따라 분할 값이 컬러 콘트라스트 값으로 정의되는 고유의 객체 윤곽(natural object contours)을 따르거나 고려하게 할 수 있다. 공간적 평탄화는 임의의 적당한 방식으로 결정될 수 있다. 특히, 콘트라스트 모델은 입력 영상의 화소 값을 수신하여, 후술하는 바와 같이 콘트라스트를 제공할 수 있다.
영상 프로세서(220)는 분할 모듈(216)로부터의 분할 표시자(218)(예컨대, 전경 및 배경의 라벨들)와 이들에 관련된 입력 영상의 화소(210)를 이용하여 분할 표시자(218)에 기초하여 입력 영상을 변경 및/또는 처리하여 소정의 출력 영상(222)을 발생할 수 있다. 예컨대, 이 영상 프로세서는 전경 화소의 적어도 일부를 추출하고 이를 다른 장면일 수 있는 다른 배경 영상, 단일 컬러, 스프레드시트나 프리젠테이션 애플리케이션 등과 같은 다른 애플리케이션으로부터의 디스플레이된 객체 등과 합성할 수 있다. 배경 영상은 프리젠테이션 슬라이드와 같은 다른 애플리케이션으로부터 입력된 다른 장소 장면(예컨대, 해변)와 같은 임의의 적당한 영상일 수 있다. 다른 예로서, 배경부를 나타내는 분할 상태 값과 관련된 화소의 적어도 일부가 전경 화소와는 다른 충실도(fidelity)로 압축될 수 있다. 이런 식으로, 영상 압축은 전경 화소에 대해서는 높은 충실도를 유지하고 배경 화소의 일부에 대해서는 낮은 충실도를 유지할 수 있다. 또 다른 예로서, 배경 화소는 전경 화소로부터 분리되어, 원격 회의 애플리케이션에서처럼 수신자에게 별도로 전달될 수 있다. 원격 회의 비디오 스트림의 후속되는 프레임들은 수신자에게 전경 화소만을 전송하며, 이 전경 화소는 다른 배경 화소 또는 이미 전송되어 저장되어 있는 배경 화소와 조합될 수 있다. 다른 예로서, 동적 이모티콘(imoticon)이 화상 내의 전경 객체와 상호 작용할 수 있다. 예컨대, 동적 이모티콘은, 본 명세서에서 인용으로서 포함된 미국 특허출원 제11/066946호(출원일: 2005년 2월 25일)에 자세히 기재되어 있는 바와 같이, 전경 객체 주위를 궤도를 그리며 돌 수 있다. 다른 예로서, 영상 내의 식별된 전경 화소를 이용하여 소정의 프레임을 일정한 크기로 만들어 그리고/또는 처리 영상의 전경 화소 주위에 배치할 수 있고(예컨대, 스마트 프레이밍(smart-framing)), 배경 화소의 디스플레이를 제한할 수 있다. 다른 예로서, 입력 영상 내의 식별된 전경 화소를 이용하여 소정의 프레임을 일정한 크기로 만들어 그리고/또는 입력 영상의 전경 화소 주위에 배치할 수 있고(예컨대, 스마트 프레이밍), 배경 화소의 디스플레이를 제한할 수 있다. 영상 프로세서는 분할된 화소를 이용하여 임의의 적당한 방식으로 디스플레이 또는 저장된 영상을 처리 또는 변경할 수 있으며, 상기 영상 처리 설명은 예시적으로 제공되는 것으로 본 발명은 이에 한정되는 것은 아니다.
에너지 최소화에 의한 분할
「보이코프(Boykov) 등의 "Interactive graph cuts for optimal boundary and region segmentation of objects in N-D images," Proc.Intl'l Conf. on Computer Vision, 2001」과 「로더(Rother) 등의 "Interactive foreground extraction using iterated graph cuts," ACM Trans.Graph., vol.23, No.3, 2004, pp.309-314」과 유사하게, 하나 또는 그 이상의 입력 영상의 분할 문제는 에너지 최소화 문제와 깊이 연관된 것이다. 도 2의 분할 모듈(216)에 의해 최소화될 에너지 함수(E)는 데이터와 평탄화의 합으로서 주어질 수 있다. 예컨대, 에너지 함수(E)는 모션 우도와 컬러 우도의 합으로서, 어떤 경우에는 이들 우도들과 공간적 간섭성(또는 콘트라스트 평탄성) 우도의 합으로서도 주어질 수 있으며, 다음과 같이 나타낼 수 있다.
Figure 112007079695287-pct00001
여기서, V()는 콘트라스트에 기초한 공간 평탄도이고, UC는 컬러 우도이고, UM은 모션 우도이다. 이들에 대해서는 뒤에 더 자세히 설명한다.
에너지를 수학식 (1)로 정의하면, 입력 영상 화소의 최적인 또는 충분히 최적인 분할 표시자(α)는 에너지 식의 전역적(global) 최소값을 추정함으로써 결정될 수 있다.
Figure 112007079695287-pct00002
에너지는 상기 보이코프 등의 문헌에서 자세히 설명된, 바이너리 라벨에 대 한 그래프-컷과 같은 임의의 적당한 최적화 방법을 통해 충분히 최소화될 수 있다. 이하에서 더 자세히 설명되는 바와 같이, 컬러 파라미터(k, θ)에 대한 최적값이, 입력 영상 이전의 비디오 계열 내의 분할된 영상으로부터 기대값 최대화와 같은 것을 통해 학습될 수 있고, 모션 파라미터(kM, θM)는, 임의의 적당한 트레이닝 영상으로부터 기대값 최대화와 같은 것을 통해 학습될 수 있다.
깁스(Gibbs) 에너지는 도 2의 분할 모듈(216)에서 이용된 계수(factor)의 확률론적 모델로서 정의될 수 있다. 예컨대, 분할 모듈은 모션 우도 모델(230)과 컬러 우도 모델(232)을 고려할 수 있다. 모션 우도 모델(230)은 모션 파라미터에 기초한 모션 우도 함수의 모델을 제공하고, 컬러 우도 모델(232)은 컬러 파라미터에 기초한 컬러 우도 함수의 모델을 제공할 수 있다. 상술한 바와 같이, 분할 모듈은 콘트라스트 우도 모델(234)도 포함할 수 있다. 다음의 절은 모델들(230, 232, 234)에 의해 도 2의 분할 모듈(216)에 제공될 수 있는 수학식 (1)에서의 각 항을 정의한다.
컬러 우도( U C )
도 2의 컬러 우도 모델(232)은 임의의 적당한 컬러 우도 모델에 기초할 수 있다. 예컨대, 2층 분할은 가우시안 혼합 모델을 이용하여 전경 및 배경에서의 컬러 우도를 모델링할 수 있다. 컬러에 대한 예시적인 적당한 가우시안 혼합 모델은 여기서는 그 개요만 설명하며, 더 자세한 것은 미국 특허출원 제10/861,771호(출원일: 2004년 6월 3일, 발명의 명칭: FOREGROUND EXTRACTION USING INTERATED GRAPH CUTS)와 미국 특허출원 제11/195,027호(출원일: 2005년 8월 2일, 발명의 명칭: STEREO-BASED IMAGE SEGMENTATION)(이들 두 특허출원의 내용은 본 명세서에 인용으로 포함됨)에 기재되어 있다. 다른 적당한 컬러 모델은 상기 로더 등의 문헌에 자세히 기재되어 있으며, 여기서는 그 개요만 설명된다.
전경과 배경 컬러는 전경에 대한 것과 배경에 대한 두 가지 가우시안 혼합 모델(GMM)으로 모델링될 수 있다. 각 GMM은 완전 공분산(full covariance)을 갖는 k개 성분(통상적으로 k=20)을 갖는다. 대응 GMM 성분에의 화소 할당은 데이터 저장소와 같은 곳에 벡터 k =(k1, k2,..., kn,..., kN)(kn은 1 내지 K의 정수 범위의 세트의 원소임)로서 임의의 적당한 방식으로 저장될 수 있다. 각 GMM 성분은 전경이나 배경 GMM에 속한다.
컬러 우도는 다음과 같이 표현될 수 있다.
Figure 112007079695287-pct00003
여기서, θ는 아래에서 정의되는 GMM 모델의 파라미터를 포함하며, D(αn, kn, θ, zn)=-log p(zn│αn, kn;θ)-log Π(Πn; kn)이며, 여기서 p()는 가우시안 확률 분포이고, Π()는 혼합 가중 계수를 포함한다. 그러므로, 함수 D는 다음과 같이 다시 표현될 수 있다.
Figure 112007079695287-pct00004
μ와 Σ는 각각 전경과 배경 분포의 2K 가우시안 성분의 평균과 공분산이다. 그러므로, 컬러 모델의 파라미터θ={Π(α,k),μ(α,k),Σ(α,k),α={0,1},k={1,...,K}}이다.
컬러 우도에 대한 상기 수학식 (3)은 전역 컬러 모델만을 포함하고 화소 방식 모델(pixel-wise model)은 포함하지 않는다. 그러나, 화소 방식 모델은 전역 컬러 모델에 추가하거나 그에 대한 대안으로서 구현될 수 있음을 잘 알아야 한다. 컬러 우도는 여기서는 간략하게 설명되며, 더 자세한 것은 미국 특허출원 제11/195027호(출원일: 2005년 8월 2일, 발명의 명칭: SETEREO-BASED SEGMENTATION)에 기재되어 있다. 예컨대, 가우시안 혼합 모델을 이용하면, 전경 컬러 모델 p(z│x+F)는 전경 화소로부터 초기화 또는 학습된 공간적 전역 가우시안 혼합이다. 배경에는 유사한 초기화 또는 학습된 가우시안 혼합 p(z│x+B)가 있다. 배경 모델은 안정성 플래그(stability flag)가 충분한 수의 이전 프레임에 걸쳐 균형 상태가 있었음을 나타낼 때마다 이용될 수 있는 화소 단위 단일 가우시안 밀도 pk(zk)를 포함할 수도 있다. 안정성 플래그는 안정성 또는 비안정성을 바이너리 값, 텍스쳐 값, 복수의 표시자 등과 같은 것으로 임의의 특정한 방식으로 나타낼 수 있다. 이런 식으로, 조합된 컬러 모델은 다음과 같이 나타낼 수 있는 컬러 에너지 UC k로 주어질 수 있다.
Figure 112007079695287-pct00005
여기서, sk는 값 0 또는 1을 가진 안정성 플래그 표시자이다. 배경 컬러 모델은 전역 배경 모델과 화소 방식 배경 모델 간의 혼합을 나타내지만, 임의의 적당한 배경 및/또는 전경 모델이 이용될 수 있음을 잘 알아야 한다. 어떤 경우에는 배경 모델에서 화소 방식 접근법을 이용하면 유익한 정보를 추출할 수 있다. 그러나, 화소 방식 접근법은 배경에서의 움직임에 민감할 수 있으며, 이러한 효과는 전역 배경 분포 p(zk│xk+B)를 그 혼합 내에 오염 성분으로 부가함으로써 저감될 수 있다. 대개는 카메라는 고정되어 있고 전경 피사체(subject)가 움직이고 있기 때문에, 배경 대부분은 시간이 지나도 변화되지 않을 것이다. 그러나, 수학식 (5)의 배경부의 화소 방식 및/또는 전역 부분은 간단화를 위해 또는 임의의 적당한 이유로 제거될 수 있음을 잘 알아야 한다.
가우시안 혼합 모델은 적색-녹색-청색(RGB) 색공간 내에서 모델링될 수 있으며 임의의 적당한 방식으로 초기화될 수 있다. 이 색공간은 적색-녹색-청색(RGB)는 물론 YUV, HSB, CIE Lab, CIE Luv 등을 포함하는 임의의 적당한 색공간일 수 있다. 가우시안 혼합 모델은 분할될 입력 영상 이전의 비디오 시퀀스 내의 하나 또는 그 이상의 분할된 영상 프레임으로부터 학습될 수 있다. 단일 영상 분할과는 달리, 단안식 전경 배경 분할에서 프레임 t에 대한 컬러 파라미터 θ와 k는 프레임 t-1에서의 분할로부터의 기대값 최대화를 통해 추정될 수 있음에 유의한다. 더욱 이, 각 프레임 t에 대해서는 단일 반복(single iteration)이 이용될 수 있으며, 복수 반복이 이용될 수도 있다.
다른 예로서, 모든 화소가 배경으로 초기화될 수 있는 것처럼 가우시안의 파라미터는 디폴트 값으로 초기화될 수 있다. 어느 경우에나, 파라미터 추정이 개선됨에 따라 영상 분할에서의 컬러 우도의 영향이 증가될 수 있다. 예컨대, 컬러 우도는 파라미터 값이 초기화될 때에 갑자기 스위치 온될 수 있다. 컬러 항(color term)은 예컨대 가중 항(weighting term)을 이용하여 그 영향력을 점차적으로 증가시키도록 조정(dialed in)될 수 있다. 이러한 조정은 임의의 적당한 주기로, 예컨대 대략 수 초 또는 대략 100 프레임으로 행해질 수 있다.
배경 모델은 화소 방식 배경 유지에 의해 화소마다 학습된 확률 밀도에서 혼합함으로써 향상될 수 있다. 화소 방식 배경 유지에 대해서는 「로베(Rowe) 등의 "Statistical mosaics for tracking," J. Image and Vision Computing, Vol. 14, 1996, pp. 549-564」와 「스타우퍼(Stauffer) 등의 "Adaptive background mixture models for real-time tracking," Proc.CVPR, 1999, pp. 246-252」에 자세히 설명되어 있다. 이들 문헌의 내용은 본 명세서에 인용으로 포함된다. 가우시안 파라미터에 대해서 했던 것처럼, 확률 밀도도 이전의 라벨링된 영상으로부터 학습하거나, 화소 라벨을 디폴트 값으로 설정하여 부트스트랩핑 초기화하는 등과 같이, 임의의 적당한 방식으로 초기화될 수 있다.
가우시안 혼합 모델을 이용하면, 전경 컬러 모델 p(z│α=1)는 전경 화소로부터 초기화 또는 학습된 공간적 전역 가우시안 혼합이다. 배경에는 유사한 초기 화 또는 학습된 가우시안 혼합 p(z│α=0)가 있다. 배경 모델은 안정성 플래그가 충분한 수의 이전 프레임에 걸쳐 균형 상태가 있었음을 나타낼 때마다 이용될 수 있는 화소 단위 단일 가우시안 밀도 pk(zk)를 포함할 수도 있다. 안정성 플래그는 안정성 또는 비안정성을 바이너리 값, 텍스쳐 값, 복수의 표시자 등과 같은 것으로 임의의 특정한 방식으로 나타낼 수 있다.
콘트라스트 모델
도 2의 콘트라스트 우도 모델(234)과 같은 콘트라스트 우도 모델은 높은 영상 콘트라스트의 윤곽과 정렬하는 분할 경계를 개선할 수 있다. 「보이코프(Boykov) 등의 "Interactive graph cuts for optimal boundary and region segmentation of objects in N-D images," Proc.Int. Conf. on Computer Vision, 2001」에 자세히 기재된 콘트라스트 우도 모델과 같은 임의의 적당한 콘트라스트 모델이 이용될 수 있다. 이 문헌의 내용은 본 명세서에 인용으로 포함되며, 여기서는 그 개요만 설명된다.
그래픽 컷을 이용한 대화식(interactive) 전경 추출에서처럼, 콘트라스트 모델은 페어와이즈(pairwise) 에너지 V에 영향을 미치며, 컬러 콘트라스트에 기초한 콘트라스트 에너지 V는 다음과 같이 나타낼 수 있다.
Figure 112007079695287-pct00006
여기서, 지수 m과 n은 입력 영상에서 수평, 대각 및 수직 클릭(cliques)의 페어와이즈 화소 지수이다. 파라미터 β는 다음과 같이 계산될 수 있는 콘트라스트 변조 상수이다.
Figure 112007079695287-pct00007
여기서, 기호 "〈 〉"는 영상 샘플에 대한 기대값을 의미한다. 함수 I[αn≠αm]은 전경 상태 안밖에서의 천이에 따라 작동하는 바이너리 스위치로서 작용하는 항등 함수(identity function)이다.
선택적 강도(strength) 파라미터 γ에는 콘트라스트 모델에서의 항이 곱해질 수 있다. 이 강도 파라미터는 간섭성 프라이어(coherence prior)와 콘트라스트 우도를 나타낼 수 있으며, 실험적으로 조정될 수 있다. 특정 경우에 강도 파라미터 γ는 대략 10으로 설정될 수 있다.
선택적 희석(dilution) 상수 파라미터 ε은 콘트라스트를 위해 포함될 수 있다. 특정 경우에 희석 상수 ε은 순수한 컬러 및 콘트라스트 분할을 위해 제로로 설정될 수 있다. 그러나, 분할이 컬러 콘트라스트 이상의 것에 기초하는 많은 경우에는 희석 상수는 1과 같이 임의의 적당한 값으로 설정될 수 있다. 이런 식으로, 예컨대 모션 및/또는 컬러로부터의 다양한 세그먼트 큐(segment cues)의 증가에 대해서 콘트라스트의 영향을 약화시킬 수가 있다.
모션 우도
도 2의 모션 모델(230)과 같은 모션 모델은, 어떤 영상 내의 움직이는 객체는 전경일 가능성이 크고 움직이지 않는 객체는 배경일 가능성이 크다고 가정하면, 분할 경계를 개선할 수 잇다. 신뢰할 수 있는 모션 우도의 자동 추정은 임의의 적당한 방식으로 결정될 수 있다. 예컨대, 모션 대 비모션 이벤트의 우도비 UM()는 트레이닝 시퀀스의 수동 분할된 프레임으로부터 자동적으로 학습된 다음에, 사전에 숨겨진 테스트 프레임에 적용되어 전경/배경 분리를 지원할 수 있다. 도 3은 모션 우도를 트레이닝하는데 이용된 트레이닝 데이터 시퀀스의 두 개의 예시적인 프레임(302, 304)과 그에 대응하여 상호 작용적으로 얻어진 분할 마스크(320, 340)를 보여준다. 도 3의 분할 마스크에서 백색 부분(322, 342)은 전경을, 흑색 부분(324, 344)은 배경을 나타낸다. 특정 경우에 회색 영역(단편적 또는 기타 적당한 분할 표시자를 나타냄)은 (혼합된 화소의 복잡한 영역에서 발생할 수 있는) 미정의 할당 또는 분할을 나타낸다.
모션 함수 UM의 우도는, 가우시안 혼합 모델을 라벨링된 트레이닝 영상 내의 화소의 시간 및 공간 기울기의 전경 및 배경 분포에 맞춤으로써 추정될 수 있다. 특히, 각 영상 프레임 It 내의 화소는 다음과 같이 나타낼 수 있는 관련 시간 미분계수를 갖는다.
Figure 112007079695287-pct00008
공간 기울기 크기 g는 다음과 같이 나타낼 수 있다.
Figure 112007079695287-pct00009
시각 t에서의 각 시간 미분계수 요소
Figure 112007079695287-pct00010
는 다음과 계산될 수 있다.
Figure 112007079695287-pct00011
여기서, G()는 σt 화소 스케일에서의 가우시안 커널(kernel)이다. 더욱이, 공간 기울기 크기 gn은 다음과 같이 결정될 수 있다.
Figure 112007079695287-pct00012
여기서, ∇은 공간 기울기 연산자를 나타낸다. 공간 미분계수는 가우시안 커널의 1차 미분계수를 가진 영상을 표준 편차 σs와 컨벌류션을 취함으로써 계산될 수 있다. 표준 기대값 최대화 알고리즘을 이용하여 GMM을 트레이닝 시퀀스의 분할된 프레임 모두로부터 모아진 (gn,
Figure 112007079695287-pct00013
) 쌍 모두에 맞출 수 있다.
도 4는 도 3의 트레이닝 영상(302, 304)과 시퀀스 내의 다른 유사한 트레이닝 영상에 기초한 그래프에서의 예시적인 트레이닝 전경 2D 미분계수 점과 트레이닝 배경 미분계수 점을 보여준다. 도 4의 그래프(400)는 공간 기울기를 나타내는 x축(402)과 시간 미분계수를 나타내는 y축(404)을 갖고 있다. 최적 분리 곡선(UM=0)은 흑색선(406)으로 도시되어 있다. 그래프(400)의 영역(410)과 같은 영역은 배경 미분계수 점을 나타내고, 영역(412)과 같은 영역은 전경 미분계수 점을 나타낸다.
KM F와 KM B는 각각 전경과 배경 GMM의 가우시안 성분 수를 나타낸다. 따라서, 모션 우도는 다음과 같이 표현될 수 있다.
Figure 112007079695287-pct00014
여기서,
Figure 112007079695287-pct00015
여기서, Vn은 Vn=(gn,
Figure 112007079695287-pct00016
)T로 정의되는 2-벡터이고, kM은 모션 GMM의 각 가우시안 성분에의 화소 할당을 나타내고, μ와 Σ는 GMM 모션 모델의 KM F+ KM B 성분의 평균과 공분산이다. 마지막으로 모션 파라미터 θM은 모션 GMM의 혼합 가중치, 평균 및 공분산 파라미터를 모으고, 다음과 같이 결정될 수 있다.
Figure 112007079695287-pct00017
라벨을 트레이닝하는 일례로서, 트레이닝 영상은 일련의 영상 시퀀스를 포함할 수 있다. 예컨대, 도 3에 도시된 바와 같이, 예시적인 시퀀스 영상(302, 304)은 (잡음은 있지만) 거의 정지해 있는 배경 앞에서 움직이면서 이야기하고 있는 전경 사람을 보여주고 있다. 도 5는 도 3의 트레이닝 영상(302, 304)의 자동 학습된 로그-우도비 면의 3차원 플롯(500)을 보여준다. 도 5의 플롯(500)은 시간 미분계수를 나타내는 축(502), 공간 기울기를 나타내는 축(504), 및 학습된 모션 기반 로그 우도비를 나타내는 축(506)을 갖고 있다. 플롯(500)에서, 음수는 배경에 해당하고, 양수는 전경에 해당하고, UM=0인 궤적은 곡선(508)으로 나타나 있다. 도 5에 도시된 바와 같이, 큰 시간 미분계수는 전경에 속하는 화소의 큰 우도에 관련되며, 그 반대로도 성립된다. 그러나, 도 5의 예는 학습된 분리 곡선이 자주 사용되는 고정된 시간 미분계수 임계치와는 매우 다름을 보여주기도 한다. 최적의 파라미터는 트레이닝 데이터에 대한 분류 에러를 최소화함으로써 자동적으로 찾을 수 있다. 도 3의 예시적인 트레이닝 영상에 있어서는 이 절차는 다음의 값을 산출한다.
Figure 112007079695287-pct00018
학습된 모션 우도는 테스트될 수 있다. 도 6은 예시적인 테스트 시퀀스의 3개의 프레임(602, 604, 606)에 우도비 테스트를 실시한 예시적인 결과와, 모션 프레임(620, 640, 660)에 나타난 각 화소에 대한 대응 모션 우도를 보여준다. 모션을 겪는 입력 영상 영역은 트레이닝된 모션 모델에 의해 검출되어, 영역(622, 623, 642, 644, 662, 664)과 같은 회백색 영역으로 표시된다. 모션 영역은 트레이닝된 모션 모델에 의해 검출된 정지 영역과는 구별되며 영역(626, 646, 666)과 같은 회 색 영역으로 표시된다. 더욱이, 학습된 우도의 특성으로 인해, 영역(628, 648, 668)과 같은 텍스쳐없는 영역(예컨대, 본래 희미한 영역)은 중간 회색(UM≒0에 해당)을 할당하는 경향이 있다. 도 6의 예시적인 모션 기반 분할에서는 모션 모델이 도 6의 입력 영상(602, 604, 606)과는 다른 도 3의 트레이닝 영상(302, 304) 등으로 트레이닝되었음을 알아야 한다.
도 6은 또한 모션 만으로는 정확한 분할을 위해 충분치 않음을 보여준다. 모션 및 컬러 우도의 마코프 랜덤 필드 공간 프라이어(Markov Random Fields spatial priors)와의 통합은 남아있는 "구멍", 예컨대 텍스쳐없는 영역을 채울 수 있으며, 정확한 분할 마스크를 생성할 수 있다. 예컨대, 그래프 컷 알고리즘을 이용하여 마코프 랜덤 필드를 분할하여 정확한 분할 마스크를 생성할 수 있다.
모션 우도, 컬러 우도 및 선택적으로 콘트라스트 우도를 결정한 후에는 에너지(상기 수학식 (1)에서 주어짐)가 임의의 적당한 방식으로 최적화될 수 있다. 총 에너지는 도 2의 분할 모듈(216)에 의해 최적화될 수 있다. 분할 모듈은 임의의 적당한 최적화 방법을 이용할 수 있다. 예컨대, 상기 총 에너지 수학식 (1)의 예에서, 계층화된 그래픽 컷을 이용하여 총 에너지 식을 최적화할 수 있다. 계층화된 그래픽 컷은 분할 상태 변수 값 α를 에너지 함수 E의 최소값으로 결정한다.
만일 상태가 전경과 배경으로 한정되어 있다면, 임의의 적당한 그래프 컷 알고리즘을 이용하여 분할 상태 변수 α에 대한 해를 구할 수 있다(즉, 하드 분할). 예컨대, 하드 분할에서는, 그래프 컷 알고리즘을 이용하여 에너지 최소화를 통해 분할을 결정할 수 있다. 그러나, 만일 분할 상태가 여러 개의 값을 가질 수 있다 면(예컨대, 0, 1, 2, 3,...), α-확장 그래프 컷을 이용하여 최적의 분할 라벨을 계산할 수 있다. 그래프 컷의 α-확장 형태에 대해서는 「콜모고로프(Kolmogorov) 등의 "Multi-camera scene reconstruction via graph cuts," Proc. ECCV, Copenhagen, Denmark, 2002년 5월)」(이 문헌의 내용은 본 명세서에 인용으로 포함됨)에 자세히 기재되어 있다. 상기 2가지 예는 분할 변수에 대한 이산적 라벨을 다루고 있으나, 만일 분할 값이 실제 투명도 값(예컨대, 분수 값)을 반영할 수 있다면, 경계선 매팅이나 SPS 알고리즘과 같은 알파-매팅 기법을 이용할 수 있다. 상술한 바와 같이, 경계선 매팅에 대해서는 「로더(Rother) 등의 "GrabCut: Interactive foreground extraction using iterated graph cuts," ACM Trans.Graph., vol.23, No.3, 2004, pp.309-314」에 자세히 설명되어 있다.
인간의 눈은 깜박거리는 빛에 민감하게 반응하므로, 최적화된 분할 상태 변수 값은 분할 모듈(2160에서와 같이 특정 경우에 평활화되어, 이에 따라 전경/배경 분할 최적화가 이루어질 수 있다. 예컨대, 분할 상태 변수 값은 SPS를 포스트 프로세스(post-process)로서 이용하는 α-매팅이나, 「로더(Rother) 등의 "GrabCut: Interactive foreground extraction using iterated graph cuts," ACM Trans.Graph., vol.23, No.3, 2004, pp.309-314」에 자세히 설명된 경계선 매팅과 같은 것을 이용하여 임의의 적당한 방식으로 평활화될 수 있다. 위신호(aliasing)를 줄이면, 배경 대체 응용 분야와 같은 곳에서 시각적 사실감을 더 높일 수가 있다. 「로더(Rother) 등의 "GrabCut: Interactive foreground extraction using iterated graph cuts," ACM Trans.Graph., vol.23, No.3, 2004, pp.309-314」(이 문헌의 내용은 본 명세서에서 인용으로 포함됨)에 자세히 설명된 경계선 매팅 기법과 같은 임의의 적당한 위신호 방지 기법이 이용될 수 있다.
최적화 및 선택적 평활화 후에, 결정된 분할 상태 변수 값 각각은 입력 영상의 관련 화소와 임의의 적당한 방식으로 연관될 수 있다. 예컨대, 분할 상태 변수 값은 어레이 내의 값의 위치가 관련 입력 영상 내의 관련 화소를 나타내는 어레이에 저장될 수 있다. 다른 예로서, 영상 내의 복수의 화소 위치는, 단일 라벨을 가진 인접 화소들을 그룹화하는 것과 같이, 분할 상태 변수 값과 연관될 수 있다.
영상 내의 라벨링된 화소는, 도 2의 영상 프로세서(220)에 의한 것과 같이, 영상 처리 중에 영상의 전경이 영상의 배경으로부터 분리되도록 할 수 있다. 예컨대, 도 7 내지 9는 배경 대체를 보여주는 비디오 스트림으로부터의 영상 시퀀스를 보여준다. 도 7은 어떤 사무실 환경에 있는 여성을 보여주는 일련의 예시적인 입력 영상(702, 704, 706, 708, 710)을 보여준다. 도 8은 전경 프레임(802, 804, 806, 808, 810) 내의 도 7의 입력 영상의 전경 분할된 화소를 보여준다. 도 9는 도 7의 입력 영상 내의 배경 화소로서 식별된 화소의 예시적인 배경 대체, 또는 다른 배경 영상 상의 도 8의 영상의 추출된 전경 화소의 예시적인 배경 대체를 보여준다. 더 구체적으로, 도 9에서는 도 8의 영상의 추출된 전경이 영상 프레임(902, 904, 906, 908, 910) 내의 옥외 장면으로서의 다른 새로운 배경과 합성되었다. 추출된 배경에는 위신호가 거의 없으므로, 대체된 배경과의 합성은 시각적으로 높은 사실감을 준다.
도 10은 배경 대체의 다른 예를 보여준다. 이 예에서는 상술한 분할 프로세 스가 도 10의 디스플레이 프레임(1000)을 가진 데스크톱 방식 비디오 채팅 응용분야에 적용되었다. 원래의 사무실 배경을 옥외 배경(즉, 영상(1002) 내의 해변과 영상(1004) 내의 항구)으로 대체하면, 두 사람이 서로 다른 장소에 있는 것처럼 보이게 된다. 또한, 전경/배경 분할에서 잔류 효과가 없기 때문에 배경 대체된 영상을 실질적으로 확신하게 된다.
전경/배경 분리 및 배경 대체는 상술한 에너지 최소화 프로세스를 적용함으로써 달성될 수 있다. 도 11은 영상 분할의 예시적인 방법(1100)을 보여준다. 하나 또는 그 이상의 트레이닝 영상 세트가 수신될 수 있다(1102). 트레이닝 영상은 분할 애플리케이션에서 예측된 것들(예컨대, 원격 회의에서 사람의 머리와 어깨)과 유사할 수 있는 영상, 분할 애플리케이션에서 초반 수초 동안의 비디오 등과 같은 임의의 적당한 트레이닝 영상일 수 있다. 하나 또는 그 이상의 트레이닝 영상으로부터의 복수의 화소는 트레이닝 영상의 하나 또는 그 이상의 화소를 전경 또는 배경으로 라벨링하는 것과 같이 함으로써 수동적으로 분할될 수 있다(1104). 트레이닝 영상의 화소와 연관된 분할 표시자는, 화소를 수동적으로 라벨링하는 것과 같이 임의의 적당한 방식으로, 또는 상기 인용된 보이코프 등의 문헌과 로더 등의 문헌에서 설명된 것과 같은 반수동(semi-manual) 프로세스로 결정될 수 있다. 트레이닝 영상의 화소에 대한 분할 표시자는 데이터 저장소에 저장될 수 있는 데이터 어레이에서와 같이 임의의 적당한 방식과 포맷으로 저장될 수 있다(1106).
모션 파라미터 값은, 화소 모션을 결정하기 위한 소정의 트레이닝 영상과 이에 이어지는 트레이닝 영상 간의 비교와 화소의 결정된 분할 표시자에 기초하여 결 정될 수 있다(1108). 모션 파라미터는, 가우시안 혼합 모델을 라벨링된 트레이닝 영상 내의 화소의 시간 및 공간 기울기의 전경 분포에 맞추거나, 다른 가우시안 혼합 모델을 라벨링된 트레이닝 영상 내의 화소의 시간 및 공간 기울기의 배경 분포에 맞추는 임의의 적당한 방식으로 결정될 수 있다. 모션 모델 파라미터는 데이터 저장소에와 같이 임의의 적당한 방식으로 저장될 수 있다(1110).
일련의 입력 영상 중에 첫 번째 영상이 수신될 수 있다(1112). 이 일련의 영상은 비디오 카메라 입력 장치로부터와 같이 임의의 적당한 방식으로 수신될 수 있다. 그러나, 임의의 수의 카메라가 이용될 수 있음을 알아야 한다. 영상은 예컨대 데이터 저장소로부터 저장된 영상을 검색함으로써 수신되거나, 통신 접속부로부터 수신되거나, 입력 장치로부터 수신될 수 있다. 영상은 여러 가지 형태로, 서로 다른 시각에, 및/또는 여러 가지 통신 방식을 통해 수신될 수 있음을 알아야 한다. 상기 첫 번째 입력 영상의 복수의 화소에는 도 2의 농도 인덱서(212)와 같은 것에 의해 지수화될 수 있다(1114). 상기 일련의 입력 영상의 두 번째 영상이 수신될 수 있다(1116). 상기 두 번째 입력 영상의 복수의 화소에는 도 2의 농도 인덱서(212)와 같은 것에 의해 지수화될 수 있다(1118).
콘트라스트 우도는 도 2의 콘트라스트 모델(234)에 기초한 분할 모듈(216)과 같은 것에 의해 결정될 수 있다(1120). 모션 영역은 제2 영상에서 결정될 수 있다(1122). 예컨대, 제2 영상의 지수화된 화소는 제1 영상의 지수화된 화소와 비교될 수 있다. 시간 이력에 기초한 모션 우도는 도 2의 모션 모델(230)에 기초한 분할 모듈(216)과 같은 것에 의해 결정될 수 있다(1124). 모션 우도와 선택적으로 콘트라스트 우도를 이용하여, 제2 입력 영상의 하나 또는 그 이상의 화소와 연관된 분할 표시자가 대략적으로 결정될 수 있다(1126). 특히, 분할 모듈은 모션 우도와 선택적으로 콘트라스트 우도를 이용하여, 제2 입력 영상의 하나 또는 그 이상의 화소에 대한 대략적인 분할 표시자 세트를 결정하는데 최적화될 수 있는 개략적인 에너지 식을 구성할 수 있다. 이 대략적인 분할 표시자는 저장될 수 있으며(1128), 제2 영상의 적당한 화소와 연관될 수 있다.
제2 입력 영상의 지수화된 화소와 이에 연관된 분할 표시자를 이용하여 컬러 모델을 트레이닝하여 컬러 파라미터를 결정할 수 있다. 예컨대, 컬러 초기화 모듈은 이 분할 표시자와 제2 영상의 화소 값을 이용하여, 가우시안 혼합 모델을 기대값 최대화를 이용하여 대략적으로 인식된 전경 화소에 맞추고, 다른 가우시안 혼합 모델을 기대값 최대화를 이용하여 대략적으로 인식된 배경 화소에 맞출 수 있다. 컬러 우도는 초기화된 컬러 파라미터에 기초하여 결정될 수 있다(1130).
다음(현재) 입력 영상이 임의의 적당한 방식으로 수신되어(1132) 지수화될 수 있다(1134). 콘트라스트 우도는 상기 다음(현재) 입력 영상에 대해 결정될 수 있다(1136). 상기 다음(현재) 영상에서 모션 영역이 결정될 수 있다(1138). 예컨대, 상기 다음(현재) 영상의 지수화된 화소는 바로 이전의 영상의 지수화된 화소와 비교될 수 있다. 시간적 이력에 기초한 상기 다음(현재) 영상의 모션 우도는 이전 프레임의 분할에 기초하여 결정될 수 있다(1140). 영상 계열에서 예컨개 5초 동안 모션이 없거나 거의 없는 특정 경우에는 모션 우도 값은 신뢰성을 잃을 수 있다. 따라서, 특정 경우에, 소정 기간 동안 모션이 검출되지 않으면 모션 우도의 가중치 가 조정될 수 있다. 상기 다음(현재) 영상의 모션 우도, 이전 영상의 컬러 우도, 및 선택적으로 상기 다음(현재) 영상의 콘트라스트 우도를 이용하면, 상기 다음(현재) 영상의 하나 또는 그 이상의 화소와 연관된 분할 표시자가 결정될 수 있다(1142). 특히, 분할 모듈은 모션 우도, 컬러 우도, 및 선택적으로 콘트라스트 우도를 이용하여, 상기 다음(현재) 영상의 하나 또는 그 이상의 화소에 대한 분할 표시자 세트를 결정하는데 최적화될 수 있는 에너지 식을 구성할 수 있다. 이 분할 표시자는 저장될 수 있으며(1144), 상기 다음(현재) 영상의 적당한 화소와 연관될 수 있다.
상기 다음(현재) 입력 영상의 지수화된 화소와 이에 연관된 분할 표시자를 이용하여 컬러 모델을 트레이닝하여 상기 다음(현재) 영상에 대한 컬러 우도를 결정할 수 있다(1146). 프로세스는 분할될 후속 입력 영상을 가진 다음 번 입력 영상을 수신하는 단계(1132)로 되돌아 갈 수 있다. 이 후속 입력 영상은, 현재 입력 영상의 모션 우도, 이전 입력 영상의 컬러 우도, 및 선택적으로 현재 입력 영상의 콘트라스트 우도를 이용하여 분할될 수 있다. 상술한 바와 같이, 컬러 우도는, 예컨대 시간에 따라 또는 초기화된 컬러 우도의 신뢰 변화에 따라서 값이 변하는 가중치 항을 이용하여 조정될 수 있다.
입력 영상과 그에 관련된 분할 표시자는 도 2의 영상 프로세서(220)와 같은 것에 의해 처리되어(1148) 그 입력 영상을 소정의 방식으로 변경할 수 있다. 예컨대, 전경 화소를 나타내는 분할 표시자를 이용하여, 입력 영상으로부터 전경 객체를 추출하고, 관련 전경 화소를 저장하거나 다른 화소보다 더 높은 충실도로 압축 하고, 동적 이모티콘을 배경 객체 앞에 두고, 식별된 전경 객체 주위에 스마트 프레임을 위치시킨 상태에서, 동적 이모티콘을 그 식별된 전경 객체 앞뒤에서 움직이게 할 수 있다.
지금까지 본 발명의 바람직한 실시예들을 설명하였지만, 본 발명은 본 발명의 본질과 범위로부터 벗어남이 없이 다양하게 변경될 수 있음을 잘 알 것이다. 예컨대, 상술한 실시예들은 단안 영상 데이터를 분할하는 것에 관하여 설명하였지만, 스테레오 영상 데이터도 마찬가지 방식으로 분할될 수 있음을 알아야 한다. 더욱이, 스테레오 정보를 가진 특정 경우에는, 모션, 컬러 및 선택적으로 콘트라스트 우도는 스테레오 정보로부터 결정된 디스패리티(disparity) 우도와 매칭(matching) 우도와 통합될 수 있다. 상술한 모션, 컬러 및 선택적으로 콘트라스트 우도의 통합은 실시간 애플리케이션과 비디오 스트림에서 실질적으로 위신호없는 충분히 영상 분할을 가능하게 한다. 영상 데이터에서 전경과 배경 영역을 분할하는 데는, 비디오 스트림의 이중층 분할을 위한 마르코프(Markov) 랜덤 필드 에너지 최소화 체계 내의 모션 및 컬러/콘트라스트 큐(cues)가 이용될 수 있다. 그 외에도, 특별한 속도 계산없이도 영상 시퀀스 내의 모션 이벤트가 검출될 수 있다. 모션, 컬러 및 선택적으로 콘트라스트를 조합하면 전경/배경을 실시간으로 정확하게 분리할 수 있다.

Claims (20)

  1. 실행시에, 방법을 수행하는 컴퓨터 판독가능 명령어를 포함하는 하나 이상의 컴퓨터 판독가능 저장 매체로서, 상기 방법은,
    제1 입력 영상의 제1 복수의 화소 각각에 대해 비모션(non-motion)에 대한 모션의 제1 우도(likelihood)를 결정하는 단계;
    상기 제1 복수의 화소 각각에 대해, 전경 화소(foreground pixel) 또는 배경 화소를 표시하는 제1 분할 표시자(segment indicator)를 결정하는 단계;
    상기 제1 분할 표시자에 기초하여 상기 제1 복수의 화소 각각에 대해 제1의 컬러 우도를 결정하는 단계;
    상기 제1 입력 영상에 후속하는 제2 입력 영상의 제2 복수의 화소 각각에 대해 비모션에 대한 모션의 제2 우도를 결정하는 단계;
    상기 비모션에 대한 모션의 제2 우도와 상기 제1의 컬러 우도에 기초하여 상기 제2 복수의 화소 각각에 대해, 전경 화소 또는 배경 화소를 표시하는 제2 분할 표시자를 결정하는 단계; 및
    상기 제2 분할 표시자를 데이터 저장소에 저장하는 단계
    를 포함하는, 하나 이상의 컴퓨터 판독가능 저장 매체.
  2. 제1항에 있어서, 상기 방법은 콘트라스트 모델에 기초하여 상기 제2 복수의 화소 각각에 대한 공간 평탄도(spatial smoothness)를 결정하는 단계를 더 포함하고, 상기 제2 분할 표시자 결정 단계는 상기 공간 평탄도에 기초하는, 하나 이상의 컴퓨터 판독가능 저장 매체.
  3. 제1항에 있어서, 상기 제2 분할 표시자 결정 단계는 상기 비모션에 대한 모션의 제2 우도와 상기 제1의 컬러 우도에 기초하여 에너지 함수를 최소화하는 단계를 포함하는, 하나 이상의 컴퓨터 판독가능 저장 매체.
  4. 제3항에 있어서, 상기 최소화 단계는 그래프 컷(graph cut)을 이용하는 단계를 포함하는, 하나 이상의 컴퓨터 판독가능 저장 매체.
  5. 제4항에 있어서, 상기 방법은 상기 제2 분할 표시자에 기초하여 상기 제2 입력 영상의 적어도 일부의 표시를 변경하는 단계를 더 포함하는, 하나 이상의 컴퓨터 판독가능 저장 매체.
  6. 제4항에 있어서, 상기 방법은 상기 제1 및 제2 입력 영상과는 상이한 분할된 트레이닝 영상 세트에 기초하여 상기 비모션에 대한 모션의 제1 우도 및 상기 비모션에 대한 모션의 제2 우도의 하나 이상의 모션 파라미터를 결정하는 단계를 더 포함하는, 하나 이상의 컴퓨터 판독가능 저장 매체.
  7. 동작을 수행하도록 구성된 처리 유닛(processing unit)을 포함하는 컴퓨팅 시스템으로서,
    상기 동작은,
    제1 데이터 저장소 내의 제1 영상의 제1 복수의 화소 각각에 대해 비모션에 대한 모션의 제1 우도를 결정하는 단계;
    상기 제1 복수의 화소 각각에 대해, 전경 화소 또는 배경 화소를 표시하는 제1 분할 표시자를 결정하는 단계;
    상기 제1 분할 표시자에 기초하여 상기 제1 복수의 화소 각각에 대해 제1의 컬러 우도를 결정하는 단계;
    제2 영상에 포함된 제2 복수의 화소 각각에 대해 비모션에 대한 모션의 제2 우도를 결정하는 단계;
    상기 비모션에 대한 모션의 제2 우도와 상기 제1의 컬러 우도에 기초하여 상기 제2 복수의 화소 각각에 대해, 전경 화소 또는 배경 화소를 표시하는 제2 분할 표시자를 결정하는 단계; 및
    상기 제2 분할 표시자를 제2 데이터 저장소에 저장하는 단계
    를 포함하는, 컴퓨팅 시스템.
  8. 제7항에 있어서, 상기 동작은 콘트라스트 모델에 기초하여 상기 제2 복수의 화소 각각에 대한 공간 평탄도를 결정하는 단계를 더 포함하고, 상기 제2 분할 표시자 결정 단계는 상기 공간 평탄도에 기초하는, 컴퓨팅 시스템.
  9. 제7항에 있어서, 상기 제2 분할 표시자 결정 단계는 상기 비모션에 대한 모션의 제2 우도와 상기 제1의 컬러 우도에 기초하여 에너지 함수를 최소화하는 단계를 포함하는, 컴퓨팅 시스템.
  10. 제9항에 있어서, 상기 최소화 단계는 그래프 컷을 이용하는 단계를 포함하는, 컴퓨팅 시스템.
  11. 제10항에 있어서, 상기 동작은 상기 제2 분할 표시자에 기초하여 상기 제2 입력 영상의 적어도 일부의 표시를 변경하는 단계를 더 포함하는, 컴퓨팅 시스템.
  12. 제10항에 있어서, 상기 동작은 상기 제1 및 제2 입력 영상과는 상이한 분할된 트레이닝 영상 세트에 기초하여 상기 비모션에 대한 모션의 제1 우도 및 상기 비모션에 대한 모션의 제2 우도의 하나 이상의 모션 파라미터를 결정하는 단계를 더 포함하는, 컴퓨팅 시스템.
  13. 제1 복수의 화소 각각에 대해 비모션에 대한 모션의 제1 우도를 처리 유닛을 사용하여 결정하는 단계 - 제1 영상은 상기 제1 복수의 화소를 포함하고, 제1 데이터 저장소는 상기 제1 영상을 포함함 - ;
    상기 제1 복수의 화소 각각에 대해, 전경 화소 또는 배경 화소를 표시하는 제1 분할 표시자를 결정하는 단계;
    상기 제1 분할 표시자에 기초하여 상기 제1 복수의 화소 각각에 대해 제1의 컬러 우도를 결정하는 단계;
    제2 영상에 포함된 제2 복수의 화소 각각에 대해 비모션에 대한 모션의 제2 우도를 결정하는 단계;
    상기 비모션에 대한 모션의 제2 우도와 상기 제1의 컬러 우도에 기초하여 상기 제2 복수의 화소 각각에 대해, 전경 화소 또는 배경 화소를 표시하는 제2 분할 표시자를 결정하는 단계; 및
    상기 제2 분할 표시자를 제2 데이터 저장소에 저장하는 단계
    를 포함하는, 방법.
  14. 제13항에 있어서, 콘트라스트 모델에 기초하여 상기 제2 복수의 화소 각각에 대한 공간 평탄도를 결정하는 단계를 더 포함하고, 상기 제2 분할 표시자 결정 단계는 상기 공간 평탄도에 기초하는, 방법.
  15. 제13항에 있어서, 상기 제2 분할 표시자 결정 단계는 상기 비모션에 대한 모션의 제2 우도와 상기 제1의 컬러 우도에 기초하여 에너지 함수를 최소화하는 단계를 포함하는, 방법.
  16. 제15항에 있어서, 상기 최소화 단계는 그래프 컷을 이용하는 단계를 포함하는, 방법.
  17. 제16항에 있어서, 상기 제2 분할 표시자에 기초하여 상기 제2 입력 영상의 적어도 일부의 표시를 변경하는 단계를 더 포함하는, 방법.
  18. 제16항에 있어서, 상기 제1 및 제2 입력 영상과는 상이한 분할된 트레이닝 영상 세트에 기초하여 상기 비모션에 대한 모션의 제1 우도 및 상기 비모션에 대한 모션의 제2 우도의 하나 이상의 모션 파라미터를 결정하는 단계를 더 포함하는, 방법.
  19. 제13항에 있어서, 상기 제1 데이터 저장소는 상기 제2 데이터 저장소와 동일한 것인, 방법.
  20. 삭제
KR1020077025761A 2005-06-17 2006-06-19 영상 분할 KR101242259B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US69186505P 2005-06-17 2005-06-17
US60/691,865 2005-06-17
US11/252,017 US7676081B2 (en) 2005-06-17 2005-10-17 Image segmentation of foreground from background layers
US11/252,017 2005-10-17
PCT/US2006/023858 WO2006138730A2 (en) 2005-06-17 2006-06-19 Image segmentation

Publications (2)

Publication Number Publication Date
KR20080015078A KR20080015078A (ko) 2008-02-18
KR101242259B1 true KR101242259B1 (ko) 2013-03-12

Family

ID=37571298

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077025761A KR101242259B1 (ko) 2005-06-17 2006-06-19 영상 분할

Country Status (6)

Country Link
US (2) US7676081B2 (ko)
EP (1) EP1891579B1 (ko)
JP (1) JP4898800B2 (ko)
KR (1) KR101242259B1 (ko)
CN (1) CN101558404B (ko)
WO (1) WO2006138730A2 (ko)

Families Citing this family (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657060B2 (en) * 2004-03-31 2010-02-02 Microsoft Corporation Stylization of video
US7676081B2 (en) * 2005-06-17 2010-03-09 Microsoft Corporation Image segmentation of foreground from background layers
US7697752B2 (en) * 2005-12-20 2010-04-13 General Instrument Corporation Method and apparatus for performing object detection
US7885463B2 (en) * 2006-03-30 2011-02-08 Microsoft Corp. Image segmentation using spatial-color Gaussian mixture models
US7940971B2 (en) * 2006-07-24 2011-05-10 Siemens Medical Solutions Usa, Inc. System and method for coronary digital subtraction angiography
US8103068B2 (en) * 2006-09-29 2012-01-24 Cornell Research Foundation, Inc. Methods and systems for reconstruction of objects
US7751626B2 (en) * 2006-12-05 2010-07-06 Fujifilm Corporation Method and apparatus for detection using gradient-weighted and/or distance-weighted graph cuts
US8300890B1 (en) * 2007-01-29 2012-10-30 Intellivision Technologies Corporation Person/object image and screening
US8363267B2 (en) * 2007-06-01 2013-01-29 Samsung Electronics Co., Ltd. Image forming apparatus and color converting method thereof
US8041114B2 (en) * 2007-06-15 2011-10-18 Microsoft Corporation Optimizing pixel labels for computer vision applications
US8200015B2 (en) * 2007-06-22 2012-06-12 Siemens Aktiengesellschaft Method for interactively segmenting structures in image data records and image processing unit for carrying out the method
DE102007028895B4 (de) * 2007-06-22 2010-07-15 Siemens Ag Verfahren zur Segmentierung von Strukturen in 3D-Bilddatensätzen
US8094903B2 (en) * 2007-06-28 2012-01-10 Siemens Aktiengesellschaft System and method for coronary digital subtraction angiography
WO2009032922A1 (en) 2007-09-04 2009-03-12 Objectvideo, Inc. Stationary target detection by exploiting changes in background model
KR101023207B1 (ko) * 2007-09-05 2011-03-18 한국전자통신연구원 영상 객체 추출 장치 및 그 방법
US7925089B2 (en) * 2007-09-18 2011-04-12 Microsoft Corporation Optimization of multi-label problems in computer vision
US8086006B2 (en) * 2007-09-21 2011-12-27 Siemens Aktiengesellschaft Method and system for evaluating image segmentation based on visibility
US8121367B2 (en) * 2007-09-21 2012-02-21 Siemens Aktiengesellschaft Method and system for vessel segmentation in fluoroscopic images
WO2009078957A1 (en) 2007-12-14 2009-06-25 Flashfoto, Inc. Systems and methods for rule-based segmentation for objects with full or partial frontal view in color images
KR101401184B1 (ko) * 2008-02-01 2014-05-30 고려대학교 산학협력단 동영상의 객체 경계 추정 방법
US20090252429A1 (en) * 2008-04-03 2009-10-08 Dan Prochazka System and method for displaying results of an image processing system that has multiple results to allow selection for subsequent image processing
US8073243B2 (en) * 2008-05-30 2011-12-06 General Instrument Corporation Replacing image information in a captured image
JP5157721B2 (ja) * 2008-07-29 2013-03-06 ソニー株式会社 画像データの分布モデル更新装置、画像処理装置、画像データの分布モデル更新方法およびプログラム
US8345944B2 (en) * 2008-08-06 2013-01-01 Siemens Aktiengesellschaft System and method for coronary digital subtraction angiography
US8254678B2 (en) 2008-08-27 2012-08-28 Hankuk University Of Foreign Studies Research And Industry-University Cooperation Foundation Image segmentation
JP5157768B2 (ja) * 2008-09-08 2013-03-06 ソニー株式会社 画像処理装置および方法、並びにプログラム
JP5045619B2 (ja) * 2008-09-08 2012-10-10 ソニー株式会社 画像処理装置および方法、並びにプログラム
US8249349B2 (en) * 2008-11-25 2012-08-21 Microsoft Corporation Labeling image elements
TWI391876B (zh) * 2009-02-16 2013-04-01 Inst Information Industry 利用多重模組混合圖形切割之前景偵測方法、系統以及電腦程式產品
JP2010205067A (ja) * 2009-03-04 2010-09-16 Fujifilm Corp 領域抽出装置、領域抽出方法及び領域抽出プログラム
US8280164B2 (en) * 2009-03-04 2012-10-02 Eastman Kodak Company Producing object cutouts in topically related images
JP2010212947A (ja) * 2009-03-10 2010-09-24 Sony Corp 情報処理装置および方法、情報処理システム、並びにプログラム
US8164617B2 (en) 2009-03-25 2012-04-24 Cisco Technology, Inc. Combining views of a plurality of cameras for a video conferencing endpoint with a display wall
US8885926B2 (en) * 2009-04-15 2014-11-11 Massachusetts Institute Of Technology Image and data segmentation
US9524550B2 (en) 2009-05-05 2016-12-20 Siemens Healthcare Gmbh System and method for coronary digital subtraction angiography
JP5299173B2 (ja) * 2009-08-26 2013-09-25 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
US8670615B2 (en) * 2009-09-30 2014-03-11 Flashfoto, Inc. Refinement of segmentation markup
US8452087B2 (en) 2009-09-30 2013-05-28 Microsoft Corporation Image selection techniques
US8537200B2 (en) * 2009-10-23 2013-09-17 Qualcomm Incorporated Depth map generation techniques for conversion of 2D video data to 3D video data
US8520975B2 (en) 2009-10-30 2013-08-27 Adobe Systems Incorporated Methods and apparatus for chatter reduction in video object segmentation using optical flow assisted gaussholding
TW201121335A (en) * 2009-12-02 2011-06-16 Sunplus Core Technology Co Ltd Method and apparatus for adaptively determining compression modes to compress frames
US8306333B2 (en) * 2009-12-17 2012-11-06 National Tsing Hua University Method and system for automatic figure segmentation
AU2009251086B2 (en) * 2009-12-22 2013-12-05 Canon Kabushiki Kaisha Method of foreground/background separation
JP5445127B2 (ja) * 2009-12-28 2014-03-19 カシオ計算機株式会社 画像処理装置及び方法、並びにプログラム
JP5278307B2 (ja) * 2009-12-28 2013-09-04 カシオ計算機株式会社 画像処理装置及び方法、並びにプログラム
US8655069B2 (en) * 2010-03-05 2014-02-18 Microsoft Corporation Updating image segmentation following user input
US9628722B2 (en) 2010-03-30 2017-04-18 Personify, Inc. Systems and methods for embedding a foreground video into a background feed based on a control input
US9311567B2 (en) 2010-05-10 2016-04-12 Kuang-chih Lee Manifold learning and matting
US8625897B2 (en) 2010-05-28 2014-01-07 Microsoft Corporation Foreground and background image segmentation
KR101324792B1 (ko) * 2010-05-31 2013-10-31 태성전장주식회사 지능형 운송 시스템을 위한 칼라 영역의 분할 시스템
WO2012012555A1 (en) * 2010-07-20 2012-01-26 SET Corporation Methods and systems for audience digital monitoring
JP5716170B2 (ja) * 2010-07-26 2015-05-13 石川 博 情報処理方法および情報処理装置
US8649592B2 (en) 2010-08-30 2014-02-11 University Of Illinois At Urbana-Champaign System for background subtraction with 3D camera
US9294717B2 (en) * 2010-10-13 2016-03-22 At&T Intellectual Property I, L.P. System and method to enable layered video messaging
US8666191B2 (en) * 2011-03-02 2014-03-04 Canon Kabushiki Kaisha Systems and methods for image capturing
ES2692520T3 (es) * 2011-03-04 2018-12-04 Lbt Innovations Limited Método para mejorar los resultados de clasificación de un clasificador
US8705860B2 (en) 2011-03-14 2014-04-22 Microsoft Corporation Grouping variables for fast image labeling
US9501837B2 (en) * 2014-10-01 2016-11-22 Lyrical Labs Video Compression Technology, LLC Method and system for unsupervised image segmentation using a trained quality metric
US9087395B1 (en) * 2011-04-28 2015-07-21 A9.Com, Inc. Techniques for providing content animation
GB2490872B (en) * 2011-05-09 2015-07-29 Toshiba Res Europ Ltd Methods and systems for capturing 3d surface geometry
US8977629B2 (en) * 2011-05-24 2015-03-10 Ebay Inc. Image-based popularity prediction
US8811726B2 (en) * 2011-06-02 2014-08-19 Kriegman-Belhumeur Vision Technologies, Llc Method and system for localizing parts of an object in an image for computer vision applications
US8565520B2 (en) 2011-06-10 2013-10-22 Microsoft Corporation Determining foreground regions and background regions in an image
US9153031B2 (en) * 2011-06-22 2015-10-06 Microsoft Technology Licensing, Llc Modifying video regions using mobile device input
CA2883484A1 (en) 2011-09-08 2013-03-14 Paofit Holdings Pte Ltd System and method for visualizing synthetic objects withinreal-world video clip
US8731315B2 (en) 2011-09-12 2014-05-20 Canon Kabushiki Kaisha Image compression and decompression for image matting
US8706473B2 (en) * 2011-09-13 2014-04-22 Cisco Technology, Inc. System and method for insertion and removal of video objects
US8995755B2 (en) 2011-09-30 2015-03-31 Cyberlink Corp. Two-dimensional to stereoscopic conversion systems and methods
CN102572205B (zh) * 2011-12-27 2014-04-30 方正国际软件有限公司 一种图像处理方法、装置及系统
JP5865078B2 (ja) 2011-12-28 2016-02-17 キヤノン株式会社 画像処理装置および画像処理方法
US20130308856A1 (en) * 2012-01-12 2013-11-21 Google Inc. Background Detection As An Optimization For Gesture Recognition
US9042648B2 (en) 2012-02-23 2015-05-26 Microsoft Technology Licensing, Llc Salient object segmentation
US8705870B2 (en) 2012-03-02 2014-04-22 Microsoft Corporation Image searching by approximate κ-NN graph
US9025876B2 (en) 2012-03-05 2015-05-05 Thomson Licensing Method and apparatus for multi-label segmentation
US20130301918A1 (en) * 2012-05-08 2013-11-14 Videostir Ltd. System, platform, application and method for automated video foreground and/or background replacement
TWI478078B (zh) * 2012-05-31 2015-03-21 Senao Networks Inc A motion detection device and a motion detection method
EP2669865A1 (en) * 2012-05-31 2013-12-04 Thomson Licensing Segmentation of a foreground object in a 3D scene
KR101978176B1 (ko) * 2012-07-12 2019-08-29 삼성전자주식회사 영상 처리 장치 및 방법
CN102982544B (zh) * 2012-11-21 2015-09-30 清华大学 多前景目标图像交互式分割方法
CN103092616A (zh) * 2013-01-14 2013-05-08 深圳市金立通信设备有限公司 一种应用程序背景的显示方法及移动终端
CN103116754B (zh) * 2013-01-24 2016-05-18 浙江大学 基于识别模型的批量图像分割方法及系统
US9710493B2 (en) 2013-03-08 2017-07-18 Microsoft Technology Licensing, Llc Approximate K-means via cluster closures
WO2014159726A1 (en) * 2013-03-13 2014-10-02 Mecommerce, Inc. Determining dimension of target object in an image using reference object
US9191643B2 (en) * 2013-04-15 2015-11-17 Microsoft Technology Licensing, Llc Mixing infrared and color component data point clouds
US9336460B2 (en) * 2013-05-31 2016-05-10 Intel Corporation Adaptive motion instability detection in video
US9247129B1 (en) * 2013-08-30 2016-01-26 A9.Com, Inc. Self-portrait enhancement techniques
US20150089446A1 (en) * 2013-09-24 2015-03-26 Google Inc. Providing control points in images
US9245205B1 (en) * 2013-10-16 2016-01-26 Xerox Corporation Supervised mid-level features for word image representation
CN103530882B (zh) * 2013-10-17 2017-02-08 南京大学 一种改进的基于图和色彩纹理特征的图像分割方法
US9485433B2 (en) 2013-12-31 2016-11-01 Personify, Inc. Systems and methods for iterative adjustment of video-capture settings based on identified persona
US9414016B2 (en) 2013-12-31 2016-08-09 Personify, Inc. System and methods for persona identification using combined probability maps
US9158985B2 (en) * 2014-03-03 2015-10-13 Xerox Corporation Method and apparatus for processing image of scene of interest
JP5946153B2 (ja) * 2014-03-12 2016-07-05 富士フイルム株式会社 画像処理装置、その作動方法およびプログラム
US9311716B2 (en) 2014-05-14 2016-04-12 International Business Machines Corporation Static image segmentation
JP6482934B2 (ja) 2014-06-03 2019-03-13 キヤノンメディカルシステムズ株式会社 画像処理装置、放射線検出装置および画像処理方法
CN104091344B (zh) * 2014-07-22 2017-04-19 中国科学院自动化研究所 一种道路分割方法
CN105608459B (zh) 2014-10-29 2018-09-14 阿里巴巴集团控股有限公司 商品图片的分割方法及其装置
CN104616011B (zh) * 2015-02-13 2017-02-22 中国人民解放军国防科学技术大学 基于梯度信息和块状区域组合先验的mrf车牌去噪算法
US9916668B2 (en) 2015-05-19 2018-03-13 Personify, Inc. Methods and systems for identifying background in video data using geometric primitives
US9563962B2 (en) * 2015-05-19 2017-02-07 Personify, Inc. Methods and systems for assigning pixels distance-cost values using a flood fill technique
US9704298B2 (en) * 2015-06-23 2017-07-11 Paofit Holdings Pte Ltd. Systems and methods for generating 360 degree mixed reality environments
JP2018532216A (ja) * 2015-09-07 2018-11-01 ソニー インタラクティブ エンタテインメント アメリカ リミテッド ライアビリテイ カンパニー 画像正則化及びリターゲティングシステム
CN105184820B (zh) * 2015-09-15 2018-03-13 杭州中威电子股份有限公司 一种融合图形梯度和灰度的背景建模和运动目标检测方法及装置
US10175867B2 (en) * 2016-02-03 2019-01-08 Adobe Inc. User input-based object selection using multiple visual cues
AU2017233723B2 (en) * 2016-03-17 2021-07-01 Motorola Solutions, Inc. System and method for training object classifier by machine learning
US9760978B1 (en) * 2016-05-09 2017-09-12 Adobe Systems Incorporated Missing region prediction
JP6632474B2 (ja) * 2016-06-06 2020-01-22 三菱電機株式会社 監視装置、監視方法及び空港監視システム
US9883155B2 (en) 2016-06-14 2018-01-30 Personify, Inc. Methods and systems for combining foreground video and background video using chromatic matching
US9911201B2 (en) 2016-06-23 2018-03-06 Adobe Systems Incorporated Imaging process initialization techniques
US10475186B2 (en) * 2016-06-23 2019-11-12 Intel Corportation Segmentation of objects in videos using color and depth information
CN106125683A (zh) * 2016-07-21 2016-11-16 广西柏豪家具有限公司 具有远程控制的家居智能控制系统
CN106094761A (zh) * 2016-07-21 2016-11-09 广西柏豪家具有限公司 家居智能控制系统
US10015504B2 (en) * 2016-07-27 2018-07-03 Qualcomm Incorporated Compressing image segmentation data using video coding
DE102016119639A1 (de) * 2016-10-14 2018-04-19 Uniqfeed Ag System zur dynamischen Kontrastmaximierung zwischen Vordergrund und Hintergrund in Bildern oder/und Bildsequenzen
KR102579994B1 (ko) * 2016-10-24 2023-09-18 삼성에스디에스 주식회사 다중 배경 모델을 이용한 전경 생성 방법 및 그 장치
US9881207B1 (en) 2016-10-25 2018-01-30 Personify, Inc. Methods and systems for real-time user extraction using deep learning networks
US10395138B2 (en) 2016-11-11 2019-08-27 Microsoft Technology Licensing, Llc Image segmentation using user input speed
CN115409940A (zh) * 2016-11-30 2022-11-29 松下电器(美国)知识产权公司 终端、接收方法、分发装置及分发方法
US10325372B2 (en) * 2016-12-20 2019-06-18 Amazon Technologies, Inc. Intelligent auto-cropping of images
US10755419B2 (en) * 2017-01-30 2020-08-25 Nec Corporation Moving object detection apparatus, moving object detection method and program
WO2018169571A1 (en) * 2017-03-15 2018-09-20 Google Llc Segmentation-based parameterized motion models
CN107240073B (zh) * 2017-05-12 2020-04-24 杭州电子科技大学 一种基于梯度融合与聚类的三维视频图像修复方法
CN108846875A (zh) * 2018-04-26 2018-11-20 广州视源电子科技股份有限公司 形状数据处理方法和装置
US11467646B2 (en) * 2019-03-28 2022-10-11 Lenovo (Singapore) Pte. Ltd. Context data sharing
CN110675420B (zh) * 2019-08-22 2023-03-24 华为技术有限公司 一种图像处理方法和电子设备
CN111260679B (zh) * 2020-01-07 2022-02-01 广州虎牙科技有限公司 图像处理方法、图像分割模型训练方法及相关装置
US11593947B2 (en) * 2020-03-10 2023-02-28 Cisco Technology, Inc. Automatic adjusting background
US11218669B1 (en) * 2020-06-12 2022-01-04 William J. Benman System and method for extracting and transplanting live video avatar images
US11394549B1 (en) 2021-01-25 2022-07-19 8 Bit Development Inc. System and method for generating a pepper's ghost artifice in a virtual three-dimensional environment
US11800056B2 (en) 2021-02-11 2023-10-24 Logitech Europe S.A. Smart webcam system
US11800048B2 (en) 2021-02-24 2023-10-24 Logitech Europe S.A. Image generating system with background replacement or modification capabilities
US20230126024A1 (en) * 2021-10-26 2023-04-27 Dell Products L.P. Information handling system camera with direct access settings and automated presentation positioning
CN113822879B (zh) * 2021-11-18 2022-06-21 南京智谱科技有限公司 一种图像分割的方法及装置
CN114037633B (zh) * 2021-11-18 2022-07-15 南京智谱科技有限公司 一种红外图像处理的方法及装置
CN114241047B (zh) * 2021-12-02 2023-04-07 广西大学 一种用于园林绿篱修剪的双目视觉识别和定位方法
US20220109838A1 (en) * 2021-12-17 2022-04-07 Intel Corporation Methods and apparatus to process video frame pixel data using artificial intelligence video frame segmentation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030058237A1 (en) 2001-09-27 2003-03-27 Koninklijke Philips Electronics N.V. Multi-layered background models for improved background-foreground segmentation
US20030198382A1 (en) 2002-04-23 2003-10-23 Jiann-Jone Chen Apparatus and method for removing background on visual

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0342610A (ja) * 1989-07-10 1991-02-22 Olympus Optical Co Ltd カメラのパターン認識装置
US5436672A (en) * 1994-05-27 1995-07-25 Symah Vision Video processing system for modifying a zone in successive images
US5790692A (en) * 1994-09-07 1998-08-04 Jeffrey H. Price Method and means of least squares designed filters for image segmentation in scanning cytometry
EP0728394B1 (en) * 1994-09-12 2000-03-15 Koninklijke Philips Electronics N.V. System and method for enhancing the sharpness of a colour image
US6078688A (en) * 1996-08-23 2000-06-20 Nec Research Institute, Inc. Method for image segmentation by minimizing the ratio between the exterior boundary cost and the cost of the enclosed region
JP3552456B2 (ja) * 1997-05-01 2004-08-11 セイコーエプソン株式会社 動物体追跡方法
US6011595A (en) * 1997-09-19 2000-01-04 Eastman Kodak Company Method for segmenting a digital image into a foreground region and a key color region
CA2343751A1 (en) * 1998-07-27 2000-02-10 Webtv Networks, Inc. Remote computer access
JP2001036801A (ja) * 1999-07-23 2001-02-09 Sharp Corp 撮像装置
US6670963B2 (en) * 2001-01-17 2003-12-30 Tektronix, Inc. Visual attention model
US7085401B2 (en) * 2001-10-31 2006-08-01 Infowrap Systems Ltd. Automatic object extraction
CN1201223C (zh) * 2002-05-13 2005-05-11 义隆电子股份有限公司 一种用于光学指向装置决定移动距离及移动方向的方法
US7190809B2 (en) * 2002-06-28 2007-03-13 Koninklijke Philips Electronics N.V. Enhanced background model employing object classification for improved background-foreground segmentation
AU2003280516A1 (en) * 2002-07-01 2004-01-19 The Regents Of The University Of California Digital processing of video images
US7224735B2 (en) * 2003-05-21 2007-05-29 Mitsubishi Electronic Research Laboratories, Inc. Adaptive background image updating
US7408986B2 (en) * 2003-06-13 2008-08-05 Microsoft Corporation Increasing motion smoothness using frame interpolation with motion analysis
US7660463B2 (en) * 2004-06-03 2010-02-09 Microsoft Corporation Foreground extraction using iterated graph cuts
US7512262B2 (en) * 2005-02-25 2009-03-31 Microsoft Corporation Stereo-based image processing
US7676081B2 (en) * 2005-06-17 2010-03-09 Microsoft Corporation Image segmentation of foreground from background layers
US7720282B2 (en) * 2005-08-02 2010-05-18 Microsoft Corporation Stereo image segmentation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030058237A1 (en) 2001-09-27 2003-03-27 Koninklijke Philips Electronics N.V. Multi-layered background models for improved background-foreground segmentation
US20030198382A1 (en) 2002-04-23 2003-10-23 Jiann-Jone Chen Apparatus and method for removing background on visual

Also Published As

Publication number Publication date
CN101558404A (zh) 2009-10-14
JP4898800B2 (ja) 2012-03-21
US7676081B2 (en) 2010-03-09
CN101558404B (zh) 2013-01-23
EP1891579A4 (en) 2011-01-05
EP1891579B1 (en) 2013-05-08
WO2006138730A2 (en) 2006-12-28
JP2008547097A (ja) 2008-12-25
KR20080015078A (ko) 2008-02-18
WO2006138730A3 (en) 2009-05-07
US20100119147A1 (en) 2010-05-13
EP1891579A2 (en) 2008-02-27
US8103093B2 (en) 2012-01-24
US20060285747A1 (en) 2006-12-21

Similar Documents

Publication Publication Date Title
KR101242259B1 (ko) 영상 분할
US7991228B2 (en) Stereo image segmentation
US8692830B2 (en) Automatic avatar creation
Crabb et al. Real-time foreground segmentation via range and color imaging
US10552962B2 (en) Fast motion based and color assisted segmentation of video into region layers
US9153031B2 (en) Modifying video regions using mobile device input
Butler et al. Real-time adaptive foreground/background segmentation
CN114072850A (zh) 使用深度来减去视频背景
US10269121B2 (en) Fast color based and motion assisted segmentation of video into region-layers
KR101401184B1 (ko) 동영상의 객체 경계 추정 방법
CN103262119A (zh) 用于对图像进行分割的方法和系统
CN111767920A (zh) 感兴趣区域的提取方法、装置、电子设备及存储介质
Tangsakul et al. Single image haze removal using deep cellular automata learning
Gonzalez-Sosa et al. Enhanced self-perception in mixed reality: Egocentric arm segmentation and database with automatic labeling
Bhattacharya et al. Visual saliency detection using spatiotemporal decomposition
Henry et al. Automatic trimap generation and artifact reduction in alpha matte using unknown region detection
CN112308875A (zh) 基于背景似然性估计的无监督图像分割
US11714881B2 (en) Image processing for stream of input images with enforced identity penalty
Kaur Background subtraction in video surveillance
Ahn et al. Real-time segmentation of objects from video sequences with non-stationary backgrounds using spatio-temporal coherence
USRE49044E1 (en) Automatic avatar creation
Qureshi et al. A Computational visual saliency Model for Perceptual video coding
CN116863470A (zh) 图像处理模型的训练方法、图像处理方法以及电子设备
Chu et al. Chroma keying based on stereo images
CN116959125A (zh) 一种数据处理方法以及相关装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160218

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170220

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180219

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20200218

Year of fee payment: 8