KR20080031408A - 비디오 시간 업-컨버전을 갖는 프로세싱 방법 및 디바이스 - Google Patents

비디오 시간 업-컨버전을 갖는 프로세싱 방법 및 디바이스 Download PDF

Info

Publication number
KR20080031408A
KR20080031408A KR1020087003479A KR20087003479A KR20080031408A KR 20080031408 A KR20080031408 A KR 20080031408A KR 1020087003479 A KR1020087003479 A KR 1020087003479A KR 20087003479 A KR20087003479 A KR 20087003479A KR 20080031408 A KR20080031408 A KR 20080031408A
Authority
KR
South Korea
Prior art keywords
region
interest
video
picture
image
Prior art date
Application number
KR1020087003479A
Other languages
English (en)
Inventor
함 벨트
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20080031408A publication Critical patent/KR20080031408A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Abstract

본 발명은 비디오 어플리케이션에서 디지털 화상의 시각적 개선을 위한 향상된 방법 및 디바이스를 제공한다. 특히, 본 발명은, 얼굴 혹은 인물을 찾기 위해 복수-방식 장면 분석과, 그에 후속하는 시각적 장면에서 하나 이상의 참석자들의 시각적 강조, 또는 참석자들의 그룹 사이에 화자의 가시적 강조로, 비디오 컨퍼런스 콜 동안에 향상된 인식 품질과 상황 인지를 성취하도록 하는 것과 관련이 있다. 상기 분석은, 적어도 하나의 관심 영역(ROI)과 비관심 영역(RONI)을 정의하도록 허용하는 분할 모듈(22)을 통해 수행된다.
Figure P1020087003479
관심/비관심 영역, 시간 프레임 업/다운-컨버젼 프로세싱, 화상 품질 개선, 오디오 스피치 활동 검출, 입술 활동 검출, 모션 보상된 보간, 모션 벡터 천이, 블러링 필터, 모션 추정

Description

비디오 시간 업-컨버전을 갖는 프로세싱 방법 및 디바이스{Processing method and device with video temporal up-conversion}
본 발명은 시각적 통신 시스템들에 관한 것이고, 더 구체적으로, 본 발명은 향상된 시각적 화상들의 품질을 위한 비디오 전화 시스템들에서 시간 업-컨버전(temporal up-conversion)을 제공하는 방법 및 디바이스에 관한 것이다.
일반적으로, 비디오 품질은 비디오 전화 어플리케이션들의 일반적 수용을 위한 핵심 특성이다. 비디오 전화 시스템들이 사용자의 상황 인지도를 향상시켜서 비디오 콜의 인식 품질을 향상시키기 위해 종단 사용자들에게 될 수 있는 한 정확하게 다른 측의 상황을 전달하는 것은 매우 중요하다.
비디오 컨퍼런스 시스템들이 수년 전에 처음 도입된 이후 큰 관심을 받고 있지만, 이들이 크게 널리 사용되지는 않고 있고 이들 시스템들의 넓은 약진은 아직 일어나지 않았다. 이것은 일반적으로, 저 해상도, 블록킹되는 화상들, 및 긴 지연시간과 같은 수용이 불가능할 정도의 저질의 비디오 및 오디오 전송으로 유도하는 불충분한 통신 대역폭의 가용성으로 인한 것이었다.
그러나, 충분한 통신 대역폭을 제공할 수 있는 최신 기술 개혁들은 증가하는 수의 종단 사용자들에게 더욱 널리 이용가능해지고 있다. 또한, 통합된 디스플레 이, 카메라, 마이크로폰, 스피커를 갖춘 PC, 모바일 디바이스 등과 같은 강력한 컴퓨팅 시스템들의 가용성이 빠르게 증가하고 있다. 이들 전술된 이유들로, 비디오 컨퍼런스 해결책들의 오디오 및 비디오 품질이 이 수요가 있는 시장에서 가장 중요한 구별 요인들 중 하나가 되고 있으므로, 고객 비디오 컨퍼런스 시스템들의 사용 및 어플리케이션에서 약진 및 더 높은 품질이 기대될 것이다.
일반적으로 말하면, 비디오 컨퍼런스 화상들을 향상시키기 위해 다수의 종래 알고리즘들과 기술들이 제안되어 구현되어왔다. 예를 들어, 다양하고 효율적인 비디오 인코딩 기술들은 비디오 인코딩 효율을 향상시키기 위해 적용되어왔다. 특히, 그런 제안들(예를 들어, S. Daly 등의 "얼굴-기반 시각-최적화된 화상 시퀀스 코딩(Face-Based Visually-Optimized Image Sequence Coding)", 0-8186-8821-1/98, 443-447 페이지, IEEE)은 관심 지역(region of interest;ROI)과 무관심 지역(region of no interest;RONI)의 선택에 기초하여 비디오 인코딩 효율을 향상시키는 것을 목적으로 한다. 더 구체적으로, 제안된 인코딩은, 대부분의 비트들이 ROI에 할당되고 소수의 비트들이 RONI에 할당되는 방식으로 수행된다. 결과적으로, 전체 비트-레이트(bit-rate)는 일정한 채로 있지만, 디코딩된 후, ROI 화상의 품질은 RONI의 화상 품질보다 더 높다. Bober 등의 US 2004/0070666 A1와 같은 다른 제안들은 기본적으로, 비디오 인코딩 전에 스마트 줌잉(smart zooming) 기술들이 적용되어 카메라 시계(field of view) 내의 인물이 디지털 수단으로 줌잉되어 비관련 배경 화상 부분들이 전송되지 않도록 하는 것을 제안한다. 환언하면, 이 방법은 단지 각 캡쳐된(captured) 화상의 선택된 관심 영역들만을 코딩하여 화상을 전송한다.
그러나, 상술된 종래 기술들은 다수의 요인들로 인해 종종 만족스럽지 못한다. 비디오 통신 시스템들의 전송에서 화상 품질의 악 효과들에 반하기 위해 캡쳐된 화상들에 아무런 프로세싱 혹은 분석이 수행되지 않는다. 또한, 향상된 코딩 스킴들이, 수용가능한 결과들을 제공할지라도, 모든 코딩 스킴들에 대해 보드에서 독립적으로 적용될 수는 없고, 그런 기술들은 특정 비디오 인코딩과 디코딩 기술들이 먼저 구현되어야 하는 것을 요구한다. 또한, 이들 기술들 중 어느 것도 비디오 텔레컨퍼런싱 콜의 낮은 상황 인지도 및 인식된 저 품질의 문제들을 적절히 해결하지 않았다.
따라서, 본 발명의 목적은, 위에 언급된 문제점들을 해결하고, 비용 절감되고 구현이 단순할 수 있는 화상 품질 개선을 효율적으로 다루는 새롭고 향상된 방법 및 디바이스를 제공하는 것이다.
이를 위해, 본 발명은, 비디오 어플리케이션의 화상에서 적어도 한 인물을 검출하는 단계, 화상에서 검출된 인물과 연관된 모션(motion)을 추정하는 단계, 화상을 적어도 하나의 관심 영역과 적어도 하나의 비관심 영역으로 분할하는 단계로서, 관심 영역은 화상에서 검출된 인물을 포함하는 상기 분할 단계, 그리고 비관심 영역에 적용되는 것보다 더 높은 프레임 레이트를 사용하여 관심 영역에서 화상을 포함하는 비디오 신호에 시간 프레임 프로세싱을 적용하는 단계를 포함하는 비디오 화상 프로세싱 방법에 관한 것이다.
다음 특징들 중 하나 이상이 또한 포함될 수 있다.
본 발명의 일 양태에 있어서, 시간 프레임 프로세싱은 관심 영역에 적용되는 시간 프레임 업-컨버젼 프로세싱을 포함한다. 다른 양태에서, 시간 프레임 프로세싱은 비관심 영역에 적용되는 시간 프레임 다운-컨버젼(down-conversion) 프로세싱을 포함한다.
다른 양태에서, 본 방법은 또한, 시간 프레임 업-컨버젼 프로세싱 단계로부터의 출력 정보와, 시간 프레임 다운-컨버젼 프로세싱 단계로부터의 출력 정보를 결합하여 향상된 출력 화상을 생성하는 단계를 포함한다. 또한, 시각적 화상 품질 개선 단계들은 이 화상과 연관된 비디오 신호의 송신 끝단 혹은 수신 끝단에서 수행될 수 있다.
또한, 비디오 어플리케이션의 화상에서 식별된 인물을 검출하는 단계는, 화상에서 입술 활동(lip activity)을 검출하는 단계 그리고 화상에서 오디오 스피치 활동을 검출하는 단계를 포함할 수 있다. 또한, 관심 영역에 시간 프레임 업-컨버젼 프로세싱을 적용하는 단계는, 단지 입술 활동 및/또는 오디오 스피치 활동이 검출된 때만 수행될 수 있다.
다른 양태들에서, 상기 방법은 또한, 화상을 적어도 제 1 관심 영역과 제 2 관심 영역으로 분할하는 단계, 프레임 레이트를 증가시켜 시간 프레임 업-컨버젼 프로세싱을 적용하기 위해 제 1 관심 영역을 선택하는 단계, 그리고 제 2 관심 영역의 프레임 레이트는 그대로 두는 단계를 포함한다.
본 발명은 또한, 비디오 화상들을 프로세싱하도록 구성된 디바이스에 관한 것이고, 상기 디바이스는, 비디오 어플리케이션의 화상에서 적어도 한 인물을 탐지하도록 구성되는 검출 모듈, 화상에서 검출된 인물과 연관된 모션을 추정하도록 구성되는 모션 추정 모듈, 화상을 적어도 하나의 관심 영역과 적어도 하나의 비관심 영역으로 분할하도록 구성되는 분할 모듈로서, 관심 영역은 화상에서 검출된 인물을 포함하는 상기 분할 모듈, 그리고 비관심 영역에서 적용되는 것보다 관심 영역에서 더 높은 프레임 레이트를 사용하여 화상을 포함하는 비디오 신호에 시간 프레임 프로세싱을 적용하도록 구성되는 적어도 하나의 프로세싱 모듈을 포함한다.
방법 및 디바이스의 다른 특징들은 종속 청구항들에서 더 기재된다.
실시예들은 하나 이상의 다음 이점들을 가질 것이다.
본 발명은 유익하게도, 관련 화상 부분들에 대한 비디오 컨퍼런스 시스템들의 시각적 인식을 향상시키고, 화상의 나머지 부분에 상대적으로, 발화하고 있는 참석자들 혹은 인물들과 연관된 시각적 화상들을 명백하게 하여, 상황 인지도의 레벨을 증가시킨다.
또한 본 발명은, 비교적 더 많은 비트들이 개선된 관심 영역(ROI)에 할당되고 비교적 더 적은 수의 비트들이 비관심 영역(RONI)에 할당되어, 동일한 비트-레이트에 대해, 얼굴 표현들 등과 같은 중요하고 관련된 비디오 데이터의 향상된 전송 프로세스의 결과를 가져오므로, 더 높은 비디오 압축 효율의 결과를 내는 전송 측에 적용될 수 있다.
또한, 발명의 방법 및 디바이스는 비디오 전화 구현들에서 사용될 수 있는 임의 코딩 스킴과는 독립적 어플리케이션을 허용한다. 본 발명은 비디오 인코딩 혹은 디코딩을 요구하지 않는다. 또한, 상기 방법은 향상된 카메라 신호를 위한 비디오 전화의 카메라 측에 적용될 수 있거나, 또는 향상된 디스플레이 신호에 대해 디스플레이 측에 적용될 수 있다. 그러므로, 본 발명은 전송 및 수신 측들 모두에 적용될 수 있다.
다른 이점으로서, 얼굴 검출을 위한 신원확인(identification) 프로세스는 입술 활동 검출기 및/또는 오디오 위치확인 알고리즘들과 같은 다양한 얼굴 검출 기술들 혹은 방식들을 조합하여 더욱 견고하고 실패가 방지되게 만들어질 수 있다. 또한, 다른 이점으로서, 모션 보상된 보간이 단지 ROI에만 적용되므로, 계산들이 보호되고 절약될 수 있다.
그러므로, 본 발명의 구현으로, 비디오 품질은 크게 개선되어, 인물들의 상황 인지도, 그러므로 비디오 콜의 인식 품질을 증가시킴으로써, 비디오-전화 어플리케이션들의 더 나은 수신을 하도록 만든다. 더 구체적으로, 본 발명은 또한 화상들의 개선된 요해(intelligibility)를 위해 그리고 상이한 유형들의 얼굴 감정들 및 표현들을 전달하기 위해 더 높은 품질의 얼굴 표현들을 전송할 수 있다. 오늘날 그룹 비디오 컨퍼런스 어플리케이션들에서 이런 유형의 상황 인지도의 증가는, 특히, 예를 들어, 컨퍼런스 콜에서 참석자들 혹은 인물들이 다른 참석자들을 잘 알지 못할 때, 증가된 사용과 신뢰성과 동일하다.
본 발명의 이들 및 다른 양태들은, 이하 설명에서의 실시예들, 도면들, 및 청구범위를 참조하여 명백하고 명료해질 것이다.
도 1은 본 발명에 따른 화상 품질 개선을 위한 향상된 방법의 일 실시예의 개략적 기능 블록도를 도시한다.
도 2는 도 1에 따른 화상 품질 개선을 위한 향상된 방법의 일 실시예의 흐름도를 도시한다.
도 3은 본 발명에 따른 화상 품질 개선을 위한 향상된 방법의 다른 실시예의 흐름도이다.
도 4는 본 발명에 따른 화상 품질 개선을 위한 향상된 방법의 다른 실시예의 흐름도이다.
도 5는 본 발명에 따른 화상 품질 개선을 위한 향상된 방법의 다른 실시예의 흐름도이다.
도 6은 본 발명에 따른 화상 품질 개선을 위한 향상된 방법의 다른 실시예의 개략적 기능 블록도이다.
도 7은, 본 발명에 따라, 복수 인물 비디오 컨퍼런싱 세션을 위해 보여진 화상 품질 개선을 위한 개략적 기능 블록도이다.
도 8은, 본 발명에 따라, 복수 인물 비디오 컨퍼런싱 세션을 위해 보여진 화상 품질 개선을 위한 다른 개략적 기능 블록도이다.
도 9는, 도 8에 따라, 화상 품질 개선을 위한 향상된 방법의 일 실시예에서 사용되는 방법 단계들을 나타내는 흐름도이다.
도 10은, 예시적 경우로서, 비디오 어플리케이션으로부터 취해진 전형적 화상을 도시한다.
도 11은, 본 발명에 따른, 얼굴 추적 메커니즘의 구현을 도시한다.
도 12는 ROI/RONI 분할 프로세스의 어플리케이션을 도시한다.
도 13은 머리와 어깨 모델에 기초한 ROI/RONI 분할을 도시한다.
도 14는, 본 발명의 일 실시예에 따른, 프레임 레이트 컨버젼을 도시한다.
도 15는 ROI와 RONI 영역 사이의 경계 지역들에 구현되는 최적화 기술을 도시한다.
본 발명은, 예를 들어, 비디오 전화 시스템의 화상에서 인물들의 인식 개선, 그리고, 비디오 텔레컨퍼런싱 세션의 상황 인지도의 개선을 다룬다.
도 1을 참조하면, 본 발명의 기본 특징들은, 예를 들어, 일인(one person) 비디오 컨퍼런싱 세션에 화상 품질 개선을 적용하는 것에 관하여 설명된다. 송신 측에서, "비디오 인(video in)"(10) 신호(Vin)는 카메라에 입력되고, 레코딩된 카메라 신호가 된다. "비디오 아웃(video out)"(12) 신호는, 한편, 코딩되어 전송될 신호 Vout이다. 환언하면, 수신 측에서, 신호(10)는 수신되어 디코딩되는 신호이고, 신호(12)는 종단 사용자들을 위해 디스플레이로 전송된다.
본 발명을 구현하기 위해, 화상 분할 기술은 컨퍼런스 콜의 참석자를 포함하는 ROI의 선택을 위해 적용될 필요가 있다. 그러므로, 얼굴 추적 모듈(14)은 화상에서 얼굴 위치 및 크기에 대한 정보(20)를 발견하기 위해 사용될 수 있다. 다양한 얼굴 검출 알고리즘들이 이 분야에서 잘 알려졌다. 예를 들어, 화상에서 한 인 물의 얼굴을 발견하기 위해, 피부 색 검출 알고리즘 혹은 피부 색 검출과 타원형 객체 경계 탐색의 결합이 사용될 수 있다. 대안적으로, 화상에서 중요한 특징들에 대한 얼굴을 탐색하여 식별하기 위한 추가 방법들이 사용될 수 있다. 그러므로, 본 발명에서, 효율적 객체 분류기들을 발견하여 적용하기 위한 다수의 이용가능하고 견고한 방법들이 통합될 수 있다.
화상에서 참석자의 얼굴을 식별하는 것에 후속하여, 모션 추정 모듈(16)은 모션 벡터 필드들(18)을 계산하도록 사용된다. 그 후, 얼굴 위치와 크기에 대한 정보(20)를 사용하여, ROI/RONI 분할 모듈(22)은, 예를 들어, 단순한 머리와 어깨 모델을 사용하여, 참석자 주위에서 수행된다. 대안적으로, ROI는 블럭마다 모션 검출(모션 추정이 아님)을 사용하여 추적될 수 있다. 환언하면, 모션이 가장 움직이는 블럭들을 갖는 객체인 ROI로 검출된 블록들을 그룹핑하여 객체가 형성된다. 또한, 모션 탐지를 사용하는 방법들은 화상 프로세싱 기술들에 대한 계산 복잡성을 절약한다.
다음, ROI/RONI 프로세싱이 이루어진다. ROI 분할부(segment;24)에 대해, 픽셀들은, 시각적 개선을 위해, 시간 프레임 레이트 업-컨버젼 모듈(26)에 의해 ROI 분할부(24) 내에 시각적으로 강조된다. 이것은, RONI 분할부(28)에 대해, 완화될(de-emphasized) 나머지 화상 부분들의 시간 프레임 다운-컨버젼 모듈(30)과 결합된다. 그 다음, ROI와 RONI 프로세싱된 출력들은 재결합 모듈(32)에서 결합되어 "출력" 신호(12)(Vout)를 형성한다. ROI/RONI 프로세싱을 사용하여, ROI 분할 부(24)는 시각적으로 향상되고, 덜 관련된 RONI 분할부(28)에 대해 더욱 중요한 전경으로서 가져온다.
이하 도 2를 참조하여, 흐름도(40)는 도 1에 설명된 본 발명의 기본 단계들을 나타낸다. 제 1 "입력" 단계(42)에서, 예를 들어, 비디오 신호는 카메라에 입력되어, 레코딩된 카메라 신호가 된다. 다음, 얼굴 검출 단계(44)는, 다수의 기존 알고리즘들을 사용하여, 얼굴 추적 모듈(14)(도 1에 도시됨)에서 수행된다. 더욱이, 모션 추정 단계(46)는, ROI 혹은 RONI 각각을 업-컨버트하거나 혹은 다운-컨버트하기 위해 나중에 필요되는 모션 벡터들을 생성하기 위해(48) 수행된다.
단계(44)에서 얼굴이 탐지되었다면, ROI/RONI 분할 단계(50)가 수행되어, ROI 분할부에 대한 생성 단계(52)와 RONI에 대한 생성 단계(54)의 결과를 가져온다. 그 후, ROI 분할부는 단계(48)에 의해 생성된 모션 벡터들을 사용하여 모션-보상된 프레임 업-컨버트 단계(56)를 수행한다. 유사하게, RONI 분할부는 프레임 다운-컨버트 단계(58)를 수행한다. 후속적으로, 프로세싱된 ROI와 RONI 분할부들은 결합 단계(60)에서 결합되어 단계(62)에서 출력 신호를 발생시킨다. 또한, 얼굴 검출 단계(44)에서, 얼굴이 검출되지 않았다면, 단계(64)에서(테스트"컨버젼-다운?"), 화상이 다운-컨버젼 프로세싱을 할 것이면, 다운-컨버젼 단계(66)가 수행된다. 한편, 화상이 그대로 남아 있을 것이면, 단계(62)(직접 접속)로 단계(66)가 없이 단순히 진행하고, 프로세싱되지 않은 출력 신호를 발생시킨다.
이하 도 3 내지 도 5를 참조하여, 도 2의 방법 단계들에의 추가 최적화들이 제공된다. 비디오 텔레 컨퍼런스의 참석자가 발화하고 있는지의 여부에 따라, ROI 업-컨버젼 프로세스는 수정되어 최적화된다. 도 3에서, 흐름도(70)는, 얼굴 검출 단계(44)에 후속하는 추가 입술 검출 단계(71)를 갖는, 도 2에 설명된 흐름도(40)와 동일한 단계들을 나타낸다. 환언하면, 누가 발화하는 중인지 식별하기 위해, 비디오 화상의 입술 활동 검출을 적용할 수 있고, 스피치 활동 검출이 화상 시퀀스에 입술 활동 검출을 사용하여 측정될 수 있다. 예를 들어, 입술 활동은 자동 입술 판독에 대한 종래 기술 혹은 다양한 비디오 입술 활동 검출 알고리즘들을 사용하여 측정될 수 있다. 그러므로, 입술 활동 검출 메커니즘들에 대한 단계(71)의 추가는, 송신과 수신 끝단들 모두에서 사용될 수 있는, 다른 방식들과 결합될 때 얼굴 추적 혹은 검출 단계(44)를 더욱 견고히 만든다. 이런 방식으로, 본 목적은, 단지 인물 혹은 참석자가 발화하는 경우에만 ROI 분할부에 증가된 프레임 레이트를 제공하여 스피치 활동의 발생을 시각적으로 지원하는 것이다.
도 3은 또한, 단지 입술 검출 단계(71)가 긍정(Y)일 때만 ROI 업-컨버젼 단계(56)가 수행됨을 나타낸다. 입술 검출이 없으면, 흐름도(70)는 컨버젼 다운 단계(64)로 진행하여, 궁극적으로 비디오-아웃 신호를 발생시키는 단계(62)로 유도한다.
이하, 도 4를 참조하면, 흐름도(80)에서, 추가 방식들이 구현된다. 얼굴 추적 혹은 검출 단계(44)가 에러가 없는 얼굴 검출을 항상 보장할 수 있는 것은 아니므로, 실제 인물이 발견되지 않는 얼굴을 식별할 수 있다. 그러나, 얼굴 추적 및 검출의 기술들과, 그리고 입술 활동(도 3) 및 오디오 위치확인 알고리즘들과 같은 방식들과 조합하여, 얼굴 추적 단계(44)는 더욱 견고히 만들어질 수 있다. 그러므 로, 도 4는, 비디오-인 단계(42)와 얼굴 검출 단계(44)와 동시에 병렬로 동작하는, 오디오-인 단계(81)와 그에 후속하는 오디오 검출 단계(82)를 사용하는 최적화를 추가한다.
환언하면, 인물이 발화하고 있으므로 오디오를 이용할 수 있을 때, 스피치 활동 검출기가 사용될 수 있다. 예를 들어, 피치(pitch) 검출기와 결합된 오디오 신호에서 동적 이벤트들의 검출에 기초한 스피치 활동 검출기가 사용될 수 있다. 송신 끝단에서, 즉, 오디오-인 단계(81)에서, "오디오-인" 신호는 마이크로폰 입력이다. 수신 끝단에서, "오디오-인" 신호는 수신되고 디코딩되는 오디오이다. 그러므로, 오디오 활동 검출의 증가된 확실성에 대해, 조합된 오디오/비디오 스피치 활동 탐지가 개별 검출기 출력들 상의 논리 AND에 의해 수행된다.
유사하게, 도 4는, 단지 오디오 검출 단계(82)가 오디오 신호를 긍정적으로 검출했을 때만, 흐름도(80)의 ROI 업-컨버젼 단계(56)가 수행됨을 도시한다. 오디오 신호가 검출되면, 얼굴의 긍정적 검출로 진행하여, ROI/RONI 분할 단계(50)가 수행되고나서, ROI 업-컨버젼 단계(56)가 후속된다. 그러나, 오디오 스피치가 검출되지 않았으면, 흐름도(80)는 컨버젼 다운 단계(64)로 진행하여, 궁극적으로 비디오-아웃 신호를 발생시키는 단계(62)로 유도된다.
도 5를 참조하면, 흐름도(90)는 오디오 스피치 활동과 비디오 입술 활동 검출 프로세스들의 구현의 조합을 나타낸다. 그러므로, 도 3과 도 4의 조합은 흐름도(90)의 결과를 가져오고, 관심 인물 혹은 참석자를 식별하거나 혹은 검출하는 매우 견고한 수단을 제공하고 ROI를 정확히 분석한다.
또한, 도 6은, 오디오 스피치 검출과 비디오 입술 활동 검출 단계들 모두를 구현하는 일인 비디오 컨퍼런스 세션에 적용되는 화상 품질 개선에 대한 흐름도의 개략적 기능 블록도를 나타낸다. 도 1에 도시된 기능적 특징들과 유사하게, 송신 끝단에서, 입력 신호(10)(Vin)는 카메라/입력 장치에 입력되어, 레코딩된 카메라 신호가 된다. 동일한 선들을 따라서, "오디오-인" 입력 신호(Ain)(11)는 입력되고, 오디오 알고리즘 모듈(13)은, 임의 스피치 신호가 검출될 수 있는지의 여부를 검출하기 위해 적용된다. 동시에, 입술 활동 검출 모듈(15)은 비디오-인 신호를 분석하여, 수신 신호에 임의 입술 활동이 존재하는지의 여부를 판정한다. 결과적으로, 오디오 알고리즘 모듈(13)이, 참으로 판명된 참 혹은 거짓 스피치 활동 플래그(17)를 생성하면, ROI 업-컨버트 모듈(26)은, ROI 분할부(24) 수신시, ROI 분할부(24)에 대해 프레임 레이트 업-컨버젼을 수행한다. 유사하게, 입술 활동 탐지 모듈(15)이 참 혹은 거짓 입술 활동 플래그(19)가 참이 되도록 검출하면, ROI 분할부(24)의 수신시, 모듈(26)은 ROI 분할부(24)에 대한 프레임 레이트 업-컨버젼을 수행한다.
이하 도 7를 참조하면, 송신 끝단에서, 복수의 마이크로폰들이 이용가능하면, 화자의 위치를 발견하기 위한 매우 견고하고 효율적인 방법이 구현될 수 있다. 즉, 인물들의 검출과 신원확인을 개선하기 위해, 특히, 발화 중인 복수의 인물들 혹은 참석자들을 식별하기 위해, 오디오와 비디오 알고리즘들의 조합은 매우 강력하다. 이것은, 복수-센서 오디오 데이터(모노(mono) 오디오 보다는)가 이용가능할 때, 특히 송신 끝단에서 적용될 수 있다. 대안적으로, 시스템을 여전히 더 견고하게 만들고 발화 중인 인물들을 정확히 식별하기 위해, 송신 및 수신 끝단들 모두에서 적용될 수 있는, 비디오에서 입술 활동 검출이 적용될 수 있다.
도 7에서, 화상 품질 개선을 위한 개략적 기능 블록도가 복수 인물 비디오 전화 컨퍼런스 세션을 위해 도시되었다. 송신 끝단에 있을 때, 복수의 인물들 혹은 참석자들이 존재하고, 얼굴 추적 모듈(14)은 하나 이상의 얼굴, 즉, 총 N명의 얼굴들(x N)을 찾을 수 있다. 얼굴 추적 모듈(14)에 의해 검출된 N 얼굴들 각각에 대해, 즉, N 얼굴 위치들과 크기들 각각에 대해, 복수 인물 ROI/RONI 분할 모듈(22N)(22-1, 22-2,...,22-N)은, 다시 말하면, 예를 들어, 머리와 어깨 모델에 기초하여, N 얼굴들에 대해 생성된 ROI와 RONI 분할부들 각각에 대해 생성된다.
2개의 ROI들이 검출되는 경우에서, ROI 선택 모듈(23)은 스피치 활동 플래그(17)를 포함하고, 입술 활동 검출 모듈(15), 즉, 입술 활동 플래그(19)의 결과들을 포함하는, 사운드 소스 혹은 사운드 소스들(접속(21)은 사운드 소스들의 (x, y) 위치들을 제공함)의 위치들(x, y 좌표들)을 출력하는 오디오 알고리즘 모듈(13)의 결과들에 기초하여 화상 품질 개선을 위해 프로세싱되어야 하는 ROI들의 선택을 수행한다. 환언하면, 복수의 마이크로폰 컨퍼런싱 시스템들에서, 복수의 오디오 입력들은 수신 측에서 이용가능하다. 그 후, 오디오 알고리즘들과 연관된 입술 활동 알고리즘들을 적용하여, 스피치 혹은 오디오가 나오는 방향 및 위치(x, y 좌표)가 또한 결정된다. 이 정보는, 화상에서 현재 발화하는 중인 참석자인, 의도된 ROI를 타겟팅하기 위해 관련될 수 있다.
이런 방식으로, 2개 이상의 ROI들이 얼굴 추적 모듈(14)에 의해 검출될 때, ROI 선택 모듈(23)은 발화하는 중인 인물과 연관된 ROI를 선택하여, 발화하는 중인 이 인물에 대부분 시각적으로 강조(visual emphasis)되어 제공하고, 텔레컨퍼런싱 세션의 나머지 인물들 혹은 참석자들에 RONI 배경에 대해 적게 강조되어 수신하도록 할 수 있다.
그 후, 분리된 ROI와 RONI 분할부들은, 모션 추정 모듈(16)에 의해 출력된 정보를 사용하여, ROI에 대한 프레임 레이트 업-컨버젼에서 ROI 업-컨버트 모듈(26)에 의해, 그리고 RONI에 대해 프레임 레이트 다운-컨버젼에서 RONI 다운-컨버트 모듈(30)에 의해 화상 프로세싱 단계들을 수행한다. 더욱이, ROI 분할부는 얼굴 추적 모듈(14)에 의해 검출되는 인물들의 총 수를 포함할 수 있다. 화자로부터 더 멀리 있는 인물들이 비디오 텔레컨퍼런싱 콜에 참석하지 않고 있다고 가정하면, ROI는 검출된 얼굴 크기의 검사에 의해 단지 충분히 근접하고 그 얼굴 크기가 화상 크기의 특정 퍼센티지보다 더 크게 검출된 얼굴들 혹은 인물들만을 포함할 수 있다. 대안적으로, ROI 분할부는 단지 발화하는 중인 인물만을 또는 그 이후 화자가 없었을 때는 최종 화자이었던 인물만을 포함할 수 있다.
이하, 도 8을 참조하면, 복수 인물 비디오 컨퍼런싱 세션을 위해 보여진 화상 품질 개선에 대한 다른 개략 기능 블록도가 도시된다. ROI 선택 모듈(23)은 2개의 ROI들을 선택한다. 이것은, 제 1 ROI 분할부(24-1)가 발화 중인 참석자 혹은 인물과 연관되고, 제 2 ROI 분할부(24-2)가 검출된 나머지 참석자들과 연관되므로, 2개의 ROI들이 구별되는 사실에 의해 유발될 수 있다. 도시된 것처럼, 제 1 ROI 분할부(24-1)는 ROI_1 업-컨버트 모듈(26-1)에 의해 시간적으로 업-컨버트되고, 한편 제 2 ROI 분할부(24-2)는 그대로 두어진다. 이전 도 5 및 도 6의 경우와 같이, RONI 분할부(28)는 또한 RONI 다운-컨버트 모듈(30)에 의해 시간적으로 다운-컨버트될 수 있다.
도 9를 참조하면, 흐름도(100)는, 도 8을 참조하여 상술된 것처럼, 화상 품질 개선을 위한 방법의 실시예들 중 하나에서 사용되는 단계들을 나타낸다. 사실상, 흐름도(100)는, 도 8에 도시되고, 또한 도 2 내지 도 5를 참조하여 설명된 다양한 모듈들에 의해 후속되는 기본 단계들을 나타낸다. 이들 단계들에서, 제 1 "비디오 인" 단계(42)에서, 즉, 비디오 신호는 카메라로 입력되어, 레코딩된 카메라 신호가 된다. 그 후, 얼굴 검출 단계(44)와 ROI/RONI 분할 단계(50)가 후속하여, ROI 분할부들에 대한 N개의 생성 단계들(52) 그리고 RONI 분할부에 대한 생성 단계(54)의 결과를 가져온다. ROI 분할부들에 대한 생성 단계들(52)은 ROI_1 분할부에 대한 단계(52a), ROI_2 분할부에 대한 단계(52a) 등 그리고 ROI_N 분할부에 대한 단계(52N)를 포함한다.
다음, 입술 검출 단계(71)는 얼굴 검출 단계(44)와 ROI/RONI 분할 단계(50)에 후속하여 수행된다. 또한 도 8에 도시된 것처럼, 입술 검출 단계(71)가 긍정적(Y)이면, ROI/RONI 선택 단계(102)가 수행된다. 유사 방식으로, "오디오 인" 단계(81) 다음에, 비디오-인 단계(42)와 얼굴 검출 단계(44), 그리고 입술 검출 단계(71)와 동시에 동작하는 오디오 검출 단계(82)가 후속하여, 관심의 ROI 영역들을 정확히 검출하기 위해 더욱 견고한 메커니즘과 프로세스를 제공한다. 결과적 정보 는 ROI/RONI 선택 단계(102)에서 사용된다.
후속적으로, ROI/RONI 선택 단계(102)는 프레임 업-컨버트 단계(56)를 수행하는 선택된 ROI 분할부(104)를 생성한다. ROI/RONI 선택(102)은 또한 다른 ROI 분할부들(106)을 생성하고, 이것은 단계(64)에서, 화상이 다운-컨버젼 분석되는 결정이 긍정적이면, 다운-컨버젼 단계(66)가 수행된다. 한편, 화상이 그대로 두어지면, 단순히 단계(60)로 진행하여, 단계(56)에 의해 생성되는 시간적으로 업-컨버트된 ROI 화상과, 단계들(54 및 66)에 의해 생성되는 RONI 화상과 결합하여, 결국 단계(66)에서 프로세싱되지 않은 "비디오-아웃" 신호에 도달한다.
이하 도 10 내지 도 15를 참조하면, 화상 품질 개선을 성취하기 위해 사용되는 기술들 및 방법들이 설명된다. 예를 들어, 모션 추정, 얼굴 추적 및 검출, ROI/RONI 분할, 및 ROI/RONI 시간 컨버젼 프로세싱의 프로세스들이 더 상세히 설명될 것이다.
도 10 내지 도 12를 참조하면, 예를 들어, 웹 카메라의 시퀀스 샷(sequence shot)으로부터 취해진 화상(110)이 도시된다. 예를 들어, 화상(110)은, 통상 오늘날 모바일 어플리케이션들의 경우인, 176 x 144 혹은 320 x 240 화소들의 해상도와 7.5 Hz와 15 Hz 사이의 프레임 레이트를 가질 수 있다.
모션 추정
화상(110)은 8 x 8 휘도 값들의 블록들로 세분될 수 있다. 모션 추정에 대해, 예를 들어, 3D 재귀적 탐색 방법이 사용될 수 있다. 그 결과는 8 x 8 블록들 각각에 대해 2-차원 모션 벡터이다. 이 모션 벡터는
Figure 112008010626669-PCT00001
에 의해 표현되고, 2-차원 벡터
Figure 112008010626669-PCT00002
는 8 x 8 블록의 공간적 x-좌표와 y-좌표를 포함하고, n은 시간 인덱스이다. 모션 벡터 필드는 2개의 원래 입력 프레임들 사이에 특정 시간에 값이 매겨진다. 2개의 원래 입력 프레임들 사이의 다른 시간에 모션 벡처 필드를 유효하게 만들기 위해, 모션 벡터 리타이밍(retiming)을 수행할 수 있다.
얼굴 검출
이하, 도 11을 참조하면, 얼굴 추적 메커니즘이 인물들(112 및 114)의 얼굴들을 추적하기 위해 사용된다. 얼굴 추적 메커니즘은 인물들(112 및 114)의 피부 색들을 발견하여 얼굴들을 찾는다(어둡게 나타난 얼굴들). 그러므로, 피부 검출기 기술이 사용될 수 있다. 타원(120 및 122)은 발견되어 식별된 인물들(112 및 114)의 얼굴들을 나타낸다. 대안적으로, 얼굴 검출은, P. Viola와 M. Jones의, "견고한 실시간 객체 검출(Robust Real-Time Object Detection)", Proceedings of the Second International Workshop on Statistical and Computational Theories of Vision - Modeling, Learning, Computing, and Sampling, Vancouver, Canada, July 13, 2001에 개시된 것과 같은, 훈련된 분류기들에 기초하여 수행된다. 분류기 기반 방법들은 변화하는 광 조건들에 대해 더욱 견고하다는 이점을 갖는다. 또한, 단지 발견된 얼굴들 근처에 있는 얼굴들만이 검출될 수 있다. 머리 크기 때문에 인물(118)의 얼굴이 발견되지 않은 것은 화상(110)의 크기에 비해 너무 작은 것이다. 그러므로, 인물(118)은 임의 비디오 컨퍼런스 콜에 참석하지 않는 것으로서, 정확히 가정된다(이 경우에).
이전에 언급된 것과 같이, 얼굴 추적 메커니즘의 견고함은, 얼굴 추적 메커니즘이, 송신과 수신 끝단들 모두에서 사용가능한 비디오 입술 활동 검출기로부터의 정보와 결합되고 그리고/또는 복수의 마이크로폰 채널들을 요구하고 송신 끝단에 구현되는 오디오 소스 추적기와 결합될 때, 향상될 수 있다. 이들 기술들의 조합을 사용하여, 얼굴 추적 메커니즘에 의해 실수로 발견되는 비얼굴들(non-faces)은 적절히 거부될 수 있다.
ROI RONI 분할
도 12를 참조하면, ROI/RONI 분할 프로세스는 화상(110)에 적용된다. 얼굴 검출 프로세스에 후속하여, 화상(110)의 각 검출된 얼굴로, ROI/RONI 분할 프로세스는 머리와 어깨 모델에 기초하여 사용된다. 인물(124)의 머리와 몸체를 포함하는 인물(112)의 머리와 어깨 곡선(124)은 식별되어 분리된다. 이 조악한 머리와 어깨 곡선(124)의 크기는 중요하지 않지만, 인물(112)의 몸체가 완전히 곡선(124) 내에 포함됨을 보장할 만큼 충분히 커야 한다. 그 후, 또한 머리와 어깨 곡선(124) 내의 지역인, 단지 이 ROI의 화소들에만 시간 업-컨버젼이 적용된다.
ROI RONI 프레임 레이트 컨버젼
ROI/RONI 프레임 레이트 컨버젼은 원래 화상의 모션 벡터들에 기초하여 모션 추정 프로세스를 사용한다.
이하, 도 13을 참조하면, 예를 들어, 원래 입력 화상들 혹은 픽쳐(132A)(t = (n-1)T에서)와 픽쳐(132B)(t = nT에서)에 대해 3개의 다이어그램들(130A 내지 130C)에서, 도 12를 참조하여 설명된 것처럼 머리와 어깨 모델에 기초한 ROI/RONI 분할이 도시된다. 보간된 픽쳐(134)(t = (n-α)T; 다이어그램(130B))에 대해, 특정 위치의 화소는, 동일한 위치에서, 선행하는 원래 입력 픽쳐(132A)의 화소가 이 픽쳐의 ROI에 속하거나, 또는 동일한 위치에서, 후속하는 원래 입력 픽쳐(132B)의 화소는 이 픽쳐의 ROI에 속하거나, 또는 둘 모두일 때, ROI에 속한다. 환언하면, 보간된 픽쳐(134)의 ROI 영역(138B)은 이전과 이후의 원래 입력 픽쳐들(132A 및 132B) 각각의 ROI 영역(138A)과 ROI 영역(138C) 모두를 포함한다.
RONI 영역(140)에 대해, 보간된 픽쳐(134)에 대해, RONI 영역(140)에 속하는 화소들은 단순히 이전 원래 입력 픽쳐(132A)로부터 복사되고, ROI의 화소들은 모션 보상으로 보간된다.
이것은 또한 도 14를 참조하여 나타내지고, 여기서 T는 시퀀스의 프레임 기간을 나타내고, n은 정수 프레임 인덱스를 나타낸다. 예를 들어, 파라미터 α(0 < α< 1)는 2개의 원래 입력 화상들(132A 및 132B) 사이에서 보간된 화상(134A)의 상대적 타이밍을 제공한다(이 경우, α=1/2가 사용될 수 있슴).
도 14에서, 보간된 픽쳐(134A)에 대해(그리고 유사하게, 보간된 픽쳐(134B)에 대해), 예를 들어, "p"와 q"로 레이블링된 화소 블록들은 RONI 영역(140)에 놓이고, 이들 블록들의 화소들은 이전 원래 픽쳐의 동일한 위치로부터 복사된다. 보간된 픽쳐(134A)에 대해, ROI 영역(138)의 화소 값들은 하나 이상의 후속하고 선행하는 입력 원래 픽쳐들(132A와 132B)의 모션 보상된 평균으로서 계산된다. 도 14에서, 2-프레임 보간이 도시된다. f(a, b, α)는 모션 보상된 보간 결과를 닮는 다. 모션 보상된 보간 기술들에 대한 상이한 방법들이 사용될 수 있다. 그러므로, 도 14는, ROI 영역(138)의 화소들이 모션 보상된 보간에 의해 얻어지고, RONI 영역(140)의 화소들이 프레임 반복에 의해 얻어지는 프레임 레이트 컨버젼 기술을 나타낸다.
또한, 화상 또는 픽쳐의 배경이 정적일 때, ROI와 RONI 영역들 사이의 천이 경계들은, ROI 영역 내의 배경 화소들이 0 모션 벡터들과 보간되므로, 결과적인 출력 화상에서 가시적이지 않다. 그러나, 종종 디지털 카메라들의 경우인 것처럼 배경이 움직일 때(즉, 불안정한 손 움직임들), ROI와 RONI 영역들 사이의 경계들은, 배경 화소들이 ROI 영역 내에서 모션 보상으로 계산되고, 한편 배경 화소들이 RONI 영역에서 이전 입력 프레임으로부터 복사되므로, 가시적이 된다.
이하, 도 15를 참조하면, 배경이 정적이 아닐 때, 다이어그램들(150A 및 150B)에서 도시된 것과 같이, 최적화 기술은 ROI와 RONI 영역들 사이의 경계 지역들에서 화상 품질의 개선에 대해 구현될 수 있다.
특히, 도 15는, ROI/RONI 분할을 갖는 t = (n - α)T에서 추정되는 모션 벡터 필드의 구현을 나타낸다. 다이어그램(150A)은 RONI 영역(140)의 배경에서 움직임이 있는 원래 상황을 나타낸다. RONI 영역(140)의 2-차원 모션 벡터들은 소문자 알파벳 부호들(a, b, c, d, e, f, g, h, k, l)에 의해 표시되고, ROI 영역(138)의 모션 벡터들은 대문자 알파벳 부호들(A, B, C, D, E, F, G, H)에 의해 표현된다. 다이어그램(150B)은, 일단 배경이 움직이기 시작하면, ROI/RONI 경계(152B)의 가시성을 완화시키기 위해 ROI(138)가 선형적으로 보간된 모션 벡터들로 확장되는 최적 화된 상황을 나타낸다.
도 15에 도시된 것처럼, 경계 영역(152B)의 인식할 수 있는 가시성은, 블록 그리드(다이어그램(150B)) 상에 ROI 영역(138)을 확장하고, 점차적 모션 벡터 천이를 만들어서, 확장 지역의 화소들에 대한 모션-보상된 보간 분석을 적용하여 완화될 수 있다. 배경에 모션이 있을 때 천이를 더욱 완화시키기 위해, ROI 확장 지역(154)의 화소들에 대해 수평으로 및 수직으로 모두 블러링(blurring) 필터(예를 들어, [1 2 1]/4 )를 적용할 수 있다.
본 발명의 바람직한 실시예들이라고 현재 간주되는 것들이 도시되고 설명되었지만, 당업자들이라면, 본 발명의 실제 범위를 벗어나지 않고, 다양한 다른 수정본들이 만들어질 수 있고, 동등물들이 대체될 수 있슴을 이해할 것이다.
특히, 전술된 설명이 대부분 비디오 컨퍼런싱에 관련된 것이지만, 설명된 화상 품질 개선 방법은, 모바일 전화 디바이스들과 플랫폼들, PC와 같은 홈 오피스 플랫폼들 등에 구현된 것들과 같은, 임의 유형의 비디오 어플리케이션에 적용될 수 있다.
또한, 본 명세서에 설명된 중심 발명 개념으로부터 벗어나지 않고 본 발명의 개시에 특정 상황을 적응하도록 다수의 진보된 비디오 프로세싱 수정본들이 만들어질 수 있다. 더욱이, 본 발명의 일 실시예는 상술된 모든 특징들을 포함하지 않을 수 있다. 그러므로, 본 발명이 개시된 특정 실시예들에만 제한되지 않고, 첨부된 청구범위와 이들의 동등물들의 범위 내에 속하는 모든 실시예들을 포함하려고 의도된다.

Claims (20)

  1. 비디오 화상들을 프로세싱하는 방법에 있어서,
    비디오 어플리케이션의 한 화상에서 적어도 한 명의 인물을 검출하는 단계(44);
    상기 화상에서 상기 적어도 한 명의 검출된 인물과 연관되는 모션(motion)을 추정하는 단계(46);
    상기 화상을 적어도 하나의 관심 영역(region of interest)과 적어도 하나의 비관심 영역(region of no interest)으로 분할하는 단계(50)로서, 상기 적어도 하나의 관심 영역은 상기 화상에서 상기 적어도 하나의 검출된 인물을 포함하는, 상기 분할 단계; 및
    상기 적어도 하나의 비관심 영역에 적용되는 것보다 상기 적어도 하나의 관심 영역에 더 높은 프레임 레이트를 사용하여 상기 화상을 포함하는 비디오 신호에 시간 프레임 프로세싱을 적용하는 단계를 포함하는, 비디오 화상 프로세싱 방법.
  2. 제 1 항에 있어서, 상기 시간 프레임 프로세싱은 상기 적어도 하나의 관심 영역에 적용되는 시간 프레임 업-컨버젼(up-conversion) 프로세싱(56)을 포함하는, 비디오 화상 프로세싱 방법.
  3. 제 1 항 또는 제 2 항에 있어서, 상기 시간 프레임 프로세싱은 상기 적어도 하나의 비관심 영역에 적용되는 시간 프레임 다운-컨버젼(down-conversion) 프로세싱(58)을 포함하는, 비디오 화상 프로세싱 방법.
  4. 제 3 항에 있어서, 개선된 출력 화상을 생성(62)하기 위해, 상기 시간 프레임 업-컨버젼 프로세싱 단계로부터 출력 정보와 상기 시간 프레임 다운-컨버젼 프로세싱 단계로부터 출력 정보를 결합하는 단계(60)를 더 포함하는, 비디오 화상 프로세싱 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 시각적 화상 품질 개선 단계들은 상기 화상과 연관된 상기 비디오 신호의 송신 끝단 또는 수신 끝단에서 수행되는, 비디오 화상 프로세싱 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서, 상기 비디오 어플리케이션의 화상에서 식별되는 상기 적어도 하나의 인물을 검출하는 단계는 상기 화상에서 입술 활동(lip activity)을 검출하는 단계(71)를 포함하는, 비디오 화상 프로세싱 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서, 상기 비디오 어플리케이션의 화상에서 식별되는 상기 적어도 한 명의 인물을 검출하는 단계는, 상기 화상에서 오디오 스피치 활동(audio speech activity)을 검출하는 단계(82)를 포함하는, 비 디오 화상 프로세싱 방법.
  8. 제 6 항 또는 제 7 항에 있어서, 상기 관심 영역에 시간 프레임 업-컨버젼 프로세싱을 적용하는 단계는 단지 입술 활동 및/또는 오디오 스피치 활동이 검출된 때만 수행되는, 비디오 화상 프로세싱 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서, 상기 방법은,
    상기 화상을 적어도 제 1 관심 영역과 제 2 관심 영역으로 분할하는 단계(50);
    상기 프레임 레이트를 증가시켜서 상기 시간 프레임 업-컨버젼 프로세싱을 적용하기 위한 상기 제 1 관심 영역을 선택하는 단계(102); 및
    상기 제 2 관심 영역의 프레임 레이트를 그대로 두는 단계를 더 포함하는, 비디오 화상 프로세싱 방법.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서, 상기 관심 영역에 시간 프레임 업-컨버젼 프로세싱을 적용하는 단계는, 상기 관심 영역과 연관되는 화소들의 프레임 레이트를 증가시키는 단계를 포함하는, 비디오 화상 프로세싱 방법.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서, 상기 화상의 블록 그리드(150B) 상에 상기 관심 영역을 확장하는 단계와, 상기 확장된 관심 영역(154)의 화소들에 대해 모션 보상된 보간(motion compensated interpolation)을 적용하여 점차적 모션 벡터 천이(motion vector transition)를 수행하는 단계를 더 포함하는, 비디오 화상 프로세싱 방법.
  12. 제 11 항에 있어서, 상기 확장된 관심 영역(154)의 화소들에 대해 수직으로 및 수평으로 블러링(blurring) 필터를 적용하여 경계 지역(152)을 완화시키는 단계를 더 포함하는, 비디오 화상 프로세싱 방법.
  13. 비디오 화상들을 프로세싱하도록 구성되는 디바이스에 있어서,
    비디오 어플리케이션의 한 화상에서 적어도 한 인물을 검출하도록 구성되는 검출 모듈(14);
    상기 화상에서 상기 적어도 한 명의 검출된 인물과 연관된 모션을 추정하도록 구성되는 모션 추정 모듈(16);
    상기 화상을, 적어도 하나의 관심 영역과 적어도 하나의 비관심 영역으로 분할하도록 구성되는 분할 모듈(22)로서, 상기 적어도 하나의 관심 영역은 상기 화상에서 상기 적어도 한 명의 검출된 인물을 포함하는, 상기 분할 모듈; 및
    상기 적어도 하나의 비관심 영역에 적용되는 것보다, 상기 적어도 하나의 관심 영역에서 더 높은 프레임 레이트를 사용하여 상기 화상을 포함하는 비디오 신호에 시간 프레임 프로세싱을 적용하도록 구성되는 적어도 하나의 프로세싱 모듈을 포함하는, 비디오 화상 프로세싱 디바이스.
  14. 제 13 항에 있어서, 상기 프로세싱 모듈은, 상기 적어도 하나의 관심 영역에 시간 프레임 업-컨버젼 프로세싱을 적용하도록 구성되는 관심 영역 업-컨버트 모듈(26)을 포함하는, 비디오 화상 프로세싱 디바이스.
  15. 제 13 항 또는 제 14 항에 있어서, 상기 프로세싱 모듈은, 상기 적어도 하나의 비관심 영역에 시간 프레임 다운-컨버젼 프로세싱을 적용하도록 구성되는 비관심 영역 다운-컨버트 모듈(30)을 포함하는, 비디오 화상 프로세싱 디바이스.
  16. 제 15 항에 있어서, 상기 관심 영역 업-컨버트 모듈로부터 유도된 출력 정보와, 상기 비관심 영역 다운-컨버트 모듈로부터 유도되는 출력 정보를 결합하도록 구성되는 결합 모듈(32)을 더 포함하는, 비디오 화상 프로세싱 디바이스.
  17. 제 1 항 내지 제 16 항 중 어느 한 항에 있어서, 입술 활동 검출 모듈(15)을 더 포함하는, 비디오 화상 프로세싱 디바이스.
  18. 제 1 항 내지 제 17 항 중 어느 한 항에 있어서, 오디오 스피치 활동 모듈(13)을 더 포함하는, 비디오 화상 프로세싱 디바이스.
  19. 제 1 항 내지 제 18 항 중 어느 한 항에 있어서, 시간 프레임 업-컨버젼을 위한 제 1 관심 영역을 선택하도록 구성된 관심 영역 선택 모듈(23)을 더 포함하는, 비디오 화상 프로세싱 디바이스.
  20. 저장된 명령어들의 시퀀스를 갖는 제 13 항 내지 제 19 항 중 어느 한 항의 디바이스와 연관된 컴퓨터-판독가능한 매체에 있어서, 상기 디바이스의 마이크로프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
    비디오 어플리케이션의 한 화상에서 적어도 한 명의 인물을 검출(44)하고,
    상기 화상에서 상기 적어도 한 명의 검출된 인물과 연관된 모션을 추정(46)하고,
    상기 화상을, 적어도 하나의 관심 영역과 적어도 하나의 비관심 영역으로 분할(50)하고, 상기 적어도 하나의 관심 영역은 상기 화상에서 상기 적어도 한 명의 검출된 인물을 포함하고,
    상기 적어도 하나의 비관심 영역에 적용되는 것보다, 상기 적어도 하나의 관심 영역에 더 높은 프레임 레이트를 사용하여 상기 화상을 포함하는 비디오 신호에 시간 프레임 프로세싱을 적용하도록 하는, 컴퓨터-판독가능한 매체.
KR1020087003479A 2005-07-13 2006-07-07 비디오 시간 업-컨버전을 갖는 프로세싱 방법 및 디바이스 KR20080031408A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05300594 2005-07-13
EP05300594.8 2005-07-13

Publications (1)

Publication Number Publication Date
KR20080031408A true KR20080031408A (ko) 2008-04-08

Family

ID=37460196

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087003479A KR20080031408A (ko) 2005-07-13 2006-07-07 비디오 시간 업-컨버전을 갖는 프로세싱 방법 및 디바이스

Country Status (7)

Country Link
US (1) US20100060783A1 (ko)
EP (1) EP1905243A1 (ko)
JP (1) JP2009501476A (ko)
KR (1) KR20080031408A (ko)
CN (1) CN101223786A (ko)
RU (1) RU2008105303A (ko)
WO (1) WO2007007257A1 (ko)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8902971B2 (en) 2004-07-30 2014-12-02 Euclid Discoveries, Llc Video compression repository and model reuse
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
WO2008091485A2 (en) 2007-01-23 2008-07-31 Euclid Discoveries, Llc Systems and methods for providing personal video services
CA2675957C (en) 2007-01-23 2016-02-16 Euclid Discoveries, Llc Object archival systems and methods
CA2676219C (en) 2007-01-23 2017-10-24 Euclid Discoveries, Llc Computer method and apparatus for processing image data
US8175382B2 (en) 2007-05-10 2012-05-08 Microsoft Corporation Learning image enhancement
JP2009033369A (ja) * 2007-07-26 2009-02-12 Sony Corp 記録装置、再生装置、記録再生装置、撮像装置、記録方法およびプログラム
US8130257B2 (en) 2008-06-27 2012-03-06 Microsoft Corporation Speaker and person backlighting for improved AEC and AGC
US8325796B2 (en) 2008-09-11 2012-12-04 Google Inc. System and method for video coding using adaptive segmentation
CA2739482C (en) 2008-10-07 2017-03-14 Euclid Discoveries, Llc Feature-based video compression
JP2012526314A (ja) * 2009-05-08 2012-10-25 ゾケム オーワイ 行動およびコンテキストデータを分析するためのシステムおよび方法
US20100296583A1 (en) * 2009-05-22 2010-11-25 Aten International Co., Ltd. Image processing and transmission in a kvm switch system with special handling for regions of interest
CN102170552A (zh) * 2010-02-25 2011-08-31 株式会社理光 一种视频会议系统及其中使用的处理方法
US20130009980A1 (en) * 2011-07-07 2013-01-10 Ati Technologies Ulc Viewing-focus oriented image processing
US9262670B2 (en) * 2012-02-10 2016-02-16 Google Inc. Adaptive region of interest
CA2942336A1 (en) 2014-03-10 2015-09-17 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US9858470B2 (en) * 2014-07-18 2018-01-02 Htc Corporation Method for performing a face tracking function and an electric device having the same
WO2016207861A1 (en) * 2015-06-25 2016-12-29 Nokia Technologies Oy Method, apparatus, and computer program product for predictive customizations in self and neighborhood videos
KR20170042431A (ko) 2015-10-08 2017-04-19 삼성전자주식회사 디스플레이 모양에 따라 영상 데이터를 불균일하게 인코딩/디코딩하도록 구성되는 전자 장치
US10153002B2 (en) * 2016-04-15 2018-12-11 Intel Corporation Selection of an audio stream of a video for enhancement using images of the video
US10950275B2 (en) 2016-11-18 2021-03-16 Facebook, Inc. Methods and systems for tracking media effects in a media effect index
US10122965B2 (en) 2016-11-29 2018-11-06 Facebook, Inc. Face detection for background management
US10303928B2 (en) * 2016-11-29 2019-05-28 Facebook, Inc. Face detection for video calls
US10554908B2 (en) 2016-12-05 2020-02-04 Facebook, Inc. Media effect application
CN106604151A (zh) * 2016-12-28 2017-04-26 深圳Tcl数字技术有限公司 视频聊天方法及装置
US10805676B2 (en) * 2017-07-10 2020-10-13 Sony Corporation Modifying display region for people with macular degeneration
US11151993B2 (en) * 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
EP3934260A1 (en) * 2020-06-30 2022-01-05 Ymagis Transport of a movie in multiple frame rates to a film auditorium

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6330023B1 (en) * 1994-03-18 2001-12-11 American Telephone And Telegraph Corporation Video signal processing systems and methods utilizing automated speech analysis
JP3086396B2 (ja) * 1995-03-10 2000-09-11 シャープ株式会社 画像符号化装置及び画像復号装置
JPH11285001A (ja) * 1998-01-27 1999-10-15 Sharp Corp 動画像符号化装置及び動画像復号装置
GB2357650A (en) * 1999-12-23 2001-06-27 Mitsubishi Electric Inf Tech Method for tracking an area of interest in a video image, and for transmitting said area
US6650705B1 (en) * 2000-05-26 2003-11-18 Mitsubishi Electric Research Laboratories Inc. Method for encoding and transcoding multiple video objects with variable temporal resolution
JP2003111050A (ja) * 2001-09-27 2003-04-11 Olympus Optical Co Ltd 映像配信サーバ及び映像受信クライアントシステム

Also Published As

Publication number Publication date
JP2009501476A (ja) 2009-01-15
WO2007007257A1 (en) 2007-01-18
US20100060783A1 (en) 2010-03-11
RU2008105303A (ru) 2009-08-20
EP1905243A1 (en) 2008-04-02
CN101223786A (zh) 2008-07-16

Similar Documents

Publication Publication Date Title
KR20080031408A (ko) 비디오 시간 업-컨버전을 갖는 프로세싱 방법 및 디바이스
US10977809B2 (en) Detecting motion dragging artifacts for dynamic adjustment of frame rate conversion settings
US6625333B1 (en) Method for temporal interpolation of an image sequence using object-based image analysis
KR100721543B1 (ko) 통계적 정보를 이용하여 노이즈를 제거하는 영상 처리 방법및 시스템
CN110324626B (zh) 一种面向物联网监控的双码流人脸分辨率保真的视频编解码方法
US20160065864A1 (en) System and method for online processing of video images in real time
US9202263B2 (en) System and method for spatio video image enhancement
WO2014114098A9 (zh) 终端侧时间域视频质量评价方法及装置
KR20040098162A (ko) 프레임 레이트 변환시의 프레임 보간 방법 및 그 장치
JP2003163894A (ja) 適応動き補償型フレーム及び/又はフィールドレート変換装置及びその方法
JP2002534014A (ja) ビデオ用途における増加されたビデオ再生フレームレート
You et al. Balancing attended and global stimuli in perceived video quality assessment
JP2005176381A (ja) 適応的動き補償の補間方法及び装置
JP2004282535A (ja) 画角調整装置
WO2020108060A1 (zh) 视频处理方法、装置、电子设备以及存储介质
CN116170650A (zh) 视频插帧方法及装置
He et al. Real-time whiteboard capture and processing using a video camera for teleconferencing
CN101753854A (zh) 图像通讯方法及使用其的电子装置
Seiler et al. Spatio-temporal error concealment in video by denoised temporal extrapolation refinement
US11587321B2 (en) Enhanced person detection using face recognition and reinforced, segmented field inferencing
CN114387440A (zh) 一种视频裁剪方法、装置及存储介质
CN113810725A (zh) 视频处理方法、装置、存储介质及视频通讯终端
Zhen et al. Video quality assessment based on fast structural similarity index algorithm
CN111417015A (zh) 一种计算机视频合成的方法
Lin et al. Realtime object extraction and tracking with an active camera using image mosaics

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid