KR20140147123A - 움직임 보상 기반 비디오 코딩을 보조하는 깊이 정보의 사용 - Google Patents

움직임 보상 기반 비디오 코딩을 보조하는 깊이 정보의 사용 Download PDF

Info

Publication number
KR20140147123A
KR20140147123A KR1020147031185A KR20147031185A KR20140147123A KR 20140147123 A KR20140147123 A KR 20140147123A KR 1020147031185 A KR1020147031185 A KR 1020147031185A KR 20147031185 A KR20147031185 A KR 20147031185A KR 20140147123 A KR20140147123 A KR 20140147123A
Authority
KR
South Korea
Prior art keywords
subject
depth
background
motion
frames
Prior art date
Application number
KR1020147031185A
Other languages
English (en)
Other versions
KR101629746B1 (ko
Inventor
젠위 우
홍 헤더 유
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20140147123A publication Critical patent/KR20140147123A/ko
Application granted granted Critical
Publication of KR101629746B1 publication Critical patent/KR101629746B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/43Hardware specially adapted for motion estimation or compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/527Global motion vector estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

복수의 포트; 및 상기 복수의 포트에 결합되어 있는 프로세서를 포함하는 장치가 제공되며, 상기 프로세서는, 상기 복수의 포트 중 임의의 포트로부터 복수의 비디오 프레임을 수신하고 - 상기 복수의 비디오 프레임은 피사체 및 배경을 포함하며, 상기 복수의 프레임은 상기 피사체 및 배경에 대한 복수의 컬러 픽셀을 포함함 - ; 상기 복수의 포트 중 임의의 포트로부터 복수의 깊이 프레임을 수신하고 - 상기 복수의 깊이 프레임은 상기 피사체 및 배경을 포함하며, 상기 복수의 깊이 프레임은 배경 깊이와 관련된 피사체 깊이의 지시(indication)를 포함함 - ; 그리고 상기 배경 깊이와 관련된 피사체 깊이의 지시를 사용하여 상기 복수의 비디오 프레임을 인코딩하도록 구성되어 있다.

Description

움직임 보상 기반 비디오 코딩을 보조하는 깊이 정보의 사용{USING DEPTH INFORMATION TO ASSIST MOTION COMPENSATION-BASED VIDEO CODING}
본 출원은 Zhenyu Wu 등에 의해 2013년 4월 17일에 출원되고 발명의 명칭이 "Using Depth Information to Assist Motion Compensation-Based Video Coding"인 미국 비 예비 출원 No. 13/864,672에 대한 우선권을 주장하며, 상기 문헌은 Zhenyu Wu 등에 의해 2012년 4월 19일에 출원되고 발명의 명칭이 "System and Method for Motion Compensation-Based Video Coding"인 미국 비 예비 출원 No. 61/635,690에 대한 우선권을 주장하며, 상기 두 문헌의 내용은 본 명세서에 원용되어 병합된다.
통상적으로, 비디오는 일련의 스틸 이미지나 프레임을 상대적으로 빠른 연속으로 표시하는 것을 포함하고, 이에 의해 시청자는 움직임을 인지하게 된다. 각각의 프레임은 복수의 픽셀을 포함하고, 각각의 픽셀은 프레임에서 단일의 기준점을 나타낼 수 있다. 단편의 비디오조차 표현하는 데도 필요한 데이터 양은 상당하며, 그 결과 제한된 대역폭 용량으로 네트워크를 통해 데이터를 통신할 때 어려움이 있다. 그러므로 비디오의 소스인 장치상에서 비디오 압축 하드웨어 또는 소프트웨어를 통해 비디오를 압축할 수 있다. 압축은 네트워크를 통해 통신 중인 비디오 스트림 이전의 인코딩 프로세스의 일부일 수 있으며, 이것은 비디오를 통신하는 데 필요한 데이터량을 감소시킨다. 인코딩이란 소스 데이터를 심벌로 변환하는 프로세스를 말한다. 그런 다음 디코딩 프로세스의 일부로서 비디오의 수신기인 장치상에서 비디오 압축해제 하드웨어 또는 소프트웨어를 통해 비디오를 압축해제할 수 있다. 디코딩이란 심벌을 소스 데이터로 다시 변환하는 프로세스를 말한다.
압축 및 압축해제 기술을 향상시키면 압축비를 높일 수 있고 따라서 비디오 품질을 실질적으로 감소시키지 않으면서 비디오를 통신하는 데 필요한 데이터량을 감소시킬 수 있다. 또한, 압축 및 압축해제 기술을 향상시키면 비디오 품질을 향상시킬 수 있다.
일실시예에서, 본 개시는 장치를 포함하며, 상기 장치는, 복수의 포트; 및 상기 복수의 포트에 결합되어 있는 프로세서를 포함하며, 상기 프로세서는, 상기 복수의 포트 중 임의의 포트로부터 복수의 비디오 프레임을 수신하고 - 상기 복수의 비디오 프레임은 피사체 및 배경을 포함하며, 상기 복수의 비디오 프레임은 상기 피사체 및 배경에 대한 복수의 컬러 픽셀을 포함함 - ; 상기 복수의 포트 중 임의의 포트로부터 복수의 깊이 프레임을 수신하고 - 상기 복수의 깊이 프레임은 상기 피사체 및 배경을 포함하며, 상기 복수의 깊이 프레임은 배경 깊이와 관련된 피사체 깊이의 지시(indication)를 포함함 - ; 그리고 상기 배경 깊이와 관련된 피사체 깊이의 지시를 사용하여 상기 복수의 비디오 프레임을 인코딩하도록 구성되어 있다.
다른 실시예에서, 본 개시는 시스템을 포함하며, 상기 시스템은, 복수의 비디오 프레임을 획득하도록 구성되어 있는 카메라 - 상기 복수의 비디오 프레임은 피사체 및 배경을 포함하며, 상기 복수의 프레임은 상기 피사체 및 배경에 대한 복수의 컬러 픽셀을 포함함 - ; 복수의 깊이 프레임을 획득하도록 구성되어 있는 깊이 장치 - 상기 복수의 깊이 프레임은 상기 피사체 및 배경을 포함하며, 상기 복수의 깊이 프레임은 배경 깊이와 관련된 피사체 깊이의 지시를 포함함 - ; 및 상기 카메라 및 깊이 장치에 결합되어 있는 인코더를 포함하며, 상기 인코더는 상기 배경 깊이와 관련된 피사체 깊이의 지시를 사용하여 상기 복수의 비디오 프레임을 인코딩하도록 구성되어 있다.
또 다른 실시예에서, 본 개시는 방법을 포함하며, 상기 방법은, 복수의 포트 중 임의의 포트로부터 복수의 비디오 프레임을 수신하는 단계 - 상기 복수의 비디오 프레임은 피사체 및 배경을 포함하며, 상기 복수의 비디오 프레임은 상기 피사체 및 배경에 대한 복수의 컬러 픽셀을 포함함 - ; 상기 복수의 포트 중 임의의 포트로부터 복수의 깊이 프레임을 수신하는 단계 - 상기 복수의 깊이 프레임은 상기 피사체 및 배경을 포함하며, 상기 복수의 깊이 프레임은 배경 깊이와 관련된 피사체 깊이의 지시를 포함함 - ; 및 상기 배경 깊이와 관련된 피사체 깊이의 지시를 사용하여 상기 복수의 비디오 프레임을 인코딩하는 단계를 포함한다.
이러한 특징 및 다른 특징은 첨부된 도면 및 특허청구범위와 결합하여 설명되는 이하의 발명의 상세한 설명으로부터 더 확실하게 이해될 것이다.
본 개시를 더 완전하게 이해할 수 있기 위해, 첨부된 도면 및 상세한 설명과 연관하여, 이하에 도면에 대한 설명을 참조하며, 도면 중 유사한 도면은 유사한 부분을 나타낸다.
도 1은 본 발명의 실시예에 따른 통신 시스템에 대한 개략도이다.
도 2는 깊이 프레임의 예시도이다.
도 3은 본 발명의 실시예에 따른 비디오 인코딩 방법을 설명하는 흐름도이다.
도 4는 본 발명의 실시예에 따른 네트워크 장치에 대한 개략도이다.
하나 이상의 실시예의 도해적 실행을 이하에 제공하지만, 개시된 시스템 및/또는 방법은 현재 알려져 있든 존재하고 있든 간에, 임의의 수의 기술을 사용해서 실현될 수 있다는 것을 이해해야 한다. 본 개시는 여기에 도해되고 설명된 예시적 설계 및 실행을 포함한, 이하에 설명되는 도해적 실행, 도면, 및 기술에 제한되지 않으며, 등가의 전체 범위와 함께 첨부된 특허청구범위의 범위 내에서 변형될 수 있다.
비디오 인코딩은 움직임 추정을 포함할 수 있다. 비디오 인코딩과 관련해서, 움직임 추정이란 하나의 비디오 프레임과 다른 비디오 프레임을 관련시키는 움직임 벡터를 결정하는 특별한 프로세스를 말한다. 움직임 추정은 블록 매칭 알고리즘을 적용할 수 있다. 이러한 알고리즘에서, 인코더는 비디오 프레임을 매크로블록으로 분할하고, 이러한 매크로블록은 다시 더 작은 서브매크로블록으로 추가로 분할될 수 있다. 원래의 매크로블록 및 추가 분할된 서브매크로블록을 코딩 블록이라고도 한다. 인코더는 제1 비디오 프레임 내의 제1 매크로블록을 식별할 수 있다. 이때, 제2 비디오 프레임을 횡단하는 각각의 매크로블록을 순차적으로 스캐닝함으로써, 제1 비디오 프레임 내의 제1 매크로블록을 가장 밀접하게 닮은 제2 비디오 프레임 내의 제2 매크로블록을 식별할 수 있다. 제2 매크로블록이 제1 매크로블록과 관련해서 2차원 격자를 따라 이동하면, 인코더는 2개의 비디오 프레임으로부터 데이터를 인코딩할 때, 그 이동된 거리를 설명하는 움직임 벡터와 관련해서만 제1 매크로블록을 완전하게 설명하고 제2 매크로블록을 설명할 수 있다. 그렇지 않으면, 인코더는 제1 매크로블록 및 제2 매크로블록을 모두 완전하게 설명할 수 있다. 후자의 시나리오와 비교해 보면, 움직임 벡터를 사용하는 전자의 시나리오는 2개의 비디오 매크로블록 및 그에 따른 2개의 비디오 프레임을 을 설명하는 데 필요한 데이터량을 감소할 수 있다. 인코더는 이 프로세스를 반복하고 예를 들어 비디오 회의가 끝날 때까지 유한 개수의 비디오 프레임에 대한 움직임 추정 정보를 판정할 수 있다.
움직인 추정은 비디오 인코딩에 있어서 계산 자원 소모의 실질적인 원인이다. 일부의 경우, 움직임 추정은 계산 자원 소모의 60% 내지 70%에 이를 수 있다. 그러므로 일부의 기존 솔루션은 고속 움직임 추정 및 모드 판정 기술과 같은, 개선된 알고리즘을 사용해서 움직임 추정의 계산 자원 소모를 감소시키려 한다. 전술한 2개의 비디오 프레임 및 2개의 매크로블록의 예에서, 인코더는 미리 정해진 검색 패턴 및 초기의 종료 기준(termination criteria)을 사용하여 제2 매크로블록을 검색할 수 있다. 이러한 기술을 사용할 때, 인코더는 제2 비디오 프레임에서 제1 매크로블록과 매칭하지 않을 것 같은 후보를 검색하는 것을 건너뛴다. 전술한 2개의 비디오 프레임 및 2개의 매크로블록의 예를 계속 설명하면, 인코더는 제1 매크로블록의 공간 및/또는 시간 이웃을 먼저 찾을 수 있거나, 또는 인코더는 상이한 공간 해상도로 제1 매크로블록의 공동 위치하는 블록을 찾을 수 있다. 다른 기존의 솔루션은 더 강력한 그래픽 처리 유닛(GPU), 디지털 신호 프로세서(DSP), 및 필드 프로그래머블 게이트 어레이(FPGA)와 같은 강력한 하드웨어를 필요로 할 수 있다. 그렇지만, 이러한 시스템 및 아키텍처는 계산 자원 소모의 관점에서 바람직하지 않다.
개선된 인코딩 기술을 위한 시스템 및 방법에 대해 여기서 설명한다. 개시된 기술은 회의(videoconferencing), 텔레프레전스(telepresence), 또는 비디오 감시, 및 이미지 또는 비디오를 포함하는 다른 애플리케이션에 적용될 수 있다. 이러한 기술을 사용하면, 비디오를 픽셀 기반 카메라 및 깊이 장치 모두에 의해 포착할 수 있다. 그런 다음 인코더는 픽셀 데이터 및 깊이 데이터를 사용해서 피사체를 분할하고, 이러한 피사체가 비디오 프레임을 횡단하는 것을 추적하고, 이러한 피사체의 움직임 모델을 구성하며, 이 움직임 모델에 기초해서 이러한 피사체의 움직임 벡터를 유도할 수 있다. 본 문맥에서, 분할이란 프레임을 픽셀의 집합으로 구획하는 것을 말한다. 예를 들어, 프레임 내의 개개의 피사체는 프레임의 나머지로부터 구획될 수 있다. 이러한 기술을 적용함으로써, 인코더는 기술을 적용하지 않으면 필요하게 될 움직임 추정량을 적어도 부분적으로 감소할 수 있다. 움직임 추정의 감소에 따라 계산 자원 소모의 감소를 이끌 수 있고, 이에 따라 덜 복잡한 하드웨어가 필요하게 되고 따라서 하드웨어 비용 및 전력 소모를 감소시킬 수 있다. 계산 자원 소모의 감소에 따라 데이터가 덜 필요하게 되고 따라서 비디오 용량 및 비디오 품질이 개선될 수 있다. 또한, 개시된 기술에 따라 압축 효율이 직접적으로 향상될 수 있다. 마지막으로, 개시된 기술에 따라 비디오 품질이 직접적으로 개선될 수 있다.
개시된 기술을 사용해서 계산 자원 소모를 감소시키는 것은 적어도 2가지 방식으로 수행될 수 있다. 먼저, 인코더는 모델화된 피사체에 있어서, 개시된 기술 덕택에 움직임 추정을 우회할 수 있다. 개시된 기술을 사용해서 모델화된 피사체에 대해 움직임 벡터를 유도하는 것은 기술을 사용하지 않는 움직임 추정에서 유도하는 것보다 계산 자원 소모가 덜 필요할 수 있다. 둘째, 모델화된 피사체에 대한 움직임 추정을 우회하는 대신, 인코더는 그 모델화된 피사체 내의 매크로블록에 대해 움직임 추정을 시작하도록 그 유도된 움직임 벡터를 사용함으로써 이전의 기술보다 더 나은(예를 들어, 더 최적의) 움직임 예측자를 판정할 수 있다. 이 방법에서, 인코더는 매칭하지 않을 것 같은 매크로블록에 대해서는 검색으로 하지 않음으로써 계산 자원 소모를 감소시킬 수 있다.
개시된 기술을 사용해서 압축 효율을 향상시키는 것은 적어도 2가지 방식으로 수행될 수 있다. 먼저, 전술한 바와 같이, 움직임 추정은 인코더를 포함하는데, 이 인코더는 매칭 매크로블록을 찾을 때까지 비디오 프레임을 횡단하는 각각의 매크로블록을 순차적으로 스캐닝한다. 이와 같이 할 때, 인코더는 매칭 매크로블록에 인접하는 인코딩되지 않은 매크로블록에 대한 움직임 벡터를 알지 못한다. 이 프로세스는 움직임 벡터가 매칭 매크로블록에 대해서는 더 낫지만, 인접 매크로블록을 함께 고려할 때는 부적합하다. 개시된 기술을 사용하면, 인코더는 모델화된 피사체에 속하는 인접하는 매크로블록에 대한 움직임 벡터를 알 수 있다. 인코더는 이 정보를 사용함으로써 비디오 프레임의 모델화되지 않은 영역에 대해 더 나은(예를 들어, 더 최적의) 움직임 벡터를 유도할 수 있다. 둘째, 전술한 바와 같이, 인코더는 그 유도된 움직임 벡터를 사용하여 더 나은(예를 들어, 더 최적의) 움직임 예측자를 판정할 수 있다. 고정된 크기의 움직임 검색창이 제공되면, 움직임 예측자가 더 좋을수록 이전의 기술보다 더 나은(예를 들어, 더 최적의) 움직임 추정 움직임 벡터를 생성할 수 있다.
개시된 기술은 깊이 데이터가 현실적인 피사체의 움직임을 정교하게 반영할 수 있기 때문에 직접적으로 품질을 향상시킬 수 있다. 이러한 이유로, 개시된 기술에 따라 픽셀 데이터만을 사용할 때보다 단점, 또는 왜곡이 더 적게 될 수 있다.
도 1은 본 발명의 실시예에 따른 통신 시스템(100)에 대한 개략도이다. 통신 시스템(100)은 네트워크(150)를 통해 복수의 세컨더리 장치(160)에 통신 가능하게 결합되어 있는 프라이머리 장치(110)를 포함할 수 있다. 프라이머리 장치(110)는 휴대폰, 태블릿 컴퓨터, 데스크톱 컴퓨터, 노트북 컴퓨터, 또는 다른 장치일 수 있다. 세컨더리 장치(160) 각각은 마찬가지로 휴대폰, 태블릿 컴퓨터, 데스크톱 컴퓨터, 노트북 컴퓨터, 또는 다른 장치일 수 있다. 네트워크(150)는 인터넷, 무선 이동전화 네트워크, 또는 다른 네트워크일 수 있다.
프라이머리 장치(110)는 카메라(120), 깊이 장치(130), 및 인코더(140)를 포함할 수 있다. 카메라(120)는 이미지 또는 비디오 프레임을 포착하는 데 적합한 카메라일 수 있다. 이미지 또는 비디오 프레임은 당기술분야에 잘 알려져 있으며, 각각의 이미지 또는 비디오 프레임은 적-녹-청(RGB) 또는 다른 적절한 컬러 공간 내의 복수의 픽셀을 포함할 수 있다. 깊이 장치(130)는 도시된 바와 같이 프라이머리 장치(110)의 일부일 수 있다. 대안으로, 깊이 장치(130)는 프라이머리 장치(110)의 부착 부품일 수 있거나 단순히 프라이머리 장치(110)에 통신 가능하게 결합될 수 있다. 깊이 장치(130)는 깊이 센서, 라이트 필드 카메라(light field camera), 거리연동 카메라(ranging camera), 적외선 카메라, 자외선 카메라, 레이더 또는 소나 어셈블리, 상보형 금속산화물 반도체(complementary metal-oxide-semiconductor: CMOS) 비주얼 카메라, 전하결합소자(charged-coupled device: CCD) 비주얼 센서, 또는 비주얼 센서의 조합, 또는 깊이 프레임을 포착하는 데 적절한 다른 깊이 장치일 수 있다. 깊이 장치(130)는 카메라(120)와 협동해서 이와 같은 깊이 프레임을 포착하고, 이와 같이 일반적으로 카메라(120)에 가까이(예를 들어, 6인치 이내) 위치하며 카메라(120)의 시야각과 유사한 시야각을 가진다. 환언하면, 카메라(120)가 특정한 시간에 특정한 초점 영역의 비디오 프레임을 포착하면, 깊이 장치(130)는 동일한 초점 영역 및 동일한 시간에 대응하는 깊이 프레임을 포착할 수 있다. 깊이 장치(130)는 적외선 또는 다른 전자기파를 사용해서 깊이 프레임을 포착할 수 있다. 깊이 프레임은 다른 깊이를 나타내는 복수의 다른 강도 값을 포함할 수 있다. 예를 들어, 높거나 밝은 강도는 깊이 장치(130)에 상대적으로 더 가까운 피사체를 나타낼 수 있는 바면, 낮거나 어두운 강도는 깊이 장치(130)로부터 상대적으로 더 멀리 있는 피사체를 나타낼 수 있다. 대안으로, 깊이 프레임은 깊이 장치(130)로부터 피사체 내의 픽셀 중 일부 또는 모두의 거리에 대한 근사 또는 절대 측정치를 포함할 수 있다. 실시예에서, 깊이 프레임은 깊이 프레임의 각각의 픽셀이 대응하는 비디오 프레임의 동일한 영역에 위치하는 픽셀에 대응하도록 픽셀을 포함할 수 있다.
도 2는 깊이 프레임(200)에 대한 예시도이다. 깊이 프레임(200)은 깊이 프레임(200)의 전경 내의 사람(210) 및 깊이 프레임(200)의 배경 내의 소파(220)를 포함한다. 도시된 바와 같이, 사람(210)은 깊이 프레임(200)에서 상대적으로 가까이 있고 따라서 밝은 강도 또는 덜 진한 음영으로 나타나며, 반면 소파(220)는 깊이 프레임(200)에서 상대적으로 멀리 있고 따라서 흐린 강도 또는 더 진한 음영으로 나타난다. 소파(220) 뒤의 영역은 훨씬 더 멀리 있고 따라서 훨씬 흐린 강도 또는 훨씬 진한 음영으로 나타난다. 당업자라면 깊이 프레임이 통상적으로 어떻게 나타날 수 있는지 이해할 수 있을 것이다.
도 1을 다시 참조하면, 인코더(140)는 비디오 데이터를 인코딩하는 데 적합한 임의의 인코더일 수 있다. 인코더(140)는 개별적인 모듈일 수 있거나 더 큰 컴퓨팅 프로세스 중 일부일 수 있다. 프라이머리 장치(110)는 또한 비디오 디코더(도시되지 않음)를 포함할 수 있고 디스플레이 스크린(도시되지 않음)을 포함할 수도 있다.
깊이 장치(130)에는 약간의 제약이 있다. 먼저, 깊이 장치(130)와 피사체 간의 거리 차이, 최소한의 구별 가능한 거리 차이, 및 시야각은 성능을 떨어뜨릴 수 있다. 둘째, 비디오 프레임과 깊이 프레임을 적절하게 정렬시키기 위해서는 카메라(120)와 깊이 장치(130)가 주의 깊게 협동하는 것이 중요할 수 있다. 이러한 주의 깊은 협동이 없으면, 개시된 기술은 완전하게 진가를 알아볼 수 없을 수도 있다.
프라이머리 장치(110)는 세컨더리 장치(160) 중 적어도 하나로 화상통화에 참여할 수 있다. 프라이머리 장치(110) 및 참여하는 각각의 세컨더리 장치(160)는 데이터를 송수신하여 화상통화에 참여할 수 있다. 예를 들어, 프라이머리 장치(110)는 카메라(120) 및 깊이 장치(130)를 통해 데이터를 획득하고, 인코더(140)를 통해 데이터를 인코딩하며, 그 인코딩된 데이터를 참여하는 세컨더리 장치(160)에 전송할 수 있다. 동시에, 프라이머리 장치(110)는 참여하는 세컨더리 장치(160)로부터 인코딩된 데이터를 수신하고, 그 수신된 데이터를 디코딩할 수 있다. 이와 같이, 세컨더리 장치(160)는 프라이머리 장치(110)와 동일한 구성요소를 포함할 수 있다. 프라이머리 장치(110) 및 각각의 세컨더리 장치(160)는 하드웨어와 소프트웨어의 임의의 조합을 통해 전술한 작업 및 후술되는 작업을 수행할 수 있다.
도 3은 본 발명의 실시예에 따른 비디오 인코딩 방법(300)을 설명하는 흐름도이다. 방법(300)은 전술한 프라이머리 장치(110)에서 실행될 수 있으며, 예를 들어, 인코더(140)에서 실행될 수 있다. 또한, 방법(300)은 이미지 추출(365), 피사체 분할(370), 움직임 계산(375), 및 비디오 인코딩(380)의 일반적인 단계를 포함할 수 있다.
방법(300)은 단계(305)에서 시작하는데, 여기서 카메라(120)와 같은 임의의 적절한 소스로부터 비디오를 수신할 수 있다. 단계(310)에서, 깊이 장치(130)와 같은 임의의 적절한 소스로부터 깊이 프레임을 수신할 수 있다. 전술한 바와 같이, 비디오 프레임 및 깊이 프레임은 동일한 초점 영역에 동시에 대응할 수 있다. 단계(315)에서, 비디오 프레임으로부터 픽셀 데이터를 추출할 수 있다. 픽셀 데이터는 적, 녹, 청의 값일 수 있으며 비디오 프레임 내의 각각의 픽셀을 형성하는 데 사용된다. 단계(320)에서, 깊이 프레임으로부터 깊이 데이터를 추출할 수 있다. 깊이 데이터는 깊이 프레임 내의 각각의 픽셀을 형성하는 데 사용되는 강도 값일 수 있고 깊이 장치(130)로부터 피사체의 상대적 거리를 나타낼 수 있다.
단계(325)에서, 피사체는 분할될 수 있다. 피사체는 예를 들어 (도 2에 도시된 바와 같이) 비디오 프레임 및 깊이 프레임의 배경에 있는 소파일 수 있다. 비디오 프레임에서의 컬러 패턴은 피사체를 분할하는 데 사용될 수 있다. 예를 들어, 소파가 적색 및 백색 줄무늬를 가지고 있으면, 인코더(140)는 적색 및 백색의 그룹을 비디오 프레임의 나머지와 구별하고 분할함으로써 소파를 비디오 프레임의 나머지로부터 분할할 것이다. 그렇지만, 픽셀 데이터만을 사용하는 피사체 분할은 상대적으로 복잡하고 오차가 생기기 쉽다. 예를 들어, 전경에 있는 사람이 적색 및 백색의 줄무늬가 있는 셔츠를 입고 있으면, 두 피사체가 유사한 패턴 및 컬러를 공유하고 있기 때문에 인코더(140)는 사람의 셔츠와 소파 모두를 하나의 피사체로 부정확하게 분할할 수 있다. 깊이 데이터를 사용하는 피사체 분할은 깊이 프레임에서 깊이 패턴을 판정할 수 있다. 예를 들어, 소파는 깊이 프레임의 전경에서 실질적으로 일정한 깊이에 있을 수 있고 따라서 그 픽셀은 자체 간에 실질적으로 유사한 강도를 보일 것이다. 소파는 배경에 있으므로, 소파는 상대적으로 흐릿한 강도를 보일 수 있다. 대조적으로, 사람의 셔츠는 전경에 있으므로, 사람의 셔츠는 상대적으로 밝은 강도를 보일 것이다. 깊이 데이터를 사용하는 피사체 분할은 픽셀 데이터를 사용하는 피사체 분할과 높게 상관될 수 있으면서, 두 피사체 분할 방법은 서로 보완하고 개선된 피사체 분할을 제공한다는 것을 의미한다. 뚜렷한 전경 피사체와 뚜렷한 배경 피사체를 가지는 프레임에서 피사체를 분할할 때, 개선은 특히 두드러질 수 있다. 예를 들어, 픽셀 데이터만을 사용하는 피사체 분할은 사람의 셔츠와 소파를 하나의 분할 피사체로서 결합하지만, 깊이 데이터를 사용하는 피사체 분할을 적용하면 사람의 셔츠와 소파를 구별하는 데 일조할 수 있다. 따라서, 픽셀 데이터와 깊이 데이터 모두를 사용하는 피사체 분할을 적용하면 복잡도가 더 낮아지고 픽셀 데이터만을 사용하는 피사체 분할에 비해 신뢰도를 높일 수 있다.
단계(330)에서, 방법(300)은 분할된 피사체가 단단한지를 판정할 수 있다. 단단한 피사체를 비디오 프레임을 횡단하여 위치를 이동시킬 수 있는 피사체라 할 수 있으나, 피사체 자체의 경계 내에서는 실질적으로 변하지 않는다. 예를 들어, 카메라(120)가 그 초점 영역을 이동하면 소파는 비디오 프레임을 횡단하여 이동할 수 있으며; 그렇지만, 소파 자체는 그 형상이나 컬러가 실질적으로 변하지 않을 수 있다. 대조적으로, 사람의 얼굴은 비디오 프레임을 횡단하면서 그 형상이 변할 수도 있다. 예를 들어, 사람은 말하기 위해 자신의 입을 벌릴 수도 있고 눈을 깜박거리기 위해 자신의 눈을 감을 수도 있다. 피사체가 단단하지 않으면, 프로세스는 단계(350)로 진행할 수 있다. 단계(350)에서, 인코더는 피사체의 움직임 추정을 수행하고 단계(355)로 진행할 수 있다. 피사체가 단단하면, 방법(300)은 단계(335)로 진행할 수 있다. 피사체 분할은 더 큰 피사체의 부분을 분할하는 과정을 포함할 수 있다는 것에 주목하는 것이 중요한데, 예를 들어 사람의 몸통을 신체의 나머지 부분과 분할한다. 이것은 몸통은 비디오 프레임을 횡단하면서 단단하게 유지되는 반면 얼굴은 비디오 프레임을 횡단하면서 그 형상이 변할 수도 있기 때문에 수행될 수 있다. 또한, 프라이머리 피사체의 깊이를 세컨더리 피사체와 구별함으로써 프라이머리 피사체와 세컨더리 피사체를 분할할 수도 있다. 세컨더리 피사체가 프라이머리 피사체의 뒤에 있을 수도 있기 때문에 세컨더리 피사체가 배경에 있는 것으로 간주할 수도 있다. 환언하면, "전경" 및 "배경"이란 말은 상대적인 용어로 사용될 수 있다.
단계(335)에서, 피사체는 식별되고 추적될 수 있다. 환언하면, 인코더(140)는 전술한 이중의 분할 방법을 적용하고 유한 개수의 후속 프레임에서 제1 프레임에서 분할된 피사체를 식별할 수 있다. 그런 다음 방법(300)은 그 피사체가 어떻게 프레임을 횡단하는지를 추적할 수 있다.
단계(340)에서, 피사체 움직임을 모델화할 수 있다. 인코더(140)는 병진운동(translational), 기하학(geometric), 아핀(affine) 또는 원근(perspective) 모델을 포함한, 임의의 적절한 글로벌 움직임 모델을 사용하여 모델화를 수행할 수 있다. 이러한 모델은 "더 많은 특정한 움직임에서 더 많은 일반적인 움직임으로"에 대응하는 "낮은 순위 모델에서 높은 순위 모델의 순서"로 열거되어 있고, "Global Motion Estimation from Coarsely Sampled Motion Vector Field and the Applications," Yeping, Su, 등, IEEE Transactioins on Circuits and Systems for Video Technology, vol. 15, no. 2, 2005년 2월에 설명되어 있으며, 상기 문헌의 내용은 본 명세서에 원용되어 병합된다.
단계(345)에서, 방법(300)은 전술한 피사체 움직임 모델링을 사용하여 피사체의 각각의 코딩 블록에 대해 움직임 벡터를 유도할 수 있다. 움직임 벡터는 프레임을 횡단하는 피사체의 각각의 코딩 블록의 실제의 움직임 궤적을 설명할 수 있다. 또한, 방법(300)은 깊이 프레임으로부터, 프레임을 횡단하여 이동하지 않는 피사체는 움직임이 없는 정적의 배경이다는 것으로 판정할 수 있다.
방법(300)은 그런 다음 단계(350) 또는 단계(355)로 진행할 수 있다. 단계(350)로 진행하는 경우, 방법(300)은, 전술한 바와 같이, 모델화된 피사체 내의 코딩 블록에 대한 움직임 추적을 시작하도록 그 유도된 움직임 벡터를 사용함으로써 더 많은 최적의 움직임 예측자(predictor)를 판정할 수 있고, 그런 다음 단계(355)로 진행한다. 그렇지 않으면, 프로세스는 단계(355)로 바로 진행할 수 있다. 단계(355)에서, 방법(300)은, 그 유도된 움직임 벡터를 포함하면서 비디오 프레임을 설명하는 데이터를 인코딩할 수 있다. 단계(360)에서, 방법(300)은 그 인코딩된 데이터를 출력할 수 있는데, 예를 들어, 그 인코딩된 비디오 데이터를 세컨더리 장치(160)에 전송할 수 있다. 단단한 피사체에 대한 움직임 벡터를 유도하고 인코딩하는 전술한 방법(300)을 사용함으로써, 인코더는 움직임 보상 기반 비디오 코딩을 사용한다고 말할 수 있다.
여기서 설명되는 개선된 보상 효율은 피사체가 얼마나 정확하게 분할되고 추적될 수 있느냐에 따라 다를 수 있다. 예를 들어, 피사체가 상대적으로 뚜렷하고 간단한 움직임을 보이는 비디오 회의 및 비디오 감시와 같은 애플리케이션은 최선의 개선을 시범 보일 수 있다.
도 4는 본 발명의 실시예에 따른 네트워크 장치(400)에 대한 개략도이다. 네트워크 장치(400)는 복수의 진입 포트(410) 및/또는 데이터를 수신하는 수신기 유닛(Rx)(420), 신호를 처리하는 프로세서 또는 로직 유닛(430), 복수의 퇴거 포트(440) 및/또는 데이터를 다른 구성요소에 전송하는 전송 유닛(Tx)(450), 및 메모리(460)를 포함할 수 있다. 네트워크 장치(400)는 전술한 특징, 방법, 및 장치를 실현하는 데 적절할 수 있으며, 그와 같이 도 1에 도시되고 본 개시에서 설명된 바와 같은 프라이머리 장치(110) 및 세컨더리 장치(160)의 일부일 수 있다. 예를 들어, 진입 포트(410)는 카메라(120) 및 깊이 장치(130)에 결합될 수 있고, 퇴거 포트(440)는 네트워크(150)에 결합될 수 있다. 또한, 인코더(140)는 프로세서(430) 및/또는 메모리(460)에서 실현될 수 있다. 이와 같이, 프로세서(430) 및/또는 메모리(460)는 비디오 인코딩 모듈(470)을 포함할 수 있으며, 이 비디오 인코딩 모듈은 방법(300)에 대응할 수 있다. 비디오 인코딩 모듈(470)은 이미지 추출 서브모듈(475)(이것은 이미지 추출(365)을 실행하는 명령을 포함할 수 있다), 피사체 분할 서브모듈(480)(이것은 피사체 분할(370)을 실행하는 명령을 포함할 수 있다), 움직임 계산 서브모듈(485)(이것은 움직임 계산(375)을 실행하는 명령을 포함할 수 있다), 및 비디오 인코딩 서브모듈(490)(이것은 비디오 인코딩(380)을 실행하는 명령을 포함할 수 있다)을 포함할 수 있다.
프로세서(430)는 중앙처리장치(CPU)라고도 하며 진입 포트(410), 수신기 유닛(420), 퇴거 포트(440), 전송기 유닛(450), 및 메모리(460)와 통신할 수 있다. 프로세서(430)는 하나 이상의 CPU 칩, 코어(예를 들어, 멀티코어 프로세서), 필드 프로그래머블 게이트 어레이(FPGA), 주문형 집적회로(ASIC), 및/또는 디지털 신호 프로세서(DSP)로서 실현될 수 있으며, 및/또는 하나 이상의 ASIC의 일부일 수 있다.
메모리(460)는 하나 이상의 디스크, 탭 드라이브, 또는 고체 상태 드라이브로 이루어질 수 있으며; 데이터의 비휘발성 저장을 위해 사용될 수 있으며 오버-플로 데이터 저장 장치로서 사용될 수 있으며; 이러한 프로그래밍 실행을 위해 선택될 때 프로그램을 저장하는 데 사용될 수 있으며; 그리고 프로그램 실행 동안 명령을 저장할 수 있으며 데이터도 저장할 수도 있다. 메모리(460)는 휘발성 및/또는 비휘발성일 수 있으며 리드 온리 메모리(ROM) 및/또는 랜덤 액세스 메모리(RAM)일 수도 있다.
적어도 하나의 실시예에 대해 설명하였으며, 당업자가 수행하는 실시예(들) 및/또는 실시예(들)의 특징에 대한 변형, 조합, 및/또는 수정은 본 개시의 범위 내에 있다. 실시예(들)의 특징들을 조합, 통합, 및/또는 생략함으로써 생기는 대안의 실시예도 본 개시의 범위 내에 있다. 수치상의 범위 또는 한계를 명시적으로 나타내는 경우, 그러한 표현 범위 또는 한계는 명시적으로 설명된 범위 또는 한계 내에 부합하는 정도의 반복적인 범위 또는 한계를 포함하는 것으로 파악되어야 한다(예를 들어, 약 1부터 약 10까지는 2, 3, 4 등을 포함하고; 0.10보다 크다는 것은 0.11, 0.12, 0.13 등을 포함한다). 예를 들어, 하한 Rl과 상한 Ru를 가지는 수치상의 범위를 설명할 때마다, 그 범위에 부합하는 임의의 수치는 구체적으로 개시된다. 특히, 범위 내에서 이어지는 수치는 구체적으로 개시된다: R = Rl + k*(Ru - Rl)이고, 여기서 k는 1 퍼센트부터 100 퍼센트까지 1 퍼센트씩 증가하는 변수이고, 즉 k는 1 퍼센트, 2 퍼센트, 3 퍼센트, 4 퍼센트, 7 퍼센트, ..., 70 퍼센트, 71 퍼센트, 72 퍼센트, ..., 95 퍼센트, 96 퍼센트, 97 퍼센트, 98 퍼센트, 99 퍼센트, 또는 100 퍼센트이다. 또한, 위에서 규정한 바와 같이 2개의 R 숫자로 규정된 임의의 수치 범위 역시 구체적으로 개시된다. 용어의 사용은 다른 말이 없으면, 후속의 수의 ±10%를 의미한다. 청구의 범위의 임의의 요소와 관련해서 "선택적으로"란 용어는, 그 요소가 필요하거나, 또는 대안으로 그 요소가 필요하지 않으며, 양자의 대안이 청구의 범위 내의 범위에 있다는 의미이다. 포함하는, 구비하는, 및 가지는과 같이 넓은 용어를 사용하는 것은 이루어져 있는 필수적으로 이루어져 있는, 및 실질적으로 이루어져 있는과 같이 좁은 용어를 지원하는 것으로 파악되어야 한다. 따라서, 보호의 범위는 위에서 설정된 설명에 의해 제한되는 것이 아니라, 청구의 범위의 요지에 대한 모든 등가를 포함하는 그 범위를 따르는 청구의 범위에 의해 규정된다. 각각의 모든 청구항은 명세서에의 추가의 개시로서 통합되며 청구의 범위는 본 발명의 실시예(들)이다. 본 개시에서 참고문헌에 대한 논의는 종래기술이므로 허용되지 않으며, 특히 본 출원의 우선일 이후의 공개일을 가지는 참고문헌은 특히 그러하다. 본 개시에 언급된 모든 특허, 특허 어플리케이션, 및 공개문헌에 대한 설명은 본 명세서로써 참고문헌에 의해 예시, 과정, 또는 그외 본 개시에 대한 상세한 보충을 제공하는 정도로 통합된다.
몇몇 실시예에 대해 본 개시에 제공되었으나, 개시된 시스템 및 방법은 본 개시의 정신 및 범위를 벗어남이 없이 많은 다른 특정한 형태로 구현될 수 있다는 것을 이해해야 한다. 제공된 예는 설명으로서 파악되어야지 제한으로서 파악되어서는 안 되며, 그 의도는 여기에 주어진 상세한 설명에 대한 제한이 아니다는 것이다. 예를 들어, 다양한 요소 및 구성요소는 다른 시스템에 결합 또는 통합될 수 있거나 소정의 특징은 생략될 수 있거나 실현되지 않을 수도 있다.
또한, 다양한 실시예에 독립 또는 별도로 설명되고 도해된 기술, 시스템, 서브시스템 및 방법은 본 개시의 범위를 벗어남이 없이 다른 시스템, 모듈, 기술 또는 방법과 결합되거나 통합될 수 있다. 결합되거나 직접 결합되거나 서로 통신하는 것으로 도시되고 설명된 다른 항목들은 전기적으로, 기계적으로, 또는 그렇지 않은 다른 방식으로든 간에 일부의 인터페이스, 장치, 또는 중간의 구성요소를 통해 직접적으로 결합 또는 통신될 수 있다. 변경, 대체, 및 대안의 다른 예들은 당업자에 의해 확인될 수 있으며 여기에 개시된 정신 및 범위를 벗어남이 없이 이루어질 수 있다.

Claims (20)

  1. 복수의 포트; 및
    상기 복수의 포트에 결합되어 있는 프로세서
    를 포함하며,
    상기 프로세서는,
    상기 복수의 포트 중 임의의 포트로부터 복수의 비디오 프레임을 수신하고 - 상기 복수의 비디오 프레임은 피사체 및 배경을 포함하며, 상기 복수의 비디오 프레임은 상기 피사체 및 배경에 대한 복수의 컬러 픽셀을 포함함 - ;
    상기 복수의 포트 중 임의의 포트로부터 복수의 깊이 프레임을 수신하고 - 상기 복수의 깊이 프레임은 상기 피사체 및 배경을 포함하며, 상기 복수의 깊이 프레임은 배경 깊이와 관련된 피사체 깊이의 지시(indication)를 포함함 - ; 그리고
    상기 배경 깊이와 관련된 피사체 깊이의 지시를 사용하여 상기 복수의 비디오 프레임을 인코딩하도록 구성되어 있는, 장치.
  2. 제1항에 있어서,
    상기 복수의 비디오 프레임을 인코딩하는 과정은,
    상기 복수의 비디오 프레임으로부터 상기 컬러 픽셀을 추출하는 과정;
    상기 복수의 깊이 프레임으로부터 배경 깊이와 관련된 피사체 깊이의 지시를 추출하는 과정;
    상기 배경 깊이와 관련된 피사체 깊이의 지시를 사용하여 상기 배경으로부터 피사체를 분할하는 과정;
    상기 피사체의 움직임을 계산하는 과정; 및
    상기 피사체를 인코딩하는 과정
    을 포함하는, 장치.
  3. 제2항에 있어서,
    상기 피사체의 움직임을 계산하는 과정은,
    상기 피사체가 단단하지 않은 것으로 판정하는 과정; 및
    상기 피사체의 움직임 추정을 수행하는 과정
    을 포함하는, 장치.
  4. 제2항에 있어서,
    상기 피사체의 움직임을 계산하는 과정은,
    상기 피사체가 단단한 것으로 판정하는 과정;
    상기 복수의 프레임에 걸쳐 상기 배경을 횡단하는 피사체를 추적하는 과정;
    상기 피사체의 움직임을 모델화하는 과정; 및
    상기 피사체의 제1 코딩 블록에 대한 움직임 벡터를 유도하는 과정
    을 포함하는, 장치.
  5. 제4항에 있어서,
    상기 움직임 벡터는 제1 코딩 블록의 움직임을 설명하는 데 사용되지만, 움직임 추정은 상기 복수의 비디오 프레임의 제2 코딩 블록의 움직임을 설명하는 데 사용되는, 장치.
  6. 제5항에 있어서,
    상기 모델화 과정은 병진운동(translational), 기하학(geometric), 아핀(affine) 또는 원근(perspective) 모델에 기초하는, 장치.
  7. 제1항에 있어서,
    상기 배경 깊이와 관련된 피사체 깊이의 지시는 컬러 강도의 차이에 의해 표시되는, 장치.
  8. 제1항에 있어서,
    상기 배경 깊이와 관련된 피사체 깊이의 지시는 깊이 센서로부터 피사체의 수치적 거리에 의해 표시되는, 장치.
  9. 제1항에 있어서,
    상기 복수의 비디오 프레임은 비디오 회의(videoconferencing), 텔레프레전스(telepresence), 또는 비디오 감시에 사용되는, 장치.
  10. 복수의 비디오 프레임을 획득하도록 구성되어 있는 카메라 - 상기 복수의 비디오 프레임은 피사체 및 배경을 포함하며, 상기 복수의 프레임은 상기 피사체 및 배경에 대한 복수의 컬러 픽셀을 포함함 - ;
    복수의 깊이 프레임을 획득하도록 구성되어 있는 깊이 장치 - 상기 복수의 깊이 프레임은 상기 피사체 및 배경을 포함하며, 상기 복수의 깊이 프레임은 배경 깊이와 관련된 피사체 깊이의 지시를 포함함 - ; 및
    상기 카메라 및 깊이 장치에 결합되어 있는 인코더
    를 포함하며,
    상기 인코더는 상기 배경 깊이와 관련된 피사체 깊이의 지시를 사용하여 상기 복수의 비디오 프레임을 인코딩하도록 구성되어 있는, 시스템.
  11. 제10항에 있어서,
    상기 인코더는,
    상기 복수의 비디오 프레임으로부터 상기 컬러 픽셀을 추출하고, 상기 복수의 깊이 프레임으로부터 배경 깊이와 관련된 피사체 깊이의 지시를 추출하도록 구성되어 있는 이미지 추출 서브모듈;
    상기 배경 깊이와 관련된 피사체 깊이의 지시를 사용하여 상기 배경으로부터 피사체를 분할하도록 구성되어 있는 피사체 분할 서브모듈;
    상기 피사체의 움직임을 계산하도록 구성되어 있는 움직임 계산 서브모듈; 및
    상기 피사체를 인코딩하도록 구성되어 있는 비디오 인코딩 서브모듈
    을 포함하는, 시스템.
  12. 제11항에 있어서,
    상기 피사체의 움직임을 계산하는 과정은,
    상기 피사체가 단단한지를 판정하는 과정;
    상기 피사체가 단단하지 않을 때 상기 피사체에 대한 움직임 추정을 수행하는 과정;
    상기 피사체가 단단할 때 상기 복수의 프레임에 걸쳐 상기 배경을 횡단하는 피사체를 추적하는 과정;
    상기 피사체가 단단할 때 상기 피사체의 움직임을 모델화하는 과정; 및
    상기 피사체가 단단할 때 상기 피사체의 코딩 블록에 대한 움직임 벡터를 유도하는 과정
    을 포함하는, 시스템.
  13. 제12항에 있어서,
    상기 깊이 장치는 적외선 카메라인, 시스템.
  14. 제12항에 있어서,
    상기 깊이 장치는 자외선 카메라인, 시스템.
  15. 제12항에 있어서,
    상기 깊이 장치는 레이더 시스템 또는 소나 시스템(sona system)인, 시스템.
  16. 제13항에 있어서,
    상기 깊이 장치는 깊이 센서, 라이트 필드 카메라(light field camera), 거리연동 카메라(ranging camera), 상보형 금속산화물 반도체(complementary metal-oxide-semiconductor: CMOS) 비주얼 카메라, 전하결합소자(charged-coupled device: CCD) 비주얼 센서, 또는 비주얼 센서의 조합인, 시스템.
  17. 복수의 포트 중 임의의 포트로부터 복수의 비디오 프레임을 수신하는 단계 - 상기 복수의 비디오 프레임은 피사체 및 배경을 포함하며, 상기 복수의 비디오 프레임은 상기 피사체 및 배경에 대한 복수의 컬러 픽셀을 포함함 - ;
    상기 복수의 포트 중 임의의 포트로부터 복수의 깊이 프레임을 수신하는 단계 - 상기 복수의 깊이 프레임은 상기 피사체 및 배경을 포함하며, 상기 복수의 깊이 프레임은 배경 깊이와 관련된 피사체 깊이의 지시를 포함함 - ; 및
    상기 배경 깊이와 관련된 피사체 깊이의 지시를 사용하여 상기 복수의 비디오 프레임을 인코딩하는 단계
    를 포함하는 방법.
  18. 제17항에 있어서,
    상기 복수의 비디오 프레임을 인코딩하는 단계는,
    상기 복수의 비디오 프레임으로부터 상기 컬러 픽셀을 추출하는 단계;
    상기 복수의 깊이 프레임으로부터 배경 깊이와 관련된 피사체 깊이의 지시를 추출하는 단계;
    상기 배경 깊이와 관련된 피사체 깊이의 지시를 사용하여 상기 배경으로부터 피사체를 분할하는 단계;
    상기 피사체의 움직임을 계산하는 단계; 및
    상기 피사체를 인코딩하는 단계
    를 포함하는, 방법.
  19. 제18항에 있어서,
    상기 피사체의 움직임을 계산하는 단계는,
    상기 피사체가 단단하지 않은 것으로 판정하는 단계; 및
    상기 피사체의 움직임 추정을 수행하는 단계
    를 포함하는, 방법.
  20. 제18항에 있어서,
    상기 피사체의 움직임을 계산하는 단계는,
    상기 피사체가 단단한 것으로 판정하는 단계;
    상기 복수의 프레임에 걸쳐 상기 배경을 횡단하는 피사체를 추적하는 단계;
    상기 피사체의 움직임을 모델화하는 단계; 및
    상기 피사체의 코딩 블록에 대한 움직임 벡터를 유도하는 단계
    를 포함하는, 방법.
KR1020147031185A 2012-04-19 2013-04-19 움직임 보상 기반 비디오 코딩을 보조하는 깊이 정보의 사용 KR101629746B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261635690P 2012-04-19 2012-04-19
US61/635,690 2012-04-19
US13/864,672 2013-04-17
US13/864,672 US9584806B2 (en) 2012-04-19 2013-04-17 Using depth information to assist motion compensation-based video coding
PCT/CN2013/074436 WO2013155984A1 (en) 2012-04-19 2013-04-19 Using depth information to assist motion compensation-based video coding

Publications (2)

Publication Number Publication Date
KR20140147123A true KR20140147123A (ko) 2014-12-29
KR101629746B1 KR101629746B1 (ko) 2016-06-13

Family

ID=49380100

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147031185A KR101629746B1 (ko) 2012-04-19 2013-04-19 움직임 보상 기반 비디오 코딩을 보조하는 깊이 정보의 사용

Country Status (6)

Country Link
US (1) US9584806B2 (ko)
EP (1) EP2826250A4 (ko)
JP (1) JP6198021B2 (ko)
KR (1) KR101629746B1 (ko)
CN (1) CN104396236B (ko)
WO (1) WO2013155984A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022075649A1 (ko) * 2020-10-06 2022-04-14 삼성전자주식회사 전자 장치 및 그 제어 방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10448008B1 (en) * 2013-04-30 2019-10-15 Pixelworks, Inc. Motion estimation based on block level bilateral filter and local motion model
US9679387B2 (en) * 2015-02-12 2017-06-13 Mitsubishi Electric Research Laboratories, Inc. Depth-weighted group-wise principal component analysis for video foreground/background separation
ES2917099B1 (es) * 2016-02-25 2023-04-21 Kt Corp Método y aparato para procesar señales de video
CN107370983B (zh) * 2016-05-13 2019-12-17 腾讯科技(深圳)有限公司 用于视频监控系统的行踪轨迹的获取方法和装置
US10547846B2 (en) * 2017-04-17 2020-01-28 Intel Corporation Encoding 3D rendered images by tagging objects
CN109635539B (zh) * 2018-10-30 2022-10-14 荣耀终端有限公司 一种人脸识别方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101610421A (zh) * 2008-06-17 2009-12-23 深圳华为通信技术有限公司 视频通讯方法、装置及系统
CN101911700A (zh) * 2008-01-11 2010-12-08 汤姆逊许可证公司 视频和深度编码
US20110150271A1 (en) * 2009-12-18 2011-06-23 Microsoft Corporation Motion detection using depth images
JP2011135458A (ja) * 2009-12-25 2011-07-07 Sony Corp 画像処理装置および方法、並びにプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3231618B2 (ja) * 1996-04-23 2001-11-26 日本電気株式会社 3次元画像符号化復号方式
US6055330A (en) * 1996-10-09 2000-04-25 The Trustees Of Columbia University In The City Of New York Methods and apparatus for performing digital image and video segmentation and compression using 3-D depth information
US5943445A (en) 1996-12-19 1999-08-24 Digital Equipment Corporation Dynamic sprites for encoding video data
AU740614B2 (en) 1998-05-07 2001-11-08 Canon Kabushiki Kaisha Automated video interpretation system
AUPP340798A0 (en) 1998-05-07 1998-05-28 Canon Kabushiki Kaisha Automated video interpretation system
US6157396A (en) 1999-02-16 2000-12-05 Pixonics Llc System and method for using bitstream information to process images for use in digital display systems
JP3482990B2 (ja) 1998-08-18 2004-01-06 富士ゼロックス株式会社 3次元画像撮影装置
US20040075738A1 (en) * 1999-05-12 2004-04-22 Sean Burke Spherical surveillance system architecture
JP3957937B2 (ja) * 1999-12-21 2007-08-15 キヤノン株式会社 画像処理装置及び方法並びに記憶媒体
WO2004107266A1 (en) * 2003-05-29 2004-12-09 Honda Motor Co., Ltd. Visual tracking using depth data
KR100544677B1 (ko) 2003-12-26 2006-01-23 한국전자통신연구원 다시점 영상 및 깊이 정보를 이용한 3차원 객체 추적 장치및 그 방법
US7418113B2 (en) * 2005-04-01 2008-08-26 Porikli Fatih M Tracking objects in low frame rate videos
KR101420684B1 (ko) * 2008-02-13 2014-07-21 삼성전자주식회사 컬러 영상과 깊이 영상을 매칭하는 방법 및 장치
US20090292468A1 (en) * 2008-03-25 2009-11-26 Shunguang Wu Collision avoidance method and system using stereo vision and radar sensor fusion
ES2389401T3 (es) 2008-06-17 2012-10-25 Huawei Device Co., Ltd. Método, aparato y sistema de comunicación a través de vídeo
US8320619B2 (en) 2009-05-29 2012-11-27 Microsoft Corporation Systems and methods for tracking a model
US8515580B2 (en) * 2011-06-17 2013-08-20 Microsoft Corporation Docking process for recharging an autonomous mobile device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101911700A (zh) * 2008-01-11 2010-12-08 汤姆逊许可证公司 视频和深度编码
CN101610421A (zh) * 2008-06-17 2009-12-23 深圳华为通信技术有限公司 视频通讯方法、装置及系统
US20110150271A1 (en) * 2009-12-18 2011-06-23 Microsoft Corporation Motion detection using depth images
JP2011135458A (ja) * 2009-12-25 2011-07-07 Sony Corp 画像処理装置および方法、並びにプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022075649A1 (ko) * 2020-10-06 2022-04-14 삼성전자주식회사 전자 장치 및 그 제어 방법

Also Published As

Publication number Publication date
EP2826250A1 (en) 2015-01-21
US20130279588A1 (en) 2013-10-24
WO2013155984A1 (en) 2013-10-24
JP2015518690A (ja) 2015-07-02
KR101629746B1 (ko) 2016-06-13
US9584806B2 (en) 2017-02-28
EP2826250A4 (en) 2015-04-08
JP6198021B2 (ja) 2017-09-20
CN104396236B (zh) 2017-08-25
CN104396236A (zh) 2015-03-04

Similar Documents

Publication Publication Date Title
KR101629746B1 (ko) 움직임 보상 기반 비디오 코딩을 보조하는 깊이 정보의 사용
US11335079B2 (en) Method and system of reflection suppression for image processing
CN112534818B (zh) 使用运动和对象检测的用于视频编码的译码参数的基于机器学习的自适应
US10977809B2 (en) Detecting motion dragging artifacts for dynamic adjustment of frame rate conversion settings
CN108886598B (zh) 全景立体视频系统的压缩方法和装置
US9602814B2 (en) Methods and apparatus for sampling-based super resolution video encoding and decoding
US10552962B2 (en) Fast motion based and color assisted segmentation of video into region layers
US10652577B2 (en) Method and apparatus for encoding and decoding light field based image, and corresponding computer program product
US8983175B2 (en) Video processing method and device for depth extraction
US20170118475A1 (en) Method and Apparatus of Video Compression for Non-stitched Panoramic Contents
EP3348060B1 (en) Method and device for encoding a light field based image, and corresponding computer program product
JP6998388B2 (ja) 画像特性マップを処理するための方法及び装置
US9736498B2 (en) Method and apparatus of disparity vector derivation and inter-view motion vector prediction for 3D video coding
US10269121B2 (en) Fast color based and motion assisted segmentation of video into region-layers
WO2019105151A1 (en) Method and device for image white balance, storage medium and electronic equipment
US20170064279A1 (en) Multi-view 3d video method and system
US20150264357A1 (en) Method and system for encoding digital images, corresponding apparatus and computer program product
US20230127009A1 (en) Joint objects image signal processing in temporal domain
Meuel et al. Mesh-based piecewise planar motion compensation and optical flow clustering for ROI coding
US10049436B1 (en) Adaptive denoising for real-time video on mobile devices
CN113542864B (zh) 视频的花屏区域检测方法、装置、设备及可读存储介质
CN116208851A (zh) 图像处理方法及相关装置
JP2013150071A (ja) 符号化装置、符号化方法、プログラム及び記憶媒体
EP3091742A1 (en) Device and method for encoding a first image of a scene using a second image having a lower resolution and captured at the same instant
Feldmann et al. Real-time segmentation for advanced disparity estimation immersive videoconference applications

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190515

Year of fee payment: 4