KR20000049031A - 3차원 깊이 정보를 이용한 디지털 이미지와 비디오 세그먼테이션과 압축을 수행하기 위한 방법 및 장치 - Google Patents

3차원 깊이 정보를 이용한 디지털 이미지와 비디오 세그먼테이션과 압축을 수행하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20000049031A
KR20000049031A KR1019990703099A KR19997003099A KR20000049031A KR 20000049031 A KR20000049031 A KR 20000049031A KR 1019990703099 A KR1019990703099 A KR 1019990703099A KR 19997003099 A KR19997003099 A KR 19997003099A KR 20000049031 A KR20000049031 A KR 20000049031A
Authority
KR
South Korea
Prior art keywords
video
signal
depth
frame
information
Prior art date
Application number
KR1019990703099A
Other languages
English (en)
Inventor
알렉산드로스 엘레프더리아디스
디미트리스 아나스타시요
슈리 나야
Original Assignee
더 트러스티스 오브 컬럼비아 유니버시티 인 더 시티 오브 뉴욕
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 트러스티스 오브 컬럼비아 유니버시티 인 더 시티 오브 뉴욕 filed Critical 더 트러스티스 오브 컬럼비아 유니버시티 인 더 시티 오브 뉴욕
Publication of KR20000049031A publication Critical patent/KR20000049031A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/007Transform coding, e.g. discrete cosine transform
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/14Coding unit complexity, e.g. amount of activity or edge presence estimation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/15Data rate or code amount at the encoder output by monitoring actual compressed data size at the memory before deciding storage at the transmission buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/152Data rate or code amount at the encoder output by measuring the fullness of the transmission buffer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

본 발명에 의하면, 2차원 화소 어레이를 포함하고, 부호화를 개선하기 위해 상기 각 화소의 깊이 성분을 사용하는 비디오 정보의 필드 또는 프레임을 부호화하는 장치에 있어서, (a) 비디오 정보의 프레임 또는 필드를 수신하고, 상기 수신된 비디오 정보의 프레임 또는 필드로부터 압축 비디오 신호를 발생하며, 상기 비디오 정보의 필드 또는 프레임의 일부에 해당하는 데이터를 양자화하는 멀티 모드 양자화기를 포함하는 부호화기; (b) 상기 수신된 비디오 정보에 해당하는 깊이 정보를 수신하고, 상기 수신된 필드 또는 프레임의 각 화소를 상기 수신된 프레임 또는 필드 내의 하나 이상의 가변 지각 중요성 영역 중의 하나의 영역과 연관시키기 위해 대상 맵을 발생하는 대상 세그먼테이션 회로; 및 c) 상기 대상 세그먼테이션 회로 및 상기 멀티 모드 양자화기와 연결되어 있으며, 상기 대상 맵을 수신하고, 상기 대상 맵에 응답하는 신호를 상기 멀티 모드 양자화기에 제공하여 내부의 양자화 모드를 선택하며, 그 결과 상기 선택된 양자화 모드가 상기 대상 맵에 의해 표시된 상기 영역의 지각 중요성을 반영하는 속도 제어기를 포함하는 비디오 정보의 필드 또는 프레임 부호화 장치를 제공한다.

Description

3차원 깊이 정보를 이용한 디지털 이미지와 비디오 세그먼테이션과 압축을 수행하기 위한 방법 및 장치{Methods and Apparatus for Performing Digital Image and Video Segmentation and Compression Using 3-D Depth Information}
최근에, 디지털 이미지와 비디오 압축에 관한 수많은 기술이 도입되었다. JPEG, H.261, MPEG-1, MPEG-2, H.263과 같은 의미적으로 다른 시각적인 대상(objects)을 개별적으로 부호화(encode)할 고유의 능력을 가지고 있지 않은 현재의 이미지/비디오 압축 표준(standards)은 중복도 억제 기술(redundancy reduction techniques)이 적용된 픽셀(pixels)의 2 또는 3차원 어레이(array)로써 내용을 처리한다. 이러한 표준 기술에서, 이산 코사인 변형(Discrete Cosine Transform ; "DCT")은 픽셀 데이터의 8x8 블록(blocks)을 양자화(quantization)가 더 쉽게 수행되는 DCT 도메인(domain)으로 변형시키기 위해 사용된다. 런 길이 부호화(run-length encoding)와 엔트로피 코딩(entropy coding 즉, 호프만 코딩(huffman coding))은 원래의 압축되지 않은 소스 신호(source signal)보다 상당히 감소된 비트율(bit rate)을 가진 압축된 비트스트림(bitstream)을 생성하도록 양자화된 비트스트림에 적용된다. 이 프로세스는 움직임 벡터(motion vectors)의 형태에서, 일반적으로 존재하는 내부 프레임(inter-frame) 또는 내부 필드(field) 움직임을 고려함으로써 인접 프레임 또는 필드로부터 프레임 또는 필드에 기반을 둔 예측(predictions)을 하도록 이용되는 추가되는 측면 정보(additional side information)에 의해 원조된다. 이 특허 서류를 준비하는 금일 현재, 위성 텔레비전(satellite television), 디지털 비디오 디스크(digital-video-disks) 및 컴퓨터 비디오 어댑터(adapters)와 같은 많은 개인적이고 상업적인 응용(applications)이 응용의 비디오 능력을 증가시키기 위해 하나 또는 그 이상의 상기 목록에 기입된 기술을 사용한다. 특히 MPEG-2의 경우에, 많은 추가적인 응용이 심사 숙고된다.
ISO/IEC JTC1/SC29/WG11 그룹(group)에 의한 MPEG-4 표준화 노력과 같은 다른 더 최근에 개발된 이미지/비디오 압축 기술은 의미적으로 다른 시가적인 대상을 개별적으로 부호화할 고유의 능력을 가진다. MPEG-4는 대상에 기반을 둔 구조(structure)를 사용하여 종합적인 오디오(synthetic audio)와 그래픽 대상(graphics objects)을 통합하도록 같은 프레임 또는 시퀀스(sequence)의 대상에 대한 독립적인 코딩과 능력을 제공한다. MPEG-4 시스템 설명 언어(MPEG-4 System Description Language ; MSDL)를 포함한 MPEG-4 압축 기술의 완전한 설명은 여기에 참조문헌으로 언급된 공개물, ISO 서류 ISO/IEC JTC1/SC29/WG11 N1277(1996, 7월)에 포함되어 있다. 대부분의 현재 비디오 압축 기술이 프레임 또는 필드에 기반을 둔 반면에, MPEG-4는 필드 또는 프레임에 기반을 둔 압축에 제한되지 않으며 탄력적이고 신장성이 있는 압축 기술을 제공한다. 따라서, MPEG-2와 같은 프레임 또는 필드에 기반을 둔 압축 기술과 MPEG-4와 같은 대상에 기반을 둔 압축 기술의 출현과 함께, 1990년대 초기와 중반 동안 비디오 압축 기술에 혁명이 있었다.
이 비디오 압축 혁명과 동시에, 비디오 수집(capture)의 기술에서 또한 커다란 발전(strides)이 있었다. 특히, 실 시간(real time)에 장면(scene)을 위한 깊이 정보(depth information)를 전달하는 능력이 있는 광학 센서(optical sensors), 즉, "깊이 카메라(depth camera)"가 이제 가능하다. 이러한 장치는 초 당 30 또는 25 프레임에 의해 디지털 형태로 규칙적인 비디오 신호(예를 들면, NTSC 또는 PAL 신호)를 생성할 능력이 있으며, 또한 카메라의 초점 중심(focal center)과 같은 고정된 점 또는 평면으로부터 수집된 이미지의 픽셀의 거리의 추정(estimate)을 같은 프레임 율(rate)로 생성할 능력이 있다. 이러한 거리 또는 3차원 형상 정보는 또한 디지털 형태로 센서에 의해 전달된다. 이러한 하나의 센서는 특별한 조명 패턴(illumination pattern)이 요구되는 액티브 구성(active configuration)과 참조문헌으로 언급된 공개물(Shree Nayer et al., "Real Time Focus Range Sensor", Proceedings Int'l Conf. Computer Vision pp. 995-1001(IEEE 1995))의 패시브(passive) 구성에서 설명됐다.
비디오 압축 프로세스의 부분(part)으로서 3차원 형상 정보를 이용하는 것이 여러번 시도되었다. 예를 들면, 제이.제이.디 밴 샬퀵(J.J.D. van Schalkwyk et al.)의 "깊이 압축을 사용한 저 비트율 비디오 코딩(Low Bitrate Video Coding with Depth Compensation ; IEEE Proceedings:Vision, Image and Signal Processing, Vol, 141, No. 3, pp. 149-53(1994))"은 정적인 배경(static background)으로부터 움직이는 대상을 분리하기 위해 깊이 센싱 알고리즘(depth-sensing algorithm)에 의해 발생된 3차원 깊이 정보를 이용하는 비디오 압축 기술을 개시한다. 개시된 기술에서, 스테레오(stereo) 알고리즘은 장면 내에 대상의 에지(edges)의 위치를 정하고 장면으로부터 깊이 정보를 추출하기 위해 이용된다. 대상의 형태는 총괄적으로 대상을 포함하는 면적(area)과 같은 서브 블록 기초(sub-block basis) 위에 얻어진다. 총괄적으로 하나의 프레임으로부터 다른 프레임으로의 대상의 이동(displacement) 또는 움직임을 표시하는 전체적인 움직임 벡터(global motion vectors)는 이전 프레임과 현재 프레임의 대상 위치(position) 벡터를 서로 관련시킴으로써 발생된다. 예측 프로세스 동안, 전체적인 움직임 벡터는 현재 프레임의 1차(first-order) 예측으로서 이용될 수 있는 데이터의 "전체적으로 보상된 프레임(globally compensated frame)"을 발생하기 위해 데이터의 이전 프레임에 대상을 바꾸어 놓도록 이용된다. 전체적으로 보상된 프레임은 장면의 더 정확한 표시를 발생하도록 표준 필드 또는 프레임에 기반을 둔 보상 프로세스에서 데이터의 지나간 프레임을 대체한다.
엠.에이.에이치 벤터(M.A.H. Venter et al.)의 "저 비트율 비디오 코딩에서의 스테레오 이미징(Stereo Imaging in Low Bitrate Video Coding ; COMSIG 1989-Proceedings South Africa Conference [of] Communication Signal Processing, pp. 115-118(IEEE June 23, 1989))"에는, 스테레오 이미징 카메라에 의해 검색된 3차원 깊이 정보를 이용하는 2개의 비디오 압축 기술이 개시되어 있다. 첫 번째 기술에서, 벤터는 표준의 코딩 알고리즘에서 발생되는 움직임 벡터의 정확성을 검사할 때에 "대상 움직임 벡터(object motion vector)"를 발생하기 위한 깊이 정보의 이용을 개시한다. 즉, 발생된 움직임 벡터가 대상 움직임 벡터와 실질적으로 다르면, 발생된 움직임 벡터는 부정확하다고 가정되고 따라서 대상 움직임 벡터에 의해 대체된다. 두 번째 기술에서, 참조문헌은 깊이 정보가 예를 들면, 사람의 머리와 어깨같은, 3차원 모델(model)에서 2차원 이미지 평면으로 투사함으로써 이미지 예측을 위해 이용할 수 있고 새로운 방향을 줄 수 있는 장면에서 움직이는 대상의 3차원 모델을 창조하도록 이용될 수 있음을 제안한다.
번드 지로드(Bernd Girod)의 "3차원 장면 모델을 이용한 이미지 시퀀스 코딩(Image Sequence Coding Using 3D Scene Models ; Proceedings of SPIE-The international Society for Optical Engineering, Vol. 2308, pp. 1576-1591(SPIE 1994)"에는, 깊이 센싱 카메라에 의해 검색된 3차원 깊이 정보를 이용하는 2개의 비디오 압축 기술이 또한 개시되어 있다. 첫 번째 기술에서, 지로드는 블록 매칭(block matching) 동안 더 정확한 움직임 보상을 산출하도록 움직임 벡터 필드 상의 억제(constraint)로서 이용되는, 단단한 몸체의 병진(translational)과 회전 운동(movement)을 표시하는 매트릭스(matrix)를 발생하기 위한 깊이 정보의 "절대적인(implicit)" 이용을 개시한다. 두 번째 기술에서, 깊이 정보는 얼굴의 에니메이션(animation)을 달성하기 위해 미리 선택괸 얼굴의 움직임 파라메터(예를 들면, 입 구멍, 머리 회전 등등)와 함께 수신기로 전송되는, 예를 들면, 머리와 같은 움직이는 대상의 모델을 발생하도록 이용된다.
[8] 종래의 기술 각각에서, 3차원 형상 정보는 예를 들면, 직접적인 방법으로 보다는 움직임 벡터의 정확성을 검사할 때 또는 비디오 데이터의 프레임의 1차 예측을 발생하기 위해 접선 방법(tangential manner)으로만 이용되기 때문에, 상기 언급된 종래 기술은 현재 필드 또는 프레임에 기반을 둔 비디오 압축 기술과 3차원 비디오 검색 기술 사이의 갭(gap)을 충분히 연결하는데 실패했다. 게다가, 종래 기술은 대상에 기반을 둔 압축의 문맥(context)에서 3차원 형상 정보의 이용을 논의하는 것이고, 종래 기술은 압축 프로세스에서 지원하는 직접적인 방법이라기 보다는 움직이는 대상의 3차원 모델을 생성하는 것 뿐이다. 따라서, 필드 또는 프레임에 기반을 둔 압축 기술의 경우와 대상에 기반을 둔 압축 기술의 경우에서 모두 다, 비디오 압축 프로세스에서 3차원 형상 정보를 직접적으로 사용하는 기술이 필요하다.
본 발명은 디지털 이미지와 비디오 세그먼테이션과 압축을 위한 기술에 관한 것으로, 더 상세하게는 비디오 세그먼테이션과 압축 프로세스(processes)의 부분(part)으로서 3차원 형상 정보(3 dimensional shape information)를 이용한 디지털 이미지와 비디오 압축 기술에 관한 것이다.
도1은 깊이 센싱 카메라의 개략도이다.
도2는 일반적인 MPEG-2 형(type) 부호화기의 시스템도이다.
도3은 가변 비트 속도 부호화기의 일정 비트 속도 부호화기로의 변환을 도시한 시스템도이다.
도4는 본 발명에 따른 일정 비트 속도 부호화기의 시스템도이다.
도5는 도4의 부호화기에서 유용한 대상 맵 발생 회로를 도시한다.
도6은 도5의 대상 맵 발생 회로에서 유용한 히스토그램 발생 회로를 도시한다.
도7은 도5의 대상 맵 발생 회로에서 유용한 히스토그램 클립핑 회로를 도시한다.
도8은 도5의 대상 맵 발생 회로에서 유용한 경계 조사 회로를 도시한다.
도9는 도5의 대상 맵 발생 회로에서 유용한 양자화 회로를 도시한다.
도10은 본 발명의 바람직한 특징(aspect)에 따른 일정 비트 속도 부호하기의 시스템도이다.
도11은 도10의 부호화기에서 유용한 매크로블록 라벨링 회로를 도시한다.
도12는 도10의 부호화기에서 유용한 목표 비트 속도 발생 회로를 도시한다.
도13은 도10의 부호화기에서 유용한 버퍼 크기 변조 신호 발생 회로를 도시한다.
도14는 비디오 정보의 프레임 내에서 비디오 대상 평면과 비디오 대상의 개략도이다.
도15는 본 발명에 따른 대상에 기반을 둔 부호화기의 시스템도이다.
도16은 일반적인 MPEG-4 부호화기의 시스템도이다.
도17은 도15의 부호화기에서 유용한 비디오 대상 세그먼테이션 회로를 도시한다.
도18은 본 발명의 특징에 따른 속도 제어를 수행하기 위한 바람직한 단계를 포함한 비디오 정보를 부호화하는 방법의 흐름도이다.
도19a와 19b는 본 발명의 특징에 따른 비디오 대상 분리를 수행하기 위한 바람직한 단계를 포함한 비디오 정보를 부호화하는 방법의 흐름도이다.
본 발명의 목적은 필드 또는 프레임에 기반을 둔 압축 기술의 경우와 대상에 기반을 둔 압축 기술의 경우에서 모두 다, 비디오 압축 프로세스에서 형상 정보를 직접적으로 사용하는 기술을 제공하는 것이다.
본 발명의 다른 목적은 압축 프로세스 동안 선택적인 비트 배당(allocation)을 가능하게 함으로써 필드 또는 프레임에 기반을 둔 비디오 압축 프로세스에서 깊이 센싱 카메라에 의해 발생되는 깊이 정보를 사용하는 기술을 제공하는 것이다.
본 발명의 추가의 목적은 압축 동안 대상을 정확하게 표시하기 위해 대상에 기반을 둔 비디오 압축 기술에서의 깊이 정보를 사용하는 기술을 제공하는 것이다.
본 발명의 또 다른 목적은 공간에서의 대상의 위치에 따라 프레임에서 다른 대상에 지각 중요성(perceptual significance)을 지정하기 위한 깊이 정보를 사용하는 기술을 제공하는 것이다.
본 발명의 또 다른 목적은 낮은 세분성(low granularity)에서 높은 지각 중요성(high perceptual importance)을 가지는 대상과 높은 세분성에서 낮은 지각 중요성을 가지는 대상을 양자화함으로써 3차원 형상 정보를 사용하는 수정된 MPEG-2 엔코더(encoder)를 제공하는 것이다.
본 발명의 또 다른 목적은 내용의 세그먼테이션을 개별적인 대상으로 수행하기 위한 확고한 수단으로서 3차원 형상 정보를 사용하는 수정된 MPEG-4 엔코더를 제공하는 것이다.
아래에서 설명되는 그 이상의 개시에 대해서 참조문헌과 함께 명백해질 이들 및 다른 목적을 달성하기 위해, 본 발명은 비디오 정보의 프레임에 대응하는 깊이 정보를 수신하고 비디오 정보의 프레임 내에서 하나 또는 그 이상의 분리된 대상을 식별하는 대상 세그먼테이션 회로(object segmentation circuit)를 제공하며, 비디오 정보의 프레임 내의 각 픽셀을 프레임 내의 지각 중요성을 바꾸는 하나 또는 그 이상의 영역(regions) 중의 하나와 관련시키기 위해 깊이 정보를 대상 맵(map)으로 변환하는 대상 맵 발생 회로(object map generation circuit)를 포함한다.
대상 세그먼테이션 회로는 깊이의 미리 선택된 영역에 실질적으로 대응하는 프레임 내에 픽셀을 표시하는 하나 또는 그 이상의 깊이 영역 마스크(masks)를 발생하도록 대상 맵을 마스킹하는 영역 마스킹 회로(region masking circuit)와, 하나 또는 그 이상의 영역 마스크의 각각에 의해 표시되는 하나 또는 그 이상의 미리 선택된 영역의 각각 내의 하나 또는 그 이상의 분리된 대상을 식별하는 비디오 대상 선택 회로를 또한 포함하며, 따라서 각 깊이 영역에 관련된 각 대상이 분리된 대상으로서 식별된다.
바람직하게, 대상 맵 발생 회로는 미리 결정된 값(predetermined values)의 범위를 위한 미리 결정된 깊이 값을 가지는 다수의 픽셀을 제공하기 위해 깊이 정보의 히스토그램(histogram)을 계산하는 히스토그램 발생 회로와, 클립된 히스토그램(clipped histogram)을 발생하기 위해 미리 결정된 임계 값(threshold value) 아래에 있는 히스토그램에서의 모든 값을 0으로 설정하는 제1논리 회로(first logic circuit)와, n 개의 다른 임계 깊이 값을 가지는 n 개 영역의 경계를 구하기 위해 클립된 히스토그램을 스캐닝(scanning)하는 제2논리 회로 및 대상 맵(object map)을 발생하기 위해 n 개의 다른 임계 값에 기초한 깊이 정보를 양자화하는 가변 스텝 양자화 회로(variable step quantization circuit)를 포함한다.
히스토그램 발생 회로는 깊이 정보를 수신하고 일시적으로 저장하는 버퍼와, 메모리 어드레스에 따라 버퍼로부터 깊이 정보를 수신하고 메모리 어드레스에 따라 히스토그램 값을 저장하는 메모리 및 어드레스 위치의 메모리로부터 히스토그램 값을 읽고 히스토그램 값을 업데이트(update)하고 업데이트된 히스토그램 값을 어드레스 위치의 메모리로 제공하는 논리 회로를 포함할 수 있다.
하나의 바람직한 실시예에서, 본 발명은 픽셀의 2차원 어레이의 형태로 비디오 정보의 필드 또는 프레임을 부호화하고 부호화를 개선하기 위해 이들 픽셀 각각의 깊이 성분(component)을 이용하는 장치(apparatus)를 제공하며, 비디오 정보의 프레임 또는 필드를 수신하고 비디오 정보의 수신된 프레임 또는 필드로부터의 압축된 비디오 신호를 발생하는 부호화기(encoder)를 포함하고, 여기에서 부호화기는 비디오 정보의 필드 또는 프레임의, 매크로블록(macroblock)과 같은, 부분(portion)에 대응하는 데이터를 양자화하는 멀티 모드 양자화기(multi-mode quantizer)를 포함한다. 비디오 정보의 프레임 또는 필드와 비디오 정보에 대응하는 깊이 정보 양쪽 모두를 실 시간으로 발생할 수 있는 깊이 센싱 카메라는 이러한 장치에 오히려 포함된다.
편리하게도 이 실시예는 대상 맵 발생 회로에 의해 발생된 대상 맵에 응답하는 신호를 양자화 모드를 선택하기 위해 멀티 모드 양자화기로 제공하여 선택된 양자화 모드가 대상 맵에 의해 표시된 영역의 지각 중요성을 반영하도록 하는 속도 제어기(rate controller)뿐만 아니라 대상 맵 발생 회로를 포함한다. 이 실시예는 대상 맵 발생 회로와 속도 제어기 사이에 연결되고, 지각 중요성을 바꾸는 영역 중의 하나에 비디오 데이터의 현재 매크로블록을 지정하며 속도 제어기에 지정된 영역을 표시하는 신호를 제공하는 매크로블록 라벨링 회로(microblock labeling circuit)에 의해 지원될 수 있다.
미리 선택된 저장 능력을 가지는 비디오 버퍼는 발생되어 압축된 비디오 신호를 수신하고 일시적으로 저장하기 위해 그리고 속도 제어기에 오버플로우 상태(overflow condition)를 표시하는 신호를 제공하기 위해 부호화기와 속도 제어기에 연결될 수 있으며, 따라서 속도 제어기에 의해 멀티 모드 양자화기로 제공된 신호는 또한 오버플로우 신호에 응답한다.
하나의 특히 바람직한 배열(arrangement)에서, 압축된 비디오 데이터가 비디오 버퍼로 출력되는 경우 부호화기는 출력 신호를 발생하며, 매크로블록 라벨링 회로(microblock labeling circuit)는 할당된 영역에 관련된 목표 비트 속도(target bit rate)를 표시하는 신호를 발생한다. 이 배열은 이롭게도 버퍼가 클록 신호에 응답하는 압축된 비디오 신호의 미리 결정된 양을 출력하도록 버퍼에 클록 신호(clock signal)를 제공하는 클록 신호 발생 회로와, 부호화기 출력 신호에 응답하는 카운트(count)를 가산하고 가상 버퍼(virtual buffer)의 점유(occupancy)를 결정하기 위해 목표 비트 속도 신호와 클록 신호에 응답하는 카운트로부터 감산함으로써 비디오 버퍼와 관련된 가상 버퍼에 있는 비트의 수를 카운트하는 카운터를 포함한다. 카운터는 또한 속도 제어기에 카운트를 표시하는 가상 버퍼 점유 신호를 제공하여 속도 제어기에 의해 멀티 모드 양자화기로 제공된 신호가 또한 가상 버퍼 점유 신호에 응답하도록 한다.
압축 세분성에서 갑작스런 변화를 피하기 위해, 속도 제어기는 할당된 영역이 인접하여 계속한 할당된 영역과 다른 때는 언제나 버퍼 크기 변조 신호(buffer size modulation signal)를 발생하는 버퍼 크기 논리 회로를 이롭게 포함할 수 있고, 따라서, 속도 제어기에 의해 멀티 모드 양자화기로 제공된 신호는 버퍼 크기 변조 신호에 응답하고 선택된 양자화 모드는 버퍼 크기 변조 신호에 의해 변조될 때에 그리고 비디오 버퍼의 저장 능력에 의해 억제될 때에 가상 버퍼 능력에 의해 표시된 영역의 지각 중요성을 반영한다.
다른 바람직한 배열에서, 본 발명은 부호화를 개선하기 위해 비디오 정보의 깊이 성분을 이용하여 비디오 정보의 대상에 기반을 둔 부호화를 수행하는 장치를 제공하며, 대상 세스먼테이션 회로와 대상에 기반을 둔 부호화기를 포함한다. 부호화기 수신된 깊이 정보에 대응하는 비디오 정보의 프레임과 대상 세그먼테이션 회로에 의해 발생된 하나 또는 그 이상의 대상 식별 신호를 수신하고, 하나 또는 그 이상의 대상 식별 신호에 의해 식별된 하나 또는 그 이상의 대상에 실질적으로 대응하는 비디오 정보의 부분(portion)을 표시하는 압축된 비디오 신호를 발생한다.
본 발명은 또한 비디오 정보의 프레임에 대응하는 깊이 정보 내에서 하나 또는 그 이상의 분리된 대상을 식별하는 방법을 제공한다. 이 방법은 깊이 정보를 수신하는 단계; 프레임 내에서 지각 중요성을 바꾸는 하나 또는 그 이상의 영역 중에서 하나를 가지는 비디오 정보의 프레임 내에서 각 픽셀과 관련시키기 위해 수신된 깊이 정보를 대상 맵으로 변환하는 단계; 깊이의 미리 선택된 영역에 실질적으로 대응하는 프레임 내에서 픽셀을 표시하는 하나 또는 그 이상의 깊이 영역 마스크를 발생하도록 대상 맵을 마스크하는 단계; 및 하나 또는 그 이상의 영역 마스크에 의해 표시된 하나 또는 그 이상의 미리 선택된 영역의 각각 내에서 하나 또는 그 이상의 분리된 대상을 식별하는 단계를 포함해야만 한다.
바람직하게는 이 변환하는 단계가 미리 결정된 값의 범위를 위한 미리 결정된 깊이 값을 가지는 다수의 픽셀을 제공하기 위해 수신된 깊이 정보의 히스토그램을 계산하는 단계; 클립된 히스토그램을 발생하기 위해 미리 결정된 임계 값 아래에 있는 히스토그램에서의 모든 값을 0으로 설정하는 단계; n 개의 다른 임계 깊이 값을 가지는 n 개 영역의 경계를 구하기 위한 클립된 히스토그램을 스캐닝하는 단계; 및 n 개의 다른 임계 값에 기초한 깊이 정보를 양자화하는 단계를 포함한다.
유리하게, 식별하는 단계는 마스크되지 않은 값을 가진 픽셀이 발견될 때까지 미리 선택된 깊이 영역 마스크를 스캐닝하는 단계; 마스크되지 않은 값을 가진 임의의 다른 인접 픽셀(neighboring pixels)을 찾기 위해 마스크 내에서 인접 픽셀을 조사(search)하는 단계; 인접 픽셀이 깊이 영역 내에서 대상에 대응하는 비디오 대상 평면에 따라 마스크되지 않은 값을 가진 모든 인접 발견 픽셀을 식별하도록 마스크되지 않은 값을 갖지 않을 때까지 이 조사 단계를 반복하는 단계; 깊이 영역 마스크로부터 대상을 마스크하는 단계; 비디오 정보의 수신된 프레임 내에서 하나 또는 그 이상의 비디오 대상 평면을 식별하도록 깊이 영역 마스크 내의 모든 픽셀이 마스크될 때까지 상기 단계를 반복하는 단계; 하나 또는 그 이상의 비디오 대상 평면 중에서 하나, 그리고 비디오 정보의 바로 앞선 프레임과 관련된 하나 또는 그 이상의 비디오 대상 평면 중의 하나를 선택하는 단계; 선택된 비디오 대상 평면과 선택된 이전 프레임 비디오 대상 평면 사이의 깊이 차이를 결정하기 위해 이 두 평면을 비교하는 단계; 하나 또는 그 이상의 이전 프레임 비디오 대상 평면의 모두가 선택되지 않으면, 하나 또는 그 이상의 이전 프레임 비디오 대상 평면 중의 다른 하나를 선택하는 단계 후에 비교 단계를 반복하는 단계; 및 모든 결정된 깊이 차이를 비교할 때 그들 사이의 깊이 차이가 최소로 되기 위해 선택된 비디오 대상 평면을 하나 또는 그 이상의 이전 프레임 비디오 대상 평면 중의 하나에 대응하는 비디오 대상에 할당하는 단계를 포함할 수 있다.
이 명세서의 일부를 구성하고 구체화된 첨부의 도면은 본 발명의 바람직한 실시예를 설명하고 본 발명의 원리를 설명하는데 이바지 한다.
깊이 감지 카메라(100)의 동작 모델이 도1에 도시되어 있다. 카메라(100)는 그 자신으로부터 다른 거리 또는 깊이에 위치한 사물(111),(112)을 포함하는 자연의 3차원 신(scene),(100)을 본다. 이 카메라(100)는 2개의 디지털 출력을 생성한다. 하나(101)는 표준 디지털 비디오 또는 이미지 신호 V로 구성된 신호이며 다른 하나(102)는 이 비디오 신호(101)에 포함된 픽셀의 깊이 정보 D로 구성된 신호이다. 이 카메라(100)는 상기 논의된 Nayar 등의 논문에 따라 구성되거나, 표준 디지털 비디오 신호와 깊이 정보 출력 모두를 발생하는 상용 카메라일 수 있다.
YUV 4:2:0 크로마 포맷에 있어서, 신호(101)가 성분 픽셀당 8비트를 가지는 것이 바람직하나 다른 색공간(color space) 또는 크로마 포맷 또한 사용될 수 있다. 신호(102)는 깊이 정보로 16비트 선형 PCM 표현을 가지는 것이 바람직하나 부동점 또는 대수적 PCM을 포함하는 다른 포맷이 사용되어 복잡성(complexity)과 정확성(accuracy) 사이를 트레이드오프(trade-off)할 수 있다.
도1에 있어서, 카메라(100)는 일반적으로 사물(112)의 픽셀에 발생된 D 값에 비하여 사물(111)의 픽셀에 높은 D 값을 발생한다. 사물(111)이 사물(112)에 비하여 카메라로부터 더 멀리 떨어져 있기 때문이다. 프레임 k에 대한 카메라의 출력은 다음 두 식에 의하여 수학적으로 기술된다.
(1)
(2)
여기서 N,M은 각각 프레임의 너비와 높이이다. 식(1)은 표시의 단순화를 위하여 크로미넌스(chrominance) 성분을 생략하였다. 다른 성분은 대체로 동일한 처리 절차(움직임 예측은 예외임)에 따라 처리되기 때문에 그들을 개별적으로 구별할 필요가 없다.
H.261, MPEG-1, MPEG-2, H.263과 같은 표준 필드 또는 프레임 기반 비디오 압축 기술용 시스템(200)이 도2에 도시되어 있다. 정규의 비압축 비디오 신호가 매크로블록 분리/가산기(240)와 움직임 예측 회로(210)에 입력된다. 분리/가산기(240)로부터의 매크로블록 데이터가 이산 코사인 변환(discrete cosine transform: DCT)(250)된다. 높은 압축 효율을 얻기 위하여, DCT 계수는 양자화(251)되고, 지그-재그 런-랭스 부호화(252)된후 가변길이 부호화(253)된다. 양자화된 DCT 계수는 역양자화(255)되고 역 이산 코사인 변환(256)되어 과거 프레임 데이터를 움직임 예측 회로(210)에 현재의 프레임 데이터와 동시에 제공한다. 움직임 예측 회로(210)는 과거와 현재의 프레임 비디오 데이터(이 데이터는 프레임 기억 장치(220)에 기억될 수 있다)를 사용하여 움직임 벡터를 발생한다. 발생된 벡터는 부호화되고(211), (212) 압축된 DCT 계수와 중첩(260)된다. MPEG-2의 경우에, 완전한 인코더의 구조가 미국 특허 번호 Re. 35,093호에 기술되어 있으며, 이 특허에 개시 내용은 본원에서 참조로 인용되었다.
모든 경우에 있어서, 인코더(200)는 비디오 데이터의 특정 블록의 압축에 사용되는 양자화기(251)의 양자화 모드(quantization mode)를 선택하는 유연성을 가진다. 우수한 양자화 모드를 선택하면 압축된 블록을 나타내는 정확한 비트스트림(bitstream)을 생성할 수 있으나, 코우어 모드(cowers mode)는 블록을 좀더 세밀하게 나타내는 비트스트림을 생성한다. 이 결정은 휘도신호 신호 블록의 2 X 2 배열과 이 휘도 블록에 대응하는 2 X 8 배열(즉 매크로블록)에 영향을 미친다.
인코더는 우수한 척도로 양자화 모드를 선택하는 유연성에 의하여 속도 제어(rate control)를 할 수 있어서, 비록 엔트로피(가변 길이) 부호화가 비디오 압축 과정에 사용되어도, 일정한 비트 레이트(constant bit rate: CBR, 고정 비트율, 또는 고정 비트 속도라 함) 비트스트림을 생성할 수 있다. 데이터의 각 매크로블록이 휘도와 크로미넌스 블록과 관련된 PCT 계수에 더하여 헤더를 포함하고 있기 때문에, 각 매크로블록과 관련된 헤더내 압축된 비트스트림에 다른 양자화 스텝-사이즈를 사용하였음을 표시할 수 있다.
도3은 가변 비트 레이트(variable bit rate: VBR, 가변 비트율 또는 가변 비트 속도라 함) 인코더(200)의 출력단(310)에 버퍼(320)를 위치시켜 비율 제어를 수행할 수 있음을 도시하고 있다. 또한 버퍼(320)는 압축된 데이터를 고정 레이트로 출력한다. 이 고정 레이트는 버퍼로부터 데이터를 받아들이는 채널의 대역폭에 종속한다. 레이트 컨트롤러(340)는 버퍼의 점유도(occupancy, Bmax)와 신호에 종속적일 수 있는 다른 파라미터를 고려하여 양자화기(251)의 양자화 스텝 사이즈를 결정하여 다음 매크로블록에 사용되도록 함으로, 버퍼에는 오버플로우 또는 언더플로우가 발생하지 않는다.
레이트 컨트롤러(340)가 연산한 버퍼 조정 함수는 다양한 형태를 가진다. 버퍼 점유도(B)와 선형 관계가 가장 단순한 형태이다. 양자화 계수(Q)가 집합{1,2,…,31}중의 값을 가진다 가정하면, 이 관계는 다음의 형태를 가진다.
(3)
H.261에 사용되는 RM-8 레이트 컨트롤 또는 H.263에 사용되는 TMN-5 레이트 컨트롤과 같은 복잡한 함수가 당해 기술분야에 공지되어 있다.
상기 사항은 고정 비트 레이트 인코더와 직접 관련되지만, 레이트 컨트롤은 또한 순수하게 VBR 인코더에 사용되어 지각에 중요한 일부 이미지 영역(예를 들어 얼굴)을 양질로 하고, 의미가 덜한 영역(예를 들어 배경)은 열화된 질을 제공할 수 있다. 이하에서는, 레이트 컨트롤이란 용어가 CBR 또는 VBR 인코더에 사용되는 여부를 구별하지 않고 사용된다. VBR 인코더에 있어서, 버퍼를 제거할 수 있으며, 이때 레이트 컨트롤 함수는 버퍼 점유도와 다른 파라미터에만 종속한다. 변형예로는, 버퍼 출력 레이트가 시간의 함수로 될 수 있으며, 이 출력 레이트는 선험적(priori)으로 알려지거나 네트워크로부터 동적으로 제공될 수 있다.
본 발명의 일 실시예에 따라서, 레이트 컨트롤 회로(340)는 카메라(100)로부터 제공된 깊이 정보를 사용하여 입력 프레임을 각각의 사물과 관련된 몇 개의 개별 영역으로 분할한다. 이러한 사물에는 그들의 크기뿐만 아니라 공간내 위치에 따라서 지각적 의미(perceptual significance)가 할당된다. 다음에 인코더가 이 정보를 사용하여 좀더 중요한 사물에 몇몇 비트가 소비된다. 따라서 시각적 질이 양호하며, 배경과 같은 가장 덜 중요한 사물에는 적은 비트가 사용된다.
도4를 참조하여 이러한 본 발명의 실시예를 설명한다. 깊이-감지 카메라(100)는 케이블(101)을 통하여 비디오 데이터의 연속적인 프레임을 CBR 인코더(400)에 제공하며, 비디오 데이터의 각 프레임용으로 케이블(102)을 통하여 깊이 값의 배열을 대상 세그먼테이션 회로(500)에 제공한다. 배열내 각 값은 비디오 신호의 대응 픽셀의 깊이에 상응한다. 대상 세그먼테이션 회로(500)는 깊이 신호를 이하에서 자세히 설명할 대상 맵(object map)(O)―여기서 맵은 동일 크기의 배열로, 배열내 각 픽셀은 특정 대상(또는 배경)과 연관되어 있음―으로 변환하며, 이 대상 맵을 CBR의 레이트 컨트롤러(440)에 제공한다. 이하에 기술되는 바와 같이, VBR 인코더(200)는 레이트 컨트롤러(440)로부터 양자화 모드 선택 신호를 제공받아, 데이터가 부호화되고 있는 대상의 지각적 중요도와 현재 버퍼(420)의 점유도에 따라서 양자화 스텝 사이즈를 선택한다.
도5를 참조하여 도4의 시스템에 적합한 대상 세그먼테이션 회로(500)를 설명한다. 이 회로는 히스토그램 발생 회로(510), 히스토그램 클립 회로(520), 경계 계산 회로(530) 및 가변 스텝 양자화기(550)를 포함한다.
도6에 히스토그램 발생 회로(510)가 보다 자세하게 도시되어 있다. 카메라(100)가 생성한 깊이 값의 배열(즉 깊이 맵)은 버스(511)를 통하여 16비트 광폭 버퍼(wide buffer),(512)에 제공된다. 배열내 각 픽셀의 깊이 값은 버스(513)를 통하여 히스토그램 값을 포함하는 16x64K RAM(514)의 주소로서 입력된다. 가산기(516)는 RAM 주소에 대응하는 값을 데이터 라인(515)을 통하여 판독하고 그 값에 1을 가산 후, 갱신된 값을 램(514)에 재기록 한다(기록/판독의 상세한 클록킹(clocking)은 도시되지 않음). 이에 따라서, 특정 깊이 값의 깊이 맵 픽셀의 개수를 깊이 맵내 존재하는 각 깊이 값에 제공하는 함수가 만들어진다.
도7은 히스토그램 클립 회로(520)의 구조를 도시한다. 이 클립 회로(520)는 히스토그램 램(514)에 접근하여 임계값 T로 히스토그램 엔트리를 클립함으로, T 보다 적은 히스토그램 값은 0으로 설정되며, 큰 값은 변화 없다. 임계값은 카메라가 보는 신(scene)내 대상의 거리에 따라서 실험적으로 결정된다. 어드레스 발생기(527)는 어드레스를 발행하여 RAM(514)의 각 어드레스를 접근한다. 이 어드레스 발생기(527)는 시스템 클록 신호(526, 도시되지 않음)에 반응한다. 어드레스에 기억된 히스토그램 값은 데이터 라인(521)을 통하여 비교기(522)로 공급되며, 레지스터(523)에 기억되고 라인(524)을 경유하여 접근되는 임계값 T와 비교된다. 만일 이 값이 T 보다 크면, 변화 없이 RAM에 반환된다. 만일 이 값이 T와 같거나 작으면, O이 출력되어 RAM의 동일 위치에 기억된다.
경계 계산 회로(530)가 도8에 상세하게 도시되어 있다. 이 회로는 임계화된 히스토그램을 사용하여 카메라(100)가 보는 신내 대상간 거리를 표시하는 깊이점(depth point)을 식별한다. 이 회로는 이들 점이 임계화된 히스토그램내 모두 0인 영역의 중점에 대응한다고 가정한다.
RAM(514)의 데이터는 어드레스 발생기(527)에 의하여 다시 어드레스되어 라인(531)을 통하여 비교기(531)로 전송된다. 전송된 데이터는 값 0과 비교된다. 만일 이 데이터가 0이면, 비교기(533)는 논리 1을 출력하고, 만일 데이터가 0이 아니면, 논리 0이 출력된다. 이 출력값은 레지스터 A(524)에 기억되고, 레지스터 A에 기억된 종전값은 레지스터 B(535)로 시프트한다.
레지스터 A가 1을 포함하며, 레지스터 B가 0을 포함하면, 히스토그램 영역내 0값이 식별된다. 이 값들은 인버터(537)와 AND 게이트(538)를 통하여 결합되어, 히스토그램내 현재 0값의 시작점의 깊이값을 유지하는 레지스터 T1(540)에 대한 라이트-인에이블 신호를 발생한다. 레지스터 A가 0을 포함하며, 레지스터 B가 1을 포함하면, 이 영역의 최후의 0값이 식별된다. 이러한 경우에, 인버터(537)와 AND 게이트(539)가, 회로가 계속하여 경계값을 계산할 수 있음을 표시하는 레지스터 T2(541)에 대한 라이트-인에이블 신호를 발생한다. 경계값은 T1과 T2의 내용을 가산하는 가산기(542) 및 가산된 값을 2로 나누는 시프터(shifter)(543)에 의하여 계산된다. 경계값 RAM(Boundary Value RAM,551)(도9)에 이 경계값이 기억된다. T2용 라이트-인에이블 신호는 또한 이하 기술될 경계값 RAM용 라이트-인에이블 신호로 기능한다.
이 방법으로, 클립된 히스토그램이 검색되어 클립된 히스토그램이 0값을 가지는 연속된 영역을 검출한다. 이러한 i 번째 영역에 대하여, 임계 ti가 영역의 중점으로 설정된다. 이 과정의 종반부에서 n개의 다른 임계값이 있으며, 이 값은 n개의 대상과 가정된 배경을 분리한다.
가변 스텝 양자화기(550)가 도9에 자세하게 도시된다. 깊이 프레임 버퍼(도시되지 않음)로부터 깊이 값(501)은 비교기(553)로 제공되며, 어드레스 발생기(552)에 의하여 경계값 RAM(551)으로부터 검색된 대응 경계값과 비교된다. 만일 깊이 값이 경계값보다 작으면, 비교기는 1을 출력하고, 그 외에 0을 출력한다. 비교기의 출력(부호비트)은 양자화된 값 레지스터(quantized value register),(554)에대한 라이트-인에이블 입력으로 사용된다. 레지스터(554)에 제1 경계값의 어드레스가 적재된다. 이 값은 대상의 식별로 사용되는 소망의 양자화된 값이다.(영16p 19). 레지스터(554)의 내용은 대상 맵 RAM(1101)(도11)에 적재되어 깊이 값과 특정의 대상을 연관시킨다.
현재 깊이값의 사이클중 양자화된 값 레지스터(554)에 더 이상의 기록을 금지하도록, 비교기(553)의 부호 비트 출력은 또한 어드레스 발생기(552)의 리셋 신호로 작용한다. 리셋이 되면, 어드레스 발생기는 비교기(553)내 대응 깊이 값(501)과 비교를 위하여 RAM(551)에 다음 어드레스 발생한다.
이러한 방법으로, 양자화기(550)는 결정 레벨 ti를 가지는 가변 스텝 사이즈 양자화기를 사용하여 최초의 깊이 픽셀 맵을 양자화한다. 이 과정은 "대상 맵"을 생성한다. 이 대상 맵은 특정 대상과 각 픽셀의 연합으로, 0부터 n까지 명명되며, 이때 0은 최근(最近)의 대상에 대응하며, n은 가장 멀리 떨어진 대상(배경)에 대응한다. 대상 맵을 나타내도록 16비트 값을 사용함으로, 최대 65,536개 다른 대상이 동일 이미지 상에 존재하도록 할 수 있다. 물론 더 긴 워드 크기(예를 들어, 24비트 이상)를 사용하여 더 많은 대상을 수용할 수 있다.
대상 맵이 속도 제어 회로(440)에 제공되어, 현재 프레임용 양자화 결정이 이루어진다. 상기 절차가 카메라(100)로부터 동일한 거리의 픽셀은 동일한 대상에 속해있다고 가정하지만, 카메라로부터 동일한 거리(깊이)를 가지는 그림 영역간 공간 분리를 고려하는 것과 같은 좀더 복잡한 기술이 활용될 수 있다.
추가로, 본 출원에 기술된 단순한 기술이 정확성과 복잡성간 우수한 트레이드오프를 제공하지만, 깊이 맵은 단순히 이미지 그 자체이며 따라서 다수의 종래 이미지 세그먼테이션 기술이 본 발명에 사용될 수 있다. 이러한 기술중 몇 가지가 "디지털 이미지 프로세싱"(Addison Wesley, 1993, R.C. Gonzalez 등), "로보트 비전"(MIT press, 1986, B.K.P. Horn), "디지털 이미지 프로세싱"(Wiley Interscience, 1991, W.K. Pratt)에 논의되고 있다. 당업자는 이러한 변형 기술을 사용하여 깊이 맵상에 대상 세그먼테이션을 수행할 수 있다.
도10은 본 발명의 바람직한 일 특징에 따른 일정한 비트 속도 부호화기의 계통도이다. 매크로블록 라벨 회로(1100)는 대상 세그먼테이션 회로(500)가 생성한 대상 맵을 수신한다. 부호화기(200)가 카메라(100)로부터 수신된 비디오 정보의 각 프레임을 매크로블록으로 분리하고, 매크로블록에 기초하여 DCT 계수를 양자화하므로, 비디오 데이터의 각 매크로블록을 특정 대상으로 할당하는 것이 바람직하며, 또한 상술한 단순 세그먼테이션 기술의 경우에는, 상기 매크로블록을 카메라(100)로부터 동일한 깊이에 위치한 하나 이상의 대상을 포함하는 영역에 할당하는 것이 바람직하다. 따라서 매크로블록이 하나 이상의 대상 또는 영역으로부터의 픽셀을 포함하더라도, 매크로블록은 하나의 대상 또는 영역―예를 들어, 이 대상 또는 영역은 카메라(100)에 가장 근접한 것이어서 지각적으로 중요함―에 할당된다. 매크로블록 라벨 회로(1100)가 일단 이러한 할당을 하면, 속도 제어기(1040)는 현재의 전체 매크로블록에 대한 적절한 양자화기 스텝 사이즈를 선택할 수 있다.
도11을 참조하여 설명한다. 매크로블록 라벨 회로(1100)는 대상 맵 RAM(1101)을 포함한다. 이 RAM(1101)은 매크로블록(16x16 픽셀의 배열)의 각 픽셀용 대상 식별자(object identification)를 포함한다. 최하위 대상 식별자를 카메라에 가장 근접한 대상에 할당하여 대상 맵을 구축하기 때문에, 이 회로는 매크로블록용 최하위 식별자 즉, RAM(1101)내에 기억되는 16x16 배열내 가장 작은 숫자를 반드시 탐색해야 한다.
이를 달성하기 위하여, 최하값 레지스터(1120)가 각 사이클의 초기에 그 최대값(16 비트 워드에 대하여 16개의 1)으로 설정된다. 어드레스 발생기(1102)가 최소값 레지스터(1120)에 기억된 값을 가지고 주소를 생성하면, 비교기(1110)는 대상 맵 RAM(1101)으로부터 검색된 각 픽셀 식별자를 비교한다. 만일 현재 값이 레지스터(1120)에 기억된 값보다 작으면, 비교기(1110)는 레지스터(1120)에 라이트-인에이블 신호로 동작하는 논리1을 출력하여 현재 값이 레지스터(1120)에 기억된다. 만일 현재 값이 비교기에 기억된 값보다 크거나 같으면, 라이트-인에이블 신호가 발생되지 않는다. 사이클의 종반부에, 최소값 레지스터는 매크로블록내 최하 대상 식별자의 값을 포함한다. 이 값은 매크로블록 라벨(1130)로서 속도 제어기(1040)에 출력된다.
VBR 부호화를 위하여, 매크로블록 라벨이 특정 양자화기 스텝 사이즈를 각 대상에 결합하여 속도 제어를 위하여 직접 사용될 수 있다. 일반적으로, 최근접 대상에는 미세한 양자화기(좀더 많은 비트를 가지며, 따라서 양질임)가 할당되고, 반면 배경(가장 멀리 떨어진 대상)에는 거친(coarser) 양자화기(비트수가 적으며, 질이 떨어짐)가 할당된다. 이 경우에, 양자화기 선택은 단순히 매크로블록 라벨 회로(1100)가 생성한 가능한 대상 식별자를 색인하는 테이블내에서의 룩업(lookup) 동작에 지나지 않는다. 인코더는 또한 대상에 들어가거나 나올 때 점차로 양자화 스텝을 변화시켜 대상 경계에서 양자화기 차이를 평탄화하는 기술을 사용할 수 있다. 이하 전형적인 평탄화 과정을 CBR 인코더와 관계하여 개설(outline)한다.
CBR 부호화를 위하여, 속도 제어기(1040)는 반드시 양자화기 선택을 부가적으로 조절하여, 상술한 바와 같이 출력 버퍼(1020)가 오버플로우 또는 언더플로우가 되지 않도록 해야한다. 출력될 수 있는 초당 비트의 총수는 고정되므로, 대상의 크기(size)가 중요하다. 대상의 위치가 알려졌을 때, 영역-선택적(area-selective) 속도 제어를 수행하는 기술이 "Automatic Face Location Detection for Model-Assisted Rate Control in H.261 - Comparable Coding of Video"(7 신호 처리: 이미지 통신 435-55, 1995, Eleftheriadis 등)에 기술되어 있으며, 이 책자의 개시 내용이 본 명세서에서 참조로 사용된다.
이 기술에 따라서, 각 대상은 특정 타깃(target) 평균 비트 레이트 Ri,(i=1,…,n-1)와 결합한다. 단 배경(대상 n)은 예외이다. 버퍼 오버플로우를 방지하기 위하여 필요한 주어진 토털 평균 레이트 R을 유지하기 위하여, 배경 레이트는 다음 식에 따라서 결정된다.
(4)
여기서,는 대상 i에 속한 프레임내 픽셀의 비율(0.0부터 1.0)이다. 정의에 의하여,
(5)
은 음수도 가능하지만, 이것은 배경에 대하여 가능한 한 거친 양자화를 할당하는 효과를 가지며, 타깃 비트 레이트 Ri가 표시하는 것보다 대상당 매초 평균 비트가 적게된다.
도12는 도10의 인코더에 유용한 타깃 비트 레이트 발생 회로를 도시한다. 타깃 비트 레이트 발생 회로(1200)의 하드웨어는 최소값 레지스터(1120)(도11)를 대상 비트 레이트 RAM(1210)에 결합하여 매크로블록 라벨 회로(1100)에 포함될 수 있으므로, 매크로블록 라벨(1130)은 RAM(1210)에 전달된다.RAM(1210)은 개별적인 소망의 타깃 비트 레이트 Ri을 포함한다. RAM(1210)의 크기는 매크로블록 라벨에 사용 가능한 비트의 수에 종속적이다. 따라서 만일 8비트 매크로블록 라벨이 사용되면, RAM(1210)은 28메모리 기억장소(카메라(100)로부터 신내 다른 깊이에 있는 대상들의 수가 큰 경우에만 모든 메모리 공간이 필요하다)가 필요하다.
부동 소수점 연산을 회피하기 위하여, 비트 레이트는 그후 스케일(scaled)되는 정수값으로 표시된다. 각 RAM(1210)의 어드레스는 특정 대상 라벨에 대응하며, 따라서 매크로블록 라벨(1130)은 RAM(1210)용 메모리 어드레스로 직접 사용된다. 매크로블록 레벨(1130)이 접근하면, RAM(1210)은 대응하는 타깃 비트 레이트 Ri을 출력한다.
도10을 다시 참조하여 설명한다. 레이트 Ri는 버퍼 레이트와 버퍼 사이즈 변조 기술을 사용하는 버퍼 조절 프로세스에 사용된다. 이 기술을 구현하도록, 가상 버퍼가 물리 버퍼(1020)에 더하여 회로에 부가된다. 가상 버퍼의 점유도는 가상 버퍼 카운터(1030)에 의하여 결정된다. 물리 버퍼(1020)는 계속하여 압축된 비디오 데이터를 출력하고 오버플로우를 추적하도록 기능하고(따라서 버퍼 오버플로우를 회피하기 위하여 필요하면, 매크로블록 스킵 플래그(skip flag),(1021)을 인코더(200)에 전달될 수 있다), 가상 버퍼는 양자화기 선택 프로세스에 사용된다.
물리 버퍼(1020)의 조절 프로세스는 다음 식에 의하여 제어된다.
(6)
(7)
여기서,는 매크로블록 i를 부호화한 후 버퍼 점유도이며,는 매크로블록 i를 부호화하는데 사용된 비트의 수이며, r은 매크로블록당 초당 비트의 개수(= R/프레임내 매크로블록의 개수)이며,는 매크로블록i를 양자화하는데 선택된 양자화기 스텝 사이즈이다. 상기 논의한 바와 같이, 몇몇 형태의 함수가 가능하지만, 그중 하나가 식(3)으로 주어진다.
도10에 도시된 실시예에 있어서, 식(6)은 실제 버퍼(1020)의 점유도를 감시하도록 사용되며, 따라서 플래그(1021)를 인코더(200)에 전달하여 매크로블록 스킵(skip)에 영향을 줄 수 있다. 양자화기 선택은 이하 논의된 가상 버퍼에 따라서 수행된다.
시스템 클록(1050)은 시스템 클록 신호를 생성하며, 이 신호는 버퍼(1020)로 하여금 압축된 비디오 데이터의 소정 양을 출력하도록 한다. 이 클록 신호는 또한 가상 버퍼 카운터(1030)에 인가되어 카운터(1030)가 소정 양만큼 감소되도록 할 수 있다. 마찬가지로, 비디오 데이터의 매크로블록이 부호화되고 버퍼(1020)에 전달되면 언제나 인코더(200)는 매크로블록 비트 카운트 신호를 카운터(1030)에 전달한다. 따라서 매크로블록 카운트에 의하여 카운터(1030)가 증가될 수 있다. 카운터(1030)는 또한 상기한 바와 같이 매크로블록 라벨 회로(1100)는 생성한 타깃 비트 레이트 신호를 수신한다.
다음과 같이, 가상 버퍼의 점유도를 조작하여 버퍼 레이트 변조를 달성할 수 있다. 대상i 에 할당된 매크로블록이 부호화될 때, 카운터(1030)가 결정한 바와 같이, 가상 버퍼의 점유도는 Ri/R의 비율로 변조된다. 변조는 인코더의 견지로부터 데이터 출력 레이트를 증가/감소시키는 효과를 가지며, 결과적으로 이 변조는 적절하게 양자화기 수정(각각 미세화 또는 거칠어진다)하게 된다. 따라서 현재 매크로블록(i)이 대상 k에 할당되면, 식 (6)은
(8)
여기서, B는 가상 버퍼의 버퍼 점유도를 나타내며, bi는 현재 매크로블록(매크로블록 비트 카운트 신호가 표시함)을 부호화하는데 사용되는 비트수와 동일하며, 물리 버퍼(1020)가 출력한 비트의 수와 동일하며, Rk는 타깃 비트 레이트 신호가 표시하는 타깃 비트 레이트이고, R은 버퍼(1020)에 유지되는 평균 출력 비트 레이트이다. 가상 버퍼 카운터(1030)는 이 계산을 수행하여 가상 버퍼 점유도 신호 B를 속도 제어기(1040)에 제공한다.
식(4)에 의하여 제어되는 장기 특성(long-term characteristics)을 영향을 미치지 않고, 이 기술의 단기 수렴(short-term convergency)을 지원하도록, 버퍼 사이즈 변조가 또한 사용되어 양자화 경계를 평탄화한다. 속도 제어기(1040)는 대상 경계에서의 가상 버퍼 점유도를 1보다 크거나 작은 팩터(factor)에 의하여 변조한다. 이 팩터는 인코더가 미세하거나 거친 양자화 대상 영역에 진입하였는지 여부에 종속적이다. 이 팩터는 몇몇 매크로블록에서 1이 된다(즉, 팩터의 영향이 사라진다). 이 기술은 양자화기 스텝 사이즈를 하위/상위 레벨에서 즉시 부양(boost)하는 효과가 있다. 변조 팩터를 적절하게 선택하여, 평탄하고 소정의 레벨로 빠른 양자화 스텝 사이즈를 달성할 수 있다. 따라서 평균 비트 레이트 Ri가 대상 i와 관련된 매크로블록의 부호화 동안에 유지되는 반면, 인접한 매크로블록간 선명한 질의 차이가 제거된다.
다음 식에 따라서 속도 제어기(1040)는 양자하기 선택을 수행한다.
여기서 s1는 매크로블록 i에 대한 버퍼 사이즈 변조 팩터이다. 이 팩터는 다른 양자화기 스텝 사이즈를 가지는 대상에 할당된 매크로블록 사이의 영역을 교차하는 경우를 제외하고 1로 설정된다. 하위 스텝 사이즈 영역에 진입하는 경우, 이 팩터는 1.4로 설정되고, 그후, 인코터(200)가 0.2의 스텝으로 이 값이 1에 도달할 때까지 동일한 대상의 매크로블록을 처리하는 동안 감소된다. 동일하게, 상위 스텝 사이즈 영역에 진입할 때, 이 팩터는 0.6으로 설정되고, 그후, 인코터(200)가 0.2의 스텝으로 이 값이 1에 도달할 때까지 동일한 대상의 매크로블록을 처리하는 동안 증가된다.
도13은 속도 제어기(1040)에 포함되어 팩터 si를 발생할 수 있는 버퍼 사이즈 변조 신호 발생기를 도시한다. 매크로블록 라벨(1130)은 레지스터(1310)에 입력된다. 레지스터(1310)가 새로운 매크로블록을 수신할 때마다, 레지스터(1310)의 내용은 레지스터(1320)로 시프트되며, 비교기(1330),(1340)에서 양 비교기(1310),(1320)의 내용이 비교된다. 레지스터(1310)의 내용이 레지스터(1320)의 내용보다 크면, 비교기(1330)는 1을 출력하고, 그 외는 0을 출력한다. 만일 레지스터(1310)의 내용이 레지스터(1320)의 내용보다 작으면, 비교기(1340)는 1을 출력하고, 그 외는 0을 출력한다. 만일 레지스터(1310),(1320)가 동일한 값을 가지면, 비교기(1330),(1340)은 0을 출력한다.
비교기(1330),(1340)의 출력은 어드레스 발생기(1350)의 트리거(trigger)로 사용된다. 이 어드레스 발생기는 버퍼 사이즈 변조 팩터 si를 포함하는 변조 팩터 RAM(1360)의 주소를 발생한다. 대상 비트 속도 RAM(1210)과 같이, RAM(1360)의 내용은 속도 제어기(1040)의 양자화기 선택부에서 128에 의하여 스케일되는 정수값인 것이 바람직하다. 정수값을 가지므로 분수 도는 부동 소수점 계산을 회피한다. 버퍼 사이즈 변조 신호 발생 회로(1300)는 공통 시스템 클록(도시되지 않음)에 의하여 구동된다.
어드레스 발생기는 다음의 상태 전이표(transition table) 하에서 동작한다.
T1331 T1341 과거 상태 현재 상태 si
0 0 0 0 1.0
0 0 1 2 1.4
0 0 2 3 1.2
0 0 3 0 1.0
0 0 4 5 0.6
0 0 5 6 0.8
0 0 6 0 1.0
0 1 X 4 0.6
1 0 X 1 1.4
표1에 나타난 바와 같이, 비교기(1330)가 0을 출력하여 트리거(1331)의 값이 0이고, 비교기(1340)가 1을 출력하여 트리거(1341)의 값이 1일 때, 인코더(200)는 카메라(100)에 근접한 신(110)내 영역에 대응하는 데이터의 매크로블록을 압축하고 있으며, 상술한 바와 같이, 높은 타깃 비트 레이트 R값 때문에 좀더 많은 비트가 데이터의 매크로블록에 할당된다. 양자화 세분성(quantization granularity)내 도약(jump)을 회피하고자, 어드레스 발생기는 si=0.6에 대응하는 어드레스 값 4를 발생한다. 다음의 사이클에서, 만일 인코더(200)가 계속하여 동일 대상에 속한 매크로블록을 압축하면, 표1에 나타낸 바와 같이, 트리거(1331),(1341)는 모두 값 0을 가지며, 어드레스 발생기는 어드레스 4, 어드레스 5, 어드레스 6, 어드레스 0으로 차례로 이동하며, si값은 0.6에서 0.8을 경유하여 1로 증가하여 사라진다.
동일하게, 비교기(1330)가 0을 출력하여 트리거(1331)의 값이 0이고, 비교기(1340)가 1을 출력하여 트리거(1341)의 값이 1이면, 인코더(200)는 카메라(100)로부터 가장 멀리 떨어진 신(110)내 영역에 대응하는 데이터의 매크로블록을 압축하고 있으며, 상술한 바와 같이, 낮은 타깃 비트 레이트 R값 때문에 좀더 적은 비트가 데이터의 매크로블록에 할당된다. 이러한 상황하에서, 어드레스 발생기는 si=1.4에 대응하는 어드레스 값 1을 발생한다. 다음의 클록 사이클에서, 만일 인코더(200)가 계속하여 동일 대상에 속한 매크로블록을 압축하면, 표1에 나타낸 바와 같이, 트리거(1331),(1341)는 모두 값 0을 가지며, 어드레스 발생기는 어드레스 1, 어드레스 2, 어드레스 3, 어드레스 0으로 차례로 이동하며, si값은 1.4에서 1.2를 경유하여 1로 감소하여 사라진다.
도13을 참조하여 설명한 회로는 카메라(100)에 근접한 대상에 대응하는 매크로블록에 높은 타깃 비트 레이트 R가 할당된다고 가정하지만, 다른 비트 레이트 할당 방법이 사용될 수 있다. 이러한 상황하에서 다른 상태 전이표가 사용될 수 있다. 대안적으로는, 회로(1300)의 구조를 변경하여 비교기(1330),(1340)가 매크로블록 라벨 그 자체보다 대상에 할당된 실제 비트 레이트 값을 비교하도록 할 수 있다. 이러한 수정에 의하여, 비교기(1330),(1340)에 직접 제공된 2 출력을 이용하여 개별 대상 라벨은 2개 연속된 클록 사이클로 RAM(1210)을 접근하여 대상 비트 속도 RAM(1210)을 직접적으로 사용할 수 있다.
도11을 다시 참조하여 설명한다. 팩터 si는 라인(1370)을 통하여 제공되며 따라서 속도 제어기(1040)가 식(9)을 계산할 수 있고, 적절한 양자화 선택 신호Q를 발생할 수 있다. 당업자가 충분히 이해할 수 있는 바와 같이, 식(9)의 계산은 속도 제어기(1040)내 RAM(도시되지 않음)상에 실행되는 소프트웨어 루틴 또는 적절한 마이크로-코드 하드웨어에 의하여 실행된다. 이러한 방법에 있어서, 속도 제어 회로(1040)가 양자화 선택 신호 Q를 발생하고, 이 신호는 인코더(200)에 인가되어 적절한 양자화 모드를 선택한다. 이 양자화 모드는 인코더(200)내 비디오 데이터가 현재 부호화되고 있는 대상이 가지는 지각적 중요성(perceptual importance)을 반영한다. 따라서 인코더(200)는 좌에서 우로, 상에서 하(GOB 구조가 반드시 추종(followed)되어야 하는 H.261의 경우는 예외임)로 프레임내 각 매크로블록을 속도 제어 회로(1040)가 제공한 양자화기 스텝 사이즈를 사용하여 처리한다.
이상 내용은 MPEG-2와 같은 필드 또는 프레임 기반 부호화 기술의 깊이 정보를 사용하는 것에 집중했지만, 본 발명은 MPEG-4와 같은 대상-기반(object-base) 비디오 압축 기술에 또한 응용할 수 있다. 비록 대상-기반 기술이 MPEG-4의 전용이 아니지만, 본 발명의 실시예가 MPEG-4에 사용되기 적합한 형태로 주어져, 본 발명이 다른 공지의 대상-기반 압축 기술에 사용될 수 있음을 설명한다. MPEG-4 표준은 본 명세서를 쓰고있는 시점에서도 추가적으로 수정될 수 있으므로, 가장 최근의 버전인 검증 모델 3.0, 코덱 디자인(codec design)에 기초하여 논의한다.
MPEG-4의 기본 구조는 ITU H.263과 유사하다. 단 비디오 대상(Video Object: VO)과 비디오 대상 평면(Video Object Plane: VOP)의 개념(notation)은 예외이다. 도14에 예시된 바와 같이, VO는 신내 존재할 수 있는 대상(1410),(1420),(1430)에 독립적이다. 반면, VOP는 임의 형상(1411),(1421),(1431)의 2차원 이미지이다. 프레임은 VOP를 중첩하여 구성되며, 시퀀스(sequence)는 프레임당 하나의 VOP로 구성된 VO로 이루어진다.
각 대상에 대하여 VO 압축이 개별적으로 이루어진다. VO내 VOP는 임의 형상을 가지므로, 문자(texture)와 형상 압축 모두가 사용되어야 한다. 형상 압축은 VOP의 경계를 한정하는 윤곽(contour)을 부호화한다. 연쇄 부호화(chain coding)를 포함하는 몇몇 공지의 형상 부호화 기술이 사용될 수 있다.
문자 부호화에 관하여, ITU H.263 설명서에 사용된 것과 거의 동일하며, H.263 또한 하위 비트 레이트 사용을 수정하면 MPEG-2에 유사하다. 이 코덱은 상술한 움직임-보상 DCT 구조를 사용하여 매크로블록 모드에 동작한다. 형상의 윤곽이 매크로블록을 교차하는 경우에, 형상 윤곽의 외부에 위치한 매크로블록에 충전(filler) 픽셀 값을 삽입하여 매크로블록을 메워 압축을 개선한다. 수신기는 메워진 픽셀 값을 동시에 수신된 형상 정보에 따라서 디스플레이하기 전에 제거한다.
본 발명에 따라서 깊이-센싱 카메라를 사용하는 대상-기반 인코더의 구조가 도15에 개시된다. 깊이 센싱 카메라(100)는 표준 디지털 비디오 또는 이미지 신호(101)를 MPEG-4 인코더(1600)에 제공하고, 정규 비디오 신호(101)에 포함된 픽셀의 깊이 정보로 구성된 제2 신호(102)는 비디오 대상 세그먼테이션 회로(1500)에 공급된다. 비디오 대상 세그먼테이션 회로(1500)는 깊이 정보를 사용하여 확실하게 시각 대상(visual object: VO)를 분리하고, MPEG-4 인코더(1600)에 비디오 대상 형상 정보(video object shape information)를 제공한다. MPEG-4 인코더(1600)는 이 신호를 개별적으로 부호화한다. 몇몇 VO는 동일한 비트스트림에 중첩(1550)되어서 완전한 화상을 형성한다.
MPEG-4 인코더가 도16에 도시된다. 표준 디지털 비디오 또는 이미지 신호(101)가 수신되고 프레임 기억 장치(1601)에 기억되는 동안, 비디오 대상 세그먼테이션 회로(1500)가 발생한 비디오 대상 형성 정보는 형상 인코더(1610)에 제공된다. 형상 코더는 현재 VOP 경계 사각형(rectangle)(즉, 전체 VOP를 포함하는 최소의 사각형)을 그 바닥 우측면에서 확대하여 그 높이와 너비가 16의 배수가 되도록 한다. 따라서 매크로블록의 정수 값이 경계 사각형에 포함됨이 보장된다. VOP내 개별 매크로블록은 변형 MMR 기술에 의하여 처리된다. 물론 부호화된 정보는 실제 픽셀 값을 나타내지 않지만 주어진 픽셀이 현 VOP에 속하는지 여부를 나타낸다.
부호화된 VOP 형상 정보는 패딩 회로(padding circuit),(1620)에 제공된다. 패딩 회로(1620)는 프레임 저장 장치(1601)내 기억된 표준 디지털 이미지로부터 픽셀을 검색한다. 이 표준 디지털 이미지는 부호화된 VOP 형상 정보에 의하여 식별되며, VOP 형상 외부에 있는 매크로블록내 픽셀을 선형으로 보간(interpolate)하여 이들 픽셀에 대하여 패딩 동작을 수행한다. 패딩 동작은 VOP용 전체 매크로블록을 발생하여 코딩 성능을 개선하는 효과를 가진다. 이것은 좀더 쉽게 DCT 압축 기술에서 처리된다.
VOP용 패드된 매크로블록은 매크로블록 분리/가산기(1630)와 움직임 예측 회로(1640)에 입력된다. 분리/가산기(1630)로부터 매크로블록 데이터가 DCT(1650)에 인가된다. 향상된 압축 효율을 달성하기 위하여, DCT 계수가 양자화되고(1651), 지그-재그 런-랭스 부호화되고(1652) 가변 길이 부호화(1653)된다. 양자화된 DCT 계수는 또한 역양자화(1655) 및 역 DCT(1656)되어 과거 비디오 데이터를 현재 비디오 데이터와 동시에 움직임 예측 회로(1640)에 제공한다. 움직임 예측 회로(1640)는 프레임 기억 장치(1641)에 기억될 수 있는 과거와 현재의 비디오 데이터를 사용하여 움직임 벡터를 생성한다. 이 벡터는 부호화되고(1641),(1642) 압축된 DCT 계수와 함께 중첩(1660)된다.
도4를 참조하여 설명한 세그먼테이션 프로세스와 달리, 대상-기반 압축은 잠재(potential) 지각적 중요성 영역의 인식뿐만 아니라 개별 대상 영역의 인식도 필요하다. 도4를 참조하여 설명한 방법에서, 카메라로부터 동일 범위내 있는 모든 대상은 대상 세그먼테이션 회로(500)에 의하여 동일하게 취급되지만, 이 기술은 오직 속도 제어에 영향을 준다. 개별 대상을 포함하도록 이하 기술되는 사항이 상기 기술(技術)에 부가된다.
도17에 비디오 세그먼테이션 회로(1500)가 좀더 상세하게 도시된다. 이 회로는 대상 맵 발생 회로(1710), 영역 선택기(1720), 비디오 대상 선택기(1730), 디멀티플렉서(1740)를 포함한다. 대상 맵 발생 회로(1710)는 대상 세그먼테이션 회로(500)와 동일한 방법으로 대상 맵을 발생하며, 이 회로(500)에 관하여 설명된 하드웨어가 대상 맵 발생 회로(1710)로 사용하기 적절하다.
영역 선택기(1720)는 대상 맵을 전처리(preprocess)하여 어느 픽셀이 각 깊이 범위(임계 ti와 ti+1범위내 영역)내에 있는 식별한다. 이들 픽셀은 1로 표시되고, 반면 나머지 픽셀들은 0으로 표시된다. 이를 깊이 영역 마스크라 한다. 적절한 소프트웨어가 미리 적재된 RAM일 수 있는 비디오 대상 선택기(1730)가 그 영역내 존재하는 하나 이상의 비디오 대상을 식별한다. 비디오 선택기(1730)가 위치시킨 각 비디오 대상에 대한 VOP 형상 정보가 DMUX(1740)를 통과하여 형상 코더(1610)에 제공된다. 비디오 대상 선택기(1730)가 취하는 처리 단계는 이하에 기술된다.
도16을 참조하여 설명한다. VBR 인코딩을 위하여, 출력 버퍼가 없으며 양자화기(1651)내 기본 양자화기 레벨이 독립적으로 VO들에 할당될 수 있다. 그러나 CBR 코딩을 위하여, 양자화기 선택은 발생된 비트 레이트를 조절하는 수단으로서 다시 중요하게 된다.
도17에 도시된 바와 같이, VOP 형상 정보는 또한 버퍼(1750)와 속도 제어기(1760)에 경로설정(route)되어 속도 제어를 달성한다. 속도 제어기(1760)는 양자화 모드 선택 신호를 도10을 참조하여 종전에 설명한 방법과 동일한 방법으로 발생한다. 다만 종전 방법과 달리 매크로블록 라벨 요구가 발생하지 않는다. 동일한 비디오 대상으로부터 데이터에 항상 동일한 타깃 비트 레이트 B가 할당된다. 도12와 13의 매크로블록 라벨대신에 비디오 대상 정보가 직접적으로 사용되어, 가상 버퍼 카운터(도17에 도시되지 않음)에 사용되는 타깃 비트 레이트 신호와 버퍼 사이즈 변조 팩터 s를 발생한다. 속도 제어기(1760)가 발생한 양자화 모드 선택 신호는 양자화기(1651)에 인가되어 물리 버퍼(도16에 도시되지 않음)가 오버플로우되지 않음을 보장한다.
본 발명에 따라서 수행되는 속도 제어 단계를 기술하는 흐름도를 도18을 참조하여 이하 설명한다. 비디오와 깊이 정보를 수신하면(1810), 수신된 깊이 정보의 히스토그램을 계산하여 소정값의 범위에 소정의 깊이 값을 가지는 픽셀의 수를 제공하고(1820), 소정 임계값t 이하의 히스토그램내 모든 값을 0으로 설정하여 클립된 히스토그램을 발생하고(1822), 클립된 히스토그램을 검색하여 n개 다른 임계 깊이 값을 가지는 n개의 경계값을 찾으며((1823), 이 n개의 다른 임계값에 기초하여 깊이정보를 양자화(1824)하여 대상 맵이 발생한다(1820).
다음, 비디오 데이터의 현 매크로블록이 가변 지각적 중요성 영역중 하나에 할당되고(1830), 할당된 영역과 관계를 가지는 타깃 비트 레이트를 표시하는 신호가 발생된다(1840). 이 타깃 비트 레이트가 가상 버퍼 점유도 신호를 발생하도록 사용되고(1841), 이어서 할당된 영역이 직전에 할당된 영역과 상이할 때마다 버퍼 사이즈 변조 신호를 생성하도록 사용된다(1851). 대상 맵과 버퍼 사이즈 변조 신호에 기초하여 양자화 모드 신호가 발생되어(1850) 대상맵내 영역의 지각적 중요성을 반영한 양자화 모드를 선택한다.
최종적으로, 압축된 비디오 신호가 생성되고(1860), 버퍼에 저장된 후(1870), 출력된다(1880). 만일 버퍼에 여유 공간이 없으면, 버퍼 오버플로우 상태를 표시하는 신호가 발생되고(1871), 상기 단계(1850)에 인가된다. 압축된 비디오 신호 정보가 버퍼에 저장될 때마다 가상 버퍼 카운트가 증가하고(1861), 버퍼로부터 압축된 비디오 신호 정보가 출력될 때마다 감소한다(1871).
비디오 대상 세그먼테이션 회로(1500)가 수행하는 단계를 기술하는 흐름도를 도19를 참조하여 설명한다. 비디오와 깊이 정보를 수신하면(1910), 도18을 참조하여 설명한 바와 같이, 대상 맵이 발생한다(1920). 이 대상 맵은 전처리되어 대상 마스크를 발생한다(1920). 마스크 영역내 하나 이상의 비디오 대상은 다음과 같이 식별된다.
상부 좌측 코너로부터 시작하여, 좌에서 우로, 상에서 하로 영역 마스크는 "1"값을 가지는 픽셀이 발견될 때까지 검색된다. 대상 마스크내 픽셀 위치는 표시된다.
이 픽셀의 근방(neighborhood)을 영역 마스크내에서 검색하고(대각선뿐만 아니라, 상-하, 좌-우)(1950), 다른 "1"의 픽셀이 존재하는지 알아본다(1960). 만일 근방에 "1" 픽셀이 존재하면, 대상 마스크내 그 위치가 표시된다. 만일 검색되지 않은 근방 픽셀이 존재하면, 이 단계는 반복(종전에 검색했던 픽셀은 무시됨)된다(1961). 만일 탐색되지 않은 근방이 없으면(1962), 알고리즘은 종료되고, 대상 마스크는 원 개시 픽셀을 포함하는 연결된 대상 영역을 포함한다. 이 대상 마스크가 인코더(1600)에 제공된 이 특정 대상(particular object)용 형상 정보이다. 다음, 새롭게 만들어진 대상 마스크에 속한 영역 마스크내 픽셀 자체가 마스크되고(즉, 그들 값을 0을 설정하여 마스크 됨)(1970), 이 프로세스는 반복된다(1980),(1981). 만일 동일 깊이내 하나 이상의 대상이 존재하면, 하나 이상의 부가적 대상으로 인식될 표시된 픽셀이 잔존한다. 이 방법으로 모든 대상을 처리한 후, 오직 0값의 픽셀만이 영역 마스크에 잔존하게 된다(1980),(1982).
각 대상 마스크는 깊이 범이 ID와 함께 대상을 유일하게 인식하는 다른 번호로 라벨된다. 예를 들어서, 첫 번째 바이트가 깊이 범위를 식별하고, 두 번째 바이트가 상기 범위내 대상 번호를 식별하도록 2 바이트가 사용될 수 있다. 좀더 긴 코드를 사용하여 좀더 넓은 범위와 그 범위당 좀더 많은 개체를 수용할 수 있다. 계층적 대상 ID를 사용하면 어떤 대상이 전경(foreground)에 속해있고 어떤 대상이 배경에 속해 있는지 쉽게 식별할 수 있는 이점이 있다.
임시 성분(temporal component)을 고려하기 위하여, 일 프레임으로부터 다음 프레임으로 VOP가 추적(track)되며, VOP가 동일한 VO에 속하는지 여부가 일 프레임과 다음 프레임과의 형상 및 깊이 차이를 고려하여 결정된다. 형상과 깊이 차이가 작은 VOP는 동일한 VO의 부분이라 생각된다. 비록 인코더가 낮은 프레임 레이트로 동작하여 필요한 대역폭을 최소화하지만, 대상 검출 부시스템이 초당 30 프레임의 속도로 동작할 수 있다. 따라서 대상을 충분하게 추적할 수 있다.
도19를 다시 참조하여 설명한다. 현 프레임으로부터 VOP중 하나가 선택되고, 직전 프레임으로부터 기억된 VOP중 하나가 선택된다. 현 VOP의 경계 픽셀과 종전 프레임의 VOP로부터 가장 가까운 픽셀과 좌표 차의 절대값을 합하여 이 두 VOP 사이의 형상차가 계산된다(2000). 깊이 차의 절대값 뿐만 아니라 수평과 수직 방향 모두의 차이를 합산하여, 두 VOP간 비유사성의 예측치가 발생된다.
만일 직전 프레임(2010),(2011)용으로 더욱 많은 VOP가 있으면, 다른 과거의 VOP가 선택되고(2012), 두 VOP간 형상 차이가 계산된다. 더 이상 과거의 프레임 VOP가 존재하지 않으면(2010),(2013), 현 VOP가 VO에 할당된다(2020). 이 VO는 종전 프레임내 가장 밀접한 VOP를 제공한다. 만일 종전 프레임에 VOP가 존재하지 않으면, 새로운 VO가 만들어진다.
만일 부가적인 현 VOP가 존재하면(2030),(2031), 새로운 현 VOP를 선택하고(2032), 단계(2000-2030)를 반복하여 이 프로세스를 반복한다. 마스크내 모든 VOP가 비디오 대상에 할당되면, 새로운 마스크가 발생되고(2040),(2041), 이 프로세스 단계(1930-2030)가 반복된다. 모든 비디오 대상이 식별되면(2040),(2042), 대상 식별 신호가 발생되어(2050) DMUX에 전달된다(1740)(도17).
상기 사항은 본 발명의 원리를 예시한 것에 지나지 않는다. 당업자는 본 출원의 개시로부터 이상 설명된 실시예에 다양한 수정 및 변경을 가할 수 있다. 예를 들어서, 도15에 도시된 실시예에서 발생된 비디오 대상 정보가 2차원이지만, 카메라(100)가 발생한 3차원 깊이 정보를 직접 부호화하여 디코더에 전송할 수 있다. 이러한 부호화는 회전과 같은 대상 조작이 압축 후에도 수행되도록 한다.
추가로, 좀더 복잡한 속도 제어 기술이 사용될 수 있다. 예를 들어서, 이 시스템은 다른 대상(예를 들어, 인간의 얼굴, 종이 등)의 의미(semantics)를 식별하도록 하고 자동적으로 비트 레이트 또는 질(quality) 레벨을 그것에 할당하도록 할 수 있다. 이 의미 식별은 깊이 센싱 카메라가 제공하는 2차원 또는 3차원 깊이 정보로부터 얻어질 수 있다. 따라서 당업자는 본 출원서에는 구체적으로 도시되지 않은 다양한 시스템 및 방법을 본원의 사상 및 범위를 이탈하지 않고, 본 발명의 기본원리를 구체화하여 고안할 수 있다.
본 발명의 시스템은 다른 대상(예를 들어, 인간의 얼굴, 종이 등)의 의미(semantics)를 식별하도록 하고 자동적으로 비트 레이트 또는 질(quality) 레벨을 그것에 할당하도록 할 수 있다. 이 의미 식별은 깊이 센싱 카메라가 제공하는 2차원 또는 3차원 깊이 정보로부터 얻어질 수 있다.

Claims (51)

  1. 2차원 화소 어레이를 포함하고, 부호화를 개선하기 위해 상기 각 화소의 깊이 성분을 사용하는 비디오 정보의 필드 또는 프레임을 부호화하는 장치에 있어서,
    (a) 비디오 정보의 프레임 또는 필드를 수신하고, 상기 수신된 비디오 정보의 프레임 또는 필드로부터 압축 비디오 신호를 발생하며, 상기 비디오 정보의 필드 또는 프레임의 일부에 해당하는 데이터를 양자화하는 멀티 모드 양자화기를 포함하는 부호화기;
    (b) 상기 수신된 비디오 정보에 해당하는 깊이 정보를 수신하고, 상기 수신된 필드 또는 프레임의 각 화소를 상기 수신된 프레임 또는 필드 내의 하나 이상의 가변 지각 중요성 영역 중의 하나의 영역과 연관시키기 위해 대상 맵을 발생하는 대상 세그먼테이션 회로; 및
    c) 상기 대상 세그먼테이션 회로 및 상기 멀티 모드 양자화기와 연결되어 있으며, 상기 대상 맵을 수신하고, 상기 대상 맵에 응답하는 신호를 상기 멀티 모드 양자화기에 제공하여 내부의 양자화 모드를 선택하며, 그 결과 상기 선택된 양자화 모드가 상기 대상 맵에 의해 표시된 상기 영역의 지각 중요성을 반영하는 속도 제어기
    를 포함하는 비디오 정보의 필드 또는 프레임 부호화 장치.
  2. 제1항에 있어서,
    상기 부호화기는 MPEG-2 컴플라이언트 비트 스트림을 발생할 수 있는 가변 비트 속도 부호화기인 비디오 정보의 필드 또는 프레임 부호화 장치.
  3. 제1항에 있어서,
    상기 대상 세그먼테이션 회로는
    (1) 상기 깊이 정보를 수신하고 상기 깊이 정보의 히스토그램을 계산하여, 그 결과 미리 결정된 범위의 값에 대하여 미리 결정된 깊이 값을 가지는 화소의 개수를 제공하는 히스토그램 발생 회로;
    (2) 상기 히스토그램 발생 회로와 연결되어 있으며, 상기 발생된 히스토그램을 수신하고, 미리 결정된 임계 값을 0으로 낮추는 모든 값을 상기 히스토그램 내에 설정하며, 그 결과 클립된 히스토그램을 발생하는 제1 논리 회로;
    (3) 상기 제1 논리 회로와 연결되어 있으며, 상기 클립된 히스토그램을 수신하고, n개의 서로 다른 임계 깊이 값을 가지는 n개의 영역의 경계를 구하기 위해 상기 클립된 히스토그램을 스캐닝하는 제2 논리 회로; 및
    (4) 상기 제2 논리 회로와 연결되어 있으며, 상기 n개의 서로 다른 임계 값 및 상기 깊이 정보를 수신하고, 상기 n개의 서로 다른 임계 값에 기초하여 상기 깊이 정보를 양자화하여, 그 결과 상기 대상 맵을 발생하는 가변 스텝 양자화 회로
    를 포함하는 비디오 정보의 필드 또는 프레임 부호화 장치.
  4. 제3항에 있어서,
    상기 히스토그램 발생 회로는
    (ⅰ) 상기 깊이 정보를 수신하고 상기 정보를 일시적으로 저장하는 버퍼;
    (ⅱ) 상기 버퍼와 연결되어 있으며, 상기 버퍼로부터 메모리 어드레스에 따라 상기 깊이 정보를 수신하고, 상기 메모리 어드레스에 따라 히스토그램 값을 저장하는 메모리; 및
    (ⅲ) 상기 메모리와 연결되어 있으며, 상기 메모리의 어드레스 위치로부터 히스토그램 값을 판독하고, 상기 히스토그램 값을 갱신하고, 상기 갱신된 히스토그램을 상기 메모리의 상기 어드레스 위치에 제공하는 논리 회로
    를 포함하는 비디오 정보의 필드 또는 프레임 부호화 장치.
  5. 제1항에 있어서,
    상기 부호화기는 가변 비트 속도 부호화기이며,
    (d) 상기 부호화기 및 상기 속도 제어기와 연결되어 있으며, 미리 결정된 저장 능력을 가지고 있으며, 상기 발생된 압축 비디오 신호를 수신하고 상기 신호를 일시적으로 저장하고, 오버플로우 조건을 표시하는 신호―여기서 속도 제어기에 의해 상기 멀티 모드 양자화기에 제공된 신호는 상기 오버플로우 신호에 응답하며, 그 결과 상기 선택된 양자화 모드가 상기 비디오 버퍼의 상기 저장 능력에 의해 억제된 상기 영역의 지각 중요성을 반영함―를 상기 속도 제어기에 제공하는 비디오 버퍼
    를 추가로 포함하는 비디오 정보의 필드 또는 프레임 부호화 장치.
  6. 제6항에 있어서,
    (e) 상기 대상 세그먼테이션 회로 및 상기 속도 제어기와 연결되어 있으며, 현재의 매크로블록의 비디오 데이터를 상기 가변 지각 중요성 영역 중의 하나의 영역에 할당하고, 상기 할당된 영역을 표시하는 신호―상기 속도 제어기에 의해 상기 멀티 모드 양자화기에 제공되는 상기 신호는 상기 할당된 영역을 반영함―를 상기 속도 제어기에 제공하는 매그로블록 라벨링 회로
    를 추가로 포함하는 비디오 정보의 필드 또는 프레임 부호화 장치.
  7. 제6항에 있어서,
    상기 현재의 매크로블록의 비디오 데이터는 상기 매크로블록의 비디오 데이터에 해당하는 상기 대상 맵의 위치에 의해 식별된 하나 이상의 지각 중요성 영역 중 가장 큰 지각 중요성을 가지는 영역으로 할당되는 비디오 정보의 필드 또는 프레임 부호화 장치.
  8. 제6항에 있어서,
    (f) 상기 비디오 버퍼―여기서 비디오 버퍼는 상기 클록 신호에 응답하여 상기 압축 비디오 신호를 미리 결정된 양만큼 출력함―와 연결되어 있으며, 상기 버퍼에 클록 신호를 제공하는 클록 신호 발생 회로; 및
    (g) 상기 부호화기, 상기 클록 신호 발생 회로, 상기 매크로블록 라벨링 회로 및 상기 속도 제어기와 연결되어 있으며, 상기 클록 신호, 상기 타겟 비트 속도 신호, 및 상기 부호화기 출력 신호를 수신하고, 상기 비디오 버퍼와 연관된 가상 버퍼 내에 존재하는 비트의 개수를 카운트―여기서 카운트는 상기 부호화기 출력 신호에 응답하여 상기 카운트에 가산(adding)하고 상기 클록 신호 및 상기 타겟 비트 속도 신호에 응답하여 상기 카운트로부터 감산(subtract)함으로써 이루어지며, 그 결과 상기 가상 버퍼의 점유가 결정됨―하고, 상기 카운트를 표시하는 가상 버퍼 점유 신호를 상기 속도 제어기에 제공하는 카운터;
    를 추가로 포함하며,
    상기 부호화기는 압축 비디오 데이터가 상기 비디오 버퍼에 출력되면 출력 신호를 발생하며,
    상기 매크로블록 라벨링 회로는 상기 할당된 영역과 연관된 타겟 비트 속도를 표시하는 신호를 발생하며,
    상기 속도 제어기에 의해 상기 멀티 모드 양자화기에 제공되는 상기 신호는 또한 상기 가상 버퍼 점유 신호에 응답하여, 그 결과 상기 선택된 양자화 모드가 상기 비디오 버퍼의 상기 저장 능력에 의해 억제된 상기 가상 버퍼 능력에 의해 표시되는 상기 영역의 지각 중요성을 반영하는
    비디오 정보의 필드 또는 프레임 부호화 장치.
  9. 제8항에 있어서,
    상기 가상 버퍼 점유 Bi은 방정식 Bi= Bi-1+ bi- r(Rk/R)에 의해 결정되며,
    bi은 상기 부호화기 출력 신호에 의해 표시된 현재의 매크로블록을 부호화하기 위해 사용되는 비트의 개수와 동등하며,
    r은 상기 클록 신호에 의해 표시된 상기 비디오 버퍼에 의해 출력된 비트의 개수와 동등하며,
    Rk는 상기 타겟 비트 속도 신호에 의해 표시된 타겟 비트 속도이며, R은 상기 비디오 버퍼에 의해 유지되는 평균 출력 비트 속도인
    비디오 정보의 필드 또는 프레임 부호화 장치.
  10. 제8항에 있어서,
    상기 속도 제어기는, 상기 매크로블록 라벨링 회로와 연결되어 있으며 상기 할당된 영역을 수신하고 상기 할당된 영역이 인접하여 계속하여 할당된 영역과 다를 때마다 버퍼 크기의 변조 신호를 발생하는 버퍼 크기의 논리 회로를 포함하며,
    상기 속도 제어기에 의해 상기 멀티 모드 양자화기로 제공되는 상기 신호는 또한 상기 버퍼 크기의 변조 신호에 응답하여, 그 결과 상기 선택된 양자화 모드가 상기 버퍼 크기의 변조 신호에 의해 변조되고 상기 비디오 버퍼의 상기 저장 능력에 의해 억제된 상기 가상 버퍼 능력에 의해 표시된 상기 영역의 지각 중요성을 반영하는
    비디오 정보의 필드 또는 프레임 부호화 장치.
  11. 2차원 화소 어레이를 포함하고 부호화를 개선하기 위해 상기 각 화소의 깊이 성분을 사용하는 비디오 정보의 필드 또는 프레임을 부호화하는 장치에 있어서,
    (a) 비디오 정보의 프레임 또는 필드 및 상기 비디오 정보에 해당하는 깊이 정보를 실시간에 발생할 수 있는 깊이 센싱 카메라;
    (b) 상기 깊이 센싱 카메라와 연결되어 있으며, 상기 발생된 비디오 정보의 프레임 또는 필드를 수신하고, 상기 비디오 정보의 프레임 또는 필드로부터 압축 비디오 신호를 발생하며, 상기 비디오 정보의 필드 또는 프레임에 해당하는 데이터를 양자화하는 멀티 모드 양자화기를 포함하는 부호화기;
    (c) 상기 깊이 센싱 카메라와 연결되어 있으며, 상기 수신된 필드 또는 프레임의 각 화소를 상기 수신된 프레임 또는 필드 내의 하나 이상의 가변 지각 중요성 영역 중의 하나의 영역과 연관시키기 위해 대상 맵을 발생하는 대상 세그먼테이션 회로; 및
    (d) 상기 대상 세그먼테이션 회로 및 상기 멀티 모드 양자화기와 연결되어 있으며, 상기 대상 맵을 수신하고, 양자화 모드를 선택하기 위해 상기 대상 맵에 응답하는 신호를 상기 멀티 모드 양자화기에 제공하며, 그 결과 상기 선택된 양자화 모드가 상기 대상 맵에 의해 표시된 상기 영역의 지각 중요성을 반영하는 속도 제어기
    를 포함하는 비디오 정보의 필드 또는 프레임 부호화 장치.
  12. 부호화를 개선하기 위해 각 화소의 깊이 정보를 사용하는 2차원 화소 어레이를 포함하는 비디오 정보의 필드 또는 프레임을 부호화하는 방법에 있어서,
    (a) 비디오 정보의 프레임 또는 필드를 수신하고 상기 수신된 비디오 정보에 해당하는 깊이 정보를 수신하는 단계;
    (b) 상기 수신된 3개의 정보를 대상 맵으로 변환하여, 그 결과 상기 수신된 필드 또는 프레임의 각 화소를 상기 수신된 프레임 또는 필드 내의 하나 이상의 가변 지각 중요성 영역 중 하나의 영역과 연관시키는 단계;
    (c) 상기 대상 맵에 기초하여 양자화 모드 신호를 발생하여, 상기 대상 맵에 의해 표시된 상기 영역의 지각 중요성을 반영하는 양자화 모드를 선택하는 단계; 및
    (d) 상기 양자화 모드 신호에 의해 선택된 상기 양자화 모드에 따라 상기 수신된 비디오 정보의 필드 또는 프레임의 일부에 해당하는 데이터를 양자화함으로써 상기 수신된 비디오 정보의 프레임 또는 필드에 해당하는 압축 비디오 신호 를 발생하는 단계
    를 포함하는 비디오 정보의 필드 또는 프레임 부호화 방법.
  13. 제12항에 있어서,
    상기 단계 (d)에서 발생된 상기 압축 비디오 신호는 MPEG-2 컴플라이언트 비트 스트림인 비디오 정보의 필드 또는 프레임 부호화 방법.
  14. 제12항에 있어서,
    상기 변환 단계는
    (1) 상기 수신된 깊이 정보의 히스토그램을 계산하여 미리 결정된 범위의 값에 대하여 미리 결정된 깊이 값을 가지는 화소의 개수를 제공하는 단계;
    (2) 클립된 히스토그램을 발생하기 위해 미리 결정된 임계 값을 0으로 낮추는 모든 값을 상기 히스토그램에 설정하는 단계;
    (3) n개의 서로 다른 임계 깊이 값을 가지는 n 개의 영역의 경계를 구하기 위해 상기 클립된 히스토그램을 스캐닝하는 단계; 및
    (4) 상기 n개의 서로 다른 임계 값에 기초하여 상기 깊이 정보를 양자화하는 단계
    를 포함하는 비디오 정보의 필드 또는 프레임 부호화 방법.
  15. 제12항에 있어서,
    (e) 상기 발생된 압축 비디오 신호를 버퍼링하는 단계; 및
    (f) 버퍼링 오버플로우 상태를 표시하는 신호를 제공하는 단계
    를 추가로 포함하며,
    상기 양자화 모드 신호는 또한 상기 오버플로우 신호에 응답하여 상기 선택된 양자화 모드가 버퍼링 제한에 의해 억제된 상기 영역의 상기 영역의 지각 중요성을 반영하도록 하며,
    상기 발생된 압축 비디오 신호는 가변 비트 속도 신호인
    비디오 정보의 필드 또는 프레임 부호화 방법.
  16. 제15항에 있어서,
    상기 양자화 모드 신호를 발생하기 전에 상기 수신된 비디오 정보의 프레임 또는 필드 내의 현재의 매크로블록 비디오 데이터를 상기 가변 지각 중요성 영역 중의 하나의 영역에 할당하는 단계를 추가로 포함하며,
    상기 양자화 모드 신호는 상기 할당된 영역을 반영하는
    비디오 정보의 필드 또는 프레임 부호화 방법.
  17. 제16항에 있어서,
    상기 할당 단계는 상기 현재의 매크로블록의 비디오 데이터를 상기 매크로블록의 비디오 데이터에 해당하는 상기 대상 맵의 위치에 의해 식별된 하나 이상의 지각 중요성 영역 중 가장 큰 지각 중요성을 가지는 영역으로 할당하는 비디오 정보의 필드 또는 프레임 부호화 방법.
  18. 제16항에 있어서,
    상기 양자화 모드 신호를 발생하기 전에 상기 할당된 영역과 연관된 타겟 비트 속도를 표시하는 신호를 발생하는 단계를 추가로 포함하는 비디오 정보의 필드 또는 프레임 부호화 방법.
  19. 제18항에 있어서,
    (ⅰ) 압축 비디오 신호 정보가 버퍼링될 때마다 가상 버퍼 점유를 표시하는 가상 버퍼 카운트에 가산하는 단계;
    (ⅱ) 버퍼링된 압축 비디오 신호 정보가 상기 타겟 비트 속도 신호에 따라 결정되는 양만큼 출력될 때마다 상기 카운트로부터 감산하는 단계; 및
    (ⅲ) 상기 카운트를 표시하는 가상 버퍼 점유 신호를 발생하는 단계
    를 추가로 포함하며,
    상기 양자화 모드 신호는 또한 상기 가상 버퍼 점유 신호에 응답하여, 그 결과 상기 선택된 양자화 모드가 상기 버퍼링 제한에 의해 억제된 상기 가상 버퍼 점유에 의해 표시된 상기 영역의 지각 중요성을 반영하는
    비디오 정보의 필드 또는 프레임 부호화 방법.
  20. 제19항에 있어서,
    상기 가상 버퍼 점유 Bi은 방정식 Bi= Bi-1+ bi- r(Rk/R)에 의해 결정되며,
    bi은 상기 부호화기 출력 신호에 의해 표시된 현재의 매크로블록을 부호화하기 위해 사용되는 비트의 개수와 동등하며,
    r은 상기 클록 신호에 의해 표시된 상기 비디오 버퍼에 의해 출력된 비트의 개수와 동등하며,
    Rk는 상기 타겟 비트 속도 신호에 의해 표시된 타겟 비트 속도이며,
    R은 상기 버퍼링 제한이 발생하는 것을 방지하도록 요구되는 평균 출력 비트 속도인
    비디오 정보의 필드 또는 프레임 부호화 방법.
  21. 제16항에 있어서,
    상기 양자화 모드 신호를 발생하기 전에, 상기 할당된 영역이 인접하여 계속하여 할당된 영역과 다를 때마다, 버퍼 크기의 변조 신호를 발생하는 단계를 추가로 포함하며,
    상기 양자화 모드 신호는 또한 상기 버퍼 크기의 변조 신호에 응답하여, 그 결과 상기 선택된 양자화 모드가 상기 버퍼 크기의 변조 신호에 의해 변조되고 상기 버퍼링 제한에 의해 억제된 상기 가상 버퍼 용량에 의해 표시된 상기 영역의 지각 중요성을 반영하는
    비디오 정보의 필드 또는 프레임 부호화 방법.
  22. 부호화를 개선하기 위해 비디오 정보의 깊이 성분을 이용하는 상기 비디오 정보의 대상에 기반을 둔 부호화를 수행하는 장치로서,
    (a) 비디오 정보의 프레임을 위한 깊이 정보를 수신하고 비디오 정보의 상기 프레임 내에서 하나 또는 그 이상의 대상의 형상을 표시하는 상기 수신된 깊이 정보에 기초한 하나 또는 그 이상의 대상 식별 신호를 발생하는 대상 세그먼테이션 회로; 및
    (b) 상기 대상 세그먼테이션 회로에 연결되고, 상기 수신된 깊이 정보와 상기 하나 또는 그 이상의 대상 식별 신호에 대응하는 비디오 정보의 프레임을 수신하며, 상기 하나 또는 그 이상의 대상 인식 신호에 의해 식별된 상기 하나 또는 그 이상의 대상에 실질적으로 대응하는 상기 비디오 정보의 부분을 표시하는 압축된 비디오 신호를 발생하는 부호화기
    를 포함하는 부호화 수행 장치.
  23. 제22항에 있어서,
    상기 대상 세그먼테이션 회로가
    (1) 상기 깊이 정보를 수신하고, 상기 깊이 정보를 대상 맵으로 변환하여 비디오 정보의 상기 프레임 내의 각 픽셀을 상기 프레임 내의 지각 중요성을 바꾸는 하나 또는 그 이상의 영역 중의 하나와 관련시키는 대상 맵 발생 회로;
    (2) 상기 대상 맵 발생 회로와 연결되고 상기 대상 맵을 수신하며, 미리 선택된 영역에 실질적으로 대응하는 상기 프레임 내의 픽셀을 표시하는 깊이 영역 마스크를 발생하기 위해 상기 대상 맵을 마스크하는 영역 마스킹 회로; 및
    (3) 상기 영역 마스킹 회로와 연결되고 상기 발생된 영역 마스크를 수신하며, 상기 영역 마스크에 의해 표시된 상기 미리 선택된 영역 내의 하나 또는 그 이상의 분리된 대상을 식별하고 상기 하나 또는 그 이상의 대상 인식 신호를 발생하여 상기 대상 식별 신호의 각 하나가 상기 하나 또는 그 이상의 식별되어 분리된 대상 중의 하나를 식별하도록 하는 비디오 대상 선택 회로
    를 포함하는 부호화 수행 장치.
  24. 제23항에 있어서,
    상기 대상 맵 발생 회로가
    (i) 상기 깊이 정보를 수신하고 상기 깊이 정보의 히스토그램을 계산하여 미리 결정된 값의 범위를 위한 미리 결정된 깊이 값을 가지는 다수의 픽셀을 제공하는 히스토그램 발생 회로;
    (ii) 상기 히스토그램 발생 회로에 연결되고, 살시 발생된 히스토그램을 수신하며 0에 대해서 미리 결정된 임계 값 아래에 있는 상기 히스토그램의 모든 값을 설정하여 클립된 히스토그램을 발생하는 제1논리 회로;
    (iii) 상기 제1논리 회로에 연결되고, 상기 클립된 히스토그램을 수신하며 n 개의 다른 임계 깊이 값을 가지는 n 개 영역의 경계를 구하기 위해 상기 클립된 히스토그램을 스캐닝하는 제2논리 회로; 및
    (iv) 상기 제2논리 회로에 연결되며, 상기 n 개의 다른 임계 값과 상기 깊이 정보를 수신하고 상기 n 개의 다른 임계 값에 기초한 상기 깊이 정보를 양자화하여 상기 대상 맵을 발생하는 가변 스텝 양자화 회로
    를 포함하는 부호화 수행 장치.
  25. 제24항에 있어서,
    상기 히스토그램 발생 회로가
    (A) 상기 깊이 정보를 수신하고 일시적으로 저장하는 버퍼;
    (B) 상기 버퍼에 연결되고, 메모리 어드레스에 따라 상기 버퍼로부터 상기 깊이 정보를 수신하며 상기 메모리 어드레스에 따라 히스토그램 값을 저장하는 메모리;
    (C) 상기 메모리에 연결되고, 어드레스 위치의 상기 메모리로부터 히스토그램 값을 읽고, 상기 히스토그램 값을 업데이트하고, 상기 업데이트된 히스토그램 값을 상기 어드레스 위치의 상기 메모리로 제공하는 논리 회로
    를 포함하는 부호화 수행 장치.
  26. 제21항에 있어서,
    상기 부호화기는 비디오 정보의 상기 수신된 필드의 부분에 대응하는 데이터를 양자화하는 멀티 모드 양자화기를 포함하며,
    (c) 상기 대상 세그먼테이션 회로와 상기 멀티 모드 양자화기와 연결되고, 상기 하나 또는 그 이상의 대상 인식 신호를 수신하며 상기 대상 인식 신호에 응답하는 신호를 양자화 모드를 선택하기 위해 상기 멀티 모드 양자화기로 제공하여 양자화될 데이터의 각 부분에 대하여, 상기 선택된 양자화 모드가 양자화될 데이터의 상기 부분과 관련된 상기 하나 또는 그 이상의 대상 인식 신호 중의 하나에 의해 식별된 대상의 지각 중요성을 반영하도록 하는 속도 제어기
    를 추가로 포함하는 부호화 수행 장치.
  27. 제26항에 있어서,
    상기 부호화기는 가변 비트 속도 부호화기이고,
    (d) 상기 부호화기와 상기 속도 제어기에 연결되고, 상기 발생되고 압축된 비디오 신호를 수신하고 일시적으로 저장하며 오버플로우 상태를 표시하는 신호를 상기 속도 제어기로 제공하는, 미리 선택된 저장 능력을 가진 비디오 버퍼를 추가로 포함하며, 여기에서 상기 속도 제어기에 의해 상기 멀티 모드 양자화기로 제공된 상기 신호는 상기 오버플로우 신호에 또한 응답하여 상기 선택된 양자화 모드가 상기 비디오 버퍼의 상기 저장 능력에 의해 억제된 상기 대상의 상기 지각 중요성을 반영하도록 하는 부호화 수행 장치.
  28. 제27항에 있어서,
    양자화될 데이터의 상기 부분은 매크로블록이고,
    (e) 상기 대상 세그먼테이션 회로와 상기 속도 제어기에 연결되고, 비디오 데이터의 현재 매크로블록을 상기 대상의 하나에 할당하고 상기 할당된 대상을 표시하는 신호를 상기 속도 제어기로 제공하는 매크로블록 라벨링 회로를 추가로 포함하며, 상기 속도 제어기에 의해 상기 멀티 모드 양자화기로 제공된 상기 신호는 상기 할당된 대상을 반영하는 부호화 수행 장치.
  29. 제28항에 있어서,
    압축된 비디오 데이터가 상기 비디오 버퍼로 출력되는 경우 상기 부호화기는 출력 신호를 발생하며, 상기 매크로블록 라벨링 회로는 상기 할당된 대상에 관련된 목표 비트 속도를 반영하는 신호를 발생하고,
    (f) 상기 비디오 버퍼와 연결되고 클록 신호를 상기 버퍼에 제공하는 클록 신호 발생 회로―상기 비디오 버퍼는 상기 클록 신호에 응답하여 상기 압축된 비디오 신호의 미리 결정된 양을 출력함― ; 및
    (g) 상기 부호화기, 상기 클록 신호 발생 회로, 상기 매크로블록 라벨링 회로 및 상기 속도 제어기에 연결되고, 상기 클록 신호, 상기 목표 비트 속도 신호 및 상기 부호화기 출력 신호를 수신하며 상기 부호화기 출력 신호에 응답하여 상기 카운트를 가산하고 상기 목표 비트 속도 신호와 상기 클록 신호에 응답하여 상기 카운트로부터 감산함으로써 상기 비디오 버퍼와 관련된 가상 버퍼에 있는 비트의 수를 카운트하여 상기 가상 버퍼의 점유를 결정하도록 하고 상기 카운트를 반영하는 가상 버퍼 점유 신호를 상기 속도 제어기로 제공하는 카운터
    를 추가로 포함하고,
    상기 속도 제어기에 의해 상기 멀티 모드 양자화기로 제공되는 상기 신호는 또한 상기 가상 버퍼 점유에 응답하여 상기 선택된 양자화 모드가 상기 비디오 버퍼의 상기 저장 능력에 의해 억제된 상기 가상 버퍼 능력에 의해 표시된 상기 대상의 상기 지각 중요성을 반영하도록 하는 부호화 수행 장치.
  30. 제29항에 있어서,
    상기 가상 버퍼 점유 Bi은 방정식 Bi= Bi-1+ bi- r(Rk/R)에 의해 결정되며, bi은 상기 부호화기 출력 신호에 의해 표시된 현재의 매크로블록을 부호화하기 위해 사용되는 비트의 개수와 동등하며, r은 상기 클록 신호에 의해 표시된 상기 비디오 버퍼에 의해 출력된 비트의 개수와 동등하며, Rk는 상기 목표 비트 속도 신호에 의해 표시된 목표 비트 속도이며, R은 상기 비디오 버퍼에 의해 유지되는 평균 출력 비트 속도인 부호화 수행 장치.
  31. 제29항에 있어서,
    상기 속도 제어기가
    상기 매크로블록 라벨링 회로에 연결되고, 상기 할당된 대상을 수신하며 상기 할당된 대상이 인접하여 계속한 할당된 대상과 다른 때는 언제나 버퍼 크기 변조 신호를 발생하는 버퍼 크기 논리 회로를 추가로 포함하고,
    상기 속도 제어기에 의해 상기 멀티 모드 양자화기로 제공된 상기 신호가 또한 상기 버퍼 크기 변조 신호에 응답하여 상기 선택된 양자화 모드가 상기 버퍼 크기 변조 신호에 의해 변조된 그리고 상기 비디오 버퍼의 상기 저장 능력에 의해 억제된 상기 가상 버퍼 능력에 의해 표시된 상기 대상의 상기 지각 중요성을 반영하도록 하는 부호화 수행 장치.
  32. 부호화를 개선하기 위해 비디오 정보의 깊이 성분을 이용하는 상기 비디오 정보의 대상에 기반을 둔 부호화를 수행하는 장치로서,
    (a) 상기 비디오 정보에 대응하는 깊이 정보와 비디오 정보의 양쪽 프레임을 실 시간에 발생할 수 있는 깊이 센싱 카메라;
    (b) 상기 깊이 센싱 카메라에 연결되고 상기 발생된 깊이 정보를 수신하며, 비디오 정보의 상기 프레임 내에서 하나 또는 그 이상의 대상의 형상을 표시하는 상기 수신된 깊이 정보에 기초한 하나 또는 그 이상의 대상 식별 신호를 발생하는 대상 세그먼테이션 회로; 및
    (c) 상기 대상 세그먼테이션 회로와 상기 깊이 센싱 카메라에 연결되고 상기 수신된 깊이 정보와 상기 하나 또는 그 이상의 대상 식별 신호에 대응하는 비디오 정보의 상기 발생된 프레임을 수신하며, 상기 하나 또는 그 이상의 대상 인식 신호에 의해 식별된 상기 하나 또는 그 이상의 대상에 실질적으로 대응하는 상기 비디오 정보의 부분을 표시하는 압축된 비디오 신호를 발생하는 부호화기
    를 포함하는 부호화 수행 장치.
  33. 부호화를 개선하기 위해 비디오 정보의 깊이 성분을 이용하는 상기 비디오 정보의 대상에 기반을 둔 부호화를 수행하는 방법으로서,
    (a) 상기 수신된 비디오 정보에 대응하는 깊이 정보와 비디오 정보의 프레임을 수신하는 단계;
    (b) 비디오 정보의 상기 프레임 내에서 하나 또는 그 이상의 대상의 형상을 표시하는 상기 수신된 깊이 정보에 기초한 하나 또는 그 이상의 대상 인식 신호를 발생하는 단계; 및
    (c) 상기 하나 또는 그 이상의 대상 인식 신호에 의해 식별된 상기 하나 또는 그 이상의 대상에 실질적으로 대응하는 상기 수신된 비디오 정보의 부분을 표시하는 압축된 비디오 신호를 발생하는 단계
    를 포함하는 부호화 수행 방법.
  34. 제33항에 있어서,
    상기 (b) 단계가
    (1) 상기 수신된 깊이 정보를 대상 맵으로 변환―여기서 이러한 변환에 의해 비디오 정보의 상기 프레임 내의 각 픽셀을 상기 프레임 내의 지각 중요성을 바꾸는 하나 또는 그 이상의 영역 중의 하나와 관련시킴―하는 단계;
    (2) 미리 선택된 영역에 실질적으로 대응하는 상기 프레임 내의 픽셀을 표시하는 깊이 영역 마스크를 발생하도록 상기 대상 맵을 마스킹하는 단계;
    (3) 상기 깊이 영역 마스크에 의해 표시된 상기 미리 선택된 영역 내의 하나 또는 그 이상의 분리된 대상을 식별하는 단계; 및
    (4) 상기 대상 식별 신호의 각 하나가 상기 하나 또는 그 이상의 식별된 분리 대상 중의 하나를 식별하도록 상기 하나 또는 그 이상의 대상 식별 신호를 발생하는 단계
    를 포함하는 부호화 수행 방법.
  35. 제34항에 있어서,
    상기 변환하는 단계가
    (i) 상기 수신된 깊이 정보의 히스토그램을 계산―여기서 이러한 계산에 의해 미리 결정된 값의 범위에 대한 미리 결정된 깊이 값을 갖는 다수의 픽셀을 제공함―하는 단계;
    (ii) 미리 결정된 임계 값 이하인 상기 히스토그램의 모든 값들을 0으로 설정―여기서 이러한 설정에 의해 클립된 히스토그램을 발생시킴―하는 단계;
    (iii) n 개의 다른 임계 깊이 값을 갖는 n 개 영역의 경계를 발견하기 위해 상기 클립된 히스토그램을 스캐닝하는 단계; 및
    (iv) 상기 n 개의 다른 임계 값에 기초한 상기 깊이 정보를 양자화하는 단계
    를 포함하는 부호화 수행 방법.
  36. 제34항에 있어서,
    상기 식별하는 단게가
    (i) 마스크되지 않은 값을 갖는 픽셀이 발견될 때까지 상기 깊이 영역 마스크를 스캐닝하는 단계;
    (ii) 마스크되지 않은 값을 갖는 임의의 다른 인접 픽셀을 발견하기 위해 상기 마스크 내의 인접 픽셀을 조사하는 단계;
    (iii) 마스크되지 않은 값을 갖는 발견된 모든 인접 픽셀을 상기 깊이 영역 내의 대상에 대응하는 비디오 대상 평면으로 식별하기 위해, 인접한 픽셀이 마스크되지 않은 값을 갖지 않을 때까지 상기 조사하는 단계를 반복하는 단계;
    (iv) 상기 대상을 상기 깊이 영역 마스크로부터 마스킹하는 단계; 및
    (v) 상기 깊이 영역 마스크 내의 모든 픽셀이 마스크되어 상기 수신된 비디오 정보의 프레임 내에 하나 이상의 대상 평면을 식별할 때까지 상기 (i) 스캐닝하는 단계 내지 (iv) 마스킹하는 단계를 반복하는 단계
    를 포함하는 부호화 수행 방법.
  37. 제36항에 있어서,
    상기 식별하는 단게가
    (vi) 상기 하나 이상의 비디오 대상 평면 중 하나, 및 비디오 정보의 바로 직전 선행 프레임과 관련된 하나 이상의 비디오 대상 평면 중 하나를 선택하는 단계;
    (vii) 상기 선택된 비디오 대상 평면과 상기 선택된 이전 프레임 비디오 대상 평면 간의 깊이 차이를 결정하기 위해 이들 두 평면을 비교하는 단계;
    (viii) 상기 하나 이상의 이전 프레임 비디오 대상 평면 모두가 선택되지 않은 경우 상기 하나 이상의 이전 프레임 비디오 대상 평면 중 다른 하나를 선택한 후에 상기 비교하는 단계(vii)를 반복하는 단계;
    (ix) 상기 하나 이상의 이전 프레임 비디오 대상 평면 간의 깊이 차이가 상기 결정된 모든 깊이 차이와 비교해 최소화되는 상기 하나 이상의 이전 프레임 비디오 대상 평면 중 하나에 대응하는 비디오 대상에 상기 선택된 비디오 대상 평면을 할당하는 단계; 및
    (x) 상기 하나 이상의 비디오 대상 평면 모두가 선택되지 않은 경우 상기 하나 이상의 비디오 대상 평면 중 다른 하나를 선택한 후에, 상기 하나 이상의 비디오 대상 평면이 각각 대상을 식별하도록 상기 (vii) 비교하는 단계 내지 (ix) 할당하는 단계를 반복하는 단계
    를 추가로 포함하는 부호화 수행 방법.
  38. 제33항에 있어서,
    상기 (c) 단계가 비디오 정보의 상기 수신된 필드의 부분에 대응하는 데이터를 양자화하는 단계를 포함하고,
    상기 데이터에 대응하는 대상 인식 신호에 기초한 양자화 모드 신호를 발생―여기서 이러한 발생에 의해 상기 대상 인식 신호에 의해 표시된 대상의 지각 중요성을 반영하는 양자화 모드를 선택함―하는 단계를 추가로 포함하며, 따라서, 상기 데이터는 상기 선택된 양자화 모드에 기초하여 양자화되는 부호화 수행 방법.
  39. 제38항에 있어서,
    상기 발생된 압축된 비디오 신호는 가변 비트 속도 신호이며,
    (e) 상기 발생된 압축된 비디오 신호를 버퍼링하는 단계; 및
    (f) 버퍼링 오버플로우 상태를 표시하는 신호를 제공하는 단계를 추가로 포함하고, 여기서 상기 양자화 모드 신호가 또한 상기 오버플로우 신호에 응답하여 상기 선택된 양자화 모드가 버퍼링 제한에 의해 억제된 상기 대상의 상기 지각 중요성을 반영하도록 하는 부호화 수행 방법.
  40. 제39항에 있어서,
    상기 양자화 모드 신호를 발생하는 단계 전에, 비디오 정보의 상기 수신된 프레임 또는 필드 내의 비디오 데이터의 현재 매크로블록을 상기 대상 중의 하나에 할당하는 단계를 추가로 포함하며, 여기서 상기 양자화 모드 신호는 상기 할당된 대상을 반영하는 부호화 수행 방법.
  41. 제40항에 있어서,
    상기 양자화 모드 신호를 발생하는 단계 전에 상기 할당된 대상과 관련된 목표 비트 속도를 표시하는 신호를 발생하는 단계를 추가로 포함하는 부호화 수행 방법.
  42. 제41항에 있어서,
    (i) 압축된 비디오 신호 정보가 버퍼된 때는 언제나 가상 버퍼 점유를 표시하는 가상 버퍼 카운트를 가산하는 단계;
    (ii) 버퍼된 압축된 비디오 신호 정보가 상기 목표 비트 속도 신호에 의존하는 양으로 출력될 때는 언제나 상기 카운트로부터 감산하는 단계; 및
    (iii) 상기 카운트를 표시하는 가상 버퍼 점유 신호를 발생하는 단계를 추가로 포함하며,
    여기서 상기 양자화 모드 신호는 또한 상기 가상 버퍼 점유 신호에 응답하여 상기 선택된 양자화 모드가 상기 버퍼링 제한에 의해 억제된 상기 가상 버퍼 점유에 의해 표시된 상기 대상을 반영하도록 하는 부호화 수행 방법.
  43. 제42항에 있어서,
    상기 가상 버퍼 점유 Bi는 방정식 Bi= Bi-1+ bi- r(Rk/R)에 의해 결정되며, bi은 상기 부호화기 출력 신호에 의해 표시된 현재의 매크로블록을 부호화하기 위해 사용되는 비트의 개수와 동등하며, r은 상기 클록 신호에 의해 표시된 상기 비디오 버퍼에 의해 출력된 비트의 개수와 동등하며, Rk는 상기 목표 비트 속도 신호에 의해 표시된 목표 비트 속도이며, R은 상기 버퍼링 제한이 발생하는 것을 방지하도록 요구되는 평균 출력 비트 속도인 부호화 수행 방법.
  44. 제40항에 있어서,
    상기 양자화 모드 신호를 생성하기 전에, 상기 할당된 대상이 인접하여 계속하여 할당된 영역과 다를 때마다, 버퍼 크기 변조 신호를 생성하는 단계를 추가로 포함하며,
    상기 양자화 모드 신호는 또한 상기 버퍼 크기 변조 신호에 응답하여, 그 결과 상기 선택된 양자화 모드가 상기 버퍼 크기 변조 신호에 의해 변조되고 상기 버퍼링 제한에 의해 억제된 상기 가상 버퍼 능력에 의해 표시된 상기 대상을 반영하는 부호화 수행 방법.
  45. 비디오 정보의 프레임에 대응하는 깊이 정보를 수신하고, 상기 비디오 정보의 프레임 내의 하나 이상의 개별 대상을 식별하기 위한 대상 세그먼테이션 회로에 있어서,
    a) 상기 깊이 정보를 수신하고, 상기 깊이 정보를 대상 맵으로 변환―여기서 이러한 변환에 의해 상기 비디오 정보의 프레임 내의 각 픽셀을 상기 프레임 내의 하나 이상의 가변 지각 중요성 영역과 연관시킴―하는 대상 맵 발생 회로;
    b) 상기 대상 맵 발생 회로에 결합되어 대상 맵을 수신하고, 실질적으로 사전 선택된 깊이 영역에 대응하는 상기 프레임 내의 픽셀을 표시하는 하나 이상의 깊이 영역 마스크를 발생시키도록 상기 대상 맵을 마스킹하는 영역 마스킹 회로; 및
    c) 상기 영역 마스킹 회로에 결합되어 상기 하나 이상의 영역 마스크를 수신하고, 각 깊이 영역과 연관된 각 대상이 개별 대상으로 식별되도록 상기 하나 이상의 영역 마스크 각각에 의해 표시되는 상기 하나 이상의 사전 선택된 각 영역 내의 하나 이상의 개별 대상을 식별하는 비디오 대상 선택 회로
    를 포함하는 대상 세그먼테이션 회로.
  46. 제 45항에 있어서,
    상기 대상 맵 발생 회로가
    i) 상기 깊이 정보를 수신하고, 상기 깊이 정보의 히스토그램을 계산―여기서 이러한 계산에 의해 미리 결정된 범위에 대한 미리 결정된 깊이 값을 갖는 픽셀의 수를 제공함―하는 히스토그램 발생 회로;
    ii) 상기 히스토그램 발생 회로에 결합되며, 상기 발생된 히스토그램을 수신하고, 미리 결정된 임계값 이하인 상기 히스토그램 내의 모든 값들을 0으로 설정―여기서 이러한 설정에 의해 클립된 히스토그램을 발생시킴―하는 제 1 논리 회로;
    iii) 상기 제 1 논리 회로에 결합되며, 상기 클립된 히스토그램을 수신하고, n개의 상이한 임계값을 갖는 n개의 경계를 발견하기 위해 상기 클립된 히스토그램을 스캐닝하는 제 2 논리 회로; 및
    iv) 상기 제 2 논리 회로에 결합되며, 상기 n개의 상이한 임계값 및 상기 깊이 정보를 수신하고, 상기 n개의 상이한 임계값에 기초해 깊이 정보를 양자화―여기서 이러한 양자화에 의해 상기 대상 맵을 발생시킴―하는 가변 스텝 양자화 회로
    를 포함하는 대상 세그먼테이션 회로.
  47. 제 46항에 있어서,
    상기 히스토그램 발생 회로가
    i) 상기 깊이 정보를 수신하고, 일시적으로 저장하는 버퍼;
    ii) 상기 버퍼에 결합되며, 상기 버퍼로부터 깊이 정보를 메모리 어드레스로 수신하고, 상기 메모리 어드레스로 히스토그램 값을 저장하는 메모리; 및
    iii) 상기 메모리에 결합되며, 어드레스가 위치하는 상기 메모리로부터 소정 히스토그램 정보를 판독하고, 그 소정 히스토그램 정보를 업데이트시키며, 상기 업데이트된 히스토그램 값을 상기 어드레스가 위치하는 메모리에 제공하는 논리 회로
    를 포함하는 대상 세그먼테이션 회로.
  48. 비디오 정보의 프레임에 대응하는 깊이 정보 내의 하나 이상의 개별 대상을 식별하기 위한 방법에 있어서,
    a) 상기 깊이 정보를 수신하는 단계
    b) 상기 깊이 정보를 대상 맵으로 변환―여기서 이러한 변환에 의해 상기 비디오 정보의 프레임 내의 각 픽셀을 상기 프레임 내의 하나 이상의 가변 지각 중요성 영역과 연관시킴―하는 단계;
    c) 실질적으로 사전 선택된 깊이 영역에 대응하는 상기 프레임 내의 픽셀을 표시하는 하나 이상의 깊이 영역 마스크를 발생시키도록 상기 대상 맵을 마스킹하는 단계; 및
    d) 각 깊이 영역과 연관된 각 대상이 개별 대상으로 식별되도록 상기 하나 이상의 영역 마스크에 의해 표시되는 상기 하나 이상의 사전 선택된 각 영역 내의 하나 이상의 개별 대상을 식별하는 단계
    를 포함하는 개별 대상 식별 방법.
  49. 제 48항에 있어서,
    상기 변환 단계가
    i) 상기 수신된 깊이 정보의 히스토그램을 계산―여기서 이러한 계산에 의해 미리 결정된 범위에 대한 미리 결정된 깊이 값을 갖는 픽셀의 수를 제공함―하는 단계;
    ii) 미리 결정된 임계값 이하인 상기 히스토그램 내의 모든 값들을 0으로 설정―여기서 이러한 설정에 의해 클립된 히스토그램을 발생시킴―하는 단계;
    iii) n개의 상이한 임계값을 갖는 n개의 경계를 발견하기 위해 상기 클립된 히스토그램을 스캐닝하는 단계; 및
    iv) 상기 n개의 상이한 임계값에 기초해 깊이 정보를 양자화하는 단계
    를 포함하는 개별 대상 식별 방법.
  50. 제 48항에 있어서,
    상기 식별 단게가
    i) 마스크되지 않은 값을 갖는 픽셀이 발견될 때까지 사전 선택된 영역 마스크를 스캐닝하는 단계;
    ii) 마스크되지 않은 값을 갖는 임의의 다른 인접 픽셀을 발견하기 위해 상기 마스크 내의 인접 픽셀을 조사하는 단계;
    iii) 마스크되지 않은 값을 갖는 발견된 모든 인접 픽셀을 상기 깊이 영역 내의 대상에 대응하는 비디오 대상 평면으로 식별하기 위해, 인접한 픽셀이 마스크되지 않은 값을 갖지 않을 때까지 상기 조사하는 단계를 반복하는 단계;
    iv) 상기 대상을 깊이 영역 마스크로부터 마스킹하는 단계; 및
    v) 상기 깊이 영역 마스크 내의 모든 픽셀이 마스크되어 상기 수신된 비디오 정보의 프레임 내에 하나 이상의 대상 평면을 식별할 때까지 상기 i) 스캐닝하는 단계 내지 iv) 마스킹하는 단계를 반복하는 단계
    를 포함하는 개별 대상 식별 방법.
  51. 제 50항에 있어서,
    상기 식별 단게가
    vi) 상기 하나 이상의 비디오 대상 평면 중 하나, 및 비디오 정보의 바로 직전 선행 프레임과 연관된 하나 이상의 비디오 대상 평면 중 하나를 선택하는 단계;
    vii) 상기 선택된 비디오 대상 평면과 상기 선택된 이전 프레임 비디오 대상 평면 간의 깊이 차이를 결정하기 위해 이들 두 평면을 비교하는 단계;
    viii) 상기 하나 이상의 이전 프레임 비디오 대상 평면 모두가 선택되지 않은 경우 상기 하나 이상의 이전 프레임 비디오 대상 평면 중 다른 하나를 선택한 후에 상기 비교하는 단계를 반복하는 단계;
    ix) 상기 하나 이상의 이전 프레임 비디오 대상 평면 간의 깊이 차이가 상기 결정된 모든 깊이 차이와 비교해 최소화되는 상기 하나 이상의 이전 프레임 비디오 대상 평면 중 하나에 대응하는 비디오 대상에 상기 선택된 비디오 대상 평면을 할당하는 단계; 및
    x) 상기 하나 이상의 비디오 대상 평면 모두가 선택되지 않은 경우 상기 하나 이상의 비디오 대상 평면 중 다른 하나를 선택한 후에, 상기 하나 이상의 비디오 대상 평면이 각각 대상을 식별하도록 상기 vii) 비교하는 단계 내지 ix) 할당하는 단계를 반복하는 단계
    를 추가로 포함하는 개별 대상 식별 방법.
KR1019990703099A 1996-10-09 1997-10-09 3차원 깊이 정보를 이용한 디지털 이미지와 비디오 세그먼테이션과 압축을 수행하기 위한 방법 및 장치 KR20000049031A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/723,467 US6055330A (en) 1996-10-09 1996-10-09 Methods and apparatus for performing digital image and video segmentation and compression using 3-D depth information
US8/723,467 1996-10-09

Publications (1)

Publication Number Publication Date
KR20000049031A true KR20000049031A (ko) 2000-07-25

Family

ID=24906398

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990703099A KR20000049031A (ko) 1996-10-09 1997-10-09 3차원 깊이 정보를 이용한 디지털 이미지와 비디오 세그먼테이션과 압축을 수행하기 위한 방법 및 장치

Country Status (6)

Country Link
US (1) US6055330A (ko)
EP (1) EP1012776A4 (ko)
JP (1) JP2001509325A (ko)
KR (1) KR20000049031A (ko)
CA (1) CA2268191A1 (ko)
WO (1) WO1998015915A1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011155704A3 (ko) * 2010-06-11 2012-02-23 삼성전자주식회사 깊이 전이 데이터를 이용한 3d 비디오 인코딩/디코딩 장치 및 방법
WO2013100635A1 (ko) * 2011-12-30 2013-07-04 (주)휴맥스 3차원 영상 부호화 방법 및 장치, 및 복호화 방법 및 장치
KR101336139B1 (ko) * 2012-06-11 2013-12-05 동의대학교 산학협력단 깊이 카메라를 이용한 움직임 추정 시스템 및 방법
KR101367673B1 (ko) * 2012-07-03 2014-03-03 한밭대학교 산학협력단 깊이 카메라 정보를 이용한 색상 영상 시퀀스에 대한 움직임 추정 영역 설정 방법 및 그 설정 시스템
US8861874B2 (en) 2010-05-11 2014-10-14 Samsung Electronics Co., Ltd. Apparatus and method of encoding 3D image
KR20160032277A (ko) * 2011-12-29 2016-03-23 인텔 코포레이션 가변 깊이 압축

Families Citing this family (114)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE331390T1 (de) * 1997-02-14 2006-07-15 Univ Columbia Objektbasiertes audiovisuelles endgerät und entsprechende bitstromstruktur
US6633611B2 (en) * 1997-04-24 2003-10-14 Mitsubishi Denki Kabushiki Kaisha Method and apparatus for region-based moving image encoding and decoding
US6023296A (en) * 1997-07-10 2000-02-08 Sarnoff Corporation Apparatus and method for object based rate control in a coding system
KR100531566B1 (ko) * 1997-10-23 2005-11-29 미쓰비시덴키 가부시키가이샤 화상 복호화 장치
JP3384314B2 (ja) * 1997-12-02 2003-03-10 ヤマハ株式会社 楽音応答画像生成システム、方法、装置、及び、そのための記録媒体
EP0921684B1 (en) * 1997-12-02 2005-11-02 Daewoo Electronics Corporation Method and apparatus for encoding object information of a video object plane
JP4698831B2 (ja) * 1997-12-05 2011-06-08 ダイナミック ディジタル デプス リサーチ プロプライエタリー リミテッド 画像変換および符号化技術
US7199836B1 (en) * 1998-02-13 2007-04-03 The Trustees Of Columbia University In The City Of New York Object-based audio-visual terminal and bitstream structure
KR100285599B1 (ko) * 1998-03-14 2001-04-02 전주범 격행 부호화에서의 움직임 추정을 위한 텍스쳐 패딩 장치 및그 패딩 방법
US6289129B1 (en) 1998-06-19 2001-09-11 Motorola, Inc. Video rate buffer for use with push dataflow
US6804403B1 (en) 1998-07-15 2004-10-12 Digital Accelerator Corporation Region-based scalable image coding
JP2000050258A (ja) * 1998-07-31 2000-02-18 Toshiba Corp 映像検索方法および映像検索装置
ATE265073T1 (de) 1998-08-10 2004-05-15 Digital Accelerator Corp Eingebettete quadtree wavelets bildkompression
DE59904186D1 (de) * 1998-09-29 2003-03-06 Siemens Ag Verfahren und anordnung zur bearbeitung eines digitalisierten bildes mit bildpunkten
JP3259702B2 (ja) * 1998-12-24 2002-02-25 日本電気株式会社 動画像可変ビットレート符号化装置および方法
US7050503B2 (en) * 1999-04-17 2006-05-23 Pts Corporation Segment-based encoding system using residue coding by basis function coefficients
US7085319B2 (en) * 1999-04-17 2006-08-01 Pts Corporation Segment-based encoding system using segment hierarchies
US6600786B1 (en) * 1999-04-17 2003-07-29 Pulsent Corporation Method and apparatus for efficient video processing
US7082162B2 (en) * 1999-04-17 2006-07-25 Pts Corporation Segment-based encoding system including segment-specific metadata
US20040028130A1 (en) * 1999-05-24 2004-02-12 May Anthony Richard Video encoder
US6526161B1 (en) * 1999-08-30 2003-02-25 Koninklijke Philips Electronics N.V. System and method for biometrics-based facial feature extraction
US6792154B1 (en) 1999-10-07 2004-09-14 World Multicast.com, Inc Video compression system and method using time
FR2806570B1 (fr) 2000-03-15 2002-05-17 Thomson Multimedia Sa Procede et dispositif de codage d'images video
US20020012472A1 (en) * 2000-03-31 2002-01-31 Waterfall Andrew E. Method for visualization of time sequences of 3D optical fluorescence microscopy images
US7082166B2 (en) * 2000-04-17 2006-07-25 Pts Corporation Decoder for decoding segment-based encoding of video data using segmentation performed at a decoder
US6888894B2 (en) * 2000-04-17 2005-05-03 Pts Corporation Segmenting encoding system with image segmentation performed at a decoder and encoding scheme for generating encoded data relying on decoder segmentation
US7035451B2 (en) * 2000-08-09 2006-04-25 Dynamic Digital Depth Research Pty Ltd. Image conversion and encoding techniques
US20020149628A1 (en) * 2000-12-22 2002-10-17 Smith Jeffrey C. Positioning an item in three dimensions via a graphical representation
JP4534106B2 (ja) * 2000-12-26 2010-09-01 日本電気株式会社 動画像符号化システム及び方法
FI109633B (fi) * 2001-01-24 2002-09-13 Gamecluster Ltd Oy Menetelmä videokuvan pakkauksen nopeuttamiseksi ja/tai sen laadun parantamiseksi
US7321624B1 (en) * 2001-03-16 2008-01-22 Objectvideo, Inc. Bit-rate allocation system for object-based video encoding
US6859554B2 (en) * 2001-04-04 2005-02-22 Mitsubishi Electric Research Laboratories, Inc. Method for segmenting multi-resolution video objects
US6965379B2 (en) 2001-05-08 2005-11-15 Koninklijke Philips Electronics N.V. N-view synthesis from monocular video of certain broadcast and stored mass media content
WO2002102048A2 (en) * 2001-06-11 2002-12-19 Thomson Licensing S.A. Motion compensation for fine-grain scalable video
US7050500B2 (en) * 2001-08-23 2006-05-23 Sharp Laboratories Of America, Inc. Method and apparatus for motion vector coding with global motion parameters
US7327742B2 (en) * 2002-06-26 2008-02-05 Standard Microsystems Corp. Communication system and method for sending isochronous streaming data within a frame segment using a signaling byte
US8570378B2 (en) 2002-07-27 2013-10-29 Sony Computer Entertainment Inc. Method and apparatus for tracking three-dimensional movements of an object using a depth sensing camera
US8313380B2 (en) 2002-07-27 2012-11-20 Sony Computer Entertainment America Llc Scheme for translating movements of a hand-held controller into inputs for a system
US9393487B2 (en) * 2002-07-27 2016-07-19 Sony Interactive Entertainment Inc. Method for mapping movements of a hand-held controller to game commands
US20060256081A1 (en) * 2002-07-27 2006-11-16 Sony Computer Entertainment America Inc. Scheme for detecting and tracking user manipulation of a game controller body
US7336720B2 (en) * 2002-09-27 2008-02-26 Vanguard Software Solutions, Inc. Real-time video coding/decoding
GB2395263A (en) * 2002-11-12 2004-05-19 Qinetiq Ltd Image analysis
ATE384314T1 (de) * 2002-11-21 2008-02-15 Koninkl Philips Electronics Nv Verfahren und vorrichtung zur visualisierung einer sequenz von volumenbildern
US20040184653A1 (en) * 2003-03-20 2004-09-23 Baer Richard L. Optical inspection system, illumination apparatus and method for use in imaging specular objects based on illumination gradients
US8638846B1 (en) * 2003-06-23 2014-01-28 At&T Intellectual Property Ii, L.P. Systems and methods for encoding and decoding video streams
US7535959B2 (en) * 2003-10-16 2009-05-19 Nvidia Corporation Apparatus, system, and method for video encoder rate control
US8537204B2 (en) * 2004-07-08 2013-09-17 Gyoung Il Cho 3D television broadcasting system
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
US7397855B2 (en) * 2004-04-14 2008-07-08 Corel Tw Corp. Rate controlling method and apparatus for use in a transcoder
DE602004014901D1 (de) * 2004-04-29 2008-08-21 Mitsubishi Electric Corp Adaptive Quantisierung einer Tiefenkarte
WO2006003611A2 (en) * 2004-07-02 2006-01-12 Koninklijke Philips Electronics N.V. Video processing
US7643672B2 (en) * 2004-10-21 2010-01-05 Kazunari Era Image processing apparatus, image pickup device and program therefor
US20060117268A1 (en) * 2004-11-30 2006-06-01 Micheal Talley System and method for graphical element selection for region of interest compression
KR100656783B1 (ko) 2004-12-14 2006-12-12 한국전자통신연구원 양안식 입체 영상 전송 장치 및 그 방법과 그를 이용한양안식 입체 영상 렌더링 장치 및 그 방법
US20060256233A1 (en) * 2005-05-16 2006-11-16 Douglas Chin Systems, methods, and apparatus for video encoding
US8026945B2 (en) 2005-07-22 2011-09-27 Cernium Corporation Directed attention digital video recordation
US20080232477A1 (en) * 2005-09-01 2008-09-25 Koninklijke Philips Electronics, N.V. Method and Device For Coding and Decoding of Video Error Resilience
GB2430026A (en) * 2005-09-09 2007-03-14 Qinetiq Ltd Automated selection of image regions
US20070120844A1 (en) * 2005-11-28 2007-05-31 Baumer Optronic Gmbh Method and apparatus for the graphical operation of real-time image processing systems
US8270490B2 (en) * 2006-07-06 2012-09-18 Canon Kabushiki Kaisha Motion vector detection apparatus, motion vector detection method, image encoding apparatus, image encoding method, and computer program
US7612805B2 (en) 2006-07-11 2009-11-03 Neal Solomon Digital imaging system and methods for selective image filtration
US8970680B2 (en) * 2006-08-01 2015-03-03 Qualcomm Incorporated Real-time capturing and generating stereo images and videos with a monoscopic low power mobile device
US8395658B2 (en) * 2006-09-07 2013-03-12 Sony Computer Entertainment Inc. Touch screen-like user interface that does not require actual touching
USRE48417E1 (en) 2006-09-28 2021-02-02 Sony Interactive Entertainment Inc. Object direction using video input combined with tilt angle information
US8781151B2 (en) * 2006-09-28 2014-07-15 Sony Computer Entertainment Inc. Object detection using video input combined with tilt angle information
US8310656B2 (en) 2006-09-28 2012-11-13 Sony Computer Entertainment America Llc Mapping movements of a hand-held controller to the two-dimensional image plane of a display screen
JP4790669B2 (ja) * 2007-07-05 2011-10-12 株式会社メガチップス トランスコーダ
US20090066693A1 (en) * 2007-09-06 2009-03-12 Roc Carson Encoding A Depth Map Into An Image Using Analysis Of Two Consecutive Captured Frames
US8023562B2 (en) * 2007-09-07 2011-09-20 Vanguard Software Solutions, Inc. Real-time video coding/decoding
JP5147650B2 (ja) * 2007-12-10 2013-02-20 富士フイルム株式会社 距離画像処理装置および方法、距離画像再生装置および方法並びにプログラム
JP2009163717A (ja) * 2007-12-10 2009-07-23 Fujifilm Corp 距離画像処理装置および方法、距離画像再生装置および方法並びにプログラム
US20090148038A1 (en) * 2007-12-10 2009-06-11 Youichi Sawachi Distance image processing apparatus and method
US8184196B2 (en) 2008-08-05 2012-05-22 Qualcomm Incorporated System and method to generate depth data using edge detection
US8325796B2 (en) * 2008-09-11 2012-12-04 Google Inc. System and method for video coding using adaptive segmentation
US9215467B2 (en) 2008-11-17 2015-12-15 Checkvideo Llc Analytics-modulated coding of surveillance video
RU2498522C2 (ru) * 2009-02-23 2013-11-10 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования многоракурсных изображений, способ декодирования многоракурсных изображений, устройство кодирования многоракурсных изображений, устройство декодирования многоракурсных изображений, компьютерно-читаемый носитель, содержащий программу кодирования многоракурсных изображений, и компьютерно-читаемый носитель, содержащий программу декодирования многоракурсных изображений
US8619198B1 (en) * 2009-04-28 2013-12-31 Lucasfilm Entertainment Company Ltd. Adjusting frame rates for video applications
JP5573316B2 (ja) * 2009-05-13 2014-08-20 セイコーエプソン株式会社 画像処理方法および画像処理装置
JP5427577B2 (ja) * 2009-12-04 2014-02-26 パナソニック株式会社 表示制御装置及び表示画像形成方法
WO2011100347A2 (en) 2010-02-09 2011-08-18 Vanguard Software Solutions, Inc. Video sequence encoding system and algorithms
JP5660361B2 (ja) 2010-03-26 2015-01-28 ソニー株式会社 画像処理装置および方法、並びにプログラム
US9053562B1 (en) 2010-06-24 2015-06-09 Gregory S. Rabin Two dimensional to three dimensional moving image converter
US8774267B2 (en) * 2010-07-07 2014-07-08 Spinella Ip Holdings, Inc. System and method for transmission, processing, and rendering of stereoscopic and multi-view images
US8655093B2 (en) * 2010-09-02 2014-02-18 Edge 3 Technologies, Inc. Method and apparatus for performing segmentation of an image
JP5281623B2 (ja) 2010-09-29 2013-09-04 日本電信電話株式会社 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置およびそれらのプログラム
JP5281624B2 (ja) 2010-09-29 2013-09-04 日本電信電話株式会社 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置およびそれらのプログラム
JP5357199B2 (ja) 2011-03-14 2013-12-04 日本電信電話株式会社 画像符号化方法,画像復号方法,画像符号化装置,画像復号装置,画像符号化プログラムおよび画像復号プログラム
US9154799B2 (en) 2011-04-07 2015-10-06 Google Inc. Encoding and decoding motion via image segmentation
US20140044347A1 (en) * 2011-04-25 2014-02-13 Sharp Kabushiki Kaisha Mage coding apparatus, image coding method, image coding program, image decoding apparatus, image decoding method, and image decoding program
US8831108B2 (en) * 2011-05-04 2014-09-09 Cavium, Inc. Low latency rate control system and method
US8693551B2 (en) 2011-11-16 2014-04-08 Vanguard Software Solutions, Inc. Optimal angular intra prediction for block-based video coding
US8615140B2 (en) 2011-11-18 2013-12-24 Canon Kabushiki Kaisha Compression of image data in accordance with depth information of pixels
US9262670B2 (en) 2012-02-10 2016-02-16 Google Inc. Adaptive region of interest
US9584806B2 (en) * 2012-04-19 2017-02-28 Futurewei Technologies, Inc. Using depth information to assist motion compensation-based video coding
WO2013174439A1 (en) 2012-05-24 2013-11-28 Qatar Foundation A method and system for creating depth signatures
KR101957873B1 (ko) 2012-06-04 2019-03-13 삼성전자주식회사 3차원 영상을 위한 영상 처리 장치 및 방법
EP2932466B1 (en) * 2012-12-12 2019-12-04 Huawei Technologies Co., Ltd. Method and apparatus for segmentation of 3d image data
WO2014090303A1 (en) * 2012-12-12 2014-06-19 Huawei Technologies Co., Ltd. Method and apparatus for segmentation of 3d image data
US9106922B2 (en) 2012-12-19 2015-08-11 Vanguard Software Solutions, Inc. Motion estimation engine for video encoding
US9860510B2 (en) * 2013-03-15 2018-01-02 Intuitive Surgical Operations, Inc. Depth based modification of captured images
US20140267616A1 (en) * 2013-03-15 2014-09-18 Scott A. Krig Variable resolution depth representation
US20140321561A1 (en) * 2013-04-26 2014-10-30 DDD IP Ventures, Ltd. System and method for depth based adaptive streaming of video information
CN104427291B (zh) * 2013-08-19 2018-09-28 华为技术有限公司 一种图像处理方法及设备
US20150181168A1 (en) * 2013-12-20 2015-06-25 DDD IP Ventures, Ltd. Interactive quality improvement for video conferencing
US9876964B2 (en) * 2014-05-29 2018-01-23 Apple Inc. Video coding with composition and quality adaptation based on depth derivations
US9392272B1 (en) 2014-06-02 2016-07-12 Google Inc. Video coding using adaptive source variance based partitioning
US9578324B1 (en) 2014-06-27 2017-02-21 Google Inc. Video coding using statistical-based spatially differentiated partitioning
EP3316006B1 (en) * 2015-06-23 2020-12-09 KYOCERA Corporation Three-dimensional-object detection device, stereo camera device, vehicle, and three-dimensional-object detection method
EP3319317B1 (en) * 2015-07-30 2021-04-28 Huawei Technologies Co., Ltd. Video encoding and decoding method and device
JP6537396B2 (ja) * 2015-08-03 2019-07-03 キヤノン株式会社 画像処理装置、撮像装置および画像処理方法
US10313657B2 (en) * 2015-12-25 2019-06-04 Boe Technology Group Co., Ltd. Depth map generation apparatus, method and non-transitory computer-readable medium therefor
US11665308B2 (en) 2017-01-31 2023-05-30 Tetavi, Ltd. System and method for rendering free viewpoint video for sport applications
FR3087309B1 (fr) 2018-10-12 2021-08-06 Ateme Optimisation d'un sous-echantillonnage intervenant avant le codage d'images en compression
US20210105451A1 (en) * 2019-12-23 2021-04-08 Intel Corporation Scene construction using object-based immersive media

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4893183A (en) * 1988-08-11 1990-01-09 Carnegie-Mellon University Robotic vision system
US5577130A (en) * 1991-08-05 1996-11-19 Philips Electronics North America Method and apparatus for determining the distance between an image and an object
CA2088082C (en) * 1992-02-07 1999-01-19 John Hartung Dynamic bit allocation for three-dimensional subband video coding
US5512939A (en) * 1994-04-06 1996-04-30 At&T Corp. Low bit rate audio-visual communication system having integrated perceptual speech and video coding
US5617334A (en) * 1995-07-21 1997-04-01 The Trustees Of Columbia University In The City Of New York Multi-viewpoint digital video coder/decoder and method

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8861874B2 (en) 2010-05-11 2014-10-14 Samsung Electronics Co., Ltd. Apparatus and method of encoding 3D image
WO2011155704A3 (ko) * 2010-06-11 2012-02-23 삼성전자주식회사 깊이 전이 데이터를 이용한 3d 비디오 인코딩/디코딩 장치 및 방법
KR20160032277A (ko) * 2011-12-29 2016-03-23 인텔 코포레이션 가변 깊이 압축
US9626793B2 (en) 2011-12-29 2017-04-18 Intel Corporation Variable depth compression
WO2013100635A1 (ko) * 2011-12-30 2013-07-04 (주)휴맥스 3차원 영상 부호화 방법 및 장치, 및 복호화 방법 및 장치
KR101336139B1 (ko) * 2012-06-11 2013-12-05 동의대학교 산학협력단 깊이 카메라를 이용한 움직임 추정 시스템 및 방법
KR101367673B1 (ko) * 2012-07-03 2014-03-03 한밭대학교 산학협력단 깊이 카메라 정보를 이용한 색상 영상 시퀀스에 대한 움직임 추정 영역 설정 방법 및 그 설정 시스템

Also Published As

Publication number Publication date
WO1998015915A1 (en) 1998-04-16
CA2268191A1 (en) 1998-04-16
JP2001509325A (ja) 2001-07-10
EP1012776A1 (en) 2000-06-28
EP1012776A4 (en) 2002-04-24
US6055330A (en) 2000-04-25

Similar Documents

Publication Publication Date Title
KR20000049031A (ko) 3차원 깊이 정보를 이용한 디지털 이미지와 비디오 세그먼테이션과 압축을 수행하기 위한 방법 및 장치
WO1998015915A9 (en) Methods and apparatus for performing digital image and video segmentation and compression using 3-d depth information
US6917719B2 (en) Method and apparatus for region-based allocation of processing resources and control of input image formation
US8295350B2 (en) Image coding apparatus with segment classification and segmentation-type motion prediction circuit
US6404814B1 (en) Transcoding method and transcoder for transcoding a predictively-coded object-based picture signal to a predictively-coded block-based picture signal
US4951140A (en) Image encoding apparatus
CN114175661A (zh) 具有补充信息消息的点云压缩
JP3197420B2 (ja) 画像符号化装置
US6798977B2 (en) Image data encoding and decoding using plural different encoding circuits
EP1389016A2 (en) Motion estimation and block matching pattern using minimum measure of combined motion and error signal data
EP0923251A1 (en) Mode coding method and apparatus for use in an interlaced shape coder
KR20000006504A (ko) 구획분류및적응비트할당을위한방법및장치
Kauff et al. Functional coding of video using a shape-adaptive DCT algorithm and an object-based motion prediction toolbox
US5706366A (en) Apparatus for encoding an image signal having a still object using an image warping technique
US20070047643A1 (en) Video data compression
US6020933A (en) Method and apparatus for encoding a motion vector
Ma et al. A fast background model based surveillance video coding in HEVC
Ahmmed et al. Dynamic mesh commonality modeling using the cuboidal partitioning
MXPA05001204A (es) Metodo para comprimir datos digitales de una secuencia de video que comprende planos alternados.
JP2000078572A (ja) オブジェクト符号化装置およびオブジェクト符号化装置のコマ落し制御方法およびプログラムを記録した記憶媒体
Yoon et al. Low bit-rate video coding with implicit multiscale segmentation
EP0923250A1 (en) Method and apparatus for adaptively encoding a binary shape signal
JPH07264594A (ja) 動画像の動き補償予測符号化方法
JPH09261661A (ja) 2つの基準ピクチャから双方向コード化ピクチャを形成するための方法
Ferreira et al. On the performance of block matching techniques for very low bit rate video coding

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid