KR20010105362A - 정합 추적 알고리즘에 기초한 비디오 인코딩 방법 - Google Patents

정합 추적 알고리즘에 기초한 비디오 인코딩 방법 Download PDF

Info

Publication number
KR20010105362A
KR20010105362A KR1020017011010A KR20017011010A KR20010105362A KR 20010105362 A KR20010105362 A KR 20010105362A KR 1020017011010 A KR1020017011010 A KR 1020017011010A KR 20017011010 A KR20017011010 A KR 20017011010A KR 20010105362 A KR20010105362 A KR 20010105362A
Authority
KR
South Korea
Prior art keywords
atomic
energy
triangle
mesh
center
Prior art date
Application number
KR1020017011010A
Other languages
English (en)
Inventor
보트리아우빈센트
베네티엘레마리온
페스퀘트-포페스쿠비트리스
Original Assignee
요트.게.아. 롤페즈
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 요트.게.아. 롤페즈, 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 요트.게.아. 롤페즈
Publication of KR20010105362A publication Critical patent/KR20010105362A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/649Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding the transform being applied to non rectangular image segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/97Matching pursuit coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 비디오 인코더 분야에 관한 것이며, 보다 상세하게는, 정합 추적 방법을 삼각형 메시 내의 에러 텍스춰 코딩 공정에 적응하는 것에 기초한 인코딩 방법에 관한 것이다. 상기 공정은 인코딩 방법의 매회 반복시마다 미리 정의된 기준에 따라 선택된 특정 삼각형으로 제한된다. 이러한 삼각형 내의 원자 배치를 위한 최적의 전략은 원자들의 중심으로서 선택된 삼각형의 기하학적 무게중심을 임의로 선택하거나 또는 원자 중심 배치를 위한 에러 에너지 정보의 재사용에 있으며, 선택된 삼각형 내의 치환된 프레임 차이(DFD) 에너지 중심은 원자들의 중심으로서 임의로 선택된 제2의 경우에 최고 에너지를 갖는다.

Description

정합 추적 알고리즘에 기초한 비디오 인코딩 방법{Video encoding method based on the matching pursuit algorithm}
멀티미디어 영역에서, 인터넷 비디오 스트리밍, 비디오 데이터베이스 브라우징 또는 다중-품질 비디오 서비스 등의 신규한 대화형 애플리케이션이 만연되고 있다. 이는 이질적인 네트워크(인터넷, 모바일 네트 및 인 홈 디지털 네트워크) 상으로 비디오 서비스의 확장을 유도하고, 이는 변화하는 소비자 수요 및 단말기 디코딩 능력(CPU, 디스플레이 크기, 애플리케이션...)뿐만 아니라 변화하는 수송 조건(대역폭, 에러율...)의 견지에서 새로운 문제점들을 야기시킨다. 결과적으로, 특히 매우 낮은 비트율로 새로운 구속 요건을 다룰 수 있는 새로운 융통성있고 본질적으로 확고한 비디오 압축 시스템이 요구된다. 스케일 가능성이라는 견해는 이들 문제점을 다룰 것으로 기대되는 기능성이다. 예를 들면, 내장된 비트스트림의 한 부분만이 네트워크 혼잡을 피하도록 특정 사용자에게 전송될 수 있거나, 또는 전체 비트스트림이 목표된 품질 레벨에 따라 부분적으로 디코딩될 수 있다. MPEG-4 등의 현재 표준이 이러한 기능성을 제공하는 비디오 코딩 스킴쪽으로 작용되고 있다.
MPEG-4는 모션 보상후 예측 에러 코딩이 불연속 코사인 변환(DCT)에 의해 실현되는 고전적인 블록-베이스 예측 하이브리드 스킴에 의거한다. 그러나, 코딩된 계수들의 수는 매우 적고 양자화는 조잡하기 때문에, DCT는 낮은 비트율에서 매우 성가신 시각적 인공물(특히 블록 에지 인공물)로 손상을 입는 것으로 보인다. 낮은 비트율에 보다 적합하고 MPEG-4에서 시험되는 DCT에 대한 대안은 예를 들면 S. Mallat 및 Z. Zhang의 IEEE Transactions on Signal Processing, 제41권, 12호, 1993년 12월, 제3397-3415페이지, "시간-주파수 사전에 의한 정합 추적(Matching pursuits with time-frequency dictionaries)"에 개시된 이른바 정합 추적(MP) 알고리즘에 기초한다.
상기 문헌에 개시된 바와 같이, MP는 2차원(2D) 기능 호출 원자들의 오우버컴플릿 사전을 사용하여 반복 방식으로 모션 잔류 신호를 확장시키는 시간-주파수 변환이다. 이러한 알고리즘은 인코딩되어야 하는 신호의 제곱 평균 에러율을 최소화시키는 원자를 반복적으로 산출한다. 다단계 알고리즘은 다음 단계들에 따라 진행한다:
직사각형 탐색창 상의 최고-에너지 이미지 블록이 연산되고; 이 블록 둘레에서, 기본 기능과 현재 반복중인 잔류 이미지 사이의 내부 곱을 최대화시키는 투영이 산출되고; 큰 내부 곱 값은 대응하는 원자가 신호 구조에 적합한 것을 나타낸다.
이어서, 이와 같이 스케일된 원자는 다음 단계에 대한 새로운 잔류 이미지를 생성하도록 현재 에러 이미지로부터 감산된다.
방법의 복잡성은 알고리즘이 매회 반복 시에 사전 내의 모든 원자들 중에서 최상의 원자를 탐색한다는 사실에서 유래한다. 표 1은 고전적인 블록-기초 정합 추적 구현에 전통적으로 사용되는 원자 사전을 보여준다(파라메터 Si, Fi및 Pi각각은 원자의 스케일, 주파수 및 위상을 나타냄).
사전의 여분은 신호 분해 선택에서 보다 큰 자유도를 허용한다. MP 만이 신호를 정확히 나타내는 데 필요한 기능을 사용하기 때문에, 보다 양호한 압축 효율을 초래하므로, 낮은 비트율 코딩의 경우에 보다 많은 흥미를 끈다. 더욱이, MP는 반복적이고, 따라서 잔류 에너지는 매회 반복 시에 감소한다. 공정은 이러한 잔류 에너지가 주어진 임계값 이하로 떨어지거나 또는 유효 비트량이 소모될 때까지 반복된다. 그 표시는 최상의 유효 계수가 먼저 추출되는 점에서 적용된다. 따라서, MP는 감소하는 중요도 순으로 잔류 에러를 디코딩하고, 이는 품질(SNR) 스케일 가능성에 흥미를 끈다. 신호 구조에서 보다 세부적인 사항에 대응하는 추가의 계수들은 알고리즘의 다음 단계 동안에 발생될 수 있다.
사전은 일반적으로 변조된 가우스 함수의 스케일을 다루는 파라메터들 및 변조 함수의 주파수 및 위상으로 나타낸 2차원(2D) 분리 가능한 개버(Gabor) 함수로 일반적으로 구성되어 있다. 사전의 선택은 그것이 분해의 수렴 속도에 크게 관련 있고 따라서 알고리즘의 효율에 크게 관련있기 때문에 중요하다. 개버 함수는 시각적인 인공물을 제한하는 에지에서 이들의 평활한 붕괴에 대해 선택된다. 더욱이, 원자들은 신호 구조물들을 정합시키기 위해 전체 에러 이미지의 임의의 화소 위치에 배치될 수 있다. 원자 중첩이 인에이블되고, 이는 확장 평활도를 증가시킨다.
DCT 상의 이러한 MP 방법의 우월성은 여러 연구로 분명히 나타나지만, DCT는 MPEG-4에 사용된 유일한 텍스춰 코딩법을 존속시킨다(그 이유는 DCT가 매우 잘 숙성된 방법이고, 그를 위한 많은 소프트웨어 및 하드웨어 최적화가 존재하기 때문이다). 더욱이, MP는 반복적인 알고리즘이고, 그를 위한 어떠한 병치 기술도 존재하지 않으므로, 그것은 인코더측에서 복잡하다. 그러나, MP는 임의의 형상의 목적물내의 텍스춰 기재에 매우 적합해 보이고, 내장된 비트스트림 내에 진보적인 정보 표시를 제공하고, 그에 따라 스케일 가능성을 허용한다.
현행 비디오 표준이 스케일 가능성을 제공하도록 원래 설계되지 않음에 따라(이들 표준은 그들의 현재 구조를 보존하면서 이러한 신규 기능성을 포함하도록 업그레이드됨), 이러한 스케일 가능성은 일반적으로 2개 이상의 분리된 비트스트림을 전달하는 층 구조물을 통해 달성된다. 이러한 시도는 상승층의 융통성의 결여 및 낮은 코딩 효율로 손상을 입는다. 더욱이, 스케일 가능성의 기본 유형(공간적, 시간적, SNR)은 동시에 도달될 수 없다. 결과적으로, ITU 및 MPEG 위원회 전문가들은 보다 큰 대화식을 허용하는 완전히 스케일 가능한 비디오 코딩 스킴을 매우 낮은 비트율 영역에서 찾고 있다. 유력한 시도는 목적물-베이스 압축 및 구성에 대해 삼각형 메시-베이스 표시(즉, 이미지 영역의 기본 패치들로의 서브분할, 이러한 구성은 매우 융통성있기 때문에 대부분 현재 삼각형)로 다루어진다. 그러한 오퍼레이션은 목표된 장면 서술의 정확도에 따라 제한된 수의 소자들로 이질적인 영역을 한정하는 것을 목표로 하고, 이는 심지어 계층적일 수 있다. 이 계층은 명확한 기준에 따라 연속적으로 정제된 임의의 거친 메시로 초기화되고, 이는 그의 정확도가 한 레벨씩 감소하는 기재를 허용한다.
메시, 효율적인 목적물 윤곽 인코딩을 위한 공간적인 적응성, 목적물 트래킹을 위한 변형 용량, 일반적으로 다른 표시와 관련된 시각적인 인공물 없이 낮은 비트율에서조차 컴팩트하고 강건한 모션 추적에 의해 제공되는 주요 장점들을 활용하는 것이 제안되고 있다. 삼각형 메시는 텍스춰 애니메이션 및 변형, 비디오-목적물의 내용-베이스 검색, 증대된 현실성, 변형 등의 기능성에 대해 흥미를 끈다. 더욱이, 계층적 메시로의 이들의 확장은 스케일 가능성에 대해 가능한 응답이다. 그러나, 메시 내의 텍스춰 코딩의 주제와 관련된 공지된 연구가 거의 없고, DCT의 적응에 기초하여 현존하는 연구들은 직사각형 분해에 대해서만 원래 설계된 것이다.
본 발명은 비디오 인코더 분야에 관한 것이며, 보다 상세하게는 신호 대 잡음비(SNR)를 스케일할 수 있는 비디오 인코더에서 구현되도록 제공되는 이른바 정합 추적 방법(MP)의 적응에 기초한 인코딩 방법에 관한 것이다.
도 1은 선택된 삼각형 내의 원자 배치를 위한 최적의 전략을 발견할 때, 기하학적 원자 배치 방법을 예시하고;
도 2는 원자 중심 배치를 위한 에러 에너지 정보를 사용함으로써 일부 배치 자유도(도 1에 예시된 방법에 비교)를 재도입하도록 허용하는 기하학적 방법의 제1 변종을 예시하며;
도 3은 기하학적 배치 방법과 에너지 배치 방법 사이의 비교를 예시하고;
도 4는 DFD 에너지의 원시 방향에 따른 하나의 원자 축의 정렬에 의해, 원자측들이 접근해야 하는 에러 신호에 의해 원자 축들의 정렬을 얻도록 허용하는 에너지 원자 배치 방법의 변종인 관성 원자 배치를 예시한다.
따라서, 본 발명의 목적은 MP 피처로부터 이익을 얻기 위해 삼각형 메시 내의 텍스춰 에러 코딩으로, 즉, 감소하는 중요도 순으로 점진적인 정보 전송 및 낮은 비트율에서조차 평활한 신호 표시에 MP 알고리즘을 사용하고 적응시키는 비디오 인코딩 방법을 제안하는 것이다.
이러한 목적을 위하여, 본 발명은 삼각형 메시 내의 에러 텍스춰 코딩 공정이 미리 정의된 기준에 따라서 선택된 특정 삼각형으로 MO 방법의 매회 반복시마다 제한되고, 이에 관해서 삼각형 내의 원자 배치를 위한 최적 전략이, 에러 신호의 고속 에너지 감소에 비추어, 원자들의 중심으로서 선택된 삼각형의 기하학적 무게중심을 임의로 선택하는 데 있고, 원자 위치들에 관한 어떠한 추가 정보도 디코더로 전송되지 않는, 이른바 정합 추적 방법(MP)의 적응에 기초하는 것에 관한 것이다.
제안된 해결책은 메시-베이스 코딩에 매우 적합한 예측 에러 코딩 툴을 갖는 목표된 비디오-인코딩 스킴을 제공한다. MP 알고리즘에 기초하여, 이러한 방법은특히 삼각형 지주를 정합시키도록 설계되어 있으면서, 메시 특성으로부터 이득을 얻는다. 임의의 선택된 삼각형이 주어짐으로써, 쟁점은 상기 삼각형 내에 원자를 배치하기 위한 최적의 전략을 발견하는 것이고, 이는 에러 신호의 고속 에너지 감소 및 정확하고 평활한 신호 분해를 초래한다. 이러한 기하학적 배치 방법은 각각의 원자 위치가 인코딩되어야 하는 블록-베이스 시도에 비해 비트 버짓(budget) 이득을 초래한다.
다른 실시예에서, 본 발명은 삼각형 메시 내의 에러 텍스춰 코딩 공정이 미리 정의된 기준에 따라서 선택된 특정 삼각형으로 MP 방법의 매회 반복시마다 제한되고, 이에 관해서 삼각형 내의 원자 배치를 위한 최적 전략이, 에러 신호의 고속 에너지 감소에 비추어, 원자 중심 배치를 위한 에러 에너지 정보를 재사용하는 데 있고, 가장 큰 에너지를 갖는 선택된 삼각형 내의 치환된 프레임 차이(DFD) 에너지 중심은 원자들의 중심으로서 임의로 선택되고, 이러한 삼각형 내의 위치는 디코더로 전송되는 추가의 정보인, 이른바 정합 추적 방법(MP)의 적응에 기초한 인코딩 방법에 관한 것이다.
기하학적 선택(제1 실시예에 대응함)이 원자들이 삼각형의 중심에 놓이는 것을 보장하는 경우, 배치 자유도에 관하여 MP의 특성의 헐거움을 초래한다. 원자 중심 배치를 위한 에러 에너지 정보를 재사용함으로써, 블록-베이스 시도에 보다 유사한 원자 코딩 효율이 얻어진다.
이러한 구현은 가장 중요한 에너지 방향을 따라 하나의 원자축을 배향시킬 가능성을 그에 부가함으로서 여전히 개선될 수 있다. 보다 양호한 원자 배치가 얻어지고, 원자 축들은 접근되어야 하는 에러 신호에 의해 정렬되는 것이다.
본 발명의 상세한 사항은 수반된 도면을 참조하여 보다 세부적인 방식으로 이하 설명될 것이다.
발명의 상세한 설명
MP 알고리즘을 적응시키고 삼각형 메시 지주 상에만 텍스춰 확장을 허용하는 강한 구속 요건을 충족시키기 위해 이미지 블록들 상에 원시 인가된 MP 알고리즘을 사용할 때, 블록-베이스 시도에 관한 원자 중첩 및 원자 배치에 관한 동일한 자유도를 허용하는 것을 불가능하게 한다. MP 공정의 매회 반복 시에, 에러 텍스춰 코딩은 특정 삼각형으로 제한되어야 하고, 그것은 예를 들면 에너지 기준에 따라 선택되는 것이다. 따라서, 원자 인코딩은 삼각형 에지 상에 위치하는 원자들을 피할 수 있도록 다른 방식으로 수행되어야 함으로써, 시각적인 인공물을 도입할 수 있다. 선택된 삼각형이 주어짐에 따라, 쟁점은 에러 신호의 고속 에너지 감소, 정확하고 평활한 신호 분해를 초래하는 전략인 이러한 삼각형 내의 원자 배치를 위한 최적 전략을 발견하는 것이다. 그러한 원자-배치 방법들은 도 1 내지 3을 참조하여 이하 기재하고, 예측 에러 인코딩은 매 경우 삼각형 스케일로 수행되는 것이다(각각의 삼각형을 포위하는 바운딩 박스는 단선들로 나타냄). 모션 잔류 이미지를 인코딩하기 위해 사용된 기능에 관하여, 어떠한 특수한 변형도 메시 구조의 사용을 위해 도입되지 않았고; 이들은 여전히 실제 2D 개버 기능이다.
가장 단순한 방법은 인코딩 원자 중심으로서, 즉, 원자 축들이 이미지 그리드(X,Y)와 일치하는 도 1에 예시된 바의 2D 원자들의 중심으로서, 인코딩될 선택된 삼각형의 기하학적 무게중심을 임의로 선택하는 데 있다. 이러한 선택은 원자들이 삼각형의 중심에 놓이는 것을 보장한다. 이러한 정보는 디코더측의 메시로부터 회복될 수 없기 때문에, 원자 위치들에 관한 어떠한 추가의 정보도 디코더로 전송되지 않아야 한다. 이는 각각의 원자 위치가 인코딩되어야 하는 블록-베이스 방법에 비해 비트 버짓 이득을 초래한다. 원자 배치 자유도의 감소는 이러한 배치 전략에 의해 원자 위치들이 인코딩되거나 또는 전송될 필요가 없고(원자 위치들은 인코더 측에서 이들이 수행된 것과 동일한 방식으로 디코더 측에서 회복될 수 있음), 따라서 텍스춰 확대를 위한 상기 증대된 비트 버짓(budget)을 초래한다는 사실에 의해 부분적으로 보상된다.
그러나, 원자들이 삼각형의 "중간(middle)"에 놓여 있음을 기하학적 선택이 보장하는 경우, 이는 배치 자유도에 관한 MP 특성의 느슨함을 초래하고, 이는 원자 코딩 효율을 감소시킨다. 블록-베이스 시도에 보다 유사해지기 위해, 에러가 큰 이미지 영역들 상에 원자들이 위치함에 있어서, 에러 에너지 정보는 원자 중심 배치를 위해 재사용될 수 있다. 이 때문에, 선택된 삼각형(가장 큰 에너지를 갖는 것) 내의 치환된 프레임 차이(DFD) 에너지 중심은 2D 원자들의 중심으로서 임의로 선택된다(도 2). 삼각형 내의 이러한 위치는 상기 디코더가 DFD에 관한 어떠한 정보도 갖지 않기 때문에 디코더 내에서 전송되어야 한다. MP 공정은 반복적이기 때문에, 특정 삼각형은 텍스춰 인코딩을 위해 수차례 선택되는 것임이 종종 발생한다. 이러한 에너지 배치는 그의 연속적인 공정 중에 특정 삼각형 내에 특정 자유도를 재도입한다. 더욱이, 이 방법은 메시 세밀화 공정에 잘 적용되고, 이는 삼각형들을 에너지 기준에 따라 연속적으로 분할한다. 분할 삼각형들은 가장 큰 잔류 에너지를 갖는 것들 사이에서 선택되기 때문에, 이들 삼각형은 텍스춰 확대를 위한 MP 알고리즘에 의해 보다 쉽게 선택되어야 한다. 이러한 방법에 의해 재구축된 이미지들은 제1의 것보다 시각적 인공물이 적은 보다 양호하게 배치된 텍스춰를 제공하고, 이는 예측 에러를 코딩하기 위해 사용된 동일한 수의 원자들에 대한 것이다.
기하학적 배치와 에너지 배치 사이의 차이를 예시하기 위해, 누구나, 도 3에 예시된 바와 같이 특정 1차원(1D) 예를 고려할 수 있고, 도면에서 우측은 원자의기하학적 배치를 보여주고, 좌측은 그의 에너지 배치를 보여준다(G 및 E는 매 경우에 기하학적 및 에너지 중심 각각의 위치를 지정함). 에너지 배치는 그것이 최상의 지점에 원자를 연속적으로 배치하기 때문에, 보다 효율적인 코딩을 생성한다. 사실상, 특정 코딩 스킴이 주어짐에 따라, 원자 위치들은 디코더측으로 전송된다는 것을 에너지 배치 방법이 미리 추정하기 때문에, 이 위치를 인코딩하는 가치에 따라 보다 양호한 배치의 이득을 가늠할 수 있다. 더욱이, 기하학적 무게중심과 에너지 중심 간의 차이는 삼각형들이 보다 작아짐에 따라 보다 중요하지 않다.
다른 변종 역시 제안될 수 있다. 이전의 방법에서(도 3), 원자 축들은 항상 이미지 그리드에 평행하고, 그것은 무엇이든지 원자 중심 위치이다. 도 4에 예시된 바와 같이, 관성 배치는 DFD 에너지의 원시 방향, 즉 에너지가 가장 중요한 것에 따른 방향(각도 α로 나타냄)에 따라 하나의 원자축을 배향시킬 가능성을 에너지 배치에 부가할 수 있다. 실제로, DFD 에너지에 의해 가중된 삼각형 관성 모우멘트는 에너지 원시 방향을 연역(deduce)하도록 각각의 삼각형 내부에서 연산되고, 이는 이미지 그리드 x-축에 의해 그의 각도만큼 주어진다. 이어서, 제2 축(y-축)은 이러한 제1 방향에 단지 수직이다.
관성 원자 배치 방법의 경우에, DFD 에너지 원시 방향각의 연산은 아래 지시된 바와 같이 수행된다. 관성 매트릭스는과 같이 주어지며, a,b,c 는 다음과 같다.
xK및 yK는 각각 연구된 데이터의 x-횡좌표 및 y-횡좌표이고,는 데이터 중심이다. 본경우에, 하나는
이고,
여기서 (i,j)는 선택된 삼각형 내부 지점이다. 원시 방향각 α는 단순히
로 주어진다.
보다 양호한 원자 배치는 원자 축들이 근접해야하는 에러 신호와 원자축들의 정렬을 통해 본 발명의 방법에 의해 달성된다. 뿐만 아니라, 원자 축들은 이미지 그리드에 의해 정렬되지 않고, 불연속 원자 테이블들은 더 이상 사용될 수 없다. MP 공정 동안 동적으로 연산되는 실제 원자 값들이 도입되어야 한다. 더욱이, 관성 배치에 의해 야기되는 개선은 추가의 비용, 원자축을 제한하는 각을 인코딩하고 전송할 필요성을 역시 갖는다. 결과적으로, 뒤틀림 속도(rate-distortion) 트레이드 오프가 2 상황 사이에 실현되어야 하고: 원자 축은 DFD 에너지 원시 방향과 정렬하고, 원자 인코딩을 위해 허용되는 비트 버짓의 일부는 이러한 방향의 각도를전송하는 대신에 소모되거나, 또는 원자축은 이미지 그리드와 함께 정렬되고, 비트 버짓의 동일한 부분이 각각의 삼각형에 대해 보다 많은 원자들을 전송하기 위해 실제로 사용되고, 따라서, 이는 메시 내의 텍스춰의 개선된 재구축을 초래한다. 따라서, 그의 파라메터들(중심 위치, 축 각도)을 인코딩하는 가치에 의해 보다 양호한 원자 위치의 이득을 가늠해야 한다.
원자 사전의 선택은 MP 방법의 효율 및 수렴 속도에서 키 인자를 구성하고, 따라서, 이는 삼각형 특성에 따른 기능 세트를 최적화하는 데 유용하다. 이미 언급한 바와 같이, 삼각형 스케일에서 텍스춰 증대만을 허용하는 데 있는 강한 구속 요건은 원자 중첩 특성을 감소시키는 것이다. 이를 보상하기 위해, 기본 기능의 선택에 특별한 주의를 기울여야 한다. 기능의 여유도를 증가시키고, 오버컴플릿 기본 특성을 증가시키는 것은 알고리즘 부하를 증가시키기 때문에 허용될 수 없는 해법이다.
방법의 주요 변형은 지주의 특수한 기하학적 특성에 연결되기 때문에, 그것은 삼각형 크기에 따라 여러 사전을 먼저 최적화하도록 선택되었다. 비디오 시퀀스의 트레이닝 베이스는 메시가 다소 치밀한 메시-베이스 코딩 시스템에 의해 처리되고 있다. 오엽 배열로 배열된 32개의 삼각형들로 구성된 가장 거친 메시가 QCIF(쿼터 공통 중간 포맷) 상에 적용된다. 이들 삼각형은 분할 기준에 관한 신규 레벨을 통해 더욱 세밀화된다. 각각의 메시 구성에 대해, 원자 파라메터들은 대부분 트레이닝 중에 종종 선택된 것들 사이에 선택된다. 가장 빈번한 파라메터들 외에, 평활한 원자들을 나타내는 트리플릿은 유지된 사전에 자유롭게 부가되고 있다.그 이유는 사전들이 상이한 구성에 부합되도록 상당히 작으면서도 가능한 한 완전해야 하기 때문이고, 일부는 삼각형 페이스 동안 발생하지 않아야 한다. 이를 행함으로써, 여러 사전들이 얻어지고, 이들 각각은 특정 종류의 삼각형에 대해 최적화된다. 표 2는 3개의 단계 스플릿 공정에 대해 최적화된 결과적인 원자 사전들의 예를 보여준다:
사전 1 사전 2 사전 3
QCIF 포맷의 시퀀스의 1525 이미지로 구성된 트레이닝 이미지 베이스는 "속성"(잔디를 걷고 있는 동물들에 이어지는 속성 시퀀스), "뉴스(전형적인 헤드 및 숄더 시퀀스)", "럭비"(여러 종류의 움직임, 포화된 컬러 및 카메라 패닝에 의한 매우 큰 노력을 요하는 스포츠 시퀀스), 및 "드라마"(다소 정적인 시퀀스)라 칭하는 상이한 종류의 여러 시퀀스의 연결이다. 트레이닝 기능 사전들은 각각 1.0 내지 23.0 범위의 12개의 홀수 스케일 값, 0.0 내지 4.0의 5개의 주파수 값 및 3개의 위상 값(0, π/4 및 π/2)을 갖는 100개 이상의 파라메터 트리플릿으로 구성되어 있다. 3개의 사전들은 계층적 코딩 스킴의 3개의 레벨과 임의적으로 연관된다.
이와 같이 기재된 코딩 방법에 관하여, 본 발명의 범위에서 벗어나지 않는 변형 또는 개선이 제안될 수 있다. 예를 들면, 삼각형 메시-베이스 비디오-코딩 스킴은 계층적 표시에 의해 개선될 수 있다. 계층은 레벨에서 레벨로 점진적으로 세밀화되는 설명을 제공하기 위한 최적 패치 크기 및 툴을 발견하는 쟁점을 다룬다. 따라서, 계층적 메시를 향한 확장은 스케일 가능성에 응답한다. 계층은 명시된 기준(예를 들면 에너지)에 따라 연속적으로 세밀화되는 임의의 거친 메시로 초기화될 수 있다. 이 경우에 사용된 계층은 거친 메시가 최하위 해상도 이미지에 결합되는 취지로 각각의 해상도의 이미지와 메시 그리드를 조합하는 데 있다. 여기서, 해상도라는 용어는 임의의 다운샘플링 없이 소스 이미지 상에서 수행되는 저역 필터링을 의미하고, 데시메이션을 의미하지 않는다. 따라서, 이미지 및 메시 커플은 레벨에 따라 증가하는 정보 정확도를 제공하는 소자들로 구성되어 있다.
삼각형 상에 인가된 MP 방법에 관하여, 기본 기능의 선택은 그것이 인코딩 속도 및 효율 모두에 영향을 미치기 때문에 용이하지 않다. 따라서, 채택된 기능 세트를 갖는 각각의 레벨을 제공하도록 3개의 사전이 제안되었다. 키 인자는 기능 지주를 결정하는 스케일 파라메터인 것이 분명하다. 한가지 해결책은 하나의 특정 사전과 하나의 계층적 레벨을 임의로 연관시키는 것이고, 그것은 이러한 레벨에 대해 최적화되어 있는 것이다. 그러나, 모든 삼각형의 일부만을 갱신하는 2개의 레벨 사이의 메시 정제 공정을 고려하면, 제1 레벨 메시가 "큰" 삼각형으로 구성된 경우, 다음 레벨 메시는 단지 "중간" 및 "작은" 삼각형들로 구성되는 것으로 가정될 수 없다. 이러한 쟁점을 우회하기 위해, 사전의 동적인 예비 선택이 삼각형-베이스 MP 방법에 부가된다. 이러한 사전 선택은 알고리즘 부하를 증가시키지 않을 뿐만 아니라 그의 수렴 속도를 지체시키지 못한다. 그 이유는 그 선택이 최상의 원자의 연산 전에 온라인으로 이루어지고, 이것은 매회 반복되기 때문이다.
선택된 사전이 무엇이든지 간에, MP 공정은 이러한 유일한 사전 내의 최상의 원자를 이후에 탐색하고, 각각의 선택된 삼각형에 대해서도 그러하다. 따라서, 그것은 모든 N 사전을 고려한 양에 이르지 못하므로, 하나의 사전을 N배만큼 더 많이 갖는 것이 등가일 수 있다. 따라서, 이러한 사전 예비 선택은 여러 개의 잠재적 사전을 갖는 장점을 제공하지만, 단지 하나의 연산이 존재하는 것과 마찬가지의 동일한 수의 효과적인 연산을 제공한다. 이러한 방법은 4분의 일 원자 파라메터의 추가를 필요로 하지 않는 점에서 오히려 흥미를 끈다. 사전의 선택에 영향을 미치는 원자 크기는 메시에 이미 존재하는 정보로부터 실제로 유도되고, 따라서 이는 전송될 필요가 없다. 그것은 인코더 측에서 얻어진 것과 동일한 방식으로 디코더 측에서 회수될 수 있다. 뿐만 아니라, 사전은 여전히 전송되지 않거나, 또는 디코더에 의해 적어도 공지되어 있다.
선행된 설명에서, 정합 추적 알고리즘은 고전적인 블록-베이스 이미지 분배를 사용하지 않고 메시-베이스 지주 상에 직접적으로 적용된다. 제안된 3개의 원자 배치 방법은 기준선 정합 추적 공정을 삼각형 지주로 적응시키는 것을 다룬다. 더욱이, 동적인 사전 예비 선택의 도입은 MP 스테이지 동안 동일한 수의 효과적인 연산을 유지하면서 잠재적으로 훨씬 큰 수의 최적화된 사전을 갖게 하고, 이는 각각의 인코딩된 원자에 대해 그러하다. 선택된 사전의 색인은 디코더로 전송될 필요가 없고, 따라서 고유의 보충 원자 파라메터를 제한한다. 삼각형 메시의 사용에 기초하여 이와 같이 기재된 방법들은 신호 대 잡음비(SNR) 스케일 가능한 비디오 인코더에서 구현될 수 있고, 이는 본 발명의 범위에 속한다.

Claims (7)

  1. 신호 대 잡음비(SNR) 스케일 가능한 비디오 인코더에서의, 삼각형 메시들 (triangular meshes)내의 에러 텍스춰 코딩 공정으로의 이른바 정합 추적 방법(MP)의 적응에 기초한 인코딩 방법에 있어서, 상기 에러 텍스춰 코딩 공정은, 미리 정의된 기준에 따라서 선택된 특정 삼각형으로 상기 MP 방법의 매회 반복시마다 제한되고, 그것에 관해서 상기 삼각형 내에 원자 배치를 위한 최적 전략이, 에러 신호의 빠른 에너지 감소에 비추어, 원자들의 중심으로서 선택된 삼각형의 기하학적 무게중심(barycenter) 을 임의로 선택하는데 있고, 원자 위치들에 관한 어떠한 추가 정보도 디코더로 전송되지 않는, 인코딩 방법.
  2. 신호 대 잡음비(SNR) 스케일 가능한 비디오 인코더에서, 삼각형 메시들 내의 에러 텍스춰 코딩 공정으로의 이른바 정합 추적 방법(MP)의 적응에 기초한 인코딩 방법에 있어서, 상기 에러 텍스춰 코딩 공정은, 미리 정의된 기준에 따라서 선택된 특정 삼각형으로 MP 방법의 매회 반복에 제한되고, 그것에 관해서 상기 삼각형 내에 원자 배치를 위한 최적 전략이, 에러 신호의 빠른 에너지 감소에 비추어, 원자 중심 배치를 위한 에러 에너지 정보를 재사용하고, 가장 큰 에너지를 갖는 선택된 삼각형 내의 치환된 프레임 차이(DFD) 에너지 무게중심은 원자들의 중심으로서 임의로 선택되고, 상기 삼각형 내의 상기 위치는 디코더로 전송되는 추가의 정보인, 인코딩 방법.
  3. 제2항에 있어서, 상기 원자 배치를 위한 최적의 전략은, DFD 에너지의 원시 방향, 즉, 에너지가 가장 중요한 방향을 따라 하나의 원자 축을 배향시키도록 제공되는 배향 단계를 에너지 배치에 부가하는 관성 원자 배치 방법이고, 제2 축은 이러한 제1 방향에 대해 수직이 되고, 상기 관성 배치 방법의 구현은 원자 축을 정의하는 각도를 추가의 정보로서 인코딩하고 전송하는 것과 관련되는, 인코딩 방법.
  4. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 방법은 계층적 메시의 사용으로 개선되고, 계층은 상기 미리 정의된 기준에 따라 연속적으로 세밀화되는 임의의 거친 메시로 초기화되는, 인코딩 방법.
  5. 제4항에 있어서, 상기 계층은, 가장 거친 메시가 가장 낮은 해상도의 이미지에 결합됨으로써 이미지 및 메시 결합이 그 레벨로 증가하는 정보 정확도를 제공하는 소자들로 구성되는 효과에서, 각각의 해상도에서의 이미지와 메시 그리드의 결합에 존재하는, 인코딩 방법.
  6. 제5항에 있어서, 상기 미리 정의된 기준은 에너지 기준인 인코딩 방법.
  7. 제1항 내지 제6항중 어느 한 항에 따른 인코딩 방법에 기초한 삼각형 메시를 구현하는 신호 대 잡음비(SNR) 스케일 가능한 비디오 인코더.
KR1020017011010A 1999-12-28 2000-12-20 정합 추적 알고리즘에 기초한 비디오 인코딩 방법 KR20010105362A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP99403307.4 1999-12-28
EP99403307 1999-12-28
PCT/EP2000/012981 WO2001049037A1 (en) 1999-12-28 2000-12-20 Video encoding method based on the matching pursuit algorithm

Publications (1)

Publication Number Publication Date
KR20010105362A true KR20010105362A (ko) 2001-11-28

Family

ID=8242237

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017011010A KR20010105362A (ko) 1999-12-28 2000-12-20 정합 추적 알고리즘에 기초한 비디오 인코딩 방법

Country Status (6)

Country Link
US (1) US6625213B2 (ko)
EP (1) EP1159830A1 (ko)
JP (1) JP2003518883A (ko)
KR (1) KR20010105362A (ko)
CN (1) CN1183767C (ko)
WO (1) WO2001049037A1 (ko)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1404136B1 (en) * 2001-06-29 2018-04-04 NTT DoCoMo, Inc. Image encoder, image decoder, image encoding method, and image decoding method
US7003039B2 (en) * 2001-07-18 2006-02-21 Avideh Zakhor Dictionary generation method for video and image compression
US7006567B2 (en) * 2001-11-30 2006-02-28 International Business Machines Corporation System and method for encoding three-dimensional signals using a matching pursuit algorithm
US8204109B2 (en) * 2003-03-28 2012-06-19 Etiip Holdings Inc. Overcomplete basis transform-based motion residual frame coding method and apparatus for video compression
US8107535B2 (en) 2003-06-10 2012-01-31 Rensselaer Polytechnic Institute (Rpi) Method and apparatus for scalable motion vector coding
WO2004111789A2 (en) 2003-06-10 2004-12-23 Rensselaer Polytechnic Institute A method for processing i-blocks used with motion compensated temporal filtering
US7653133B2 (en) 2003-06-10 2010-01-26 Rensselaer Polytechnic Institute (Rpi) Overlapped block motion compression for variable size blocks in the context of MCTF scalable video coders
US7746929B2 (en) 2003-08-05 2010-06-29 Trident Microsystems (Far East) Ltd. Video encoding and decoding methods and corresponding devices
JP2007502561A (ja) 2003-08-12 2007-02-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ビデオエンコードおよびデコードの方法および対応する装置
US7079986B2 (en) * 2003-12-31 2006-07-18 Sieracki Jeffrey M Greedy adaptive signature discrimination system and method
US8271200B2 (en) * 2003-12-31 2012-09-18 Sieracki Jeffrey M System and method for acoustic signature extraction, detection, discrimination, and localization
US8478539B2 (en) 2003-12-31 2013-07-02 Jeffrey M. Sieracki System and method for neurological activity signature determination, discrimination, and detection
US20070271250A1 (en) * 2005-10-19 2007-11-22 Monro Donald M Basis selection for coding and decoding of data
US8674855B2 (en) * 2006-01-13 2014-03-18 Essex Pa, L.L.C. Identification of text
US7783079B2 (en) * 2006-04-07 2010-08-24 Monro Donald M Motion assisted data enhancement
US7586424B2 (en) * 2006-06-05 2009-09-08 Donald Martin Monro Data coding using an exponent and a residual
US7845571B2 (en) * 2006-06-19 2010-12-07 Monro Donald M Data compression
US7770091B2 (en) * 2006-06-19 2010-08-03 Monro Donald M Data compression for use in communication systems
US7689049B2 (en) * 2006-08-31 2010-03-30 Donald Martin Monro Matching pursuits coding of data
US20080084924A1 (en) * 2006-10-05 2008-04-10 Donald Martin Monro Matching pursuits basis selection design
US7974488B2 (en) * 2006-10-05 2011-07-05 Intellectual Ventures Holding 35 Llc Matching pursuits basis selection
US7707214B2 (en) * 2007-02-21 2010-04-27 Donald Martin Monro Hierarchical update scheme for extremum location with indirect addressing
US7707213B2 (en) * 2007-02-21 2010-04-27 Donald Martin Monro Hierarchical update scheme for extremum location
US7783459B2 (en) * 2007-02-21 2010-08-24 William Marsh Rice University Analog system for computing sparse codes
US20080205505A1 (en) * 2007-02-22 2008-08-28 Donald Martin Monro Video coding with motion vectors determined by decoder
US10194175B2 (en) 2007-02-23 2019-01-29 Xylon Llc Video coding with embedded motion
US7786903B2 (en) 2008-10-06 2010-08-31 Donald Martin Monro Combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
US7864086B2 (en) 2008-10-06 2011-01-04 Donald Martin Monro Mode switched adaptive combinatorial coding/decoding for electrical computers and digital data processing systems
US7786907B2 (en) 2008-10-06 2010-08-31 Donald Martin Monro Combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
US7791513B2 (en) * 2008-10-06 2010-09-07 Donald Martin Monro Adaptive combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems
US20100211322A1 (en) * 2009-02-13 2010-08-19 Massimiliano Vassallo Interpolating a pressure wavefield along an undersampled direction
US8554484B2 (en) * 2009-02-13 2013-10-08 Westerngeco L.L.C. Reconstructing seismic wavefields
US20100211320A1 (en) * 2009-02-13 2010-08-19 Massimiliano Vassallo Reconstructing a seismic wavefield
US8699297B2 (en) * 2009-02-13 2014-04-15 Westerngeco L.L.C. Deghosting and reconstructing a seismic wavefield
KR101719382B1 (ko) * 2009-06-22 2017-03-23 톰슨 라이센싱 이미지 시퀀스에 대한 비디오 데이터의 일치 추적 기반 코딩을 위한 프로세스
EP2446419B1 (en) * 2009-06-23 2021-04-07 InterDigital VC Holdings, Inc. Compression of 3d meshes with repeated patterns
US8805083B1 (en) 2010-03-21 2014-08-12 Jeffrey M. Sieracki System and method for discriminating constituents of image by complex spectral signature extraction
US9886945B1 (en) 2011-07-03 2018-02-06 Reality Analytics, Inc. System and method for taxonomically distinguishing sample data captured from biota sources
US9691395B1 (en) 2011-12-31 2017-06-27 Reality Analytics, Inc. System and method for taxonomically distinguishing unconstrained signal data segments
US9558762B1 (en) 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
GB2576164B (en) * 2018-08-06 2020-07-29 John Edward Aras Richard Multi-axis position sensing system
US11032574B2 (en) * 2018-12-31 2021-06-08 Tencent America LLC Method and apparatus for video coding

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9802235D0 (en) * 1998-02-03 1998-04-01 Nds Ltd Digital signal processing
US20020075857A1 (en) * 1999-12-09 2002-06-20 Leblanc Wilfrid Jitter buffer and lost-frame-recovery interworking
US7177278B2 (en) * 1999-12-09 2007-02-13 Broadcom Corporation Late frame recovery method

Also Published As

Publication number Publication date
CN1349717A (zh) 2002-05-15
US6625213B2 (en) 2003-09-23
US20010028683A1 (en) 2001-10-11
JP2003518883A (ja) 2003-06-10
EP1159830A1 (en) 2001-12-05
CN1183767C (zh) 2005-01-05
WO2001049037A1 (en) 2001-07-05

Similar Documents

Publication Publication Date Title
KR20010105362A (ko) 정합 추적 알고리즘에 기초한 비디오 인코딩 방법
JP3973104B2 (ja) 再構成方法及び装置
US6476805B1 (en) Techniques for spatial displacement estimation and multi-resolution operations on light fields
JP4025847B2 (ja) 符号化装置
JP3693988B2 (ja) 通信管理システム及び通信管理方法
US6600786B1 (en) Method and apparatus for efficient video processing
US20150078435A1 (en) Method and apparatus for coding of spatial data
JP2000511366A6 (ja) 4分割ツリーベースの可変ブロックサイズ動き推定装置および方法
EP2171684A2 (en) Efficient image representation by edges and low-resolution signal
US20040213349A1 (en) Methods and apparatus for efficient encoding of image edges, motion, velocity, and detail
Han et al. A technical overview of av1
Jordan et al. Progressive polygon encoding of shape contours
Pratapa et al. MPTC: Video rendering for virtual screens using compressed textures
Mishra et al. Video Compression Using EZW and FSBM
Ferguson et al. Fractal transform techniques for very low bit rate video coding
Wareham et al. Region-oriented video coding using the MDL principle and quad-tree optimization
EP4373097A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
Jordan et al. Progressive mesh-based coding of arbitrary-shaped video objects
Zhu et al. A review of fractal video coding
Cernea et al. Wavelet-based scalable L-infinite-oriented coding of MPEG-4 MeshGrid surface models
Demos Layered motion compensation for moving image compression
Marquant et al. Mesh-based scalable image coding with rate-distortion optimization
Sodagari Variable block-size disparity estimation in stereo imagery
Subramanian et al. Multiresolution displacement fields for motion compensated video coding
JPH11122609A (ja) 画像圧縮

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
NORF Unpaid initial registration fee