KR100957473B1 - 실시간 소프트웨어 비디오/오디오의 압축, 전송, 데이터복원 및 디스플레이를 위한 방법 - Google Patents

실시간 소프트웨어 비디오/오디오의 압축, 전송, 데이터복원 및 디스플레이를 위한 방법 Download PDF

Info

Publication number
KR100957473B1
KR100957473B1 KR1020047013400A KR20047013400A KR100957473B1 KR 100957473 B1 KR100957473 B1 KR 100957473B1 KR 1020047013400 A KR1020047013400 A KR 1020047013400A KR 20047013400 A KR20047013400 A KR 20047013400A KR 100957473 B1 KR100957473 B1 KR 100957473B1
Authority
KR
South Korea
Prior art keywords
image
frame
wavelet transform
video
coefficients
Prior art date
Application number
KR1020047013400A
Other languages
English (en)
Other versions
KR20040105734A (ko
Inventor
디세가마엔젤
Original Assignee
암오프 어드밴스 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 암오프 어드밴스 엘엘씨 filed Critical 암오프 어드밴스 엘엘씨
Publication of KR20040105734A publication Critical patent/KR20040105734A/ko
Application granted granted Critical
Publication of KR100957473B1 publication Critical patent/KR100957473B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • H04N19/635Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by filter definition or implementation details
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • H04N19/64Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by ordering of coefficients or of bits for transmission
    • H04N19/647Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets characterised by ordering of coefficients or of bits for transmission using significance based coding, e.g. Embedded Zerotrees of Wavelets [EZW] or Set Partitioning in Hierarchical Trees [SPIHT]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

전송 속도 증가와 이미지 품질 향상을 제공하는 영상 신호의 압축, 전송, 해독을 위한 새로운 방법이 개시된다. 본 발명의 방법은 보간법 및 타임 스탬핑법과 아울러 웨이브릿 변환에 기초하여 신호의 원 패스 엔코딩이 가능하다. 이에 따라, 전송될 정보의 비트량이 실질적으로 감소되고, 네트워크를 통한 디지털 신호의 전송 속도를 증가시키게 된다. 보간법을 사용하여 시각 인식에서 덜 중요한 이미지 부분을 다시 생성시키는 신호의 해독에 의해 실시간으로 모든 종류의 네트워크를 통해 고품질을 갖는 조화된 비디오 및 오디오 표시가 제공된다.
영상 신호, 압축, 해독, 웨이브릿 변환, 역 웨이브릿 변환

Description

실시간 소프트웨어 비디오/오디오의 압축, 전송, 데이터 복원 및 디스플레이를 위한 방법{METHOD FOR REAL-TIME SOFTWARE VIDEO/AUDIO COMPRESSION, TRANSMISSION, DECOMPRESSION AND DISPLAY}
관련 출원
본 출원은 2002년 2월 26일에 출원된 미국 가출원 번호 제 60/360,184 호의 우선권을 주장하는바, 이는 본원의 참조로서 인용된다.
본 발명은 정보의 압축, 전송, 복원 및 디스플레이를 위한 방법들 및 소프트웨어 프로그램들에 관한 것으로서, 특히 모든 종류의 통신망을 통한 비디오/ 오디오 정보의 압축, 전송, 복원 및 디스플레이에 관한 것이다.
현재의 기술 수준은 인터넷을 통해 적절한 비용으로 양질의 비디오 데이터를 실시간으로 전송할 수가 없다. 이러한 상황에 대한 근본적인 이유는 다음과 같다. 종래의 방법들은 비디오와 오디오 수신단에서 압축 해제된 신호의 질을 저하시키지 않으면서 경제적인 전송 대역폭의 소비에 요구되는 수준으로 오디오와 비디오 신호들을 압축하지 못하는 알고리즘을 이용한다. 케이블 TV와 비슷하지 않은 품질은 받아들여지지 않는다. 그러한 품질에 대해서는 제한된 시장 수요만이 존재한다.
현존하는 방법들은 바람직하고 경제적인 수준의 압축을 제공하기 위해 필요한 충분한 속도를 제공하지 못한다. 현재 인터넷에서 사용 가능한 비디오는 재생되기 전에 우선 다운로드 되어야만 하는 짧은 시쿼스들로 이루어져 있다. 비디오 신호와 관련된 데이터의 양이 너무 커서, 현재 알고리즘들의 소프트웨어적 실시는 이러한 큰 데이터들을 실시간으로 처리하지 못한다.
종래의 기술들은 빠르고, 높은 양질의 비디오/ 오디오 압축을 시도했었지만, 제한적인 성공들만 이룩했었다.
미국 특허 번호 5,761,341는 이미지의 데이터 복원 과정에서 소정의 이미지의 저주파 및 고주파 계수들을 이용하는 웨이브릿 변환(wavelet transformation)에 기초한 이미지 압축 방법을 설명하고 있다. 상기 특허에는 본 발명의 한가지 기술 혁신인, 저주파 WT(웨이브릿 변환) 계수들만으로부터 직접적으로 이미지를 복원하는 어떠한 방법도 언급되어 있지 않다.
"Image Data Compression with Selective Preservation of Wavelet Coeficients, Atsumi Eiji et. al, Visual Communications and Image Processing '95, Taipei, Taiwan, Proceedings of SPIE, Vol.2501.1995와 같은 논문들은 웨이브릿 변환에 기초하는 이미지 압축에 관한 방법들을 설명하고 있다. 이 문서들의 주요 요점들은, 복원한 이미지에 대해 소정의 압축 수준에 대한 최적의 품질을 달성하기 위해서 어떤 고주파 계수들을 유지할 것인지를 결정하기 위한 두가지 기법에 있다. 고주파 계수들이 주어지지 않았을 때 어떻게 해야하는지에 대해서는 언급된 바가 전혀 없다.
본 명세서에 그 전체가 참조로서 포함되는 "Haar Wavelet Transform with Interband Prediction and its Application to Image Coding, Kukomi N. et al, "Electronics and Communications in japan(Part III - Fundamental Electronic Science, Vol, 78, No. 4, April 1995)"는 이미지 압축에 있어서 웨이브릿 변환에 기초하는 Haar 웨이브릿이라는 또 다른 방법을 개시한다. 저주파 및 고주파 WT 계수들(즉, 두개의 연속적인 픽셀의 2로 나누어진 합 및 차)을 구하기 위해 이용되는 함수 형태가 간단하기 때문에, Haar 웨이브릿이 이용된다. 이러한 간단한 관계식 때문에, 고주파 계수들과 저주파 계수들의 1차 미분 값이 비례 변수 α와 선형적으로 비례한다고 가정된다. 저주파 계수들로부터 고주파 계수들을 예측해 내기 위해, 이러한 선형 함수식을 이용하기 때문에, 실제 고주파 계수값들과 이렇게 예측된 고주파 계수값들 사이의 에러가 구해질 수 있고, 또한 이용된 α의 값은 위에 구해진 평균 제곱 에러(mean squared error)를 최소화하는 값이 된다. 따라서, 저주파 및 고주파 계수들을 엔코딩(기호화) 하는것 대신에, 상기 방법은 비트율을 어느정도 줄여주는, 저주파 계수들 및 예측된 고주파 계수들과 실제의 고주파 계수들 사이의 에러를 엔코딩하는 것으로 구성된다. 이러한 방법은 어떠한 다른 방식의 웨이브릿에서는 동작하지 않으며 따라서 한계가 있다.
본 명세서에 그 전체가 참조로서 포함되는 "Sub-band Prediction using Leakage Information in Image Coding, Vaisey, IEEE Transactions on Communications, Vol 43, No. 2/04, Part 01, Feburuary 1995에서는 저대역 밴드(low-pass band)들로부터 고대역 밴드(high-pass band)들을 예측하고, 예측된 고대역 밴드와 실제 고대역 밴드값의 에러 차이 값을 엔코딩하려 시도하는 이미지 서브밴드 코딩 방법을 설명하며, 여기서 상기 엔코딩은 실제의 고대역 밴드를 부호화하는 것보다 적은 수의 비트들을 필요로 한다. 상기 예측 방법은, 소정의 저주파수 대역에서 각각 픽셀 주위에 있는 3*3의 이웃픽셀들을 검사(examination)한 다음 17개의 그룹들로 분류화함으로써 이루어진다. 상기 분류 결과들은 적당한 고대역 밴드에 의해 달라지는 9개의 고주파 계수 예측인자(predictor)들의 집단(family)을 고르기 위해 이용된다. 이러한 방법은 모든 벡터 양자화 방법들의 기본적인 단점을 지닌다. 이 방법은 충분히 일반적이지 않기 때문에, 현재의 비디오 제품들의 다양한 이미지 특성들을 모두 수용할 수 있는, 양질의 빠른 압축 및 압축 해제를 제공하기 위해 필요한 융통성을 제공하지 못한다.
삭제
본 명세서에 그 전체가 참조로서 포함되는 "Image Restoration using Biorthogonal Wavelet Transform," Bruneau, J.M et al, "Visual Communications and Image Processing'90", Lausanne, Switzerland, Proceedings of the SPIE, Vol. 1360, 1990 논문은 비-데시메이티드(non-decimated) 배직교(biorthogonal) 웨이브릿 변환 방법에 기초하는, 이미지 복원 방법을 설명하고 있다. 이 문서와 본 발명의 설명에서의 단 한가지 공통점은 이용되는 기본적인 웨이브릿 이론 수학이며, 또한 몇몇 부호의 이용에서도 비슷한 점이 발견된다. 이러한 부호들이 비슷하다는 점은 의외의 사항이 아닌데, 웨이브릿에 관해 설명된 대부분의 문서에서 이용되는 부호가 그것의 발명자인 I. Daubechies (예를 들어, 본 명세서에서 참조로써 전체적으로 포함된 "ten Lectures on Wavelets", I. Daubechies, Society for Industrial and Applied Mathematics, Philadelphia, 1992)에 의해 도입된 것들이기 때문이다. 상기 문서에서 소개하고 있는 방법은 단지 이미지들을 선명하게 하는 데에만 이용될 수 있다. 상기 문서에 기재된 방법은 이미 실세계에서 실제상황과는 다른 배직교 웨이브릿의 크기변환(scaling) 함수로 이루어진, 얼룩지게 만드는 연산에 노출된 선명한 이미지들에 대해서만 사용될 수 있다. 이것은 본 발명의 주응용 부분인 압축 또는 확장에 대해서는 사용될 수 없다.
상기 문서에 명시된 방법들의 또 다른 문제점은 이것들의 계산이 복잡하다는 것이다. 이미지 복원(또는 향상(enhancement))을 하는데 있어서 상기 방법을 적용하기 위해서는, 크기가 큰 행렬들이 계산되어야 하고(640*480의 픽셀 이미지를 위해 640*480번 계산해야 한다), 향상된 이미지을 얻기 위해 반복적으로 이미지의 모든 행과 렬들의 픽셀들에 의해 곱해져야한다. 그러나, 그와 같은 행렬은 다수의 불량 행렬들로부터 계산되어야 하며 조직화 기술들이 이용되어야 하기 때문에, 이것은 단지 초기의 어림값일 뿐이다. 최고의 향상된 이미지를 얻어내기 위해, 컨쥬게이트 기울기 알고리즘(conjugate gradient algorithm)과 같은 반복적인 과정이 이용된다. 이러한 이유들 때문에, 이 문서에서 제시된 방법은 명시된 이미지 복원의 목적에 대해서 조차도 실용적이지 못하다.
따라서, 본 발명의 목적은 빠른 압축과 압축 해제를 제공함으로서, 비디오와 오디오 신호들이 시청자에게 빠르게 전송될 수 있도록 하는 것이다.
본 발명의 다른 목적은 웨이브릿 변환을 이용하여 비디오 신호들을 엔코딩 및 디코딩하기 위한 개선된 방법들을 제공하는 것이다.
본 발명의 또 다른 목적은 비디오 이미지의 전송후 복원을 위한 방법들을 제공하는 것이다.
본 발명은, 결과적으로 통신망 대역폭 요구 사항들이 현존하는 DSL 모뎀들의 중간 범위(그리고 결과적으로 이용자에게 수용될 수 있는 비용으로)에 부합하게 하고, 적어도 케이블 TV 시스템의 것과 상응한 풀 스크린 풀 모션의 압축 해제된 비디오/오디오 품질이 되게 하는 방법을 포함한다.
소프트웨어에서 실시될 수 있는 새로운 알고리즘들을 포함하는 본 발명의 양상들은 또한 빠르고 효율적인 것이어서 데이터 압축 및 압축 해제가 실시간으로 행해질 수 있다. 본 발명의 소프트웨어는 현재 매우 보편화된 1GHz프로세서에서 실행될 수 있고, 양질의 압축 해제된 풀 스크린 및 풀 모션 비디오를 실시간으로 생성할 수 있다. 이는 본 발명의 양질의 압축 해제된 비디오를 제공하지 않는, MPEG와 같은 알고리즘을 사용하는 현재의 방법들에 의해 생산되는 것의 1/2 이하의 초당 압축된 데이터의 양을 사용하여 달성될 수 있다.
새로운 알고리즘을 이용한 본 발명의 방법들은 소프트웨어를 실행시키는 데에 있어서 PC의 필요성을 없애기 위하여, 예를 들어 TV 셋탑 박스와 같은 하드웨어에서도 쉽게 실행될 수 있다.
본 발명은 최초의 입력을 매우 높은 품질로 복원하고, 심지어는 그러한 품질을 유지하면서 확대할 수도 있고, MPEG과 같은 현존 기법들의 전송 대역폭의 몇분의 일을 요구하는 수준으로 비디오/오디오를 압축시킬 수 있는 다수의 혁신적인 기법들을 포함한다. 이 프로세싱은 소프트웨어만으로 이루어질 수 있으며, 실시간으로 실행될 수 있고, 케이블 TV와 상응하는 풀 스크린과 풀 모션의 비디오를 생성할 수 있다. 그러나, 단지 인터넷이나 다른 통신망에 연결하기 위한 단순한 DSL모뎀 또는 무선 모뎀을 필요로 한다. 어떠한 다른 비디오/오디오의 압축 또는 압축 해제를 위한 시스템도 이러한 것들을 할 수는 없다.
본 발명의 관점은 고주파 성분들 보다는 저주파 성분들과 광범위하게 관계가 깊은 시각적 지각(visual perception)을 이해하는데에 기초한다. 저주파 성분들은 타원이나 원과 비슷한 기본적인 모양에 관한 정보들을 제공한다. 고주파 성분들은 가장자리나 모퉁이에 대한 정보들을 포함한다.
본 발명의 실시예는 1개 또는 그 이상의 다음과 같은 단계들을 포함하고 있다: (1) 웨이브릿 변환에 의하여 정보를 데시메이트(decimate)하기 위하여 비대칭 필터들을 기본으로하여 엔코딩을 한다; (2) 1단계에서 얻어진 전송된 정보를 디코딩 한다. (3) 디코딩된 신호들의 확대; (4) 오디오와 비디오의 출력 신호들을 정합시키기 위한 동기화/보간법, 및 (5) 원본 이미지와 거의 똑같은 품질 수준의 이미지를 생산하기 위한 개선된 방법.
디지탈 신호들의 빠른 전송을 위해, 엔코딩 과정은 일정한 고주파수 성분들을 제거하고, 그렇게 함으로써 신호를 전송하는 데에 요구되는 총 비트수를 줄일 수 있게 된다. 시스템의 수신단쪽에서는, 필드의 물체의 형태나 위치와 같은 기초적인 정보를 제공하기 위해 저주파 성분들이 디코드된다. 비록 전송하는데 있어서, 어느 정도의 고주파 성분들이 생략되지만, 이렇게 제거되는 구성 요소들은 새로운 디코딩과 보간법들을 이용하여 복원될 것이다. 따라서, 엔코드/디코드/보간된 저주파 성분 및 고주파 성분들을 포함하고 있는 복원된 이미지는 이미지를 보는 사람에게는 일반적으로 원본 이미지와 똑같은 이미지로 인식된다.
또한, 본 발명의 디코딩과 보간법을 이용하여, 비디오 이미지들은, 시각적 또는 청각적인 "공백(gap)" 없이, 모든 종류의 네트워크를 통해 실시간 "끊김없는(seamless)" 시청각 표현을 제공할 수 있다.
엔코딩과 디코딩의 단계들은 웨이브릿 변환을 이용하여 유리하게 이루어질 수 있다. 입력 신호들에 대한 웨이브릿 변환을 이용한 후, 시각적 지각을 위해 필요한 많은 정보를 포함하고 있는 저주파수 신호의 어느 정도는 선택될 수 있고 압축될 수 있다. 웨이브릿 변환에 의해 추출된 어느 정도의 고주파 신호는 압축될 수 있고, 시각적으로 덜 관계있는 고주파 신호는 제거될 수 있게 된다. 이렇게 어느 정도의 고주파 신호들이 제거된 신호의 전송은 0으로 엔코드된 실질적으로 더 적은 수의 비트들을 이용해서 이루어질 수 있기 때문에, 전체적인 변환된 엔코딩된 신호들의 전송률은 종래의 기술로 압축된 데이터들 보다 실질적으로 더 빠르게 수행될 수 있다. 역 웨이브릿 변환을 이용하여 신호들을 디코드한 다음 비디오와 오디오 신호들을 통합하여 상기 과정을 완성한다.
또한, 일부 실시예들에서는, 처리하기 위한 정보의 비트 수들을 줄이기 위해, 완전한 프레임들(entire frames)이 생략될 수 있다.
또한, 전송후, 신호들은 압축이 해제될 수 있고, 누락된 정보(예를 들어 고주파 성분들 및 누락된 프레임들)가 보전될 수 있다. 복원된 비디오 이미지들은 디코드된 오디오 신호들과 통합될 수 있고, 오디오와 비디오 신호들은 완전하게 복원된 비디오/오디오 스트림을 생성하기 위해 적절한 레지스터에서 결합될 수 있다.
상기 설명한 일부 종래 기술과 대조적으로, 이미지 확대를 위한 본 발명의 방법은, 신호의 크기 (1차원 또는 다차원)에 따라 변환되는 어떠한 행렬도 포함하지 않는다. 이는 오로지 2개의 1차원 짧은 필터들 만을 포함하며, 상기 필터들은 신호의 재구성 또는 확장을 위하여, 소정의 모든 데이터 값으로부터 2개의 연속적인 값들을 생성하기 위해 선택적으로 소정의 데이터들과 컨벌브(convolve) 된다. 이러한 필터들은 데이터의 크기에 따라 영향을 받지는 않지만, 신호를 압축하기 위해 이용되는, 또는 부드러움과 날카로움과 같은 고려 사항들에 기초하여 신호들을 확대하기 위해 선택되는 웨이브릿에 대해 영향을 받는다. 연산에 있어서의 간단함이 본 발명의 방법을 매우 실용적이게 한다.
본 발명은 특정 실시예들과 관련하여 설명될 것이다. 본 발명의 다른 목적들, 특징들 그리고 장점들은 도면을 참조하여 설명되는 하기의 상세한 설명으로부터 보다 명확해질 것이다.
도 1A는 본 발명의 실시예의 기능적인 설명에 대한 개략도이다.
도 1B는 도 1A에서 보여진 본 발명의 기능적 설명의 한 부분인 개략도를 보여주고 있다.
도 2는 엔코딩하기 전의 비디오 이미지를 설명하고 있다.
도 3은 도 2에서 보여진, 이미지의 행들의 본 발명의 웨이브릿 변환의 한번의 여과 후 나타나는 비디오 이미지에 대해 설명하고 있다.
도 4는 도 1과 2에서 보여진 비디오 이미지의 한 단계 이미지 웨이브릿 변환의 실행 후에 대해 묘사하고 있다.
도 5는 본 발명의 고주파수 웨이브릿 변환 계수들의 단일 패스 엔코딩의 개략도이다.
도 6은 본 발명의 방법을 이용하여 얻어진 고주파 계수의 파생들(decendants)을 도시한다.
도 7은 웨이브릿 변환의 단계 1 계수들을 위한 본 발명의 향상 과정(enhancement procedure)을 도시한다.
도 8은 웨이브릿 기초를 위한 확장 필터를 얻어내기 위한 Matlab 프로그램을 설명하고 있다.
I. 본 발명의 일반적인 설명
본 발명은, 상기 명시된 목표들을 달성하기 위하여, 데시메이트(decimate)되는 웨이브릿 변환(WT)이 유익하게 이용될 수 있다는 것을 개시한다. 이러한 데시메이션(decimation)은 인코딩될 원래값들 개수의 반정도 되는 저주파 계수들 및 같은 수의 고주파 계수들을 이끌어낸다. 종래의 기술과 같이, 데시메이션이 없으면, WT는 원래 값들 개수의 두배가 되는 고주파 계수들 및 저주파 계수들을 산출한다. 그러나, 본 발명에 따르면, 데시메이트되는 WT는 고주파 계수들 중 몇몇, 또는 전부를 버리면서, 압축 하는데 이용될 수 있다. 본 발명의 다른 교시로서, 데시메이트되는 WT는 확장을 위한 기초가 또한 될 수 있다. 그 이유는, 소정의 신호가 데시메이트된 WT 신호의 두배 길이의 저주파 계수들의 세트로서 여겨질 수 있기 때문이다. 이미지들의 경우, 확장 인수는 2 대신 4이다.
기능도들은 도 1에서 보이는 비디오 스트림의 압축, 전송 및 압축 해제와 과련된다.
예를 들어, 비디오와 오디오 입력들(102)은 PC 또는 워크스테이션 또는 다른 호환 시스템의 입력 하드웨어 부분인 비디오와 오디오 보드(104)에 의해 개별적으로 포획될 수 있다. 비디오 포획 보드는 색 프레임들의 포멧을 RGB(빨강, 녹색, 파랑)에서 YUV (밝기 또는 농도 및 크로미넨스)로 변환한다.
오디오 입력(106)은 오디오 버퍼(108)에 버퍼링되는 약 4KB 또는 더 작은 패켓의 형태로 분할되고, 타임 스탬프되며, 그러한 패킷들을 손실없이(즉, 완벽하게 복원되도록) 압축하는 산술 엔코더 모듈(110)에 의해 개별적으로 처리된다.
YUV의 각각 성분들은 사이즈가 축소될 수 있다(112). 예를 들어 Y 성분들은 640*480 부터 320*240 까지, U와 V의 성분들은 320*480 부터 160*240 까지 축소될 수 있다. 새로운 YUV 성분들은 동일한 시간 지정 정보를 수신한다. 크기 축소는 수평과 수직의 데시메이션에 의해 수행될 수 있다. 크기 축소의 목적은 압축과 압축 속도를 위해 적은량의 데이터를 갖고자 함에 있다. 그러나, 같은 품질의 원본 크기로 복구하는 능력없이, 그와 같은 크기 축소는 실패하게 된다. 이것은 이 발명의 특정 양상에서 보여질 것이며, 이미지 확장을 위한 알고리즘은, 고품질로, 그리고 종래의 이미지 확대 기법들의 단점 중 하나인 픽셀화없이, 여러번 이미지 확장을 할 수 있다.
이후, 다음 단계는 참고 문헌 "Speical Issue on Wavelets, Proceedings of the IEEE," April 1996에 상술된 방법에 따라 각각의 YUV 구성 요소들의 웨이브릿 변환(WT)(114)을 계산하는 것이다. 이 웨이브릿 변환(WT)은 퓨리에 변환 보다 훨씬 탄탄하게 신호 표현이 된 것으로 간주되기 때문에, 보다 높은 압축률을 제공한다. 이 과정은 도 5에서 좀 더 상세하게 설명되어 있다.
도 2, 3 및 4는 WT의 개념에 대해 설명한다. 도 2와 같은 이미지의 WT는 그것을, 저대역 필터 및 고대역 필터로 필터링함으로써 얻어지며, 상기 저대역 필터 및 고대역 필터는 함께 기초 웨이브릿의 주파수 및 공간에서 크기조절된 버젼의 선형 결합(linear combination)으로서 이미지(함수)를 표현하기 위해 이용되는 기초 함수(웨이브릿)를 나타낸다. 필터링을 하는 연산은 수학적으로 이미지 YUV 성분들의 픽셀들과 필터 계수들과의 컨벌루션으로서 행해질 수 있다.
도 2의 행들에, 행을 따라 한번에 두 픽셀을 나아가게(advancing)함으로써 얻어지는 데시메이션과 함께 저대역 필터를 적용함으로써, 도 3의 왼쪽 반이 얻어진다. 도 3의 오른쪽 반은 고대역 필터와 비슷하게 얻어질 수 있다. 도 3의 오른쪽 부분에서 이미지의 가장자리인 고주파수 신호는 하얀색으로 표현되고 검은 부분은 이미지의 낮은 값의 성분들을 의미하고 이러한 낮은 값은 무시될 수 있다.
도 4는 도 3의 열들을 상기 서술한 방법으로 반복함으로써 얻어진다. 도 4는 도 2의 WT를 한번 여과시킨 이미지들을 보여준다. 도 4의 왼쪽 위의 그림은 낮은 해상도의 원본 복사본으로, 저주파 성분들을 포함하고 있다. 도 4의 왼쪽 밑의 사진과 오른쪽 위와 아래의 사진은 원본 이미지의 고주파 성분를 의미한다. 따라서, 도 4는 WT 과정을 통하여 이미지를 한번 완전히 통과시킨 것을 나타낸다.
도 4의 왼쪽 위의 부분 처럼 이미지 크기의 4분의 1크기로 전체의 과정을 반복하면, 도 2에 있는 두번째 단계의 WT가 얻어질 수 있다. 과정의 반복된 적용은 추가적인 변환레벨들을 제공한다. 예를 들어, 비디오에 적용하기 위해, 320*240(Y) 또는 160*240(UV) 프레임으로부터 시작하여 4 단계의 변형이 이용될 수 있고 이러한 결과는 20*15(Y) 또는 10*15(UV)의 저대역 버젼의 프레임 구성 요소를 초래한다. WT의 나머지 부분은 프레임 구성 요소의 모서리의 정보를 포함한다. 이러한 정보는 본 예에서 볼수 있는 바와 같이, 이미지 복원에 있어서 눈에 띌만큼 큰 영향을 미치지 않는 매우 작은 값 (검은 부분)으로 대부분 이루어져 있다. 따라서, 원본 이미지의 모든 픽셀 값들을 엔코드 하는 대신에, 변환된 이미지는 중요하고 꼭 엔코드 되어야만하는 계수율을 포함하고 있음과 시각적 지각에 별로 중요하지 않는 계수들을 생략하고 있음을 분명히 해야한다. 웨이브릿 기초의 선택은 압축과 압축 해제하는데 있어서 이미지의 품질에 영향을 미친다는 것을 유념해야 한다. 도 4에서 묘사한, 임의의 바람직한 반복적인 횟수의 압축 준비 계획을 이용하는 것이 바람직하다. 포획, 압축, 엔코딩, 전송, 디코딩, 확장, 향상, 보간 그리고 복원등의 모든 과정들 후에, 재구성한 이미지를 생성하는데 걸리는 시간과 그리고 재구성한 이미지의 품질에 있어서는 한계가 있다. 압축 단계들을 반복함으로 인해, 보다 많은 고주파수의 정보들이 변환된 이미지로부터 점진적으로 제거될 수 있다.
MPEG와 같은 종래의 예술 비디오 압축 방법들은 일반적으로 비교적 낮은 품질의 비디오를 얻기 위해 각 프레임당 15 Kbytes가 필요하다. MEPG 기술을 이용하 는데 있어, 대체로 고화질의 이미지를 생산하기 위해 보다 많은 kbytes를 필요로 한다. MPEG 표준기준으로 생각되는 40:1의 압축 정도는 디지털 네드워크를 통한 실시간 고품질의 화면 전송을 위해 충분한 품질을 제공하지 못한다.
본 발명의 방법들을 이용함으로써, 이미지는 단지 프레임당 3-5kbytes만을 필요로 하면서 압축할 수 있다. 따라서, 본 발명의 방법을 이용하여, 이용자는 완벽한 사이즈의 텔레비전이나 컴퓨터 화면을 위한 50:1의 비율에서 120:1의 비율까지의 범위 내에서 압축시킬 수 있다. 더 작은 화면 크기 (예를 들어, 휴대용 장비)는 예를 들어 텔레비전 또는 컴퓨터 모니터의 4분의 1 크기인 화면을 가지고 약 480:1까지의 높은 압축 비율로 동작할 수 있다는 점은 높이 평가된다. 더 작은 사이즈의 화면들에 조차도, 그 압축의 양은 증가될 수 있다. 따라서 만약 가득 찬 화면의 1/8 크기가 이용된다면, 전체 압축비율은 960:1일 것이다. 그리고 예를 들어 전체 화면의 16분의 1 크기 밖에 안 되는 매우 작은 화면들은 1960의 압축비율이 이용될 수 있다. 고 비율의 압축과 함께 시간당 더 많은 정보들이 전송 되는 점은 높이 평가된다.
프레임의 Y 성분의 WT의 고주파 계수들이 획득된 후에는, 이 계수들은 이전 프레임(앵커 프레임(anchor frame))의 고주파 계수들과 비교될 수 있다(116). 위의 비교에서 눈에 띄는 차이값의 개수가 정해진 임계치 이상이면(118), 새로운 프레임은 현재의 앵커 프레임이 되고(120), 엔코드된다(122). 그렇지 않으면, 연속적으로 버려지는 프레임들의 수가 임의로 정해진 최대 개수를 넘지 않는다는 조건에 한해서, 그 프레임은 제거될 수 있다. 그러한 개수 및 상기 차이값의 임계치는 압축 정도를 증가 또는 감소시키기 위하여, 연속적으로 감시되는 네트워크 혼잡(network congestion)과 이용자 네트워크 접속 대역폭에 따라, 동적으로 조정될 수 있다. 도 1B는 보다 자세한 진행 과정을 도시한다.
추가적으로, 프레임들을 제거히는 것이 전송되는 전체 비트들의 수를 감소시키기 위하여 사용될 수 있다. 예를 들어, 인간의 지각은 충분히 빠르게 뵤여져서 움직임들의 외양을 만드는 일련의 정지 이미지들인 "플리커 퓨전(flicker fusion)"으로 알려진 특성을 가지고 있다. 인간 시각 시스템에 있어서, 이 플리커 퓨전은 일반적으로 초당 약 16 프레임 내지 약 20 프레임의 주파수로 발생한다. 높은 품질의 움직임은 연속적인 움직임으로 쉽게 해석되는 약 30 프레임/초의 속도에서 이루어질 수 있다. 이에 따라, 비디오 이미지들이 초당 30 프레임의 비율로 포획되고, 매 초 마다 프레임이 제거된다면, 효과적인 속도는 초당 15프레임이며, 이것은 많은 사람들에게 연속적인 움직임으로 나타난다. 그러나, 본 발명의 방법을 이용함으로써 보다 많은 프레임들(예를 들어, 매 3프레임 중 2, 아니면 매 4프레임 중 3, 아니면 매 6프레임 중 5)이 제거될 수 있다. 전체 프레임을 빼버림으로써, 전송되기 위해 필요한 비트의 총개수가 전송된 프레임을 낮춰진 프레임들 대 제거된 프레임들의 비율과 같게 감소될 수 있다. 따라서, 비디오 압축 방법이 120:1의 비율로 비디오 데이터을 압축하고, 매 6개의 프레임중 5개가 제거된다면, 전체적인 효과적 압축 비율은 120*6:1 또는 720:1의 비율이 된다. 1960:1의 압축 비율이 이용되고, 매 6 프레임중 5 프레임이 제거된다면, 효과적인 압축 비율은 1960*6:1=11,760이 된다. 이러한 새로운 압축 수준이 전체 모든 네트워크를 통해서 빠른 속도의 비디오 신호들을 전송할 수 있도록 한다는 점이 쉽게 이해될 수 있다. 프레임을 제거하는 것은 공간 프레임 사이즈를 줄이는 것과 일시적인 등가로 비교될 수 있다. 공간 데이터의 감소의 경우, 일시적인 데이터의 감소는 비디오 압축 레벨에 도움을 준다. 그러나, 수신단측에서 지각된 비디오 품질이 저하된다면, 이는 수용되지 않는다. 수신단측에서의 압축 해제된 앵커 프레임들 사이에서 높은 품질과 속도로 보간하는 능력은 본 발명의 또 다른 새로운 양상이다. 종래의 보간 방법들은 실시간 소프트웨어의 실시에 있어서 너무 복잡한 알고리즘을 이용한다.
다음 압축 단계는 WT 계수들의 엔코딩 단계를 포함하고 있다(122, 123). WT 계수를 압축하는 데에 효율적인 엔코딩 기술은 EZW 기법인데, 이 기법은 본 명세서에 전체가 참조로서 포함된 "Embedded Image Coding Using Zero trees of Wavelet Coefficients", J.M Shapiro, IEEE Transactions on Signal Processing, Vol. 41, No. 12, December 1993에 개시되어 있다. 이 단계에서, 압축 해제된 이미지의 품질에 있어서 가장 바람직한 WT 계수들을 선택할 수 있고, 시각적 지각에 있어 계수들의 상대적 중요도에 따라 더 많은 또는 더 적은 비트들을 계수들에 할당할 수 있다. 그러나, 이러한 종래 기술은 각각의 YUV 성분의 매번 WT 통과를 필요로 하게 되고, 이 때문에 시간이 너무 오래 걸리게 되어 고품질의 비디오 전송과 실시간 전송을 할 수 없게 된다.
본 발명은 새로운 WT 엔코딩 방법을 개발했다. 이 새로운 WT 엔코딩 방법은 대략적으로 EZW 기술과 같은 효과를 얻을 수 있지만, 엔코딩이 단일 패스(single pass)로만 이루어지기 때문에 훨씬 빠른 방법이 된다.
데이터 압축의 이후 단계는 손실없는 산술 엔코딩(110) 단계를 포함한다. 이 산술 엔코딩(110)은 본 명에서에서 참조로서 포함된 "Arithmetic Coding for Data Compression", I.H. Witten, R. Neal, J.G.Cleary, Communications of the ACM, Vol. 30, June 1987에 개시되어 있다. 이 프로세스는 엔코딩 단계에서 정보의 추가적인 손실없이 원본의 이미지의 데이터를 보다 많이 줄일 수 있다.
그런 다음, 압축된 데이터는 저장되거나 전송될 수 있다(124).
압축 해제 하는 부분에 있어서(126), 압축된 비디오 및 오디오 스트림들은 모두 일반적으로 산술적으로 디코딩된다(128), 이후, 비디오 신호는 압축할때 이용되는 혁신적인 엔코딩 프로세스를 거꾸로 진행함으로써 디코딩된다(130). 출력은 각 프레임 YUC 성분들의 WT이다.
다음 단계는 WT의 혁신적인 향상 절차 및 이에 후속되는 표준의 인버스 웨이브릿 변환(124)을 포함하며, 그 결과 원본 프레임의 YUV 성분이 복원되게 된다.
이후, 복원된 오디오 패킷들의 시간 지정 정보와 YUV 성분들의 프레임 시간 지정 정보들을 서로 비교함으로써 이들 출력값들을 비디오와 오디오 카드로 동기적으로 보내는 또 다른 혁신적인 단계(136)가 수행될 수 있다. 이전의 비디오 처리 단계들의 속도 때문에, 비디오 스트림이 오디오(138) 보다 앞서 도착하는 것은 통상적인 것이 아니다. 이 경우, 추가적인 비디오 프레임의 YUV 성분을 생성하기 위해, 혁신적인 빠른 적응적 보간 기법이 이용된다. 여기서 추가적인 비디오 프레임은 비디오 신호들로 스트림을 "채우고"와 그 비디오 스트림을 효과적으로 "보여주어" 그 결과 완벽하게동기화된 부드러운 비디오 출력이 되게 한다.
다음 단계는 확대(확장)(140)이다. 이러한 확장은, 프레임당 많은 데이터 (4:4:2 형태에서 Y크기의 두배)를 제공하며, 이 데이터는 빠르면서 고품질로 생성되어야만 한다. 본 발명은 그것을 달성하는, 혁신적인 프레임 확장 방법(140)을 포함한다.
이 시점에서, Y 성분들은 320*240의 크기로 되어 있고, UV 성분들은 160*240의 크기로 되어 있으며, 원본 이미지의 크기를 복원하고 TV 세트상에 전체 화면으로 비디오를 표시하기 위해, Y 성분은 640*480, UV 성분은 320*480의 크기로 각각 확대될 수 있다.
높은 해상도의 PC 모니터에서 비디오를 표시해야 한다면, 확대는 1280*960 (Y) 및 640*960 (UV)의 크기로 되어야 한다. 본 발명의 범위 내에서, 비디오 신호를 다른 크기와 형식으로 압축하고 압축 해제할 수 있다는 것이 이해될 수 있을 것이다.
시스템의 압축 해제단에서 비디오와 오디오 카드들(142)에 의해 생성되는 최종 결과는 실시간 풀 스크린, 풀 모션, 고품질의 동기화된 비디오/오디오이다(144).
주목할 사항으로서, 본 발명의 방법들을 이용하는 데에 있어서, 모든 비디오 프레임들은 같은 처리 과정을 겪게 되고, 개별적으로 처리된다. 이는 앵커 프레임과 차이 프레임들(difference frames)을 구별하는 MPEG와 같은 종래의 압축 기술과는 대조적이다. 여기서 종래 압축 기술인 MPEG가 앵커 프레임과 차이 프레임들을 구별하는 이유는 그들에게 실제적인 악영향을 주지 않으면서 압축 효율을 높이기 위해서인데, 비록 이 방법은 프레임들에게 영향을 미치지는 않지만, 어떠한 앵커 프레임이 손실되거나 손상된다면 완전히 실패하게 되는 상황이 될 수 있다. 따라서, 본 발명의 방법은 종래의 디지탈 비디오 전송이 갖는 많은 문제점들을 개선할 수 있다.
본 발명의 방법들은, 본 명세서에 참조로서 포함된 "A Scalable and Reliable paradigm for Media on Demand", G.B.Horn, P.Kundsgaard, S.B.Lassen, M.Luby, J.F.Rasmussen, IEEE Computer, September 2001 에 개시된, 디지털 파운틴 코포레이션(Digital Fountain Corporation)의 파일 메타콘텐트와 같은 에러 검출 기법 및 에러 정정 기법과 함께 이용될 수 있다. 그러한 에러 검출 및 정정 기법들은 총비용(overhead)을 감소시키면서 (어떤 경우에는 단지 5%) 전송의 안전성을 증가 (어떤 경우에는 100%)시킨다.
이러한 방법들은, 예를 들어 펜티엄 3 또는 4에서 사용가능한 SIMD 및 MMX와 같은 기술들에 의해 제공되는 병렬 처리를 통해 실시간 성능을 달성하기 위하여, 최신의 발전된 프로세서 아키텍쳐 및 대응 소프트웨어 툴을 이용할 수 있다.
II 처리 단계들의 상세한 설명
그러한 혁신적인 증명된 결과들을 제공할 수 있는 본 발명의 방법론에 대한상기 일반적인 설명들을 바탕으로, 이 섹션에서는 그러한 성능을 가져오는 혁신적인 단계들이 상세하게 논의된다.
통신망 전송에 있어서 일반적인 첫번째 단계는 상기 설명된 바와 같이 오디오와 비디오 신호들을 검색하여 포획하는 것이다. 그런 후, 이미지로부터 적절량의 픽셀들이 제거되는 비디오 사이즈 감소 단계가 수행될 수 있다. 예를 들어, 모든 두번째 픽셀들이 매 행과 매 열로 제거 된다면, 단지 원본 이미지의 4분의 1 정도의 픽셀 개수 만이 엔코딩된다. 따라서, 전송량이 감소될 수 있다. 복원의 측면에서, 제거된 픽셀들은 고품질 확장 기술에 의해 다시 생성될 수 있다.
A. 웨이브릿 기초(Wavelet Basis)의 선택
본 방법에 의해 추천되어 사용된 웨이브릿 필터들은, 본원의 참고문헌에 소개된 "Sub-band Coding of Images Using Asymmetrical Filter Banks(O. Egger, W. Li, IEEE Transactions on Image Processing, Vol 4, No. 4, April 1995)"에 개시된 타입의 비대칭 필터들을 포함한다. 이미지 처리에 WT를 적용하는 것과 관련하여, 상기 기술 문헌은, 서로 다른 두 가장 자리 모두의 이미지를 정확하게 표현하기 위해서는 대칭필터가 최적임을 단언하고 있다.
본 발명의 방법을 개발하게 된 연구는 상기 대칭필터에 관한 설명이 전부가 아님을 보여주었다. 오히려, 향상된 압축 및 재현 품질은 저대역 분석에 대해 길이 9, 고대역 분석에 대해 길이 3 인 비대칭 필터들에 의해 얻어졌다. 그러나, 다른 길이의 비대칭 필터들도 이용될 수 있으며 종래 기술의 방법들과 비교해 봤을때 향상된 품질과 전송 속도를 제공할 수 있다는 점이 이해될 수 있을 것이다.
그러나, 향상된 성능은 그러한 필터들의 표준화(nomalization) 후에 달성되었다. 비대칭 필터들을 표준화하는 이러한 혁신적인 단계 없이는, 비대칭 필터들의 성능은 대칭 필터들의 성능 보다 현저하게 훌륭하지는 않다. 그러나, 표준화 작업이 현저한 차이를 만든다.
필터들의 계수를 제곱으로 만드는데, 이 제곱으로 만들어진 숫자들을 더하면 1에 도달하게 되며, 이런 방법으로 필터들이 표준화될 수 있다. 결과적으로, 본 발명의 방법들을 이용하여, 필터들은 본 명세서에 참조로서 포함된 문서 "Sub-band Coding of Images Using Asymmetrical Filter Banks(O. Egger, W. Li, IEEE Transactions on Image Processing, Vol 4, No. 4, April 1995)"에 개시된 필터들계수들과는 매우 다른 계수들을 가질 수 있다.
그리고 나서, 선택된 웨이브릿 필터의 계수들은 참고문헌에 소개된 문서 "Ten Lectures on Wavelet(I.Daubechies, Society for Industrial and Applied Mathematics, Philadelphia, 1992)"에 개시된 바와 같은 일반적인 형식으로 적용될 수 있다. 그러한 적용은 그것들을 소정의 프레임과 반복적으로 4 단계의 변환식(transformation)까지 컨벌루션(convolution)시키는 것을 포함한다.
B. 앵커 프레임과의 차이.
소정의 프레임의 WT의 처음 단계의 고주파(HF) 계수는 다음과 같은 논리에 따라 이전의 프레임의 것들과 비교될 수 있다. 도 1B는 이러한 과정을 보여주는 흐름도이다.
1. 카운트를 0으로 설정한다.
2. 모든 HF의 계수들에 대해 다음과 같은 절차를 실행한다.
3. D = 앵커 프레임과 같은 위치에 있는 대응하는 계수와의 차이값.
4. D>임계값 이면, 카운트 = 카운트 + 1.
5. 2의 단계로 돌아간다.
6. 카운트 > N (나중에 쉽게 보간될 수 있는 프레임들을 제거하기 위해 허용할 수 있는 최대 변경 횟수)이면, WT의 계산과 그의 엔코딩을 진행한다. 이 프레임을 새로운 앵커 프레임으로 지정한다.
7. 6의 경우가 아니라면 프레임을 제거하고 새로운 프레임의 진행을 시작한다.
C. WT 계수들의 엔코딩
본원의 참고문헌에 소개된 문서 "Embedded Image Coding Using Zero trees of Wavelet Coefficients", J.M.Shapiro, IEEE Transactions on Signal Processing, Vol 41, No.12, December 1993에 개시된 바와 같이 종래의 효율적인 WT 계수 엔코딩/디코딩은 소정의 프레임의 WT 계수들의 세트를 여러번 이용하는 것을 필요로 한다. 많은 수의 계수(4:2:2 형태에서 픽셀 개수의 두배)로 인하여, 이러한 방식은 실시간 성능을 위한 이상적인 것이 아니다. 그 이유는 단순히 계수 값들 때문만이 아닌 중요 계수들의 위치들 또한 엔코드 되어야하기 때문이다.
WT 계수들의 빠른 엔코딩/디코딩을 달성하기 위해, 본 발명의 방법은 1개 또는 그 이상의 새로운 단계들을 이용하여 WT 계수들을 단일 패스로 엔코드/디코드한다. 첫 번째로, 어떤 특정 실시예에서, 모든 저주파 계수들은 그들의 정확한 값들(exact values)을 사용하여 엔코딩 될 수 있으며(예를 들어 8 비트/계수), 더 또는 덜 압축될 수 있도록 조정될 수 있는 고주파수들의 유의 임계값들은, 변환의 이용 횟수 정도(level)에 따라서 변할 수 있다.
본 발명의 일 실시예에서, 유의 임계값들은 수신기에 의해 조절될 수 있다. 전송 장치는 수신기에게 문의(query)할 수 있고 수신기의 가능한 대역폭과 관련된 정보를 얻을 수 있다. 또한, 통신망 구성과 데이터 패킷의 "홉(hops)" 갯수가 실시간으로 분석될 수 있는데, 이는 통신망과 수신자의 총 능력 가능치를 제공하기 위해서이다. 이와 같은 정보에 기초하여, 엔코더는 유의 임계값을 특별한, 심지어는 변하기 까지 하는 대역폭에 맞춰 생성한다. 또한, 상기 문의 및 그 문의에 대한 응답이 매우 신속하게 일어날 수 있기 때문에, 엔코더가 다르게 엔코드된 신호들을 다른 이용자들에게 제공할 수 있게 된다. 일 실시예에서, 임계값은 최적화될 수 있는데, 방법은 계수값들을 제거하기 위해, 변형적이고 상대적으로 낮은 임계값으로부터 시작함으로써 이루어진다. 그런 다음, 반복되는 과정이 실행되는데, 이러한 실행은 유의 임계값이 바람직한 통신망 전송 속도를 얻을 때까지, 예를 들어 2배, 3배, 4배, 5배 또는 그 보다 더 높은 배수로 증가될 수 있는 범위 내에서 이루어진다. 복원된 신호의 품질이 어플리케이션에 의해 정해진 바람직한 범위 내에서 있는한, 임계값을 원하는 만큼 증가시킬 수 있다.
변환식의 대입 횟수가 적으면 적을 수록 유의 임계값 또한 그만큼 낮아지고, 반대의 경우도 마찬가지이다. 이는 시각 지각의 관점으로부터 저주파 성분들의 정확성이 WT의 높은 레벨에 대응되는 고주파 성분들의 정확성 보다 더 중요하다는 사실에 근거한다. 이는 비율적으로 높은 주파수의 계수들보다 보다 낮은 주파수의 계수들이 엔코드되기 위해 더 남아있다는 것을 의미한다. 또한, 압축률을 증가시키기 위해, 고주파 계수들이 엔코드되는 순서가 중요하다. 표준적인 접근 방식인, 한 행씩 계수를 엔코딩하는 것은 이상적이지 못하다. 이유는 산술적 엔코더 능력의 장점을 최대한으로 살리는 것이 아니기 때문이다. 반대로, 본 발명은 감소하는 순서로 고주파 WT 계수들을 처리한다. 각각 고주파 WT 계수들의 레벨들 사이에는 상호 관계가 존재한다. 소정의 레벨에서의 계수가 중요하지 않은 것(insignificant)이라면, 그 보다 높은 레벨에서의 그것의 모든 파생들 또한 중요하지 않은 것일 확률이 높다. 따라서, 레벨 4에서 고주파수의 계수가 중요하지 않은 것인 경우(즉, 레벨 4에 대해 유의 임계값 미만임)에는, 레벨 3에서의 4, 레벨 2에서의 16, 레벨 1에서의 64 파생들은 아마도 그에 대응하는 유의 임계값 보다 작은 값을 갖게 될 것이다. 각각의 중요하지 않은 계수가 단지 1개의 0 비트를 이용하여 엔코드되기 때문에, 손실없는 산술 엔코더가 매우 효율적으로 압축할 수 있는 85개의 0비트의 긴 시퀀스가 발생된다. 이와 같이 긴 0 비트들의 시퀀스들은, 계수들이 한 행씩 처리되지 않는 경우에는 찾아 볼 수 없다.
감소의 순서로 정렬된 WT 계수의 단일 패스 엔코딩 과정은 도 5에서 보여진다. 도 5는 도 1A의 요소(122)에 대한 확장된 흐름도 이다. 4개의 계수 값들의 범위들은 최대값에서부터 유의 임계값까지 설정되어 표시된다. 따라서, 각 계수의 범위를 특정하기 위하여 2개의 비트가 요구되며, 부호를 위해 1 비트가 더 요구된다. 이러한 절대값들은 상기 프로세스에 의해 엔코딩되고, 입력 파라미터로서 조정될 수 있는 각각의 범위에 할당된 개수의 비트들을 이용하여, 보다 많거나 적은 압축율을 실행할 수 있다.
상기 설명된 엔코딩 과정은 다음과 같은 의사 코드(pseudo-code)로서 설명될 수 있다.
1. 소정 프레임의 WT 변환식 레벨들 각각의 HF 계수들의 최대 절대값들을 결정한다(504).
2. 각 레벨의 HF 계수들에 대해 유의 임계값(significant thresholds)(최소 절대값)을 입력한다(506).
3. 최대값과 최소값 사이에서 계수값들의 4개의 범위들을 결정한다(508).
4. 각각의 범위에 할당하기 위한 비트들의 개수를 입력한다.
5. 감소 순서(descendant order)로 취해진 소정의 프레임들의 각각의 HF 계수에 대해, 그 범위 및 부호(sign)을 특정하고, 초기값 n(= 할당된 비트들의 개수)를 0으로한다(511).
6. V = 상기 범위의 중간값을 결정한다(512).
7. 계수의 절대값 C가 V보다 작거나 같으면, C를 0으로 바꾼다. n = n+1으로 한다.
8. 7과 같은 조건이 아니면, C를 1로 지정하고, n = n+1로 한다.
9. n = N = C의 범위에 할당된 비트의 개수이면, 상기 5의 단계로 돌아간다.
10. 9의 조건이 아닌 경우에는, C의 범위를 좁게 한다. 방금 지정된 비트가 0이면, 새로운 범위의 최대값은 전 범위의 중간 값이 된다. 그리고, 최소값은 전 범위의 최소값과 동일하게 남는다. 그렇지 않은 경우, 새로운 최소값은 전 범위의 중간값이 되어버리고, 최대값은 전 범위의 최대값과 동일하게 유지된다.
11. 6의 단계로 돌아간다.
도 1B는 상기 설명을 개략적인 의사 코드로 도시한다.
도 6은 개략적으로 본 발명의 방법들에 따른 HF 계수의 파생들에 대해 설명한다.
D. 디코딩
디코딩은 역방향으로 진행되는 프로세스를 따르며, 그 결과 모든 중요 WT 계수값들을 복원한다.
복원의 순서는 도 6에 도시하였다. 각각의 레벨 4의 HF WT 계수와 그것의 84개의 파생물들은 다음과 같은 의사 코드에 따라 차례로(in sequence) 복원된다.
1. 중요 비트(significance bit)가 0이면, 다음 계수의 중요성(significance)을 확인하기 위해 다음 비트를 입수한다.
2. 중요 비트가 0이 아니면, 부호에 대한 다음 비트를 입수하고 절대값의 범위에 대한 2개의 비트들을 또한 입수한다.
3. 초기 측정값 = 범위의 중간값
4. 각각 부가적인 비트와 함께 범위를 줄이면서 n(=범위 값들에 할당된 비트들의 개수)의 값만큼 반복한다. 1 비트는 새로운 범위가 현재 범위의 상위 절반(upper half)이 되게 한다. 2 비트는 새로운 범위가 현재 범위의 하위 절반(lower half)이 되게 한다.
5. 레벨 4의 WT 계수의 파생 체인(descendant chain)에서 고려되는 위치들에 대한 결과값에 부호를 지정해준다.
6. 레벨 4의 모든 HF WT 계수에 대해 반복한다.
7. 레벨 4의 LF 계수가 정확하게 재현되기 때문에 (8 비트), 이는 단일 프레임의 4 레벨 WT 복원을 완료할 것이다.
E. 웨이브릿 변환식의 향상
압축 복원의 관점에서 WT 계수들의 디코딩 후, 표준 역 웨이브릿 변환(IWT) 알고리즘은 압축하는데 쓰여진 분석 필터들에 대응하는 합성 필터들을 이용하여 원본 프레임 YUV 구성 요소들, 예를 들어 1개의 320*240 Y 성분과 2개의 160*240 U와 V 성분들을 복원할 수 있다. 압축 때문에, 몇몇 정보들은 손실되고, 복원된 프레임들은 비록 지각하는데 있어서 매우 비슷하게 보일지라도, 실제로는 원본들과 완벽하게 똑같지는 않을 것이다. 복원된 프레임의 지각된 품질을 향상시키기 위해, 본 발명은 IWT 의 적용 전에 WT의 수학식을 바탕으로 한 혁신적인 향상 단계를 포함하고 있다. 이것은 도 7에 도시되어 있다. 도 7은 도 1의 블록(132)의 흐름도를 보다 상세하게 도시한다.
선명한 가장자리들은 이미지의 외관을 더 향상시킨다. WT는 이미지에서 지각적으로(perceptually) 중요한 가장자리들을 구별한다. 그 이유는, 이러한 가장자리의 위치에 대응하는 계수들이 일반적으로 높은 값들을 갖기 때문이다.
도 7은 이미지의 WT의 단계 1을 도시한다. A는 저주파 계수들을 의미하며, B는 저주파수측의 고주파 계수들을 의미하고, C는 고주파수측을 의미한다. 또한, C는 저주파수측의 A와 B와 같이 저주파 고주파 4분면을 가질 수 있다. 그러나, 이것은 WT 분해를 위해서는 필요하지 않으며, 실제로 C를 더 분해하지 않는 것이 더 빠르다.
아래의 F 부분에서 설명되는 확장 기법을 이용하여, A는 수직으로 확장될 수 있고, 원본 이미지의 단계 1의 WT의 저주파측의 추정값인, D로 변환된다. D의 수직적 (열들에 의한) WT는 E와 F를 제공한다. E는 A에 근접할 수 있으나, B에 있는 모든 0의 값들은 F에서는 0이 아닌 값(그러나 작은 값)들로 변경되고, B에 있는 0이 아닌 값들은 F에서 비슷한 대응값들을 가지게 되었다. 다시 말해, F는 최종적으로 복원된 이미지에 있어서 대응하는 포지티브 효과로, F위치들에 있는 원본 이미지의 WT의 원본 값들에 대한 보다 나은 복원이다.
이 시점에서, 최종 이미지의 품질을 개선하기 위해 F의 로컬 최대값(local maxmia)들이 향상(증가 또는 스케일됨)될 수 있다. 재구성 속도와 재구성 품질사이에 관련된 트레이드오프(tradeoff)가 존재하므로, CPU 연산 처리 능력이 충분하지 못하다면, 이와 추가적인 향상 단계는 생략될 수 있다.
수직적 향상의 최종 단계는 E에 대한 계수들에 대해 원본의 A 계수들을 다시 되돌려 놓는 것과, 대응되는 F의 위치에서 0이 아닌 B의 계수들을 다시 재위치 시켜 결과적으로, 고주파 계수들의 로컬 최대값들이 증가되어지지 않을 경우에 대해 H 세트의 계수들을 결과로 산출하는 것이다. 계수들이 증가하는 경우에는, B의 로컬 최대값들은 그것들을 G(결과적으로 I세트의 계수들이 되는)로 대체하기 전에, 먼저 증가된다
원본 이미지의 WT 제 1 단계의 저주파수측의 수직적 IWT는 결과적으로 K 세트의 계수들을 생성할 수 있다. 로컬 최대값들의 고주파수 4분원이 증가했는지의 여부에 따라, 2개의 서로 다른 K세트들이 있으며, 두가지 모두는 도 7에서 K로 참고되어 있음이 이해될 수 있을 것이다.
마지막으로, 모든 이전 단계들은 도 7에서 보여지는 바와 같이 K와 C세트들의 계수들로 시작하여, 수평적으로(horizontally) 반복될 수 있다.
최종적인 역웨이브릿 변환(IWT)은 결과적으로 향상된 재구성 이미지(프레임)가 되게해준다.
본 발명의 향상 증가 단계(enhancement boosting step)는 WT 계수들의 로컬 최대치(local maxima)들을 증가시킨 다음, 결과값의 IWT의 무결성(integrity)을 유지하기위해 남아있는 WT 계수들을 조정할 수 있다. 조정 값들은, 결과적인 계수들이 원래 신호의 향상된 버전의 WT 계수들과 같아지게끔 선택될 수 있다. WT 계수들의 로컬 최대치들은 그들의 값들을 크기 조정 상수값(scaling constant)과 곱함으로써 증가될 수 있다. 상기 크기 조정 상수값은 제어할 수 있는 입력 파라미터이다. 다른 계수들에 대한 조정 값들은 에러 함수(error function)를 최소화함으로써 얻어질 수 있다.
로컬 최대치들에 의해서, 고주파 WT계수는 그 이웃들의 크기를 초과하는 크기를 가지고 있게 된다.
본원의 참고 문헌에서 소개된 문서 "pecial Issue on Wavelets, Proceedings of the IEEE, April 1996에서 보여지는 WT의 영역에 있어서는 계수들의 세트 {a1, a2, .., an}에 대해 유효한 WT 계수들의 세트를 구성하기 위해, 어떤 일정한 관계가 계수들 사이에서 존재해야 한다는 것이 잘 알려져 있다.
식 f(x)는 다음과 같이 가중 웨이브릿 기초 식(weighted wavelet basis functions)들의 합으로써 표현된다.
Figure 112004038451683-pct00001
여기서, ak는 다음을 만족해야한다.
Figure 112004038451683-pct00002
여기서,
Figure 112009061800716-pct00090
는 ak의 복소 공액(complex conjugate)이다.
이러한 계수들중 몇몇이 Cj ak (여기서, Cj는 레벨 j에서의 로컬 최대치들의 스케일링 상수)로 대체 된다면, 섭동 계수(perturbed coefficient)들의 결과 세트는 아마도 상기 언급한 조건들을 만족시키지 못할 것이다.
섭동 계수들이 여전히 WT 계수들의 유효한 세트이란 것을 확인하기 위해, 로컬 최대치들이 아닌 WT 계수들은, 로컬 최대치들을 스케일화된 로컬 최대치들로 대체함으로써 발생되는 섭동을 정정하도록 조정되어야 한다.
섭동 계수들에 더해질때, WT 계수들의 결과 출력은 다음과 같은 2개의 조건을 만족하도록 에러 함수 Ej (xi)이 선택된다. a) 로컬 최대치들에 대해 대응하는 행들과 열들에서, WT 계수의 원래 로컬 최대치가 얻어진다. 그리고 b) 향상된 WT 계수와 원래의 WT 계수 사이의 차이들의 합 및 그 차이들의 변화율이 최소화된다.
다시 말해, 보다 명시적으로 표시하여,
Ej (xi) = Wj (xj)-CjWj (xj) (i 는 1 부터 n_최대치 까지임)
여기서, xi 는 i번째 로컬 최대치이고, n_최대치 j는 j단계에서의 로컬 최대치들의 개수를 의미하고, Wj (xi)는 xi 위치에서의 WT 계수를 의미한다. 비록 그들의 로컬 최대치를 증가시키기 위해 레벨들의 다른 조합들을 이용하여 다른 향상 효과들이 달성될 수 있기는 하지만, 관심있는 레벨은 일반적으로 j=1이다.
상기 조건 b)는 하기의 정적분식(definite integral)을, 연속적인 로컬 최대치 xi 와 xi 사이의 각 차이에 대해, 최소화함으로써 만족될 수 있다:
Figure 112004038451683-pct00003
여기서, 허위 로컬 최대치가 솔루션을 실패하게 하는는 것을 막기 위해, 두번째 항(피적분함수)이 포함되어 있다.
미분식을 풀어냄으로써 위의 정적분은 최소화될 수 있다.
Figure 112004038451683-pct00004
위의 식의 일반적인 풀이는
Figure 112004038451683-pct00005
이다.
그런 다음, 상수 α와 β는 a) xi 와 xi+1 에서의 조건에 의해 부과되는 경계 조건들을 만족하도록 다음과 같이 선택된다.
Figure 112004038451683-pct00006
위의 식들은 표준 IWT 알고리즘을 적용하기 전에, 디코드 된 WT 계수들을 수정하기 위한, 빠르고 효과적인 방법을 제공한다. IWT가 수행된 후, 향상된 버전의 압축 해제된 프레임이 얻어진다. 실험들이 본 발명의 이와 같은 과정 단계에서의 속도와 효율성을 증명하였다.
F. 비디오/오디오 동기화와 보간법
이것은 본 발명의 방법론적인 측면에서 볼 때, 또 하나의 혁신적인 단계이다. 우선, IWT후에 각각의 재구성된 프레임은 포착된 시간의 시간 기록 정보를 포함하는 헤더를 갖는다. 유사하게, 산술 디코딩(arithmetic decoding) 후에 각각의 오디오 패킷은 그에 대응하는 시간 기록을 갖는다.
오디오 패킷들이 디코딩된 뒤에 오디오 패킷들은 헤더의 부분인 샘플 속도에 의해 정의된 속도로 재생하기 위하여 오디오 카드에 의해 이용되는 버퍼에 배치된다. 오디오는 방해될 수 없으며, 이에 따라 비디오와 오디오 데이터 사이에 동기화 과정을 진행하게 된다.
비디오가 뒤에 있을 때, 비디오 프레임은 버려질수 있다. 비디오가 앞에 있을 때, 새 프레임들은 오디오에 의해서 제공되는 실시간 기준(real-time reference)까지 비디오를 늦추기 위하여 연속적인 프레임들 사이에 보간될 수 있다.
상기 프레임의 버림 및/또는 보간은 적응적 프로세스이며, 보간된 프레임들의 개수는 비디오와 오디오 사이의 시간 기록(time stamp)에 있어서의 차이를 변경해주는 기능을 한다.
어떤 환영 이미지(ghost image)도 인식되지 않는 다는 점에서, 보간 방법은 간단하고 빠르며 효율적이다.
상기 보간 방법은 보간된 프레임들에 픽셀값을 할당하는 것을 포함하는데, 이러한 픽셀값들은 양쪽 측의, 대응하는 실제(보간된 것이 아닌) 프레임 픽셀들의 가중치 값들이다. 이 가중치 값들은 보간된 프레임과 실제 프레임들 두 측사이의 시간차(distance in time)에 반비례한다.
종래의 프레임 보간법에 대한 모든 복잡한 구성들과 대조적으로, 이러한 간단한 접근은 실시간에서도 잘 적용된다.
G. 프레임 확장
본 발명의 마지막 단계는 텔레비전 화면이나 PC 화면에 나타내기 위해 고화질의 풀 스크린 프레임들을 생성할 수 있다. 포함되는 데이터의 양 때문에, 기존의 접근 방식은 매우 많은 시간을 소비할 수 있고, 어떤 경우에도 고화질 확대를 생산 할 수 없다.
본 발명의 프레임 확장 방법을 끝내기 위해 개발된 이러한 기술들은 계산적으로 간단하고(즉, 빠르고), 어떠한 픽셀화 작업도 없이, 또한 종래 기술들의 단점들인 어떠한 블록킹 효과도 보이지 않으면서 고품질의 확대된 이미지들을 생산할 수 있다. 본 발명의 방법들은 매번 그것이 적용될 때마다 4가지 확대 인자들 및 비슷한 결과들을 보여주며 반복적으로 적용될 수 있다. 전체적으로, 1000이상의 확대 인자들이 증명되었다.
본 발명의 이미지 확장 기술은 소정의 이미지들이 4배 큰 고해상도 이미지의 WT의 레벨1 저주파 성분으로 고려될 수 있다는 사실에 근거한다. 이를 구현하기 위한 한 방법은 소정의 저주파계수들로부터 레벨 1의 잃어버린 고화질 WT계수를 가늠하는 것이다.
웨이브릿 이론은, 본원의 참고문헌에 소개된 "Ten Lectures on Wavelets", I. Daubechies, Society for Industrial and Applied Mathematics, Philadelphia, 1992에 개시되어 있다. 그러나, 간략하게는, 웨이브릿은 확대 또는 변환에 의하여 단일 함수 ψ로부터 생성된 함수이다.
Figure 112004038451683-pct00007
위의 식에서 j 는 변환식의 레벨에 대응하고, 따라서 확대를 조정하고, n은 변환을 조정한다.
웨이브릿 변환식의 기본 개념은 웨이브릿들을 포개놓는 것으로서 임의 함수를 나타낸다.
Figure 112004038451683-pct00008
Figure 112009061800716-pct00009
가 정규직교 기초를 구성하기 때문에, 그 웨이브릿 변환식의 계수들은 웨이브릿 기초 함수들과 임의 함수의 내적에 의해 주어진다:
Figure 112004038451683-pct00010
멀티해상도 분석에는 2가지 펑션들, 즉 마더 웨이브릿(ψ) 및 스케일링 펑션(
Figure 112009061800716-pct00011
)이 있다. 마더 웨이브릿과 마찬가지로, 스케일링 펑션(
Figure 112009061800716-pct00012
)은 자신의 확대 및 변환 버전들을 산출한다:
Figure 112004038451683-pct00013
묘사되는 이미지 데이터 파일을 압축할 때, 대칭을 유지하는 것이 바람직하다. 결과적으로, 직각 기초의 필요 요건은 아마도 느슨해지고(비록 불필요 할지라도) 배직교(biorthogonal) 웨이브릿 세트들이 이용될 수 있다. 이 경우,
Figure 112009061800716-pct00014
는 더 이상 직교의 원칙을 구성하지 않으며, 이에 따라 계수들의 계산은 이중 기초(dual basis)에 의해 계산된다.
Figure 112004038451683-pct00015
위의 식에서
Figure 112009061800716-pct00016
는 아래에서 정의되는 합성 필터 계수들에 관련된 함수이다.
f가 샘플링된 형태로 주어졌을 때, 이 샘플들을 부대역 j = 0 에 대한 계수 xnj로 이용할 수 있다. 이후, 부대역(sub-band) j+1에 대한 계수들은 컨벌루션(convolution) 합에 의해 주어진다:
Figure 112004038451683-pct00017
위 식은 저주파 계수들에 대해서이고,
Figure 112004038451683-pct00018
위 식은 고주파 주파수들에 대해서이다.
이것은 부대역 알고리즘을
저대역 필터를 의미하는
Figure 112009061800716-pct00019
와,
삭제
고대역 필터를 의미하는
Figure 112009061800716-pct00020
로 설명한다.
결과적으로 정확한 재구성식은 다음과 같이 주어진다:
Figure 112004038451683-pct00021
여기서,
Figure 112004038451683-pct00022
Figure 112004038451683-pct00023
은 재구성 필터들을 의미한다.
서로 다른 필터들사이의 관계는 다음과 같이 주어진다:
Figure 112009061800716-pct00024
(배직교)
Figure 112009061800716-pct00025
(배직교)
Figure 112009061800716-pct00026
(델타 함수)
위의 식에서 hn 및 gn은 각각 저대역 분석필터와 고대역 분석필터를 나타내고,
Figure 112009061800716-pct00027
Figure 112009061800716-pct00028
은 대응하는 합성 필터들을 나타낸다.
이제, 1차원 웨이브릿 변환식의 변형된 공식 행렬에 대해 다룰것이다. 상기의 임펄스 응답들 hn 및 gn을 이용함으로써, 해상도 2j : Hj, Gj,
Figure 112009061800716-pct00029
,
Figure 112009061800716-pct00030
에서 회전 컨벌루션 오퍼레이터들을 정의할 수 있다. 이러한 4개의 행렬들은 순환적이고 대칭적이다. Hj 행렬들은 필터 계수 hn들로부터 얻어지고, 유사하게 Gj는 gn으로부터 , Hj는 hn으로부터, 그리고 Gj 는 gn으로부터 얻어진다.
해상도 2-j에서 정확하게 그 데이터를 복원하기 위한 근본적인 행렬의 관계는 다음과 같다:
Figure 112004038451683-pct00031
이 식에서, lj 는 항등 행렬(identity matrix)이다.
Figure 112004038451683-pct00032
를 스케일
Figure 112004038451683-pct00033
에서의 저주파 웨이브릿 변환식 계수들의 벡터가 되게하 고,
Figure 112004038451683-pct00034
를 고주파 웨이브릿 계수들과 연관된 벡터로 정해준다. 우리는 증가된 벡터의 형태로 다음과 같은 식을 갖는다:
Figure 112004038451683-pct00035

위의 식에서 X j+1
Figure 112009061800716-pct00036
로부터 얻어진 평활 벡터(smoothed vector)이다. 이 웨이브릿 계수들, C x j+l 는 스케일 2-j 와 2-(j+1)의 저주파 대역폭들 사이에서 이동하는데 있어 잃어버린 정보들을 포함한다.
그 재구성 식은 다음과 같다.:
Figure 112004038451683-pct00037
방정식 (11), X j+1 =Hj X j로부터, 이론상 Hj를 역전시킴으로써, X j+1에서 X j를 구할 수 있다. 그러나, 이는 일반적으로 실용적이지가 않은데, 그 이유는 X j+1는 부정확하며 Hj는 불량 조건의 행렬(ill-conditioned matrix)이기 때문이다. 결과적으로, 상기 문제는 타당하지 않으며(ill-posed), 일반적으로, 고유의 해법이 없다.
고주파 계수, C x j+1를 버린다면, 식 (12)는 X j의 흐릿한 근사인
Figure 112009061800716-pct00038
로 감소된다.
다음과 같은 식들을 주는, 식 (11),
Figure 112004038451683-pct00039
로 부터 :
Figure 112004038451683-pct00040
이거나, 또는
(14)
Figure 112009061800716-pct00091
우리의 과제에서,
Figure 112004038451683-pct00042
(레벨 j+1의 변환된 행들과 열들)는 주어지므로 다음의 고레벨의
Figure 112004038451683-pct00043
를 결정하는 것이 문제이다.
이는 이미지 복원 문제(벡터(
Figure 112009061800716-pct00092
)에 의해 정의된 이미지가, 저대역 특성으로 인하여, 불량 조건의 행렬인 오퍼레이터(
Figure 112009061800716-pct00093
)에 의해 흐릿해짐)로 고려될 수 있다.
본 장에서 참고로서 인용된, 모스코우의 간행물 MIR의 에이. 엔. 티크호노브(A. N. Tikhonov) 및 브이. 와이. 아르세닌(V. Y. Arsenin)의 "Methodes de resolution des problems mal poses"와 같이, 조정은 이러한 유형의 불량 문제(ill-posed problem)들을 해결하는 데에 이용되는 방법이다. 이러한 방법은 제한 최소 제곱 최소화 기술(constrained least squares minimization technique)과 유사하다.
이러한 유형의 문제의 해법은 하기의 라그랑지안(Lagrangian) 함수를 최소화함으로써 얻어진다.
Figure 112004038451683-pct00046
여기서,
Figure 112009061800716-pct00047
는 조정 연산자이고
Figure 112009061800716-pct00048
Figure 112009061800716-pct00049
의 정확도가 증가함에 따라서
Figure 112009061800716-pct00050
→0과 같은 양의 스칼라이다.
조정 이론으로부터,
Figure 112009061800716-pct00051
가 저대역 필터로 동작하면,
Figure 112009061800716-pct00052
는 고대역 필터이어야한다는 점이 또한 공지되어 있다. 다시 말해,
Figure 112009061800716-pct00053
가 웨이브릿 변환의 저대역 필터 행렬이므로,
Figure 112009061800716-pct00054
는 대응하는 고대역 필터 행렬이어야만 한다.
식(15)는 어림 웨이브릿 변환 계수들(식(11)로부터의
Figure 112004038451683-pct00055
Figure 112004038451683-pct00056
)에 관하여 쓰면 다음과 같다.
Figure 112004038451683-pct00057
식(10)에서 보여진 정확한 복구 행렬 관계를 이용하면, 다음의 식을 얻는다.
Figure 112004038451683-pct00058
이는 또한 다음과 같이 쓸 수 있다.
Figure 112004038451683-pct00059
(
Figure 112004038451683-pct00060
가 어림된다는 점을 명심하라.)
다음, 식(16a)에서 식(16b)를 빼면,
Figure 112004038451683-pct00061
를 얻는다.
식(16c)를 식(16)에 대입하면,
Figure 112004038451683-pct00062
가 된다.
j의 도함수를
Figure 112009061800716-pct00063
에 관해, 0과 같게 설정함으로써, 고주파 계수
Figure 112009061800716-pct00064
에 관한 어림이 아래와 같이 얻어진다.
Figure 112004038451683-pct00065
여기서 어림 행렬 M은 다음과 같이 주어진다:
Figure 112004038451683-pct00066
여기서, 첨자 "t"는 전치행렬을 나타낸다.
Figure 112009061800716-pct00067
로부터
Figure 112009061800716-pct00068
의 어림값을 계산하는 것이 목적이므로, 식(12)를 이용하면, 다음으로 나타낼 수 있다.
Figure 112004038451683-pct00069
여기서 T는 행렬이다.
Figure 112004038451683-pct00070
달리 말하면, 고주파 계수(
Figure 112009061800716-pct00071
)들의 결정은 행렬(T)의 미분에서 모호하지만, 고주파 계수(
Figure 112009061800716-pct00072
)들을 계산하는 것이 필요하다.
데시메이트된 웨이브릿 변환을 다루기 때문에, 행렬(T)는 정사각 행렬이 아니라 오히려 사각 행렬이라는 점을 알 수 있을 것이다. 행렬의 차원은 n·n/2인데, 여기서 n은 소정 레벨의 변환전 데이터 사이즈이다. 이는 웨이브릿 변환 행렬들에 관한 사이즈들- H 및 G는 n/2·n 행렬들이고
Figure 112008012735752-pct00073
Figure 112008012735752-pct00074
은 n·n/2이다-로부터 확인될 수 있다.
Figure 112008012735752-pct00075
는 사이즈 n/2·n/2의 정사각 행렬이고, 모든 웨이브릿 필터들에 대해
Figure 112008012735752-pct00076
>0이라면 가역행렬이다.
본 발명의 다른 양상은 행렬(T)의 구조이다. T의 열들은 단지 두 개의 짧은 필터들로 구성되는데, 이 필터들은 2열마다 위치를 오른쪽으로 한칸씩 이동하면서 그대로 반복되는 구조이다. 행렬(T)의 다른 모든 성분들은 0이다. 이는 그런 데이터와 함께 이용가능한 데이터의 특정의 위치에서 중앙에 위치된 양 필터들을 컨벌루션(convolution)함으로써 각 레벨의 웨이브릿 변환이 전 레벨(반 사이즈의)로부터 반복될 수 있음을 의미한다. 이는 소정의 각 값들로부터 두 개의 신규 값들을 가져오므로, 신호 감압 또는 확장의 모든 레벨에서 데이터의 사이즈를 두 배로 만든다. 행렬(T)를 소정의 벡터로 곱할 필요가 없다. 상기 두 개의 필터들은 원래의 데이터를 변화하는데 이용되는 웨이브릿 필터들의 계수들에 따르고, 어떤 임의의 웨이브릿 필터 계수들은 두 개의 확장 필터들을 결정하는데 이용될 수 있다. 가장 중요한 기준은 품질과 속도이다.
도 8은 어떤 임의의 웨이브릿 기초(basis)에 관한 확장 필터들을 나타내는 행렬(T)을 계산하는데 이용될 수 있는 매쓰랩(Matlab) 프로그램을 나타낸다.
예를 들어, 다우비치스-6 웨이브릿(Daubechies-6 wavelet)에 대해, 행렬(T)를 구성하는 상기 두 개의 필터들은,
Figure 112004038451683-pct00077
이고,
행렬(T)는,
Figure 112004038451683-pct00078
등이다.
다른 웨이브릿 기초를 이용하면, 유사한 확장 필터들이 얻어질 수 있다. 하기의 표 1은임의의 전형적인 웨이브릿 필터들에 관한 도 8의 매쓰랩 프로그램으로 얻어진 필터들의 길이들을 제공한다.
확장 필터들 길이
다우비치스-4(Daubechies-4) 2 다우비치스-6(Daubechies-6) 3 다우비치스-8(Daubechies-8) 4 배직교(Biorthogonal) 3-4 비대칭(Asymmetrical) 2
보다 긴 필터들을 이용하면 보다 양질의 확장 품질을 얻을 수 있다는 점을 알 수 있을 것이나, 반면에 원래 보다 짧은 필터들은 보다 빠른 확장을 제공한다.
이러한 확장 필터들이 데이터의 사이즈에 의존하지 않는 다는 점을 주의하는 것이 중요하다. 반면에, 데시메이트되지 않는 웨이브릿 변환은 0이 아니며 모든 성분들이 데이터의 사이즈에 따라 변하는 전체 행렬을 가져온다.
따라서, 개시된 방법의 실제적인 이점은 계산상의 복잡성과 단지 저주파수 정보로부터 고품질의 신호들을 재생성하는 성능의 측면에서 분명하다.
이미지와 영상 프레임들에 관련하여, 상기 방법은 먼저 행에 적용되고 그 후 열에 적용된다. 또한, 컬러 이미지에 대해 상기 방법은 휘도(Y) 및 크로미넨스(UV) 요소들에 개별적으로 적용된다.
데시메이션 웨이브릿 변환을 이용함으로써, 기존의 가용 방법에 비하여, 정보를 보다 나은 속도와 품질로 압축, 전송 및 압축해제할 수 있다. 본 발명의 방법은 네트워크 기반 산업에서 영상 및/또는 영상/음성 디지털 전송에 이용된다.

Claims (26)

  1. 통신 매체를 통해 오디오(audio) 및 비디오(video)를 전송하는 시스템으로서,
    오디오 입력과;
    비디오 입력과;
    상기 비디오 입력에 결합된 이미지 포획(capture) 장치와;
    상기 오디오 입력에 결합된 오디오 엔코더와;
    상기 이미지 포획 장치에 결합된 웨이브릿 변환 이미지 엔코더와;
    오디오 엔코더와;
    통신 매체(communication medium)와;
    상기 통신 매체에 결합된 역 웨이브릿 변환 이미지 디코더와;
    오디오 및 비디오 동기장치(synchronizer)와; 그리고
    상기 오디오 및 디코드된 비디오 이미지들을 재생(replaying)하는 수신기를 포함하는 것을 특징으로 하는 통신 매체를 통해 오디오 및 비디오를 전송하는 시스템.
  2. 통신 매체를 통해 디지털 이미지 또는 비디오 이미지 중의 어느 하나를 전송하기 위한 방법으로서,
    (a) 비디오 입력 스트림 또는 디지털 이미지를 포함하는 이미지 데이터를 수신하는 단계와;
    (b) 이미지 프레임을 포획하는 단계와;
    (c) 엔코드된 프레임을 생성하기 위하여, 웨이브릿 변환을 사용하여 상기 이미지 프레임을 압축 및 엔코드하는 단계와;
    (d) 상기 통신 매체를 통해 상기 엔코드된 프레임을 디코더로 전송하는 단계와; 그리고
    (e) 디지털 이미지를 포함하는 출력 스트림을 생성하기 위하여, 역 웨이브릿 변환을 이용하여 상기 엔코드된 프레임을 디코드 및 확장하는 단계를 포함하는 것을 특징으로 하는 방법.
  3. 비디오의 품질 임계값(quality threshold value)을 만족하도록 디지털 이미지 시퀀스를 엔코딩하기 위한 장치로서,
    (a) 비디오 입력과;
    (b) 비디오 포획 장치와;
    (c) 이미지 품질 임계값을 지정하는 품질 임계값 입력과;
    (d) (i) 디지털 이미지 시퀀스로부터 제1의 이미지 데이터 프레임을 수신하여 상기 제1의 이미지 데이터 프레임을 앵커 프레임(anchor frame)으로 설정하고;
    (ii)앵커 프레임 계산이 결정되는 상기 제1의 이미지 데이터 프레임 내에 위치한 제1의 프레임 위치를 선택하고; 그리고
    (iii)상기 제1의 이미지 데이터 프레임에 대해 웨이브릿 변환을 계산해 내는 방법에 의해 생성된, 엔코드된 제1의 프레임 이미지와;
    (e) (i) 상기 디지털 이미지 시퀀스로부터 제2의 이미지 데이터 프레임을 수신하고;
    (ii) 상기 제1의 프레임 위치와 동일하게 상기 제2의 이미지 데이터 프레임 내의 위치를 선택하고; 그리고
    (iii) 상기 제2의 이미지 데이터 프레임에 대해 웨이브릿 변환을 계산해 내는 방법에 의해 생성된, 엔코드된 제2의 프레임 이미지와; 그리고
    (f) 상기 선택된 위치에서 상기 제1의 프레임 위치에 대한 웨이브릿 변환값 및 상기 제2의 프레임 위치에 대한 웨이브릿 변환값이 상기 품질 임계값 보다 큰지를 판단하는 비교기를 포함하는 것을 특징으로 하는 장치.
  4. 비디오 품질 임계값을 만족시키기 위하여 디지털 이미지 시퀀스를 선택적으로 엔코딩하는 방법으로서,
    (a) 앵커 이미지 프레임과 후속하는 이미지 프레임 사이의 최대 허용 차(maximum allowed difference)에 대응하는 품질 임계값을 수신하는 단계와;
    (b) 제1의 프레임을 수신하여 이 제1의 프레임을 앵커 프레임으로 설정하는 단계와;
    (c) 앵커 프레임 계산이 결정되는 상기 제1의 프레임 내의 위치를 선택하는 단계와;
    (d) 상기 제1의 프레임에 대해 웨이브릿 변환 계산을 수행하는 단계와;
    (e) 상기 디지털 이미지 프레임 시퀀스로부터 제2의 이미지 데이터 프레임을 수신하는 단계와;
    (f) 상기 제2의 프레임에 대한 웨이브릿 변환 계산을 수행하는 단계와;
    (g) 상기 이미지 데이터 프레임 내의 선택된 위치에서 상기 제1 및 제2 프레임 사이의 차이가 상기 품질 임계값 보다 큰 지를 결정하는 단계와, 그리고 만약 큰 경우에는;
    (h) 상기 제2의 프레임을 새로운 앵커 프레임으로 설정하는 단계를 포함하는 것을 특징으로 하는 방법.
  5. 비대칭 웨이브릿 필터들을 이용하여 디지털 이미지 시퀀스를 엔코딩하기 위한 시스템으로서,
    고주파 계수 웨이브릿 변환 발생기와;
    웨이브릿 변환 레벨에 대한 최대값과 유의 임계값(significant threshold)으로서 지정된 최소값 사이로 계수값들의 범위를 결정하는 계수 선택 수단과; 그리고
    각 계수를 각 계수 범위에 대해 할당된 소정 개수의 비트들로 엔코딩하는 엔코더를 포함하는 것을 특징으로 하는 시스템.
  6. 통신 매체를 통해 전송되는 디지털 이미지를 엔코딩하는 방법으로서,
    (a) 상기 이미지에 대한 웨이브릿 변환의 고주파 계수들의 세트를 결정하는 단계와;
    (b) 웨이브릿 변환 레벨에 대한 최대값을 결정하는 단계와;
    (c) 최소값으로서 유의 임계값을 지정하는 단계와;
    (d) 상기 최대값과 최소값 사이로 계수값 범위를 결정하는 단계와;
    (e) 각 계수값 범위에 소정 개수의 비트들을 할당하는 단계와; 그리고
    (f) 각각의 계수를 각 계수값 범위에 할당된 상기 소정 개수의 비트들로 엔코딩하는 단계를 포함하는 것을 특징으로 하는 방법.
  7. 디지털 이미지 디코더로서,
    웨이브릿 변환을 이용하여 원래 이미지로부터 미리 엔코드된 디지털 이미지를 수신하는 수신기와;
    원래 이미지에 대한 레벨 1의 웨이브릿 변환의 저주파측에 근접하는 중간 이미지를 생성하기 위하여, 상기 엔코드된 이미지를 수직축 또는 수평축의 어느 하나를 따라 확장하는 이미지 신장기(image expander)와; 그리고
    상기 중간 이미지의 수직 웨이브릿 변환을 계산하고, 상기 웨이브릿 변환의 로컬 최대값들(local maxima)을 증대시키며, 계산결과의 계수들을 상기 엔코드된 이미지의 계수들로 대체하는 이미지 향상기(image enhancer)를 포함하는 것을 특징으로 하는 디지털 이미지 디코더.
  8. 웨이브릿 변환을 사용하여 미리 엔코드된 디지털 이미지를 디코딩 및 향상(enhancing)시키는 방법으로서,
    (a) 웨이브릿 변환을 이용하여 원래 이미지로부터 미리 엔코드된 디지털 이미지를 수신하는 단계와;
    (b) 상기 원래 이미지에 대한 레벨 1 웨이브릿 변환의 저주파측에 근접하는 중간 이미지를 생성하도록 상기 엔코드된 이미지를 수직축을 따라 확장하는 단계와;
    (c) 상기 중간 이미지의 수직 웨이브릿 변환을 계산하여 결과값을 생성하는 단계와;
    (d) 상기 단계 (c)에서 얻어진 상기 결과값의 계수들을 상기 엔코드된 이미지의 계수들로 증가시키는 단계와; 그리고
    (e) 상기 엔코드된 이미지를 수평축을 따라 확장시키고, 디코드된 향상된 이미지를 생성하기 위하여 상기 단계 (a)-(d)를 반복하는 단계를 포함하는 것을 특징으로 하는 방법.
  9. 여러가지 가변 속도의 통신 매체를 갖고 있는 다수의 사용자들에게 전송하기 위하여 디지털 이미지를 가변적으로 압축하는 시스템으로서,
    상기 다수의 사용자들 중 특정 사용자가 사용하는 통신 매체의 전송 속도를 지정하는 통신 속도 지정수단과;
    디지털 이미지 스트림을 수신하는 비디오 입력과;
    상기 특정 사용자가 사용하는 통신 매체의 전송 속도에 정합되도록, 웨이브릿 변환을 이용하여 상기 이미지 스트림 중 선택된 이미지들을 압축 및 엔코딩하는 이미지 엔코더와;
    상기 통신 매체를 통해 상기 이미지 엔코더에 의해 엔코드된 이미지들을 수신하고, 상기 선택된 이미지들의 역 웨이브릿 변환을 이용하여 상기 선택된 이미지들을 디코딩하는 이미지 디코더와; 그리고
    이미지 신장기(expander)를 포함하는 것을 특징으로 하는 시스템.
  10. 여러가지 가변 속도의 통신 매체를 통해 서로 다른 사용자들에게 전송하기 위한 디지털 이미지를 가변적으로 압축하는 방법으로서,
    (a) 사용된 통신 매체의 통신 속도에 관련한 입력을 수신하는 단계와;
    (b) 비디오 이미지 및 디지털 이미지 중 어느 하나를 포함하는 이미지 데이터의 입력 스트림을 수신하는 단계와;
    (c) 상기 서로 다른 사용자들 중 특정 사용자가 사용하는 통신 매체의 전송 속도에 정합되도록 웨이브릿 변환을 이용하여 상기 이미지 스트림 중 선택된 이미지들을 압축 및 엔코딩하는 단계와;
    (d) 역 웨이브릿 변환을 이용하여 상기 선택된 이미지들을 디코딩하는 단계와;
    (e) 상기 단계 (d)에서 생성된 상기 선택된 이미지들을 확장하는 단계를 포함하는 것을 특징으로 하는 방법.
  11. 오디오 및 비디오 정보를 전송하는 시스템으로서,
    오디오 입력과;
    비디오 입력과;
    비디오 이미지 포획 수단과;
    저주파 신호와 고주파 신호를 차동적으로 데시메이트(differentially decimate)하는 비대칭 필터를 갖는 웨이브릿 변환 기반 엔코더와;
    전송 매체와;
    역 웨이브릿 변환 기반 디코더와;
    오디오 및 비디오 동기장치와; 그리고
    상기 오디오 및 상기 비디오 이미지를 디스플레이하는 수신기를 포함하는 것을 특징으로 하는 시스템.
  12. 비디오 엔코더로서,
    비디오 정보의 프레임을 생성하는 비디오 포획 수단과;
    저주파 정보 및 고주파 정보를 차동적으로 데시메이트하는 비대칭 분석 필터를 갖는 웨이브릿 변환 기반 장치와;
    품질 임계값 입력과; 그리고
    상기 품질 임계값 입력에 근거하여 상기 프레임 내의 저주파 신호들 및 고주파 신호들을 데시메이트하는 수단을 포함하는 것을 특징으로 하는 비디오 엔코더.
  13. 비디오 디코더로서,
    비디오 이미지의 프레임으로부터 얻어진 저주파 및 고주파 계수를 포함하는 비디오 정보를 수신하는 수신기와, 여기서 상기 비디오 정보는 웨이브릿 변환 및 비대칭적으로 필터링 및 데시메이트된 비디오 정보이며;
    디코드된 비디오 이미지를 생성하는 역 웨이브릿 변환 기반 장치와; 그리고
    상기 디코드된 비디오 이미지를 상기 비디오 이미지의 프레임과 비교하는 비교기를 포함하는 것을 특징으로 하는 비디오 디코더.
  14. 제1 항에 있어서,
    상기 웨이브릿 변환 이미지 엔코더는 최소화된 에러 함수에 근거하여 상기 비디오의 웨이브릿 표현을 생성하도록 되어 있는 것을 특징으로 하는 통신 매체를 통해 오디오 및 비디오를 전송하는 시스템.
  15. 제2 항에 있어서,
    상기 엔코드된 프레임을 디코더로 전송하는 단계 전에, 산술 엔코딩(arithmetic encoding)을 사용하여, 상기 이미지 프레임을 더 엔코드하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  16. 제3 항에 있어서,
    상기 웨이브릿 변환을 계산하는 것은,
    상기 제1 프레임 및 상기 제2 프레임 각각을 기본 웨이브릿의 선형 결합(linear combination)으로서 나타내기 위하여, 저대역 필터(low-pass filter)와 고대역 필터(high-pass filter)를 사용하는 것을 포함하는 것을 특징으로 하는 장치.
  17. 제4 항에 있어서,
    상기 제2 프레임이 새로운 앵커 프레임으로 설정되지 않는 경우, 상기 제2 프레임을 제거하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  18. 제5 항에 있어서,
    상기 비대칭 웨이브릿 필터들은, 상기 비대칭 웨이브릿 필터들의 계수들의 제곱값의 합을 1로 만듦으로써 표준화(normalization)되는 것을 특징으로 하는 시스템.
  19. 제6 항에 있어서,
    상기 웨이브릿 변환의 저주파 계수들의 세트를 상기 저주파 계수들의 불변 값들을 사용하여 엔코드하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  20. 제7 항에 있어서,
    상기 디지털 이미지를 대응하는 오디오 데이터와 동기화하도록 되어 있는 동기화 모듈을 더 포함하는 것을 특징으로 하는 디지털 이미지 디코더.
  21. 제8 항에 있어서,
    상기 확장시킨 엔코드된 이미지에 역 웨이브릿 변환을 적용하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  22. 제9 항에 있어서,
    상기 엔코드된 이미지들은 이미지 프레임들을 포함하며, 상기 이미지 디코더는, 상기 이미지 스트림 중 선택된 이미지들의 이미지 프레임들을 보간하여 새로운 이미지 프레임들을 생성하도록 되어있는 것을 특징으로 하는 시스템.
  23. 제10 항에 있어서,
    상기 이미지 스트림 중 선택된 이미지들을 압축 및 엔코딩하는 단계는,
    향상된 웨이브릿 변환의 계수들과 본래 웨이브릿 변환의 계수들 간의 차의 합을 최소화하기 위하여 에러 함수를 사용하는 것을 포함하는 것을 특징으로 하는 방법.
  24. 제11 항에 있어서,
    상기 웨이브릿 변환 기반 엔코더는 단일 패스(single pass)로 웨이브릿 변환 계수들을 엔코드하도록 되어 있는 것을 특징으로 하는 시스템.
  25. 제12 항에 있어서,
    상기 저주파 신호들 및 고주파 신호들을 데시메이트 하는 수단은 복수의 변환 레벨들 각각에서 고주파 신호들을 점진적으로 감소시키도록 되어 있는 것을 특징으로 하는 비디오 엔코더.
  26. 제13 항에 있어서,
    상기 역 웨이브릿 변환 기반 장치는, 비디오 이미지들의 다른 프레임들을, 상기 비디오 이미지들의 다른 프레임들에 있는 해당 픽셀들의 가중 값들에 근거하여 보간함으로써 새로운 이미지 프레임을 생성하도록 되어 있으며,
    상기 가중 값들은 비디오 이미지들의 상기 새로운 이미지 프레임과 상기 다른 프레임들 사이의 시간차(distance in time)에 실질적으로 반비례하는 것을 특징으로하는 비디오 디코더.
KR1020047013400A 2002-02-26 2003-02-26 실시간 소프트웨어 비디오/오디오의 압축, 전송, 데이터복원 및 디스플레이를 위한 방법 KR100957473B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US36018402P 2002-02-26 2002-02-26
US60/360,184 2002-02-26
US10/374,824 US7317840B2 (en) 2002-02-26 2003-02-25 Methods for real-time software video/audio compression, transmission, decompression and display
US10/374,824 2003-02-25
PCT/US2003/005951 WO2003073625A2 (en) 2002-02-26 2003-02-26 Methods for real-time software video/audio compression, transmission, decompression and display

Publications (2)

Publication Number Publication Date
KR20040105734A KR20040105734A (ko) 2004-12-16
KR100957473B1 true KR100957473B1 (ko) 2010-05-14

Family

ID=27767593

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020047013400A KR100957473B1 (ko) 2002-02-26 2003-02-26 실시간 소프트웨어 비디오/오디오의 압축, 전송, 데이터복원 및 디스플레이를 위한 방법

Country Status (5)

Country Link
US (1) US7317840B2 (ko)
KR (1) KR100957473B1 (ko)
AU (1) AU2003217767A1 (ko)
CA (1) CA2476904C (ko)
WO (1) WO2003073625A2 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630569B2 (en) 2002-02-26 2009-12-08 Decegama Angel Real-time software video/audio transmission and display with content protection against camcorder piracy
US7228000B2 (en) * 2002-03-15 2007-06-05 Ricoh Co., Ltd. Image data generation with reduced amount of processing
US7142250B1 (en) * 2003-04-05 2006-11-28 Apple Computer, Inc. Method and apparatus for synchronizing audio and video streams
JP2006256019A (ja) * 2005-03-16 2006-09-28 Konica Minolta Business Technologies Inc 画像形成装置
US8515052B2 (en) 2007-12-17 2013-08-20 Wai Wu Parallel signal processing system and method
US8670942B2 (en) * 2008-05-02 2014-03-11 Inguran, Llc Flow cytometer remote monitoring system
US8060353B2 (en) * 2008-05-02 2011-11-15 Iguran LLC Flow cytometer remote monitoring system
US8755515B1 (en) 2008-09-29 2014-06-17 Wai Wu Parallel signal processing system and method
US8259808B2 (en) * 2010-03-25 2012-09-04 Mediatek Inc. Low complexity video decoder
JP5816858B2 (ja) * 2011-01-24 2015-11-18 パナソニックIpマネジメント株式会社 動画伝送システム
US8621355B2 (en) 2011-02-02 2013-12-31 Apple Inc. Automatic synchronization of media clips
SG2014008775A (en) 2011-08-16 2014-04-28 Destiny Software Productions Inc Script-based video rendering
US20150063103A1 (en) * 2013-09-04 2015-03-05 Nvidia Corporation Bandwidth-dependent compressor for robust header compression and method of use thereof
CA2916494A1 (en) * 2015-12-30 2017-06-30 Steve Mann Recompressive sensing, resparsified sampling, and lightspacetimelapse: means, apparatus, and methods for spatiotemporal and spatiotonal timelapse and infinitely long media or multimedia recordings in finite memory
WO2018204708A1 (en) * 2017-05-03 2018-11-08 University Of Washington Biomimetic codecs and biomimetic coding techniques

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999057908A1 (en) * 1998-05-07 1999-11-11 Sarnoff Corporation Method and apparatus for increasing memory resource utilization in an information stream decoder
US20020009232A1 (en) 1998-06-30 2002-01-24 Iraj Sodagar Apparatus and method for packetizing significance-based information

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL104636A (en) * 1993-02-07 1997-06-10 Oli V R Corp Ltd Apparatus and method for encoding and decoding digital signals
US5546477A (en) * 1993-03-30 1996-08-13 Klics, Inc. Data compression and decompression
US5748786A (en) * 1994-09-21 1998-05-05 Ricoh Company, Ltd. Apparatus for compression using reversible embedded wavelets
US5692063A (en) * 1996-01-19 1997-11-25 Microsoft Corporation Method and system for unrestricted motion estimation for video
US5835636A (en) * 1996-05-28 1998-11-10 Lsi Logic Corporation Method and apparatus for reducing the memory required for decoding bidirectionally predictive-coded frames during pull-down
US5909518A (en) * 1996-11-27 1999-06-01 Teralogic, Inc. System and method for performing wavelet-like and inverse wavelet-like transformations of digital data
US6005980A (en) * 1997-03-07 1999-12-21 General Instrument Corporation Motion estimation and compensation of video object planes for interlaced digital video
US6100940A (en) * 1998-01-21 2000-08-08 Sarnoff Corporation Apparatus and method for using side information to improve a coding system
US6507673B1 (en) * 1998-03-06 2003-01-14 Divio, Inc. Method and apparatus for video encoding decision
US6310919B1 (en) * 1998-05-07 2001-10-30 Sarnoff Corporation Method and apparatus for adaptively scaling motion vector information in an information stream decoder
US6137915A (en) * 1998-08-20 2000-10-24 Sarnoff Corporation Apparatus and method for error concealment for hierarchical subband coding and decoding
US6289297B1 (en) * 1998-10-09 2001-09-11 Microsoft Corporation Method for reconstructing a video frame received from a video source over a communication channel
JP2000209580A (ja) * 1999-01-13 2000-07-28 Canon Inc 画像処理装置およびその方法
US6633608B1 (en) * 1999-05-27 2003-10-14 Sarnoff Corporation Method and apparatus for adapting memory resource utilization in an information stream decoder
US6574213B1 (en) * 1999-08-10 2003-06-03 Texas Instruments Incorporated Wireless base station systems for packet communications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999057908A1 (en) * 1998-05-07 1999-11-11 Sarnoff Corporation Method and apparatus for increasing memory resource utilization in an information stream decoder
US20020009232A1 (en) 1998-06-30 2002-01-24 Iraj Sodagar Apparatus and method for packetizing significance-based information

Also Published As

Publication number Publication date
CA2476904C (en) 2012-11-06
WO2003073625A2 (en) 2003-09-04
WO2003073625A3 (en) 2004-12-23
AU2003217767A1 (en) 2003-09-09
US20030179941A1 (en) 2003-09-25
CA2476904A1 (en) 2003-09-04
US7317840B2 (en) 2008-01-08
KR20040105734A (ko) 2004-12-16

Similar Documents

Publication Publication Date Title
US8068683B2 (en) Video/audio transmission and display
KR100957473B1 (ko) 실시간 소프트웨어 비디오/오디오의 압축, 전송, 데이터복원 및 디스플레이를 위한 방법
US5717789A (en) Image enhancement by non-linear extrapolation in frequency space
CN1186942C (zh) 基于方差的自适应块大小dct图像压缩
US7085436B2 (en) Image enhancement and data loss recovery using wavelet transforms
US20100046845A1 (en) Image coding apparatus and image decoding apparatus
US11303932B2 (en) Image compression
JP5133317B2 (ja) 記憶容量の低減と色回転と複合信号と境界フィルタ処理とをともなったビデオ圧縮の方法及びそのための集積回路
KR20150068402A (ko) 동영상 압축 방법
KR20000062277A (ko) 압축 데이터로부터 고주파 성분을 복구하기 위한 추정기
JP2005039837A (ja) 映像雑音除去方法及び装置
WO1998028917A9 (en) Improved estimator for recovering high frequency components from compressed image data
JP2021175090A (ja) 画像符号化装置、画像復号装置及びこれらのプログラム
US8331708B2 (en) Method and apparatus for a multidimensional discrete multiwavelet transform
US7630568B2 (en) System and method for low-resolution signal rendering from a hierarchical transform representation
US20100172419A1 (en) Systems and methods for compression, transmission and decompression of video codecs
US8031782B2 (en) Systems and methods for compression, transmission and decompression of video codecs
Baligar et al. Low complexity, and high fidelity image compression using fixed threshold method
JP3869303B2 (ja) 画像復号化方法及び装置
KR100527428B1 (ko) 주파수 교삽을 이용한 영상 데이터 코딩 방법
JP2000295622A (ja) 動画像符号化方法、動画像符号化装置、動画像復号方法、動画像復号装置及びそれらのプログラムを記憶した記憶媒体
KR19980021105A (ko) 인간 시각체계를 이용한 웨이브릿 변환 영상 신호 압축방법 (visual system)
Devaraj Inter-Intra Frame Coding in Motion Picture Compensation Using New Wavelet Bi-Orthogonal Coefficients
Greenspan et al. Combining image-processing and image compression schemes
JPH10191329A (ja) 画像復号化装置

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130429

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140430

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170330

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190327

Year of fee payment: 10