KR101246115B1 - 3차원 웨이블릿 기반 영상 부호화/복호화 방법 및 장치 - Google Patents
3차원 웨이블릿 기반 영상 부호화/복호화 방법 및 장치 Download PDFInfo
- Publication number
- KR101246115B1 KR101246115B1 KR1020060084447A KR20060084447A KR101246115B1 KR 101246115 B1 KR101246115 B1 KR 101246115B1 KR 1020060084447 A KR1020060084447 A KR 1020060084447A KR 20060084447 A KR20060084447 A KR 20060084447A KR 101246115 B1 KR101246115 B1 KR 101246115B1
- Authority
- KR
- South Korea
- Prior art keywords
- image
- plane
- arithmetic
- bitstream
- scan direction
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/63—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/129—Scanning of coding units, e.g. zig-zag scan of transform coefficients or flexible macroblock ordering [FMO]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/13—Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/597—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
3D 웨이블릿 변환에 기반한 n 프레임(n은 2이상의 정수)으로 구성된 입력 영상에 대한 영상 부호화 방법 및 장치와 이러한 영상 부호화 방법 및 장치에 의하여 부호화된 압축 데이터를 복원하기 위한 영상 복호화 방법 및 장치에 대하여 개시한다. 본 발명의 일 실시예에 따른 영상 부호화 방법에서는 우선 3D 이산 웨이블릿 변환되고 양자화된 계수를 다수의 3D 코드블록으로 분할한다. 그리고 분할된 다수의 3D 코드블록 각각을 서로 수직인 3개의 평면 방향(예컨대, 3차원 영상의 경우에는 XY, ZX, 및 ZY 방향 또는 동영상의 경우에는 XY, TX, 및 TY 방향)으로 각각 스캔하고 각 스캔 방향에 대하여 적응적으로 컨텍스트를 선택하여 산술 부호화를 수행한다. 계속해서, 상기 3개의 평면 방향에 각각에 따라 산술 부호화된 데이터의 부호화 효율을 비교하여, 가장 부호화 효율이 높은 평면 방향으로 산술 부호화된 데이터를 추출하고, 추출된 데이터는 복호화 장치로 전송된다.
Description
도 1a는 본 발명의 일 실시예에 따른 영상 부호화 알고리즘을 보여주는 블록도이다.
도 1b는 본 발명의 일 실시예에 따른 영상 복호화 알고리즘을 보여주는 블록도이다.
도 2는 1D 신호의 이산 웨이블릿 변환(DWT) 및 역변환(Inverse DWT) 과정을 보여주는 블록도이다.
도 3은 1D 신호의 2레벨 다이아딕 이산 웨이블릿 변환 및 역변환 과정을 보여주는 블록도이다.
도 4는 2D 신호의 2레벨 다이아딕 이산 웨이블릿 변환에 의하여 생성된 서브밴드의 구성을 보여주는 도면이다.
도 5는 3D 신호의 2레벨 다이아딕 이산 웨이블릿 변환에 의하여 생성된 서브 밴드의 구성을 보여주는 도면이다.
도 6은 리프팅 기반 필터링(lifting-based filtering)을 보여주는 블록도이다.
도 7a 내지 도 7c는 본 발명의 실시예에 따른 3가지 스캔 방향을 보여주는 도면이다.
도 8a 내지 도 8c는 본 발명의 일 실시예에 따라 LHL 서브밴드의 (2, 2, 2)를 제로코딩(ZC)하는 과정을 설명하기 위한 도면이다.
도 9a는 본 발명의 효과를 보여주기 위한 실험에 이용된 akiyo 영상이고, 도 9b는 claire 영상, 및 도 9c는 hall monitor 영상이다.
도 10a는 서로 다른 부호화 방법에 따라 부호화된 akiyo 영상의 R-D 곡선을 비교하여 보여주는 그래프이고, 도 10b는 claire 영상의 R-D 곡선을 비교하여 보여주는 그래프이고, 그리고 도 10c는 hall monitor 영상의 R-D 곡선을 비교하여 보여주는 그래프이다.
도 11a는 본 발명의 효과를 보여주기 위한 다른 실험에 이용된 waterfall 영상이고, 도 11b는 paris 영상이다.
도 12a는 서로 다른 부호화 방법에 따라 부호화된 waterfall 영상의 R-D 곡선을 비교하여 보여주는 그래프이고, 도 12b는 paris 영상의 R-D 곡선을 비교하여 보여주는 그래프이다.
도 13a는 본 발명의 효과를 보여주기 위한 또 다른 실험에 이용된 jet 영상이고, 도 13b는 panslow 영상이다.
도 14a는 서로 다른 부호화 방법에 따라 부호화된 jet 영상의 R-D 곡선을 비교하여 보여주는 그래프이고, 도 14b는 panslow 영상의 R-D 곡선을 비교하여 보여주는 그래프이다.
본 발명은 영상 부호화 및 복호화에 관한 것으로, 보다 구체적으로 웨이블릿 변환을 이용하는 영상 부호화 방법 및 장치와 이러한 영상 부호화 방법에 따라서 부호화된 압축 영상의 복호화 방법 및 장치에 관한 것이다.
영상은 텍스트에 비해 정보량이 많기 때문에, 영상 정보를 저장하거나 전송할 때 저장 공간을 효율적으로 사용하고 또한 저장과 전송 시간을 줄이기 위하여 영상 압축 기술이 필요하다. 현재, 정지 영상 압축에 관한 국제 표준인 JPEG, 그리고 동영상에 관한 압축 규격인 MPEG-2, MPEG-4, H.264/AVC 등 많은 국제 표준이 제정되어서 영상의 압축에 이용되고 있다.
그런데 영상을 블록 단위로 이산 여현 변환(Discrete Cosine Transform, DCT)하는 기존의 압축 기술들은 저전송 비트율에서 블록화 현상이 나타나게 된다. 이러한 현상을 막기 위해 영상 전체를 변환시키는 이산 웨이블릿 변환(Discrete Wavelet Transform, DWT)에 대한 연구가 활발하게 진행되고 있다. DWT된 영상은, 변환 후 주파수 성분만을 포함하는 DCT된 영상과는 달리, 변환 후에 주파수와 시간 성분을 포함하는 특성을 보인다. 또한, DWT을 이용한 압축 기술은 다양한 해상도와 화질로 영상을 복원하여 재생할 수 있다.
DWT를 이용한 영상 부호화 기술로는 Shapiro가 "Embedded image coding using zerotrees of wavelets coefficients"(IEEE Trans. Signal Processing, vol.41, pp.3445-3462, Dec. 1993)에서 처음으로 계층적인 구조를 이용해 중요 정 보를 먼저 보내는 Embedded Zerotree Wavelet(EZW) 알고리즘을 소개하였고, Said 와 Pearlman이 "A new fast and efficient image codec based on set partitioning in hierarchical trees"(IEEE Trans. Circuits and Systems for Video Technology, vol.6, pp.243-250, June 1996)에서 집합 분할 정렬 알고리즘을 기반으로 Set Partitioning in Hierarchical Trees(SPIHT) 알고리즘을 제안하였다.
특히, "High performance Scalable Image Compression With EBCOT"(IEEE Transactions on Image Processing, Vol 9, No.7, pp. 1158-1170, July 2000)에서 David Taubman에 의해 제안된 Embedded Block Coding with Optimized Truncation(EBCOT)은 웨이블릿변환된 영상의, 서로 다른 밴드 간의 상관도를 이용해 압축하는 기존의 방법과는 달리, 밴드 내에서 이웃하는 계수들 간의 상관도를 이용하여 압축한다. 이는 정지 영상 압축 표준인 JPEG2000의 핵심 알고리즘으로 사용되고 있다.
상기한 EBCOT은 다른 알고리즘에 비해 높은 압축률을 나타내고 기존의 JPEG에 비해 정지 영상에서 2dB 이상의 성능 향상을 보이는 장점이 있지만, 데이터의 양이 많은 동영상의 경우나 3차원 영상의 경우에는 활용하기가 어렵다. 동영상의 경우 시간 성분을 3차원 영상의 경우 Z축의 공간 성분을 추가로 이용해 압축 성능을 향상시킬 수 있는 알고리즘이 필요하다.
최근 연구되고 있는 웨이블릿변환을 이용한 동영상 압축 기술은, 기존의 동영상 압축 기술과 마찬가지로 주파수의 시간적 위치 정보로서 움직임 예측 및 보상을 이용한 웨이블릿변환을 수행하고 압축한다. 그러나 이러한 동영상 압축 기술은 움직임이 거의 없는 영상의 경우 움직임 벡터에 의해 추가되는 정보가 많아지므로 압축 효율을 기대하기 어려울 뿐만 아니라, 3차원 영상의 경우에는 움직임 정보를 추출할 수가 없으므로 적용할 수가 없는 단점이 있다.
본 발명이 이루고자 하는 기술적 과제는 저전송 비트율에서도 블록화 현상이 나타나지 않고 다양한 해상도와 화질로 영상을 복원할 수 있으며, 영상, 특히 움직임이 적은 동영상이나 3차원 영상의 압축률을 보다 향상시킬 수 있는 동영상 또는 3차원 영상의 부호화/복호화 방법 및 장치를 제공하는데 있다.
상기한 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 영상 부호화 방법은 n 프레임(n은 2이상의 정수)으로 구성된 입력 영상의 3D 이산 웨이블릿 변환되고 양자화된 계수를 다수의 3D 코드블록으로 분할하는 단계, 분할된 상기 다수의 3D 코드블록 각각을 서로 수직인 3개의 평면 방향으로 각각 스캔하고 각 스캔 방향에 대하여 산술 부호화를 수행하는 단계, 및 상기 3개의 평면 방향에 각각에 따라 산술 부호화된 데이터의 부호화 효율을 비교하여, 가장 부호화 효율이 높은 평면 방향으로 산술 부호화된 데이터를 추출하는 단계를 포함한다.
상기 실시예의 일 측면에 의하면, 상기 n 프레임으로 구성된 입력 영상은 XYZ 방향을 갖는 3D 영상 또는 XYT 방향을 갖는 동영상이고, 상기 서로 수직인 3개의 평면은 각각 XY 평면, ZX 평면, 및 ZY 평면 또는 XY 평면, TX 평면, 및 TY 평면일 수 있다.
상기 실시예의 다른 측면에 의하면, 상기 산술 부호화를 수행하기 이전에 서로 수직인 3개의 평면 방향으로 각각 스캐닝된 계수에 대한 비트 모델링을 수행하고, 상기 비트 모델링된 데이터에 대하여 상기 산술 부호화를 수행하기 위한 컨텍스트를 적응적으로 선택하여 상기 산술 부호화를 수행할 수 있다.
상기한 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 영상 부호화 장치는 n 프레임(n은 2이상의 정수)으로 구성된 입력 영상을 3D 이산 웨이블릿 변환하여 변환 계수를 생성하기 위한 3D 이산 웨이블릿 변환 유닛, 상기 변환 계수들을 양자화하여 양자화된 계수를 생성하기 위한 양자화 유닛, 상기 양자화된 계수를 다수의 3D 코드블록으로 분할하고, 분할된 상기 다수의 3D 코드블록 각각을 서로 수직인 3개의 평면 방향으로 각각 스캔하고 각 스캔 방향에 대하여 산술 부호화를 수행하기 위한 엔트로피 부호화 유닛, 및 상기 엔트로피 부호화 유닛에서 상기 3개의 평면 방향에 각각에 따라 산술 부호화된 데이터의 부호화 효율을 비교하여, 가장 부호화 효율이 높은 평면 방향으로 산술 부호화된 데이터를 추출하기 위한 비트스트림 추출 유닛을 포함한다.
상기한 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 헤더 정보는 상기한 본 발명의 일 실시예에 따른 영상 부호화 방법 또는 영상 부호화 장치에 의하여 부호화되어 추출된 영상 데이터의 비트스트림에 대한 헤더 정보로서, 상기 추출된 비트스트림의 스캔 방향을 지시하는 코드워드를 포함한다.
상기한 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 영상 복호화 방법은 부호화된 n 프레임(n은 2이상의 정수)의 영상 데이터의 비트스트림에 대 한 헤더 정보로부터 상기 비트스트림의 스캔 방향을 판정하는 단계, 상기 판정된 스캔 방향에 따라 상기 비트스트림에 대한 엔트로피 복호화하는 단계 및 상기 엔트로피 복호화된 데이터에 대한 역양자화 과정 및 3D 웨이블릿 역변환 과정을 수행하여 상기 n 프레임으로 구성된 영상을 복원하는 단계를 포함한다.
상기 실시예의 일 측면에 의하면, 상기 엔트로피 복호화 단계에서는 상기 판정된 스캔 방향에 따라 IEBCOT 과정을 수행할 수 있다.
상기한 기술적 과제를 달성하기 위한 본 발명의 일 실시예에 따른 영상 복호화 장치는 부호화된 n 프레임(n은 2이상의 정수)의 영상 데이터의 비트스트림에 대한 헤더 정보로부터 상기 비트스트림의 스캔 방향을 판정하기 스캔 방향 판정 유닛, 상기 판정된 스캔 방향에 따라 상기 비트스트림에 대한 엔트로피 복호화를 수행하기 위한 엔트로피 복호화 유닛, 상기 엔트로피 복호화된 데이터에 대한 역양자화 과정을 수행하기 위한 역양자화 유닛, 및 상기 역양자화된 데이터에 대한 3D 웨이블릿 역변환 과정을 수행하여 상기 n 프레임으로 구성된 영상을 복원하기 위한 3D 웨이블릿 역변환 유닛을 포함한다.
이하에서는, 첨부 도면을 참조하여 본 발명의 실시예에 대하여 상세하게 설명한다. 이러한 실시예는 본 발명의 기술적 사상을 설명하기 위한 것이므로, 본 발명의 기술적 사상은 이 실시예에 의하여 한정되는 것으로 해석되어서는 안된다. 그리고 이하의 실시예의 설명에서 각각의 구성요소의 명칭은 당업계에서 다른 명칭으로 호칭될 수 있는데, 이들이 기능적 유사성과 동일성이 있다면 변형된 명칭을 사용하더라도 본 발명의 실시예와 균등한 구성이라고 볼 수 있다. 마찬가지로 도면상의 구성을 일부 변형한 실시예가 채용되더라도 기능적 유사성과 동일성이 있다면 양자는 균등한 구성으로 볼 수 있다. 본 실시예에 대한 설명 및 도면에서 각각의 구성요소에 부가된 참조 부호는 단지 설명의 편의를 위하여 기재된 것일 뿐이다.
본 발명에서는 JPEG2000에서 채용한 엔트로피 부호화 기술인 EBCOT을 동영상 또는 3차원 영상에 적용한 것으로서, 움직임 추정 없이 소정 단위(예컨대 16프레임이나 32프레임)의 동영상이나 3차원 영상을 우선 3D DWT한 후에 X-Y-T 방향이나 또는 X-Y-Z 방향에 따른 상관도를 이용해 EBCOT을 적용함으로써 영상의 압축률을 향상시킨다. JPEG2000은 국제 표준화 기구 ISO/IEC(International Electrotechnical Commission) JTC1 (Joint Technical Committee1) / SC29 (Subcommittee29) 산하의 작업 그룹 (WG01)에서 제정한 정지 영상 압축 기술 JPEG의 차세대 압축 기술이다. JPEG2000의 특징 중의 하나는 기존 DCT가 가지는 블록화 현상의 한계를 극복하기 위하여 DCT를 DWT로 대체하고 엔트로피 코딩 시에 산술부호화 방식(tier-1 coding)을 사용한다는 것이다. 이것은 웨이블릿 변환된 계수를 부호화할 경우에 발생하는 통계적 특성을 이용하여 높은 압축 성능을 이루기 위한 것이다.
도 1a 및 도 1b는 본 발명의 일 실시예에 따른 부호화 알고리즘과 복호화 알고리즘을 각각 보여주는 블록도이다. 이하, 도 1a 및 도 1b를 참조하여, 본 발명 의 일 실시예에 따른 부호화 알고리즘과 복호화 알고리즘에 대하여 개략적으로 설명한다.
우선 도 1a를 참조하면, 먼저 3D 입력 영상의 모든 픽셀 값들에서 일정한 값, 예컨대 8비트 영상의 경우에는 128을 빼는 DC 레벨 쉬프트(DC level shift, 110) 과정을 수행한다. 이는 픽셀 값들을 0값 주위로 이동시켜서 구현을 보다 간단하게 하기 위한 것이다. 본 실시예에 의하면, '3D 입력 영상'은 2차원의 동영상을 일정한 시간 단위(예컨대 소정의 수의 프레임 단위로서 적어도 4프레임 이상인 것이 바람직하며, 부호화 지연을 방지하기 위하여 16프레임이나 32프레임 정도가 되는 것이 바람직하다)로 축적한 영상(즉, X축, Y축, 및 T축을 갖는 영상)이거나 또는 3차원의 입체 영상(즉, X축, Y축, 및 Z축을 갖는 영상)일 수 있다. 전자의 경우에는 특히 상기 동영상이 움직임이 거의 없거나 또는 움직임 적은 것이 바람직한데, 왜냐하면 후술하는 바와 같이 본 실시예는 특히 움직임 적은 동영상의 경우에 부호화 효율이 보다 많이 향상되기 때문이다. 그러나 본 발명의 실시예에 이러한 경우에만 한정되는 것은 아니며, 움직임이 많은 동영상에도 적용이 가능하다.
계속해서 3D 입력 영상이 칼라 영상인 경우에는 RGB 성분을 YUV 성분으로 변화시키는 요소 변환(forward component transform, 120)을 수행한다. 그리고 요소 변환된 3D 입력 영상에 대하여 하나 또는 그 이상의 레벨들로 된 각 서브밴드들로 나누기 위한 3D DWT(3D forward DWT, 130)를 수행하여 웨이블릿 계수를 구한다. 3D DWT(130)에 대한 구체적인 내용은 뒤에서 상세히 설명한다. 3D DWT(130)를 수행한 다음에는 양자화 과정(140)을 수행하여 양자화 계수를 구하고, 3D DWT되고 양 자화된 계수에 대하여 3D EBCOT 과정(150)을 수행한다. 계속해서 패킷화 과정(예컨대 tier-2 coding)을 수행한 다음 비트스트림을 생성하여 출력한다.
다음으로 도 1b를 참조하여 본 실시예에 따른 복호화 알고리즘에 대하여 설명한다. 도 11b를 참조하면, 본 실시예에 따른 복호화 알고리즘에서는 전술한 부호화 과정의 반대로 복호화가 진행된다. 즉, 우선 복호화 장치로 수신되는 비트스트림(부호화된 영상)에 대하여 패킷 복호화를 수행한 다음, 3D 역 EBCOT 과정(3D inverse EBCOT, 250)을 수행하여 엔트로피 복호화를 한다. 그리고 역양자화 과정(inverse quantization, 240), 3D 역 DWT 과정(3D inverse DWT, 230), 및 요소 역변환 과정(inverse component transform, 220)을 순차적으로 수행하여 픽셀 값을 복원한 다음, 계속해서 역방향 DC 레벨 쉬프트 과정(inverse DC level shift, 210)을 수행하여 부호화 과정에서 빼준 값만큼 더해서 재구성된 영상을 복원한다.
이하에서는 이상에서 개략적으로 설명한 본 실시예에 따른 3D DWT 기반 부호화/복호화 알고리즘에 대하여 상세히 설명한다.
DC 레벨 쉬프트(DC Level Shift, 110 및 210)
전술한 바와 같이, 순방향 DC 레벨 쉬프트 과정(110)에서는 3D 입력 영상의 모든 픽셀값에 일정한 값을 빼지만, 역방향 DC 레벨 쉬프트 과정(210)에서는 부호화 과정에서 빼준 값을 더한다. 예컨대 8비트 영상의 경우에는 픽셀값이 0~255의 값을 가지며, 일반적으로 중간 픽셀값인 128을 중심으로 값이 좌우로 분포한다. 따라서 순방향 DC 레벨 쉬프트 과정(110)에서 모든 픽셀값에 128을 뺌으로써 그 값이 0을 중심으로 그 주위에 분포되도록 하고, 역방향 DC 레벨 쉬프트 과정(210)에서는 부호화 과정에서 빼준 값인 128을 더한다. 이러한 순방향 DC 레벨 쉬프트 과정(110)은 이후 계산을 간단하게 할 뿐만 아니라 부호화/복호화 시스템의 구현도 보다 용이하게 만들어 준다.
요소 변환 및 요소 역변환(Component Transform, 120 및 220)
3D 입력 영상은 흑백 영상 또는 칼라 영상이 될 수 있다. 따라서 흑백 영상의 경우에는 하나의 성분만을 갖게 되므로 순방향 요소 변환 과정(120) 및 요소 역변환 과정(220)이 필요하지 않지만, 3D 입력 영상이 칼라 영상일 경우에는 RGB 포멧을 YUV 포멧으로 바꾸는 요소 변환 과정(120)이 필요할 수 있다. 그러나 3D 입력 영상이 RGB 포멧이더라도 YUV로 변환하지 않고 RGB값을 그대로 부호화하는 경우에는 본 과정은 생략이 가능하다.
요소 변환(120, 220) 과정에는 2가지의 칼라 변환 즉, 손실 압축에서만 사용하는 비가역 요소 변환(Irreversible Component Transform, ICT)과 손실 압축과 무손실 압축 모두에서 사용하는 가역 요소 변환(Reversible Component Transformation, RCT) 중의 한 가지 방법을 이용해 RGB 포멧을 YUV 포멧으로 변환할 수 있다. 예를 들어, 순방향 비가역 요소 변환(Forward ICT)과 비가역 요소 역변환(Inverse ICT)은 각각 다음의 수학식 1 및 수학식 2를 이용하여 수행할 수 있다.
그리고 순방향 가역 요소 변환(Forward RCT)과 가역 요소 역변환(Inverse RCT)은 각각 다음의 수학식 3 및 수학식 4를 이용하여 수행할 수 있다.
3차원 이산
웨이블릿
변환(3D
Discrete
Wavelet
Transform
, 130 및 230)
웨이블릿 변환은 기저 함수를 이용해 시간 도메인을 웨이블릿 도메인으로 대 응시킨다. 신호가 가진 에너지는 대부분이 저대역 계수에 집중된다. 1D 웨이블릿 변환의 기본적인 수행 과정은 입력 영상을 하이패스(highpass, H)와 로우패스(lowpass, G) 분해 필터를 통과시킨 후에 다운 샘플링을 하는 것이다. 그리고 저대역폭 데이터를 가지고 상술한 필터링과 다운 샘플링을 여러 번 반복할 수 있는데, 이를 통하여 다해상도 또는 다레벨 분해(multi-resolution or multi-level decomposition)가 가능하다.
또한 이러한 1D 웨이블릿 변환의 기본적인 과정을 2D 데이터에 대하여 X, Y 방향으로 연속적으로 수행하는 2D 웨이블릿 변환에 의하여 LL, LH, HL, 및 HH의 서브밴드를 구성하고, 3D 데이터에 대해서는 X, Y, Z 또는 X, Y, T 방향으로 연속적으로 수행하는 3D 웨이블릿 변환에 의하여 LLL, LLH, LHL, LHH, HLL, HLH, HHL, 및 HHH의 서브밴드를 구성할 수 있다. 본 실시예에서는 입력 영상이 3D 입체 영상이거나 또는 소정의 시간 동안 누적된 다수의 2차원 영상이므로, 3D 웨이블릿 변환 즉 순방향 3D 웨이블릿 변환(130) 및 3D 웨이블릿 역변환(230)이 적용된다. 이하에서는 1D 웨이블릿 변환 및 2D 웨이블릿 변환에 대하여 먼저 간단히 살펴보고 3D 웨이블릿 변환에 대하여 자세히 설명하기로 한다.
1D DWT을 위한 일반적인 과정은 도 2와 같다. 도 2를 참조하면, 1D 순방향 DWT에서 영상은 저주파 필터(G0)와 고주파 필터(H0)를 한번 통과 한 후 1/2로 다운 샘플링(down-sampling, 도 2에서 '↓2'로 표시)된다. 반대로 1D 역방향 DWT에서 2배로 업 샘플링(up-sampling, 도 2에서 '↑2'로 표시)한 후에 각 신호는 저주파 합성 필터(G1)와 고주파 합성 필터(H1)를 통과한다. 이러한 순방향의 필터와 역방향 의 필터는 각각 분해 필터(analysis filter)와 합성 필터(synthesis filter)로 불린다.
다레벨 분해에서는 1D DWT의 결과 생성된 서브밴드 중에서 어떠한 대역의 신호를 필터링과 다운 샘플링하는가에 따라서 다이아딕 변환(dyadic transformation)과 임의의 웨이블릿 변환으로 나뉜다. 전자는 각 단계마다 저주파 신호에 대하여 필터링과 다운 샘플링을 반복하는 것을 말하고, 후자는 말 그대로 임의의 영역에 대하여 필터링과 다운 샘플링을 수행하는 것으로서, 일반적으로 전자의 DWT가 주로 이용된다.
도 3에는 1D 신호의 2레벨 다이아딕 분해 및 복원 과정이 도시되어 있다. 도 3을 참조하면, 저주파 필터(G0)를 통과한 저주파 대역의 신호에 대하여 다시 한번 저주파 필터(G0)와 고주파 필터(H0)를 통과시킴으로써 2레벨의 웨이블릿 변환이 이루어진다. 그리고 도 3을 참조하면, 복원 과정에서는 상기 분해 과정의 반대 과정이 벌어진다는 것을 알 수 있다.
상술한 1D DWT는 2차원 입력 영상(신호)의 행 방향과 열 방향 각각에 적용함으로써 2D DWT로 확장하는 것이 가능하다. 2D 순방향 DWT에 의하여, 2차원 신호는 가로와 세로 모두 저주파 대역인 LL 서브밴드, 가로 방향으로 저주파와 세로 방향으로 고주파 대역인 LH 서브밴드, 가로 방향으로 고주파와 세로 방향으로 저주파 대역인 HL 서브밴드, 및 가로 세로 모두 고주파 대역인 HH 서브밴드로 구성된 4가지 대역으로 분해하는 것이 가능하다. 그리고 생성된 LL 서브밴드에 대하여 다시 2D 순방향 DWT를 수행함으로써 2차원 신호에 대해서도 2레벨 웨이블릿 분해 과정을 수행할 수도 있다. 이러한 2차원 신호에 대한 2레벨 웨이블릿 분해 과정에 의하여 생성되는 각각의 서브밴드를 포함하는 구성은 도 4에 도시되어 있다.
또한 상술한 1D DWT는, 본 실시예에서와 같이, 3차원 입력 영상(신호)의 X축, Y축, 및 Z축 (또는 T축) 방향에 적용함으로써 3D DWT로 확장하는 것도 가능하다. 3차원 입력 영상에 대하여 1D DWT를 연속적으로 X축, Y축, 및 Z축 (또는 T축)에 수행함으로써 8개의 서버밴드 즉 LLL, LLH, LHL, LHH, HLL, HLH, HHL, 및 HHH의 서버밴드가 구성된다. 그리고 이러한 3차원 입력 영상에 대해서도 멀티-레벨의 웨이블릿 분해 과정을 수행할 수 있다. 도 5에는 2레벨로 3D DWT된 영상의 각 서브밴드의 구성이 도시되어 있다.
본 실시예의 일 측면에 의하면, 상술한 DWT 과정의 1D 신호에 대한 필터링 과정에서는 리프팅 기반 필터링(lifting-based filtering)을 이용할 수도 있다. 리프팅 기반 필터링 과정을 보여주는 블록도는 도 6에 도시되어 있다.
도 6을 참조하면, 리프팅 기반 필터링은 분리(split) 과정(32), 예측(predict) 과정(34), 및 업데이트(update) 과정(36)으로 구성된다. 입력되는 1D 신호(x[n])는 분리 과정(32)에서 짝수와 홀수 신호로 쪼개진다. 그리고 짝수 신호는 예측 과정(34)에서 예측 필터를 거친 후에 홀수 신호와의 차분을 수행함으로써 y1[n]의 고주파 신호를 만든다. 그리고 생성된 고주파 신호 y1[n]는 업데이트 과정(36)에서 업데이팅 필터를 통과한 다음 짝수 신호와 더해져 y0[n]의 저주파 신호 를 생성한다.
이러한 리프팅 기반 필터링은 2가지의 장점이 있다. 우선 이러한 리프팅 기반 필터링을 구현하는 것은 기존의 컨볼루션 기반 필터링(convolution-based filtering)을 구현하는 것에 비하여 복잡도가 낮다. 표 1에는 기존의 컨볼루션 기반 필터링과 리프팅 기반 필터링의 구현의 복잡도를 비교한 것인데, 표 1을 참조하면 알 수 있는 바와 같이 리프팅 기반 필터링에 의하면 곱셈 연산(multiplications)과 덧셈 연산(additions)의 횟수가 상대적으로 적다. 또한, 리프팅 기반 필터링에 의하면 입력 신호의 값을 메모리의 해당 위치에 덮어 기록하기 때문에 메모리를 효율적으로 관리할 수 있는 이점이 있다.
양자화(quantization, 140) 또는 역양자화(inverse-quantization, 240)
본 실시예에 따른 부호화 알고리즘에서의 양자화 과정(140)과 복호화 알고리즘에서의 역양자화 과정(140)에서는 이 분야의 통상적인 방법, 예컨대 JPEG2000에 규정되어 있는 양자화 과정이 그대로 적용될 수 있다. 그러나 본 실시예에 적용될 수 있는 양자화 및 역양자화 과정이 여기에 한정되는 것은 아니다.
예를 들어, 양자화 과정에서는 3D DWT(130)한 후에 서브밴드 b의 각 계수 a b (x, y)는 다음의 수학식 5를 이용하여 양자화된다.
여기서 △b는 서브밴드 b의 양자화 크기이다. 무손실 압축에서 △b는 모든 서브밴드에서 값이 1이 된다. 손실 압축에서는 수학식 6과 같이 에너지 가중치인 γb로 기본 양자화 크기를 나눠서 구하게 된다.
이러한 양자화 과정을 수행하게 되면 데드존(dead zone)을 포함하는 영역이 다른 영역에 비해 2배의 구간을 갖게 된다.
3D EBCOT(150) 또는 3D 역 EBCOT(250)
다음으로 3D DWT되고 양자화된 계수에 대하여 엔트로피 코딩을 수행한다. 이러한 엔트로피 코딩에는 예컨대 JPEG 2000의 EBCOT(tier-1 coding)가 적용될 수 있는데, 본 실시예에서는 입력 영상이 3D 영상이므로 2차원의 데이터에 적용되는 JPEG2000의 EBCOT이 그대로 적용되는 것은 아니다. 본 실시예에 따른 EBCOT에서는 우선, 3차원의 데이터(nㅧ nㅧ n의 크기를 갖는 다수의 3D 코드 블록)에 대하여 XY 방향, ZY (또는 TY) 방향, 및 ZX (또는 TX) 방향으로 순차적으로 스캔한다. 그리 고 XY 방향, ZY (또는 TY) 방향, 및 ZX (또는 TX) 방향으로 스캔된 코드 블록의 각 계수는 비트 모델링과 산술 부호화기를 이용하여 각각 부호화하고, 그 중에서 부호화 효율이 가장 우수한 스캔 방향으로 부호화된 데이터만을 선택하여 비트스트림으로 만들어서 복호화 장치로 전송한다. 이하, 이에 대하여 보다 구체적으로 설명한다.
우선 3D DWT되고 양자화된 계수를 nㅧ nㅧ n의 크기를 갖는 다수의 3D 코드 블록으로 나눈다. 이는 후속 과정인 산술부호화 과정에서 웨이블릿 변환된 계수의 통계가 비슷한 코드 블록 단위로 부호화하기 위한 것이다.
계속해서 각각의 3D 코드 블록에 대하여 XY 방향, TY (또는 ZY) 방향, 및 TX (또는 ZY) 방향으로 스캔을 수행한다. 여기서 XY 방향으로 스캔을 수행한다는 것은, 도 7a에 도시되어 있는 것과 같이, 각 3D 코드 블록의 첫 번째 영상의 왼쪽 위 좌표를 (0,0,0)으로 설정한 경우에, (0,0,0), (0,1,0), (0,2,0), (0,3,0), (1,0,0), (1,1,0), (1,2,0),…, (7,3,0), (0,4,0), (0,5,0),…, (7,7,0), (0,0,1), (0,1,1), (0,2,1),…, (7,7,3)의 순서로 웨이블릿 변환된 계수를 스캔하는 것이다. 그리고 TY (또는 ZY) 방향으로 스캔을 수행한다는 것은, 도 7b에 도시되어 있는 것과 같이, (0,0,0), (1,0,0), (2,0,0), (3,0,0), (0,1,0), (1,1,0), (2,1,0),…, (3,7,0), (4,0,0), (5,0,0),…, (7,7,0), (0,0,0), (1,0,0), (2,0,0),…, (7,7,3) 순서로 웨이블릿 변환된 계수를 스캔하는 것이고, TX (또는 ZY) 방향으로 스캔을 수행한다는 것은, 도 7c에 도시되어 있는 것과 같이, (0,0,0), (0,1,0), (0,2,0), (0,3,0), (0,0,1), (0,1,1), (0,2,1),…, (0,3,3), (1,0,0), (1,1,0),…, (7,3,3), (0,4,0), (0,5,0), (0,6,0), (0,7,3), (1,4,0),…, (7,7,3) 순서로 웨이블릿 변환된 계수를 스캔하는 것이다.
본 실시예의 다른 측면에 의하면, 전술한 XY 방향의 스캔 방향 대신에 YX 방향으로 스캔을 수행할 수도 있다. 그리고 전술한 TX (또는 ZX) 방향 대신에 XT (또는 ZT) 방향으로, 전술한 TY (또는 ZY) 방향 대신에 YT (또는 YZ) 방향으로 스캔을 수행할 수도 있다.
이와 같이 스캔된 각 코드 블록의 계수는 웨이블릿 기반 압축 코더에서 사용하는 비트 평면 단위로 코딩하기 위하여 비트 모델링을 수행한다. 여기에서 각 코드 블록은 독립적으로 부호화되며 각 코드 블록에서 웨이블릿 계수들은 0이 아닌 가장 중요한 비트 평면(most significant bit-plane, MSB)부터 가장 중요하지 않은 비트 평면(least significant bit-plane, LSB)으로 코딩된다. 하나의 비트 평면에는 3가지의 코딩패스(coding pass), 즉 Significant Propagation Pass(SPP), Magnitude Refinement Pass(MRP), Clean Up Pass(CPP)가 존재한다. 그리고 이러한 코딩패스에는 다음과 같이 Zero Coding(ZC), Sign Coding(SC), Magnitude Refinement(MR), 및 Run-Length Coding(RLC)의 4가지 기능이 존재한다.
이와 같은 비트 모델링을 통한 부호화 과정에서는, 이웃하는 계수의 특성을 고려하여 컨텍스트를 선택하고 이에 맞는 산술 부호화기를 사용하여 산술 부호화를 수행한다. 이 경우에 상기 컨텍스트의 선택은 예컨대, 다음의 표 2, 3, 4, 5와 같이 ZC에는 9개, SC에는 5개, MR에는 3개가 있을 수 있다.
표 2는 ZC에서의 컨텍스트 분류표이다. 표 2에 기술되어 있는 바와 같이, ZC에서는 밴드 별로 다른 이웃 계수들에 가중치를 두어 컨텍스트를 정하게 된다.
표 3에는 SC의 기여(contribution)를 위한 표가 도시되어 있고, 표 4에는 SC를 위한 컨텍스트 분류표가 도시되어 있다. 표 3 및 표 4를 참조하면, SC에는 이웃 계수의 중요도와 부호에 따라 상기 기여를 선택하고 해당 컨텍스트에서의 XORbit와 XOR한 계수의 값을 산술부호화 한다. 그리고 표 5에는 MR을 위한 컨텍스트 분류표가 도시되어 있다.
전술한 산술 부호화기의 특징은 특정 비트가 나올 확률이 높을 경우 압축 효율이 증가 하게 된다. 따라서 여러 개의 산술 부호화기를 사용해 특정 비트가 나올 확률이 높도록 컨텍스트를 이용해 분류하게 되는 것이다. 그러나 산술 부호화기의 수를 늘리므로 오히려 확률이 분산되는 경우가 생길 수 있기 때문에 산술 부호화기의 수는 적정하게 선택하는 것이 바람직하다.
본 실시예에 따른 3D EBCOT 과정(150)에서는, 전술한 바와 같이 우선 양자화된 계수를 소정의 크기를 갖는 3차원 코드 블록으로 분할한 다음, 분할된 코드 블록 각각을 XY 방향, TY (또는 ZY) 방향, 및 TX (또는 ZX) 방향으로 각각 스캔하여 비트 모델링을 수행한다. 그리고 각 방향으로 스캔되어 비트 모델링된 데이터에 대하여 산술 부호화를 수행하는데, 이러한 산술 부호화를 위하여 상기 스캔 방향을 고려하여 상기한 JPEG 2000의 EBCOT에서 제안한 컨텍스트를 이용하여 적절한 컨텍스트를 선택한다.
이러한 과정을 LHL 밴드의 경우 (2,2,2)에 대하여 ZC을 수행한다고 가정을 하고, 도 8a 내지 도 8c를 참조하여 보다 자세히 설명한다. 본 실시예에서는, 후술하는 ① 내지 ③에 기술된 바와 같이, 선택된 밴드의 방향과 이웃 계수들의 위치에 따라 선택된 컨텍스트에 따라 ZC을 하여 산술 부호화를 수행한다.
① XY 방향의 경우, 도 8a에 도시된 바와 같이, 스캔 후 XY 방향의 주파수 성분 LH 방향을 선택하고 다음에 해당하는 위치를 H0, H1, V0, V1, D0, D1, D2, D3로 하고 컨텍스트를 선택한다.
② 그리고 TX 방향의 경우, 도 8b에 도시된 바와 같이, 스캔 후 TX 방향의 주파수 성분 LL 방향을 선택하고 다음에 해당하는 위치를 H0, H1, V0, V1, D0, D1, D2, D3로 하고 컨텍스트를 선택한다.
③ 또한, TY 방향의 경우에 도 8c에 도시된 바와 같이, 스캔 후 TY 방향의 주파수 성분 LH 방향을 선택하고 다음에 해당하는 위치를 H0, H1, V0, V1, D0, D1, D2, D3로 하고 컨텍스트를 선택한다.
계속해서 XY 방향, ZY (또는 TY) 방향, 및 ZX (또는 TX) 방향으로 각각 스캔되어 비트 모델링과 산술 부호화기를 이용하여 부호화된 데이터들에 대한 부호화 효율을 비교하여, 그 중에서 가장 부호화 효율이 가장 높은 데이터(즉, 부호화된 데이터의 비트수가 가장 적은 것)만을 추출하여 비트스트림으로 만들어서 저장 매체에 저장하거나 복호화 장치로 전송한다. 이와 같이 부호화 효율이 가장 높은 데이터만을 선택하는 과정은 min(BLXY, BLTX, BLTY) 또는 min(BLXY, BLZX, BLZY)로 표현할 수 있다(여기서, min(x, y, z)는 x, y, 및 z 중에서 가장 작은 값을 나타내고, BLa는 a 방향에 따라 스캔한 뒤 부호화한 코드 블록의 바이트 수를 나타낸다).
그런데, 본 발명에 따라서 부호화되어 전송된 비트스트림을 복호화 장치에서 재생하기 위해서는, 수신된 비트스트림에 어떤 방향으로 스캔되어 산술 부호화된 것인지에 대한 정보가 포함되어 있어야 한다. 즉, 수신된 비트스트림에 스캔 방향에 대한 정보가 포함되어 있어야, 3D 역 EBCOT 과정(250)에서 그 방향에 따라 디코딩을 한다. 따라서 비트스트림에 포함되어 복호화 장치로 전송되는 헤드 정보에는 스캔 방향(Orient)을 나타내는 정보가 포함된다. 이러한 스캔 방향에 대한 정보는 예컨대 XY 방향의 경우 00, TX (또는 ZX) 방향의 경우 01, TY (또는 ZY) 방향의 경우 10의 코드워드(codeword)로 보낼 수 있다. 이러한 코드워드는 다른 방법으로 할당하는 것이 가능하다는 것은 당업자에게 자명하다.
실험 결과 및 고찰
이하에서는 본 발명의 일 실시예에 따라 제안된 알고리즘의 압축 성능을 기존의 동영상 압축 표준인 H.264/AVC, 2차원 정지영상 압축인 JPEG2000, 및 EBCOT을 3차원 웨이블릿 변환하여 2차원 컨텍스트를 적용한 알고리즘과 비교하여 실험한 결과에 대하여 설명한다.
본 실험에서 복원된 영상의 왜곡 정도는 수학식 7과 같이 최대 신호 대 잡음비 즉, PSNR을 이용하여 측정하였다. 수학식 7에서 MSE(Mean Square Error)는 원영상과 복원 영상의 평균 제곱 오차를 의미한다.
첫 번째 실험은 QCIF 영상에 대하여 수행되었으며, 사용된 영상은 도 9a의 akiyo 영상, 도 9b의 claire 영상, 및 도 9c의 hall monitor 영상이다. 그리고 본 실험에서 적용된 세부적인 실험 환경은 다음과 같다.
① 영상의 크기 : 176*144, Gray 32장
② H.264/AVC
- IBBPBBP....
- 탐색 범위(search range) : 16
- CABAC
- 30Hz
③ 본 발명에 따른 알고리즘
- X, Y, T의 분해 레벨(decomposition level) : 3, 3, 2
- X, Y, T의 코드 블락의 크기 : 16, 16, 16
- 무손실 압축 시 5x3 필터
- 손실 압축 시 9x3 필터
④ 3D DWT + 2D 컨텍스트
- X, Y, T의 분해 레벨 : 3, 3, 2
- X, Y, T의 코드 블락의 크기 : 16, 16, 16
- 무손실 압축 시 5x3 필터
- 손실 압축 시 9x3 필터
⑤ JPEG2000
- X, Y의 분해 레벨 : 3, 3
- X, Y의 코드 블락의 크기 : 64, 64
- 무손실 압축 시 5x3 필터
- 손실 압축 시 9x3 필터
도 10a는 akiyo 영상에 대한 R-D(rate-distortion) 곡선이다. 도 10a를 참조하면, 본 발명의 실시예에 따른 알고리즘은 3D DWT 후에 XY 방향으로만 2D 컨텍스트를 적용한 알고리즘에 비해 약 3~5dB의 성능 향상을 보이며, H.264/AVC와 비교해서는 평균 6dB의 압축 성능이 향상 되었다. 또한 JPEG2000과 비교해서는 약 12~13dB 정도의 압축 성능이 향상되었다. Akiyo 영상은 움직임이 적은 영상으로서 본 발명의 따른 알고리즘은 이와 같이 움직임이 적은 영상을 효과적으로 압축해 성능을 향상시킬 수 있다는 것을 알 수 있다.
도 10b는 상기 akiyo 영상과 비슷한 영상의 특성을 보이는 claire 영상에 대한 R-D curve이다. 도 10b를 참조하면, 본 발명에 따른 알고리즘은 3D DWT 후에 XY 방향으로만 2D 컨텍스트를 적용한 알고리즘에 비해 약 3.5~5dB의 성능 향상을 보이며, H.264/AVC와 비교해서는 평균 6~7dB의 압축 성능이 향상 되었다. 그리고 JPEG2000과 비교해서는 약 11~12dB의 압축 성능이 향상되었다. 이러한 Claire 영상 역시 고정된 카메라에 수화를 하는 동작으로서 움직임이 크지 않기 때문에, 본 발명에 따른 알고리즘을 적용하면 압축 성능이 높아 진다는 것을 알 수 있다.
도 10c는 역시 고정된 카메라에 사람들이 지나 다니는 영상인 hall monitor 영상에 대한 R-D curve이다. 도 10c를 참조하면, 본 발명에 따른 알고리즘은 3D DWT 후에 XY 방향으로만 2D 컨텍스트를 적용한 알고리즘에 비해 약 2~5dB의 성능 향상을 보이는 있으며, 비트율이 높은 경우에는 그 차이가 감소하는 경향을 보이고 있다는 것을 알 수 있다. 그리고 H.264/AVC와 비교해서는 평균 5~6dB의 압축 성능이 향상되었고 JPEG2000과 비교해서는 약 10~13dB의 압축 성능이 향상되었지만, 앞의 경우와 마찬가지로 비트율이 높을 경우 그 차이가 약간 감소한다는 것을 알 수 있다.
무손실 압축 시에는 움직임이 가장 적은 akiyo가 압축률이 가장 높다. 표 6을 참조하면, 고정된 카메라 위치지만 사람들이 빠르게 움직이며 다니는 hall monitor는 압축률이 조금 낮다.
두 번째 실험은 CIF 영상에 대하여 수행되었으며, 사용된 영상은 도 11a의 waterfall 영상과 도 11b의 paris 영상이다. 본 실험에서의 세부적인 실험 환경은 다음과 같다.
⑥ 영상의 크기 : 352*288, Gray 32장
⑦ H.264/AVC
- IBBPBBP ...
- 탐색 범위 : 16
- CABAC
- 30Hz
⑧ 본 발명에 따른 알고리즘
- X, Y, T의 분해 레벨 : 4, 4, 2
- X, Y, T의 코드 블락의 크기 : 16, 16, 16
- 무손실 압축 시 5x3 필터
- 손실 압축 시 9x3 필터
⑨ 3D DWT + 2D 컨텍스트
- X, Y, T의 분해 레벨 : 4, 4, 2
- X, Y, T의 코드 블락의 크기 : 16, 16, 16
- 무손실 압축 시 5x3 필터
- 손실 압축 시 9x3 필터
⑩ JPEG2000
- X, Y의 분해 레벨 : 3, 3
- X, Y의 코드 블락의 크기 : 64, 64
- 무손실 압축 시 5x3 필터
- 손실 압축 시 9x3 필터
도 12a는 카메라의 줌(zoom)이 바뀌고 폭포가 떨어지는 waterfall 영상에 대한 R-D curve이다. 도 12a를 참조하면, T축을 이용하는 본 발명에 따른 알고리즘은 앞의 실험과는 달리 3D DWT 한 후에 XY방향으로만 2D 컨텍스트를 적용하는 알고리즘에 비해 약 1dB의 비교적 낮은 성능 향상을 보인다. 이는 waterfall 영상의 경우에 T축의 상관도가 앞의 영상들과는 좀 떨어지기 때문이다. H.264/AVC와 비교해서는 평균 약 3~4dB의 압축 성능이 향상 되었고 JPEG2000과 비교해서는 약 4~6dB의 압축 성능 향상으로 역시 비트율이 높을 경우에는 그 차이가 약간 감소한다는 것을 알 수 있다.
도 12b는 복잡한 배경에 사람이 비교적 빠른 손놀림을 보이는 paris 영상에 대한 R-D curve이다. 도 12b를 참조하면, 본 발명에 따른 알고리즘은 3D DWT한 후에 XY 방향으로만 2D 컨텍스트를 적용한 알고리즘에 비해 약 2~4dB의 성능 향상을 보이는 것을 알 수 있다. 그리고 H.264/AVC와 비교해서는 평균 약 8~10dB 이상의 성능 향상을 보이는데, 다른 실험 영상에 대한 결과와 비교했을 경우에 H.264/AVC에 비하여 압축 성능이 많이 향상되었다는 것을 알 수 있다. 또한, JPEG2000과 비교해서는 약 6~10dB의 압축 성능의 향상이 있으며, 역시 비트율이 높을 경우에 그 차이가 감소한다는 것을 알 수 있다.
배경이 복잡한 waterfall 영상과 paris 영상은 무손실 압축의 경우에는 비교적 압축률의 향상이 높지 않다. 하지만 다른 알고리즘에 비하여 본 발명에 따른 알고리즘에 의할 경우에 압축률이 가장 높다는 것을 다음의 표 7을 참조하면 알 수 있다.
세 번째 실험은 SD 화질의 영상에 대하여 수행되었으며, 사용된 영상은 도 13a의 jet 영상과 도 13b의 panslow 영상이다. 본 실험에서의 세부적인 실험 환경은 다음과 같다.
⑪ 영상의 크기 : 352*288, Gray 32장
⑫ H.264/AVC
- IBBPBBP ...
- 탐색 범위 : 16
- CABAC
- 30Hz
⑬ 본 발명에 따른 알고리즘
- X, Y, T의 분해 레벨 : 5, 5, 2
- X, Y, T의 코드 블락의 크기 : 16, 16, 16
- 무손실 압축 시 5x3 필터
- 손실 압축 시 9x3 필터
⑭ 3D DWT + 2D 컨텍스트
- X, Y, T의 분해 레벨 : 5,5, 2
- X, Y, T의 코드 블락의 크기 : 16, 16, 16
- 무손실 압축 시 5x3 필터
- 손실 압축 시 9x3 필터
⑮ JPEG2000
- X, Y의 분해 레벨 : 3,3
- X, Y의 코드 블락의 크기 : 64, 64
- 무손실 압축 시 5x3 필터
- 손실 압축 시 9x3 필터
도 14a는 줌이 되고 제트기가 약간 움직이는 jet 영상에 대한 R-D curve이다. 도 14a를 참조하면, 비트율이 300kbps까지는 3D DWT한 후에 XY 방향으로만 2D 컨텍스트를 적용한 알고리즘과 H.264/AVC의 압축 성능이 모두 본 발명에 따른 알고리즘에 비하여 약 0.5~0.8dB 정도 낮지만 각각은 서로 압축 성능이 비슷하다는 것을 알 수 있다. 그러나 비트율이 300 kbps 이상인 경우에는 3D DWT한 후에 XY 방향으로만 2D 컨텍스트를 적용한 알고리즘이 본 발명에 따른 알고리즘에 비하여 약 0.5~0.8dB로 비트율이 높아지면서 비트율이 증가함에 따라 그 차이가 감소한다는 것을 알 수 있다. 그리고 H.264/AVC의 경우에는 평균 약 0.8~1.3dB로 비트율이 높아지면서 그 차이가 더욱 커진다는 것을 알 수 있다. 또한, JPEG2000과 비교해서는 본 발명에 따른 알고리즘은 약 2.5~3.6dB의 압축 성능 향상을 보인다는 것을 알 수 있다.
도 14b는 카메라가 좌우로 움직이는 panslow 영상에 대한 R-D curve이다. 도 14b를 참조하면, 본 발명에 따른 알고리즘은 3D DWT한 후에 XY 방향으로만 2D 컨텍스트를 적용한 알고리즘에 비해 약 1.2~3.5dB의 성능 향상을 보이고, H.264/AVC와 비교해서는 평균 약 1.6~3dB의 성능 향상을 보인다는 것을 알 수 있다. 또한, JPEG2000과 비교해서는 약 5~7 dB의 성능 향상이 나타나는데, 비트율이 낮은 경우 그 차이가 더욱 크다는 것을 알 수 있다.
SD 영상의 무손실 압축에 대한 각 알고리즘에 따른 압축률은 표 10에 도시되어 있다. 표 8을 참조하면, 이전의 다른 실험 영상에 비해 본 실험에서는 압축률의 향상이 비교적 높지 않다는 것을 알 수 있다. 이는 영상에 비교적 큰 움직임이 있거나 또한 panslow 영상의 경우와 같이 영상 자체가 상당히 복잡한 경우에는 압축률이 높지 않게 되기 때문이다.
본 발명에서는 동영상이나 3차원 영상, 특히 상대적으로 움직임이 적은 동영상이나 각 방향으로 상관도가 높은 3차원 영상에서, X 및 Y성분은 물론 T(또는 Z) 성분을 효과적으로 이용하기 위해서 3차원 DWT 변환 후에 각 서브밴드 LLL, LHL, HLL, HHL, LLH, LHH, HLH, 및 HHH의 각 코드 블락의 특성을 이용해 서브밴드별로 XY, TX(또는 ZX), 및 TY(또는 ZY)의 3가지 방향에 대한 스캔과 컨텍스트를 이용해 산술 부호화시 가장 효율적인 방향을 정하고, 해당 방법에 의해 압축된 비트스트림만을 전송하도록 한다.
이러한 본 발명에 의하면, 기본적으로 웨이블릿 변환을 기반으로 하고 있기 때문에 저전송 비트율에서도 블로킹 현상이 나타나는 것을 방지할 수 있고 스케일러블 부호화가 가능할 뿐만 아니라, 3차원 영상이나 3D 영상의 경우에 기존의 다른 부호화 알고리즘에 비하여 부호화 효율을 더욱 향상시킬 수가 있다. 특히, 각 방향으로 상관도가 높은 3차원 영상이나 움직임이 상대적으로 적은 동영상에 본 발명에 따른 알고리즘을 적용할 경우에는 부호화 효율을 상당히 향상시킬 수가 있다.
Claims (8)
- n 프레임(n은 2이상의 정수)으로 구성된 입력 영상의 3D 이산 웨이블릿 변환되고 양자화된 계수를 다수의 3D 코드블록으로 분할하는 단계;분할된 상기 다수의 3D 코드블록 각각을 서로 수직인 3개의 평면 방향으로 각각 스캔하고 각 스캔 방향에 대하여 산술 부호화를 수행하는 단계; 및상기 3개의 평면 방향에 각각에 따라 산술 부호화된 데이터의 부호화 효율을 비교하여, 가장 부호화 효율이 높은 평면 방향으로 산술 부호화된 데이터를 추출하는 단계를 포함하는 영상 부호화 방법.
- 제1항에 있어서,상기 n 프레임으로 구성된 입력 영상은 XYZ 방향을 갖는 3D 영상 또는 XYT 방향을 갖는 동영상이고,상기 서로 수직인 3개의 평면은 각각 XY 평면, ZX 평면, 및 ZY 평면 또는 XY 평면, TX 평면, 및 TY 평면인 것을 특징으로 하는 영상 부호화 방법.
- 제1항에 있어서, 상기 산술 부호화를 수행하기 이전에서로 수직인 3개의 평면 방향으로 각각 스캐닝된 계수에 대한 비트 모델링을 수행하고,상기 비트 모델링된 데이터에 대하여 상기 산술 부호화를 수행하기 위한 컨 텍스트를 적응적으로 선택하여 상기 산술 부호화를 수행하는 것을 특징으로 하는 영상 부호화 방법.
- n 프레임(n은 2이상의 정수)으로 구성된 입력 영상을 3D 이산 웨이블릿 변환하여 변환 계수를 생성하기 위한 3D 이산 웨이블릿 변환 유닛;상기 변환 계수들을 양자화하여 양자화된 계수를 생성하기 위한 양자화 유닛;상기 양자화된 계수를 다수의 3D 코드블록으로 분할하고, 분할된 상기 다수의 3D 코드블록 각각을 서로 수직인 3개의 평면 방향으로 각각 스캔하고 각 스캔 방향에 대하여 산술 부호화를 수행하기 위한 엔트로피 부호화 유닛; 및상기 엔트로피 부호화 유닛에서 상기 3개의 평면 방향에 각각에 따라 산술 부호화된 데이터의 부호화 효율을 비교하여, 가장 부호화 효율이 높은 평면 방향으로 산술 부호화된 데이터를 추출하기 위한 비트스트림 추출 유닛을 포함하는 영상 부호화 장치.
- 헤더 정보를 전송하는 영상 부호화 장치로서,상기 헤더 정보는,제1항의 영상 부호화 방법에 의하여 부호화되어 추출된 영상 데이터의 비트스트림에 대한 헤더 정보로서, 상기 추출된 비트스트림의 스캔 방향을 지시하는 코드워드를 포함하는 것을 특징으로 하는 영상 부호화 장치.
- 부호화된 n 프레임(n은 2이상의 정수)의 영상 데이터의 비트스트림에 대한 헤더 정보로부터 상기 비트스트림의 스캔 방향을 판정하는 단계;상기 판정된 스캔 방향에 따라 상기 비트스트림에 대한 엔트로피 복호화하는 단계; 및상기 엔트로피 복호화된 데이터에 대한 역양자화 과정 및 3D 웨이블릿 역변환 과정을 수행하여 상기 n 프레임으로 구성된 영상을 복원하는 단계를 포함하는 영상 복호화 방법.
- 제6항에 있어서,상기 엔트로피 복호화 단계에서는 상기 판정된 스캔 방향에 따라 IEBCOT 과정을 수행하는 것을 특징으로 하는 영상 복호화 방법.
- 부호화된 n 프레임(n은 2이상의 정수)의 영상 데이터의 비트스트림에 대한 헤더 정보로부터 상기 비트스트림의 스캔 방향을 판정하기 스캔 방향 판정 유닛;상기 판정된 스캔 방향에 따라 상기 비트스트림에 대한 엔트로피 복호화를 수행하기 위한 엔트로피 복호화 유닛;상기 엔트로피 복호화된 데이터에 대한 역양자화 과정을 수행하기 위한 역양자화 유닛; 및상기 역양자화된 데이터에 대한 3D 웨이블릿 역변환 과정을 수행하여 상기 n 프레임으로 구성된 영상을 복원하기 위한 3D 웨이블릿 역변환 유닛을 포함하는 영 상 복호화 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060084447A KR101246115B1 (ko) | 2006-09-02 | 2006-09-02 | 3차원 웨이블릿 기반 영상 부호화/복호화 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060084447A KR101246115B1 (ko) | 2006-09-02 | 2006-09-02 | 3차원 웨이블릿 기반 영상 부호화/복호화 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080021268A KR20080021268A (ko) | 2008-03-07 |
KR101246115B1 true KR101246115B1 (ko) | 2013-03-20 |
Family
ID=39395798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060084447A KR101246115B1 (ko) | 2006-09-02 | 2006-09-02 | 3차원 웨이블릿 기반 영상 부호화/복호화 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101246115B1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011074924A2 (ko) * | 2009-12-18 | 2011-06-23 | 한국전자통신연구원 | 비디오 부호화/복호화 방법 및 장치 |
KR101146684B1 (ko) * | 2010-04-23 | 2012-05-22 | 주식회사 매크로그래프 | 웨이블릿을 이용한 반사속성 데이터 처리 방법 및 이를 이용한 데이터 처리 장치 |
KR20120009618A (ko) | 2010-07-19 | 2012-02-02 | 에스케이 텔레콤주식회사 | 주파수변환단위 분할부호화 방법 및 장치와 이를 이용한 영상 부호화/복호화 방법 및 장치 |
KR102161613B1 (ko) * | 2013-12-11 | 2020-10-05 | 엘지이노텍 주식회사 | 깊이영상 생성장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020030073A (ko) * | 2000-05-03 | 2002-04-22 | 요트.게.아. 롤페즈 | 비디오 시퀀스의 압축을 위한 인코딩 방법 |
KR20020064803A (ko) * | 2000-09-12 | 2002-08-09 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 비디오 코딩 방법 |
US6956903B2 (en) * | 2001-05-29 | 2005-10-18 | Intel Corporation | Method and apparatus for three-dimensional wavelet transform |
-
2006
- 2006-09-02 KR KR1020060084447A patent/KR101246115B1/ko not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020030073A (ko) * | 2000-05-03 | 2002-04-22 | 요트.게.아. 롤페즈 | 비디오 시퀀스의 압축을 위한 인코딩 방법 |
KR20020064803A (ko) * | 2000-09-12 | 2002-08-09 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 비디오 코딩 방법 |
US6956903B2 (en) * | 2001-05-29 | 2005-10-18 | Intel Corporation | Method and apparatus for three-dimensional wavelet transform |
KR100561587B1 (ko) * | 2001-05-29 | 2006-03-20 | 인텔 코오퍼레이션 | 3차원 웨이브렛 변환 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20080021268A (ko) | 2008-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Marpe et al. | Very low bit-rate video coding using wavelet-based techniques | |
Flierl et al. | Video coding with motion-compensated lifted wavelet transforms | |
US6519284B1 (en) | Encoding method for the compression of a video sequence | |
Adami et al. | State-of-the-art and trends in scalable video compression with wavelet-based approaches | |
JP3204645B2 (ja) | 映像符号化及び復号化方法並びにその装置 | |
US7715480B2 (en) | Video encoding with motion-selective wavelet transform | |
Xing et al. | Arbitrarily shaped video-object coding by wavelet | |
Andreopoulos et al. | Complete-to-overcomplete discrete wavelet transforms for scalable video coding with MCTF | |
KR20000059799A (ko) | 웨이브릿 부호화를 이용한 움직임 보상 부호화 장치 및 방법 | |
Xiong et al. | Barbell lifting wavelet transform for highly scalable video coding | |
KR101246115B1 (ko) | 3차원 웨이블릿 기반 영상 부호화/복호화 방법 및 장치 | |
KR100547853B1 (ko) | 블록별 에너지를 기초로 정지 영상을 적응적으로 부호화할수 있는 이산 웨이블렛 변환 장치 및 방법 | |
KR100532304B1 (ko) | 블록별 에너지를 기초로 정지 영상을 고속으로 부호화할수 있는 고속 이산 웨이블렛 부호화 장치 및 방법 | |
Medouakh et al. | Study of the standard JPEG2000 in image compression | |
KR101421231B1 (ko) | 웨이블릿 변환을 이용한 영상 압축 장치 | |
Xu et al. | High performance wavelet-based stereo image coding | |
Rahman et al. | Efficient Image Compression Technique using JPEG2000 with Adaptive Threshold | |
JP4372327B2 (ja) | 画像符号化装置および画像符号化方法並びに復号化装置および復号化方法 | |
Nayan et al. | Baseline JPEG-like DWT CODEC for disparity compensated residual coding of stereo images | |
Danyali | Highly scalable wavelet image and video coding for transmission over heterogeneous networks | |
Yuan et al. | Low-Band-Shifted Hierarchical Backward Motion Estimation, Compensation for Wavelet-Based Video Coding. | |
Omaki et al. | Embedded zerotree wavelet based algorithm for video compression | |
Khalil et al. | Lowering frame-buffering requirements of 3-D wavelet transform coding of interactive video | |
Jain et al. | Wavelet based video compression using STW, 3D-SPIHT & ASWDR techniques: A comparative study | |
Eder et al. | JPEG2000-based scalable video coding with MCTF |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170209 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |