KR100964066B1

KR100964066B1 - 픽셀값을 추출하는 방법 및 장치

Info

Publication number: KR100964066B1
Application number: KR1020047010586A
Authority: KR
Inventors: 지앙지안민; 수리-쿤
Original assignee: 브리티쉬 텔리커뮤니케이션즈 파블릭 리미티드 캄퍼니
Priority date: 2002-01-07
Filing date: 2002-12-24
Publication date: 2010-06-16
Also published as: CN100502510C; US20050065988A1; US7444033B2; JP2005514880A; AU2002356326A1; AU2002356326A8; WO2003058972A3; JP2010081618A; CA2470346A1; JP4515534B2; WO2003058972A9; EP1461958A2; WO2003058972A2; CN1613260A; KR20040070303A; CA2470346C

Abstract

본 발명은 포워드 이산 여현 변환(DCT: discrete cosine transform)을 사용하여 MPEG 또는 JPEG 인코딩에 따라 인코딩된 픽셀의 명도(luminance) 및 색상(chrominance) 값을 추출하는 방법 및 장치를 제공한다. 본 발명은 이론적인 연구를 MPEG 인코딩에서 사용된 포워드 DCT를 수학적으로 분석하는데 적용시켜, 인코딩 영상에서 픽셀값을 일반적인 영상 인코딩 처리에서 포워드 DCT 변환을 통해 얻어진 하나 이상의 DCT 계수에 직접 연관시키는 일 세트의 수학식이 유도된다. 본 발명에서 사용되는 이러한 소정의 수학식은 역 DCT 변환을 실행할 필요가 없이, 인코딩 픽셀 블록의 DCT 계수로부터 직접 픽셀값을 최대로 빠른 및 연산적으로 효율적인 추출을 허용한다. 본 발명은 빠르고 효율적인 방법으로 MPEG 및 JPEG 인코딩 버전으로부터 본래의 영상을 추출하는 것이 바람직한 어떠한 응용이든지 유용할 것으로 기대된다.

Description

픽셀값을 추출하는 방법 및 장치{METHOD AND APPARATUS FOR EXTRACTING PIXEL VALUES}

본 발명은 이산 여현 변환(DCT: discrete cosine transform) 계수로부터 픽셀값을 직접 추출하는 방법, 장치 및 컴퓨터 프로그램에 관한 것으로서, 특히 역 DCT 변환을 실행할 필요 없이 픽셀값을 추출하는 것에 관한 것이다.

인터넷의 확산 및 전자상거래와 다양한 비지니스 영역을 통한 멀티미디어 정보 기술의 급속한 전개에 따라서, 디지털 저장 비용은 상상할 수 없는 비율로 감소되고 있다. 텍스트 형태뿐만 아니라 디지털 영상, 디지털 비디오, 3-D 컴퓨터 그래픽 및 많은 다른 디지털 데이터 포맷의 형태의 값진 콘텐츠 정보를 저장하는 것이 현재 가능하다. 월드와이드웹(World-Wide-Web)의 등장 이후에, 정보의 교환 및 생성은 인터넷으로 접근가능한 정보의 보고가 점점 공공화 되는 것과 같이 혁신적인 변화 하에 있다. 학문과 관련된 정보의 전체 영역에 대한 하나의 충격은 멀티미디어 정보의 콘텐츠를 효율적으로, 유효하게 및 확고하게 다루고, 관리하고 및 아카이빙하는 새로운 기술을 발전시키는 것에 대한 필요이다. 이렇게 진행되는 동안에, 수백만의 영상, 비디오 클립이 다루어지고, 서치되고, 색인되고 및 구해질 수 있고, 여전히 그들 대부분은 이미 압축된 포맷이 될 수 있다. 현재 사용된 모든 압축된 포맷 사이에서, DCT는 (a)DCT가 최적의 카루넨 루베 변환(KLT: Karhunen-Loeve transform)과 가깝고, (b)DCT가 독립적이고 KLT의 단점을 제거할 수 있는 신호이고, 및 (c)실질적인 계수를 갖고, 및 빠른 알고리듬이 실제로 효과적인 실행을 위해 쉽게 이용될 수 있다는 점에서 넓게 선택된다. 그러므로, DCT는 영상/비디오 압축 표준(JPEG/MPEG, 및 H261/H263)(J. Jiang 'A parallel algorithm for 4 ×4 DCT', Journal of Parallel and Distributed Computing, Vol. 57, 1999, pp. 257-269, ISDN: 0743-7315 및 V. Bhaskaran and K. Konstanti, Image and Video Compression Standard: Algorithms and Architectures, Kluwer Academic Publications, Boston, 1997 참조)에서 넓게 사용된다. 이러한 전후관계 하에서, A. Abdel-Malek and J. E. Hershey, "Feature cueing in the discrete cosine domine", Journal of Electronic imaging, Vol. 3, pp. 71-80, Jan, 1994, B. Shen and Ishwar K. Sethi, "Direct feature extration from compressed images", SPIE: Vol.2670 Storage & Retrieval for Image and Video Database IV, 1996, and R. Reeve, K. Kubik and W. Osberger, "Texture characterization of compressed aerial images using DCT coefficients', Proc. of SPIE: Storage and Retrival for Image and Video Database V, Vol.3022, pp. 398-407, Feb, 1997에서 설명된 것과 같이, 압축된 도메인에서의 영상 처리 또는 데이터 압축 내부의 콘텐츠 기재에 대한 연구의 새로운 물결이 전세계 연구 단체에서 시작되고 있다.

위의 설명으로부터 명백하게 될 것이지만, 이동 및 스틸 영상의 MPEG 및 JEPG 인코딩은 기술분야에서 잘 알려져 있고, 일반적인 인코더 및 디코더 구성은 도 1에 도시된다. MPEG(및 JPEG) 영상을 인코딩하기 위해, 소오스 픽셀 영상은 8 ×8 블록으로 먼저 분리되어, 이후 각각 DCT로 넘겨진다. 이는 정상-좌측 코너 내의 DC 성분, 및 픽셀 블록 전체에 걸쳐 정상-좌측 코너로부터 외부로 분포된 점차로 더 높은 순서의 AC 성분을 갖는 64개의 DCT 계수로서 결과가 산출된다. 이러한 성분은 이후에 각각의 이러한 실제 개수의 DCT 계수를 나타내기 위해, 및 또한 값이 양자화 임계 이하인 이러한 계수를 없애기 위해 암호책으로부터 이진 코드를 사용하여 양자화되고, 이후에 지그 재그 패턴(도 2에 도시됨)으로 계수를 구함으로써 시리얼 데이터 워드로 변환되고, 결과적으로 영으로 양자화된 성분은 효과적으로 런-렝쓰 인코딩(RLE: run-length encoded)될 수 있고, 전송 이전에 인코딩된 엔트로피가 따르게 된다. 이러한 처리는 영상의 매 8 ×8 픽셀 블록에 대해 반복된다.

디코더에서 영상을 디코딩하기 위해, 일반적으로 역 처리는 실행된다. 즉, 엔트로피 및 런-랭쓰는 수신된 데이터를 디코딩하고, 도 2의 지그 재그 패턴을 되돌림으로써 8 ×8 블록 내의 DCT 계수를 다시 만들고, 실제 픽셀값을 얻기 위해 역 DCT(IDCT)를 실행한다. 역 DCT 단계는 실행하기 위한 시간 및 전력을 필요로하기 때문에, 연산 집약적(computationally intensive)이다. 통상, 표준 완전 압축 해제(IDCT)에 대한 계산은, 비록 어떤 실제 실행이 8 ×8 픽셀 블록(추가적인 비교를 위해 "결과" 내의 테이블 참조)에 대해 단지 1024개의 곱셈과 896개의 덧셈을 필요로 할 수 있지만, 4096개의 곱셈과 4032개의 덧셈이 소모된다.

비록 영상 처리 분야는 여러해 동안 연구와 개발에 초점을 맞추어 왔지만(개선(enhancement), 분할(segmentation), 특징 추출(feature extraction), 및 패턴 분류(pattern classification) 등과 같은 작업에 의해 대표됨), 이러한 개발은 모두 픽셀-도메인에 대해 있었다. DCT-기반 압축은 전송 효율 및 한정된 저장 공간의 관리를 크게 향상시키지만, 압축된 영상 데이터는 디스플레이되고, 추가로 처리되고, 또는 인쇄되기 전에 거꾸로 픽셀 도메인으로 처리되어야 한다. 빈번하게 사용되는 처리 기능의 일부는 스케일링, 필터링, 회전, 해석, 특징 추출 및 분류를 포함한다. 이것 때문에, 통상의 접근은 이렇게 존재하는 알고리듬이 적용될 수 있기 전에 DCT 도메인으로부터의 데이터를 픽셀 도메인으로 변환시켜야(압축해제시켜야) 한다. 이러한 처리는 이전에 주어진 연산 집약 숫자로부터 명백할 것이지만, 영상 처리 및 압축의 전체적인 연쇄에서 총 계산 비용 및 저장 비용의 엄청난 증가를 가져온다. 그러므로 영상 동작(서치, 필터링, 디스플레이 등)이 실행될 때마다 IDCT 연산을 사용하여 각각의 영상을 완전 압축해제 함이 없이, 대규모의 영상 매체가 처리되게끔 하는 적은 연산 집약적 수단에 대한 강한 필요성이 산업내에 있다.

본 발명은 MPEG 또는 JPEG 인코딩 영상을 디코딩 하기 위해 역 이산 여현 변환을 실행할 필요성을 없애는 방법, 컴퓨터 프로그램 및 장치를 제공함으로써 상기한 문제점을 중점적으로 다루고자 한다. 즉, 도 1에 도시된 종래의 디코더를 참조하면, 본 발명은 역 이산 여현 변환 블록(10)을 대체하고 일세트의 매개변수를 통해 추출된 픽셀값을 직접 DCT 계수에 연관시키는 일세트의 소정의, 단순한, 선형 수학식의 적용에 의해 DCT 계수로부터 직접 추출되게끔 하는 픽셀값을 허용한다. 그러므로, MPEG 또는 JPEG 인코딩 도메인으로부터 소오스 영상을 추출하기 위하여, 모든 디코더의 필요한 계산은 입력 DCT 계수의 하나의 주어진 세트에 대한 소정 세트의 수학식 결과이고, 그러므로 거기에 수반된 연산 집약으로 역 DCT 실행하는 것이 더이상 필요하지 않다.

상기의 관점에서, 본 발명에 다른 제 1 측면은 소오스 영상의 픽셀값으로부터 유도된 복수의 이산 여현 변환(DCT) 계수를 포함하는 신호로부터 픽셀값을 추출하는 방법이 제공되고, 상기 방법은 픽셀값이 추출되는 특정 픽셀과 각각 연관되는 미리 계산된 복수의 매개변수를 저장하는 단계와, 추출되는 임의의 특별한 픽셀값에 대해, 하나 이상의 상기 DCT 계수와 서로 연관된 상기 미리 계산된 매개변수를 사용하여 상기 픽셀값을 계산하는 단계를 포함한다.

하나 이상의 DCT 계수와 함께 이전에 계산된 매개변수를 사용하여 픽셀값을 계산하는 능력은 연산적 집약이 훨씬 감소되는 것을 의미한다. 본래의 영상의 픽셀의 8 ×8 블록에 대해, 선택된 특별한 실행에 의존하기 때문에, MPEG 또는 JPEG 인코딩 버전으로부터 픽셀값을 작은 8개의 덧셈 및 4개의 나눔과 같이 작은 개수의 연산으로 추출하는 것이 가능하다. 이는 이전에 사용되어져 왔었던 완전 역 이산 여현 변환과 비교하여 훨씬 감소됨이 명백하다.

더욱이, 바람직하게는 DCT 계수의 이전에 선택된 서브셋은 픽셀값을 계산하는데 사용된다. 임의의 특별한 픽셀 블록으로부터 DCT 계수의 상대적으로 작은 서브셋 만이 본 발명의 동작에 필요한 것은 특정 실시예로부터 명백하다. 하나의 실시예에서, 네개의 계수와 같이 작은 개수가 필요하고, 반면에 다른 실시예에서, 9 개 또는 16 개의 계수가 사용될지도 모른다. 어떤 실시예가 선택되든지 간에, 사용된 DCT 계수의 개수는 완전 역 이산 여현 변환 실행 내에서 통상적으로 사용된 64 계수 보다 거의 더 작은 것임을 알 수 있을 것이다. 이는 아주 낮은 대역 비디오 전송을 촉진시킬 수 있기 때문에 중요한 결과이다.

더욱이, 이전에 계산된 매개변수는 복수의 소정의 관계에 따라 DCT 계수로 추출되는 픽셀값과 연관된다. 이러한 관계는 아주 단순하고, 따라서 더 나아가 연산 집약을 거부한다.

바람직하게는, 계산하는 단계에서 사용되는 DCT 계수는 0 이라는 인덱스 값을 갖는다. 더욱이, 바람직하게는 계산하는 단계에서 사용된 DCT 계수는 DCT 변환에 관련된 높은 에너지를 대표한다. 이러한 특징은 픽셀값을 찾기 위해 사용된 수학식의 복잡성이 줄어들고, 가장 큰 연산 코스트 절약이 이루어질 수 있는 장점을 제공한다.

더욱이, 입력 픽셀 블록에 대해 본래의 영상 보다 낮은 개수의 픽셀을 추출하는 것이 가능하고, 이에 의해 해상도가 편리한 방식으로 감소되게끔 한다. 이는 추출된 영상이 PDA 또는 모바일폰 상에 제공되는 것과 같이 작은 스크린 상의 디스플레이용이라면 유용할 수 있다.

다른 측면으로부터, 본 발명은 소오스 영상의 픽셀값으로부터 유도된 복수의 이산 여현 변환(DCT) 계수를 포함하는 신호로부터 픽셀값을 추출하는 컴퓨터 프로그램을 또한 제공하고, 상기 컴퓨터 프로그램은 컴퓨터 상에서 실행되는 경우 상기 컴퓨터가 상기 제 1 측면의 방법에 따라 실행되게 하는 명령을 포함한다.

이러한 컴퓨터 프로그램은 본 발명의 방법이 컴퓨터 상에서 구동되게끔 하는 장점을 제공한다.

바람직하게는, 상기 제 2 측면에 따른 컴퓨터 프로그램은 컴퓨터로 판독가능한 저장 매체에 저장된다. 상기 컴퓨터로 판독가능한 저장 매체는 자기, 광학, 자기-광학, 고체 상태, 또는 기술 분야에서 알려진 어떤 다른 컴퓨터로 판독가능한 저장 매체 중의 어느 하나일 수 있다.

제 3 측면으로부터, 본 발명은 소오스 영상의 픽셀값으로부터 유도된 복수의 이산 여현 변환(DCT) 계수를 포함하는 신호로부터 픽셀값을 추출하는 장치를 또한 제공하고, 상기 장치는 픽셀값이 추출되는 특정 픽셀과 각각 연관되는 미리 계산된 복수의 매개변수를 저장하는 저장 수단과, 추출되는 임의의 특별한 픽셀값에 대해, 하나 이상의 상기 DCT 계수와 서로 연관된 상기 미리 계산된 매개변수를 사용하여 상기 픽셀값을 계산하는 계산 수단을 포함한다.

본 발명의 제 3 측면은 상기 제 1 측면에 관하여 이전에 설명된 것과 같은 유사한 추가 특징 및 장점을 제공한다.

본 발명의 추가적인 특징 및 장점은 예와 첨부되는 도면을 참조함으로써 제공된 다음의 실시예의 설명으로부터 명백할 것이고, 동일 참조 번호는 동일 부분을 지칭한다.

도 1은 종래 기술의 MPEG 인코더 및 디코더를 나타내는 블록도이고,

도 2는 MPEG 인코딩 동안에 8 ×8 픽셀 블록으로부터 생성된 DCT 계수가 어 떻게 지그 재그로 판독되는가를 나타낸 예이고,

도 3은 본 발명의 제 1 실시예에 따른 DCT 계수로부터 픽셀값을 추출하는데 필요한 수학적 연산을 나타내는 블록도이고,

도 4는 본 발명의 제 2 실시예에서 DCT 계수로부터 직접 픽셀값을 추출하는데 필요한 적어도 약간의 수학적 연산을 나타내는 블록도이고,

도 5는 본 발명의 제 3 실시예에서 DCT 계수로부터 직접 픽셀값을 추출하는데 필요한 약간의 수학적 연산을 나타내는 블록도이고,

도 6은 본 발명의 실시예 중 하나에서 사용될 수 있는 값의 행렬이고,

도 7a 및 도 7b가 하나로서 본 발명의 실시예 중의 하나에서 사용된 값의 다른 행렬이고,

도 8은 본 발명의 실시예에 따른 장치의 블록도이고,

도 9는 본 발명의 실시예를 실행하는데 사용될 수 있는 선택적인 장치의 블록도이고,

도 10은 실시예에 따른 본 발명의 동작에 관련된 단계를 나타내는 흐름도이고,

도 11의 (a), (b), (c)는 각각 본 발명의 제 1 실시예를 사용하여 추출된 각각의 프레임이고,

도 12의 (a), (b), (c)는 각각 본 발명의 제 2 실시예를 사용하여 추출된 각각의 프레임이고,

도 13의 (a), (b), (c)는 각각 본 발명의 제 3 실시예를 사용하여 추출된 각 각의 영상 프레임이고, 및

도 14의 (a), (b), (c)는 종래 기술의 역 이산 여현 변환을 사용하여 생성된 각각의 영상 프레임이다.

본 발명의 동작의 개관

본 발명은 MPEG 및 JPEG 디코더에 이전에 필요했던 역 이산 여현 변환을 대체한다. 이는 포워드 DCT 변환을 분석함으로써 수학적으로 유도된 소정의 수학식의 일세트를 사용함으로써 얻어진다. 상기 수학식의 세트는 영상의 픽셀값을 각각의 픽셀 블록에 대한 MPEG 및 JPEG 인코딩 동안 생성된 DCT 계수의 일세트에 직접 관련시킨다. 수신된 DCT 계수를 수학식에 단순히 넣음으로써, 디코딩 영상의 픽셀값은 완전한 역 이산 여현 변환을 실행할 필요 없이 MPEG 또는 JPEG 디코더에 의해 직접 추출될 수 있다. 그러므로 본 발명은 이전의 경우보다 더 적은 전력과 연산의 복잡성을 필요로 하는 극도로 단순화된 MPEG 디코더 설계를 허용할 수 있기 때문에, 커다란 잠재성을 갖는다.

본 발명에 사용된 수학식 세트의 유도에 대한 이론적인 기초는 이하에서 설명될 것이고, 특정 실시예의 설명이 뒤따른다.

이론적 기초

DCT-기반 MPEG 압축 알고리듬이 동일 영상 내의 가까운 픽셀 사이에서 공간적 상호관계를 효과적으로 조사하기 위해 8 ×8 픽셀의 영상 블록에 적용된다. 이 전에 설명되고 도 1의 인코더 측에서 나타난 것과 같은 전형적인 동작은 블록의 DCT 변환(DCT), 제어가능한 단계 사이즈(sz)로 DCT 계수의 양자화 및 런-랭쓰 코딩과 엔트로피 코딩으로 구성된 가변 길이 코딩(VLC: Variable Length Coding)을 포함한다.

따라서, MPEG 압축 비트 스트림이 주어진다면, 본 발명의 비디오 추출 기술은 양자화된 DCT 계수 도메인을 얻기 위해 먼저 정상적인 엔트로피 디코딩(VLD) 및 재구성(Q^*)을 필요로 한다. 감소된 해상도로 원하는 비디오 영상을 추출하기 위해, 이후 역 DCT 연산 대신에 매우 단순한 연산의 세트를 실행한다. 다음에 이러한 연산의 이론적인 기초가 설명된다.

이러한 직접 추출 알고리듬을 설계하기 위해, 출발점은 자연히 본래의 MPEG 디코더에 설계된 IDCT 연산이라 여겨질 수도 있다. 그러나, 본 발명의 추출 알고리듬은 근사된 픽셀 정보를 추출하는 것이 주요 목적이기 때문에, IDCT 자체를 가지고 출발하는 것은 어려운 것으로 증명되었고 기대하는 결과를 얻는데 실패한다. 이는 IDCT에 대한 입력값이 DCT 계수 그 자체이고, 그들은 이미 상관관계에서 벗어났기 때문이다. 결과적으로, 어떠한 근사(approximation)도 커다란 왜곡을 야기할 수 있다. 그러므로, 이웃하는 픽셀은 상관관계가 있고 중대한 중복이 일반적으로 존재하기 때문에, 어떠한 근사도 바람직하게는 픽셀 도메인에서 행해져야 한다. 이것 때문에, 본 발명의 비디오 추출의 출발점은 포워드 DCT 연산이 되도록 선택된다. 더욱이, 표준 MPEG 디코딩 설계를 이용하기 위해, 본 발명이 필요하다면 다른 사이즈의 픽셀 블록에 당연히 적용될 수 있는 것으로 물론 이해될 수 있지만, 여기서의 논의는 8 ×8 픽셀의 블록에 한정한다.

J. Jiang 'A parallel algorithm for 4 ×4 DCT', Journal of Parallel and Distributed Computing, Vol. 57, 1999, pp. 257-269, ISDN: 0743-7315 에서의 DCT 정의에 따르면, 8 ×8 픽셀의 하나의 블록 x(i,j), i,j=0,...,7 은 다음의 수학식을 통해 DCT 도메인 C(u,v), u,v= 0,...,7 로 변환될 수 있다.

여기서,

이론적으로, 이러한 수학식은 다음과 같은 행렬 형태로 표현될 수 있다.

여기서, [C_μν]는 순서 C₀₀,C₀₁,…C₇₇의 순서로 배열된 64개의 DCT 계수를 포함하는 벡터이고, [x_ij]는 8 ×8 픽셀의 블록을 포함하는 벡터이다. 본래의 8 ×8 픽셀의 완전한 해상도가 사용되지 않고, 또한 모든 DCT 계수가 결국 필요치 않다 면, 줄여진 버전은 다음과 같이 나타날 수 있다.

예컨데,

가 0이 아닌 첫번째 16개의 DCT 계수까지 포함하고, [

]는 16 ×16 행렬일 때,

는 4 ×4 평균 픽셀을 포함하는 16차원 벡터일 수 있다.

이러한 연구의 궁극적인 목적은 감소된 해상도를 갖는 근사 픽셀값을 다음과 같이 얻어질 수 있도록 빽빽하고 간결한 형태로 행렬 [

]를 유도하는 것이다.

시각적인 품질 및 연산적인 효율은 사용되는 DCT 계수의 선택과 개수에 의존한다.

편리한 설계를 위해, 수학식 1은 다음으로 재구성될 수 있다.

삼각 함수로부터,

내의

에 의해 표시된 모든 각도는 제 1 사분면으로 매핑될 수 있다. j는 S=[0,7] 내에서 변하기 때문에, 각도 매핑의 상세한 내용은 다음과 같이 산출될 수 있다.

S = S₁∪S₂, 여기서 S₁=[0,3] 및 S₂=[4,7] 이라고 하면,

각각 S₁및 S₂에서 k 에 대한 상기 처리를 각각 반복한다면, S는 다음과 같이 표현된 네개의 부분으로 추가로 나누어질 수 있다.

여기서, S₁₁=[0,1], S₁₂=[2,3], S₂₁=[4,5] 및 S₂₂=[6,7] 이다.

이는 다음을 제공한다.

수학식 2에 수학식 5를 대입하면,

는 다음과 같은 형태로 재구성될 수 있다.

v=[1,7]이기 때문에, 수학식 6은 다음이 된다.

상기에 나타난 것과 같이, 코사인 함수 내의 모든 각도는 제 1 사분면에 한정된다. 그러므로, 테일러 시리즈(Taylor series) 전개가

에서 cos(x)를 전개하기 위해 적용될 때, 근소한 근사가 유지되어야 한다. 이러한 전개를 실행하는 것은 다음을 제공한다.

1보다 큰 차수의 항이 무시된 이후에, 수학식 11은 다음이 된다.

는 필수적인 요소로서

를 포함한다는 사실을 고려하면, 수학식 12는 상응하여 다음과 같이 구성될 수 있다.

여기서 y ∈ [π, 2π, 3π, 4π, 5π, 6π, 7π], 수학식 7 ~ 10 으로부터 나타난다.

그러므로, 수학식 13을 사용하면 수학식 7 ~ 10은 다음과 같이 쓰여질 수 있다.

결국, 다음을 얻을 수 있다.

제 1 실시예 - 2 × 2 블록에서 비디오 추출

본 발명의 이론적인 배경을 설명하였으므로, 매 8 ×8 블록 입력에 대해 2 ×2 픽셀의 블록을 추출하는 본 발명의 제 1 실시예가 설명될 것이다.

압축된 비디오 콘텐츠에 대해 빠른 액세스를 제공하고 각 비디오 프레임의 낮은 코스트(cost)의 추출이 가능하도록, 8 ×8 픽셀의 블록은 수평 및 수직의 양방향을 따라 블록 사이즈를 2^M: M ∈ [1, 3] 의 인자에 의해 나눔으로써 다운 샘플링될(down-sampled) 수 있다. 이는 한 블록이 1 픽셀, 2 ×2 픽셀 및 4 ×4 픽셀로 각각 추출되는 세개의 다른 사이즈를 제공할 수 있다. 사실상, 1 픽셀 블록으로, 프레임은 DC 계수로만 추출될 수 있고 따라서 결과적인 값은 블록 내의 모든 픽셀의 평균을 나타낸다. 응용에 따라서, 이렇게 추출된 비디오 프레임의 품질은 보통 받아들여지지 않을 수 있다. 이는 상기 블록을 2 ×2 픽셀 또는 4 ×4 픽셀 로 블록을 추출하는 두가지 옵션만을 제공한다. 2 ×2 픽셀의 추출은 4개의 수학식 그룹의 해를 구하는 것을 필요로하고, 4 ×4 픽셀의 추출은 16개 수학식 그룹의 해를 구하는 것을 필요로 한다.

제 1 실시예에 대해 2 ×2 픽셀의 블록을 선택하면, j 의 인덱스값은 {x(i,0), x(i,1), x(i,2), x(i,3)}를 단일값 {

(i,0)}로, 및 {x(i,4), x(i,5), x(i,6), x(i,7)}를 {(i,1)}로 합침으로써 k ∈ [0,1] 로 매핑될 수 있다. 이는 수학식 18 ~ 25 각각의 수학식을 가중 합으로 간주함으로써 행해질 수 있다. 비록 가중 값이 수학식 사이에서 변하지만, 전체적인 평균 픽셀은 대략 동일한 것으로 간주될 수 있고, 때문에 상응하는 네개의 픽셀은 하나의 단일 값에 의해 평균화되고 표시될 수 있다. 더욱이, 최대 인덱스값은 이러한 경우에서 1이기 때문에, 평균 픽셀 값을 얻기 위해 두개의 수학식 18, 19 만을 필요로 하며, 다음과 같은 수학식으로 재 구성될 수 있다.

이러한 추출은 단지 네개의 수학식만 필요하기 때문에, 단지 네개의 계수가 필요하다. 그러나, 추출된 비디오 품질과 비용 절약을 최대화하기 위해, 다음의 두가지 조건이 선택된 DCT 계수에 대해 만족해야 한다.

(i) 수학식 내의 승수의 숫자를 감소시키기 위해 하나의 인덱스 값은 바람직하게는 0이 되어야 한다.

(ii) 계수는 도 2에 도시된 지그 재그 경로를 따라서 가능한 가장 높은 에너지를 가져야 한다.

수학식 26 ~ 27을 행 및 열 방향을 따라 각각 적용함으로써, 다음의 네개의 공식을 유도할 수 있다.

이러한 네개의 수학식의 해를 구하게 되면, 평균 픽셀은 다음과 같이 얻어진다.

이고,

라고 하고,

를 대체하는 간단한 표현

를 사용하면,

제 1 실시예에 따라 디코더가 실행해야만 하는 수학적인 덧셈 및 뺄셈을 표시하는 블록 실행도가 도 3에 도시된다. 이것들은 제 1 실시예에 따른 디코더가 통상 사용되는 역 DCT 변환을 대체하기 위해 실행해야 하는 연산들일 뿐이고, 상기 연산들은 픽셀값 X_ab을 얻기 위해 도시된 DCT 계수 상에서 직접 실행됨을 유의해야 한다. 상기 MPEG 압축 코드로부터의 2 ×2 평균 픽셀 블록은 여덟개의 덧셈과 네개의 우측 쉬프트(right-shift) 연산으로 추출될 수 있음은 명백하다. 단지 세개의 DCT 계수가 수학식 32 에서 사용된다면, 계산 코스트는 한층 더 감소될 수 있음을 유의해야 한다. 광범위한 실험으로부터, 이러한 변화는 대부분의 경우에 인식하기 어려운 가벼운 왜곡만을 초래한다. 그러나 계산 코스트는 현재 6개의 덧셈과 4개의 우측 쉬프트로 감소된다. 그러므로, 본 발명의 제 1 실시예는, MPEG 또는 JPEG 디코더 내에서 도 1에 도시된 것과 같은 완전한 IDCT 블록(10)은 도 3에 도시된 수학적 연산을 단순히 실행하는 하드웨어 또는 소프트웨어 기능적 구성요소에 의해 대체될 수 있음을, 제공한다.

더욱이, 수학식 세트는 추출될 픽셀의 휘도(luminance)값 뿐만 아니라 색상(chrominance)값에도 동일하게 적용될 수 있음을 유의해야 한다. 그러므로, 특정 픽셀에 대한 휘도 및 색상 값 각각은 적절한 수학식 세트를 각각 사용하여 각각 관련된 DCT 계수로부터 직접 추출될 수 있다.

도 3은 본 발명의 제 1 실시예에 따라 실행되는 것이 필요한 수학적 연산 및 순서를 도시하지만, 본 발명은 하드웨어 또는 소프트웨어의 어느 하나로 실행될 수 있음을 이해해야 한다. 더욱 상세하게는, 도 3의 연산을 실행할 수 있도록 전용 집적 회로를 설계하는 것이 가능하다는 것을 상상할 수 있으나, 동일하게 본 발명의 실시예는 또한 EPROM, EEPROM, FPGA(field-programmable gate array), 또는 이와 유사한 프로그램 가능한 논리 장치를 통해 실행될 수 있다. 더욱이, 본 발명은 또한 존재하는 컴퓨터 시스템 상에서 구동하는 소프트웨어 상에서 쉽게 실행가능하다. 도 8 및 도 9는 본 발명의 실시예의 어느 하나에 적용될 수 있는 가능한 구현의 각각의 예를 도시한다. 도 10은 본 발명의 실시예의 어느 하나에 의해 실행될 수 있는 단계를 추가로 도시한다. 도 8, 도 9, 및 도 10은 지금 더욱 상세히 설명될 것이다.

도 8은 본 발명의 하드웨어 구현에 필요할 수 있는 기능적 구성요소를 도시하는 블록도를 나타낸다. 본 발명은 종래 기술의 MPEG 디코더의 역 DCT 연산을 대체하고자 하나, 이러한 디코더 내에서 동작 보상 뿐만 아니라 런랭쓰 및 엔트로피 디코딩, 및 역 양자화와 같은 다른 연산은 동일할 것이다. 그러므로, 본 발명 내에서 MPEG 또는 JPEG 디코더의 다른 통상적 구성요소는 각각의 픽셀 블록에 대한 실제적인 DCT 계수값을 본 발명에 입력으로서 제공할 수 있음을 가정하면, 본 발명은 추출된 픽셀값을 출력할 것이다.

그러므로, 도 8에 도시된 것과 같이 본 발명의 실시예의 어느 하나에 따른 장치는 입력으로서 DCT 계수를 수신하고, 수신된 계수는 DCT 선택기(80)로 입력된 다. DCT 선택기(80)는 픽셀값을 계산하는데 실제로 필요한 이러한 계수을 선택하고, 나머지는 버린다. 그러나, 선택기로 입력된 DCT 계수가 버려질 것이 없는 경우인 처음 장소에서 사실상 감소된 세트일 수 있다. 이러한 경우에, 감소된 세트가 입력으로써 제공될 것임이 미리 알려진다면, 선택기(80) 없이 실행하는 것이 가능할 수 있다. 그러므로 선택기(80)는 본 발명의 동작에 필수적이지는 않다.

DCT 선택기(80)는 선택된 DCT 계수를 DCT 계수 저장부(82)로 전송하고, 여기서 그들은 저장된다. DCT 계수 저장부(82)는 픽셀값 계산기(84)에 의해 제어되도록 구성되고, 명령으로 요청될 때 DCT 계수를 픽셀값 계산기에 전달한다. 픽셀값 계산기(84)는 예컨데 DCT 계수값을 출력될 픽셀값에 직접 연관시키는 제 1 실시예의 수학식 32와 같은 소정의 수학식을 저장하는 매개변수 및 수학식 저장부(86)를 제어하도록 추가로 구성된다. 매개변수 및 수학식 저장부(86)는 명령으로 요청될 때 매개변수 및 수학식을 픽셀값 계산기에 전달한다.

픽셀값 계산기(84)는 수학식 저장부(86)에 저장된 매개변수 및 수학식을 사용하여 DCT 계수 저장부로부터 전달된 DCT 계수값으로부터 직접 픽셀값을 계산하도록 동작한다. 그다음 계산된 픽셀값은 일단 픽셀값 계산기(84)로부터 출력된다.

도 8이 본 발명의 하드웨어 구현에 관련되고자 하는 것에 반하여, 상기에서 언급한 것과 같이 본 발명의 실시예는 또한 컴퓨터 시스템 상에서 동작하도록 소프트웨어로 구현될 수 있고, 컴퓨터 시스템에 관한 본 발명의 필수적인 구성요소는 도 9에 도시된다. 도 9는 컴퓨터 시스템의 동작에 필요한 모든 구성요소를 도시하지 않으며, 본 발명의 실시예에 의해서 특별히 요구될 수 있는 컴퓨터 시스템의 구 성요소를 단지 도시하고자 하는 것은 통상의 당업자에게는 자명할 것이다.

도 9를 참조하면, 본 발명을 동작시키는 컴퓨터 시스템은 산술 및 논리 연산을 실행하도록 구성되어, 중앙 데이터 버스(94)를 통하여 다른 시스템 구성요소와 통신을 하는 중앙 처리 장치(90)를 포함한다. 입력 및 출력 포트(92)는 DCT 계수의 입력, 및 계산된 픽셀값의 출력을 허용하도록 데이터 버스(94)에 연결되어 제공된다. 고체 상태 메모리, 하드 디스크, 광 디스크, 또는 그와 유사한 것일 수 있는 저장 매체(96)가 제공되고, 저장 매체(96)는 제어 프로그램(98), DCT 계수를 저장하기 위한 저장 영역(97), 및 DCT 계수값을 픽셀값에 직접 연관시키는 소정의 수학식 및 매개변수를 저장하는 저장 영역(95) 뿐만 아니라, 컴퓨터 시스템을 동작시키는데 필요한 일반 오퍼레이팅 시스템 구성요소를 저장한다. CPU(90) 상에서 동작되는 제어 프로그램(98)은 입력으로서 수신된 DCT 계수를 사용하여 출력을 위한 픽셀값을 계산하는데 적합하게 CPU가 DCT 저장부(97)와 수학식 및 매개변수 저장부(95)에 접근하게끔 한다.

도 10은 본 발명의 어느 하나의 실시예에 의해 사용될 수 있는 도 8 또는 도 9의 선택적인 실행 중의 어느 하나의 동작을 도시하는 흐름도이다.

먼저, 단계(S.10.1)에서 픽셀값이 추출되는 DCT 계수가 수신된다. 이 다음에, 단계(S.10.2)에서, 픽셀 블록에 대해 수신된 일세트의 DCT 계수가 계산에서 실제로 사용되는 DCT 계수 만을 단지 포함하는 감소된 세트인지의 여부, 또는 사실상 여전히 64개의 계수의 완전한 블록인지의 여부의 검사가 이루어진다. 수신된 DCT 계수가 감소된 세트된 것으로 판단된다면, 처리는 단계(S.10.4)로 진행되고, 그 외 에 수신된 DCT 계수가 완전한 세트라면, 처리는 단계(S.10.3)으로 진행된다.

단계(S.10.3)에서, DCT 계수의 완전한 세트가 수신되고, 픽셀값을 계산하는데 단지 서브셋만 필요하기 때문에, 계산을 위해 필요한 계수는 선택되고 나머지는 버려진다. 그 이후에 처리는 픽셀값을 계산하는데 필요한 계수가 DCT 계수 저장부(82 또는 97)에 저장되는 단계(S.10.4)로 이동한다.

그 다음, 단계(S.10.5)에서 두개의 카운터 a 및 b는 영으로 초기화된다. 이들 카운터 a 및 b는 계산되는 각각의 픽셀값에 대해 적합한 수학식을 구하기 위해 매개변수 및 수학식 저장부(86 또는 95)로의 인덱스로 사용된다.

카운터의 초기설정 다음에, 단계(S.10.6)에서, 매개변수 및 수학식 저장부(86 또는 95)가 접근되고, 픽셀 x( a,b )에 대한 적합한 수학식이 구해진다. 구해진 수학식은 특별한 픽셀값의 계산에 필요한 임의의 DCT 계수를 포함할 것이고, 이러한 계수는 단계(S.10.7)에서 DCT 계수 저장부(82 또는 97)로부터 판독된다. 그 다음, 구해진 수학식이 필요한 적절한 DCT 계수 뿐만 아니라, 값이 계산되는 특별한 픽셀에 대한 수학식을 구하면, 단계(S.10.8)에서 수학식 및 계수는 픽셀 x( a,b )의 값을 계산하는데 사용되고 이 값은 이후에 저장된다.

단계(S.10.8) 다음에, (S.10.9)에서 카운터가 최대값 a_max 에 도달하는가의 여부를 검사하기 위한 평가가 이루어진다. a_max 의 최대값은 DCT 계수의 입력 블록에 대해 추출되어 지는 픽셀 블록의 사이즈에 달려있다. 예컨데, 제 1 실시예의 경우에서와 같이, 2 ×2 픽셀 블록이 DCT 계수의 매 8 ×8 블록에 대해 추출되는 경우라면, a_max 는 2와 같을 것이다. 그러나, 더 큰 수의 픽셀이 각각의 입력 DCT 계수 블록에 대해 추출되는 경우라면, a_max 는 더 큰 사이즈의 픽셀 블록의 차원 중의 하나와 같을 것이다.

만약 단계(S.10.9)에서의 평가가 a 가 a_max 와 다른 것으로 판단된다면, 단계(S.10.10)에서 카운터 a 는 증가되고, 처리는 단계(S.10.6)으로 복귀하고, 여기서 픽셀 x(a,b) 에 대한 수학식이 구해지고 처리는 반복된다.

그러나, 만약 처리는 단계(S.10.9)에서 a 가 최대값에 달하는 것으로 판단된다면, 처리는 단계(S.10.11)로 진행되고, 여기서 카운터 b에 대한 유사한 평가 즉, b가 그것의 최대값 b_max 에 도달했는가의 여부가 이루어진다. 또한, 카운터 a 에서와 같이, 카운터 b 는 제공된 입력 DCT 계수 블록에 대해 추출되는 픽셀 블록의 하나의 차원을 표시하고, 예컨데 제 1 실시예에서와 같이 2, 또는 제 2 및 제 3 실시예에서와 같이 4를 최대값으로 구한다.

만약 단계(S.10.11)의 평가가 b 가 그것의 최대값에 도달한 것으로 답한다면, 추출된 모든 픽셀값이 계산된 경우임에 틀림이 없고, 이 경우 처리는 픽셀값이 사이즈 a ×b의 블록으로서 출력되는 단계(S.10.14)로 진행된다. 그러나, 단계(S.10.11)의 평가가 반대로 답한다면, 단계(S.10.12)에서 b 는 증가하고, 다음에 단계(S.10.13)에서 카운터 a는 다시 0으로 초기화 되고, 그후 처리는 다시 단계(S.10.6)으로 진행한다. 이러한 중첩 루프(nested loop) 형태는 통상의 당업자에게 익숙한 것이 될 것이고, 본 발명의 실시예에 따라 값이 계산되는 픽셀을 포함하는 출력 픽셀 블록이 출력되게 하도록 적절한 각각의 수학식에 의해 모든 픽셀 x( a,b )이 계산되게끔 한다.

본 발명의 추가적인 실시예는 지금 설명될 것이다. 추가적인 실시예는 도 8, 9 및 10의 이러한 세트에서 이전에 설명된 것과 거의 동일한 방식으로 작동할 것이고, DCT 계수의 입력 블록당 추출되는 픽셀의 수(즉, 출력 픽셀값을 계산하는데 사용된 수학식 세트에 관해서 다르다), 또는 계산에서 실제로 필요한 특별한 DCT 계수의 수에서 단지 다른 것을 유의해야 한다.

제 2 실시예 - 4 ×4 블록에서 비디오 추출

8 ×8 입력 블록에서 4 ×4 픽셀 블록을 추출하는 본 발명의 제 2 실시예가 설명될 것이다.

4 ×4 픽셀의 추출을 위해, 최대 인덱스 값이 현재 3이기 때문에 단지 수학식 18 ~ 21이 사용된다. 연산을 평균함으로써,

수학식 18 ~ 21은 유사하게 다음과 같이 재구성될 수 있다.

16개의 수학식 그룹을 얻기 위해, 16개의 DCT 계수 C(u,v):(u,v) ∈ [0,3]을 사용하는 것이 필요하다. 각각의 계수에 대해, 수학식 33 ~ 36의 하나를 수평 및 수직 방향으로 각각 단순히 적용시킴으로써, 상응하는 수학식은 유도될 수 있다. 예컨데, C(3,2)에 대한 수학식을 얻기 위해, 기초 수학식으로서 먼저 수학식 35를 선택하고 이후에 다음의 전개를 얻기 위해 수학식 36을 그것에 적용시키고,

를 대체하는 간단한 표현

를 사용하면,

또는, 효율을 위해, 좌변에 비정수를 곱하면, 수학식 37은 다음과 같이 표현 된다.

유사한 연산이 이어지면, 모든 16개의 DCT 계수가 산출될 수 있다. 이러한 선형 수학식의 결과적인 세트는 다음과 같은 행렬 형태로 재구성 될 수 있다.

여기서 [C_T]는 수학식 39에 도시된 변환된 16개의 DCT 계수를 포함하는 벡터이다,

[

]는

에서

의 순서로 배열된 가중된 평균 픽셀을 포함하는 16차원 벡터이고 [

]는 도 6에 도시된 결과적인 16 ×16 매개변수 행렬이다.

그러면, [C_T]=[T][C_uv]이고, 수학식 38의 양변에 역행렬 [

]^-1을 곱한 이후에, 픽셀 벡터는 다음의 수학식을 통하여 추출될 수 있다.

여기서, [B]=[

]^-1[T] 는 도 7a 및 도 7b에서 표로 도시된다. 이로부터 0.125=1/8, 0.0625=1/16, 0.25=1/4 를 얻는데, 이는 본질상 각각 3, 4, 및 2 비트로 우측 쉬프트하는 연산이 된다. 결과적으로, 4 ×4 블록에 대한 비디오 추출은 세개의 선택적인 스킴에 의해 실행될 수 있다.

제 1 스킴은 단지 4개의 계수 C_uv:(u,v)∈{(0,0),(0,1),(1,0),(2,0)} 를 고려한다. 모든 픽셀은 다음의 수학식을 통하여 추출될 수 있다.

상기 수학식 내에서, 기호 C_ab ≫ x 는 DCT 계수 C_ab 의 이진 표현을 x 비트로 우측 시프팅하는 것을 나타내고, 이에 의해 가장 덜 중요한 x 비트를 버린다. 이와 같은 연산은 실제의 산술 나눔 연산 실행의 필요없이, DCT 계수의 값을 2^x로 나누는 것을 근사하는 것임이 이해될 것이다.

상기의 수학식 세트를 실행하는데 필요한 수학적인 연산의 일부를 나타내고, 제 2 실시예에 대한 완전하지 않은 삼단계 실행 블록도가 도 4에 제공된다. 추가 연산이 상기한 수학식 세트로부터 필요한 것은 자명하게 될 것이다. 제 1 실시예와 함께, 상기 수학식 세트는 MPEG 디코더에서 실행되는 역 DCT에 대한 필요를 대체하고, 그러므로 본 발명의 제 2 실시예는 MPEG 또는 JPEG 디코더 내에서 도 1에 도시된 것과 같은 완전한 IDCT 블록(10)은 도 4에 부분적으로 도시되고, 상기 수학식에 의해 완전하게 설명된 수학적 연산을 단순히 실행하는 하드웨어 또는 소프트웨어 기능적 구성요소에 의해 대체될 수 있다. 이러한 스킴은 단지 2개의 곱셈과 28개의 덧셈을 필요로하고, 비록 사용된 네번째 것이 다르긴 하지만 추출된 비디오 프레임의 품질은 4개의 계수가 또한 사용된 2 ×2 블록에서 추출된 품질보다 아직까지 훨씬 더 좋은 것을 알 수 있다. 본 발명에 의해 얻어지는 결과의 예들은 이후에 더욱 상세히 설명된다.

제 3 실시예

제 3 실시예는 입력되는 각 8 ×8 블록 DCT 계수에 대해 4 ×4 블록에서 픽셀을 추출한다는 점에서 제 2 실시예와 유사하고, 9개의 계수, C_uv:(u,v)∈[0,2] 를 고려한다는 점에서 제 2 실시예와 다르다. 16개의 픽셀은 다음의 수학식에 의해 추출될 수 있다.

여기서,

완전하지 않은 실행 블록도는 도 5에 제공되고, 그곳에서 구조는 매우 단순하게 보여질 수 있다. 제 2 실시예에서와 같이, 도 5에 도시되지 않은 연산은 상기한 수학식으로부터 명백하게 될 것이다. 제 1 및 제 2 실시예 양자에서와 같이, 상기한 수학식 세트는 MPEG 디코더에서 실행되는 역 DCT에 대한 필요를 대체하고, 그러므로 본 발명의 제 3 실시예는 MPEG 또는 JPEG 디코더 내에서 도 1에 도시된 것과 같은 완전한 IDCT 블록(10)은 도 5에 부분적으로 도시되고, 상기 수학식에서 완전하게 설명된 수학적 연산을 단순히 실행하는 하드웨어 또는 소프트웨어 기능적 구성요소에 의해 대체될 수 있다. 제 3 실시예의 전체적인 계산 코스트는 현재 5개의 곱셈, 42개의 덧셈 및 9개의 우측 쉬프트에 달함을 알 수 있다. 만약 0.176x가 (x ≫ 3) + (x ≫ 5)에 의해 근사된다면, 계산 코스트는 47개의 덧셈과 19개의 우측 쉬프트가 되나, 곱셈은 존재하지 않는다. 시각적 검토로부터, 이러한 두개의 실행은 어떠한 인식가능한 차이를 보이지 않는다.

제 4 실시예

제 4 실시예는 제 3 실시예와 밀접하게 관련되어 있으나, 모든 16개의 계수 C_uv:(u,v)∈[0,3]를 고려한다. 그러나, 모든 16개의 계수의 포함은 덧셈 및 곱셈의 개수가 거의 두배가 된다. 이러한 두개의 스킴 사이에서 거의 인식되지 않는 시각적 품질 차이는 계산적인 복잡성의 증가를 정당화하지 못하고, 그러므로 제 4 실시예는 바람직하지 않다.

이전에 추출된 다른 7개의 계수를 포함하기 위해, 픽셀 추출 수학식은 다음 과 같이 형성된다.

이전의 실시예에서와 같이, 상기 수학식 세트는 MPEG 디코더에서 실행되는 역 DCT에 대한 필요를 대체하고, 그러므로 본 발명의 제 4 실시예는 MPEG 또는 JPEG 디코더 내에서 도 1에 도시된 것과 같은 완전한 IDCT 블록(10)은 상기 수학식 에 의해 설명된 수학적 연산을 단순히 실행하는 하드웨어 또는 소프트웨어 기능적 구성요소에 의해 대체될 수 있다. 세개의 실제 숫자인 0.085, 0.042 및 0.18가 각각 1/16, 1/32, 및 1/8에 의해 근사화 된다면 상기 수학식에 대한 실행 코스트는 45개의 덧셈 및 17개의 우측 쉬프트 연산이다. 그러나, 상기에서 설명한 것과 같이 이들 여분의 7개의 계수 사용은 그것의 추출된 프레임의 품질에 대한 어떤 인식할만한 개선을 가져오지 못하므로, 이러한 스킴에 대한 추가 논의는 제외된다.

그러므로, 요약하면, 본 발명의 실시예에 따라 네개의 비디오 추출 스킴이 제공되고, 여기서 세개의 스킴은 각각 4개, 9개, 및 16개의 DCT 계수를 사용하는 4 ×4 블록에서 비디오 프레임을 추출하고, 하나의 스킴은 4개의 DCT 계수를 사용하는 4 ×4 블록에서의 비디오 프레임을 추출한다. 네개의 실시예는 단지 예이고, 더 크거나 또는 더 작은 수의 DCT 계수를 사용하는 다른 사이즈의 블록을 만드는 유사한 스킴은 여기서 설명한 것과 같은 본 발명의 수학적 원리를 적용함으로써 설계될 수 있고, 이러한 선택적인 스킴은 본 발명 내에 포함될 것이다.

결과

본 발명의 제 1 실시예 내지 제 3 실시예에 의해 제공된 결과는 도 11, 12, 13 및 14의 각각에 도시된 예시적인 프레임 (a), (b) 및 (c)를 참조하여 설명될 것이다. 더욱 상세하게는, 도 11은 제 1 실시예에 의해 생성된 세개의 프레임을 도시하고, 도 12는 제 2 실시예에 의해 생성된 경우의 동일한 세개의 프레임을 도시하고, 및 도 13은 제 3 실시예에 따라 생성된 경우의 프레임을 도시한다. 비교를 위해, 도 14는 동일 사이즈에서 추출된 프레임과의 비교를 위해 288 ×352의 본래의 크기로부터 2에 의해 다운 샘플링된 종래 기술의 완전한 IDCT 를 사용하여 추출된 동일 프레임을 도시한다.

상기에서 언급한 영상을 생성하기 위해, 각각의 실시예는 인터넷을 통해 다운로드된 본래의 MPEG-2 디코더의 C 소오스 코드에 기반한 Microsoft?Visual C++ 환경에서 실행된다. 그러므로 이러한 관점에서, 상기 특별한 실행은 결과적으로 도 9에 관해 이전에 설명된 소프트웨어 구현에 상응한다. 더욱이, 공평한 비교를 보장하기 위해, 각 프레임은 동일한 사이즈로 확대되고, 이러한 확대는 필요한 사이즈에 달할 때까지 각각 수평 및 수직 방향을 따라 동일한 픽셀을 단순히 반복함으로써 실행된다. 따라서, 소오스 영상과 동일한 크기로 추출된 픽셀을 확대하기 위해, 2 ×2 픽셀 블록이 그곳으로 입력되는 DCT 계수의 8 ×8 블록 각각에 대해 추출되는 경우에, 각각의 픽셀은 수직으로 4번 및 수평으로 4번 반복되고, 결과적으로 16개의 동일한 픽셀이 된다. 4 ×4 블록이 추출된 경우에, 각각의 픽셀은 단지 각 방향으로 두번 반복되는 것이 필요하다. 본 발명에 의해 제공되는 단순히 반복하는 픽셀 확대의 이러한 모드는 계산적으로 똑바르고, 거의 추가적 코스트를 가져오지 않으며, 따라서 상기 확대는 본 발명의 직접적인 픽셀 추출 기술을 사용하여 얻어진 연산적인 효율의 증가를 떨어뜨리지 않고 실행되게끔 한다.

스틸 비디오 프레임 사이의 광범위한 재생 및 비교 이후에, 시각적 인식의 관점에서 비디오 영상의 품질은 추출된 비디오가 그것의 추출된 사이즈로 재생된다면 모든 64개의 DCT 계수로 압축해제된 완전한 IDCT의 품질과 거의 동일한 것으로 관찰된다. 확대된 크기의 재생 동안에, 품질은 비록 미약한 왜곡이 약간의 프레임에서 관찰될 수 있지만, 품질은 받아들일만 하다. 예컨데, 해상도가 다른 예들에 비해 현저히 적은 제 1 실시예에 의해 생성된 도 11로부터 알 수 있다. 그러나, 제 3 실시예를 사용하여 생성된 도 13으로부터, 완전한 IDCT를 사용하여 생성된 프레임과 어떠한 인식할만한 차이도 거의 발생하지 않는다.

실험적 결과 및 시각적 비교로부터, 다음의 추가적인 결론이 비디오 추출 알고리듬에 내려질 수 있다.

▶ 제 1 및 제 3 실시예의 두개의 비디오 추출 알고리듬은 추출된 사이즈 재생, 또는 제 1 실시예에 대해 H/4 ×W/4 및 제 3 실시예에 대해 H/2 ×W/2으로 완전에 가깝게 압축해제된 비디오 영상 품질을 얻는다.

▶ 제 2 실시예에 대해, 추출된 사이즈 재생은 완전히 압축해제된 비디오 프레임과 비교하여 받아들일만한 인식 품질을 갖고, 제 1 실시예의 품질보다 더 좋은 품질을 얻는다. 두개의 스킴은 비록 네번째가 C₂₀ 대 C₁₁ 로 다르지만 4개의 DCT 계수를 사용한다.

▶ 2 ×2 블록, 또는 제 1 실시예에서의 비디오 추출은 H/2 ×W/2 재생에 대해 받아들일만한 인식 품질은 유지한다.

▶ 4 ×4 블록, 또는 제 3 실시예에서의 비디오 추출은 받아들일만한 인식 품질로 완전한 사이즈의 비디오 프레임 재생을 제공할 수 있다.

예시적인 목적을 위해, 테이블 1은 연구되고 있는 세개의 비디오 추출 스킴 및 논문에서 인용된 다른 빠른(Fast) IDCT 계산 알고리듬에 대한 계산적인 코스트(그러나 복잡하지 않은)를 요약한다.

테이블 1: 다양한 알고리듬에 대한 계산적 코스트의 요약

*비디오 추출* 스킴	*추출된 사이즈* (본래의 블록 사이즈 8 ×8 화소)	*관련된* *DCT* 계수	곱셈	덧셈	*우측 쉬프트*
제 1 실시예	2 ×2	4 - (00 01 10 11)	-	8	4
제 2 실시예	4 ×4	4 - (00 01 10 20)	2	28	5
제 3 실시예	4 ×4	9 - (00 - 33)	5	42	9
제 3 실시예	4 ×4	9 - (00 - 33)	-	47	19
완전 IDCT	8 ×8	모두 64	192	464	-
[a]	8 ×8	64	104	462
[b]	8 ×8	64	96	484
[c]	8 ×8	64	96	466

테이블 내에서 참조문헌 [a], [b], 및 [c]는 각각 종래의 간행물: M. Vetterli, "Fast 2-D discrete cosine transform," in Proc. ICASSP '85, Mar. 1985: P. Duhamel and C. Guillemot, "Polynomial transform computation of 2-D DCT,"in Proc. ICASSP '90, pp. 1515-1518, Apr. 1990: and N. I. Cho and S. U. Lee, "Fast algorithm and implementation of 2-D discrete cosine transform, "IEEE Trans. Circuits Syst., vol. CAS-40, pp.259-266, Apr. 1991 과 관련되고, 각각은 빠른 역 DCT 연산의 종래 기술의 예들을 설명한다.

테이블에서 결과는 다음과 같이 의견을 제시한다. 즉, 참조문헌 [a-c]에서의 빠른 IDCT 실행에 대한 청구범위는 소프트웨어 실행 뿐만 아니라 이론적인 고찰에 의해 주의 깊게 증명되는 것을 필요로 하는 것을 특히 유의해야 한다. 빠른 스피드는 낮은 실행 복잡성을 반드시 의미하지 않는다. 빠른 IDCT 계산의 대다수는 여전히 높은 계산 복잡성을 야기시킨다. 이는 빠른 것이 곱셈과 덧셈의 개수에 의해서만 측정되기 때문에, 이러한 계수 또는 픽셀의 재배열, 실제 숫자 등과 같은 커다란 용량을 미리-계산하기 또는 미리-저장하기와 같은 다른 배경의 계산은 여전히 무시된다. 결과적으로, 커다란 메모리 소비가 요구될 수 있다. 그러므로, 이와 같이 공지된 빠른 IDCT 계산 알고리듬의 대부분은 대가를 치르지 않고서는 빠르지 않다. 대조적으로, 여기에서 발명된 기술은 실행 구조가 너무 간단해서 DCT에 대한 어떠한 지식 없이 쉽게 실시할 수 있기 때문에, 정말로 낮은 코스트를 갖는 것이 쉽게 입증될 수 있다. 여기에는 어떤 다른 주변 계산이 필요 없고, 이러한 계수 또는 픽셀의 다른 어떤 동작이 필요 없고, 추가적인 메모리 소비가 없다. 더욱이, 제 3 실시예에 필요한 단지 다섯개의 곱셈은 10개의 우측 쉬프트로 대체될 수 있다. 이는 곱셈이 전혀 필요치 않다는 것을 의미한다. 인식 품질은 아직까지 경쟁력이 있고, 추출된 사이즈 디스플레이에서 완전히 압축 해제된 품질과 매우 유사하다. 어떤 빠른 IDCT-기반 연산도 이러한 것을 달성할 수 없다고 생각된다.

그러므로 본 발명은 역 DCT를 실행할 필요 없이 픽셀값을 인코딩 MPEG 또는 JPEG 영상의 DCT 계수로부터 직접 추출되게끔 하는 방법 및 장치를 제공한다. 본 발명의 연산 효율은 종래 기술인 빠른 IDCT 기술에 관하여 훨씬 개선되었으며, 생 성된 DCT 계수의 서브셋을 단지 사용하는 능력은 MPEG 및 JPEG 인코딩 영상 및 비디오의 미래의 전송에 대해 필요한 대역이 훨씬 더 감소될 수 있음을 의미한다. 본 발명의 많은 잠재적인 향후의 응용이 있고, DCT 도메인으로부터 영상의 빠르고 효율적인 추출을 얻는데 바람직한 임의의 향후 장치에서 본 발명에 의해 제공된 기술의 응용을 생각할 수 있다.

Claims

소오스 영상에서 하나의 블록내의 복수의 픽셀값으로부터 유도된 복수의 이산 여현 변환(DCT) 계수들을 포함하는 신호로부터 픽셀값을 추출하는 방법에 있어서,

복수의 미리 계산된 가중 인자들을 저장하는 단계,

상기 신호로부터, 상기 복수의 이산 여현 변환 계수들의 완전한 총 개수보다 적은 개수의 이산 여현 변환 계수들을 선택하는 단계, 및

추출되는 임의의 특별한 픽셀값에 대해, 상기 미리 계산된 가중 인자들에 의해 가중된, 선택된 상기 이산 여현 변환 계수들의 가중 합으로서 상기 픽셀값을 계산하되, 상기 가중 인자가 양 또는 음인 N에 대하여 2의 N 제곱으로 근사되는 경우에는 상기 가중은 N만큼의 바이너리 시프팅에 의해 이루어지는 픽셀값 계산 단계를 포함하는 것을 특징으로 하는 픽셀값 추출 방법.
삭제
제 1 항에 있어서,

추출되는 픽셀값은 상기 소오스 영상의 각 픽셀 세트값의 평균값인 것을 특징으로 하는 픽셀값 추출 방법.
삭제
제 1 항에 있어서,

상기 DCT 계수는 상기 소오스 영상에서 a ×b 픽셀의 블록으로부터 유도되며, 상기 블록에 대해 총 a/x ×b/y 픽셀이 추출되는 것을 특징으로 하는 픽셀값 추출 방법.
제 5 항에 있어서,

상기 a 및 b는 a = b = 8 이고,

상기 x 및 y는 x = y ∈ {2, 4}인 것을 특징으로 하는 픽셀값 추출 방법.
삭제
제 1 항에 있어서,

상기 계산하는 단계에서 사용되는 상기 DCT 계수 중의 적어도 하나는 인덱스 값 0을 갖는 것을 특징으로 하는 픽셀값 추출 방법.
제 1 항에 있어서,

상기 계산하는 단계에서 사용되는 상기 DCT 계수는 상기 DCT 변환에 관련된 가장 높은 에너지를 대표하는 것을 특징으로 하는 픽셀값 추출 방법.
삭제
제 1 항에 있어서,

8 ×8 DCT 계수의 블록에 대해, 2 ×2 픽셀의 블록이 추출되고, 상기 픽셀값은 수학식

- 여기서,

x(i,j)는 픽셀(i,j)의 추출값이고, C(u,v)는 DCT 계수 블록에 관련된 DCT 계수 (u,v)임-에 따라 계산되는 것을 특징으로 하는 픽셀값 추출 방법.
제 1 항에 있어서,

8 ×8 DCT 계수의 블록에 대해, 4 ×4 픽셀의 블록이 추출되고, 상기 픽셀값은 수학식

`

- 여기서,

x(i,j)는 픽셀(i,j)의 추출값이고, C(u,v)는 DCT 계수 블록에 관련된 DCT 계수 (u,v)이고, ≫ x 는 2^x에 의한 유효 나눗셈(effective divide)을 나타냄-에 따라 계산되는 것을 특징으로 하는 픽셀값 추출 방법.
제 1 항에 있어서,

8 ×8 DCT 계수의 블록에 대해, 4 ×4 픽셀의 블록이 추출되고, 상기 픽셀값은 수학식

여기서,

- 여기서,

x(i,j)는 픽셀(i,j)의 추출값이고, C(u,v)는 DCT 계수의 상기 DCT 계수 블록에 관련된 DCT 계수 (u,v)이고, ≫ x 는 2^x에 의한 유효 나눗셈을 나타냄-에 따라 계산되는 것을 특징으로 하는 픽셀값 추출 방법.
삭제
소오스 영상의 픽셀값으로부터 유도된 복수의 이산 여현 변환(DCT) 계수를 포함하는 신호로부터 픽셀값을 추출하는 컴퓨터 프로그램을 기록한 컴퓨터로 판독가능한 기록매체에 있어서,

컴퓨터 상에서 실행되는 경우 상기 컴퓨터가 제 1 항, 제 3 항, 제 5 항, 제 6 항, 제 8 항, 제 9 항, 제 11 항, 제 12 항 또는 제 13 항의 방법의 단계들을 실행하도록 하는 명령을 포함하는 것을 특징으로 하는 컴퓨터 프로그램을 기록한 컴퓨터로 판독가능한 기록매체
소오스 영상의 픽셀값으로부터 유도된 복수의 이산 여현 변환(DCT) 계수들을 포함하는 신호로부터 픽셀값을 추출하는 장치에 있어서,

픽셀값이 추출되는 특정 픽셀과 각각 연관되는 미리 계산된 복수의 매개변수를 저장하는 저장 수단,

상기 신호로부터, 상기 복수의 이산 여현 변환 계수들의 완전한 총 개수보다 적은 개수의 이산 여현 변환 계수들을 선택하는 수단, 및

추출되는 임의의 특별한 픽셀값에 대해, 상기 미리 계산된 가중 인자들에 의해 가중된, 선택된 상기 이산 여현 변환 계수들의 가중 합으로서 상기 픽셀값을 계산하되, 상기 가중 인자가 양 또는 음인 N에 대하여 2의 N 제곱으로 근사되는 경우에는 상기 가중은 N만큼의 바이너리 시프팅에 의해 이루어지는 픽셀값 계산 수단을 포함하는 것을 특징으로 하는 픽셀값 추출 장치.
삭제
제 16 항에 있어서,

추출되는 픽셀값은 상기 소오스 영상의 각 픽셀 세트값의 평균값인 것을 특징으로 하는 픽셀값 추출 장치.
삭제
제 16 항에 있어서,

상기 DCT 계수는 상기 소오스 영상에서 a ×b 픽셀의 블록으로부터 유도되며, 상기 블록에 대해 총 a/x ×b/y 픽셀이 추출되는 것을 특징으로 하는 픽셀값 추출 장치.
제 20 항에 있어서,

상기 a 및 b는 a = b = 8 이고,

상기 x 및 y는 x = y ∈ {2, 4}인 것을 특징으로 하는 픽셀값 추출 장치.
삭제
제 16 항에 있어서,

상기 계산 수단에서 사용되는 상기 DCT 계수 중의 적어도 하나는 인덱스 값 0을 갖는 것을 특징으로 하는 픽셀값 추출 장치.
제 16 항에 있어서,

상기 계산 수단에서 사용되는 상기 DCT 계수는 상기 DCT 변환에 관련된 가장 높은 에너지를 대표하는 것을 특징으로 하는 픽셀값 추출 장치.
삭제
제 16 항에 있어서,

8 ×8 DCT 계수의 블록에 대해, 2 ×2 픽셀의 블록이 추출되고, 상기 픽셀값은 수학식

- 여기서,

x(i,j)는 픽셀(i,j)의 추출값이고, C(u,v)는 DCT 계수 블록에 관련된 DCT 계수 (u,v)임-에 따라 계산 수단에 의해 계산되는 것을 특징으로 하는 픽셀값 추출 장치.
제 16 항에 있어서,

8 ×8 DCT 계수의 블록에 대해, 4 ×4 픽셀의 블록이 추출되고, 상기 픽셀값은 수학식

- 여기서,

x(i,j)는 픽셀(i,j)의 추출값이고, C(u,v)는 DCT 계수 블록에 관련된 DCT 계수 (u,v)이고, ≫ x 는 2^x에 의한 유효 나눗셈을 나타냄-에 따라 계산 수단에 의해 계산되는 것을 특징으로 하는 픽셀값 추출 장치.
제 16 항에 있어서,

8 ×8 DCT 계수의 블록에 대해, 4 ×4 픽셀의 블록이 추출되고, 상기 픽셀값은 수학식

여기서,

- 여기서,

x(i,j)는 픽셀(i,j)의 추출값이고, C(u,v)는 DCT 계수 블록에 관련된 DCT 계수 (u,v)이고, ≫ x 는 2^x에 의한 유효 나눗셈을 나타냄-에 따라 계산 수단에 의해 계산되는 것을 특징으로 하는 픽셀값 추출 장치.