KR100823145B1 - 관심영역 기반의 영상 화질개선장치 및 양자화기기 및 그동작 방법 - Google Patents
관심영역 기반의 영상 화질개선장치 및 양자화기기 및 그동작 방법 Download PDFInfo
- Publication number
- KR100823145B1 KR100823145B1 KR1020060064486A KR20060064486A KR100823145B1 KR 100823145 B1 KR100823145 B1 KR 100823145B1 KR 1020060064486 A KR1020060064486 A KR 1020060064486A KR 20060064486 A KR20060064486 A KR 20060064486A KR 100823145 B1 KR100823145 B1 KR 100823145B1
- Authority
- KR
- South Korea
- Prior art keywords
- target
- roi
- bit amount
- quantization
- max
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/167—Position within a video image, e.g. region of interest [ROI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/149—Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/182—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/184—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/186—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/48—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/625—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Discrete Mathematics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
본 발명은 ROI 기반의 영상 화질개선장치 및 그 동작 방법에 관한 것으로서, 양자화 계수에 한계치를 두어 이를 초과하는 비트량에 대해서는 비관심영역에서 초과된 비트량을 제거함을 특징으로 한다. 본 발명의 ROI기반 양자화기는, 색상정보를 이용하여 상기 영상의 중요부분인 관심영역과 중요부분이 아닌 비관심영역을 검출하는 ROI 검출모듈과, 비트율 제어에 의해 목표된 목표 양자화 계수(QPtarget)가 미리 설정된 최대 양자화 계수(QPmax)보다 작거나 같은 경우에는 상기 목표 양자화 계수(QPtarget)로 양자화하며, 상기 목표 양자화 계수(QPtarget)가 미리 설정된 최대 양자화 계수(QPmax)보다 큰 경우에는 상기 최대 양자화 계수(QPmax)로 양자화를 수행한 후 목표된 비트량보다 초과되는 초과 비트량이 있는지를 검출하는 R-QP 평가모듈과, 상기 R-QP 평가모듈에서 초과되는 비트량이 검출될 시에는 해당 초과 비트량을 상기 비관심영역에서 제거하는 쓰레솔드 작업모듈을 구비한다.
H.263, 동영상, 영상, ROI, 화질, 필터, 양자화, QP, VLC
Description
도 1은 종래의 ROI 기반의 영상 화질개선장치의 내부 구성 블록도이다.
도 2는 한 프레임에서 매크로블록당 QP값을 할당한 예를 도시한 그림이다.
도 3은 본 발명에 따라 ROI 기반의 영상 화질개선장치의 내부 구성 블록도이다.
도 4는 CbCr 평면에서의 피부색의 분포도이다.
도 5a 및 도 5b는 ROI 영역이 검출된 모습을 도시한 그림이다.
도 6은 선형 소스 모델을 그래프로 도시한 그림이다.
도 7은 본 발명의 일 실시 예에 따라 R-QP 평가 후 초과 비트량을 제거하는 과정을 도시한 플로차트이다.
도 8은 최대 양자화 계수에 따라 R-QP 평가 후 초과 비트량을 산출하는 모습을 도시한 그래프이다.
도 9는 초과 비트량을 제거하는 쓰레솔드 작업 과정을 도시한 플로차트이다.
도 10은 매크로블록 스캔 모습을 도시한 그림이다.
도 11 내지 도 15는 각 쓰레솔딩 과정을 도시한 그림이다.
도 16a는 쓰레솔딩 전의 매크로블록의 모습을 도시한 그림이다.
도 16b는 쓰레솔딩 후의 매크로블록의 모습을 도시한 그림이다.
도 17은 ROI 기반의 H.263 코딩 결과의 영상 화면이다.
*도면의 주요 부분에 대한 부호의 설명*
300: ROI 기반의 영상 화질개선장치 310: H.263
320: 전처리부 321: 디블록킹 필터
322: 명암개선필터 330: ROI 기반 인코더
331: ROI 검출모듈 332: R-QP 평가모듈
333: 쓰레솔딩 작업모듈
본 발명은 ROI 기반의 영상 화질개선장치 및 그 동작 방법에 관한 것으로서, 양자화 계수에 한계치를 두어 이를 초과하는 비트량에 대해서는 비관심영역에서 초과된 비트량을 제거함을 특징으로 한다.
최근에 이동통신망이 3세대 이후로 발전을 하며 단말기가 발전함에 따라 화상 통화를 비롯한 영상 서비스가 활성화될 수 있는 환경이 주어지고 있다. 영상 서비 스의 예를 들자면, 영상 CRBT, 영상 VMS 등을 들 수가 있는데, 기존 음성망에서 이러한 서비스를 하기 위해서는 ITU-T에서 제정한 H.324M 프로토콜을 사용한다. 상기 프로토콜은 비디오/오디오 코덱, 데이터 프로토콜(data protocol), 호처리(call control) 등으로 구성되어 있는데, 기존에 제정된 표준을 묶어놓은 프로토콜이다. 이중에 비디오 코덱으로 H.261, H.263, H264, MPEG4 등이 있으며, 이 중에서 실시간 통신을 위하여 가장 많이 쓰이는 코덱은 H.263이다. 그런데 상기와 같은 종래의 압축방식으로 음성 트렁크의 좁은 대역폭에 맞춰 압축을 하게 되면 영상의 화질이 매우 저하되는 문제가 있었다. 예컨대, WCDMA 통신망에서의 화상통화를 위한 트렁크 대역폭은 64kbps인데, 이러한 대역폭에 영상, 음성, 데이터를 같이 전송하여야 하기 때문에 비디오 데이터가 차지하는 대역폭은 43.3kbps에 불과하다. 따라서 비디오 데이터는 크게 압축이 되어야 하며 이로 인한 화질 손실은 피해갈 수 없게 된다. 특히 H.263 압축으로는 소비자들에게 부가서비스 제공 시에 양호한 품질의 서비스를 제공할 수 없었다.
상기와 같은 문제를 극복하기 위하여, 저화질의 영상 파일에 있어서 화면의 특정 부분에 대하여 집중적으로 원본에 가깝게 복구하는 보정을 가함으로써 이동통신단 사용자가 고화질의 영상으로 느낄 수 있도록 하는 수단 및 방법이 본 출원인에 의해 제시되었다. 본 출원인에 의해 출원된 "이동통신망에서의 영상 화질 개선 방법 및 이를 구현하는 장치"(국내특허출원번호:10-2006-0005397) 출원발명을 도 1과 함께 간단히 설명하면, 영상 화질개선장치(100)는 전처리부(120)와 ROI필터가 포함된 인코더(130)를 두어 전처리부(120)의 디블록킹 필터(121)에서 영상 화면의 블록단위의 경계를 보정하며, 에지개선 필터(122)에서 영상화면의 각 구성요소의 경계를 보정하며, 명암개선 필터(123)에서 영상 화면의 명도를 증가시키는 보정을 수행하도록 하여 전체적으로 화질을 개선시키도록 하였다. 또한, ROI필터가 포함된 인코더(130) 내의 ROI필터에서 관심영역(ROI 영역)과 비관심영역(비ROI 영역)에 각각 다른 양자화계수를 할당함으로써, 관심영역에 더 많은 비트가 할당되어 화질개선이 이루어지도록 하였다.
즉, "이동통신망에서의 영상 화질 개선 방법 및 이를 구현하는 장치" 출원발명은 전처리부(120)에서의 필터링에 의해 1차적 화질개선을 이루는 특징으로 하고 있으며, 상기 ROI필터가 포함된 인코더(130)는 영상화면을 관심영역과 비관심영역으로 구분하여 양자화계수를 각각 달리 할당하여 2차적 화질개선을 이루는 특징을 하고 있다. 그런데, 상기 ROI필터는 영상화면을 관심영역과 비관심영역으로 구분하여 양자화계수를 각각 달리 할당하는 구조를 가지고 있는데, 종래의 이러한 ROI 기반의 비트율 제어 알고리즘을 따를 경우, 도 2에 도시한 바와 같이 관심영역(200)과 비관심영역(210)의 경계에서 양자화계수의 차이가 최대 2만큼 발생할 수 있으므로 관심영역(200)에 충분히 작은 양자화 계수를 할당할 수 없는 약점이 있었다. 따라서 최적의 화질개선을 위하여 관심영역과 비관심영역을 구별하여 비트율을 제어하여 양자화하는 세부적인 기술적 방법이 요청되었다.
상기의 문제점을 해결하고자 본 발명은 안출된 것으로서, 소정의 제한된 대역 폭에서 H.263 압축을 행할 때 소비자가 볼 때 양호한 서비스 품질을 가질 수 있도록 최대 양자화 계수를 이용하여 화질을 개선하는 장치 및 방법을 제공함을 목적으로 한다. 또한, 최대 양자화 계수로 양자화를 수행한 후, 초과되는 비트량을 비관심영역에서 제거하는 방법을 제시함을 목적으로 한다.
상기 목적을 이루기 위하여 본 발명의 ROI 기반의 영상 화질개선장치는, 손실된 원본 영상을 원본에 근접하도록 화상 및 경계 보정하여 화질 개선을 수행하는 전처리부와, 상기 전처리부를 거친 영상 중에서 특정 관심영역(ROI)에 높은 비트를 할당하고 나머지 비관심영역(비ROI)에 적은 비트를 할당하는 비트율 제어를 통해 인코딩하는 ROI 기반 인코더를 구비하며, 상기 ROI 기반 인코더는, 공간적 도메인과 주파수 도메인 사이의 직교적 관계를 이용하여 상기 영상을 고주파 성분과 저주파 성분으로 나누는 이산여현변환기(DCT)와, 상기 저주파 성분을 양자화하여 변환계수를 생성한 후, 특정 관심영역(ROI)에 높은 비트가 할당되고 나머지 비관심영역(비ROI)에 적은 비트가 할당되도록 비관심영역에 있는 상기 변환계수를 재설정하는 ROI기반 양자화기와, 상기 변환 계수를 기반으로 공간적 중복성을 제거하여 인코딩을 완료하는 가변장부호화기(VLC)를 구비한다.
상기 ROI기반 양자화기는, 색상정보를 이용하여 상기 영상의 중요부분인 관심영역과 중요부분이 아닌 비관심영역을 검출하는 ROI 검출모듈과, 비트율 제어에 의 해 목표된 목표 양자화 계수(QPtarget)가 미리 설정된 최대 양자화 계수(QPmax)보다 작거나 같은 경우에는 상기 목표 양자화 계수(QPtarget)로 양자화하며, 상기 목표 양자화 계수(QPtarget)가 미리 설정된 최대 양자화 계수(QPmax)보다 큰 경우에는 상기 최대 양자화 계수(QPmax)로 양자화를 수행한 후 목표된 비트량보다 초과되는 초과 비트량이 있는지를 검출하는 R-QP 평가모듈과, 상기 R-QP 평가모듈에서 초과되는 비트량이 검출될 시에는 해당 초과 비트량을 상기 비관심영역에서 제거하는 쓰레솔드 작업모듈을 구비한다.
또한, 본 발명의 ROI 기반의 양자화 방법은, 최대 양자화 계수(QPmax)를 설정하고, 비트율 제어에 의한 목표 비트량(Btarget)을 갖는 목표 양자화 계수(QPtarget)를 추출하는 과정과, 상기 목표 양자화 계수(QPtarget)가 상기 최대 양자화 계수(QPmax)보다 작거나 같은 경우에는 상기 목표 양자화 계수(QPtarget)로 전체 영상에 대한 양자화를 수행하며, 상기 목표 양자화 계수(QPtarget)가 상기 최대 양자화 계수(QPmax)보다 큰 경우에는 상기 최대 양자화 계수(QPmax)로 전체 영상에 대한 양자화를 수행하는 과정과, 상기 전체 영상의 색상 정보를 이용하여 상기 전체 영상을 관심영역 및 비관심영역으로 구별하는 과정과, 상기 최대 양자화 계수(QPmax)로 양자화가 이루어진 경우에는, 목표된 비트량보다 초과되는 초과 비트량을 산출한 후, 상기 산출된 초과 비트량을 상기 비관심영역에서 제거하는 쓰레솔딩 작업이 이루어지는 과정을 포 함한다.
또한, 상기 쓰레솔딩 작업은, 비관심영역에 존재하는 각 매크로블록에서 제거해야 하는 매크로블록별 초과 비트량을 산출하는 제5과정과, 비관심영역의 첫 번째 매크로블록의 변환계수를 스캔하여 읽어 들인 변환계수의 집합을 변환계수 시퀀스로 하는 제6과정과, 상기 변환계수 시퀀스에 대한 총 비트량을 산출하여 제1총비트량으로 설정하는 제7과정과, 상기 변환계수 시퀀스에서 마지막 변환계수를 제거한 후 총 비트량을 다시 산출하여 제2총비트량으로 설정하는 제8과정과, 상기 제1총비트량에서 상기 제2비트량을 차감한 값을 세이브 비트량으로 설정하는 제9과정과, 상기 세이브 비트량이 상기 매크로블록별 초과 비트량보다 작은 경우에는 상기 제7, 제8, 제9과정을 반복하며, 상기 세이브 비트량이 상기 매크로블록별 초과 비트량보다 크거나 같을 경우에는, 최종의 변환계수 시퀀스로서 상기 매크로블록을 구성하는 제10과정과, 비관심영역의 마지막 매크로 블록이 스캔 될 때까지, 다음 번째의 매크로블록의 변환계수를 스캔하여 상기 제6, 제7, 제8, 제9, 제10과정을 반복 수행하는 제11과정을 포함한다.
이하, 본 발명의 바람직한 실시 예들의 상세한 설명이 첨부된 도면들을 참조하여 설명될 것이다. 하기에서 각 도면의 구성요소들에 참조부호를 부가함에 있어 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐 릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 것이다.
도 3은 본 발명의 일 실시 예에 따른 ROI 기반의 영상 화질개선장치의 내부 구성 블록도이다.
상기 도 3을 참조하면, ROI 기반의 영상 화질개선장치(300)는 전처리부(320), ROI 기반 인코더(330)를 구비하며 선택적으로 H.263디코더(310)를 포함할 수 있다. 또한, 상기 ROI 기반 인코더(330)는 이산여현변환기(334;DCT), ROI기반 양자화기(335), 가변장부호화기(335;VLC)을 이용하여 H.263 인코딩을 수행한다.
상기 ROI 기반의 영상 화질개선장치(300)는 상기 구성부를 이용하여 압축이 되지 않은 영상(혹은 디코딩된 고화질 영상)과 H.263으로 압축된 파일을 입력으로 하여 이를 디코딩 입력받아, 영상 화질 개선 알고리즘을 적용한 H.263 압축 파일을 출력으로 한다.
상기 H.263 디코더(310)는 H.263 압축파일을 디코딩하기 위해 사용되며, 출력으로는 디코딩된 H.263 파일을 가진다. 당해 ROI 기반의 영상 화질개선장치(300)에 입력되는 영상이 H.263으로 인코딩되어 있는 경우, 입력 영상 파일에 본 발명에 의한 화질개선 프로세스를 적용하기에 앞서서 입력영상을 디코딩하는 역할을 담당한다. 물론, 입력되는 영상 파일이 인코딩되지 않은 상태인 원본 영상인 경우라면 이와 같은 H.263 디코더를 거칠 필요가 없다.
전처리부(320)는 영상의 화면 전체 영역에 대해 1차적인 화질 개선 프로세스를 수행하는데, 이를 위하여 H.263으로 압축되는 과정에서 생긴 블록화 현상을 없애기 위한 디블록킹 필터(321;deblocking filter)와 압축 과정에서 손실된 컬러 정 보를 회복하고 시간적으로 선명한 화질을 구현하기 위한 명암개선 필터(322)를 구비한다. 본 출원인에 의해 출원된 종래의 "이동통신망에서의 영상 화질 개선 방법 및 이를 구현하는 장치"(국내특허출원번호:10-2006-0005397) 출원발명은 전처리부에 에지개선 필터(edge enhancement filter)가 포함되어 있으나 명암개선 필터를 적용한 결과, 에지 개선 효과도 같이 나타나기 때문에 중복되는 이미지 개선 효과를 줄이기 위해 제외하였다.
상기 전처리부(320)는 화질개선을 위한 주 알고리즘인 ROI를 행하기에 앞서서 압축으로 인한 손실된 영상을 최대한 원본에 가깝도록 보정 및 화질 향상을 목적으로 한다. 전처리는 디블로킹 필터(321)와 명암개선 필터(322)라는 2단계로 나뉘는데, 본 출원인에 의해 출원된 "이동통신망에서의 영상 화질 개선 방법 및 이를 구현하는 장치"(국내특허출원번호:10-2006-0005397) 출원발명에 그 구현방법이 자세히 기재되어 있기 때문에, 본 상세 설명에서는 이들 필터에 대하여 그 기능만 간단히 설명하기로 한다.
상기 디블록킹 필터(321)는 영상 화면에 블록단위로 경계가 생기는 것을 보정하는 기능을 한다. 일반적으로 영상의 압축 알고리즘은 속도 향상을 위해 블록단위로 처리를 하는데 H.263 QCIF의 경우 176*144 픽셀이 한 픽처를 이루며 이것을 16*16 단위로 하여 매크로블록으로 만든다. 이것이 압축을 위한 한 단위가 된다. 블록 단위로 압축 처리를 함으로 인해서 디코딩된 영상(입력 영상)을 볼 때 매크로블록 단위로 영상에 경계가 생기는 것을 볼 수 있는데, 이러한 경계를 없애기 위하여 블록 간에 저역통과필터(Low Pass Filter)를 적용한다. 그러나 블록 안에서 실 제 에지 부분을 저역통과 필터링하게 된다면 이미지가 전체적으로 흐려지는 현상이 일어날 수 있기 때문에 저역통과 필터링은 선별적으로 되어야 한다. 따라서 각 매크로블록에서 에지가 있는 부분을 찾아내고 에지가 적용되지 않은 부분까지만 필터를 적용한다.
명암개선 필터(322)는 영상 화면의 명도가 증가하도록 하는 보정을 수행한다. 일반적으로 이동통신단말기에서 획득한 영상은 콘트라스트가 낮은데, 더욱이 양자화가 적용되면서 그 현상은 더욱 악화된다. 또한 이동통신단말기의 카메라에 따라서 영상이 흐리며 협소한 다이내믹 영역(dynamic range)을 가질 수 있다. 이러한 다이내믹 영역을 향상시켜서 화질을 선명하게 하고자 하는 것이 명암개선 필터(322)의 목적이다. 상기 명암개선 필터(322)에서 명암을 증가시키기 위한 알고리즘으로 자동 히스토그램 워핑(automatic histogram warping) 기법을 적용한다. 자동 히스토그램 워핑 기법은 영상의 히스토그램이 특정 부분에 집중되어 있을 때 이 부분이 전체 범위에 골고루 분포할 수 있도록 워핑해 준다. 히스토그램이 집중되어 있는 부분이 여러 곳일 수도 있으므로 이 경우도 자동으로 발견하여 골고루 분포할 수 있도록 한다.
ROI 기반 인코더(330)는 제한된 비트량 한도 조건을 충족시키며 양질의 화질을 유지하기 위하여, 영상의 관심영역에 대해서는 높은 비트량을 할당하고, 영상의 비관심영역에는 이에 대한 보상으로 낮은 비트량을 할당하여 H.263파일로 인코딩하는 작업을 수행한다. 구체적으로는 입력받은 영상을 H.263 표준에 따라 인코딩하되, 해당 영상에 있어서 관심영역과 비관심영역에 대한 비트량을 서로 달리하여 인 코딩을 수행한다.
일반적으로 H.263 인코딩은, 이산여현변환기(334)에 의하여 공간적 도메인과 주파수 도메인 사이의 직교적 관계를 이용하여 영상을 고주파 성분과 저주파 성분으로 나눈 후에, 양자화기에서 양자화를 수행하여 각 매크로블록별로 변환계수를 할당 한 후, 가변장부호화기(336)에서 상기 변환계수를 이용하여 공간적 중복성을 제거함으로써 인코딩이 완료되는 과정을 가진다. 본 발명에서는 ROI 기반 인코더(330)에서 종래의 양자화기 대신에 ROI 기반 양자화기(335)를 이용하여 해당 영상에서 관심영역과 비관심영역에 대한 비트량을 서로 달리하여 인코딩을 수행한다. 즉, ROI 기반 양자화기(335)는 영상의 관심영역에 대해서는 높은 비트량을 할당하고, 영상의 비관심영역에는 이에 대한 보상으로 낮은 비트량을 할당하여 H.263파일로 인코딩한다.
이하에서는, 상기 ROI 기반 양자화기(335)에 대하여 구체적으로 설명하기로 한다.
일반적으로 사람이 영상을 볼 때는 화면 전체를 모두 집중하기보다 관심있는 부분을 집중해서 보게 된다. 예를 들어서 영상 편지를 보낼 때 송신자는 카메라를 보고 말을 하게 될 것이며, 수신자는 송신자의 얼굴을 집중해서 보게 될 것이다. 이 때 이미지 해상도가 전체적으로 일정한 것 보다는 배경의 해상도가 떨어진다고 해도 얼굴의 해상도가 높게 되면 주관적으로 볼 때는 화질이 향상되었다고 느낀다.
그 동안 영상에서 관심영역(ROI; Region Of Interest)이 존재하는 경우, 주관 적인 화질을 증가시키기 위하여 비 관심영역보다 관심영역에 더 많은 비트량을 할당하는 연구들이 진행되어 왔다. H.263 압축 표준 상에서 ROI에 기반의 양자화 방법을 이용하여 영상의 주관적 화질을 추구하는 연구들 또한 많이 진행되어 왔다. 본 발명에 따른 ROI 기반의 양자화 방법의 핵심은 최대 양자화 계수를 이용하여 양자화를 수행한 후, 초과되는 비트량에 대해서는 비관심영역 부분에서 비트량을 제거하는 기술적 특징을 가진다.
ROI 기반 양자화기(335) 내의 ROI 검출모듈(331)은 화면 영상 중에서 관심영역인 얼굴 영역을 검출하기 위하여 피부색을 이용한다. 영상 코덱에서는 일반적으로 압축 효율을 높이기 위하여 YCbCr 컬러를 사용하는데, 사람의 피부색은 도 4의 붉은 색 영역과 같이 특정 Cb, Cr 영역에 걸쳐 있어, 영상에서 Cb, Cr값만을 확인함으로써 얼굴 영역을 검출할 수 있다.
색상정보를 이용한 얼굴 검출 기법은 정확한 얼굴 영역 검출은 보장할 수 없지만 구현이 쉽고 얼굴 검출 시간이 짧다. 본 과제에서는 정확한 얼굴 검출이 목적이 아니므로 비록 에러는 있지만 색상정보를 이용한 종래에 공지된 얼굴 검출 기법을 사용한다. 이를 간단히 설명하면, 관심영역을 찾기 위해서 먼저 컬러정보를 이용하여 픽셀 단위의 영역을 찾고, 이를 dilation과 erosion을 통하여 관심영역 내부는 채우고 외부는 버린 후 매크로블록 단위로 관심영역인지 아닌지를 매크로블록 내의 관심영역으로 결정된 픽셀 개수에 따라 결정한다.
이 때, dilation과 erosion을 하기 위해서는 윈도우 사이즈를 정해야 한다. 현재의 프로그램에는 9*9로 정의되어 있다. 또한 매크로블록 단위 ROI 영역을 결정 할 때 매크로블록 내 임계치 ROI(Threshold ROI) 샘플 수가 필요한데 현재의 프로그램에는 90으로 설정되어 잇다. 즉, 매크로블록 내에 90개 이상의 관심영역(ROI)의 픽셀이 존재하면 그 매크로블록은 관심영역(ROI)의 매크로블록으로 결정한다. 또한, ROI 영역이 있는 매크로블록만 높은 비트 레이트(bit rate)로 설정을 할 경우, 사람의 머리 부분은 낮은 비트 레이트로 처리된다. 이렇게 되면, 사람 얼굴 부분에서도 어색함이 나타나게 된다. 따라서 관심영역은 얼굴 부분과 위로 2블럭, 좌, 우, 아래로 각각 1블록씩 확장하여 잡는다. 상기 방법에 의하여 ROI 검출모듈이 상기의 색상 정보를 이용하여 얼굴을 검출한 다음, 매크로블록 단위로 얼굴 영역을 표현한 결과의 예시를 도 5a 및 도 5b에 도시하였다.
R-QP 평가모듈(332)은 비트율 제어 시에 선택된 양자화 계수인 QP가 QPmax보다 높은지를 판단한 후 소정의 알고리즘에 따라 양자화를 수행한 후, 선형 소스 모델(linear source model)를 이용하여 초과비트의 양을 산출하는 기능을 수행하며, 쓰레솔딩 작업모듈(333)은 상기 R-QP 평가모듈에서 산출된 초과비트를 제거하는 기능을 수행한다.
상기 R-QP 평가모듈(332)에서 초과비트의 양을 산출하여 쓰레솔딩 작업모듈(333)에서 산출된 초과비트를 제거하는 방법에 대하여 구체적 설명에 앞서, 양자화 시에 사용되는 양자화 계수를 산출하는 일반적 모습을 간단히 설명한다.
일반적으로 양자화 시에 비트율 제어는 양자화 계수 조절을 통하여 비트율을 제어할 수 있는데, 영상 혹은 정지 영상을 압축하는 모든 코더에서 핵심이 되는 요 소인 양자화 계수가 크면 압축률은 높아지는 반면 화질은 떨어지게 되고, 양자화 계수가 작으면 압축률은 낮아지는 반면 화질은 좋아진다. 따라서 이러한 비트율 제어는 양자화 계수를 조절하여 목적 비트율을 달성하는데, 목적 비트율에 맞게 양자화 계수를 조절하기 위해서는 비트율과 양자화 계수 사이의 모델이 필요하다. 비트율 제어의 핵심은 비디오 코더에 의해 발생된 비트량이 프레임에 존재하는 0의 개수에 의존한다는 관측을 통해 비트량과 양자화 계수 사이의 관계를 모델링하여 제어된다. 이 때 비트량과 양자화 계수 사이의 관계는 한 프레임 내 전체 DCT 계수중 0의 비율을 나타내는 변수인 를 매개로 모델링된다. 먼저 다양한 실험을 통하여 비트량과 사이에는 선형적 관계가 있음이 관측되었고 이를 식으로 표현하면 다음과 같다.
[식 1]
[식 2]
상기 [식 2]에서 는 intra 매크로블록에 존재하는 DCT 계수의 히스토그램을, 는 inter 매크로블록에 존재하는 DCT 계수의 히스토그램을 그리고 M은 프레임내의 전체 계수의 수를 나타낸다. 즉, 양자화 계수가 정해지면 양자화 시 dead zone안에 있는 DCT 계수의 숫자를 세어 프레임내의 전체 계수의 수로 나누면 프레임 내 DCT 계수 중 0의 비율을 구할 수 있다. 일반적으로 함수는 단조 증가이므로 와 는 일대일로 대응하게 된다. 도 6은 상기 [식 1] 및 [식 2]를 그래프로 표현한 것이다. 상기 도 6의 선형 소스 모델(linear source model)을 이용한 비트율 제어는 다음과 같은 과정을 거쳐 이루어진다. 먼저 비트율 제어기에 의해서 이 결정되면 (a)의 Rate-function을 통하여 을 구할 수 있다. 그리고 이 정해지면 (b)의 QP-function을 통하여 을 달성하기 위한 프레임의 양자화 계수(frame QP)를 구할 수 있다.
본 발명에 따른 ROI 기반의 양자화 알고리즘은 사람의 눈이 화면에서 특정 형상(object), 즉, 관심영역(ROI)에 집중되는 현상을 이용하여 만들어진 방식으로, 그 형상 부위의 관심영역(ROI)은 많은 비트를 할당하고 나머지 배경인 비관심영역(비ROI)에는 적은 비트를 할당하는 방식으로 이루어진다. 전처리 결과로 좋은 화질 을 얻을 수 있으나 그대로 압축을 하게 되면 다시 모든 부분의 영상 정보가 훼손이 된다. 따라서 같은 비트율 하에서 화질이 좋아 보이도록 압축을 하는 방식이 필요하다. 이를 위해 고안된 방법이 ROI기반 양자화 방법이 있었다.
그런데, 상기 기존의 알고리즘에서 관심영역과 비관심영역에서 양자화 계수를 달리 조절하여 목적 비트율을 달성하기 위하여 다음과 같은 [식 3]에 의하여 양자화 계수를 결정하게 된다.
[식 3]
상기 [식 3]에서 c는 비트량과 관련된 상수이고, 는 i번째 매크로블록 DCT 계수의 표준편차 그리고 는 각 매크로블록에 할당된 가중치이다. 기존의 ROI기반 알고리즘은 모두 조금씩 다르지만 위 식의 를 조절한다는 점에서 맥락이 같다. 그러나 가중치를 조절함으로써 양자화 계수를 조절하는 이러한 기존의 방법은 내재적인 한계가 있다. 예를 들어, 도 2에 도시한 바와 같이 관심영역과 비관심영역에 가중치를 달리하여 목표 비트율을 달성하는 기존의 알고리즘에서 계산된 양자화 계수의 크기를 매크로블록 단위로 표현한 결과이고, 이를 살펴보면 관심영역과 비관심영역의 경계에서 양자화 계수의 차이가 최대 2만큼 발생 할 수 있으므로 관심 영역에 충분히 작은 양자화 계수를 할당할 수 없음을 알 수 있다. 만약, 비관심영역에 작은 양자화 계수가 할당된다면 관심영역에도 충분히 작은 양자화 계수를 할당할 수 있으나 비관심영역은 가중치가 낮으므로 기존 알고리즘에서는 불가능하다.
따라서 본 발명에서 사용한 ROI기반의 양자화 알고리즘은 H.263 압축 방식에서 양자화하는 방식의 특성을 이용하여, 관심영역에 더 많은 비트가 할당되고 비관심영역에 적은 비트가 할당되도록 비관심영역의 비트량을 일정부분 제거하는 알고리즘을 가짐을 특징으로 한다.
즉, 기존의 알고리즘의 한계를 극복하기 위하여 R-QP 평가모듈(332)에서는 할당되는 양자화 계수의 최대값(QPmax)을 고정함으로써, 비트율 제어 시에 계산된 현재 프레임의 목표 비트량(Btarget)을 달성하기 위하여 높은 양자화 계수를 목표 양자화 계수(QPtarget)로 선택하더라도 강제로 양자화 계수의 최대값(QPmax)이상은 되지 않도록 한다. 그러나 양자화 계수의 최대값을 고정했을 경우, 비트율 제어 시에 선택된 양자화 계수가 QPmax보다 높은 경우는 발생한 비트량(B)이 목표 비트량(Btarget)보다 많아져 비트율이 제어되지 않는 문제점이 있다. 이를 해결하기 위하여 쓰레솔딩 작업모듈에서 쓰레솔딩(thresholding) 기법을 이용하여 B-Btarget 만큼의 비트량을 제거한다. 상기 쓰레솔딩 기법은 DCT계수 중 일부를 강제로 0으로 만들어 비트화해야 하는 계수의 개수를 줄여 비트량을 감소시킨다.
도 7은 본 발명의 일 실시 예에 따라 QPmax를 고정시킨 후 초과된 비트량을 비관심영역에서 제거하는 과정을 도시한 플로차트이다.
우선, R-QP 평가모듈(332)은 최대 양자화 계수(QPmax)를 설정(S702)한다. 그 후, 비트율 제어에 의해 선택된 목표 비트량(Btarget)에 대한 목표 양자화 계수(QPtarget)를 선형 소스 모델(linear source model)을 이용하여 추출(S704)하는 작업이 수행된다. 예를 들어, 비트율 제어에 의한 목표 비트량(Btarget)이 43kbps인 경우, 도 8의 선형 소스 모델의 rate- function 그래프 및 QP- function 그래프를 이용하여 QP값을 추출하면 5가 됨을 알 수 있다.
상기와 같이 도 8의 선형 소스 모델을 이용하여 목표 양자화 계수(QPtarget)를 추출(S704)하고 난 후, 목표 양자화 계수(QPtarget)가 최대 양자화 계수(QPmax)보다 큰지(QPtarget>QPmax)를 판단(S706)한다. 상기 QPtarget>QPmax의 조건 판단하는 이유는 화질 향상을 위하여 QP값의 최대값(QPmax)을 고정했을 경우, 비트율 제어에 의해 선택된 Btarget의 목표 양자화 계수(QPtarget)가 QPmax 보다 높은 경우는 발생한 비트량(B)이 Btarget 보다 많아져 비트율이 제어되지 않는 문제가 있기 때문에, QPtarget>QPmax의 상황에서는 쓰레솔딩 기법을 이용하여 B-Btarget 만큼의 비트량을 비관심영역(비ROI)에 서 제거하기 위함이다. 예를 들어, 상기와 같이 QPmax가 4로 설정된 경우, 이 화면을 인코딩했을 때 용량이 100kbps(초당 10프레임이라면 그림 한 장당 10kbit)가 필요로 하는데, 목표 비트 전송량은 43kbit(QP=5)로 비트율 제어 선택된 경우에는 무려 5700bit를 그림의 비관심영역(비ROI)에서 제거해야 하기 때문이다
상기 QPtarget>QPmax의 판단(S706) 결과, QPtarget>QPmax가 아닌 경우에는 비트 제거를 할 필요가 없기 때문에 현재의 QPtarget로서 양자화가 수행(S708)된다. 반면에 QPtarget>QPmax의 판단(S706) 결과, QPtarget>QPmax인 경우에는 QPtarget를 QPmax로서 대치 할당(S710)하고 대치된 QP(즉,QPmax)를 이용하여 양자화가 수행(S712)된다.
상기 양자화가 수행(S712)된 이후에는, 도 8의 선형 소스 모델(linear source model)을 이용하여 QPmax의 비트량(Bmax)을 산출하는 과정(S716)을 가진다. 그 후, Bmax에서 Btarget을 차감(Bmax - Btarget)하여 초과되는 초과 비트량(Bth)을 산출(S718)하는 과정을 가진다. 예를 들어, 도 8의 선형 소스 모델을 참조하면 QPmax 4의 Bmax는 100kb를 가지고 비트율 제어에 의해 선택된 Btarget은 43kb를 가짐을 알 수 있는데, 이의 초과분인 Bmax - Btarget인 57kb라는 초과 비트량(Bth)을 산출할 수 있게 된다.
그 후, ROI 검출모듈(331)이 영상의 화상정보를 이용하여 관심영역(ROI)과 비관심영역(비ROI)를 구별하여 비관심영역을 검출(S719)한 후, 상기 비관심영역(비ROI)에 한해서 초과되는 비트를 제거(쓰레솔딩 작업)하는 작업(S720)이 수행된다. 이는 화면 중에 관심영역은 좋은 화질을 얻기 위하여 쓰레솔딩 작업이 수행되지 않고 비관심영역에 한해서 초과되는 비트율을 제거하는 쓰레솔딩 작업이 수행되는 것이다.
결국, 상기와 같이 목표 비트율보다 초과되는 57kb의 초과 비트량이 비관심영역에서 제거되는 작업이 쓰레솔딩 모듈에서 수행(S720)되는데, 상기 초과되는 비트량(Bth)을 제거하는 쓰레솔딩 작업의 알고리즘은 도 9의 플로우차트와 함께 상세히 설명한다.
상기와 같이 초과되는 비트량(Bth)을 도 7의 과정을 거쳐 제거함으로써, 관심영역(ROI)에는 높은 화질을 갖는 압축이 수행되고 비관심영역(비ROI)은 초과 비트량(Bth)이 제거되어 조금 낮은 화질의 압축이 수행된다. 참고적으로 도 7의 과정을 의사 코드(pseudo code)로 표현하면 하기와 같다.
QP = FindQP(Btarget)
If QP > QPmax
{ QP = QPmax
QP를 이용하여 양자화 수행
Bmax = FindBits(QPmax)
Bth = Bmax - Btarget
If 비관심 영역
{
Thresholding(Bth)
}
}
Else
QP를 이용하여 양자화 수행
END
도 9는 본 발명에 따라 초과되는 비트량을 비관심영역에서 제거하는 쓰레솔딩 작업 과정을 도시한 플로차트다.
쓰레솔딩 작업은 비관심영역(ROI)을 대상으로 하고 비관심영역의 모든 매크로블록들에서 균등하게 제거되도록 하는 알고리즘으로 구현된다. 비관심영역의 하나의 매크로블록에서 Bth 만큼의 초과 비트량을 제거하는 이하 도 9의 과정들은 설명의 편의를 위하여 다음의 가정을 들어 설명하기로 한다. 즉, 상기 매크로블록은 6개의 8 by 8 블록으로 이루어져 있고 비트화 과정은 8 by 8 블록을 기준으로 하므로 본 발명에서는 도 10과 같은 8 by 8 블록 하나에 대한 실시 예를 살펴보기로 한다.
우선, 비관심영역의 매크로블록들에서 각각 제거되어야 할 비트량(Bth;이하, ' 매크로블록별 초과 비트량'이라 함)을 산출(S901)하는 과정을 가진다. 상기 S901 단계는, 비관심영역의 모든 매크로블록들에서 균등하게 비트량이 제거되도록 상기 매크로블록별 초과 비트량이 결정되어야 하는데, 이를 위하여, 전체 영상에서 초과되는 초과 비트량을 상기 비관심영역에 있는 전체 매크로블록 수로 나눈 값을 매크로블록별 초과 비트량으로 결정한다. 예를 들어, 초과 비트량이 1400비트이고 비관심영역의 매크로블록 수가 100개라면 매크로블록별 초과 비트량(Bth)은 14비트가 된다. 이하에서는, 설명의 편의를 위하여 상기 매크로블록별 초과 비트량(Bth)이 '14' 비트량이 됨을 가정하고 설명하기로 한다.
그 후, 쓰레솔딩 작업모듈(333)이 첫 번째 매크로블록의 변환계수를 스캔하는 과정(S902)을 가진다. 일반적으로 화면 압축은 이산여현변환(DCT;Discrete Cosine Transform), 양자화(quantization), 가변장부호화(VLC;Variable Length coding) 순서로 이루어지는데, 화면 압축은 공간적 도메인과 주파수 도메인 사이의 직교적(orthogonal) 관계를 이용하여 고주파와 저주파로 나누는 이산여현변환(DCT)을 거친 후, 2차원 영상의 에너지가 저주파 항, 즉 DC(Direct Current) 계수들에 집중되는 특성, 즉 큰 값은 좌측 상단에, 작은 값은 우측 하단에 편중되게 집중되는 특성을 이용하여 공간적인 중복성을 제거하는 양자화(quantization) 및 가변장부호화(VLC)가 이루어진다.
매크로블록의 변환계수 스캔 모습을 도 10에 도시하였는데, 상기 스캔은 가변장부호화(VLC)를 위해 도 10과 같이 지그재그 스캔 방식으로 이루어진다, 가변장부 호화(VLC)의 스펙에 의하면 매크로블록을 읽어 들일 때 지그재그 스캔 방식으로 읽어 들이기 때문이다. 따라서 도 10의 매크로블록을 스캔하여 읽으면 "16 0 1 1 4 3 2 1 0 0 0 0 1 1"의 변환계수 시퀀스를 가짐을 알 수 있다. 뒤의 나머지 값들은 '0'을 가지기 때문에 아무 의미를 가지지 않기 때문에 무시된다.
상기와 같이 특정 매크로블록을 스캔(S902)한 후에는 스캔한 변환계수 시퀀스의 총 비트량(이하, '제1총비트량'이라 함)을 산출(S904)하는 과정을 가진다. 상기 비트량 산출은 H.263 스펙에 정의되어 있는 하기의 H.263-VLC 테이블에 의하여 산출된다.
[H.263-VLC 테이블 표]
INDEX | LAST | RUN | LEVEL | BITS | VLC CODE |
0 | 0 | 0 | 1 | 3 | 10s |
1 | 0 | 0 | 2 | 5 | 1111s |
2 | 0 | 0 | 3 | 7 | 0101 01s |
3 | 0 | 0 | 4 | 8 | 0010 111s |
4 | 0 | 0 | 5 | 9 | 0001 1111s |
5 | 0 | 0 | 6 | 10 | 0001 0010 1s |
6 | 0 | 0 | 7 | 10 | 0001 1000 0s |
7 | 0 | 0 | 8 | 11 | 0000 1000 01s |
... ... ... | ... ... ... | ... ... ... | ... ... ... | ... ... ... | ... ... ... |
62 | 1 | 1 | 2 | 12 | 0000 0000 100s |
63 | 1 | 2 | 1 | 7 | 0011 10s |
... ... ... | ... ... ... | ... ... ... | ... ... ... | ... ... ... | ... ... ... |
100 | 1 | 39 | 1 | 13 | 0000 0101 1110s |
101 | 1 | 40 | 1 | 13 | 0000 0101 1111s |
102 | ESCAPE | 7 | 0000 011 |
상기 테이블에서 LAST, RUN, LEVEL, BITS는 스펙에 의하여 다음과 같이 판독 된다.
LAST : 해당 값이 마지막이면 1, 아니면 0
RUN : 해당 값이 나오기 전의 0의 개수
LEVEL : 해당 값
BITS : 해당 값의 비트 수(단, 테이블에 없으면 무조건 22비트
예를 들어, '1001'이라는 값이 스캔되어 가변장부호화(VLC)되면, 맨 앞의 '1'은 마지막 값이 아니고 앞에 0이 없으므로 LAST->0, RUN->0, LEVEL->1을 가지게 되어, 즉, [LAST,RUN,LEVEL]이 [0,0,1]을 가지게 되어, 상기 H.263-VLC 테이블 표의 인덱스 0에 해당하는 비트값 3비트 가지게 됨을 알 수 있다.
마찬가지로 '1001'의 맨 뒤의 '1'은 마지막 값이면서 앞에 '0'이 두 개 있으므로 [LAST,RUN,LEVEL]이 [1,2,1]이 되어 상기 H.263-VLC 테이블 표의 인덱스 63에 해당하는 비트값 7비트 가지게 됨을 알 수 있다
따라서 도 10의 매크로블록을 스캔하여 읽은 값인 "16 0 1 1 4 3 2 1 0 0 0 0 1 1" 변환계수 시퀀스의 총 비트량을 제1총비트량으로서 산출(S904)하면 도 11과 같이 총 비트량이 63비트가 됨을 알 수 있다. 상기와 같이 제1총비트량을 산출한 후에는 변환계수 시퀀스 중에서 마지막 위치한 변환계수를 제거(S906)하고 이를 대상으로 총 비트량(이하, '제2총비트량'이라 함)을 다시 산출하는 과정(S908)이 수행된다. 즉, "16 0 1 1 4 3 2 1 0 0 0 0 1 1"의 최초의 변환계수 시퀀스에서 마지막 변환계수를 제거한 "16 0 1 1 4 3 2 1 0 0 0 0 1"을 가지고 다시 총비트량을 산 출하는 쓰레솔딩 과정을 가진다. 제2 쓰레솔딩 과정을 거치면, 최초의 변환계수 시퀀스에서 마지막 변환계수를 제거한 "16 0 1 1 4 3 2 1 0 0 0 0 1"의 변환계수 시퀀스의 총 비트량(제2총비트량)은 도 12에 도시한 바와 같이 59가 됨을 알 수 있다.
그 후, 세이브 비트량을 산출하는 과정(S910)이 수행된다. 상기 세이브 비트량이란 최초의 제1총비트량과 마지막 변환계수가 제거된 상태에서의 제2총비트량과의 차이를 말한다. 예를 들어, 도 11의 처음 산출된 비트량 63과 도 12의 마지막 변환계수를 제거하고 산출한 비트량인 59와 비교할 때 4비트의 세이브 비트량이 발생됨을 알 수 있다.
그 후, 상기 산출된 세이브 비트량이 매크로블록별 초과 비트량(Bth;본 실시예에서는 '14')보다 크거나 같은지를 판단하는 과정(S912)을 가진다. 판단 결과, 세이브 비트량이 초과 비트량보다 작은 경우에는 현재의 제2총비트량을 제1총비트량으로 대치 설정(S913)하고, "16 0 1 1 4 3 2 1 0 0 0 0 1 "의 현재의 변환계수 시퀀스 값에서 다시 마지막 변환계수를 제거(S906)한 "16 0 1 1 4 3 2 1"을 가지고서 총비트량을 제2총비트량으로서 다시 산출(S908)하는 제3 쓰레솔딩 과정을 가진다.
상기와 같은 과정(S906, S908, S910, S912, S913)이 반복되어 쓰레솔딩 과정이 반복되어 이루어지는데, 제3 쓰레솔딩 과정을 도 13에, 제4 쓰레솔딩 과정을 도 14에, 제5 쓰레솔딩 과정을 도 15에 각각 도시하였다.
상기 도 15를 보면, 변환계수 시퀀스는 '16 0 1 1 4 3'을 가지며 이의 총 비 트량은 49비트이고 세이브 비트량은 14가 됨을 알 수 있다. 이러한 제5 쓰레솔딩을 거친 세이브 비트량인 '14'는 매크로블록별 초과 비트량(Bth)의 '14'와 같기 때문에 세이브 비트량 >= 초과 비트량(Bth)의 조건(S912)을 만족한다. 따라서 상기 조건이 만족될 시에는, 현재의 변환계수 시퀀스인 '16 0 1 1 4 3' 변환계수 시퀀스로 매크로블록을 구성(S914)한다. 상기 과정을 거치면, 도 16a는 쓰레솔딩 전에 63비트로 되어 있는 매크로블록의 모습을 도시한 그림이고 도 16b는 본 발명에 따라 쓰레솔딩 작업을 거쳐 49비트로 축소된 매크로블록의 모습을 도시한 그림이다. 도 16a 및 도 16b를 비교하면, 빗금 부분의 영역이 종래 1의 값에서 0의 값으로 대체되었음을 알 수 있다.
하나의 매크로블록에 대하여 상기 과정(S904, S906, S908, S910, S912, S913) 으로 최종 매크로블록이 구성되면, 다음 번째 매크로블록(S918)에 대하여 상기 과정(S904, S906, S908, S910, S912, S913)을 반복 수행한다. 비관심영역의 마지막 매크로블록이 도달(S918)할 때까지 상기 과정들을 반복 수행한다.
결국, 본 발명과 같이 선형 소스 모델과 쓰레솔딩 작업을 이용한 ROI 기반의 비트율 제어는 관심영역(ROI) 영역의 양자화 계수를 QPmax로 제한함으로써 도 17과 같이 ROI를 고려하지 않은 H.263코더에 비해 관심영역에서 좋은 화질을 얻을 수 있다. 도 17(a)는 원본 영상, 도 17(b)는 검출된 ROI영역, 도 17(c)는 본 발명에 따라 코딩되어 출력된 결과물, 도 17(d)는 종래의 H.263 코딩에 의한 결과물을 도시한 그림이다. 도 17을 보면 본 발명에 따라 코딩되어 출력되는 17(c)의 관심영역의 화질이 향상되어 있음을 알 수 있다.
상술한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시 될 수 있다. 따라서 본 발명의 특허 범위는 상기 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위뿐 아니라 균등 범위에도 미침은 자명할 것이다.
상기에서 기술한 바와 같이 본 발명은, 일정 임계치를 가지는 양자화 계수로 양자화한 후 초과되는 비트량에 대해서는 비관심영역에서 제거함으로써, 종래 ROI 기반의 양자화 계수 할당의 불합리함을 극복하였다. 또한, 비관심영역에는 비트량을 적게 가지도록 하고, 이에 대한 보상으로서 관심영역에는 비트량을 높게 가지게 됨으로써 향상된 화질을 제공할 수 있는 효과가 있다.
Claims (16)
- ROI 기반의 비트 제어를 수행하는 영상 화질개선장치는,손실된 원본 영상을 원본에 근접하도록 화상 및 경계 보정하여 화질 개선을 수행하는 전처리부와,상기 전처리부를 거친 영상 중에서 특정 관심영역(ROI)에 높은 비트를 할당하고 나머지 비관심영역(비ROI)에 적은 비트를 할당하는 비트율 제어를 통해 인코딩하는 ROI 기반 인코더를 구비하며,상기 ROI 기반 인코더는,공간적 도메인과 주파수 도메인 사이의 직교적 관계를 이용하여 상기 영상을 고주파 성분과 저주파 성분으로 나누는 이산여현변환기(DCT)와,상기 저주파 성분을 양자화하여 변환계수를 생성한 후, 특정 관심영역(ROI)에 높은 비트가 할당되고 나머지 비관심영역(비ROI)에 적은 비트가 할당되도록 비관심영역에 있는 상기 변환계수를 재설정하는 ROI기반 양자화기와,상기 변환 계수를 기반으로 공간적 중복성을 제거하여 인코딩을 완료하는 가변장부호화기(VLC)를 구비한 ROI 기반의 영상 화질개선장치.
- 제1항에 있어서, 상기 전처리부는,영상에 블록단위로 발생하는 경계를 보정하기 위한 디블록킹 필터와,영상의 명도를 증가시키기 위한 보정을 수행하는 명암개선 필터를 구비한 ROI 기반의 영상 화질개선장치.
- 제1항에 있어서, 상기 ROI기반 양자화기는,색상정보를 이용하여 상기 영상의 중요부분인 관심영역과 중요부분이 아닌 비관심영역을 검출하는 ROI 검출모듈과,비트율 제어에 의해 목표된 목표 양자화 계수(QPtarget)가 미리 설정된 최대 양자화 계수(QPmax)보다 작거나 같은 경우에는 상기 목표 양자화 계수(QPtarget)로 양자화하며, 상기 목표 양자화 계수(QPtarget)가 미리 설정된 최대 양자화 계수(QPmax)보다 큰 경우에는 상기 최대 양자화 계수(QPmax)로 양자화를 수행한 후 목표된 비트량보다 초과되는 초과 비트량이 있는지를 검출하는 R-QP 평가모듈과,상기 R-QP 평가모듈에서 초과되는 비트량이 검출될 시에는 해당 초과 비트량을 상기 비관심영역에서 제거하는 쓰레솔드 작업모듈을 구비한 ROI 기반의 영상 화질개선장치.
- 제3항에 있어서, 상기 ROI 검출모듈은, YCbCr의 색상정보 중에서 특정 색상을 가지는 픽셀 개수를 가지고 관심영역과 비관심영역을 검출하는 ROI 기반의 영상 화질개선장치.
- 제3항에 있어서, 상기 R-QP 평가모듈은 소정의 선형 소스 모델(linear source model)의 그래프를 이용하여 양자화 계수(QP)에 따른 비트량을 산출하는 ROI 기반의 영상 화질개선장치.
- 제3항에 있어서, 상기 쓰레솔드 작업모듈은,상기 초과 비트량을 비관심영역에 존재하는 매크로블록수로 나누어서, 각 매크로블록별로 균등하게 초과비트량을 제거하는 ROI 기반의 영상 화질개선장치.
- 색상정보를 이용하여 상기 영상의 중요부분인 관심영역과 중요부분이 아닌 비관심영역을 검출하는 ROI 검출모듈과,비트율 제어에 의해 목표된 목표 양자화 계수(QPtarget)가 미리 설정된 최대 양자화 계수(QPmax)보다 작거나 같은 경우에는 상기 목표 양자화 계수(QPtarget)로 양자화하며, 상기 목표 양자화 계수(QPtarget)가 미리 설정된 최대 양자화 계수(QPmax)보다 큰 경우에는 상기 최대 양자화 계수(QPmax)로 양자화를 수행한 후 목표된 비트량보다 초과되는 초과 비트량이 있는지를 검출하는 R-QP 평가모듈과,상기 R-QP 평가모듈에서 초과되는 비트량이 검출될 시에는 해당 초과 비트량을 상기 비관심영역에서 제거하는 쓰레솔드 작업모듈을 구비한 ROI 기반 양자화기.
- 제7항에 있어서, 상기 ROI 검출모듈은, YCbCr의 색상정보 중에서 특정 색상을 가지는 픽셀 개수를 가지고 관심영역과 비관심영역을 검출하는 ROI 기반 양자화기.
- 제7항에 있어서, 상기 R-QP 평가모듈은 소정의 선형 소스 모델(linear source model)의 그래프를 이용하여 양자화 계수(QP)에 따른 비트량을 산출하는 ROI 기반 양자화기.
- 제7항에 있어서, 상기 쓰레솔드 작업모듈은,상기 초과 비트량을 비관심영역에 존재하는 매크로블록수로 나누어서, 각 매크로블록별로 균등하게 초과비트량을 제거하는 ROI 기반 양자화기.
- 최대 양자화 계수(QPmax)를 설정하고, 비트율 제어에 의한 목표 비트량(Btarget)을 갖는 목표 양자화 계수(QPtarget)를 추출하는 제1과정과,상기 목표 양자화 계수(QPtarget)가 상기 최대 양자화 계수(QPmax)보다 작거나 같은 경우에는 상기 목표 양자화 계수(QPtarget)로 전체 영상에 대한 양자화를 수행하며, 상기 목표 양자화 계수(QPtarget)가 상기 최대 양자화 계수(QPmax)보다 큰 경우에는 상기 최대 양자화 계수(QPmax)로 전체 영상에 대한 양자화를 수행하는 제2과정과,상기 전체 영상의 색상 정보를 이용하여 상기 전체 영상 중에서 비관심영을 영역 검출하는 제3과정과,상기 최대 양자화 계수(QPmax)로 양자화가 이루어진 경우에는, 목표된 비트량보다 초과되는 초과 비트량을 산출한 후, 상기 산출된 초과 비트량을 상기 비관심영역에서 제거하는 쓰레솔딩 작업이 이루어지는 제4과정을 포함하는 ROI기반의 양자화 방법.
- 제11항에 있어서, 제1과정에서 목표 비트량을 갖는 목표 양자화 계수(QPtarget)를 추출하는 것은, 소정의 선형 소스 모델(linear source model)의 R(bit)-Rho 그 래프와 QP-Rho 그래프를 이용함을 특징으로 하는 ROI기반의 양자화 방법.
- 제11항에 있어서, 제4과정은,최대 양자화 계수(QPmax)의 비트량(Bmax)을 상기 선형 소스 모델(linear source model)로부터 산출하는 과정과,상기 산출된 비트량(Bmax)에서 목표 비트량(Btarget)을 차감하여 초과 비트량을 산출하는 과정과,상기 산출된 초과 비트량을 영상의 비관심영역에서 제거하는 쓰레솔딩 작업이 이루어지는 과정을 포함하는 ROI기반의 양자화 방법.
- 제13항에 있어서, 상기 쓰레솔딩 작업은,비관심영역에 존재하는 각 매크로블록에서 제거해야 하는 매크로블록별 초과 비트량을 산출하는 제5과정과,비관심영역의 첫 번째 매크로블록의 변환계수들을 스캔하여 읽어 들인 변환계수의 집합을 변환계수 시퀀스로 하는 제6과정과,상기 변환계수 시퀀스에 대한 총 비트량을 산출하여 제1총비트량으로 설정하는 제7과정과,상기 변환계수 시퀀스에서 '0'이 아닌(non-zero) 최종 마지막 변환계수를 제거한 후 총 비트량을 다시 산출하여 제2총비트량으로 설정하는 제8과정과,상기 제1총비트량에서 상기 제2총비트량을 차감한 값을 세이브 비트량으로 설정하는 제9과정과,상기 세이브 비트량이 상기 매크로블록별 초과 비트량보다 작은 경우에는 상기 제7, 제8, 제9과정을 반복하며, 상기 세이브 비트량이 상기 매크로블록별 초과 비트량보다 크거나 같을 경우에는, 최종의 변환계수 시퀀스로서 상기 매크로블록을 구성하는 제10과정과,비관심영역의 마지막 매크로 블록이 스캔 될 때까지, 다음 번째의 매크로블록의 변환계수를 스캔하여 상기 제6, 제7, 제8, 제9, 제10과정을 반복 수행하는 제11과정을 포함하는 ROI기반의 양자화 방법.
- 제14항에 있어서, 상기 매크로블록을 스캔하는 것은, H.263 스펙에 따라 지그재그 스캔으로 이루어짐을 특징으로 하는 ROI기반의 양자화 방법.
- 제14항에 있어서, 매크로블록별 초과 비트량을 산출하는 제5과정은,비관심영역의 전체 매크로블록 수를 산출하는 과정과,상기 초과 비트량을 상기 전체 매크로블록 수로 나눈 값을 상기 매크로블록별 초과 비트량으로 설정하는 과정을 포함하는 ROI기반의 양자화 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060064486A KR100823145B1 (ko) | 2006-07-10 | 2006-07-10 | 관심영역 기반의 영상 화질개선장치 및 양자화기기 및 그동작 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060064486A KR100823145B1 (ko) | 2006-07-10 | 2006-07-10 | 관심영역 기반의 영상 화질개선장치 및 양자화기기 및 그동작 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080005747A KR20080005747A (ko) | 2008-01-15 |
KR100823145B1 true KR100823145B1 (ko) | 2008-04-18 |
Family
ID=39215800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060064486A KR100823145B1 (ko) | 2006-07-10 | 2006-07-10 | 관심영역 기반의 영상 화질개선장치 및 양자화기기 및 그동작 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100823145B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101272264B1 (ko) | 2011-10-25 | 2013-06-13 | 단국대학교 산학협력단 | 색상 공간 roi에 기반을 둔 3차원 영상 압축 방법 및 장치 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101494785B (zh) * | 2008-12-19 | 2012-05-09 | 无锡云视界科技有限公司 | 一种h.264感兴趣区域编码的方法 |
KR101352769B1 (ko) * | 2012-05-09 | 2014-01-22 | 서강대학교산학협력단 | 배경과 관심조직을 구별하는 방법 및 장치 |
KR20150058672A (ko) | 2013-11-19 | 2015-05-29 | 삼성전자주식회사 | 엑스선 영상 장치 및 그 제어 방법 |
KR102114466B1 (ko) * | 2018-09-05 | 2020-05-25 | 트러스트팜모바일 주식회사 | 영상 컨텐츠 내 관심 영역 정보를 이용한 영상 디스플레이 방법 및 장치 |
CN113568733B (zh) * | 2020-04-29 | 2024-10-01 | 北京金山云网络技术有限公司 | 资源分配方法、装置、电子设备及存储介质 |
CN113473138B (zh) * | 2021-06-30 | 2024-04-05 | 杭州海康威视数字技术股份有限公司 | 视频帧编码方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000174635A (ja) | 1998-09-29 | 2000-06-23 | Matsushita Electric Ind Co Ltd | 可変ビットレ―ト符号化装置 |
JP2001285799A (ja) | 2000-04-03 | 2001-10-12 | Nippon Telegr & Teleph Corp <Ntt> | 符号化制御方法,符号化制御装置および符号化制御のためのプログラム記録媒体 |
KR20040058670A (ko) * | 2002-12-27 | 2004-07-05 | 주식회사 케이티 | 화상회의를 위한 객체 지향적 전송율 제어 및 전송 오류은닉 송수신 방법 |
-
2006
- 2006-07-10 KR KR1020060064486A patent/KR100823145B1/ko not_active IP Right Cessation
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000174635A (ja) | 1998-09-29 | 2000-06-23 | Matsushita Electric Ind Co Ltd | 可変ビットレ―ト符号化装置 |
JP2001285799A (ja) | 2000-04-03 | 2001-10-12 | Nippon Telegr & Teleph Corp <Ntt> | 符号化制御方法,符号化制御装置および符号化制御のためのプログラム記録媒体 |
KR20040058670A (ko) * | 2002-12-27 | 2004-07-05 | 주식회사 케이티 | 화상회의를 위한 객체 지향적 전송율 제어 및 전송 오류은닉 송수신 방법 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101272264B1 (ko) | 2011-10-25 | 2013-06-13 | 단국대학교 산학협력단 | 색상 공간 roi에 기반을 둔 3차원 영상 압축 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20080005747A (ko) | 2008-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6430222B1 (en) | Moving picture coding apparatus | |
KR101702156B1 (ko) | 비디오 인코딩 및 디코딩에 대한 개선된 양자화 라운딩 오프셋 조정을 위한 방법들 및 장치 | |
US8189933B2 (en) | Classifying and controlling encoding quality for textured, dark smooth and smooth video content | |
KR101752401B1 (ko) | 샘플 적응성 오프셋 제어 | |
US20120183053A1 (en) | Methods and apparatus for embedded quantization parameter adjustment in video encoding and decoding | |
KR100823145B1 (ko) | 관심영역 기반의 영상 화질개선장치 및 양자화기기 및 그동작 방법 | |
JPWO2008084745A1 (ja) | 画像符号化装置および画像復号化装置 | |
JPH08181992A (ja) | 動画像符号化装置および領域抽出装置 | |
WO2002096118A2 (en) | Decoding compressed image data | |
WO2009023188A2 (en) | Method and apparatus for improved video encoding using region of interest (roi) information | |
EP1821548B1 (en) | Method for pre-suppressing image noise. | |
EP2232879A1 (en) | Method and apparatus for rate control accuracy in video encoding | |
CN112165620B (zh) | 视频的编码方法及装置、存储介质、电子设备 | |
US9955160B1 (en) | Video encoding using adaptive pre-filtering | |
JP3005147B2 (ja) | 動画像符号化装置 | |
KR100764345B1 (ko) | 이동통신망에서의 동영상 화질 개선 방법 및 이를 구현하는장치 | |
KR100598368B1 (ko) | 블록 경계 영역 필터링 방법 | |
Prangnell et al. | Spatiotemporal Adaptive Quantization for the Perceptual Video Coding of RGB 4: 4: 4 Data | |
KR100524856B1 (ko) | 블록 경계 영역 필터링 방법 | |
KR20070081663A (ko) | 동일한 손실 압축 적용이 가능한 영상 처리 장치 및 그장치가 탑재된 이동통신 단말기에서 실행 가능한 영상 처리방법 | |
Luo et al. | Improving H. 264/AVC video coding with adaptive coefficient suppression | |
KR100839304B1 (ko) | 동영상 디코딩 방법 | |
KR100598367B1 (ko) | 블록 경계 영역 필터링 방법 | |
KR20050076836A (ko) | 블록 경계 영역 필터링 방법 | |
JP2019004304A (ja) | 画像符号化装置、画像符号化方法、及び画像符号化プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130411 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20140411 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |