KR20180128888A

KR20180128888A - 지각 다운스케일링 방법을 사용하여 이미지를 다운스케일링하기 위한 이미지 처리 시스템

Info

Publication number: KR20180128888A
Application number: KR1020187005568A
Authority: KR
Inventors: 아멧 센기츠 오츠티렐리; 마르쿠스 그로스
Original assignee: 에테하 취리히
Priority date: 2015-07-24
Filing date: 2016-07-23
Publication date: 2018-12-04
Also published as: JP2018527687A; JP6961139B2; US10325346B2; WO2017017584A1; EP3326148A1; US20170024852A1

Abstract

이미지 프로세서는, 제1 이미지를 입력하고, 제2 이미지를 제3 이미지로 업스케일링하는 것으로서, 제3 이미지는 제3 해상도를 갖는 제1 이미지 크기와 실질적으로 동일한 크기인, 제2 이미지를 제3 이미지로 업스케일링하는 것, 제2 이미지 내의 개별 픽셀을 제3 픽셀 세트로부터의 대응하는 픽셀 그룹과 연관시키는 것, 제1 이미지 샘플을 생성하기 위해 제1 픽셀 세트의 제1 위치에서 제1 이미지 영역을 샘플링하는 것, 제2 이미지 샘플을 생성하기 위해 제3 픽셀 세트의 제2 이미지 영역을 샘플링하는 것, 이미지 영역들 간의 유사성을 측정하는 것, 지각 이미지 값을 생성하는 것, 이미지 지각 값이 지각 표준 값과 정합될 때까지 제3 픽셀 세트의 값을 재귀적으로 조정하는 것, 및 제2 이미지 내의 픽셀 값을 대응하는 픽셀 그룹 각각의 대표 픽셀 값으로 조정하는 것에 의해, 다운스케일링된 제2 이미지를 출력한다.

Description

지각 다운스케일링 방법을 사용하여 이미지를 다운스케일링하기 위한 이미지 처리 시스템

우선권 및 관련 출원에 대한 상호 참조

본 출원은 "Perceptually Based Downscaling of Images"라는 발명의 명칭으로 2015년 7월 24일자로 출원된 미국 가특허 출원 제62/196,640호로부터의 우선권을 주장하며 그의 정식 출원이다. 상기에서 열거된 출원의 전체 개시내용은 모든 목적을 위해 본 문헌에서 충분히 기재되는 바와 같이 참고로 본 명세서에 포함된다.

발명의 기술분야

본 개시는 일반적으로 이미지 처리에 관한 것이다. 보다 구체적으로, 본 개시는 입력 이미지 파일이 처리되어 다운스케일링된(downscaled) 출력 이미지 파일을 생성하는 이미지의 다운스케일링을 수행하기 위한 장치 및 기술에 관한 것이다.

이미지 다운스케일링은 디지털 이미징에서 일정하게 수행되는 기본적인 동작이다. 풍부한 고해상도 포착 장치 및 상이한 해상도를 갖는 다양한 디스플레이는 이미지 다운스케일링이 이미지 또는 비디오를 포함하는 사실상 모든 적용예의 필수 구성요소가 되게 한다. 그러나, 이러한 문제는 지금까지 다른 샘플링 변경보다 실질적으로 적은 주목을 받았다.

고전적인 다운스케일링 알고리즘은 샘플링 정리(sampling theorem)[Shannon 1998]에 따라서, 서브샘플링(subsampling) 및 후속하는 재구성 전에 커널(kernel)과의 컨볼류션(convolution)을 통해 이미지를 선형으로 필터링함으로써 에일리어싱 아티팩트(aliasing artifact)를 최소화하는 것을 목표로 한다. 그러나, 에일리어싱과 함께, 이들 전략은 또한, 사용되는 커널이 이미지 컨텐츠에 불가지론적이기 때문에 지각적으로 중요한 상세(detail) 및 특징 중 일부를 평활화시킨다.

이 문제의 해결책은 양방향 필터링(bilateral filtering)[Tomasi 및 Manduchi 1998]의 사상으로 국소적인 이미지 패치[Kopf 등 2013]에 커널 형상을 적응시켜서, 보존될 국소적인 이미지 특징과 더 양호하게 정렬되도록 하는 것이다. 이 전략은 후선명화(post-sharpening) 필터에 전형적인 링잉 아티팩트(ringing artifact)를 회피하면서 특징의 선명도를 상당히 증가시킬 수 있다. 그러나, 여전히 모든 지각적으로 관련된 상세를 포착할 수 없고, 결과적으로 입력 이미지의 지각적으로 중요한 특징 및 전체 외관 중 일부를 왜곡시키거나 재기드 에지(jagged edge)와 같은 아티팩트를 유발할 수 있다[Kopf 등 2013].

지각적으로 중요한 특징 및 상세의 일부 상실은 인간의 지각과 저조하게 상관하는 것으로 알려진 단순한 오차 메트릭으로 동작하는 이들 방법의 공통적인 단점으로부터 유래된다[Wang 및 Bovik 2009]. 이러한 고전적인 메트릭을 지각 기반 이미지 품질 메트릭으로 대체함으로써 이미지 처리에서의 많은 문제점에 대하여 상당한 개선이 이루어져 왔다[Zhang 등 2012; He 등 2014].

이미지 다운스케일링에 대한 표준 접근법은 로우 패스 필터를 적용하고, 서브샘플링하며, 그 결과를 재구성함으로써 고해상도의 입력 이미지의 스펙트럼 대역폭을 제한하는 것을 포함한다. 신호 처리에서 잘 알려진 바와 같이, 이것은 주파수 도메인에서의 에일리어싱을 회피하고, 평활한 이미지 특징만이 요구되는 경우에 최적인 것으로 간주될 수 있다. 란초스(Lanczos) 필터와 같은 이론적으로 최적의 사인 필터, 또는 바이큐빅 필터와 같은 링잉 아티팩트를 회피하는 필터의 근사법이 통상적으로 실제로 사용된다[Mitchell 및 Netravali 1988]. 그러나, 이들 필터는 종종 필터링 커널이 이미지 컨텐츠에 조절되지 못할 때에 과평활화된(oversmoothed) 이미지를 초래한다. 이것은 더욱 최근의 이미지 보간 기술에서도 마찬가지이다[Thevenaz 등 2000; Nehab 및 Hoppe 2011].

최근에, Kopf 등 [2013]은 이들 커널의 형상을 국소적인 입력 이미지 컨텐츠에 적응시킴으로써 더 선명한 상세를 갖는 상당히 양호한 다운스케일링 결과가 얻어질 수 있음을 보여주었다. 커널이 입력 이미지 내의 특징과 더 양호하게 정렬하기 때문에, 커널은 존재할 때에 소규모의 상세를 포착한다. 그러나, 상기 방법은 특징의 지각적 중요성을 고려하지 않기에, 뚜렷한 상세의 상실을 초래하고, 이에 따라 입력 이미지를 다소 추상적으로 보이게 한다. 실제로, 상기 방법은 픽셀 아트(pixel-art) 이미지를 생성하기 위한 우수한 결과를 제공하는 것으로 나타났다[Kopf 등 2013].

이러한 이미지 처리의 개선은, 만족스러운 다운스케일링된 이미지를 얻는데 필요한 연산 노력의 양을 감소시킬 수 있다는 점에서 바람직하다.

참조문헌

BANTERLE, F., ARTUSI, A., AYDIN, T., DIDYK, P., EISEMANN, E., GUTIERREZ, D., MANTIUK, R., and MYSZKOWSKI, K. 2011. Multidimensional image retargeting. In ACM SIGGRAPH Asia 2011 Courses, ACM, ACM SIGGRAPH Asia.

BONNIER, N., SCHMITT, F., BRETTEL, H., and BERCHE, S. 2006. Evaluation of spatial gamut mapping algorithms. In Proc. 14th Color Imag. Conf., 56-61.

BRUNET, D., VRSCAY, E., and WANG, Z. 2010. Structural similarity-based approximation of signals and images using orthogonal bases. In Image Analysis and Recognition, A. Campilho and M. Kamel, Eds., vol. 6111 of Lecture Notes in Computer Science. Springer Berlin Heidelberg, 11-22.

BRUNET, D., VRSCAY, E., and WANG, Z. 2012. On the mathematical properties of the structural similarity index. Image Processing, IEEE Trans. on 21, 4 (April), 1488-1499.

BRUNET, D. 2012. A Study of the Structural Similarity Image Quality Measure with Applications to Image Processing. PhD thesis, University of Waterloo.

CHAI, L., SHENG, Y., and ZHANG, J. 2014. SSIM performance limitation of linear equalizers. In Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on, 1220-1224.

CHANNAPPAYYA, S., BOVIK, A., and HEATH, R. 2006. A linear estimator optimized for the structural similarity index and its application to image denoising. In Image Processing, 2006 IEEE International Conference on, 2637-2640.

CHANNAPPAYYA, S., BOVIK, A., CARAMANIS, C., and HEATH, R. 2008. SSIM-optimal linear image restoration. In Acoustics, Speech and Signal Processing (ICASSP), 2008. IEEE International Conference on, 765-768.

CHANNAPPAYYA, S., BOVIK, A., and HEATH, R. 2008. Rate bounds on SSIM index of quantized images. Image Processing, IEEE Trans. on 17, 9 (Sept), 1624-1639.

CHANNAPPAYYA, S. S., BOVIK, A. C., CARAMANIS, C., and JR., R. W. H. 2008. Design of linear equalizers optimized for the structural similarity index. Image Processing, IEEE Trans. on 17, 6, 857-872.

CHEN, G.-H., YANG, C.-L., and XIE, S.-L. 2006. Gradient-based structural similarity for image quality assessment. In Image Processing, IEEE International Conference on, 2929-2932.

DEMIRTAS, A., REIBMAN, A., and JAFARKHANI, H. 2014. Full-reference quality estimation for images with different spatial resolutions. Image Processing, IEEE Trans. on 23, 5 (May), 2069-2080.

DIDYK, P., RITSCHEL, T., EISEMANN, E., and MYSZKOWSKI, K. 2012. Perceptual Digital Imaging: Methods and Applications. CRC Press, ch. Exceeding Physical Limitations: Apparent Display Qualities.

DONG, J., and YE, Y. 2012. Adaptive downsampling for high-definition video coding. In ICIP 2012, 2925-2928.

GERSTNER, T., DECARLO, D., ALEXA, M., FINKELSTEIN, A., GINGOLD, Y., and NEALEN, A. 2012. Pixelated image abstraction. In NPAR 2012, Proc. of the 10th International Symposium on Non-photorealistic Animation and Rendering.

HE, L., GAO, F., HOU, W., and HAO, L. 2014. Objective image quality assessment: A survey. Int. J. Commit Math. 91, 11 (Nov.), 2374-2388.

KOPF, J., SHAMIR, A., and PEERS, P. 2013. Content-adaptive image downscaling. ACM Trans. Graph. 32, 6 (Nov.), 173:1-173:8.

KRAWCZYK, G., MYSZKOWSKI, K., and SEIDEL, H.-P. 2007. Contrast restoration by adaptive countershading. In Proc. of Eurographics 2007, Blackwell, vol. 26 of Computer Graphics Forum.

LISSNER, I., PREISS, J., URBAN, P., LICHTENAUER, M. S., and ZOLLIKER, P. 2013. Image-difference prediction: From grayscale to color. Image Processing, IEEE Trans. on 22, 2, 435-446.

LIU, T., YUAN, Z., SUN, J., WANG, J., ZHENG, N., TANG, X., and SHUM, H.-Y. 2011. Learning to detect a salient object. Pattern Analysis and Machine Intelligence, IEEE Trans. on 33, 2 (Feb), 353-367.

MITCHELL, D. P., and NETRAVALI, A. N. 1988. Reconstruction filters in computer-graphics. In Proc. of SIGGRAPH　^'88, ACM, New York, NY, USA, 221-228.

NEHAB, D., and HOPPE, H. 2011. Generalized sampling in computer graphics. Tech. Rep. MSR-TR-2011-16, February.

OGAWA, T., and HASEYAMA, M. 2013. Image inpainting based on sparse representations with a perceptual metric. EURASIP Journal on Advances in Signal Processing 2013, 1.

PANG, W.-M., QU, Y., WONG, T.-T., COHEN-OR, D., and HENG, P.-A. 2008. Structure-aware halftoning. ACM Trans. Graph. 27, 3 (Aug.), 89:1-89:8.

POLESEL, A., RAMPONI, G., and MATHEWS, V. J. 1997. Adaptive unsharp masking for contrast enhancement. In ICIP　'973-Volurne Set-Volume 1 - Volume 1, IEEE Computer Society, Washington, DC, USA, 267-.

REHMAN, A., WANG, Z., BRUNET, D., and VRSCAY, E. 2011. SSIM-inspired image denoising using sparse representations. In Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, 1121-1124.

RITSCHEL, T., SMITH, K., IHRKE, M., GROSCH, T., MYSZKOWSKI, K., and SEIDEL, H.-P. 2008. 3D Unsharp Masking for Scene Coherent Enhancement. ACM Trans. Graph. (Proc. of SIGGRAPH 2008) 27, 3.

SHANNON, C. 1998. Communication in the presence of noise. Proc. of the IEEE 86, 2 (Feb), 447-457.

SHAO, Y., SUN, F., LI, H., and LIU, Y. 2014. Structural similarity-optimal total variation algorithm for image denoising. In Foundations and Practical Applications of Cognitive Systems and Information Processing, vol. 215. Springer Berlin Heidelberg, 833- 843.

SILVESTRE-BLANES, J. 2011. Structural similarity image quality reliability: Determining parameters and window size. Signal Processing 91, 4, 1012-1020.

SMITH, K., LANDES, P.-E., THOLLOT, J., and MYSZKOWSKI, K. 2008. Apparent grayscale: A simple and fast conversion to perceptually accurate images and video. Computer Graphics Forum (Proc. of Eurographics 2008) 27, 2 (APR).

TH'EVENAZ, P., BLU, T., and UNSER, M. 2000. Interpolation revisited. Medical Imaging, IEEE Trans. on 19, 7, 739-758.

TOMASI, C., and MANDUCHI, R. 1998. Bilateral filtering for gray and color images. In Computer Vision, 1998. Sixth International Conference on, 839-846.

TRENTACOSTE, M., MANTIUK, R., and HEIDRICH, W. 2011. Blur-Aware Image Downsizing. In Proc. of Eurographics.

WANG, Z., and BOVIK, A. 2009. Mean squared error: Love it or leave it? A new look at signal fidelity measures. Signal Processing Magazine, IEEE 26, 1 (Jan), 98-117.

WANG, Z., and LI, Q. 2007. Video quality assessment using a statistical model of human visual speed perception. J. Opt. Soc. Am. A 24, 12, B61B69.

WANG, Z., BOVIK, A., SHEIKH, H., and SIMONCELLI, E. 2004. Image quality assessment: from error visibility to structural similarity. Image Processing, IEEE Trans. on 13, 4 (April), 600-612.

WANG, S., REHMAN, A., WANG, Z., MA, S., and GAO, W. 2011. Rate-AAIM optimization for video coding. In Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on, 833-836.

WU, X., ZHANG, X., and WANG, X. 2009. Low bit-rate image compression via adaptive down-sampling and constrained least squares upconversion. Trans. Img. Proc. 18, 3 (Mar.), 552-561.

YEGANEH, H. 2014. Cross Dynamic Range and Cross Resolution Objective Image Quality Assessment with Applications. PhD thesis, University of Waterloo.

ZHANG, Y., ZHAO, D., ZHANG, J., XIONG, R., and GAO, W. 2011. Interpolation-dependent image downsampling. Image Processing, IEEE Trans. on 20, 11 (Nov), 3291-3296.

ZHANG, L., ZHANG, L., MOU, X., and ZHANG, D. 2012. A comprehensive evaluation of full reference image quality assessment aigorithms. In ICIP 2012, 1477-1480.

ZHOU, F., and LIAO, Q. 2015. Single-frame image super-resolution inspired by perceptual criteria. Image Processing, IET 9, 1, 1-11.

이미지 프로세서는, 제1 이미지를 입력하고, 제2 이미지를 제3 이미지로 업스케일링하는 것으로서, 여기서 제3 이미지는 제2 픽셀 세트로부터 도출되는 제3 픽셀 세트에 의해 정의되고, 제3 픽셀 세트는 제1 이미지 크기와 실질적으로 동일한 크기의 제3 이미지 크기를 제3 해상도로 확립하는, 제2 이미지를 제3 이미지로 업스케일링하는 것, 제2 이미지 내의 개별 픽셀을 제3 픽셀 세트로부터의 대응하는 픽셀 그룹과 연관시키는(associating) 것, 제1 이미지 샘플을 생성하기 위해 제1 픽셀 세트의 제1 위치에서 제1 이미지 영역을 샘플링하는 것, 제2 이미지 샘플을 생성하기 위해 제1 이미지 영역 위치 및 크기에 대응하는 제3 픽셀 세트의 제2 이미지 영역을 샘플링하는 것, 지각 이미지 값(perceptual image value)을 생성하기 위해 제1 이미지 샘플 및 제2 이미지 샘플을 처리함으로써 제1 이미지 영역과 제2 이미지 영역 간의 유사성을 측정하는 것, 이미지 지각 값이 미리 정의된 임계값 이내의 지각 표준 값과 정합될 때까지 제3 픽셀 세트의 값을 재귀적으로 조정하는 것, 및 제2 이미지 내의 개별 픽셀 값을 대응하는 픽셀 그룹 각각의 대표 픽셀 값으로 조정하는 것에 의해, 다운스케일링된 제2 이미지를 출력한다.

첨부 도면과 함께 다음의 상세한 설명은 본 발명의 속성 및 이점을 더 잘 이해할 수 있게 할 것이다.

본 개시에 따른 다양한 실시형태가 도면을 참조하여 설명될 것이다.
도 1은 다운스케일링의 아티팩트를 도시한다.
도 2는 다운스케일링에 대한 다양한 접근법을 도시한다.
도 3은 이미지 다운스케일링 엔진이 구간 상수 보간(piecewise constant interpolation)을 수행하는데 사용할 수 있는 공정을 도시한다.
도 4는 다양한 값을 연산하기 위해 엔진이 수행하는 공정을 도시한다.
도 5는 필터링 후의 후선명화를 도시한다.
도 6은 다운스케일링된 이미지에 대한 패치 크기의 영향을 도시한다.
도 7은 편차의 결과를 도시한다.
도 8은 상이한 패치들에 대해 최적화된 예시적인 이미지를 도시한다.
도 9는 픽처 프레임(picture frame)의 다운스케일링된 에지를 도시한다.
도 10은 이미지 처리의 다른 양태를 도시한다.
도 11은 이미지 처리의 다른 양태를 도시한다.
도 12는 사용자 연구 결과를 도시한다.
도 13은 테스트 결과를 도시한다.
도 14는 이미지 평활화(image smoothing)를 도시한다.
도 15는 다운스케일링의 결과를 도시한다.
도 16은 사용자 연구를 위해 사용된 이미지의 예를 도시한다.
도 17은 국소적인 상세를 적절히 조정하는 다운스케일링의 예를 도시한다.
도 18은 본 발명의 실시형태가 구현될 수 있는 컴퓨터 시스템을 도시하는 블록도이다.
도 19는 본 발명의 실시형태가 구현될 수 있는 컴퓨터 시스템에서 프로세서에 의해 액세스되고 실행될 수 있는 애플리케이션을 갖는 저장 장치의 단순화된 기능 블록도이다.
도 20은 본 명세서에서 설명되는 공정을 사용하여 입력 이미지 파일을 수취하고 출력 이미지 파일을 출력하는 다운스케일링 엔진의 일례를 도시한다.

본 명세서에서 설명되는 실시형태에서, 이미지 처리 엔진은 이미지를 입력하고, 그 이미지를 처리하며, 출력 이미지를 출력하고, 여기서 출력 이미지는 입력 이미지보다 해상도가 낮고 지각적으로 만족스러운 방식으로, 즉 아티팩트를 최소화하는 방식으로 출력된다.

도 1은 이러한 일부 아티팩트를 도시한다. 도 1A 및 도 1B 각각에서, 좌측에는 입력 이미지가 있고 우측에는 4개의 다운스케일링 결과가 있다. 서브샘플링 출력 이미지, 바이큐빅(bicubic) 출력 이미지 및 컨텐츠 적응(content-adaptive) 출력 이미지는 통상의 접근법을 사용하는 반면에, 지각 출력 이미지는 본 명세서에서 더욱 상세히 설명되는 신규하고 개선된 기술을 사용한다.

서브샘플링 출력 이미지는 서브샘플링 및 후속하는 재구성 전에 커널과의 컨볼류션을 통해 이미지를 선형으로 필터링하는 고전적인 다운스케일링 알고리즘을 사용하여 생성될 수도 있지만, 사용되는 커널이 이미지 컨텐츠에 대해 불가지론적이기 때문에 지각적으로 중요한 상세 및 특징 중 일부를 평활화할 수 있다.

커널 형상은 후선명화 필터에 전형적인 링잉 아티팩트를 회피하면서 국부적인 이미지 패치에 비의존적일 수 있지만, 컨텐츠 적응 출력 이미지에서와 같이, 여전히 모든 지각적 관련 상세를 포착하지 않을 수 있고, 결과적으로 입력 이미지의 지각적으로 중요한 특징 및 전체 외관 중 일부를 왜곡시킬 수 있다. 바이큐빅 출력 이미지도 결국에는 원하지 않는 아티팩트로 된다.

이하에서 더욱 상세히 설명되는 바와 같이, 지각 이미지는 원 이미지의 지각적으로 중요한 특징 및 전체 외관을 보존한다. 지각 이미지 품질 측정값이 표준 메트릭 대신에 처리에서 사용될 수 있다.

지각적으로 중요한 특징 및 상세의 일부 상실은, 인간의 지각과 저조하게 상관하는 것으로 알려진 단순한 오차 메트릭으로 동작하는 이들 방법의 공통적인 단점으로부터 유래된다[Wang 및 Bovik 2009]. 이러한 고전적인 메트릭을 지각 기반 이미지 품질 메트릭으로 대체함으로써 이미지 처리에서의 많은 문제에 대하여 상당한 개선이 이루어져 왔다[Zhang 등 2012; He 등 2014].

이미지 다운스케일링에 대한 표준 접근법은 로우 패스 필터를 적용하고, 서브샘플링하며, 그 결과를 재구성함으로써 입력된 고해상도 이미지의 스펙트럼 대역폭을 제한하는 것을 포함한다. 신호 처리에서 잘 알려진 바와 같이, 이것은 주파수 도메인에서의 에일리어싱을 회피하고, 평활한 이미지 특징만이 요구되는 경우에 최적인 것으로 간주될 수 있다. 란초스 필터와 같은 이론적으로 최적인 사인 필터, 또는 바이큐빅 필터와 같은 링잉 아티팩트를 회피하는 필터의 근사법이 통상적으로 실제로 사용된다. 그러나, 이들 필터는 종종 필터링 커널이 이미지 컨텐츠에 적응하지 못할 때에 과평활화된 이미지를 초래한다.

자연 이미지(natural image)에 대해, 본 명세서에서 설명되는 방법은 지각 메트릭을 포함함으로써 상당히 양호하게 수행할 수 있고, 고해상도 입력 이미지의 보다 선명한 묘사를 제공할 수 있다. 이들 방법은 또한 덜 뚜렷한 에일리어싱 아티팩트를 갖는 더 나은 시공간 일관성을 제공할 수도 있고, 단순하고 강력한 구현으로 수십배 더 빠르게 실행하여, 연산 자원을 절약할 수 있다.

다운스케일링 연산자가 또한 다른 관련 문제를 위해 설계된다. 여러 알고리즘은 다운스케일링 연산자 및 필터를 후속하는 업스케일링을 위해 사용되는 보간법으로 주의 깊게 조율한다. 해당 방법은 다운스케일링된 이미지 그 자체의 지각 품질에 실제로 대처하지 못한다. 섬네일 생성은 불완전성, 특히 다운스케일링된 이미지로부터의 정확한 품질 평가를 위해 원 이미지에서의 불명료함(blurriness)을 보존하려고 한다. 대조적으로, 다운스케일링 문제는 입력 이미지의 중요한 상세 및 전체 외관을 보존하기 위해 불명료함을 선택적으로 조정하는 것으로 간주될 수 있다. 다른 관련된 알고리즘 세트는 입력 이미지의 종횡비(aspect ratio)를 변경함으로써 이미지를 재목표화하는 것을 취급하면서[Banterle 등 2011], 이미지 컨텐츠를 주의 깊게 수정함으로써 이미지 내의 전경 객체와 같은 중요한 부분을 보존한다.

본 명세서에서 설명되는 실시형태는 원 이미지의 이미지 컨텐츠에 가깝게 이미지 컨텐츠를 유지할 수 있고, 재목표화 알고리즘보다 훨씬 더 많은 목표 해상도 감소가 통상적으로 설계된다. 이미지 추상화(Image abstraction) 방법이 해상도뿐만 아니라 컬러 팔레트(color palette)를 감소시킴으로써 예를 들어 픽셀 아트[Gerstner 등 2012]를 통해 입력 이미지의 예술적 묘사를 생성하는데 사용될 수 있다. 본 명세서에서 설명되는 실시형태는 입력 이미지의 현실적인 묘사를 목표로 함으로써 더 나은 결과를 제공한다.

본 명세서에서 설명되는 바와 같이, 이미지 처리 엔진은 SSIM이 갖는 최적화 문제로서의 이미지 다운스케일링을 오차 메트릭으로서 처리할 수 있다. 이것은 지각적으로 중요한 특징을 보존하는데 상당한 이점을 제공할 수 있다. 또한, 다운스케일링 문제에 대하여 폐형식 해(closed-form solution)가 도출될 수 있다. 이것은 입력 이미지의 더 분명한 묘사를 제공하는 이미지를 다운스케일링하기 위한 지각 기반 방법을 제공한다. 이미지 다운스케일링은 입력 이미지와 출력 이미지 간의 차이가 지각 이미지 품질 메트릭을 사용하여 측정되는 최적화 문제로서 처리될 수 있다. 다운스케일링된 이미지는 지각적으로 중요한 특징 및 상세를 보유하여, 고해상도의 정확하고 시공간적으로 일관된 표현이 되게 한다. 본 발명의 다운스케일링 방법은 다른 메트릭으로 포착될 수 없는 지각적으로 중요한 미세한 상세 및 특징을 보존하여, 원 이미지의 더 나은 묘사를 제공하는 더 선명한 이미지가 되게 한다.

이미지 처리 엔진은 폐형식으로 최적화 문제의 해를 도출할 수 있고, 이는 합산(sum)와 컨볼루션으로 단순하고 효율적이며 병렬화 가능한 구현을 유도한다. 공정은 선형 필터링과 유사한 컴퓨터 실행 시간을 갖고, 이미지 다운스케일링을 위한 최신 기술보다 수십배 더 빠르다. 여기서, 기술의 유효성 검증은 많은 이미지, 비디오에 대한 광범위한 테스트로부터의 테스트 결과, 및 본 명세서에서 설명되는 공정의 결과에 대한 분명한 선호도를 표시하는 사용자 연구의 결과에 의해 제공된다.

다운스케일링 문제는 입력 화상이 주어지면 다운스케일링된 출력 이미지를 해결하는 최적화로서 처리된다. 2개의 이미지 간의 오차는 구조적 유사성(structural similarity: SSIM) 지수를 사용하여 측정된다[Wang 등 2004]. 최적화 문제에서 SSIM의 이용은 결과로서 얻어진 비선형 비볼록형 오차 함수(non-linear non-convex error function)에 의해 방해받지 않는다[Brunet 등 2012]. 그러나, 본 명세서에서 설명되는 바와 같이, 다운스케일링 문제에 대해서는 이러한 최적화에 대한 폐형식 해를 도출할 수 있다. 상기 해는, 입력 이미지의 원래 버전 및 평활화된 버전에 대한 국소적인 휘도 및 콘트라스트를 연산하는 것을 포함하는 비선형 필터를 유도한다. 상기 필터는 어떠한 공분산항(covariance term)도 없는 SSIM과 외관상으로 다르지만, 원 이미지와 다운스케일링된 이미지 간의 평균 SSIM을 최대화한다.

다운스케일링된 이미지는 자연 이미지에 대한 방해적인 에일리어싱 아티팩트를 나타내지 않으며, 커널 최적화에 기초한 방법보다 시공간적으로 더욱 일관성이 있다[Kopf 등 2013]. 이것은, 엔진이 또한 이 기술을 비디오 다운스케일링에 적용할 수 있게 한다. 결과로서 얻어진 공정은 합계와 컨볼루션으로 매우 간단하고, 효율적이며, 병렬화 가능한 구현을 갖는다. 따라서, 엔진은 고전적인 필터링 방법과 유사한 연산 복잡성을 갖고, 최신 기술보다 수십배 더 빠르게 실행한다[Kopf 등 2013].

평균 제곱 오차와 같은 표준 오차 메트릭이 이미지 차이를 측정할 때 인간의 지각과 저조하게 상관하는 것으로 잘 알려져 있다[Wang 및 Bovik 2009]. 대신에, 이미지 및 비디오의 품질 평가에 대하여, 다양한 지각 기반 이미지 품질 매트릭이 제안되어 왔다. 전 기준 품질 메트릭(full reference quality metric)은 입력 이미지가 품질 평가를 위해 가용한 기준 이미지와 비교될 수 있다는 가정을 지칭한다. 다운스케일링 문제에 대해서, 입력 이미지는 기준이며, 다운스케일링된 출력은 평가될 이미지이다.

엔진은 가장 널리 사용되고 성공적인 전 기준 이미지 품질 메트릭[Brunet 등 2012] 중 하나인 구조적 유사성(SSIM) 지수를 사용하지만[Wang 등 2004], 다른 메트릭이 추가로 또는 대신에 사용될 수도 있다. SSIM은 국소적인 휘도, 콘트라스트, 및 구조 비교에 의한 이미지 간의 정합 스코어를 나타낸다. 고해상도 입력 이미지 H가 주어지면, 엔진은 SSIM 지수에 의해 측정된 바와 같이 H에 가능한 한 가까한 다운스케일링된 출력 이미지 D를 찾으려고 시도한다. 이미지 H와 D 간의 비유사성 측정값은 d(H, D)로 표기된다. 목표는 이 측정값을 d(H, D)를 최소화하는 이미지 D^*이다. 이 측정값은, H 및 D의 각 픽셀이 동적 범위 [0, 1] 내의 단일 숫자를 포함하도록 단일 채널 이미지인 이미지를 사용하여 얻어질 수 있고, 또한 간략화를 위해 H의 폭 및 높이가 정수 인수(integer factor)에 의해 다운스케일링되어 D를 생성할 수 있다고 가정한다. 실제 다운스케일링 인수가 정수가 아닌 경우, 엔진은 바이큐빅 필터링에 의해 입력 이미지를 전처리하고 업스케일링하여 인수가 정수로 될 수 있다. 유사한 접근법이 다중 채널 이미지에 대해서 이루어질 수 있다.

도 2는 다운스케일링에 대한 다양한 접근법을 도시한다. 도 2a는 입력 이미지이고, 도 2b는 출력 이미지의 8개의 예를 도시하며, 여기서 우하단의 것은 지각 메트릭을 최적화함으로써 생성된다. 박스 또는 바이큐빅 필터와 같은 다운스케일링을 위해 일반적으로 사용되는 필터는 과평활화를 초래한다. 다운스케일링된 이미지(선명화된 이미지)를 후선명화하는 것 또는 란초스 필터를 사용하는 것에 의해 과평활화를 회피하려고 시도하는 것은 링잉 아티팩트를 유발할 수 있고, 소규모 특징은 여전히 복원될 수 없다. 일반화 샘플링[Nehab 및 Hoppe 2011] 및 컨텐츠 적응 다운스케일링[Kopf 등 2013]은 더 선명한 이미지를 생성할 수 있지만, 지각적으로 중요한 상세를 보존할 수 없다. 다른 것과 대조적으로, 지각 메트릭을 사용함으로써, 이 메트릭에 의해 측정된 지각적으로 최적의 이미지가 생성된다.

대부분의 이미지 품질 평가 측정값은 상이한 공간 해상도의 이미지를 비교하도록 설계되지 않는다[Yeganeh 2014]. 상이한 해상도의 이미지에 대해서는, 2개의 일반적인 단순한 접근법, 즉 고해상도 이미지를 다운스케일링하는 것, 또는 저해상도 이미지를 업스케일링하는 것이 있다[Demirtas 등 2014]. H 내에 존재하는 정보를 상실하지 않기 위해서, 엔진은 D를 업스케일링하여 H와 동일한 치수를 갖는 업스케일링된 이미지 X를 형성한다.

도 3은 엔진이 X의 s²　픽셀에 복제된 D의 각 픽셀로 구간 상수 보간을 수행하는데 사용할 수 있는 공정을 도시한다. 좌상단에는 입력된 고해상도 이미지 H(16×16 픽셀)가 있고, 중앙에는 다운스케일링된 이미지 D(4×4 픽셀)가 있으며, 우측에는 그의 스케일링된 버전 X(16×16 픽셀)이 있다. D의 각 픽셀은 X의 16 픽셀에 복제된다. 또한, "패치 세트"가 도시되어 있다. 패치 세트 S_k(k=l, 2, n_p)는 오버랩되지 않는 패치(타일)를 포함한다. 이 예에서는, D 상에 2×2 패치가 있으므로, n_p=4이다. 패치 세트는 D 내의 1 픽셀의 시프트에 대응하는 X 및 H 내의 4 픽셀만큼 시프트된다.

SSIM 지수는 이미지의 국소적인 패치들 간에서 연산된 유사성의 국소적인 측정값이다. 그러면, 이러한 유사성 스코어가 모든 패치에 대해 합산되어 평균 SSIM을 연산한다. 이미지 X의 i^th　패치를 Pi(X)로 표기하면, 이에 따라 다운스케일링 문제는 D의 단일 픽셀에 대응하는 픽셀의 각 그룹이 동일한 픽셀 값을 갖는 제약 조건을 사용하여 일부 패치 세트 S에 대하여 식 1을 충족시키는 최적값 X^*를 찾는 것으로 기록될 수 있다.

[식 1]

X의 픽셀 값은 [0, 1]에 있도록 제약될 필요가 없고, 최적화된 D는 동적 범위 밖의 무시할 수 있을 정도로 작은 수의 픽셀을 포함할 수 있다. 패치의 형상 및 세트는 고려되는 적용예에 따라 다양한 방식으로 정의될 수 있다[Silvestre-Blanes 2011]. 주어진 패치 크기 n_p에 대하여, 엔진은 폭(및 높이)

의 모든 가능한 정사각형 패치(이미지 한계 내에 완전히 있지 않은 패치를 제외함)의 세트 S를 사용하지만, 패치 세트에서는 각 패치 세트 S_k가 비중첩 패치만을 포함하도록 되며, 여기서 S는 모든 패치 세트 S_k의 합집합이다. 최종 X^*는 상이한 패치 세트에 대하여 식 1에서의 문제의 해

를 평균함으로써 연산된다. s²　픽셀의 각 그룹이 실제로 D에서의 단일 픽셀에 대응하기 때문에, D에서의 정수 패치 시프트는 H와 X에서 s만큼의 시프트를 유발한다. n_p=4인 작은 예시적인 이미지에 대한 패치 세트 S_k가 도 3의 최하부에 도시되어 있다. 이 해는 본 명세서에서 설명된 바와 같이 선택된 n_P를 갖는 패치 세트의 다른 선택에 대해서도 크게 벗어나지 않는다.

도 4는 엔진이 다양한 값을 연산하기 위해 수행하는 공정을 도시한다. 다운스케일링된 출력 이미지 패치 P(D)에서의 각 픽셀 d_i는 패치 P(X) 및 P(H)에서의 s²　픽셀의 세트 D_i로 매핑된다. P(X)의 D_i에서의 모든 s²　픽셀은 값 d_i를 갖는다. S에서의 패치가 중첩하지 않기 때문에, 각 패치의 픽셀은 다른 패치와 독립적으로 최적화될 수 있다. 따라서, S_k에서의 패치 P에 대하여, 이미지 X의 최적 패치 P^*(X)는 식 2로 주어진다.

[식 2]

패치의 픽셀은 엔진에 의해 벡터 h 및 x 상에 스택(stack)으로서 표현될 수 있다. 마찬가지로, x에 대응하는 D의 픽셀은 d로 표현될 수 있고, D 내의 패치에서의 i^th　픽셀에 대응하는 P(X)에서의 픽셀 세트는 도 4에서와 같이 D_i로 표현될 수 있다. 따라서, x=Vd이고, 여기서 V의 j번째 v _i는 x_j∈D_i이면 1이고, 그렇지 않으면 0이다. 그러면, 상기 연산은 식 3에서와 같이 표현될 수 있다.

[식 3]

SSIM 지수는 휘도, 콘트라스트, 및 공분산 기반 비교에 대응하는 3개의 성분을 적산함으로써 연산된다. SSIM의 광범위하게 사용되는 형태는 [Brunet 등 2012]에 의해 식 4에서와 같이 주어지며, 여기서

는 평균을 표기하고,

는 분산을 표기하며,

는 중량 w_i, 및 x의 i^th　성분을 나타내는 x_i를 갖는 공분산을 표기한다.

[식 4]

값 c₁　및 c₂는 불안정성을 피하기 위해 추가된 작은 상수이다. 표현의 간략화를 위해, 그리고 실제로 사용되는 작은 값이 다운스케일링 문제에 대한 결과에 영향을 주지 않기 때문에, 정수는 c₁=c₂=0으로 설정될 수 있다. x_i 및 h_i가 [0,1] 내에 있으므로, SSIM(x, h)∈[0,1]이다. x=h에는 1이며, 패치가 덜 유사하게 될수록 감소한다. 여기서, 비유사성 측정값 d(h,x)는 1-SSIM(h,x)로서 정의될 수 있다.

d(·,·)는 거리 함수가 아니며 볼록하지도 않다. 식 3에서의 문제를 직접 해결하려고 시도하는 대신에, 본 발명자는 원래의 문제에 대한 해를 파라미터화함으로써, 해결하기 쉬운 다른 문제를 정의한다. 구체적으로, 본 발명자는 x의 평균 μ_x　및 분산 σ_x를 임의의 값으로 고정하고, σ_xh　만을 SSIM에서의 자유항으로서 남겨 둔다(식 4). 따라서, 본 발명은 이들 제약 조건 하에서 σ_xh를 최적화하여 이러한 하위 문제에 대한 최적값을 얻는다. 마지막으로, 본 발명은 전역 최적값(global optimum)을 제공하는 μ_x　및 σ_x를 찾는다. 이하에서 상세하게 설명되는 바와 같이, 전역 최적값은 μ_x=μ_h, 및σ_x=σ_h로 설정하고 식 5를 풂으로써 얻어질 수 있다.

[식 5]

x=Vd이므로, 항 μ_x, σ_x, 및 σ_xh도 d의 항으로 표현될 수 있음에 유의해야 한다. 예를 들면, 본 발명은

를 이용하여

를 기록할 수 있다. 마찬가지로,

및

이고, 여기서 M은 M_ii　= m_{i 및}

인 대각 행렬이다. 이들 치환에 의해, 식 5에서의 연산은 식 6의 것으로 되며, 그 해는 l_i　= a_i/m_i, 및

로 식 7에 제공된다.

[식 6]

[식 7]

SSIM 기반 최적화 및 전역 최적값의 설명은 이하를 참조한다. 평균을 고정시킴으로써 SSIM 지수를 포함하는 최적화 문제의 해결책은, 반복적인 방법을 사용하여 최적값이 검색되는 다른 적용예에 대해서도 활용되어 왔다[Channappayya 등 2008a; Ogawa 및 Haseyama 2013; Shao 등 2014].

그러나, 폐형식 해는 단순한 이미지 모델[Channappayya 등 2006; Chai 등 2014], 또는 푸리에 타입 기본에 대한 확장[Brunet 등 2010]에 대해서만 도출될 수 있다. 이미지 H 및 D, 또는 기저 벡터(basis vector) v _i가 본 명세서에서 설명되는 기술을 사용하여 이들 해에 대해 요구되는 특성을 충족시키지 않더라도, 다운스케일링 문제의 구조로 인해 폐형식 해가 도출될 수 있다.

출력 이미지 D에서의 각 픽셀에 대해서는, 해당 픽셀과 중첩하는 각 패치로부터 최적 값이 있다. 이들 패치 각각은 상이한 패치 세트 S_k에 속한다. 픽셀의 최종 값은 이들 값을 평균함으로써 찾아낸다. 중량 w_i는 일반적으로 가우시안 또는 일정한 윈도우로부터 취해진다[Silvestre-Blanes 2011; Brunet 2012]. 후자에 이어서, 중량은 패치가 다소 작으므로 1로 균일하게 합산하는 것으로 가정될 수 있다. 그러면, 이미지 i^th픽셀에 대한 값(i는 이제 D에서의 전역 지수(global index)로서 정의됨)은 식 8에 나타낸 바와 같고, 여기서 P_k는 이 픽셀과 중첩하는 n_p　패치를 표기한다.

[식 8]

식 8에서의 최적 이미지의 형태는 입력 이미지 H 상의 비선형 필터이다. 필터는 SSIM 지수에 의해 측정된 지각적으로 최적의 방식으로 이미지 컨텐츠에 적응한다. 엔진은 이 필터를 구현하기 위한 수단 또는 프로그래밍 명령어를 포함한다. 이 해결책의 구성은 국소적인 구조 유사성을 최대화하면서, 입력 이미지 H의 국소적인 휘도 및 콘트라스트를 보존하는 것을 명백하게 한다. 필터가 비선형이지만, 필터는 이하에서 제시되는 의사코드(pseudocode)에 의해 설명되는 바와 같이, 식 8로부터 분명한 바와 같이 일련의 선형 동작으로 구현될 수 있다.

논의 및 분석

본 발명은 식 8을 평균된 l_i 값에 적용되는 적응형 언샤프 마스킹 필터(adaptive unsharp masking filter)[Polesel 등 1997]로서 볼 수 있고, 여기서 선명화 인수는 입력 이미지의 표준 편차와, 입력 이미지의 필터링된 버전의 비

에 의해 국소적인 이미지 컨텐츠에 비선형적으로 의존한다. 따라서, 이 비는 국소적인 특징을 보존하기 위해서 H를 기준 이미지로서 사용하여 필터를 적응적으로 조정한다. 기준 이미지로부터 추출된 픽셀별(pixel-wise) 콘트라스트 측정값과 조합되는 언샤프 마스킹은 톤 매핑[Krawczyk 등 2007] 또는 그레이스케일로의 색 변환[Smith 등 2008]에 의해 생성된 이미지를 강화하기 위한 우수한 결과를 사전에 생성하였고, 렌더링된 장면(rendered scene)[Ritschel 등 2008]에 대해서도 마찬가지이다. 여기서 SSIM 최적 필터는 다운스케일링 문제에 대해서도 동류 항으로 유도된다.

도 5는 필터링 후의 후선명화를 도시한다. 우상단 이미지에서, 선명화는 심각한 링잉을 초래하며, 배경에서 소규모의 상세를 포착하지 못한다. 란초스 필터(우중간 이미지)는 링잉을 감소시킬 수 있지만, 여전히 상세를 잘 포착할 수 없다. 본 명세서에서 설명되는 방법(우하단 이미지)은 입력 이미지 내의 국소적인 컨텐츠를 활용하여 상세를 보존하면서 아티팩트를 회피한다.

필터링 후의 후선명화 단계를 사용함으로써 더 선명한 결과를 얻으려는 시도, 또는 사인 필터에 더 잘 근사함으로써 더 선명한 결과를 생성하는 필터는 이미지 다운스케일링을 위해 사용될 때에 아티팩트를 유도한다는 것이 잘 알려져 있다[Kopf 등 2013]. 본 명세서에서 설명되는 방법은 이러한 문제를 회피하며, 이미지 특징의 더 양호한 보존으로 이어진다. 필터링 후의 후선명화는 배경에서의 콘트라스트를 보존하지 못하면서 전경 물체 상에 심각한 링잉을 유도한다. 이러한 접근법은, 선명화 필터가 다운스케일링된 이미지를 강화하기 위해 원래의 고해상도 이미지로부터의 정보를 사용할 수 없기 때문에 근본적으로 불리하다. 란초스 필터는 아티팩트를 감소시키지만, 배경을 또한 보존하지 못한다. 식 8에서의 유도형 필터의 적응성은 모든 특징이 링잉 아티팩트를 회피하면서 보존되는 것을 보장한다.

다수의 파라미터가 변경될 수 있지만, 주요한 자유 파라미터는 패치 크기 n_P이다. 일반적으로, 결과를 인간의 시각 시스템의 응답과 가장 잘 상관시키기 위해서 SSIM에 대한 패치 크기를 결정하는 것은 어려운 문제이다. 그러나, 최근의 연구는 이미지 복잡성이 증가함에 따라, 윈도우 크기가 감소되어야 한다는 것을 확인하고 있다[Silvestre-Blanes 2011]. 다운스케일링 문제에 대해서는, 가능한 한 입력 이미지 H에서의 국소적인 구조를 포착하는 것이 중요하다. 그러나, 다운스케일링 인자 s가 증가함에 따라, H에서의 패치 크기

도 더 커진다. 따라서, 본 발명의 문제에 대해서, 패치 크기 n_p를 가능한 한 작게, 예를 들어 2×2 패치에 대하여 n_p=4로 유지하는 것이 바람직하다. 유사한 결론이 필터를 적응형 언샤프 마스크로서 해석한 것으로부터 유래된다.　본 발명의 경우에 패치의 평균화된 평균값

에 대응하는 언샤프 마스킹에서의 평활화된 이미지는 더 낮은 주파수 대역을 포착하기 위해 더 평활화될 수 있다. 그러나, 많은 낮은 대역은 미리 D에서 포착된다. 또한, 패치 크기가 더 커짐에 따라, 표준 편차의 비가 감소되어 강화가 적게 된다.

도 6은 다운스케일링된 이미지에 대한 패치 크기의 영향을 도시한다. 패치 크기를 좌로부터 우로 증가시키는 것은 소규모 특징의 상실을 나타낸다. 이들 예에서, 좌로부터 우로 패치 크기가 2², 8², 및 32²이다. 패치 크기가 증가함에 따라 소규모 특징이 상실된다. 전체 이미지가 하나의 패치에 의해 덮이는 한계에서, 다운스케일링된 이미지는 콘트라스트 σ_h　및 σ_i가 거의 정확하게 정합될 수 있기 때문에 l_i로 주어진 필터링된 이미지에 근접한다.

D에서의 픽셀의 값이 최적화에서 [0, 1] 내에 놓이도록 제약되지 않기 때문에, 일부 픽셀은 이 동적 범위 밖의 값을 갖게 될 수 있다. 그러나, 평균 및 표준 편차가 최적의 해를 위해 정합하기 때문에, 실제로 이들 픽셀의 퍼센티지 및 동적 범위까지의 그들의 거리는 자연 이미지에서 무시할 수 있다.

도 7은 이 지점을 도시한다. 상단 도면에서는, 7개의 상이한 크기의 3000개의 랜덤 자연 이미지에 대한 동적 범위 밖의 픽셀 값의 퍼센티지가 나타나 있다. 하단의 도면은, 입력 이미지 및 크기 각각에 대해, 평균화에 의해 모든 S_k를사용하여 생성된 다운스케일링된 이미지와 개별 S_k'를 사용하여 생성된 것 간의 평균 SSIM 지수 및 평균 표준 편차가 연산되는 것을 나타낸다. 도 7은 상단 도면에서와 같이 동일한 세트의 이미지 및 크기에 대한 이들 값의 히스토그램을 나타낸다. 양쪽의 측정값은 다른 세트에 걸친 최적화가 해를 크게 변경하지 않는 것을 나타낸다. 2×2의 작은 패치 크기로 작업하면, 패치 세트의 선택은 눈에 띄는 차이를 유도하지 않는다. 상이한 패치 세트 S_k에 대해 결과로서 얻어진 최적화된 이미지 및 및 그들의 평균(SSIM 최적 이미지)은 거의 동일하다. 도 7에서, 평균 SSIM 지수 및 평균 표준 편차의 분포는 상기와 같이 동일한 세트의 3000개의 이미지 및 7개의 크기에 대해, 평균 이미지(본 발명의 해)와 상이한 S_k'에 걸쳐 최적화된 이미지 간에서 연산되어 나타나 있다. 양쪽 측정값은 결과로서 얻어진 이미지가 거의 동일한 것을 나타낸다.

도 8은 상이한 S_k에 걸쳐서 최적화된 예시적인 이미지를 도시한다. 이미지는 거의 동일하며, 텍스처가 크고 높은 주파수 변동을 갖는 패치 중 일부에서는 약간 다르다.

패치 중 일부에 대해, 강도 l_i는 σj=0을 얻도록 일정할 수 있다. 이들 경우에 대해서는, 해결책에 의해 요구되는 바와 같이, 콘트라스트를 정합하기 위한 방법이 없을 수 있고, 평균만이 정합될 수 있다. 따라서, σ_i<10^-6인 패치에 대해, 본 발명은 이 패치의 다운스케일링된 이미지의 픽셀의 값을 패치의 평균 μ _h 로 설정한다.

SSIM은 단일 채널을 갖는 이미지에 대해 정의되지만, 일부 작업은 추출된 특징을 활용하거나[Lissner 등 2013], 또는 다양한 색 공간에서 가공하여[Bonnier 등 2006] 탐색한다. 엔진은 모든 이미지 처리를 위해 RGB 공간을 사용할 수 있고, 각 채널에 독립적으로 다운스케일링을 적용할 수 있다.

결과

본 발명자는 수천개의 이미지 및 다양한 다운스케일링 인수, 상세한 분석, 현존하는 방법에 대한 비교, 및 공식 사용자 연구에 의해 우리의 방법의 실제 가치를 검증하기 위해 다수의 실험을 수행하였다.

다운스케일링 결과 및 분석

본 발명의 기술은 인간의 관찰자가 보았을 때에 입력 이미지에서의 것과 유사한 구조를 형성하는 국소적인 픽셀 패턴을 생성한다. 이 효과는 입력 이미지에서 지각적으로 주요한 특징(도 1, 10에서와 같이), 텍스처(도 15, 16에서와 같이), 다른 소규모 상세(도 1, 2, 15, 16, 17에서와 같이)가 있을 때에 가장 명백하다. 가능한 한 많은 구조를 포착하려고 시도하는 한편, 입력 이미지의 국소적인 콘트라스트 및 휘도를 또한 보존하여, 다운스케일링된 이미지의 전체 외관을 입력에 가깝게 만든다(에컨대, 도 1, 16).

엔진에 의해 수행되는 다운스케일링 공정은 로우 패스 필터에 의해 미리 포착되는 특징을 현저하게 변경하지 않는다. 이것은 이전의 다운스케일링 방법보다 재기드 에지(jagged edge) 아티팩트를 적어지게 한다. 예를 들면, 도 9는 픽처 프레임의 다운스케일링된 에지를 도시한다. 좌측과 우측의 입력 이미지는 4개의 출력 이미지이다. 도 9의 우측의 최상부로부터 최하부까지, 출력 이미지는 원 이미지, 바이큐빅 필터링, 컨텐츠 적응 다운스케일링, 및 본 발명의 공정에 의해 각각 행해진다. 본 발명의 공정은 재기드 에지 영향이 적어지면서 상세를 더 양호하게 보존한다. 본 발명의 방법은 에지 상에 약간의 강화를 수행하여, 컨텐츠 적응 방법보다 아티팩트를 더 적어지게 하며, 일부 상세가 다운스케일링된 이미지에서 픽셀 버젯으로 포착될 수 없는 경우에는, 서브샘플링과 같이, 무아레 패턴과 반대로, 기본 해상도(native resolution)로 본 경우의 입력 이미지에서의 것과 유사한 노이즈형 구조로 매핑된다.

도 11은 바이큐빅 필터링되는 좌측 이미지, (나타내는 무아레 패턴으로) 서브샘플링되는 중간 이미지, 및 무아레 패턴이 없는 본 발명의 결과를 도시한다. 상기 방법은 또한 시공간적으로 일관성이 있어, 도 1의 우측 및 도 10에서 분명하게 알 수 있는 바와 같이, 특징의 정확한 표현을 유도한다. 바이큐빅 필터링과 같은 고전적인 필터링 방법도 일관성이 있지만, 선명한 이미지를 생성하지는 못한다. 커널을 국소적인 이미지 특징으로 정렬하는 것[Kopf 등 2013]은 더 선명한 결과를 생성할 수 있지만, 도 10에서와 같이 일부 특징을 누락 또는 왜곡할 수 있고, 입력 이미지에서의 작은 변화가 때로는 증폭되어, 비디오를 다운스케일링할 때에 처리해야 할 수도 있으므로, 깜박임(flickering)을 초래한다. 도 10의 중앙에 있는 3개의 이미지 세트에서, 최상부는 원 이미지이고, 중간은 컨텐츠 적응 다운스케일링[Kopf 등 2013]이며, 최하부는 본 발명의 결과이다. 특징은 본 발명의 방법으로 그대로 유지된다.

이미지 품질 측정값으로서 사용될 때의 인간의 지각과 SSIM 지수의 상관에 대한 많은 연구가 존재한다[Wang 및 Bovik 2009]. 그러나, 다운스케일링의 본 발명의 특정 문제는 맞춤형 사용자 연구를 필요로 했다. 본 발명의 사용자 연구의 디자인은, 사용되는 이미지 및 모든 디자인 선택을 포함하는 Kopf 등 [2013]에 의해 수행된 이전의 연구의 디자인을 따른다.

연구는 참가자에게 큰 이미지와 해당 이미지의 2개의 다운스케일링된 버전을 제시하는 것에 기초한다. 그런 다음, 참가자는 큰 이미지의 더 좋은 다운스케일링된 버전을 표현할 것으로 생각하는 작은 이미지를 선택하거나, 선호하는 것이 없음을 표시하도록 요청받는다. 각 테스트마다 제시된 작은 이미지 중 하나는 본 명세서에서 설명되는 본 발명의 공정을 사용하여 연산되며, 그 외의 것은 서브샘플링, 고전적인 박스, 바이큐빅, 란초스 필터링, 양방향 필터일, 일반화 샘플링[Nehab 및 Hoppe 2011], 및 컨텐츠 적응 다운스케일링[Kopf 등 2013]과 같은 다른 공정에 의해 연산된다. 연구에는 125명의 참가자가 있었다.

원래 MSRA Salient Object Database [Liu 등 2011]로부터 연구에서 사용된 13개의 자연 이미지는 이전의 연구[Kopf 등 2013]에서 사용된 것과 동일하다. 본 발명은 도 16에 일부 예시적인 결과를 나타낸다. 그들은 상이한 유형 및 스케일의 구조를 갖는 다양한 장면을 포함한다. 이미지는 디스플레이의 기본 해상도로 나타나 있고, 확대(zooming)는 제공되지 않았다. 큰 이미지의 긴 변은 400 픽셀이고, 작은 이미지의 긴 변은 128 픽셀이다. 연구는 교육 배경, 직업, 및 컴퓨터 경험이 각기 다른 세계 각지의 참가자에 의해 온라인으로 수행되었다. 이전의 연구[Kopf 등 2013]와 마찬가지로, 본 발명은 참가자가 원한다면 현실의 상황에서 실제로 일어나는 것처럼 참가자가 스크린에 더욱 가깝게 이동할 수 있게 하였다. 특정 참가자에 대한 각 테스트는 다른 이미지가 포함되며, 일관성을 체크하기 위해 2회 반복되었다. 80% 미만의 일관성을 갖는 피험자로부터 나오는 모든 결과는 폐기되었고[Kopf 등 2013], 64명의 참가자로부터의 결과가 남았다(그 결과는 다른 거절률에 대해서 크게 변하지 않는다). 연구를 종료하기 위한 시간 제한은 없었다.

도 12는 사용자 연구 결과를 도시한다. 3개의 막대의 각 그룹에서, 좌측 막대는 사용자가 본 발명의 공정에 의해 행해진 다운스케일링된 이미지를 선택한 횟수를 나타내며, 중간 막대는 사용자가 선호도를 표시하지 않은 횟수를 나타내고, 우측 막대는 사용자가 다른 공정에 대한 선호도를 표시한 횟수를 나타낸다. 이 연구는 경쟁하는 방법에 대하여 본 발명의 공정의 결과에 대한 분명한 선호도를 나타냈다. 최선의 경쟁하는 다운스케일링 방법은 단순한 서브샘플링이고, 이는 이전의 연구[Kopf 등 2013]의 경우에서도 마찬가지였다. 서브샘플링은 어떠한 필터링도 포함하지 않기 때문에, 물론 잘 알려진 강한 에일리어싱 아티팩트를 희생시켜서 이미지의 선명한 외관을 잘 유지한다. 이들 아티팩트가 보여지지 않는 사용자 연구 이미지에 대해서, 참가자는 어떤 이미지를 선택할 것인지를 결정할 수 없다. 아티팩트가 눈에 띄지 않는 다른 이미지에 대해서는 본 발명의 이미지에 대한 분명한 선호가 있다. 따라서, 본 발명의 공정은 서브샘플링에서와 같이 이미지의 선명한 외관을 보존하지만, 가시적인 에일리어싱 아티팩트가 없다.

구현 및 성능

본 명세서에서의 방법은 입력 이미지 상의 비선형 필터에 기초할 수 있고, 단순한 컨볼루션 및 합산에 의해 매우 효율적이고 강력하게 구현될 수 있다.

공정에 대한 의사코드는 아래에서 더 제공된다. 이 공정은 네이티브 매트랩(native Matlab) 연산자를 갖는 매트랩으로 구현될 수 있었고, 그의 일부는 CPU 코어를 사용한다. 본 발명은 Intel Core i7 3770K CPU @350GHz 구성을 갖는 컴퓨터 상에서 100개의 무작위로 선택된 이미지로 성능 테스트를 수행하였다. Kopf 등 [2013]의 방법은 기본 실행가능 파일로서 실행하였다. 테스트의 결과가 상이한 입력 이미지 크기(80×60으로 고정된 출력 이미지 크기를 가짐), 및 출력 크기(640×480의 입력 이미지 크기를 가짐)에 대하여 도 13에 보고되어 있다.

본 발명의 공정은 본 발명의 알고리즘의 구현에 사용한 박스 필터보다 수배 정도만 느리고, 반복적 기대-최대화(iterative expectation-maximization) 기반 최적화에 의존하는 Kopf 등 [2013]보다 500 내지 5000배 더 빠르다. 이 테스트에서, 엔진은 입력 이미지에 대하여 2개의 박스 필터링 다음에 서브샘플링을 실행하였고, 의사코드에서 알 수 있는 바와 같이 출력 이미지에 비례하는 크기의 이미지에 대한 추가 동작을 실행하였다. 입력 크기에 비해 더 작은 출력 크기에 대해서는, 사용되는 초기 박스에 더 가깝게 수행되는 한편, 출력 이미지를 증가시키면, 도 13의 우측에서 알 수 있는 바와 같이, 수배 더 느려진다.

변형예

다른 변형예는 장면 의미(scene semantic)에 대한 무관심(indifference)을 다룰 수 있다. 실제로 표현하고 있는 것에 대한 어떠한 참조도 없이 이미지 내의 국소적인 구조를 보는 것은 도 14에 나타낸 바와 같이 입력 이미지에 존재하는 노이즈와 같은 원하지 않는 상세의 보존을 초래할 수 있고, 이는 비적응형(non-adaptive) 필터에 의해 평활화된다. 도 14에서, 인서트(insert)는 좌측으로부터 우측으로, 원 이미지, 바이큐빅 필터링, 및 본 발명의 결과이다. 본 발명의 방법은 장면 의미가 부족하기 때문에, 입력 이미지 내의 노이즈를 보존하려고 한다.

본 발명의 결과는 선명한 이미지를 생성하는 방법보다 더 적은 재기드 에지(도 9) 및 에일리어싱 아티팩트(도 11)를 나타낸다. 그러나, 이미지가 고주파수로 매우 규칙적인 반복 구조를 포함하는 경우, 에일리어싱이 발생할 수 있다. SSIM 지수는 지수가 0이 되기 때문에 일정한 값을 갖는 패치를 선호하지 않는 경향이 있다. 대신에, 본 발명의 알고리즘은 국소적인 콘트라스트 및 구조를 재현하려고 시도한다. 그러나, 완전히 규칙적인 구조에 대해서는, 그 대신에 일정한 패치 값이 바람직할 수 있다. 표준 에일리어싱 테스트와 같은 이들의 경우에 대해, 본 발명은 이전의 강화 방법[Kopf 등 2013]에 의해 생성된 것과 유사한 아티팩트를 얻을 수 있다. 다행스럽게도, 이러한 규칙적인 구조는 자연 이미지에 거의 존재하지 않는다. 본 발명자는 대부분의 자연 이미지 내에 존재하는 규칙적인 구조에 대한 작은 섭동(perturbation)이 도 11에서와 같이 아티팩트를 깰 수 있음을 관찰하였다.

SSIM 지수는 이미지의 불명료함을 보존하지 않는 것으로 알려져 있다. 본 발명자는 또한, 섬네일 생성 방법과 반대로, 본 발명의 다운스케일링 결과는 특히 높은 다운스케일링 비율에 대해 입력 이미지 내의 동일한 양의 불명료함을 포함하지 않음을 관찰하였다. 본 발명자는, 다운스케일링된 이미지의 경사를 풀고, 이어서 푸아송 방정식(Poisson equation)을 풀어서 실제 이미지를 얻음으로써 경사 도메인(gradient domain) 내의 SSIM의 확장을 통해 실험하였고, 일부 추가 단계를 통해 이것이 기능할 수 있다.

추가 변형예

본 발명자는 SSIM 지수의 기본 형태를 사용하였다. 국소적인 유사성 측정값, 패치 평균 단계를 수정하거나, 또는 특징 및 색 공간으로 연장하는 다수의 확장이 존재한다. 다운스케일링된 비디오는 필터의 일관성 때문에 적은 깜박임을 나타내지만, 비디오의 SSIM 지수의 확장자, 예컨대 속도 지각의 모델[Wang 및 Li 2007]을 비디오에 포함시킴으로써 더 양호한 다운스케일링 결과가 얻어질 수 있다. 다른 지각 측정값이 이미지 스케일링 결과를 개선하기 위해 활용될 수 있다.

SSIM 지수는 패치 수준으로 이미지를 보며, 자체적으로 장면 의미에 적용할 수 없다. 이것은 도 14에서의 노이즈 증폭과 같은 문제를 유발한다. 배경/전경 분리와 같은 장면 의미, 장면 내의 객체의 특성, 또는 돌출 맵(saliency map)은 패치를 적응적으로 가중하거나, 파라미터 (α, γ) 및 패치 크기를 국소적으로 조정함으로써 본 발명의 알고리즘에 통합될 수 있다.

결론

다운스케일링된 결과의 지각 품질을 최적화하는 것을 목표로 하는 이미지 다운스케일링을 위한 신규한 방법이 제공된다. 수백개의 이미지 및 사용자 연구를 포함하는 광범위한 테스트는 이전의 기술을 능가하는 지각적으로 정확하고 매력적인 다운스케일링 결과를 생성하는 것을 분명하게 나타낸다. 그 유효성 및 비선형 속성에도 불구하고, 매우 단순하고, 강력하며, 효율적이고, 병렬화 가능한 구현을 가지며, 알고리즘이 이미지 필터의 아스널에 실용적으로 추가되게 한다.

도 15는 본 명세서에서 설명되는 다운스케일링의 공정이 소규모 상세 및 텍스처를 포착하면서 국소적인 콘트라스트 및 휘도를 보존하여 지각적으로 정확한 다운스케일링된 이미지를 생성할 수 있는 것을 도시한다. 도 16은 사용자 연구를 위해 사용된 이미지의 예를 도시한다. 도 16a 및 16b 각각에 대해, 원 이미지는 좌측에 있고, 우측의 4개의 작은 이미지는 서브샘플링(좌상단), 바이큐빅 필터일(우상단), 컨텐츠 적응 다운스케일링(좌하단), 및 본 발명의 지각 다운스케일링(우하단)이다.

2개의 이미지 X 및 Y에 걸쳐서 연산된 평균 SSIM(X,Y)는 2개의 이미지 간의 유사성을 측정하는 메트릭이다. 평균 SSIM의 값이 높을수록, 2개의 이미지가 더욱 유사하다. 평균 SSIM은 인간의 지각과 잘 상관하는 것으로 나타나 있으며, 평균 SSIM(X,Y)가 높을 때에는, 인간이 X 및 Y를 매우 유사한 이미지로서 지각하며, 평균 SSIM(X,Y)가 낮을 때에는, 인간이 X 및 Y를 비유사한 이미지로서 지각하는 것을 의미한다. 평균 SSIM은 일부 이미지 처리 작업을 위해 사용되어 왔다. 일반적으로, SSIM(X,Y)를 최대화함으로써, 입력 이미지 Y가 주어지면, 이미지 X를 최적화하는 것이 계산적으로 요구된다. 함수 SSIM(X,Y)는 2개의 대응하는 이미지 패치, 즉 X로부터의 하나와 Y로부터의 다른 하나 사이에 정의될 수 있다. 그러면, 이 함수는 평균 SSIM(X,Y)를 얻기 위해 이미지에 걸쳐 평균될 수 있다.

다운스케일링을 위해, 이미지의 일부 표현에 대하여, 최소 제곱 표준(least squares norm)과 같은 더 단순한 메트릭, 즉

가 이미지 X와 Y 간의 차이를 측정하는데 사용되어 왔다. 친숙한 예는 "바이큐빅 필터"이고, 이는 원래의 고해상도 이미지 내의 상세를 제거함으로써 평활한 다운스케일링된 이미지를 생성한다. 본 명세서에서 설명되는 바와 같이, 고해상도 이미지 H와 다운스케일링된 이미지 D의 차이를 SSIM을 사용하여 측정하는 것은 더 좋은 결과를 제공할 수 있다.

예로서, 1000×1000 픽셀을 포함하는 고해상도의 입력 이미지 H 및 100×100 픽셀을 포함하는 다운스케일링된 출력 이미지 D를 고려한다. D로부터, X(1000×1000 픽셀)라 불리된 업스케일링된 D가 SSIM 값을 계산하는데 사용하기 위해 생성된다. X에서, D의 각 픽셀은 X에서의 10×10 영역에서 반복된다. 이것이 도 3의 최상단 행, 및 도 4에 도시되어 있다. 그런 다음, X로부터의 패치 및 H로부터의 대응하는 패치를 갖는 각 패치 쌍(패치(H), 패치(X))에 대해, 이미지 프로세서는 X에서의 각 10×10 영역이 (D에서의 단일 픽셀 값에 대응하는) 동일한 픽셀 값을 가져야 한다는 제약 조건을 이용하여, 패치(X) 내의 픽셀 값을 변경함으로써 SSIM(패치(H),패치(X))의 값을 최대화하려고 시도할 것이다.

일반적으로, 이것은 계산적으로 요구되고 최적화가 복잡하지만, 본 명세서에서 제시되는 기술을 사용하면, 폐형식 해는 다양한 방식으로, 예를 들어 식 5에 부분적으로 예시된 바와 같이, 평균 및 표준 편차를 정합시키고, 공분산을 최대화함으로써 도출될 수 있다. 식 7은 해를 예시한다. 이미지 프로세서는 이미지 X 및 H에서의 모든 패치에 대해 이것을 수행한다. 패치 세트는 도 3의 최하단 행에서와 같이 비중첩 패치를 갖는 세트 S_i로 분할될 수 있다. D에서의 픽셀만이 S_i에서의 단일 패치에 속하기 때문에, 그 값은 S_i에 속하는 고유 패치에 대해서만 최적화될 수 있다. 이것은 이 S_i에 대하여 최적의 다운스케일링된 이미지 D를 제공한다. 마지막으로 본 발명은 상이한 S_i에 걸쳐서 최적화된 결과로서 얻어진 모든 D에 걸쳐서 평균하여 모든 패치를 동일하게 처리한다. 이 평균의 결과, 및 이에 따라 픽셀에 대한 최종 값이 식 8에 있다. 패치 크기가 가능한 한 작게(예컨대, D에서 2×2, 및 H와 X에서 2s×2s) 유지되면, 상세가 잘 보존된다.

도 17은 원 이미지에 지각적으로 가까운 다운스케일링된 이미지가 생성되도록 국소적인 상세를 적응적으로 조정하는 본 발명의 다운스케일링 방법의 예를 도시한다.

SSIM 기반 최적화 및 전역 최적값

본 발명은 임의의 (α,γ)에 대해, μ_x=αμ_h, 및 σ_x=γσ_h을 설정함으로써 최적화 문제의 해를 파라미터화한다.그러면, 이 특정 (α,γ)에 대한 SSIM(h,x)를 최대화하기 위해, σ_xh를 최대화한다. 이것은 식 9의 다음과 같은 제약된 최적화 문제를 초래한다.

[식 9]

이 문제는 이하에서 나타내는 바와 같이 라그랑주 승수(Lagrange multiplier) 방법과 같은 표준 방법에 의해 풀릴 수 있다. 이 해는 식 10에 의해 주어진다.

[식 10]

따라서, 각 (α,γ)마다, 성분

를 갖는 d^*는 공분산 σ_hx 및 이에 따라 SSIM을 최대화한다. 본 발명은

에 대한 이 표현을 식 4에서의 SSIM에 대한 표현에 연결하면, 다음과 같은 최대 SSIM을 얻는다.

[식 11]

이 표현은 전역 최적값 d^*가 주어지면α=γ=1을 선택한 경우에 최적화된다. 따라서, 선택 (α,γ)=(1,1)에 의한 식 9에서의 해는 식 3에서의 원래 문제의 해와 일치한다.

식의 간략화를 위해, 본 발명은 다음과 같은 정의, 즉

,

를 행한다. 그러면, 상기 식 5에서의 문제는 식 12에서와 같이 재기록될 수 있다.

[식 12]

본 발명은 이 문제를 라그랑주 승수 방법으로 푼다. 따라서, 본 발명은 식 13의 함수를 최적화한다.

[식 13]

e, λ1 및 λ₂에 대한 도함수(derivative)를 취하면 식 14 내지 16이 주어진다.

[식 14]

[식 15]

[식 16]

마지막 2개의 식을 조합하면 식 17에서와 같이 λ1 및 λ₂를 푼다.

[식 17]

[식 18]

이들을 e에 대한 표현으로 치환하면 식 19가 주어진다.

[식 19]

따라서, 본 발명은 식 20의 해를 얻으며, 여기서 1은 1의 벡터를 표기한다.

[식 20]

신호를 결정하기 위해서, 공분산 및 이에 따라 a ^T d를 최대화한다. 상기 표현을 d로 치환하면, 본 발명은 이 내적이 양의 부호에 대해 최대화되는 것을 알 수 있다.

동작에 대한 의사코드

하드웨어 및/또는 소프트웨어로 구현될 수 있는 아래의 알고리즘에서, 동작은 대문자로 표기된 단일 채널 이미지 상의 요소별(element-wise) 동작이다. 함수 convValid(X,P(y))는 커널이 이미지 한계 이내에 체류하도록 이미지의 유효 범위에 대해 크기 y×y의 평균 필터로 이미지 X를 컨볼빙한다(convolve). 함수 convFull은 유사하지만, 이미지가 커널이 이미지 한계를 벗어날 수 있도록 0으로 채워지는 것으로 가정된다. 함수 subSample(X,y)는 y의 간격으로 이미지 X를 서브샘플링하고, I_x는 모두 1을 갖는 X 크기의 이미지를 생성하며, X(C)는 이미지 C 내의 대응하는 엔트리가 참(true)을 반환하는 이미지 X의 모든 엔트리를 얻고, ε=10^-6이다. 프로세스에 대한 입력은 입력 이미지 H, 다운스케일링 인자 s, 및 패치 크기 n_p이다.

출력은 다운스케일링된 이미지 D이다. 단계는 다음과 같다.

일 실시형태에 따르면, 본 명세서에서 설명되는 기술은 펌웨어, 메모리, 다른 저장 장치, 또는 조합으로 프로그램 명령어에 따라서 기술을 수행하도록 프로그래밍된 하나 또는 범용화된 컴퓨팅 시스템에 의해 구현될 수 있다. 특수 목적용 컴퓨팅 장치, 예를 들어 데스크톱 컴퓨터 시스템, 포터블 컴퓨터 시스템, 헨드헬드 장치, 네트워킹 장치, 또는 기술을 구현하기 위해 하드와이어드 및/또는 프로그램 로직을 포함하는 임의의 다른 장치가 사용될 수 있다.

예를 들면, 도 18은 본 발명의 실시형태가 구현될 수 있는 컴퓨터 시스템(1800)을 도시하는 블록도이다. 컴퓨터 시스템(1800)은 정보를 전달하기 위한 버스(1802) 또는 다른 통신 메커니즘, 및 정보를 처리하기 위해 버스(1802)와 결합된 프로세서(1804)를 포함한다. 프로세서(1804)는, 예를 들어 범용의 마이크로프로세서일 수 있다.

컴퓨터 시스템(1800)은 프로세서(1804)에 의해 실행될 정보 및 명령어를 저장하기 위해 버스(1802)에 결합된, 랜덤 액세스 메모리(RAM) 또는 동적 저장 장치와 같은 주 메모리(1806)를 또한 포함한다. 주 메모리(1806)는 또한 프로세서(1804)에 의해 실행될 명령어의 실행 동안에 임시 변수 또는 다른 중간 정보를 저장하기 위해 사용될 수도 있다. 이러한 명령어는, 프로세서(1804)에 액세스 가능한 비일시적 저장 매체 내에 저장되었을 때, 컴퓨터 시스템(1800)을 명령어 내에 지정된 동작을 수행하기 위해 맞춤화된 특수 목적용 기계가 되게 한다.

컴퓨터 시스템(1800)은 프로세서(1804)에 대한 정적 정보 및 명령어를 저장하기 위해 버스(1802)에 결합된 판독 전용 메모리(ROM)(1808) 도는 다른 정적 저장 장치를 더 포함한다. 자기 디스크 또는 광 디스크와 같은 저장 장치(1810)가 제공되며, 정보 및 명령어를 저장하기 위해 버스(1802)에 결합된다.

컴퓨터 시스템(1800)은 버스(1802)를 통해 컴퓨터 사용자에게 정보를 표시하기 위한 컴퓨터 모니터와 같은 디스플레이(1812)에 결합될 수 있다. 영숫자 및 다른 키를 포함하는 입력 장치(1814)가 프로세서(1804)에 정보 및 명령 선택을 전달하기 위해 버스(1802)에 결합된다. 다른 유형의 사용자 입력 장치는 프로세서(1804)에 방향 정보 및 명령 선택을 전달하고 디스플레이(1812) 상의 커서 이동을 제어하기 위한 마우스, 트랙볼, 또는 커서 방향 키와 같은 커서 제어부(1816)이다. 이러한 입력 장치는 통상적으로 이 장치가 평면 내 위치를 특정할 수 있게 하는 2개의 축인 제1 축(예컨대, x) 및 제2 축(예컨대, y)에서 2 자유도를 갖는다.

컴퓨터 시스템(1800)은, 컴퓨터 시스템과 조합하여 컴퓨터 시스템(1800)을 특수 목적용 기계가 되도록 하거나 프로그래밍하는 맞춤형 하드와이어드 로직, 하나 이상의 ASIC 또는 FPGA, 펌웨어 및/또는 프로그램 로직을 이용하여 본 명세서에서 설명되는 기술을 구현할 수 있다. 일 실시형태에 따르면, 본 명세서에서의 기술은, 프로세서(1804)가 주 메모리(1806) 내에 포함된 하나 이상의 명령어의 하나 이상의 시퀀스를 실행하는 것에 응답하여 컴퓨터 시스템(1800)에 의해 수행된다. 이러한 명령어는 저장 장치(1810)와 같은 다른 저장 매체로부터 주 메모리(1806)로 판독될 수 있다. 주 메모리(1806) 내에 포함된 명령어의 시퀀스의 실행은 프로세서(1804)가 본 명세서에서 설명되는 처리 단계를 수행하게 한다. 대체 실시형태에서는, 하드와이어드 회로가 소프트웨어 대신에 또는 소프트웨어와 조합하여 사용될 수 있다.

본 명세서에서 사용되는 용어 "저장 매체"는 기계가 특정 방식으로 동작하게 하는 데이터 및/또는 명령어를 저장하는 임의의 비일시적 매체를 지칭한다. 이러한 저장 매체는 비휘발성 매체 및/또는 휘발성 매체를 포함할 수 있다. 비휘발성 매체는, 예를 들어 저장 장치(1810)와 같은 광 또는 자기 디스크를 포함한다. 휘발성 매체는 주 메모리(1806)와 같은 동적 메모리를 포함한다. 저장 매체의 일반적인 형태는, 예를 들어 플로피 디스크, 가요성 디스크, 하드 디스크, 솔리드 스테이트 드라이브, 자기 테이프, 또는 임의의 다른 자기 데이터 저장 매체, CD-ROM, 임의의 다른 광 데이터 저장 매체, 홀의 패턴을 갖는 임의의 물리 매체, RAM, PROM, EPROM, FLASH-EPROM, NVRAM, 임의의 다른 메모리 칩 또는 카트리지를 포함한다.

저장 매체는 전송 매체와 구별되지만, 전송 매체와 함께 사용될 수 있다. 전송 매체는 저장 매체 간에 정보를 전달하는데 관여한다. 예를 들면, 전송 매체는 버스(1802)를 구비하는 와이어를 포함한 동축 케이블, 구리선, 및 광섬유를 포함한다. 전송 매체는 또한 전파 및 적외선 데이터 통신 동안에 발생되는 것과 같은 음파 또는 광파의 형태를 취할 수도 있다.

다양한 형태의 매체가 실행을 위해 프로세서(1804)에 하나 이상의 명령어의 하나 이상의 시퀀스를 실행하는 것에 관여될 수 있다. 예를 들면, 명령어는 처음에 원격 컴퓨터의 자기 디스크 또는 솔리드 스테이트 드라이브 상에서 실행될 수 있다. 원격 컴퓨터는 명령어를 자신의 동적 메모리 내에 로딩하고 네트워크 연결을 통해 명령어를 송출할 수 있다. 컴퓨터 시스템(1800)에 로컬인 모뎀 또는 네트워크 인터페이스가 데이터를 수신할 수 있다. 버스(1802)는 데이터를 주 메모리(1806)로 반송하고, 그로부터 프로세서(1804)가 명령어를 검색하고 실행한다. 주 메모리(1806)에 의해 수신된 명령어는 프로세서(1804)에 의한 실행 전 또는 후에 저장 장치(1810) 상에 선택적으로 저장될 수 있다.

컴퓨터 시스템(1800)은 버스(1802)에 결합된 통신 인터페이스(1818)를 또한 포함한다. 통신 인터페이스(1818)는 로컬 네트워크(1822)에 연결되는 네트워크 링크(1820)에 결합하는 쌍방향 데이터 통신을 제공한다. 예를 들면, 통신 인터페이스(1818)는 종합 정보 통신망(integrated services digital network: ISDN) 카드, 케이블 모뎀, 위성 모뎀, 또는 대응하는 유형의 전화선으로 데이터 통신 연결을 제공하기 위한 모뎀일 수 있다. 무선 링크가 또한 구현될 수도 있다. 임의의 이러한 구현예에서, 통신 인터페이스(1818)는 다양한 유형의 정보를 나타내는 디지털 데이터 스트림을 반송하는 전기, 전자기 또는 광학 신호를 송수신한다.

네트워크 링크(1820)는 통상적으로 하나 이상의 네트워크를 통해 다른 데이터 장치로의 데이터 통신을 제공한다. 예를 들면, 네트워크 링크(1820)는 로컬 네트워크(1822)를 통해 호스트 컴퓨터(1824)로 또는 인터넷 서비스 제공자(Internet Service Provider: ISP)(1826)에 의해 운영되는 데이터 장비로의 연결을 제공할 수 있다. 결국, ISP(1826)는 이제 일반적으로 "인터넷"(1828)이라 지칭되는 월드 와이드 패킷 데이터 통신 네트워크를 통해 데이터 통신 서비스를 제공하다. 로컬 네트워크(1822) 및 인터넷(1828)은 모두 디지털 데이터 스트림을 반송하는 전기, 전자기 또는 광신호를 사용한다. 컴퓨터 시스템(1800)에 대하여 디지털 데이터를 반송하는, 다양한 네트워크를 통한 신호 및 네트워크 링크(1820) 상의 신호 및 통신 인터페이스(1818)를 통한 신호는 전송 매체의 예시적인 형태이다.

컴퓨터 시스템(1800)은 네트워크(들), 네트워크 링크(1820) 및 통신 인터페이스(1818)를 통해 메시지를 송신하고 프로그램 코드를 포함하는 데이터를 수신할 수 있다. 인터넷 예에서, 서버(1830)는 인터넷(1828), ISP(1826), 로컬 네트워크(1822) 및 통신 인터페이스(1818)를 통해 응용 프로그램에 대한 요청 코드를 전송할 수 있다. 수신된 코드는, 그 코드가 수신될 때에 프로세서(1804)에 의해 실행될 수 있고/있거나, 추후의 실행을 위해 저장 장치(1810), 또는 다른 비휘발성 저장 장치 내에 저장될 수 있다.

도 19는 컴퓨터 시스템에서 프로세서에 의해 액세스되고 실행될 수 있는 애플리케이션을 갖는 저장 장치(1948)의 단순화된 기능 블록도이다. 애플리케이션은 서버, 클라이언트 또는 다른 플랫폼이나 장치 상에서 실행하는, 본 명세서에서 설명되는 하나 이상의 애플리케이션일 수 있다. 저장 장치(1948)는 프로세서에 의해 액세스될 수 있는 하나 이상의 메모리 장치일 수 있고, 저장 장치(1948)에는 하나 이상의 프로세서 판독가능 명령어를 저장하도록 구성될 수 있는 애플리케이션 코드(1950)가 저장될 수 있다. 애플리케이션 코드(1950)는 애플리케이션 로직(1952), 라이브러리 기능(1954), 및 애플리케이션과 연관된 파일 I/O 기능(1956)을 포함할 수 있다.

저장 장치(1948)는 입력 변수(1964)를 수신하도록 구성된 하나 이상의 저장 위치를 포함할 수 있는 애플리케이션 변수(1962)를 또한 포함할 수 있다. 애플리케이션 변수(1962)는 애플리케이션에 의해 생성되거나, 다르게는 애플리케이션에 국부적인 변수를 포함할 수 있다. 애플리케이션 변수(1962)는, 예를 들어 사용자 또는 외부 장치 또는 애플리케이션과 같은 외부 소스로부터 검색된 데이터로부터 생성될 수 있다. 프로세서는 애플리케이션 코드(1950)를 실행하여 저장 장치(1948)에 제공되는 애플리케이션 변수(1962)를 생성할 수 있다.

하나 이상의 메모리 위치는 장치 데이터(1966)를 저장하도록 구성될 수 있다. 장치 데이터(1966)는 사용자 또는 외부 장치와 같은 외부 소스에 의해 공급되는 데이터를 포함할 수 있다. 장치 데이터(1966)는, 예를 들어 송신되기 전 또는 수신된 후에 서버들 간에서 전달되는 레코드(record)를 포함할 수 있다.

저장 장치(1948)는 애플리케이션의 결과 또는 애플리케이션에 제공된 입력을 저장하도록 구성된 하나 이상의 저장 위치(1984)를 갖는 로그 파일(1980)을 또한 포함할 수 있다. 예를 들면, 로그 파일(1980)은 동작(action)의 이력을 저장하도록 구성될 수 있다.

도 20은 입력 이미지 파일(2004)을 수취하고 본 명세서에서 설명되는 프로세스를 이용하여 출력 이미지 파일(2006)을 출력하는 다운스케일링 엔진(2002)의 일례를 도시한다. 내부 이미지 저장 장치(2008)는 처리되는 동안 이미지 데이터를 유지하는데 사용되며, 프로그램 코드(2010)는 본 명세서에서 설명되는 다운스케일링을 수행하기 위한 프로그램 명령어를 나타낸다.

본 명세서에서 설명되는 프로세스의 동작은 본 명세서에서 달리 표시되지 않거나 문맥에 의해 달리 명확히 부인하지 않는 한, 임의의 적합한 순서로 수행될 수 있다. 본 명세서에서 설명되는 공정(또는 변형 및/또는 그의 조합)은 실행 가능한 명령어로 구성된 하나 이상의 컴퓨터 시스템의 제어 하에 수행될 수 있고, 하드웨어 또는 그의 조합에 의해 하나 이상의 프로세서 상에서 집합적으로 실행하는 코드(예컨대, 실행 가능한 명령어, 하나 이상의 컴퓨터 프로그램 또는 하나 이상의 애플리케이션)으로서 구현될 수 있다. 코드는, 예를 들어 하나 이상의 프로세서에 의해 실행 가능한 복수의 명령어를 포함하는 컴퓨터 프로그램 형태로 컴퓨터 판독가능 저장 매체 상에 저장될 수 있다. 컴퓨터 판독가능 매체는 비일시적일 수 있다.

형태 "A, B, 및 C 중 적어도 하나" 또는 "A, B 및 C 중 적어도 하나"의 문구와 같은 접속어는, 구체적으로 달리 제시되거나 문맥에 의해 달리 분명하게 부인되지 않는 한, 다르게는 항목, 용어 등이 A 또는 B 또는 C이거나, 또는 A 및 B 및 C의 세트의 임의의 비어있지 않은 하위 세트일 수 있음을 제시하는데 일반적으로 사용되는 문맥으로 이해된다. 예를 들면, 3개의 부재를 갖는 세트의 예시적인 예에서, 접속구 "A, B, 및 C 중 적어도 하나" 및 "A, B 및 C 중 적어도 하나"는 다음의 세트, 즉 {A}, {B}, {C}, {A, B}, {A, C}, {B, C}, {A, B, C} 중 어느 하나를 지칭한다. 따라서, 이러한 접속어는 일반적으로 소정의 실시형태가 A의 적어도 하나, B의 적어도 하나 및 C의 적어도 하나를 각각 제시할 필요가 있는 것을 의미하는 것으로 의도되지 않는다.

본 명세서에서 제공되는 임의의 예 및 모든 예, 또는 예시적인 언더(예컨대, "와 같은")의 사용은 단지 본 발명의 실시예를 더 잘 나타내도록 의도되어 있으며, 달리 주장되지 않는 한 본 발명의 범위를 제한하는 것이 아니다. 본 명세서에서의 언어는 본 발명의 실시에 필수적인 임의의 비청구 요소를 나타내는 것으로 해석되지 않아야 한다.

상기한 명세서에서, 본 발명의 실시형태는 구현예마다 다를 수 있는 다수의 특정 상세를 참조하여 설명될 수 있다. 따라서, 명세서 및 도면은 제한적인 의미가 아니라 예시적인 것으로 간주되어야 한다. 본 발명의 범위의 유일하고 배타적인 지표, 및 본 발명의 범위가 되도록 출원인에 의해 의도되어 있는 것은, 임의의 후속 보정을 포함한, 이러한 청구항이 발행하는 특정 형태로 본 출원에서 발행하는 청구항 세트의 문자적이고 등가인 범위이다.

또 다른 실시형태는 본 개시내용을 읽은 후에 당업자에게 구상될 수 있다. 다른 실시형태에서는, 상기 개시된 발명의 조합 또는 부분 조합이 유리하게 이루어질 수 있다. 구성요소의 예시적인 배치가 예시 목적을 위해 나타나 있고, 본 발명의 대체 실시형태에서는 조합, 추가, 재배치 등이 고려되는 것을 이해해야 한다. 따라서, 본 발명이 예시적인 실시형태에 대하여 설명되었지만, 당업자는 다양한 수정이 가능하다는 것을 인식할 것이다.

예를 들면, 본 명세서에서 설명되는 공정은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 이들의 임의의 조합을 사용하여 구현될 수 있다. 따라서, 명세서 및 도면은 제한적 의미가 아니라 예시적인 것으로 간주되어야 한다. 그러나, 청구범위에 기재된 본 발명의 더 넓은 사상 및 범위를 벗어나지 않으면서 다양한 수정 및 변경이 이루어질 수 있고, 본 발명이 다음의 청구항의 범위 이내의 모든 수정 및 등가물을 포함하도록 의도되어 있음이 자명할 것이다.

본 명세서에서 인용된 간행물, 특허 출원, 및 특허를 포함한 모든 참조문헌은, 각 참조문헌이 참조로 포함되는 것으로 개별적으로 그리고 구체적으로 나타나 있고 그 전체내용이 본 명세서에 제시되어 있는 경우와 동일한 정도로 참조로 본 명세서에 포함된다.

Claims

이미지를 다운스케일링(downscaling)하는 방법으로서,
제1 이미지 크기를 제1 해상도로 확립하는 제1 픽셀 세트에 의해 정의된 제1 이미지를 수신하는 단계;
제2 이미지를 형성하기 위해 상기 제1 이미지를 다운스케일링함으로써 제2 이미지 크기를 제2 해상도로 확립하는 제2 픽셀 세트에 의해 정의된 상기 제2 이미지를 생성하는 단계로서, 상기 제2 픽셀 세트의 값은 상기 제1 픽셀 세트의 함수에 의해 정의되고 상기 제2 이미지 크기는 제1 이미지 크기보다 작은, 상기 제2 이미지를 생성하는 단계;
상기 제2 이미지를 제3 이미지로 업스케일링하는 단계로서, 상기 제3 이미지는 상기 제2 픽셀 세트로부터 도출되는 제3 픽셀 세트에 의해 정의되고, 상기 제3 픽셀 세트는 상기 제1 이미지 크기와 실질적으로 동일한 크기의 제3 이미지 크기를 제3 해상도로 확립하는, 상기 제2 이미지를 제3 이미지로 업스케일링하는 단계;
상기 제2 이미지 내의 개별 픽셀을 상기 제3 픽셀 세트로부터의 대응하는 픽셀 그룹과 연관시키는(associating) 단계;
제1 이미지 샘플을 생성하기 위해 상기 제1 픽셀 세트의 제1 위치에서 제1 이미지 영역을 샘플링하는 단계;
제2 이미지 샘플을 생성하기 위해 상기 제1 이미지 영역 위치 및 크기에 대응하는 제3 픽셀 세트의 제2 이미지 영역을 샘플링하는 단계;
지각 이미지 값(perceptual image value)을 생성하기 위해 상기 제1 이미지 샘플 및 상기 제2 이미지 샘플을 처리함으로써 상기 제1 이미지 영역과 상기 제2 이미지 영역 간의 유사성을 측정하는 단계;
이미지 지각 값이 미리 정의된 임계값 이내의 지각 표준 값과 정합될 때까지 상기 제3 픽셀 세트의 값을 재귀적으로 조정하는 단계; 및
상기 제2 이미지 내의 개별 픽셀 값을 상기 대응하는 픽셀 그룹 각각의 대표 픽셀 값으로 조정하는 단계를 포함하는, 이미지를 다운스케일링하는 방법.
제1항에 있어서, 상기 제1 이미지의 전자 판독가능 표현을 수신하기 위한 입력부와 상기 제2 이미지의 전자 판독가능 표현을 출력하기 위한 출력부, 및 상기 방법에 따라 이미지 데이터를 처리하기 위해 메모리 내에 저장된 프로그램 명령어를 이용하는 프로세서를 구비하는 컴퓨터 시스템을 사용하여 구현되는, 이미지를 다운스케일링하는 방법.