KR20220065188A

KR20220065188A - 기계학습을 이용하여 이미지 압축 품질을 최적화하는 방법 및 시스템

Info

Publication number: KR20220065188A
Application number: KR1020200151448A
Authority: KR
Inventors: 고승용; 조형래; 김영진; 박현준; 서현양
Original assignee: 네이버 주식회사
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2022-05-20
Also published as: KR102516812B1

Abstract

기계학습을 이용하여 이미지 압축 품질을 최적화하는 방법 및 시스템이 개시된다. 이미지 압축 최적화 방법은, 이미지 품질 파라미터와 이미지 특징을 학습한 기계학습 모델을 통해 입력 이미지에 대한 목표 PSNR(Peak Signal to Noise Ratio)을 만족하는 최적화 품질을 추정하는 단계; 및 상기 최적화 품질로 인코딩된 이미지 파일을 상기 입력 이미지에 대한 압축 파일로 출력하는 단계를 포함할 수 있다.

Description

기계학습을 이용하여 이미지 압축 품질을 최적화하는 방법 및 시스템{METHOD AND SYSTEM FOR OPTIMIZATION OF IMAGE ENCODE QUALITY}

아래의 설명은 이미지 압축 최적화 기술에 관한 것이다.

네트워크를 통해 전송되는 웹 컨텐츠 중에서 페이지 로딩 속도에 가장 큰 영향을 미치는 것은 이미지 컨텐츠이다.

JPEG(Joint Photographic Experts Group) 포맷은 손실 압축 방식으로, 24비트의 이미지 화소를 표현할 수 있으면서, 다른 포맷에 비해 압축율이 높아 웹 환경에서 많이 사용되고 있다. 일반적으로 웹 상에서 유통되고 있는 이미지 포맷 중 JPEG가 높은 비중을 차지하고 있다.

JPEG 압축 방법의 일 예로 한국공개특허 제10-2002-0035726호(공개일 2002년 05월 15일) "정지 영상 압축 및 복원 방법"에는 입력 영상신호를 웨이브렛 변환(Wavelet Transform)을 이용하여 압축하는 기술이 개시되어 있다.

JPEG 이미지 포맷이 웹 환경에서 차지하는 비중이 높음에 따라 JPEG 이미지의 압축률 개선을 위한 최적화 기술이 요구되고 있다. 이미지 기반 서비스 플랫폼에서는 JPEG 인코딩 옵션으로 JPEG 압축 최적화 방법인 JAQ(JPEG adaptive quality) 기술을 제공하고 있다.

JAQ 기술은 육안상 이미지의 품질이 저하되지 않는 기준을 설정하고(PSNR 45.2db) JPEG의 품질 파라미터를 낮춰가며 최적의 파라미터를 추정하는 과정을 반복한다.

기존 JAQ 기술은 반복 과정을 통해 최적 품질 파라미터를 추정하는데, 특히 고해상도 영상에서 처리 시간의 저하가 발생한다.

이미지 처리 전용 SIMD(single instruction multiple data)를 이용하여 JAQ를 고속화할 수 있는 방법과 시스템을 제공한다.

기계학습(ML) 프레임워크를 적용하여 반복(iteration) 과정 없이 단일 추론 모델을 통해 JAQ를 고속화할 수 있는 방법과 시스템을 제공한다.

컴퓨터 장치에서 실행되는 이미지 압축 최적화 방법에 있어서, 상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 이미지 압축 최적화 방법은, 상기 적어도 하나의 프로세서에 의해, 이미지 품질 파라미터와 이미지 특징을 학습한 기계학습 모델을 통해 입력 이미지에 대한 목표 PSNR(Peak Signal to Noise Ratio)을 만족하는 최적화 품질을 추정하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 최적화 품질로 인코딩된 이미지 파일을 상기 입력 이미지에 대한 압축 파일로 출력하는 단계를 포함하는 이미지 압축 최적화 방법을 제공한다.

일 측면에 따르면, 상기 기계학습 모델은 이미지의 세부 성분을 분석하는 특징 추출자를 입력으로 하여 정답 데이터에 해당되는 품질 데이터와 근사한 값을 추론하는 학습 파이프라인을 포함할 수 있다.

다른 측면에 따르면, 상기 기계학습 모델은 데이터 정규화를 통해 학습 데이터를 정제한 후 정제된 데이터를 이용하여 SVR(support vector regressor) 모델을 학습하는 학습 파이프라인을 포함할 수 있다.

또 다른 측면에 따르면, 상기 SVR 모델은 교차 검증(hold-out validation) 방식 또는 그리드탐색 검증(grid-search validation) 방식을 이용하여 학습 메타 데이터를 추출할 수 있다.

또 다른 측면에 따르면, 상기 기계학습 모델은 상기 입력 이미지의 인코딩에 사용할 품질 파라미터를 추정하는 추론 파이프라인을 포함할 수 있다.

또 다른 측면에 따르면, 상기 기계학습 모델은 상기 학습 데이터에서 추출되는 정규화 요소와 상기 SVR 모델에서 추출되는 학습 메타 데이터가 상기 추론 파이프라인의 학습 파라미터로 제공할 수 있다.

또 다른 측면에 따르면, 상기 추정하는 단계는, U-LBP(uniform local binary pattern) 방법을 사용하여 상기 입력 이미지를 특징 히스토그램(feature histogram)으로 구성하는 단계를 포함할 수 있다.

또 다른 측면에 따르면, 상기 추정하는 단계는, 상기 특징 히스토그램으로 구성하는 단계 이전에, 상기 입력 이미지의 사이즈를 정해진 사이즈로 조절하는 단계를 더 포함할 수 있다.

또 다른 측면에 따르면, 상기 기계학습 모델에 포함된 적어도 하나의 기계학습 컴포넌트에 SIMD(single instruction multiple data)가 적용될 수 있다.

또 다른 측면에 따르면, 상기 기계학습 컴포넌트로서 이미지 리사이즈(image resize) 과정, LBP(local binary pattern) 구성 과정, 및 이미지 품질 추론 과정 중 적어도 하나에 상기 SIMD가 적용될 수 있다.

상기 이미지 압축 최적화 방법을 상기 컴퓨터 장치에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램을 제공한다.

컴퓨터 장치에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 이미지 품질 파라미터와 이미지 특징을 학습한 기계학습 모델을 통해 입력 이미지에 대한 목표 PSNR을 만족하는 최적화 품질을 추정하는 과정; 및 상기 최적화 품질로 인코딩된 이미지 파일을 상기 입력 이미지에 대한 압축 파일로 출력하는 과정을 처리하는 컴퓨터 장치를 제공한다.

본 발명의 실시예들에 따르면, SIMD를 이용하여 JAQ에서 병목 구간이 되는 연산 기능을 고속화함으로써 이미지 압축 최적화에 대한 처리 시간을 개선할 수 있다.

본 발명의 실시예들에 따르면, 기계학습 프레임워크를 적용하여 반복 과정 없이 JAQ로부터 추정된 JPEG 품질 파라미터와 이미지의 특징값을 학습하여 단일 추론 모델을 통해 JAQ를 고속화함으로써 이미지 압축 최적화에 대한 처리 시간을 개선할 수 있다.

도 1은 본 발명의 일실시예에 있어서 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.
도 2 내지 도 5는 목표 PSNR을 만족하는 최적화 품질을 찾는 과정의 일례를 설명하기 위한 예시 도면을 나타낸 것이다.
도 6은 본 발명의 일실시예에 있어서 기계학습을 이용한 JAQ 고속화 방법을 나타낸 것이다.
도 7은 본 발명의 일실시예에 있어서 학습 데이터 셋 구성 예시를 나타낸 것이다.
도 8은 본 발명의 일실시예에 있어서 교차 검증 방법을 설명하기 위한 예시 도면이다.
도 9는 본 발명의 일실시예에 있어서 LBP 이미지를 생성하는 과정을 설명하기 위한 예시 도면이다.
도 10은 본 발명의 일실시예에 있어서 기계학습을 이용한 JAQ를 이미지 처리 서버(IPS)에 적용하기 위한 시퀀스를 나타낸 것이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명의 실시예들은 이미지 압축 최적화 기술에 관한 것이다.

본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 JAQ에서 병목 구간이 되는 연산 기능을 고속화할 수 있다.

본 실시예들은 JPEG 압축 최적화 기술인 JAQ를 고속화하기 위한 기술에 관한 것으로, 이미지 기반 서비스 플랫폼의 이미지 처리 서버(IPS, image processing server)에 적용될 수 있다.

도 1은 본 발명의 일실시예에 따른 컴퓨터 시스템의 예를 도시한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 이미지 압축 최적화 시스템은 도 1을 통해 도시된 컴퓨터 시스템(100)에 의해 구현될 수 있다.

도 1에 도시된 바와 같이 컴퓨터 시스템(100)은 본 발명의 실시예들에 따른 이미지 압축 최적화 방법을 실행하기 위한 구성요소로서, 메모리(110), 프로세서(120), 통신 인터페이스(130) 그리고 입출력 인터페이스(140)를 포함할 수 있다.

메모리(110)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(110)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 시스템(100)에 포함될 수도 있다. 또한, 메모리(110)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(110)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(110)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(130)를 통해 메모리(110)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(160)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 시스템(100)의 메모리(110)에 로딩될 수 있다.

프로세서(120)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(110) 또는 통신 인터페이스(130)에 의해 프로세서(120)로 제공될 수 있다. 예를 들어 프로세서(120)는 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.

통신 인터페이스(130)은 네트워크(160)를 통해 컴퓨터 시스템(100)이 다른 장치와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 시스템(100)의 프로세서(120)가 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(130)의 제어에 따라 네트워크(160)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(160)를 거쳐 컴퓨터 시스템(100)의 통신 인터페이스(130)를 통해 컴퓨터 시스템(100)으로 수신될 수 있다. 통신 인터페이스(130)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(120)나 메모리(110)로 전달될 수 있고, 파일 등은 컴퓨터 시스템(100)이 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.

통신 방식은 제한되지 않으며, 네트워크(160)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 유선/무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(160)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(160)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.

입출력 인터페이스(140)는 입출력 장치(150)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드, 카메라 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(140)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(150)는 컴퓨터 시스템(100)과 하나의 장치로 구성될 수도 있다.

또한, 다른 실시예들에서 컴퓨터 시스템(100)은 도 1의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 시스템(100)은 상술한 입출력 장치(150) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.

본 실시예에서는 JPEG 압축 최적화 방법인 JAQ의 처리 시간을 개선하기 위한 기술을 제공한다.

먼저, SIMD 처리를 이용한 JAQ 고속화 기술을 설명하면 다음과 같다.

SIMD는 병렬 프로세스의 한 종류로, 하나의 명령어로 여러 개의 값을 동시에 계산하는 방식이다. SIMD는 그래픽 카드와 같은 멀티미디어 분야에서 주로 사용되며, 이하에서는 SIMD의 일례로 IPP를 활용할 수 있다.

도 2 내지 도 5는 목표 PSNR을 만족하는 최적화 품질을 찾는 과정의 일례를 설명하기 위한 예시 도면을 나타낸 것이다.

JAQ 기술은 입력 이미지에 요구되는 압축 품질을 최적화 하기 위한 과정으로 압축 품질을 기준으로 설정된 품질 범위 내에서 목표 PSNR(Peak Signal to Noise Ratio)을 만족하는 최적화 품질을 찾는 것이다. 이미지에 대해 압축 품질과 유사한 품질이면서 동시에 PSNR이 목표치 이상이 되는 품질을 찾아 인코딩을 수행한다. 최적화 품질은 압축 품질보다 낮은 품질 범위 내에서 찾는다.

PSNR은 서로 다른 영상을 비교하는데 유의미한 지표이나, PSNR이 일정 레벨 이하인 경우 사람의 육안으로 두 영상의 차이를 구분하지 못한다는 점에서 사람이 구분하는 품질과 동일한 지표는 아니다고 할 수 있다. 따라서, 사람의 눈으로 품질이 구분되지 않는 PSNR(즉, 목표 PSNR)을 결정하고 이미지에 요구되는 압축 품질을 목표 PSNR을 만족하는 품질로 낮춤으로써 품질 최적화를 통해 파일 사이즈를 감소시킬 수 있다.

프로세서(120)는 최적화 품질을 찾기 위한 품질 범위의 최대값과 최소값을 설정한다. 최대값은 이미지에 요구되는 압축 품질로 설정한다. 최소값은 최대값으로 설정된 압축 품질보다 낮은 품질 값이 설정되며, 일 예로는 이미지 압축에 적용 가능한 품질 값 중 가장 작은 값을 품질 범위의 최소값으로 설정할 수 있다. 이미지 압축에 적용 가능한 품질 범위가 62~100이고 사용자가 요구하는 품질이 94라고 가정할 때, 최적화 품질을 찾기 위한 품질 범위는 62~94로 설정될 수 있다.

도 2를 참조하면, 이미지 압축에 적용 가능한 품질 범위가 62~100이고 사용자가 요구하는 품질이 94라고 가정할 때, 최적화 품질을 찾기 위한 품질 범위의 최대값은 94가 되고 최소값은 62가 될 수 있다.

62~94의 품질 범위에서 목표 PSNR을 만족하는 최적화 품질을 찾을 수 있다. 예를 들어, 목표 PSNR을 45.2로 가정한다.

도 3을 참조하면, Step1에서 프로세서(120)는 품질 범위 62~94의 평균값에 해당되는 78의 품질로 이미지를 인코딩한 후 디코딩을 거쳐 PSNR을 추출한다. 78의 품질에 대한 PSNR이 32인 경우 목표 PSNR 45.2보다 작기 때문에 품질 범위의 최소값을 78로 갱신하고 품질 탐색 과정을 계속한다.

Step2에서 프로세서(120)는 품질 범위 78~94의 평균값에 해당되는 86의 품질로 이미지를 인코딩한 후 디코딩을 거쳐 PSNR을 추출한다. 86의 품질에 대한 PSNR이 38인 경우 목표 PSNR 45.2보다 작기 때문에 품질 범위의 최소값을 86으로 갱신하고 품질 탐색 과정을 계속한다.

Step3에서 프로세서(120)는 품질 범위 86~94의 평균값에 해당되는 90의 품질로 이미지를 인코딩한 후 디코딩을 거쳐 PSNR을 추출한다. 90의 품질에 대한 PSNR이 44.1인 경우 목표 PSNR 45.2보다 작기 때문에 품질 범위의 최소값을 90으로 갱신하고 품질 탐색 과정을 계속한다.

Step4에서 프로세서(120)는 품질 범위 90~94의 평균값에 해당되는 92의 품질로 이미지를 인코딩한 후 디코딩을 거쳐 PSNR을 추출한다. 92의 품질에 대한 PSNR이 45.7인 경우 목표 PSNR 45.2 이상이 되기 때문에 품질 92를 사용자가 요구하는 품질 94와 유사하면서 목표 PSNR 45.2 이상이 되는 최적화 품질로 결정하고 품질 탐색 과정과 인코딩 과정을 종료한다.

프로세서(120)는 최적화 품질로 인코딩된 이미지 파일을 최종 압축 파일로 적용하여 출력할 수 있다.

따라서, 이미지에 요구되는 압축 품질을 목표 PSNR을 만족하는 품질로 낮춰 이미지를 인코딩 함으로써 시각적으로는 이미지에 요구되는 압축 품질과 거의 유사한 품질의 이미지를 획득할 수 있고 이와 동시에 압축 파일 사이즈를 감소시킬 수 있다.

최적화 품질을 찾기 위해 인코딩이 반복되게 되는데, 도 4를 참조하면 한 번의 인코딩 과정(400)은 JPEG 파일을 YCbCr로 변환하는 인코딩 과정(410)과, 인코딩 과정(410)의 결과 값을 RGB로 변환하는 디코딩 과정(420)과, 디코딩 과정(420)의 결과 값을 YUV로 변환하는 YUV 변환 과정(430)과, YUV 변환 과정(430)의 결과 값을 이용하여 PSNR을 추출하는 PSNR 과정(440)을 포함한다.

목표 PSNR을 만족하는 최적화 품질을 찾는 과정에서 예를 들어 도 5에 도시한 바와 같이 총 4번(Step1~Step4)의 인코딩이 수행된다고 할 때 이미지에 대해 인코딩 과정(410), 디코딩 과정(420), YUV 변환 과정(430), PSNR 과정(440)이 동일하게 각각 4번 반복된다.

본 실시예에서는 상기한 과정의 JAQ에서 병목 구간이 되는 일부 연산 기능을 SIMD로 고속화할 수 있다.

프로세서(120)는 반복 루프로 구현되는 JAQ를 SIMD를 이용하여 고속화하는 것으로, JAQ에서 구현상 병목이 되는 지점으로 색상 변환(color conversion)(RGB to Gray) 과정(410~430)과 PSNR 연산 과정(440)에서 병렬성을 가지고 있는 요소를 SIMD 처리를 통해 고속화할 수 있다.

일례로, 프로세서(120)는 JAQ에 적용된 색상 변환 과정과 PSNR 연산 과정을 SIMD를 이용하여 고속화할 수 있다. MSE(mean squared error)를 수학식 1이라 할 때, PSNR은 수학식 2와 같이 정의될 수 있다.

[수학식 1]

[수학식 2]

MSE를 구하는 과정에서 for-loop가 영상 사이즈 증가에 따라 처리 시간이 증가한다. SIMD에서는 NormDiff 관련 함수를 제공하며, MSE를 SIMD로 고속화 가능하다.

PSNR 연산 과정에서의 for-loop 연산을 SIMD에서 제공하는 NormDiff 함수로 대체할 수 있으며, 불필요한 sqrt/log 연산을 제거하기 위해 수학식 2에 정의된 PSNR의 마지막 유도식을 사용한다.

일례로, JAQ의 PSNR 연산 과정에 전체 영상 단위로 SIMD를 적용할 수 있다(표 1).

AS-IS	Input: A, B // two images Output: psnr Procedure getPSNR(A, B) MSE := 0 for pixelA, pixelB in image of A, B MSE := pow(pixelA - pixelB, 2) end for MSE := sqrt(MSE / imageSize) psnr := 20.0 * log10(255.0/MSE) End procedure
TO-BE	Input: A, B // two imagesOutput: psnr Procedure PSNR(A, B) A := vectorized A B := vectorized B mse := normDiff_L2(A, B) / imageSize psnr := 48.1308036 - 10.0 * log10(mse) End procedure

따라서, JAQ에서 반복 루프로 구현되는 일부 과정에 SIMD를 적용하여 고속화를 통해 처리 시간을 개선할 수 있다.다음으로, 기계학습을 이용한 JAQ 고속화 기술을 설명하면 다음과 같다.

본 실시예에서는 JAQ의 병목이 되는 반복 과정을 제거하고 JAQ로부터 추정된 JPEG 품질 파라미터와 입력 이미지의 특징 값을 학습하여 단일 추론 모델을 통해 처리 속도를 개선할 수 있다.

도 6은 본 발명의 일실시예에 있어서 기계학습을 이용한 JAQ 고속화 방법을 나타낸 것이다.

도 6을 참조하면, 프로세서(120)는 일반적인 기계학습 프레임워크와 마찬가지로 학습 파이프라인(610)과 추론 파이프라인(620)을 포함한다.

프로세서(120)는 특징 추출 과정(feature extraction)(622), 데이터 정규화 과정(data normalization)(623), 추론 과정(inference)(회귀분석)(624)을 통해 이미지의 품질 파라미터를 추정할 수 있다.

특징 추출 과정(622)은 이미지의 세부 성분(detail)을 표현하는 U-LBP(uniform local binary pattern) 방법 등이 적용될 수 있으며, 추론 성능을 높이기 위한 데이터 정제 과정인 데이터 정규화 과정(623)으로 제로-평균 정규화(zero-mean normalization) 방법 등이 적용될 수 있다. 추론 과정(624)은 이미지의 특징 값을 분석하여 JPEG 품질 파라미터를 추정하기 위한 SVR(support vector regressor) 추론 모델 등이 적용될 수 있다.

학습 파이프라인(610)은 SVR 학습을 위해 일반적인 감독 학습(supervised learning) 방법과 같이 정답 데이터와 특징 추출자를 포함한다. 일례로, 기존 JAQ의 품질 파라미터를 정답 데이터로 구성하고, 입력의 특징 추출자를 U-LBP로 구성할 수 있다. 학습 파이프라인(610)은 이미지의 세부 성분을 분석하는 U-LBP을 입력으로 하여 정답 데이터인 기존 JAQ가 추정한 품질 데이터와 근사한 값을 추론하도록 동작한다.

학습 파이프라인(610)은 학습 데이터 로딩(611) 후 데이터 정규화 과정(612)을 통해 정제된 특징 값을 이용하여 SVR 모델 학습 과정(614)을 진행한다. SVR 모델 학습 과정(614)은 SVR의 학습 메타를 추출하기 위해 사용되는 학습 방법론이 적용될 수 있으며, 예를 들어 교차 검증(hold-out validation) 방식, 그리드탐색 검증(grid-search validation) 방식 등이 이용될 수 있다.

상세하게, 학습 데이터 로딩 과정(611)에서 프로세서(120)는 CSV 파일 및 기타 포맷으로 학습 데이터 셋을 로딩할 수 있다. 도 7을 참조하면, 학습 데이터 셋은 CSV 파일에서 구분 기호(,)를 기준으로 분리하여 구성할 수 있고, CSV 파일의 첫 번째 인덱스는 라벨 데이터(label data)로 구성할 수 있다.

데이터 정규화 과정(612)에서 프로세서(120)는 제로-평균 정규화 방법을 사용하여 로딩된 학습 데이터를 정제할 수 있다(표 2).

Input: trainData
Output: normalTrainData
Procedure zero_mean(trainData)
for i := 0 to trainData columns
mean, sigma := getMeanStdDev(trainData. column(i))
normalTrainData.column(i) := (trainData. column(i) - mean) / sigma
end for
End procedure

데이터 분리 과정(split/shuffle)(613)에서 프로세서(120)는 정제된 학습 데이터를 검증을 위한 데이터로 만들 수 있다(표 3).

Input: totalTrainData, ratio
Output: trainData, testData
Procedure setTrainDataForValidation(totalTrainData, ratio)
totalTrainData := shuffle for train data
trainData, testData := splitData(totalTrainData, ratio) // split data
End procedure

SVR 모델 학습 과정(614)인 검증 과정에서 프로세서(120)는 교차 검증 방식(예를 들어, 도 8에 도시한 교차 검증 방법)을 통해 SVR의 하이퍼파라미터를 추정할 수 있다.

학습 파이프라인(610)은 학습 데이터(611)로부터 추출되는 정규화 요소(특징 값 데이터의 평균과 분산)와 SVR 모델 학습 과정(614)을 통해 추출된 SVR 메타 데이터를 추론 파이프라인(620)의 학습 파라미터로 제공한다.

추론 파이프라인(620)에서의 추론 과정은 학습 파이프라인(610)과 같이 학습 데이터 구성에서 사용한 특징 추출 과정(622)과 데이터 정규화 과정(623)을 적용하고 SVR을 통해 JPEG 인코더(630)에서 사용할 품질 파라미터를 추정할 수 있다.

특징 추출 과정(622)에서 사용되는 U-LBP는 컴퓨터 비전 분야 등에서 많이 사용되는 것으로, 이미지의 세부 성분을 59차원으로 표현하는 특징 추출자이다. JAQ에서 추출되는 JPEG 품질 파라미터의 결과가 이미지의 세부 성분에 따라 동작되므로 U-LBP를 추론 파이프라인(620)에서의 특징 추출자로 사용할 수 있다.

U-LBP는 이미지의 점, 선, 면에 대한 특징을 59차원의 특징 히스토그램(feature histogram)으로 구성할 수 있으며, 예를 들어 도 9를 참조하면 현재 픽셀(901)을 주변 픽셀과 비교하여 8-비트 라벨을 생성할 수 있다. 입력 이미지에 대해 총 256개의 라벨로 구성된 LBP 이미지가 출력으로 나오면 256 차원을 59 차원으로 변경함으로써 LBP 이미지를 59차원의 히스토그램으로 생성할 수 있다.

U-LBP는 입력 크기 불변한(scale-invariant) 특징 추출자가 아니기 때문에 추론 파이프라인(620)에는 품질과 처리시간의 성능을 높이기 위한 전처리 컴포넌트로서 학습 결과에 대한 테스트를 통해 입력 이미지의 해상도를 적정 사이즈(예컨대, 512×512 해상도)로 조절하는 이미지 리사이즈 과정(621)이 추가될 수 있다.

실시예에 따라서는 기계학습을 이용한 JAQ 또한 병목이 될 수 있는 요소에 대해 기계학습 컴포넌트 별로 SIMD를 적용할 수 있다.

일례로, 이미지 리사이즈 과정(621), 즉 입력 이미지를 512×512 사이즈로 리사이즈하는 과정에서 SIMD 리사이즈를 이용할 수 있다.

다른 예로, 특징 추출 과정(622)에서 LBP 구성 과정을 SIMD로 구현할 수 있다(표 4).

Input : A // image
Output : histogram // feature result
Procedure Histogram(A)
LBPImage := GetLBPImageUsingSIMD (inputImage)
histogram :=GetHistogramUsingSIMD(LBPImage)
End procedure

또 다른 예로, JAQ의 결과를 얻어내는 추론 과정(624)에서 SIMD 최적화를 적용할 수 있다(표 5). GetFastDotProduct는 일반적인 내적 연산을 반복문을 통해 연산하고, GetFastDotProductUsingSIMD는 SIMD 처리를 이용하여 내적을 연산한다.

AS-IS	Input : vectorA, vectorB Output : scalarResult Procedure Dotprod(vectorA, vectorB) scalarResult := GetDotProduct(vectorA, vectorB) End procedure
TO-BE	Input : vectorA, vectorB Output : scalarResult Procedure Dotprod(vectorA, vectorB) scalarResult := GetFastDotProductUsingSIMD(vectorA, vectorB) End procedure

따라서, JAQ에서 병목이 될 수 있는 기계학습 컴포넌트에 SIMD를 적용하여 고속화를 통해 처리 시간을 개선할 수 있다.

도 10은 본 발명의 일실시예에 있어서 기계학습을 이용한 JAQ를 이미지 처리 서버(IPS)에 적용하기 위한 시퀀스를 나타낸 것이다.

도 10을 참조하면, Reset()는 회귀분석(Regressor)을 통한 추론 클래스(SVR)에서 사용될 학습 메타데이터를 초기화하는 기능을 수행한다(초기 1회 수행)(1~2). 이미지 입력 클래스의 Encode()와 품질 최적화 클래스의 GetJpegQuality()는 각 메소드를 통해 JAQ 기능을 호출하는 역할을 한다(3~6). 내부적으로, 특징 추출 과정(FeatureExtractor), 데이터 정규화 과정(Normalizer), 추론 과정(Regressor)의 순서로 이미지의 품질 파라미터를 추정하는 JAQ 기능을 수행한다(7~12). 최종적으로, 상기한 JAQ 기능을 통해 추정된 품질 파라미터를 이용하여 이미지 인코딩(JpegEncoder)을 수행한다(13~14).

이처럼 본 발명의 실시예들에 따르면, 기계학습 또는 SIMD를 이용하여 JAQ의 병목이 되는 과정을 고속화함으로써 이미지 압축 최적화에 대한 처리 시간을 개선할 수 있다. JAQ의 고속화를 통해 포토 클라우드 플랫폼의 JPEG 이미지 최적화 기술을 적용하고 있는 서비스에서 서버의 응답성을 개선함에 따라 사용성을 증대시킬 수 있고 스토리지 및 네트워크 대역폭을 절감할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

컴퓨터 장치에서 실행되는 이미지 압축 최적화 방법에 있어서,
상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
상기 이미지 압축 최적화 방법은,
상기 적어도 하나의 프로세서에 의해, 이미지 품질 파라미터와 이미지 특징을 학습한 기계학습 모델을 통해 입력 이미지에 대한 목표 PSNR(Peak Signal to Noise Ratio)을 만족하는 최적화 품질을 추정하는 단계; 및
상기 적어도 하나의 프로세서에 의해, 상기 최적화 품질로 인코딩된 이미지 파일을 상기 입력 이미지에 대한 압축 파일로 출력하는 단계
를 포함하는 이미지 압축 최적화 방법.
제1항에 있어서,
상기 기계학습 모델은 이미지의 세부 성분을 분석하는 특징 추출자를 입력으로 하여 정답 데이터에 해당되는 품질 데이터와 근사한 값을 추론하는 학습 파이프라인을 포함하는 것
을 특징으로 하는 이미지 압축 최적화 방법.
제1항에 있어서,
상기 기계학습 모델은 데이터 정규화를 통해 학습 데이터를 정제한 후 정제된 데이터를 이용하여 SVR(support vector regressor) 모델을 학습하는 학습 파이프라인을 포함하는 것
을 특징으로 하는 이미지 압축 최적화 방법.
제3항에 있어서,
상기 SVR 모델은 교차 검증(hold-out validation) 방식 또는 그리드탐색 검증(grid-search validation) 방식을 이용하여 학습 메타 데이터를 추출하는 것
을 특징으로 하는 이미지 압축 최적화 방법.
제3항에 있어서,
상기 기계학습 모델은 상기 입력 이미지의 인코딩에 사용할 품질 파라미터를 추정하는 추론 파이프라인을 포함하는 것
을 특징으로 하는 이미지 압축 최적화 방법.
제5항에 있어서,
상기 기계학습 모델은 상기 학습 데이터에서 추출되는 정규화 요소와 상기 SVR 모델에서 추출되는 학습 메타 데이터가 상기 추론 파이프라인의 학습 파라미터로 제공되는 것
을 특징으로 하는 이미지 압축 최적화 방법.
제1항에 있어서,
상기 추정하는 단계는,
U-LBP(uniform local binary pattern) 방법을 사용하여 상기 입력 이미지를 특징 히스토그램(feature histogram)으로 구성하는 단계
를 포함하는 이미지 압축 최적화 방법.
제7항에 있어서,
상기 추정하는 단계는,
상기 특징 히스토그램으로 구성하는 단계 이전에, 상기 입력 이미지의 사이즈를 정해진 사이즈로 조절하는 단계
를 더 포함하는 이미지 압축 최적화 방법.
제1항에 있어서,
상기 기계학습 모델에 포함된 적어도 하나의 기계학습 컴포넌트에 SIMD(single instruction multiple data)가 적용되는 것
을 특징으로 하는 이미지 압축 최적화 방법.
제9항에 있어서,
상기 기계학습 컴포넌트로서 이미지 리사이즈(image resize) 과정, LBP(local binary pattern) 구성 과정, 및 이미지 품질 추론 과정 중 적어도 하나에 상기 SIMD가 적용되는 것
을 특징으로 하는 이미지 압축 최적화 방법.
제1항 내지 제10항 중 어느 한 항의 이미지 압축 최적화 방법을 상기 컴퓨터 장치에 실행시키기 위해 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램.
컴퓨터 장치에 있어서,
메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
이미지 품질 파라미터와 이미지 특징을 학습한 기계학습 모델을 통해 입력 이미지에 대한 목표 PSNR을 만족하는 최적화 품질을 추정하는 과정; 및
상기 최적화 품질로 인코딩된 이미지 파일을 상기 입력 이미지에 대한 압축 파일로 출력하는 과정
을 처리하는 컴퓨터 장치.
제12항에 있어서,
상기 기계학습 모델은 이미지의 세부 성분을 분석하는 특징 추출자를 입력으로 하여 정답 데이터에 해당되는 품질 데이터와 근사한 값을 추론하는 학습 파이프라인을 포함하는 것
을 특징으로 하는 컴퓨터 장치.
제12항에 있어서,
상기 기계학습 모델은 데이터 정규화를 통해 학습 데이터를 정제한 후 정제된 데이터를 이용하여 SVR 모델을 학습하는 학습 파이프라인을 포함하는 것
을 특징으로 하는 컴퓨터 장치.
제14항에 있어서,
상기 SVR 모델은 교차 검증 방식 또는 그리드탐색 검증 방식을 이용하여 학습 메타 데이터를 추출하는 것
을 특징으로 하는 컴퓨터 장치.
제14항에 있어서,
상기 기계학습 모델은 상기 입력 이미지의 인코딩에 사용할 품질 파라미터를 추정하는 추론 파이프라인을 포함하는 것
을 특징으로 하는 컴퓨터 장치.
제16항에 있어서,
상기 기계학습 모델은 상기 학습 데이터에서 추출되는 정규화 요소와 상기 SVR 모델에서 추출되는 학습 메타 데이터가 상기 추론 파이프라인의 학습 파라미터로 제공되는 것
을 특징으로 하는 컴퓨터 장치.
제12항에 있어서,
상기 적어도 하나의 프로세서는,
U-LBP 방법을 사용하여 상기 입력 이미지를 특징 히스토그램으로 구성하는 것
을 특징으로 하는 컴퓨터 장치.
제18항에 있어서,
상기 적어도 하나의 프로세서는,
상기 특징 히스토그램을 구성하기 이전에, 상기 입력 이미지의 사이즈를 정해진 사이즈로 조절하는 것
을 특징으로 하는 컴퓨터 장치.
제12항에 있어서,
상기 기계학습 모델에 포함된 적어도 하나의 기계학습 컴포넌트로서 이미지 리사이즈 과정, LBP 구성 과정, 및 이미지 품질 추론 과정 중 적어도 하나에 SIMD가 적용되는 것
을 특징으로 하는 컴퓨터 장치.