KR20110106271A

KR20110106271A - 근사 최적 퀄리티를 갖는 낮은 복잡성의 이미지 트랜스코딩을 위한 방법 및 시스템

Info

Publication number: KR20110106271A
Application number: KR1020117007411A
Authority: KR
Inventors: 스테판 꾸롱베; 스티븐 피젼
Original assignee: 에꼴 드 테크놀로지 수페리에르
Priority date: 2008-12-12
Filing date: 2008-12-23
Publication date: 2011-09-28
Also published as: CA2737476A1; IL211731A0; IL211731A; CN102246209B; JP2012511843A; KR101483137B1; CA2737476C; EP2356628A1; US20130039572A1; EP2356628A4; US8300961B2; CN102246209A; US20100150459A1; JP5487455B2; WO2010066019A1; US8660339B2

Abstract

단말 상에서의 디스플레이를 위하여 근사 최적 퀄리티를 갖는 낮은 복잡성의 이미지 트랜스코딩을 위한 방법 및 시스템이 제공된다. 트랜스코딩에 앞서 효과적인 트랜스코딩 파라미터를 생성하고 입력 이미지의 특징 및 단말의 특성에 기초하여 트랜스코딩 파라미터를 회수하면, 최적 퀄리티 트랜스코딩에 의해 산출되는 것에 가까운 출력 이미지 퀄리티가 달성될 수 있다. 프로세싱 시간은 최적 퀄리티 트랜스코딩에 대해 요구되는 것에 비하여 훨씬 더 작다.

Description

근사 최적 퀄리티를 갖는 낮은 복잡성의 이미지 트랜스코딩을 위한 방법 및 시스템{METHOD AND SYSTEM FOR LOW COMPLEXITY TRANSCODING OF IMAGES WITH NEAR OPTIMAL QUALITY}

본 발명은 이미지 트랜스코딩 분야에 관한 것으로, 특히, 근사 최적 퀄리티를 갖는 낮은 복잡성의 이미지 트랜스코딩을 위한 방법 및 시스템에 관한 것이다.

텍스트, 오디오 및 비디오를 포함하는 다양한 컨텐츠 타입을 포함하는 멀티미디어는 네트워크 운용자를 위하여 뛰어난 비지니스 및 수익 기회를 제공한다. 더 높은 대역폭의 이용가능성 및 패킷-교환된(packet-switched) 인터넷 프로토콜(IP) 기술의 사용은, 텍스트, 보이스, 스틸(still) 및 동영상 그래픽(animated graphics), 사진, 비디오 클립 및 음악의 다양한 조합을 포함하는 더 풍부한 컨텐츠를 전송하는 것을 가능하게 한다. 이러한 시장을 활용하기 위하여, 잠재적인 네트워크 운용자들은 퀄리티 및 신뢰성에 관하여 고객의 기대를 충족시켜야만 한다. 모바일 단말, 휴대폰, 컴퓨터 및 다른 전자 장치들로 구성된 오늘날의 이종 네트워크에 있어서, 서버 레벨에서의 미디어의 트랜스코딩은 멀티미디어 애플리케이션(multimedia applications)을 제공하는데 매우 중요하다. 개별적인 장치들은 대부분 자원에 의해 제약을 받고 미디어 그 자체를 적응시키는 것이 어렵기 때문에, 미디어의 적응(adaptation) 및 트랜스코딩은 서비스 제공자 레벨에서 수행되어야만 한다. 이는 서비스 제공자들에게 매우 중요한 문제이며, 그들이 매우 급격한 트래픽의 증대(traffic growth) - 새로운 하드웨어만으로부터 획득 가능한 속도 증가를 훨씬 초과하는 증대 - 에 직면할 것이기 때문이다.

멀티미디어 메시징 서비스(Multimedia Messaging Services)는, 예를 들어, 단말 사이의 상호운용성(interoperability)을 보장하기 위한 서버-사이드 적응(server-side adaptation)을 제공한다. 멀티미디어 메시징을 위해 요구되는 적응은, IEEE Communications Magazine volume 42, number 7, pages 120-126, July 2004에 발표된 "Multimedia adaptation for the multimedia messaging service"에서 S. Coulombe 및 G. Grassel에 의해 논의되었다. 가장 빈번한 이미지-관련 상호운용성 이슈는, 트래픽의 대다수가 JPEG 및 GIF 이미지들과 연관되기 때문에, 이미지 포맷과 연관되는 것이 아니라, 수신 단말의 성능(capability)을 초과하는 파일 크기 또는 해상도와 더 연관된다. 예를 들어, 제한된 메모리를 갖는 몇몇 모바일 폰은, 이미지의 수신 및 디스플레이를 위하여, 이미지가 특정 크기 또는 해상도 이하일 것을 요구한다. 게다가, 이미지의 높이 및 폭은 정해진 특성의 세트를 갖는 단말에 의해 수용될 수 있는 정도여야만 한다. 단말의 성능을 충족시키기 위하여 이미지의 해상도를 변화시키거나, 또는, 스케일링하는 것은, 잘 알려진 해결책을 갖는 문제이다. 그러나, 단말 제약(terminal constraints)에 대항하여 이미지 퀄리티를 최적화하는 것은 여전히 도전 과제이며, 이는 JPEG에서 사용되는 퀄리티 팩터(QF)(또는 GIF에서 사용되는 컬러의 수), 지각된(perceived) 퀄리티, 및 압축된 파일 크기 사이의 관계가 확실히 정립되지 않았기 때문이다. 단순한 해상도 적응보다는, 파일 크기 감소를 달성하기 위한 추가적인 수단으로서 스케일링을 사용하는 것은, 문제를 더욱 도전적으로 만든다. 시각적인 컨텐츠의 파일 크기(또는 비트율(bit rate)) 감소 문제에 대해 몇몇 연구들이 진행되어 왔다. 사례들은 Proceedings of the IEEE CCECE 2002. Canadian Conference on Electrical and Computer Engineering, 2002, volume 2, pages 968-973 에서 “Accurate bit allocation and rate control for DCT domain video transcoding”라는 제목의 Z. Lei and N.D. Georganas에 의한 논문, Signal Processing: Image Communication, volume 18, number 8, pages. 621-639, Sept. 2003에서 발표된“Efficient transform-domain size and resolution reduction of images" 라는 제목의 J. Ridge에 의한 논문, 및 “File size bounded JPEG transcoder”라는 제목의 V. Ratnakar and V. Ivashin에 의한 May 2001, US patent 6,233,359를 포함한다. 이들 연구들의 결과는, 스케일링을 통해서 보다는, 양자화(quantization) 파라미터의 적응을 통해 감소가 이루어질 수 있음을 보여준다. 대부분의 연구에서, 해상도가 몇몇의 미리 정의된(predefined) 포맷으로 제한되는 경우에, 그것들이 낮은 비트율 비디오의 맥락에서 이행되었기 때문에, 이것은 일리가 있다. 그러나, 스틸-픽처(still-picture) 코딩의 맥락에서조차, 적응 전략으로서 스케일링은 고려되지 않는다. 예를 들어, Ridge는 스케일링 및 그 후의 JPEG 이미지의 파일 크기를 감소시키는 우수한 방법을 제공하지만, 복합적으로 퀄리티 감소 및 스케일링을 추정(estimating)하는 것은 고려하지 않는다. 사용자 경험을 최대화하는 최상의 전략은, 픽처를 단순히 더 낮은 QF로 재-압축하는 것보다는, 픽처를 스케일-다운(scale-down)하고 그것을 더 높은 QF로 압축하는 것일 것이기 때문에, 이것은 주된 단점인 것으로 보인다. 출원인인 Steven Pigeon and Stephane Coulombe는 Proceedings of the 24th Queen's Biennial Symposium on Communications, Queen's University, Kingston, Canada, 2008에서 발표된“Computationally efficient algorithms for predicting the file size of JPEG images subject to changes of quality factor and scaling”에서 스케일링 및 QF 변화의 대상이 되는 JPEG 이미지의 압축된 파일 사이즈를 추정하기 위한 방법을 나타내었다. QF 및 스케일링의 몇몇 조합은, 어떤 조합이 사용자 경험 또는 이미지 퀄리티를 최대화하는 것인지의 질문을 제기하면서, 동일한 근사 파일 크기로 연결된다.

어떻게 본 발명이 앞서 논의된 이슈들을 다루는지를 논의하기 전에, 전형적인 종래의 트랜스코딩 환경의 간략한 설명이 나타난다. JPEG는 MMS 메시지에 포함되는 이미지를 압축하기 위한 흔히 쓰는 기술이다. JPEG 표준은 공통적으로 사용되는 이미지 압축 방법을 제공한다. 잘 알려진 바와 같이, JPEG 압축은, 오리지널 이미지(original image)에 포함되는 디지털 정보의 100%를 포함하지 않을 수 있는 압축된 이미지인 "lossy"이다. 정보의 손실은 압축 동안 퀄리티 팩터를 설정함으로써 제어될 수 있다. 더 낮은 퀄리티 팩터는 더 높은 압축에 상당하고 일반적으로 더 작은 이미지 파일 크기로 연결된다. 반대로, 더 높은 퀄리티 팩터는 더 큰 이미지 파일 크기, 및 일반적으로 더 높은 지각된 이미지의 "퀄리티"로 연결된다.

일 예로써, 도 1은, 발신 노드(Originating Node)(102), 서비스 전달 플랫폼(Service Delivery Platform)(104), 수신 노드(Destination Node)(106) 및 적응 엔진(Adaptation Engine)(108)을 포함하는 MMS 시스템 구조(architecture)(100)를 보여준다. 발신 노드(102)는 네트워크 “A”(110)를 통해 서비스 전달 플랫폼(104)과 통신할 수 있다. 마찬가지로 수신 노드(106)는 네트워크 “B”(112)를 통해 서비스 전달 플랫폼(104)과 통신할 수 있다. 네트워크 “A” 및 “B”는 단순한 실시예이며, 가능한 연결성 세트를 예시하기 위한 것으로, 많은 다른 구성들 또한 가능하다. 예를 들어, 발신 및 수신 노드(102 및 106)는 단일 네트워크(single network)를 통해 서비스 전달 플랫폼(104)과 연결될 수도 있다; 수신 노드(102)는 연결 네트워크 없이 서비스 전달 플랫폼(104)과 직접 연결될 수도 있다.

적응 엔진(108)은 도 1에 보이는 바와 같이 링크(114)를 통해 서비스 전달 플랫폼(104)에 직접 연결되거나, 대안적으로 네트워크를 통해 연결되거나, 또는 서비스 전달 플랫폼(104) 내에 끼워 넣어질(embedded) 수도 있다.

단순한 경우에, 발신 노드(102)는 수신 노드(106)로 전달될 (멀티미디어) 메시지를 보낼 수 있다. 그 메시지는 네트워크 “A”(110)을 통해 서비스 전달 플랫폼(104)으로 전달되고 이로부터 네트워크 “B”(112)를 통해 수신 노드(106)로 보내진다. 발신 및 수신 노드(102 및 106)는 예를 들어 무선 장치일 수 있고, 네트워크 “A” 및 ”B”(110 및 112)는 이러한 경우에 무선 네트워크일 수 있고, 서비스 전달 플랫폼(104)은 멀티미디어 메시지 포워딩(forwarding) 서비스를 제공할 수 있다.

또 다른 경우에, 발신 노드(102)는 컨텐츠 제공자의 서버일 수 있고, 데이터 네트워크를 통해 서비스 전달 플랫폼(104)에 연결될 수 있다. 그러므로, 네트워크 “A”(110)은 인터넷일 수 있고, 네트워크 “B”(112)는 무선 장치일 수 있는 수신 노드(106)로의 무선 네트워크일 수 있다.

멀티미디어 메시징 서비스(MMS)를 위한 서버-사이드 적응의 개요는, 논문 "Multimedia adaptation for the multimedia messaging service" by Stephane Coulombe and Guido Grassel, IEEE Communications Magazine, volume 42, number 7, pages 120-126, July 2004에서 나타내어졌다.

특히 이미지의 경우, 발신 노드(102)에 의해 보내지는 메시지는, 구체적으로 JPEG로 인코딩된, 이미지를 포함할 수 있다. 수신 노드(106)의 성능은 이미지를 오리지널 형식으로 디스플레이하는 능력을 포함하지 않을 수 있는데, 예를 들어 픽셀의 수 측면에서 이미지의 높이(height) 또는 폭(width), 즉 이미지의 해상도(resolution)가, 수신 노드(106)에서 단말 또는 디스플레이 장치의 크기 또는 해상도를 초과할 수 있기 때문이다. 수신 노드(106)가 이를 수신하여 디스플레이하기 위해서는, 그 이미지는 수신 노드(106)로 전달되기 전에 적응 엔진(108)의 이미지 트랜스코더(106)에서 수정되어야 할 것이다. 이미지 트랜스코더(116)에 의한 이미지의 수정(modification)은 일반적으로 스케일링(scaling), 예컨대, 압축 및 이미지 해상도의 변화를 포함할 수 있다.

그러므로, 앞서 논의된 선행 기술의 한계를 다루고 이미지 퀄리티 및 트랜스코딩 속도를 고려한 개선된 이미지 트랜스코딩 방법 및 시스템에 대한 산업상 필요성이 있다.

본 발명의 목적은, 근사 최적 퀄리티를 갖는 낮은 복잡성의 이미지 트랜스코딩, 예컨대, MMS 메시지에 포함되는 이미지 트랜스코딩을 위한 개선된 방법 및 시스템을 제공하는 것이다.

단말(terminal) 상에서의 디스플레이를 위하여 입력 이미지를 출력 이미지로 트랜스코딩하는 방법은, (a1) 상기 트랜스코딩에 앞서, 상기 단말의 특성을 만족시키면서, 각각의 트레이닝 이미지(training image)에 대한 최고 퀄리티 트랜스코딩된 트레이닝 이미지를 산출하기 위하여, 트레이닝 이미지 세트 T 에서 트레이닝 이미지의 한 세트의 최적 퀄리티 트랜스코딩을 수행함으로써 생성되는 트랜스코딩 파라미터를 포함하는 데이터-세트를 생성하는 단계; (b1) 상기 입력 이미지의 특징을 추출하고 상기 단말의 상기 특성을 획득하는 단계; (c1) 상기 (b1) 단계에서 추출된 상기 입력 이미지의 상기 특징 및 상기 단말의 상기 특성을 사용하여 상기 (a1) 단계에서 생성된 상기 데이터-세트로부터 상기 트랜스코딩 파라미터를 선택하는 단계; 및 (d1) 상기 (c1) 단계에서 선택된 상기 트랜스코딩 파라미터를 사용하여 상기 입력 이미지를 상기 출력 이미지로 트랜스코딩하는 단계를 포함한다. 상기 (a1) 단계는, 상기 단말의 특성 및 상기 입력 이미지의 특징의 조합에 해당하는 트랜스코딩 파라미터를 포함하는 데이터-세트를 생성하는 단계를 포함한다. 상기 (b1) 단계는, 상기 입력 이미지에 대한 인코딩 정확도(fidelity)를 특징짓는 퀄리티 팩터 QF(I), 이미지 파일 크기 S(I), 이미지 폭 W(I), 및 이미지 높이 H(I)를 포함하는 상기 입력 이미지의 상기 특징을 추출하는 단계를 포함한다. 상기 트랜스코딩 파라미터를 선택하는 상기 (c1) 단계는, 상기 출력 이미지에 대한 인코딩 정확도를 특징짓는 트랜스코딩 퀄리티 팩터 QFT 및 상기 트랜스코딩에 기인한 이미지 해상도에서의 변화를 특징짓는 트랜스코딩 스케일링 팩터 zT 를 선택하는 단계를 포함한다. 상기 (a1) 단계에서 생성된 상기 데이터-세트는 N 다-차원 행렬을 포함하고, 상기 N 다-차원 행렬은, 상기 트레이닝 이미지 세트 T 로부터 상기 트레이닝 이미지의 하나 이상의 서브셋에 대해 평균 최적 퀄리티 팩터 QFA 를 저장하는 제1 행렬 - 여기서, 각각의 QFA는, 상기 트레이닝 이미지의 각각의 서브셋에서 상기 트레이닝 이미지의 상기 최적 퀄리티 트랜스코딩 동안 사용되는 상기 QFT 의 평균으로 결정됨.-; 상기 트레이닝 이미지의 하나 이상의 서브셋에 대해 평균 최적 스케일링 팩터 zA 를 저장하는 제2 행렬 - 여기서, 각각의 zA 는, 상기 트레이닝 이미지의 각각의 서브셋에서 상기 트레이닝 이미지의 상기 최적 퀄리티 트랜스코딩 동안 사용되는 상기 zT 의 평균으로 결정됨.-; 및 상기 트레이닝 이미지의 하나 이상의 서브셋에 대해 평균 이미지 퀄리티 메트릭 QA 을 저장하는 제3 행렬 - 여기서, 각각의 QA 는, 상기 트레이닝 이미지의 각각의 서브셋에 대해, 상기 최적 퀄리티 트랜스코딩 동안 생성된 각각의 최고 퀄리티 트랜스코딩된 트레이닝 이미지와 상기 트레이닝 이미지 사이의 유사 정도(degree of similarity)를 가리키는 퀄리티 메트릭의 평균으로 결정됨.- 중 하나 이상을 포함한다. 각각의 행렬은, 상기 입력 이미지의 상기 퀄리티 팩터 QF(I)를 가리키는 제1 인덱스; 상기 출력 이미지에 대한 뷰잉 컨디션(viewing conditions)에 기인한 이미지 해상도에서의 변화를 특징짓는 뷰잉 스케일링 팩터(viewing scaling factor) zV 를 가리키는 제2 인덱스; 및 상기 입력 이미지 대비 상기 출력 이미지의 상대적인 크기를 특징짓는 최대 상대 이미지 크기 "smax"를 가리키는 제3 인덱스중 둘 이상의 인덱스에 의해 인덱스된다. 상기 (a1) 단계는, (a7) 상기 QF(I), 상기 zV 및 상기 "smax"의 조합을 선택하는 단계; (a7-ⅰ) 상기 zV 및 상기 "smax"의 상기 선택된 조합에 대해, 퀄리티 팩터가 QF(I)와 동일한 상기 트레이닝 이미지의 서브셋을 사용하여 상기 평균 최적 스케일링 팩터 zA 및 상기 평균 최적 퀄리티 팩터 QFA를 생성하는 단계; (a7-ⅱ) 상기 QF(I), 상기 zV 및 상기 "smax"의 상기 선택된 조합에 의해 인덱스된 위치에서, 상기 제1 행렬에 상기 QFA 및 상기 제2 행렬에 상기 zA 를 저장하는 단계; 및 (a7-ⅲ) 미리 결정된 간격(intervals)에서 상기 QF(I), 상기 zV 및 상기 "smax"를 변경하고, 상기 QF(I), 상기 zV 및 상기 "smax"의 모든 조합이 사용될 때까지, 상기 (a7) 단계를 포함하여, 상기 (a7)과 상기 (a7-ⅲ) 사이의 단계들을 반복하는 단계를 더 포함한다. (a8-ⅰ) 상기 zV 및 상기 "smax"의 상기 선택된 조합에 대해, 상기 트레이닝 이미지의 상기 서브셋에서 각각의 트레이닝 이미지에 대해 상기 최고 퀄리티 트랜스코딩된 트레이닝 이미지에 대한 상기 퀄리티 메트릭을 결정하는 것을 포함하여, 퀄리티 팩터가 QF(I)와 동일한 상기 트레이닝 이미지의 서브셋을 사용하여 상기 평균 이미지 퀄리티 메트릭 QA을 생성하는 단계; 및 (a8-ⅱ) 상기 QF(I), 상기 zV 및 상기 "smax"의 상기 선택된 조합에 의해 인덱스된 위치에서 상기 제3 행렬에 상기 QA를 저장하는 단계를 포함하고, 상기 (a8-ⅰ) 및 상기 (a8-ⅱ) 단계들은 상기 (a7) 단계 후 및 상기 (a7-ⅲ) 단계 전에 수행된다. 상기 (a7-ⅰ) 단계는, (a9) 상기 트레이닝 이미지의 상기 서브셋에서의 각각의 트레이닝 이미지에 대해, 상기 최고 퀄리티 트랜스코딩된 트레이닝 이미지를 산출하는 상기 트랜스코딩 스케일링 팩터 zT 및 상기 트랜스코딩 퀄리티 팩터 QFT 를 결정하는 단계; 및 (b9) 상기 (a9) 단계에서 결정된 상기 트레이닝 이미지에 대한 상기 트랜스코딩 스케일링 팩터 zT 및 상기 트랜스코딩 퀄리티 팩터 QFT를 사용하여 상기 평균 최적 스케일링 팩터 zA 및 상기 평균 최적 퀄리티 팩터 QFA 를 결정하는 단계를 더 포함한다. 상기 (a9) 단계는, (a10) 상기 트랜스코딩 스케일링 팩터 zT 및 상기 트랜스코딩 퀄리티 팩터 QFT의 조합을 포함하는 상기 트랜스코딩 파라미터를 선택하는 단계; (a10-ⅰ) 상기 QFT 및 상기 zT의 상기 선택된 조합에 대해, 상기 트랜스코딩된 트레이닝 이미지를 산출하기 위해 상기 트레이닝 이미지를 트랜스코딩하는 단계; (a10-ⅱ) 상기 트레이닝 이미지와 상기 트랜스코딩된 트레이닝 이미지 사이의 유사 정도를 가리키는, 상기 (a10-ⅰ) 단계에서 생성된 상기 트랜스코딩된 트레이닝 이미지에 대한 퀄리티 메트릭을 결정하는 단계; (a10-ⅲ) 미리 결정된 간격에서 상기 QFT 및 상기 zT를 변경하고, 상기 QFT 및 상기 zT의 모든 조합이 사용될 때까지, 상기 (a10) 단계를 포함하여, 상기 (a10)에서 상기 (a10-ⅲ) 사이의 단계들을 반복하는 단계; 및 (a10-ⅳ) 상기 (a10-ⅱ) 단계에서 상기 최고 퀄리티 메트릭을 산출했던 상기 QFT 및 상기 zT를 선택하는 단계를 더 포함한다. 상기 (a10-ⅰ) 단계는, (a11) 상기 선택된 스케일링 팩터 zT를 적용하여 상기 트레이닝 이미지를 압축해제 및 스케일링하는 단계; 및 (b11) 상기 선택된 퀄리티 팩터 QFT를 적용하여 상기 (a11) 단계에서 산출된 상기 압축해제 및 스케일링된 트레이닝 이미지를 압축하는 단계를 더 포함한다. 상기 (a10-ⅱ) 단계는, (12a) 이미지 J'을 산출하기 위해 재-스케일링 팩터 zR을 적용하여 상기 트랜스코딩된 트레이닝 이미지를 압축해제 및 스케일링하는 단계; (12b) 이미지 L'를 산출하기 위해 상기 뷰잉 스케일링 팩터 zV를 적용하여 상기 트랜스코딩된 트레이닝 이미지를 압축해제 및 스케일링하는 단계; 및 (12c) 상기 이미지 J' 및 L' 각각을 사용하여 상기 트레이닝 이미지와 상기 트랜스코딩된 트레이닝 이미지 사이의 유사 정도를 가리키는 상기 퀄리티 메트릭을 생성하는 단계를 더 포함한다. 상기 zR은 zV/zT와 동일하다. 상기 (12c) 단계는, 상기 이미지 J' 및 상기 이미지 L'를 사용하여 구조적 유사성(Structural SIMilarity)(SSIM) 인덱스를 결정하는 단계를 포함한다. 상기 (a8-ⅰ) 단계는, (a15) 상기 제1 행렬에 저장된 상기 평균 최적 퀄리티 팩터 QFA 및 상기 제2 행렬에 저장된 상기 평균 최적 스케일링 팩터 zA를 회수하는(retrieving) 단계; (a15-ⅰ) 상기 트랜스코딩된 트레이닝 이미지를 산출하기 위해 상기 (a15) 단계에서 회수된 상기 QFA 및 상기 zA를 사용하여 상기 트레이닝 이미지를 트랜스코딩하는 단계; (a15-ⅱ) 상기 트랜스코딩된 트레이닝 이미지가 상기 단말의 상기 특성을 만족시키는지 여부를 결정하는 단계; (a15-ⅲ) 상기 트랜스코딩된 트레이닝 이미지가 상기 단말의 상기 특성을 만족시킬 때까지 상기 제1 및 제2 행렬에서 이용가능한 "smax"의 다음으로 작은 값(next smaller value)으로, 상기 (a15) 단계를 포함하여, 상기 (a15)에서 상기 (a15-ⅲ) 사이의 단계들을 반복하는 단계; 및 (b15) 상기 단말의 상기 특성을 만족시키는 (a15-ⅰ) 단계에서 생성된 상기 트랜스코딩된 트레이닝 이미지의 상기 퀄리티 메트릭을 결정하는 단계를 더 포함한다. 상기 (a15-ⅱ) 단계는, 상기 트랜스코딩된 트레이닝 이미지의 이미지 파일 크기가 상기 단말에 의해 지원되는 최대 이미지 파일 크기 S(D) 이하인지 여부를 결정하는 단계를 포함한다. 상기 (d1) 단계는, (a17) 상기 단말의 상기 특성 및 상기 (b1) 단계에서 추출된 상기 입력 이미지의 상기 특징, QF(I), S(I), W(I) 및 H(I)를 사용하여 상기 zV 및 상기 "smax"를 결정하는 단계; (b17) 상기 (a17) 단계에서 결정된 상기 zV 및 상기 "smax", 및 상기 (b1) 단계에서 회수된 상기 QF(I)에 의해 인덱스된 상기 제2 행렬에 저장된 상기 평균 최적 스케일링 팩터 zA 및 상기 제1 행렬에 저장된 상기 평균 최적 퀄리티 팩터 QFA를 회수하는 단계; (b17-ⅰ) 상기 출력 이미지를 산출하기 위해, 상기 트랜스코딩 퀄리티 팩터 QFT 및 상기 트랜스코딩 스케일링 팩터 zT 각각에 따라, 상기 (b17) 단계에서 회수된 상기 QFA 및 상기 zA를 사용하여 상기 입력 이미지를 트랜스코딩하는 단계; (b17-ⅱ) 상기 출력 이미지가 상기 단말의 상기 특성을 만족시키는지 여부를 체크하는 단계; (b17-ⅲ) 상기 출력 이미지가 상기 단말의 상기 특성을 만족시킬 때까지 상기 제1 및 제2 행렬에서 이용가능한 "smax"의 다음으로 작은 값으로, 상기 (b17) 단계를 포함하여, 상기 (b17)에서 상기 (b17-ⅲ) 사이의 단계들을 반복하는 단계; 및 (c17) 상기 단말의 상기 특성을 만족시키는 상기 (b17-ⅰ) 단계에서 생성된 상기 출력 이미지에 해당하는 상기 QF(I), 상기 smax 및 상기 zV에 의해 인덱스된 위치에서 상기 제3 행렬에 저장된 상기 평균 이미지 퀄리티 QA를 회수하는 단계를 더 포함한다. 상기 단말의 상기 특성은 상기 최대 이미지 파일 크기 S(D), 단말 폭 W(D) 및 단말 높이 H(D)를 포함하고, 상기 (a17) 단계는, 상기 출력 이미지에 대한 인코딩 정확도를 특징짓는 트랜스코딩 퀄리티 팩터 QFT, 및 이미지에서의 변화를 특징짓는 트랜스코딩 스케일링 팩터 zT 를 선택하는 단계를 더 포함하고, (a18) 상기 zV를 (W(D)/W(I)), (H(D)/H(I)) 및 1 중 최소로 설정하는 단계; 및 (b18) 상기 "smax"를 (S(D)/S(I)) 및 1 중 최소로 설정하는 단계를 포함한다. 상기 (a1) 단계는, (a19) 상기 트랜스코딩 퀄리티 팩터 QFT 및 상기 트랜스코딩 스케일링 팩터 zT의 조합을 포함하는 상기 트랜스코딩 파라미터를 선택하는 단계; (a19-ⅰ) 상기 QFT 및 상기 zT의 상기 선택된 조합에 대해, 상기 트랜스코딩된 트레이닝 이미지를 산출하기 위하여 상기 트레이닝 이미지를 트랜스코딩하는 단계; (a19-ⅱ) 상기 트레이닝 이미지와 상기 트랜스코딩된 트레이닝 이미지 사이의 유사 정도를 가리키는, 상기 (a19-ⅰ) 단계에서 생성된 상기 트랜스코딩된 트레이닝 이미지에 대한 퀄리티 메트릭을 결정하는 단계; (a19-ⅲ) 미리 결정된 간격에서 상기 QFT 및 상기 zT 를 변경하고, 상기 QFT 및 상기 zT 의 모든 조합이 사용될 때까지, 상기 (a19) 단계를 포함하여, 상기 (a19)에서 상기 (a19-ⅱ) 사이의 단계들을 반복하는 단계; 및 (a19-ⅳ) 상기 (a19-ⅱ) 단계에서 상기 최고 퀄리티 메트릭을 산출했던 상기 QFT 및 상기 zT를 선택하는 단계를 더 포함한다. 상기 (a19-ⅰ) 단계는, (a20) 상기 선택된 스케일링 팩터 zT를 적용하여 상기 트레이닝 이미지를 압축해제 및 스케일링하는 단계; 및 (b20) 상기 선택된 퀄리티 팩터 QFT를 적용하여 상기 (a20) 단계에서 산출된 상기 압축해제 및 스케일링된 트레이닝 이미지를 압축하는 단계를 더 포함한다. 상기 (a19-ⅱ) 단계는, (a21) 이미지 J'을 산출하기 위해 재-스케일링 팩터 zR을 적용하여 상기 트랜스코딩된 트레이닝 이미지를 압축해제 및 스케일링하는 단계; (b21) 이미지 L'를 산출하기 위해, 상기 출력 이미지에 대한 뷰잉 컨디션에 기인한 이미지 해상도에서의 변화를 특징짓는 뷰잉 스케일링 팩터 zV를 적용하여 상기 트랜스코딩된 트레이닝 이미지를 압축해제 및 스케일링하는 단계; 및 (c21) 상기 이미지 J' 및 L' 각각을 사용하여 상기 트레이닝 이미지와 상기 트랜스코딩된 트레이닝 이미지 사이의 유사 정도를 가리키는 상기 퀄리티 메트릭을 생성하는 단계를 더 포함한다. 상기 zR은 zV/zT와 동일하다. 상기 (c21) 단계는, 상기 이미지 J' 및 상기 이미지 L'를 사용하여 구조적 유사성(Structural SIMilarity)(SSIM) 인덱스를 결정하는 단계를 포함한다.

단말(terminal) 상에서의 디스플레이를 위하여 입력 이미지를 출력 이미지로 트랜스코딩하는, 프로세서(processor) 및 컴퓨터 판독가능 저장 매체(computer readable storage medium)를 갖는 시스템은, (a24) 트레이닝 이미지를 포함하는 트레이닝 이미지 세트 T 를 포함하는, 상기 컴퓨터 판독가능 매체에 저장된 트레이닝 이미지 저장소; (b24) 상기 입력 이미지의 상기 트랜스코딩에 앞서 상기 트레이닝 이미지 세트 T 로부터 상기 트레이닝 이미지의 한 세트의 최적 퀄리티 트랜스코딩에 의해 생성되는 트랜스코딩 파라미터를 포함하는 데이터-세트를 생성하고, 상기 단말의 특성을 만족시키면서, 각각의 트레이닝 이미지에 대한 최고 퀄리티 트랜스코딩된 트레이닝 이미지를 산출하는, 상기 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 판독가능 명령어(computer readable instructions)를 포함하는 오프-라인 데이터-세트 생성기; (c24) 상기 오프-라인 데이터-세트 생성기(b24)에 의해 산출된 상기 데이터-세트를 저장하는, 컴퓨터 판독가능 저장 매체에 저장된 데이터-세트 저장소; 및 (d24) 상기 입력 이미지의 특징 및 상기 단말의 특성을 사용하여, 상기 데이터-세트 저장소(c24)에 저장된 상기 데이터-세트로부터 상기 트랜스코딩 파라미터를 선택하고, 상기 선택된 트랜스코딩 파라미터를 사용하여 상기 입력 이미지를 상기 출력 이미지로 트랜스코딩하는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 판독가능 명령어를 포함하는 온-라인 트랜스코더를 포함한다. 상기 데이터-세트는, 상기 단말의 상기 특성 및 상기 입력 이미지의 특징의 조합에 해당하는 트랜스코딩 파라미터를 포함하고, 상기 트랜스코딩 파라미터는, 상기 출력 이미지에 대한 인코딩 정확도를 특징짓는 트랜스코딩 퀄리티 팩터 QFT 및 상기 트랜스코딩에 기인한 이미지 해상도에서의 변화를 특징짓는 트랜스코딩 스케일링 팩터 zT 를 포함한다. 상기 데이터-세트는 N 다-차원 행렬을 포함하고, 상기 N 다-차원 행렬은, 상기 트레이닝 이미지 세트 T 로부터 트레이닝 이미지의 하나 이상의 서브셋에 대해 평균 최적 퀄리티 팩터 QFA 를 저장하는 제1 행렬 - 여기서, 각각의 QFA는, 상기 트레이닝 이미지의 각각의 서브셋에서 트레이닝 이미지의 상기 최적 퀄리티 트랜스코딩 동안 사용되는 상기 QFT 의 평균으로 결정됨.-; 트레이닝 이미지의 하나 이상의 서브셋에 대해 평균 최적 스케일링 팩터 zA 를 저장하는 제2 행렬 - 여기서, 각각의 zA 는, 상기 트레이닝 이미지의 각각의 서브셋에서 트레이닝 이미지의 상기 최적 퀄리티 트랜스코딩 동안 사용되는 상기 zT 의 평균으로 결정됨.-; 및 상기 트레이닝 이미지의 하나 이상의 서브셋에 대해 평균 이미지 퀄리티 메트릭 QA 을 저장하는 제3 행렬 - 여기서, 각각의 QA 는, 트레이닝 이미지의 각각의 서브셋에 대해, 상기 최적 퀄리티 트랜스코딩 동안 생성된 해당 최고 퀄리티 트랜스코딩된 트레이닝 이미지와 상기 트레이닝 이미지 사이의 유사 정도를 가리키는, 퀄리티 메트릭의 평균으로 결정됨.- 중 하나 이상을 포함한다. 각각의 행렬은, 상기 입력 이미지에 대한 인코딩 정확도를 특징짓는 퀄리티 팩터 QF(I)를 가리키는 제1 인덱스; 상기 출력 이미지에 대한 뷰잉 컨디션에 기인한 이미지 해상도에서의 변화를 특징짓는 뷰잉 스케일링 팩터 zV 를 가리키는 제2 인덱스; 및 상기 입력 이미지 대비 상기 출력 이미지의 상대적인 크기를 특징짓는 최대 상대 이미지 크기 "smax"를 가리키는 제3 인덱스 중 둘 이상의 인덱스에 의해 인덱스된다. 상기 오프-라인 데이터-세트 생성기(b24)는, (a29) 상기 트레이닝 이미지 세트 T 에서 트레이닝 이미지의 특징을 추출하는 이미지 특징 추출 유닛; (b29) 상기 QFT 및 상기 zT를 선택하고, 상기 이미지 특징 추출 유닛(a29)에 의해 추출된 특징을 사용하여 상기 평균 최적 퀄리티 팩터 QFA 및 상기 평균 최적 스케일링 팩터 zA를 결정하는 제1 퀄리티-인식 파라미터 선택 유닛; (c29) 상기 제1 퀄리티-인식 파라미터 선택 유닛(b29)에 의해 선택된 상기 QFT 및 상기 zT를 사용하여 상기 트레이닝 이미지를 트랜스코딩된 트레이닝 이미지로 트랜스코딩하는 트랜스코딩 유닛; 및 (d29) 상기 트랜스코딩 유닛(c29)에 의하여 생성된 상기 트랜스코딩된 트레이닝 이미지에 대한 상기 퀄리티 메트릭을 결정하는 퀄리티 평가 유닛 - 여기서, 상기 퀄리티 메트릭은, 상기 트레이닝 이미지와 상기 트랜스코딩된 트레이닝 이미지 사이의 유사 정도를 가리킴.- 을 포함한다. 제1 퀄리티-인식 파라미터 선택 유닛(b29)은 상기 평균 이미지 퀄리티 메트릭 QA를 결정하기 위한 계산 수단을 더 포함한다. 상기 트랜스코딩 유닛(c29)은, (a31) 상기 스케일링 팩터 zT를 상기 트레이닝 이미지에 적용하여 압축해제 및 스케일링된 트레이닝 이미지를 산출하는 압축해제 및 스케일링 유닛; 및 (b31) 상기 트랜스코딩 퀄리티 팩터 QFT를 상기 압축해제 및 스케일링된 트레이닝 이미지에 적용하여 상기 트랜스코딩된 트레이닝 이미지를 산출하는 압축 유닛을 포함한다. 상기 퀄리티 평가 유닛(d29)은, (a32) 재-스케일링 팩터 zR을 적용하여 상기 트랜스코딩된 트레이닝 이미지를 압축해제 및 스케일링하는 제2 압축해제 및 스케일링 유닛; (b32) 상기 뷰잉 스케일링 팩터 zV를 적용하여 상기 트레이닝 이미지를 압축해제 및 스케일링하는 제3 압축해제 및 스케일링 유닛; 및 (c32) 상기 트랜스코딩된 트레이닝 이미지에 대한 상기 퀄리티 메트릭을 계산하는 퀄리티 메트릭 계산 유닛을 포함한다. 상기 퀄리티 메트릭 계산 유닛(c32)은, 상기 트레이닝 이미지와 상기 트랜스코딩된 트레이닝 이미지 사이의 유사성을 가리키는 구조적 유사성(SSIM) 인덱스를 결정하기 위한 계산 수단을 포함한다. 상기 온-라인 트랜스코더(d24)는, (a34) 상기 입력 이미지의 상기 특징을 추출하는 이미지 특징 추출 유닛; (b34) 상기 단말의 상기 특성 및 상기 이미지 특징 추출 유닛(a34)에 의해 추출된 상기 입력 이미지의 상기 특징을 사용하여, 상기 제1 행렬에 저장된 상기 평균 최적 퀄리티 팩터 QFA 및 상기 제2 행렬에 저장된 상기 평균 최적 스케일링 팩터 zA를 회수하는 최적 파라미터 예측 유닛; (c34) 상기 최적 파라미터 예측 유닛(b34)에 의해 회수된 상기 QFA 및 상기 zA를 사용하여 상기 트랜스코딩 퀄리티 팩터 QFT 및 상기 트랜스코딩 스케일링 팩터 zT를 결정하고, 상기 제3 행렬에 저장된 상기 평균 이미지 퀄리티 QA를 회수하는 제2 퀄리티-인식 파라미터 선택 유닛; 및 (d34) 상기 제2 퀄리티-인식 파라미터 선택 유닛(c34)에 의해 선택된 상기 QFT 및 상기 zT를 사용하여 상기 입력 이미지를 상기 출력 이미지로 트랜스코딩하는 트랜스코딩 유닛을 포함한다.

컴퓨터 판독가능 프로그램 코드 명령어가 저장된 컴퓨터 판독가능 저장 매체는, 컴퓨터에 의해 실행될 때, 전술한 방법의 단계들을 수행한다.

통신 네트워크에 의해서 연결된 복수개의 컴퓨팅 노드들을 갖는 시스템 - 여기서, 각각의 노드는 단말 상의 디스플레이를 위하여 입력 이미지를 출력 이미지로 트랜스코딩하기 위한 프로세서 및 컴퓨터 판독가능 저장 매체를 포함함. - 은, (a36) 제1 노드의 컴퓨터 판독가능 저장 매체에 저장된 트레이닝 이미지를 포함하는 트레이닝 이미지 세트 T 를 포함하는 트레이닝 이미지 저장소; (b36) 상기 입력 이미지의 상기 트랜스코딩에 앞서 상기 트레이닝 이미지 세트 T 로부터의 트레이닝 이미지의 한 세트의 최적 퀄리티 트랜스코딩에 의해 생성되는 트랜스코딩 파라미터를 포함하는 데이터-세트를 생성하고, 상기 단말의 특성을 만족시키면서, 각각의 트레이닝 이미지에 대한 최고 퀄리티 트랜스코딩된 트레이닝 이미지를 산출하는, 제2 노드의 컴퓨터 판독가능 매체에 저장된 컴퓨터 판독가능 명령어를 포함하는 오프-라인 데이터-세트 생성기; (c36) 제3 노드의 컴퓨터 판독가능 저장 매체에서 상기 오프-라인 데이터-세트 생성기(b36)에 의해 산출된 상기 데이터-세트를 저장하는 데이터-세트 저장소; 및 (d36) 상기 입력 이미지의 상기 특징 및 상기 단말 특성을 사용하여 상기 데이터-세트 저장소(c36)에 저장된 상기 데이터-세트로부터 상기 트랜스코딩 파라미터를 선택하고, 상기 선택된 트랜스코딩 파라미터를 사용하여 상기 입력 이미지를 상기 출력 이미지로 트랜스코딩하기 위한, 제4 노드의 컴퓨터 판독가능 매체에 저장된 컴퓨터 판독가능 명령어를 포함하는 온-라인 트랜스코더를 포함한다.

상기 방법에서의 상기 (b1) 단계는, 상기 입력 이미지에 대한 몇몇의 컬러, 이미지 파일 크기 S(I), 이미지 폭 W(I) 및 이미지 높이 H(I)를 포함하는 상기 입력 이미지의 상기 특징을 추출하는 단계를 포함한다.

본 발명에 의하면, 근사 최적 퀄리티를 갖는 낮은 복잡성의 이미지 트랜스코딩을 위한 개선된 방법 및 시스템이 제공될 수 있다.

본 발명의 추가적인 특징 및 장점들은 이하의 설명 및 예시들을 통해서 명확하게 이해될 수 있으며, 이러한 설명 및 예시들은 첨부된 도면을 참조하여 예시적인 방식으로 설명된다.
도 1은 종래 기술의 멀티미디어 메시징 시스템 구조(100)의 예시를 나타낸다.
도 2는 본 발명의 실시예에 따른 단말 상에서의 디스플레이를 위해 입력 이미지를 출력 이미지로 트랜스코딩하는 시스템(200)을 도시한다.
도 3은 도 2의 오프-라인 데이터-세트 생성기(204)의 기능 구성요소들을 도시한다.
도 4는 도 2의 온-라인 트랜스코더(208)의 기능 구성요소들을 도시한다.
도 5는 본 발명의 실시예에 따른 단말 상에서의 디스플레이를 위해 입력 이미지를 출력 이미지로 트랜스코딩하는 방법의 각각의 단계를 설명하기 위한 흐름도를 나타낸다.
도 6은 도 5의 "데이터-세트 생성" 단계를 설명하기 위한 흐름도를 나타낸다.
도 7은 도 6의 "평균, QFA 및 zA 계산" 단계를 설명하기 위한 흐름도를 나타낸다.
도 8은 도 7의 "BestQFT 및 BestzT 계산" 단계를 설명하기 위한 흐름도를 나타낸다.
도 9는 도 6의 "평균, QA 계산" 단계를 설명하기 위한 흐름도를 나타낸다.
도 10은 도 9의 "선택된 트레이닝 이미지에 해당하는 퀄리티 메트릭 계산" 단계를 설명하기 위한 흐름도를 나타낸다.
도 11은 도 5의 "데이터-세트로부터 트랜스코딩 파라미터 선택 및 입력 이미지 트랜스코딩" 단계를 설명하기 위한 흐름도를 나타낸다.
도 12 는 본 발명의 실시예의 방법을 설명하기 위해 사용되는 80 의 QF(I)에 해당하는 제1 행렬의 "슬라이스"를 나타낸다.
도 13 은 본 발명의 실시예의 방법을 설명하기 위해 사용되는 80 의 QF(I)에 해당하는 제2 행렬의 "슬라이스"를 나타낸다.
도 14는 본 발명의 실시예의 방법을 설명하기 위해 사용되는 80 의 QF(I)에 해당하는 제3 행렬의 "슬라이스"를 나타낸다.

본 발명에서는 JPEG 트랜스코딩에 있어서 퀄리티 팩터(quality factor) 및 스케일링 팩터(scaling factor)를 조합하여 단말의 해상도(resolution) 및 이미지 파일 크기(size)의 제약을 만족하면서 동시에 퀄리티 메트릭(quality metric)을 최대화하는 것에 대하여 설명한다. 설명의 편의를 위하여, 본 명세서에서 사용되는 용어의 설명은 다음과 같다.

용어의 설명

H(D) 단말 높이(height)

H(I) 입력 이미지에 대한 이미지 높이(height)

QA 트레이닝 이미지(training image)들의 서브셋(subset)에 대한 평균 이미지 퀄리티 메트릭으로서, 퀄리티 메트릭의 평균으로서 결정됨 - 트레이닝 이미지와, 트레이닝 이미지들의 서브셋 내의 트레이닝 이미지들을 최적 퀄리티 트랜스코딩하는 동안에 생성되는 최고 퀄리티의 트랜스코딩된 트레이닝 이미지들의 각각 사이의 유사정도(degree of similarity)를 가리킴 -

QFA 트레이닝 이미지들의 서브셋에 대한 평균 최적 퀄리티 팩터로서, 트레이닝 이미지들의 서브셋 내의 트레이닝 이미지들을 최적 퀄리티 트랜스코딩하는 동안에 사용되는 트랜스코딩 퀄리티 팩터(QFT)의 평균으로서 결정됨

QF(I) 입력 이미지에 대한 인코딩 정확도(encoding fidelity)를 특징짓는 입력 이미지에 대한 퀄리티 팩터

QFT 출력 이미지에 대한 인코딩 정확도를 특징짓는 트랜스코딩 퀄리티 팩터

S(D) 단말에 의해 지원되는 최대 이미지 파일 크기

S(I) 입력 이미지에 대한 이미지 파일 크기

smax 입력 이미지 대비 출력 이미지의 상대적인(relative) 크기를 특징짓는 최대 상대(relative) 이미지 크기

SSIM 두 이미지의 유사성(similarity)을 비교하기 위해 사용되는 구조적 유사성 인덱스 함수(Structural Similarity index function)

T 이미지 트레이닝 세트

W(D) 단말 폭(width)

W(I) 입력 이미지에 대한 이미지 폭(width)

zA 트레이닝 이미지들의 서브셋에 대한 평균 최적 스케일링 팩터로서, 트레이닝 이미지들의 서브셋 내의 트레이닝 이미지들을 최적 퀄리티 트랜스코딩하는 동안에 사용되는 트랜스코딩 스케일링 팩터(zT)의 평균으로서 결정됨

zT 입력 이미지를 출력 이미지로 트랜스코딩함으로 인한 이미지 해상도의 변화를 특징짓는 트랜스코딩 스케일링 팩터

zV 출력 이미지의 뷰잉 컨디션(viewing condition)에 기인한 이미지 해상도의 변화를 특징짓는 뷰잉 스케일링 팩터(viewing scaling factor)

zR 재-스케일링 팩터(re-scaling factor)로서, zV와 zT 의 비(ratio)로 결정됨

본 명세서에서 사용되는 표기(notation)들을, JPEG 이미지 트랜스코딩 문제의 맥락에서 설명한다. I 는 JPEG 압축된 이미지를 의미하고, QF(I), S(I), W(I), 및 H(I) 는 I 의 퀄리티 팩터, (압축 후의) 이미지 파일 크기, 이미지 폭, 및 이미지 높이에 각각 해당한다. QF 는, "The independent JPEG group software release 6b," 1998 문서에서 T. Lane, P. Gladstone, L. Ortiz, J.Boucher, L. Crocker, J. Minguillon, G. Phillips, D. Rossi, 및 G. Weijers 에 의해 설명된 바와 같은 인디펜던트 JPEG 그룹(Independent JPEG Group)의 정의에 따르는 것으로 가정한다. 인디펜던트 JPEG 그룹(IJG) 소프트웨어 및 문서는 http://www.ijg.org/ 및 http://www.ijg.org/files/ 에서 찾을 수 있다. IJG JPEG 코덱은 사실상의(de facto) 표준 구현체로서, 대부분의 브라우저 및 이미지 뷰어에서 사용되고 무료로(freely) 이용가능하다.

트랜스코딩된 이미지는 한 세트의 특성(characteristics)을 가지고 단말(terminal) 또는 장치(device) 상에서 디스플레이된다. 단말이라는 용어와 장치라는 용어는 본 명세서에서 상호교환되어 사용될 수 있다. 단말 또는 장치 D 에 대해서, 전술한 특성은 단말에 의해서 지원되는 최대 이미지 파일 크기 S(D), 단말 폭 W(D), 및 단말 높이 H(D)를 포함한다. 애스팩트-보존(aspect-preserving) 스케일링 팩터, 또는 줌 팩터(zoom factor)인 z 는 0<z≤1 이다. JPEG 트랜스코딩 동작은 τ(I, QFT, zT) 로 표시되며, 트랜스코딩 퀄리티 팩터 QFT 및 트랜스코딩 스케일링 팩터 zT 의 양자 모두가 적용된 결과로서 압축된 이미지를 리턴(return)하는 함수이며, 여기서 트랜스코딩 퀄리티 팩터 QFT 는 트랜스코딩된 이미지에 대한 인코딩 정확도와 압축의 강도(aggressiveness) 및 그로 인한 파일 크기를 특징 짓고, 스케일링 팩터 zT 는 JPEG 이미지 I 에 대한 트랜스코딩으로 인한 이미지 해상도의 변화를 특징짓는다. 퀄리티 팩터(인디펜던트 JPEG 그룹의 라이브러리에서 0 내지 100 의 척도(scale)로 정해짐)는 JPEG 인코더에서 사용되는 양자화(quantization) 단위(step)들을 제어하고 주파수 성분(frequency component) 각각의 해상도가 어느 정도로 감소되는지에 영향을 미친다. 높은 퀄리티 팩터는, 주파수 성분에 대해서 좋은 해상도 (작은 양자화 단위)를 사용함으로써 인코딩된 형태(encoded form)에서 이미지의 높은 정확도(fidelity) 표현으로 연결된다. 반면, 낮은 퀄리티 팩터는 주파수 성분에 대해서 나쁜 해상도 (큰 양자화 단위)를 사용함으로써 인코딩된 형태에서 이미지의 낮은 정확도 표현으로 연결되며, 일반적으로는 높은 주파수 성분 모두(이미지의 세부사항)를 버릴 수도 있다. 보다 큰 퀄리티 팩터는 보다 큰 압축 파일 크기로 연결된다. 따라서, 퀄리티 팩터는 압축의 강도(aggressiveness)를 제어하고 궁극적으로는 재구성된 이미지의 예상되는 정확도를 특징짓는다.

JPEG 트랜스코딩 동작 τ(I, QFT, zT) 은 단말 D 상에서 구현가능한(feasible) 것으로서 정의되는데, 이미지 I 및 트랜스코딩 파라미터 QFT 및 zT 에 대해서 해당 단말의 특성에 의해서 주어지는 이하의 제약(constraints)을 모두 만족하는 경우로서 정의될 수 있다.

S(τ(I, QFT, zT))≤S(D)

W(τ(I, QFT, zT))≤W(D)

H(τ(I, QFT, zT))≤H(D)

여기서, S(X), W(X) 및 H(X) 는, 함수 τ 에 의해서 산출되는 트랜스코딩된 이미지에 대한 이미지 크기, 이미지 높이 및 이미지 폭을 각각 지칭하는 것이다.

도 2 는 단말 상에서의 디스플레이를 위해 입력 이미지를 출력 이미지로 트랜스코딩하는 시스템(200)을 도시한다. 시스템(200)은 트레이닝 이미지 저장소(202), 오프-라인 데이터-세트 생성기(204), 데이터-세트 저장소(206) 및 온-라인 트랜스코더(208)를 포함한다. 멀티미디어 이미지의 트랜스코딩을 수행하기에 앞서, 오프-라인 데이터-세트 생성기(204)는 트레이닝 이미지 저장소(202)에 저장된 트레이닝 이미지 세트 T 를 사용하여, 데이터-세트 저장소(206)에 저장되는 데이터-세트를 산출한다. T 는 많은 개수의 예시(exemplars) 이미지들을 포함하고, 이는 데이터-세트에 포함되는 예측된(predicted) 이미지 퀄리티 및 트랜스코딩 파라미터를 생성하는 데에 사용된다. 오프-라인 데이터-세트 생성기(204) 및 트레이닝 이미지 저장소(202)는 데이터-세트를 결정하는 데에만 사용된다. 데이터-세트가 산출되면, 온-라인 트랜스코더(208)만이 MMS 메시지를 프로세싱하기 위해서 사용된다. 온-라인 트랜스코더(208)는 데이터-세트 저장소(206)에 저장된 데이터-세트, 단말의 특성(characteristics) 및 입력 이미지의 특징(features)을 사용하여, MMS 메시지의 이미지의 트랜스코딩에 사용되는 트랜스코딩 파라미터를 선택할 수 있다.

본 발명의 실시예의 시스템은 CPU 및 컴퓨터 판독가능 매체(computer readable medium) (예를 들어, 메모리)를 가지는 범용(general purpose) 또는 전용(specialized) 컴퓨터를 포함할 수 있고, 또는 시스템은 펌웨어로 구현될 수도 있고, 또는 펌웨어 및 전용 컴퓨터의 조합 (예를 들어, 전용 컴퓨터를 위한 펌웨어)으로서 구현될 수도 있다. 트레이닝 이미지 저장소(202) 및 데이터-세트 저장소(206)의 각각은 컴퓨터 판독가능 저장 매체에 저장된다. 오프-라인 데이터-세트 생성기(204) 및 온-라인 트랜스코더(208)는 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 판독가능 명령어(computer readable instructions)를 포함할 수 있다.

도 3 은 오프-라인 데이터-세트 생성기(204)의 기능 구성요소들을 도시하고, 도 4는 온-라인 트랜스코더(208)의 기능 구성요소들을 도시한다. 이들 기능 구성요소들은 펌웨어, 또는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 소프트웨어 코드를 포함하는 유닛을 포함할 수 있다. 이들 컴퓨터 판독가능 매체들은, 본 발명의 실시예의 방법들의 단계들을 수행하고 시스템(200)의 기능 구성요소들을 형성하는 명령어를 포함하고, 컴퓨터 메모리, DVD, CD-ROM, 플로피 등을 포함할 수 있다. 또는, 시스템은 통신 네트워크에 의해서 연결된 복수개의 컴퓨팅 노드들을 포함할 수 있으며, 각각의 노드는 이하에서 설명하는 바와 같이 단말 상의 디스플레이를 위하여 입력 이미지를 출력 이미지로 트랜스코딩하기 위한 프로세서 및 컴퓨터 판독가능 저장 매체를 포함할 수 있다.

도 3 에 도시된 오프-라인 데이터-세트 생성기(204)는 컴퓨터 판독가능 저장 매체에 저장되고 프로세서에 의해서 실행되는 컴퓨터 판독가능 명령어들을 포함한다. 오프-라인 데이터-세트 생성기(204) 이미지 특징 추출 유닛(302), 제1 퀄리티-인식 파라미터 선택 유닛(304), 트랜스코딩 유닛(306) 및 퀄리티 평가 유닛(308)을 포함한다. 이미지 특징 추출 유닛(302)은 트레이닝 이미지 L 을 획득하고 그 특징을 추출하며, 이러한 특징에는 트레이닝 이미지에 대한 인코딩의 정확도를 특징짓는 퀄리티 팩터 QF(L), 이미지 파일 크기 S(L), 이미지 폭 W(L) 및 이미지 높이 H(L)가 포함되고, 이러한 특징들은 제1 퀄리티-인식 파라미터 선택 유닛(304)으로 제공된다. S(L)은 트레이닝 이미지의 인코딩 동안에 수행되는 압축 후에 획득되는 파일 크기이며, 이하에서 이미지 파일 크기라고 칭한다. 트레이닝 이미지 L 의 특징들에 추가해서, 제1 퀄리티-인식 파라미터 선택 유닛(304)은 파라미터 QF(I), smax 및 zV를 사용하고, 트랜스코딩 유닛(306)에 의해서 산출된 트랜스코딩된 트레이닝 이미지뿐만 아니라 퀄리티 평가 유닛(308)에 의해서 계산되는 퀄리티 메트릭도 사용한다. zV는 출력 이미지에 대한 뷰잉 컨디션에 기인한 이미지 해상도의 변화를 특징짓는 뷰잉 스케일링 팩터이며, 한편 smax는 트랜스코딩 이후에 획득되는 이미지의 상대적인 크기를 특징짓는다. smax의 계산을 포함하여 이들 파라미터에 대한 추가적인 설명은 본 문서에서 후술한다. 제1 퀄리티-인식 파라미터 선택 유닛(304)은 특정한 단말 특성 및 트레이닝 이미지 L의 특징에 해당하는 최적의 트랜스코딩 파라미터들의 세트를 결정한다. 최적의 트랜스코딩 파라미터는, 트레이닝 이미지 L에 대하여 최고 퀄리티의 트랜스코딩된 트레이닝 이미지를 산출하는 최적의 퀄리티의 트랜스코딩에 해당하는 스케일링 팩터 및 퀄리티 팩터를 포함한다. 제1 퀄리티-인식 파라미터 선택 유닛(304)은 또한 이러한 최고 퀄리티 트랜스코딩된 이미지에 대한 퀄리티 메트릭을 결정한다. 이러한 최적의 트랜스코딩 파라미터 및 퀄리티 메트릭을 트레이닝 이미지 세트 T 의 트레이닝 이미지들의 특정 서브셋에 대하여 사용함으로써, 해당 서브셋에 대한 평균 이미지 퀄리티 메트릭 QA, 및 평균 최적 퀄리티 팩터 QFA과 평균 최적 스케일링 팩터 zA를 포함하는 평균 최적 파라미터 값들이 계산될 수 있다. 이러한 트레이닝 이미지들의 서브셋은, 예를 들어, 특정한 퀄리티 팩터를 가지는 트레이닝 이미지들에 해당할 수 있다. 제1 퀄리티-인식 파라미터 선택 유닛(304)은 평균 이미지 퀄리티 메트릭 QA 및 평균 최적 트랜스코딩 파라미터를 결정하는 계산 수단을 제공하는 프로세서상에서 실행되는 컴퓨터 판독가능 명령어들을 포함하는 과정(procedure) 또는 기능(function)을 포함할 수 있다. 제1 퀄리티-인식 파라미터 선택 유닛(304)은 반복(iteration) 마다 트랜스코딩 퀄리티 팩터 QFT 및 트랜스코딩 스케일링 팩터 zT 를 선택하는 반복적인 방법(iterative method)(뒤에서 상세히 후술될 것임)을 사용한다. 제1 퀄리티-인식 파라미터 선택 유닛(304)으로부터의 zT 및 QFT 는 트랜스코딩 유닛(306)에 의해 사용되어 입력 트레이닝 이미지 L 을 프로세싱할 수 있다. 다음으로, 트랜스코딩 유닛(306)은, 제1 압축해제 및 스케일링 유닛(310) 및 압축 유닛(312)을 포함한다. 제1 압축해제 및 스케일링 유닛(310)은 트레이닝 이미지 L 을 입력으로서 수신해서 제1 퀄리티-인식 파라미터 선택 유닛(304)에 의해서 산출된 zT 를 적용하여 트레이닝 이미지 L에 대한 압축해제 및 스케일링을 수행할 수 있다. 제1 압축해제 및 스케일링 유닛(310)의 출력은, 제1 퀄리티-인식 파라미터 선택 유닛(304)에 의해서 생성된 트랜스코딩 퀄리티 팩터 QFT를 적용하는 압축 유닛(312)에 의해서 사용되어, 퀄리티 평가 유닛(308)의 입력으로 도시되는 트랜스코딩된 트레이닝 이미지 J가 산출된다. 퀄리티 평가 유닛(308)은 제2 압축해제 및 스케일링 유닛(314), 제3 압축해제 및 스케일링 유닛(318) 및 퀄리티 메트릭 계산 유닛(316)을 포함한다. 트랜스코딩 유닛(306)의 출력인 트랜스코딩된 트레이닝 이미지 J와 트레이닝 이미지 L 양자 모두는 퀄리티 평가 이전에 스케일링된다. 트레이닝 이미지 L과 그 트랜스코딩된 버전, 즉, 출력 이미지에 대한 뷰잉 컨디션에 기인한 이미지 해상도의 변화를 특징짓는 뷰잉 스케일링 팩터 zV에 대해서 트랜스코딩된 (트랜스코딩 스케일링 팩터 zT를 사용하여 트랜스코딩된) 트레이닝 이미지 J를 비교하는 퀄리티 메트릭을 다음과 같이 정의한다.

QzV(L,J)=SSIM(R(L,zV),R(J,zV/zT))

여기서, SSIM 은 두 이미지의 유사성을 비교하기 위해 사용되는 구조적 유사성 인덱스이며, 예를 들어, Zhou Wang, Alan Conrad Bovik, Hamid Rahim Sheikh 및 Eero P. Simoncelli 에 의한, "Image quality assessment: from error visibility to structural similarity," (IEEE Transactions on Image Processing, volumn 13, number 4, pages 600-612, April, 2004) 문서에서 정의된다. R(I,z)는 I 를 압축해제하고 스케일링 팩터 z 를 사용하여 스케일링하는 연산자이다. 이러한 정의 및 도 3 에 따르면, 동일한 이미지 해상도들에 대해서, 다음의 수식이 만족해야 한다.

zV=zT*zR

여기서, 퀄리티를 비교할 때에 오리지널 이미지의 해상도를 증가시키고자 하지 않기 때문에 zV≤1 이고, zT≤1 는 단말의 특성에 의해 주어지는 제약들을 만족하기 위하여 필요하다. 뷰잉 스케일링 팩터 zV (zT≤zV≤1) 에 의하여 제어되는 출력 이미지에 대한 뷰잉 컨디션은, 사용자가 트랜스코딩 동작의 결과를 인지(perception)하는 데에 중요한 역할을 한다. 예를 들어, zV=1 인 경우에, 오리지널 입력 트레이닝 이미지 L 의 해상도에서 이미지들을 비교하고,

zR=1/zT 이다.

zT<zV<1 인 경우에, 오리지널 트레이닝 이미지와 트랜스코딩된 트레이닝 이미지 J 의 해상도 사이의 해상도에서 이미지들을 비교한다. 퀄리티 메트릭 계산 유닛(316)은 프로세서상에서 실행되는 컴퓨터 판독가능 명령어를 포함하는 과정 또는 기능을 포함하므로, SSIM 인덱스를 결정하는 계산 수단을 제공할 수 있다. 제2 압축해제 및 스케일링 유닛(314)은 스케일링 팩터 zR 를 사용해서 트랜스코딩된 트레이닝 이미지 J 를 스케일링하여 이미지 J' 를 산출하고, 제3 압축해제 및 스케일링 유닛(318)은 뷰잉 스케일링 팩터 zV 를 사용해서 입력 트레이닝 이미지 L을 스케일링하여 이미지 L' 를 산출한다. 퀄리티 메트릭 계산 유닛(316) 이미지 J' 및 L' 을 취해서 이들 두 이미지들을 사용하여 SSIM 인덱스를 결정하고 퀄리티 메트릭 QzV(L', J')을 산출하여 퀄리티-인식 파라미터 선택 유닛(304)에게로 건네준다.

오프-라인 데이터-세트 생성기(204)에 의해 사용되는 트레이닝 이미지 저장소(202) 및 오프-라인 데이터-세트 생성기(204) 및 온-라인 트랜스코더(208) 양자 모두에 의하여 사용되는 데이터-세트 저장소(206) 기능 구성요소들의 각각은 컴퓨터 저장 매체, 예를 들어, 메모리, 디스크, DVD, CD-ROM, 플로피 등을 포함한다. 또는, 트레이닝 이미지 저장소(202) 및 데이터-세트 저장소(206)는, 컴퓨터 판독가능 매체에 저장된 명령어들을 실행하는 프로세서 및 컴퓨터 저장 매체가 장착되고, 인터페이스를 통해서 (도 2 에 도시한 바와 같은) 다른 시스템 구성요소와 접속되는 독립적인 컴퓨터를 포함할 수도 있다. 이러한 연결은 로컬 범위일 수도 있고 또는 인터넷 범위일 수도 있으며, 트레이닝 이미지 저장소(202) 또는 데이터-세트 저장소(206)를 위한 컴퓨터가 원격 위치(remote location)에 존재할 수 있다.

도 4 에 도시된 온-라인 트랜스코더(208)는 프로세서에 의해 실행되고 컴퓨터 판독가능 매체에 저장되는 컴퓨터 판독가능 명령어들을 포함한다. 온-라인 트랜스코더(208)는 이미지 특징 추출 유닛(302), 최적 파라미터 예측 유닛(402), 제2 퀄리티-인식 파라미터 선택 유닛(404) 및 트랜스코딩 유닛(306)을 포함한다. 이미지 특징 추출 유닛(302) 및 트랜스코딩 유닛(306)은 오프-라인 데이터-세트 생성기(204)에서 사용되는 것들과 정확하게 동일하다. 단지 차이점은, 오프-라인 데이터 생성기(204)의 맥락에서 사용되는 트레이닝 이미지들의 트랜스코딩과는 반대로, MMS 메시지로부터의 입력 이미지의 트랜스코딩을 적용한다는 것이다. 이미지 특징 추출 유닛(302)은 트랜스코딩될 입력 이미지 I 의 특징을 추출하고 추출된 특징들을 최적 파라미터 예측 유닛(402) 및 제2 퀄리티-인식 파라미터 선택 유닛(404) 상으로 전달한다. 이러한 특징들은, 입력 이미지에 대한 인코딩의 정확도를 특징짓는 퀄리티 팩터 QF(I), 이미지 파일 크기 S(I), 이미지 폭 W(I), 및 이미지 높이 H(I)를 포함한다. 입력 이미지의 특징들을 사용해서, 최적 파라미터 예측 유닛(402)은 데이터-세트 저장소(206)에 저장된 데이터-세트로부터 평균 최적 트랜스코딩 파라미터를 회수(retrieving)하고 이를 제2 퀄리티-인식 파라미터 선택 유닛(404)에게 전달한다. 이미지의 트랜스코딩은 반복적인 프로세스이고, 트랜스코딩된 이미지가 단말 특성에 의해서 주어지는 제약을 만족하는 경우에 중지된다. 최적 파라미터 예측 유닛(402), 제2 퀄리티-인식 파라미터 선택 유닛(404) 및 트랜스코딩 유닛(306)은 이러한 반복 프로세스에서 상호 협력한다. 제2 퀄리티-인식 파라미터 선택 유닛(404)은 트랜스코딩 유닛(306)에 의해서 사용되는 트랜스코딩 파라미터들을 생성하는 것을 책임진다. 제2 퀄리티-인식 파라미터 선택 유닛(404)은 최적 파라미터 예측 유닛(402)에 의해서 회수된 정보 및 트랜스코딩 유닛(306)에 의해서 산출되는 트랜스코딩된 이미지의 특성들을 사용한다. 최적 파라미터 예측 유닛(402)으로부터 획득된 파라미터 값들은 트랜스코딩 동작을 수행하는 트랜스코딩 유닛(306) 상으로 전달된다. 트랜스코딩된 이미지는 출력 이미지의 크기를 체크하여 반복이 중지되어야 하는지 여부를 결정하는 제2 퀄리티-인식 파라미터 선택 유닛(404)으로 전달된다. 반복의 "상태(status)"에 대한 이러한 결정은 최적 파라미터 예측 유닛(402)으로 전달된다. 반복이 계속되는 경우에, 최적 파라미터 예측 유닛(402)은 데이터-세트로부터 트랜스코딩 파라미터들의 새로운 값을 회수하고 이들을 제2 퀄리티-인식 파라미터 선택 유닛(404)으로 전달한다. 한편, 데이터-세트로부터 출력 이미지의 예측된 퀄리티만이 회수되고 제2 퀄리티-인식 파라미터 선택 유닛(404)으로 전달되어, 이값이 최종 반복(final iteration)에서 사용되는 QFT 및 zT 값뿐만 아니라 (최종 반복에서 산출되는) 출력 이미지와 함께 출력된다. 출력된 이미지는 "근사-최적(near-optimal)" 이라는 용어로 칭할 수 있으며, 이는 데이터-세트에 기록된 평균 최적 값에 가까운 값을 가지는 트랜스코딩 파라미터들에 의해서 산출되기 때문이다. 이러한 "근사-최적" 이미지에 대한 퀄리티 메트릭이 최적의 퀄리티 트랜스코딩으로부터 획득된 출력 이미지에 대한 퀄리티 메트릭과 실제로 가깝다는 것을 보이는 본 시스템에 대한 실험적인 분석은 본 문서에서 후술하여 설명한다.

도 5 에서 나타내는 흐름도(500)를 참조하여, 단말 상에서의 디스플레이를 위하여 입력 이미지를 출력 이미지로 트랜스코딩하는 방법의 단계들을 설명한다. 본 방법은 2 개의 단계를 포함한다. 본 방법의 박스 504에 기재된 단계는, 입력 이미지의 트랜스코딩 이전에, 오직 한 번만 수행되는 반면, 본 방법의 박스 506에 기재된 단계는 입력 이미지의 트랜스코딩 동안에 수행된다. 멀티미디어 스트림에서 이미지를 트랜스코딩하는 데에 사용되는 경우에, 멀티미디어 스트림의 일부인 다중 입력 이미지에 대해서 박스 506의 동작이 계속하여 수행될 수 있다.

시작(502)되면, 흐름도(500)의 과정은 트레이닝 이미지 저장소(202)에 저장된 트레이닝 이미지 세트를 사용하여 평균 최적 트랜스코딩 파라미터 및 단말 특성 및 트레이닝 이미지의 특징들의 다양한 조합에 해당하는 평균 이미지 퀄리티를 포함하는 데이터-세트를 생성한다 (박스 504). 점선으로 표시된 박스는, 그 동작이 MMS 이미지의 트랜스코딩 동작을 수행하기 이전에 오프-라인 데이터-세트 생성기(204)에 의하여 오프-라인으로 수행되는 것임을 의미한다. 데이터-세트의 생성 이후에, (온-라인 트랜스코더(208)에 의해서 수행되는) MMS 메시지의 프로세싱 동안에, 흐름도(500)의 과정은 데이터-세트로부터 트랜스코딩 파라미터를 선택하고(박스 506), 입력 이미지를 트랜스코딩한다. 흐름도(500)의 과정은 박스 506에서 수행되는 동작이 끝나는 때에 마쳐지고, 종료된다(박스 508).

도 6 에서 도시하는 흐름도(600)을 참조하여, 도 5 의 "데이터-세트 생성" (박스 504) 단계에 대하여 추가적으로 설명한다. 흐름도(600)의 과정의 목적은, 고정된 간격(interval)으로 변경되는 값을 가지는 QF(I), smax 및 zV 의 다양한 조합에 대한 이미지 퀄리티 및 최적의 트랜스코딩 파라미터를 생성하는 것이다. 전술한 바와 같이, 파라미터 smax 는 트랜스코딩되는 이미지(예를 들어, 트레이닝 이미지 또는 입력 이미지)의 크기에 비해서 트랜스코딩 이후에 획득된 이미지(예를 들어, 트랜스코딩된 이미지 또는 출력 이미지)의 상대적인 크기를 특징짓는다. 특정 단말에 대해서 트랜스코딩 이후의 이미지에 대한 최대 허용가능한 상대적 크기는 다음과 같이 정의될 수 있다.

smax=min((S(D)/S(I)), 1)

여기서, I 는 트랜스코딩되는 이미지이고 D 는 트랜스코딩된 이미지가 디스플레이되는 단말이다.

시작(602)되면, 흐름도(600)의 과정은 세 개의 파라미터인 QF(I), smax 및 zV 의 초기 조합(initial combination)을 선택한다 (박스 604). 후속하여, 흐름도(600)의 과정은 조합을 위한 최적 트랜스코딩 파라미터 QFA 및 zA 에 대한 평균값을 계산한다 (박스 606). QFA 및 zA 의 값들은 제1 및 제2 행렬에 각각 저장된다(박스 608). 이번 반복에서 사용되는 QF(I), smax 및 zV의 값에 의해서 인덱스되는 제1 및 제2 행렬에서의 위치는 이들 값들을 저장하는 데에 사용된다. 평균 이미지 퀄리티 메트릭인 QA 가 다음으로 계산되고(박스 609) 이번 반복에서 사용되는 QF(I), smax 및 zV 의 값에 의해서 인덱스되는 위치에서 제3 행렬에 저장된다(610). 후속하여, 흐름도(600)의 과정은 QF(I), smax 및 zV 의 더 많은 조합이 고려될 필요가 있는지 여부를 체크한다(박스 611). 그렇다면, 흐름도(600)의 과정은 박스 611 로부터 "예" 로 진행되고, QF(I), smax 및 zV 의 다음 조합을 선택하고(박스 612) 박스 606의 시작으로 되돌아간다. 그렇지 않다면, 흐름도(600)의 과장은 박스 611 로부터 "아니오"로 진행되고 종료된다(박스 614).

도 7 에 도시된 흐름도(700)을 참조하여 도 6 의 방법의 "평균, QFA 및 zA를 계산" (박스 606) 하는 단계에 대하여 설명한다.

시작되면(박스 702), 흐름도(700)의 과정은, 흐름도(600)의 과정에서 선택된 파라미터 조합에 해당하고 단말의 특성에 의해서 주어지는 제약을 나타내는 파라미터 zV 및 smax 를 가져온다(박스 702). 후속하여, 흐름도(700)의 과정은 퀄리티 팩터 QF(I)를 가지는 트레이닝 이미지 세트 T 에서 각각의 트레이닝 이미지를 프로세싱하기 위한 반복을 시작하기를 준비한다. T 로부터의 제1 트레이닝 이미지는 L 에 저장된다(박스 704). L 에 저장된 이미지는 이미지 L 이라고 칭할 수도 있다. 후속하여, L 에 저장된 트레이닝 이미지의 특징을 추출하고(박스 706) 파라미터를 초기화하여(박스 708), 단말 제약을 만족시키기 위해서 L에 저장된 트레이닝 이미지를 트랜스코딩하는 데에 사용되는 QFT 및 zT 의 최상의(best) 값을 계산한다(박스 710). QFT 의 최상의 값인 BestQFT 및 zT 의 최상의 값인 BestzT 는 트레이닝 이미지 세트 T 의 트레이닝 이미지의 최적 퀄리티 트랜스코딩에 해당하는 트랜스코딩 파라미터이고, 아래의 제약조건으로 나타내지는 단말의 특성을 만족하면서 최고의 퀄리티로 트랜스코딩된 트레이닝 이미지를 산출한다.

zT≤zV

S(τ(L, QFT, zT)≤smax

이러한 QFT 및 zT 의 최상의 값들은 저장되고(박스 714) 흐름도(700)의 과정은 T 에서 퀄리티 팩터가 QF(I) 와 동일한 트레이닝 이미지가 더 있는지를 체크한다(박스 716). 그렇다면, 흐름도(700)의 과정은 박스 716 으로부터 "예" 로 진행되고, T 로부터의 다음 이미지를 L 에 저장하고 박스 706 의 시작으로 되돌아간다(박스 712). 그렇지 않다면, 흐름도(700)의 과정은 박스 716 으로부터 "아니오" 로 진행되고, 퀄리티 팩터가 QF(I) 와 동일한 트레이닝 이미지의 서브셋으로부터 평균값, QFA 및 zA 를 계산하여 (박스 718), 이러한 값들을 리턴하고(박스 720) 그리고 종료한다 (박스 722).

최적의 트랜스코딩 파라미터들의 평균 값들은 이하의 방식으로 트레이닝 이미지 세트 T 의 트레이닝 이미지들을 사용함으로써 계산된다.

QFA=(1/N)Σ_L∈ _TQFIQFT_best(L) 및

zA=(1/N)Σ_L∈ _TQFIzT_best(L)

여기서, TQFI 는 퀄리티 팩터가 QF(I)와 동일한 트레이닝 이미지들을 포함하는 T 의 서브셋이고, N 은 이 서브셋의 원소개수(cardinality)이며, QFT_best(L) 및 zT_best(L) 는 전술한 흐름도(600)의 과정의 박스 614 에서의 L 번째 트레이닝 이미지에 대해서 저장된 BestQFT 및 BestzT 이다.

QFA 및 zA 의 계산에서 다른(alternate) 반복 과정이 사용될 수도 있다. 각각의 반복 동안에, 각각의 트레이닝 이미지에 대한 BestQFT 및 BestzT 를 별도로 저장하는 대신에, 아래의 방식과 같이 BestQFT 및 BestzT의 값들이 변수(variable) BestQFTacc 및 BestzTacc 에 누적될 수도 있다.

BestQFTacc=BestQFTacc+BestQFT

BestzT=BestzTacc+BestzT

BestQFT 및 BestzT 의 위와 같은 N 개의 값이 누적되므로,

QFA=BestQFTacc/N

zA=BestzTacc/N 이다.

도 8 에 도시된 흐름도(800)를 참조하여 도 7 의 방법의 "BestQFT 및 BestzT 결정" (박스 710)의 단계에 대하여 더 설명한다. 흐름도(800)의 과정의 단계들에서 zT 및 QFT 가 변경되고 이들 파라미터의 모든 구현가능한(feasible) 조합들이 생성되어, (L 에 저장된) 특정 트레이닝 이미지에 대해서 (J 에 저장된) 트랜스코딩된 트레이닝 이미지에 대한 최적의 퀄리티를 어떤 파라미터 조합이 발생시키는지가 결정된다. 시작되면(박스 802), 흐름도(800)의 과정은 트랜스코딩에 대해서 사용할 수 있는 zT, QFT 의 구현가능한 쌍이 더 존재하는지를 체크함으로써 반복을 시작한다(박스 804). 이러한 쌍이 구현가능(feasible)한 것이기 위해서, zT 는 zV 이하이어야 한다. 추가적으로 구현가능한 zT, QFT 쌍을 이용할 수 있다면, 흐름도(800)의 과정은 박스 804로부터 "예"로 진행되고, 다음 zT, QFT 쌍을 획득한다(박스 806). 그 후, 특정 트레이닝 이미지는, J 에 저장될 트랜스코딩된 트레이닝 이미지로 트랜스코딩된다 (박스 808). 트랜스코딩된 트레이닝 이미지는 이하의 설명에서 J 라고 칭한다. 트랜스코딩된 트레이닝 이미지 J 의 크기가 다음으로 체크된다 (박스 810). 그 크기가 smax 에 의해서 주어지는 크기 제약을 만족하지 않는 경우에는, 흐름도(800)의 과정은 박스 810 으로부터 "아니오" 로 진행되고 박스 804 의 시작으로 되돌아간다. 그렇지 않다면, 과정은 박스 810 으로부터 "예"로 진행되어, L 의 트레이닝 이미지를 압축해제해서, zV 를 스케일링 팩터로서 사용하여, L' 에 저장될 이미지 (L' 으로 칭하여짐)를 산출한다 (박스 812). 다음 단계에서, 흐름도(800)의 과정은 트랜스코딩된 트레이닝 이미지 J 를 압축해제해서, zR 을 스케링일 팩터로서 사용하여, J' 에 저장될 이미지(J' 으로 칭하여짐)를 산출한다 (박스 814). 후속하여, 흐름도(800)의 과정은 SSIM 인덱스를 사용해서 퀄리티 메트릭 QzV(L', J') 를 계산한다 (박스 816). QzV(L', J')의 값이 높을수록 트랜스코딩된 트레이닝 이미지의 퀄리티가 좋아진다. 그 후, QzV(L', J')는, 여태까지 계산된 최고의 퀄리티 메트릭을 포함하는 BestQ 에 저장된 값과 비교된다(박스 818). QzV(L', J')가 BestQ 보다 높다면, 흐름도(800)의 과정은 박스 818로부터 "예"로 진행되고 QzV(L', J'), QFT 및 zT 의 값들을 변수 BestQ, BestQFT 및 BestzT 에 각각 기록하고(박스 820), 박스 804 의 시작으로 되돌아간다. 그렇지 않다면, 흐름도(800)의 과정은 박스(820)의 동작을 건너뛰고(skip), 단지 박스 804 의 시작으로 되돌아간다. 박스 804 에서의 이루어진 테스트의 결과로 거짓(false)이 리턴되면, 체크될 zT, QFT 쌍이 더 이상 존재하지 않고, 과정은 박스 804 로부터 "아니오" 로 진행되어, BestQ, BestQFT 및 BestzT 에 저장된 값을 리턴하고(박스 822) 종료한다(박스 824).

도 9 에 도시되는 흐름도(900)를 참조하여 도 6 에 도시된 "평균, QA 계산" (박스 609) 단계에 대하여 더 설명한다. 시작되면(박스 902), 흐름도(900)의 과정은 트레이닝 이미지 세트 T 로부터 퀄리티 팩터가 QF(I)와 동일한 제1 이미지를 선택한다(박스 904). 다음으로 누적 퀄리티 메트릭(cumulative quality metric)은 0 으로 초기화된다(박스 906). 그 후, 흐름도(900)의 과정은, SSIM 인덱스를 결정하는 함수를 사용함으로써 선택된 트레이닝 이미지에 해당하는 퀄리티 메트릭을 계산하고(박스 908), 이에 따라 누적 퀄리티 메트릭을 업데이트한다(박스 910). 다음으로, T 에서 퀄리티 팩터 QF(I)인 이미지들이 더 있는지 여부가 체크된다(박스 912). 그렇다면, 그러한 퀄리티 팩터를 가진 또 다른 이미지가 T 로부터 선택되고(박스 918), 흐름도(900)의 과정은 박스(908)의 시작으로 되돌아간다. 그렇지 않다면, 흐름도(900)의 과정은 박스 912 로부터 "아니오" 로 진행되고, 누적 퀄리티 메트릭으로부터 QA 의 값을 계산하고(박스 914) 종료한다(박스 916). QA 는 다음과 같이 계산된다.

QA=cumulative quality metric/N

여기서, N 은, 퀄리티 팩터가 QF(I) 인 트레이닝 이미지의 서브셋에서의 트레이닝 이미지들의 개수이다.

도 10 에 도시된 흐름도(1000)를 참조하여 도 9 의 "선택된 트레이닝 이미지에 대한 퀄리티 메트릭을 계산" (박스 908) 단계에 대하여 더 설명한다. 시작되면(박스 1002), 흐름도(1000)의 과정은, QF(I), smax 및 zV 의 값에 의하여 인덱스되는 위치로부터 제1 및 제2 행렬에 각각 저장된 QFO 및 zO의 값을 가져온다(박스 1004). 다음으로 트랜스코딩 파라미터가 결정되며, QFT 는 QFO 로 설정되고 zT 는 zO 로 설정된다(박스 1006). 그 후, 이미지는 QFT 및 zT 의 이들 값들을 사용해서 트랜스코딩된다(박스 1008). 다음으로, 트랜스코딩된 트레이닝 이미지에 대한 파일 크기가 단말에 대해서 너무 큰지 여부가 체크된다(박스 1010). 그렇다면, 흐름도(1000)의 과정은 박스 1010으로부터 "예"로 진행되고, smax 의 값을 제1 및 제2 행렬에서 사용되는 다음으로 작은 값으로 설정하고(박스 1014), 박스 1004 의 시작으로 되돌아간다. 그렇지 않다면, 과정은 박스 1010 으로부터 "아니오"로 진행되고, SSIM 인덱스를 결정하는 함수를 적용함으로써 트랜스코딩된 이미지에 대한 퀄리티 메트릭을 계산하고(박스 1012), 종료한다(박스 1016). 전술한 바와 같이, 트레이닝 이미지와 트랜스코딩된 트레이닝 이미지를 동일한 해상도에서 비교하기 위해, 두 이미지 모두 적절하게 스케일링되어야 한다. 트레이닝 이미지는 zV 를 사용해서 스케일링되는 반면, 트랜스코딩된 트레이닝 이미지는 zR 를 사용함으로써 스케일링되며, zV 및 zR 은 이하의 관계를 만족한다.

zV=zT*zR

도 11에 도시된 흐름도(1100)를 참조하여, 도 5의 "데이터-세트로부터 트랜스코딩 파라미터 선택 및 입력 이미지 트랜스코딩" (박스 506) 단계에 대하여 추가적으로 설명한다. 시작(박스 1101)되면, 흐름도(1100)의 과정은 단말의 특성을 획득하고(박스 1102), 입력 이미지의 특징을 획득한다(박스 1103). 후속하여 smax 및 zV의 값이 다음과 같이 계산된다(박스 1104):

smax=min((S(D)/S(I)), 1) 및

zV=min((W(D)/W(I)), (H(D)/H(I)), 1)

이러한 smax의 값은 특정 단말 D 이미지 I 에 대한 최대 허용가능한 상대적 크기에 해당하는 반면 선택된 zV는 단말에 의해 지원되는 최대 해상도로 연결된다.

트랜스코딩된 이미지에 대해 근접-최적 이미지 퀄리티를 달성하기 위하여 트랜스코딩 파라미터를 결정하기 위한 반복은, QF(I), smax 및 zV에 의해 인덱스된 제1 및 제2 행렬로부터 QFO 및 zO의 값을 판독함으로써 시작된다(박스 1106). 후속하여 QFT는 QFO로 설정되고 zT는 zO로 설정된다(박스 1108). 후속하여 입력 이미지는 QFT와 동일한 퀄리티 팩터 및 스케일링 팩터 zT로 트랜스코딩된다(박스 1112). 다음으로 트랜스코딩된 이미지에 대한 파일의 크기가 체크된다(박스 1114). 크기가 너무 커서 단말의 특성에 의해 주어지는 제약을 만족시킬 수 없다면, 흐름도(1100)의 과정은 박스 1114 로부터 '예'로 진행되고, 제1 및 제2 행렬에서 smax의 다음 작은 값을 식별하고 박스 1106 의 시작으로 되돌아간다. 그렇지 않다면, 흐름도(1100)의 과정은 박스 1114 로부터 '아니오'로 진행하고, 최종 트랜스코딩된 이미지뿐만 아니라 트랜스코딩에서 사용된 zT, QFT의 값 및 예측된 이미지 퀄리티를 리턴하고(박스 1116), 종료된다(1118). 예측된 이미지 퀄리티는 인덱스 변수(index variables)로서 QF(I), smax 및 zV를 사용하여 제3 행렬로부터 단지 회수된다.

본 발명의 실시예에 따른 방법의 중요한 특징은 이미지에 대한 예측된 퀄리티 메트릭의 미리-계산(pre-computing) 및 저장이다. 퀄리티 메트릭의 결정에 사용되는 SSIM 인덱스는 계산 비용이 높기 때문에, 양자화된 파라미터의 인덱스의 배열(array)로 미리-계산되어야만 한다. 이들 양자화된 파라미터는 양자화된 zV, 양자화된 QF(I) 및 양자화된 smax를 포함한다. 파라미터의 양자화는 서로 가까운 파라미터 값들을 그룹화(grouping)하고 이들을 단일 값(single value)으로 나타내는 것으로 연결된다. 미리-계산을 달성하기 위하여, 이미지 트레이닝 세트 T 에서의 이미지가 사용된다. T 에서의 각각의 트레이닝 이미지 L에 대해, 고정된 간격(fixed interval)에서 변경되는 다른 QFT 및 zT를 사용하여 다수의 변환이 적용되고, 트랜스코딩된 트레이닝 이미지에 대한 결과적인 이미지 파일 크기 및 퀄리티 메트릭이 기록되었다. 각각의 트랜스코딩에 대해, 뷰잉 스케일링 팩터 zV에 의해 나타내어지는 뷰잉 컨디션에서, 트랜스코딩된 트레이닝 이미지에 대한 퀄리티 메트릭, QzV(L, T(I, QFT, zT)) 뿐만 아니라, 트레이닝 이미지 L, QF(L), W(L), H(L), S(L), QFT, zT, 뷰잉 스케일링 팩터 zV, 트랜스코딩된 트레이닝 이미지에 대한 결과적인 파일 크기, S(τ(L, QFT, zT)) 를 포함하는 특징 벡터, t 가 형성된다. 모든 이들 벡터가 트랜스코딩된 이미지 세트 U를 형성하게 한다.

양자화된 QF(I), 양자화된 QFT, 양자화된 zT 및 양자화된 zV에 대한, SSIM 인덱스에 기초한 퀄리티 예측은 아래와 같이 주어진다.

SSIM-Q=(1/M)Σ_t∈ _U'SSIM(R(L(t),zV(t)), R(τ(L(t),QFT(t),zT(t)),(zV/zT)))

여기서, U'는 파라미터가 양자화 셀(cells), 양자화된 QF(I), 양자화된 QFT, 양자화된 zT 및 양자화된 zV에 대응(fall in)하는 트랜스코딩된 이미지 세트 U에서 모든 트랜스코딩된 트레이닝 이미지의 서브셋이고, M은 세트 U'의 원소 개수(cardinality)이고, L(t)는 벡터 t로부터 적용된 zT(t) 트랜스코딩 스케일링 팩터, QFT(t) 트랜스코딩 QFT, 및 트레이닝 이미지 L을 리턴한다.

다음으로 이미지 트랜스코딩에서 본 발명의 실시예에 따른 방법 및 시스템을 사용하는 일례가 제공된다. 사용된 데이터-세트는 Proceedings of the 24th Queen's Biennial Symposium on Communications, Queen's University, Kingston, Canada, 2008에서 발표된“Computationally efficient algorithms for predicting the file size of JPEG images subject to changes of quality factor and scaling”에서 Steven Pigeon 및 Stephane Coulombe에 의해 설명된 다수의 이미지들로부터 나온 것이다. 멀티미디어 애플리케이션들로부터 샘플링된(sampled) 일반적인 JPEG 이미지들의 큰 데이터베이스가 이용가능하지 않았기 때문에, 흔히 쓰는(popular) 웹 사이트들로부터 이미지 추출을 위하여 크롤러(crawler)가 개발되었다. 조합된(assembled) 트레이닝 이미지 세트는 수만개의 JPEG 파일들을 포함한다. 손상된(corrupted) 파일이 없고, 모든 메타-데이터(meta-data)(EXIF)가 제거되었다. 제1, 제2 및 제3 행렬을 생성하기 위해, http://www.imagemagick.org/.으로부터 이용가능한 "이미지매직 명령-행 도구(ImageMagick command-line tools)"에서 설명된 이미지매직의 명령 행 도구를 사용하여 각각의 트레이닝 이미지상에서 몇몇 트랜스코딩 동작이 수행되었다. 80의 QF(I)에 해당하는 각각의 행렬의 "슬라이스(slice)"는 도 12 내지 도 14에 나타난다. 이러한 슬라이스는 zV 및 smax에 의해 인덱스된 2-차원 행렬이다. 여기서 제공된 예에서 이들 행렬 슬라이스가 사용된다.

S(D) = 30500, W(D) = 640, H(D) = 480, 및 입력 이미지 I, Lena. with S(I) = 43266, W(I) = 512, H(I) = 512 및 QF(I) = 80.

를 갖는 장치를 고려한다.

이미지 Lena에 관한 정보는 아래로부터 이용가능하다:

http://sipi.usc.edu/database/database.cgi?volume=misc&image=12

http://www.cs.cmu.edu/~chuck/lennapg/

단계 1: smax=min(30500 / 43266 , 1)

0.7 및 zV = min(640 / 512 , 480 / 512 , 1)

90% 를 계산한다.

단계 2: 도 12에 나타난 제1 행렬 슬라이스를 사용하여, QFT = 제1 행렬 슬라이스[0.7, 90%] = 70 (파라미터의 해상도에 대한 69.3의 근사값(rounded value)) 를 산출한다. 제1 행렬 슬라이스는 QF(I) = 80 에 해당하는 2-차원 행렬이다. 이 2-차원 행렬의 행은 smax의 값에 해당하는 반면, 열은 zV의 값에 해당한다.

도 13에 나타난 제2 행렬 슬라이스를 사용하여, zT = 제2 행렬 슬라이스 [0.7, 90%] = 80% 를 산출한다.

제2 행렬 슬라이스는 QF(I) = 80 에 해당하는 2-차원 행렬이다. 이 2-차원 행렬의 행은 smax의 값에 해당하는 반면, 열은 zV의 값에 해당한다.

단계 3: QFT와 동일한 퀄리티 팩터 및 zT와 동일한 스케일링 팩터로 이미지를 트랜스코딩한다.

트랜스코딩 후에, 입력 이미지 대비 0.53의 상대적 이미지 파일 크기를 갖는 출력 이미지가 획득된다.

단계 4: 트랜스코딩된 이미지가 이미지 파일 크기(0.53 < 0.70) 상에서 단말의 특성에 의해 주어지는 제약을 충족시키기 때문에, 단계 5로 간다.

단계 5: 근접-최적 파라미터 QFO = 70 및 zO = 80%, 이들 파라미터를 사용하여 획득되는 출력 이미지, τ(I, 70, 80%), 및 도 14에서 나타난 제3 행렬 슬라이스(제3 행렬 슬라이스 [[0.7, 90%] = 0.84]) 로부터 판독되는 트랜스코딩된 이미지 = 0.84에 대한 예측된 이미지 퀄리티를 리턴한다.

입력 이미지 상에서 최적 퀄리티 트랜스코딩을 수행하는 것은 0.85의 이미지 퀄리티로 연결된다. 그러므로, Lena에 대해서, 근접-최적 퀄리티 (0.84 대 0.85, a

1% 에러)를 갖는 이미지가 획득되었다. 다수의 다른 이미지에 대한 시뮬레이션 실험이 반복되었고, 각각의 실험은 매우 작은 에러를 야기하였다.

본 발명의 실시예들은 다음과 같은 이점을 제공한다:

입력 이미지의 최적 퀄리티 트랜스코딩으로부터 달성되는 것에 근접한 높은 퀄리티의 출력 이미지가 얻어진다.

트랜스코딩에 요구되는 시간이 최적 퀄리티 트랜스코딩에 요구되는 시간에 비교하여 훨씬 작다.

위의 두 가지 이점들로부터, 비슷한 퀄리티의 출력 이미지를 산출하면서 상기 이미지에 의해 최적 퀄리티 트랜스코딩 시스템에 비하여 훨씬 더 높은 MMS 메시지 레이트(rate)가 지속될 수 있다.

얼마나 자주 시스템이 제약을 충족시키는 해결책을 발견할 수 없는지를 가리키는 실패율(faliure rate)이, 어떠한 원하는 낮은 값으로 조절될 수 있다.

비록 본 발명의 특정 실시예들이 구체적으로 설명되었을지라도, 설명된 실시예들은 예시적인 것이고 한정적인 것이 아님이 이해되어야 한다. 본 발명의 범위를 벗어나지 않으면서 더 넓은 측면에서 명세서에서 설명되고 도면에서 보여진 실시예들의 다양한 변형 및 수정이 다음의 청구항의 범위 내에서 이루어질 수 있다. 예를 들어, 본 문서에서 설명된 SSIM 외의 퀄리티 메트릭들이 이미지 퀄리티의 측정에 사용될 수 있다. 비록 본 출원에서 나타난 논의가 주로 JPEG에 초점을 맞추었을지라도, 본 발명의 실시예들에 따른 방법 및 시스템은, GIF(Graphic Interchange Format) 및 PNG(Portable Network Graphics)와 같은, 다른 포맷으로 인코딩되는 디지털 이미지들을 처리하도록 조정될 수 있다. 예를 들어 GIF 이미지의 경우에, 입력 이미지를 출력 이미지로 트랜스코딩하는 방법 및 시스템에서, 이미지에서의 컬러의 수는 QF(I), QFT 및 QFA 대신에 사용될 필요가 있다.

비록 본 발명의 실시예들이 구체적으로 설명되었을지라도, 실시예들에 대한 변형 및 수정이 다음의 청구항의 범위 내에서 이루어질 수 있음은, 발명이 속한 분야의 기술자에게 명백하다.

202: 트레이닝 이미지 저장소 204: 오프-라인 데이터-세트 생성기
206: 데이터-세트 저장소 208: 온-라인 트랜스코더

Claims

단말(terminal) 상에서의 디스플레이를 위하여 입력 이미지를 출력 이미지로 트랜스코딩하는 방법에 있어서,
(a1) 상기 트랜스코딩에 앞서, 상기 단말의 특성을 만족시키면서, 각각의 트레이닝 이미지(training image)에 대한 최고 퀄리티 트랜스코딩된 트레이닝 이미지를 산출하기 위하여, 트레이닝 이미지 세트 T 에서 트레이닝 이미지의 한 세트의 최적 퀄리티 트랜스코딩을 수행함으로써 생성되는 트랜스코딩 파라미터를 포함하는 데이터-세트를 생성하는 단계;
(b1) 상기 입력 이미지의 특징을 추출하고 상기 단말의 상기 특성을 획득하는 단계;
(c1) 상기 (b1) 단계에서 추출된 상기 입력 이미지의 상기 특징 및 상기 단말의 상기 특성을 사용하여 상기 (a1) 단계에서 생성된 상기 데이터-세트로부터 상기 트랜스코딩 파라미터를 선택하는 단계; 및
(d1) 상기 (c1) 단계에서 선택된 상기 트랜스코딩 파라미터를 사용하여 상기 입력 이미지를 상기 출력 이미지로 트랜스코딩하는 단계를 포함하는
트랜스코딩 방법.
제1 항에 있어서,
상기 (a1) 단계는,
상기 단말의 특성 및 상기 입력 이미지의 특징의 조합에 해당하는 트랜스코딩 파라미터를 포함하는 데이터-세트를 생성하는 단계를 포함하는
트랜스코딩 방법.
제1 항 또는 제2 항에 있어서,
상기 (b1) 단계는,
상기 입력 이미지에 대한 인코딩 정확도(fidelity)를 특징짓는 퀄리티 팩터 QF(I), 이미지 파일 크기 S(I), 이미지 폭 W(I), 및 이미지 높이 H(I)를 포함하는 상기 입력 이미지의 상기 특징을 추출하는 단계를 포함하는
트랜스코딩 방법.
제1 항 내지 제3 항 중 어느 한 항에 있어서,
상기 트랜스코딩 파라미터를 선택하는 상기 (c1) 단계는,
상기 출력 이미지에 대한 인코딩 정확도를 특징짓는 트랜스코딩 퀄리티 팩터 QFT 및 상기 트랜스코딩에 기인한 이미지 해상도에서의 변화를 특징짓는 트랜스코딩 스케일링 팩터 zT 를 선택하는 단계를 포함하는
트랜스코딩 방법.
제1 항 내지 제4 항 중 어느 한 항에 있어서,
상기 (a1) 단계에서 생성된 상기 데이터-세트는 N 다-차원 행렬을 포함하고,
상기 N 다-차원 행렬은,
상기 트레이닝 이미지 세트 T 로부터 상기 트레이닝 이미지의 하나 이상의 서브셋에 대해 평균 최적 퀄리티 팩터 QFA 를 저장하는 제1 행렬 - 여기서, 각각의 QFA 는, 상기 트레이닝 이미지의 각각의 서브셋에서 상기 트레이닝 이미지의 상기 최적 퀄리티 트랜스코딩 동안 사용되는 상기 QFT 의 평균으로 결정됨.-;
상기 트레이닝 이미지의 하나 이상의 서브셋에 대해 평균 최적 스케일링 팩터 zA 를 저장하는 제2 행렬 - 여기서, 각각의 zA 는, 상기 트레이닝 이미지의 각각의 서브셋에서 상기 트레이닝 이미지의 상기 최적 퀄리티 트랜스코딩 동안 사용되는 상기 zT 의 평균으로 결정됨.-; 및
상기 트레이닝 이미지의 하나 이상의 서브셋에 대해 평균 이미지 퀄리티 메트릭 QA 를 저장하는 제3 행렬 - 여기서, 각각의 QA 는, 상기 트레이닝 이미지의 각각의 서브셋에 대해, 상기 최적 퀄리티 트랜스코딩 동안 생성된 각각의 최고 퀄리티 트랜스코딩된 트레이닝 이미지와 상기 트레이닝 이미지 사이의 유사 정도(degree of similarity)를 가리키는 퀄리티 메트릭의 평균으로 결정됨.-
중 하나 이상을 포함하는
트랜스코딩 방법.
제5 항에 있어서,
각각의 행렬은,
상기 입력 이미지의 상기 퀄리티 팩터 QF(I)를 가리키는 제1 인덱스;
상기 출력 이미지에 대한 뷰잉 컨디션(viewing conditions)에 기인한 이미지 해상도에서의 변화를 특징짓는 뷰잉 스케일링 팩터(viewing scaling factor) zV 를 가리키는 제2 인덱스; 및
상기 입력 이미지 대비 상기 출력 이미지의 상대적인 크기를 특징짓는 최대 상대 이미지 크기 "smax"를 가리키는 제3 인덱스
중 둘 이상의 인덱스에 의해 인덱스되는
트랜스코딩 방법.
제6 항에 있어서,
상기 (a1) 단계는,
(a7) 상기 QF(I), 상기 zV 및 상기 "smax"의 조합을 선택하는 단계;
(a7-ⅰ) 상기 zV 및 상기 "smax"의 상기 선택된 조합에 대해, 퀄리티 팩터가 QF(I)와 동일한 상기 트레이닝 이미지의 서브셋을 사용하여 상기 평균 최적 스케일링 팩터 zA 및 상기 평균 최적 퀄리티 팩터 QFA를 생성하는 단계;
(a7-ⅱ) 상기 QF(I), 상기 zV 및 상기 "smax"의 상기 선택된 조합에 의해 인덱스된 위치에서, 상기 제1 행렬에 상기 QFA 및 상기 제2 행렬에 상기 zA 를 저장하는 단계; 및
(a7-ⅲ) 미리 결정된 간격(intervals)에서 상기 QF(I), 상기 zV 및 상기 "smax"를 변경하고, 상기 QF(I), 상기 zV 및 상기 "smax"의 모든 조합이 사용될 때까지, 상기 (a7) 단계를 포함하여, 상기 (a7)과 상기 (a7-ⅲ) 사이의 단계들을 반복하는 단계를 더 포함하는
트랜스코딩 방법.
제7 항에 있어서,
(a8-ⅰ) 상기 zV 및 상기 "smax"의 상기 선택된 조합에 대해, 상기 트레이닝 이미지의 상기 서브셋에서 각각의 트레이닝 이미지에 대해 상기 최고 퀄리티 트랜스코딩된 트레이닝 이미지에 대한 상기 퀄리티 메트릭을 결정하는 것을 포함하여, 퀄리티 팩터가 QF(I)와 동일한 상기 트레이닝 이미지의 서브셋을 사용하여 상기 평균 이미지 퀄리티 메트릭 QA을 생성하는 단계; 및
(a8-ⅱ) 상기 QF(I), 상기 zV 및 상기 "smax"의 상기 선택된 조합에 의해 인덱스된 위치에서 상기 제3 행렬에 상기 QA를 저장하는 단계를 포함하고,
상기 (a8-ⅰ) 및 상기 (a8-ⅱ) 단계들은 상기 (a7) 단계 후 및 상기 (a7-ⅲ) 단계 전에 수행되는
트랜스코딩 방법.
제7 항 또는 제8 항에 있어서,
상기 (a7-ⅰ) 단계는,
(a9) 상기 트레이닝 이미지의 상기 서브셋에서의 각각의 트레이닝 이미지에 대해, 상기 최고 퀄리티 트랜스코딩된 트레이닝 이미지를 산출하는 상기 트랜스코딩 스케일링 팩터 zT 및 상기 트랜스코딩 퀄리티 팩터 QFT 를 결정하는 단계; 및
(b9) 상기 (a9) 단계에서 결정된 상기 트레이닝 이미지에 대한 상기 트랜스코딩 스케일링 팩터 zT 및 상기 트랜스코딩 퀄리티 팩터 QFT를 사용하여 상기 평균 최적 스케일링 팩터 zA 및 상기 평균 최적 퀄리티 팩터 QFA 를 결정하는 단계를 더 포함하는
트랜스코딩 방법.
제9 항에 있어서,
상기 (a9) 단계는,
(a10) 상기 트랜스코딩 스케일링 팩터 zT 및 상기 트랜스코딩 퀄리티 팩터 QFT의 조합을 포함하는 상기 트랜스코딩 파라미터를 선택하는 단계;
(a10-ⅰ) 상기 QFT 및 상기 zT의 상기 선택된 조합에 대해, 상기 트랜스코딩된 트레이닝 이미지를 산출하기 위해 상기 트레이닝 이미지를 트랜스코딩하는 단계;
(a10-ⅱ) 상기 트레이닝 이미지와 상기 트랜스코딩된 트레이닝 이미지 사이의 유사 정도를 가리키는, 상기 (a10-ⅰ) 단계에서 생성된 상기 트랜스코딩된 트레이닝 이미지에 대한 퀄리티 메트릭을 결정하는 단계;
(a10-ⅲ) 미리 결정된 간격에서 상기 QFT 및 상기 zT를 변경하고, 상기 QFT 및 상기 zT의 모든 조합이 사용될 때까지, 상기 (a10) 단계를 포함하여, 상기 (a10)에서 상기 (a10-ⅲ) 사이의 단계들을 반복하는 단계; 및
(a10-ⅳ) 상기 (a10-ⅱ) 단계에서 상기 최고 퀄리티 메트릭을 산출했던 상기 QFT 및 상기 zT를 선택하는 단계를 더 포함하는
트랜스코딩 방법.
제10 항에 있어서,
상기 (a10-ⅰ) 단계는,
(a11) 상기 선택된 스케일링 팩터 zT를 적용하여 상기 트레이닝 이미지를 압축해제 및 스케일링하는 단계; 및
(b11) 상기 선택된 퀄리티 팩터 QFT를 적용하여 상기 (a11) 단계에서 산출된 상기 압축해제 및 스케일링된 트레이닝 이미지를 압축하는 단계를 더 포함하는
트랜스코딩 방법.
제10 항 또는 제11 항에 있어서,
상기 (a10-ⅱ) 단계는,
(12a) 이미지 J'을 산출하기 위해 재-스케일링 팩터 zR을 적용하여 상기 트랜스코딩된 트레이닝 이미지를 압축해제 및 스케일링하는 단계;
(12b) 이미지 L'를 산출하기 위해 상기 뷰잉 스케일링 팩터 zV를 적용하여 상기 트랜스코딩된 트레이닝 이미지를 압축해제 및 스케일링하는 단계; 및
(12c) 상기 이미지 J' 및 L' 각각을 사용하여 상기 트레이닝 이미지와 상기 트랜스코딩된 트레이닝 이미지 사이의 유사 정도를 가리키는 상기 퀄리티 메트릭을 생성하는 단계를 더 포함하는
트랜스코딩 방법.
제12 항에 있어서,
상기 zR은 zV/zT와 동일하고,
상기 (12c) 단계는, 상기 이미지 J' 및 상기 이미지 L'를 사용하여 구조적 유사성(Structural SIMilarity)(SSIM) 인덱스를 결정하는 단계를 포함하는
트랜스코딩 방법.
제8 항 내지 제13 항 중 어느 한 항에 있어서,
상기 (a8-ⅰ) 단계는,
(a15) 상기 제1 행렬에 저장된 상기 평균 최적 퀄리티 팩터 QFA 및 상기 제2 행렬에 저장된 상기 평균 최적 스케일링 팩터 zA를 회수하는(retrieving) 단계;
(a15-ⅰ) 상기 트랜스코딩된 트레이닝 이미지를 산출하기 위해 상기 (a15) 단계에서 회수된 상기 QFA 및 상기 zA를 사용하여 상기 트레이닝 이미지를 트랜스코딩하는 단계;
(a15-ⅱ) 상기 트랜스코딩된 트레이닝 이미지가 상기 단말의 상기 특성을 만족시키는지 여부를 결정하는 단계;
(a15-ⅲ) 상기 트랜스코딩된 트레이닝 이미지가 상기 단말의 상기 특성을 만족시킬 때까지 상기 제1 및 제2 행렬에서 이용가능한 "smax"의 다음으로 작은 값(next smaller value)으로, 상기 (a15) 단계를 포함하여, 상기 (a15)에서 상기 (a15-ⅲ) 사이의 단계들을 반복하는 단계; 및
(b15) 상기 단말의 상기 특성을 만족시키는 (a15-ⅰ) 단계에서 생성된 상기 트랜스코딩된 트레이닝 이미지의 상기 퀄리티 메트릭을 결정하는 단계를 더 포함하는
트랜스코딩 방법.
제6 항 내지 제14 항 중 어느 한 항에 있어서,
상기 (d1) 단계는,
(a17) 상기 단말의 상기 특성 및 상기 (b1) 단계에서 추출된 상기 입력 이미지의 상기 특징, QF(I), S(I), W(I) 및 H(I)를 사용하여 상기 zV 및 상기 "smax"를 결정하는 단계;
(b17) 상기 (a17) 단계에서 결정된 상기 zV 및 상기 "smax", 및 상기 (b1) 단계에서 회수된 상기 QF(I)에 의해 인덱스된 상기 제2 행렬에 저장된 상기 평균 최적 스케일링 팩터 zA 및 상기 제1 행렬에 저장된 상기 평균 최적 퀄리티 팩터 QFA를 회수하는 단계;
(b17-ⅰ) 상기 출력 이미지를 산출하기 위해, 상기 트랜스코딩 퀄리티 팩터 QFT 및 상기 트랜스코딩 스케일링 팩터 zT 각각에 따라, 상기 (b17) 단계에서 회수된 상기 QFA 및 상기 zA를 사용하여 상기 입력 이미지를 트랜스코딩하는 단계;
(b17-ⅱ) 상기 출력 이미지가 상기 단말의 상기 특성을 만족시키는지 여부를 체크하는 단계;
(b17-ⅲ) 상기 출력 이미지가 상기 단말의 상기 특성을 만족시킬 때까지 상기 제1 및 제2 행렬에서 이용가능한 "smax"의 다음으로 작은 값으로, 상기 (b17) 단계를 포함하여, 상기 (b17)에서 상기 (b17-ⅲ) 사이의 단계들을 반복하는 단계; 및
(c17) 상기 단말의 상기 특성을 만족시키는 상기 (b17-ⅰ) 단계에서 생성된 상기 출력 이미지에 해당하는 상기 QF(I), 상기 smax 및 상기 zV에 의해 인덱스된 위치에서 상기 제3 행렬에 저장된 상기 평균 이미지 퀄리티 QA를 회수하는 단계를 더 포함하는
트랜스코딩 방법.
제6 항 내지 제15 항 중 어느 한 항에 있어서,
상기 단말의 상기 특성은 상기 최대 이미지 파일 크기 S(D), 단말 폭 W(D) 및 단말 높이 H(D)를 포함하고,
(a18) 상기 zV를 (W(D)/W(I)), (H(D)/H(I)) 및 1 중 최소로 설정하는 단계; 및
(b18) 상기 "smax"를 (S(D)/S(I)) 및 1 중 최소로 설정하는 단계를 더 포함하는
트랜스코딩 방법.
단말(terminal) 상에서의 디스플레이를 위하여 입력 이미지를 출력 이미지로 트랜스코딩하는, 프로세서(processor) 및 컴퓨터 판독가능 저장 매체(computer readable storage medium)를 갖는 시스템에 있어서,
(a24) 트레이닝 이미지를 포함하는 트레이닝 이미지 세트 T 를 포함하는, 상기 컴퓨터 판독가능 매체에 저장된 트레이닝 이미지 저장소;
(b24) 상기 입력 이미지의 상기 트랜스코딩에 앞서 상기 트레이닝 이미지 세트 T 로부터 상기 트레이닝 이미지의 한 세트의 최적 퀄리티 트랜스코딩에 의해 생성되는 트랜스코딩 파라미터를 포함하는 데이터-세트를 생성하고, 상기 단말의 특성을 만족시키면서, 각각의 트레이닝 이미지에 대한 최고 퀄리티 트랜스코딩된 트레이닝 이미지를 산출하는, 상기 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 판독가능 명령어(computer readable instructions)를 포함하는 오프-라인 데이터-세트 생성기;
(c24) 상기 오프-라인 데이터-세트 생성기(b24)에 의해 산출된 상기 데이터-세트를 저장하는, 컴퓨터 판독가능 저장 매체에 저장된 데이터-세트 저장소; 및
(d24) 상기 입력 이미지의 특징 및 상기 단말의 특성을 사용하여, 상기 데이터-세트 저장소(c24)에 저장된 상기 데이터-세트로부터 상기 트랜스코딩 파라미터를 선택하고, 상기 선택된 트랜스코딩 파라미터를 사용하여 상기 입력 이미지를 상기 출력 이미지로 트랜스코딩하는, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 판독가능 명령어를 포함하는 온-라인 트랜스코더를 포함하는
트랜스코딩 시스템.
제17 항에 있어서,
상기 데이터-세트는, 상기 단말의 상기 특성 및 상기 입력 이미지의 특징의 조합에 해당하는 트랜스코딩 파라미터를 포함하고,
상기 트랜스코딩 파라미터는, 상기 출력 이미지에 대한 인코딩 정확도를 특징짓는 트랜스코딩 퀄리티 팩터 QFT 및 상기 트랜스코딩에 기인한 이미지 해상도에서의 변화를 특징짓는 트랜스코딩 스케일링 팩터 zT 를 포함하는
트랜스코딩 시스템.
제18 항에 있어서,
상기 데이터-세트는 N 다-차원 행렬을 포함하고,
상기 N 다-차원 행렬은,
상기 트레이닝 이미지 세트 T 로부터 트레이닝 이미지의 하나 이상의 서브셋에 대해 평균 최적 퀄리티 팩터 QFA 를 저장하는 제1 행렬 - 여기서, 각각의 QFA는, 상기 트레이닝 이미지의 각각의 서브셋에서 트레이닝 이미지의 상기 최적 퀄리티 트랜스코딩 동안 사용되는 상기 QFT 의 평균으로 결정됨.-;
트레이닝 이미지의 하나 이상의 서브셋에 대해 평균 최적 스케일링 팩터 zA 를 저장하는 제2 행렬 - 여기서, 각각의 zA 는, 상기 트레이닝 이미지의 각각의 서브셋에서 트레이닝 이미지의 상기 최적 퀄리티 트랜스코딩 동안 사용되는 상기 zT 의 평균으로 결정됨.-; 및
상기 트레이닝 이미지의 하나 이상의 서브셋에 대해 평균 이미지 퀄리티 메트릭 QA 을 저장하는 제3 행렬 - 여기서, 각각의 QA 는, 트레이닝 이미지의 각각의 서브셋에 대해, 상기 최적 퀄리티 트랜스코딩 동안 생성된 해당 최고 퀄리티 트랜스코딩된 트레이닝 이미지와 상기 트레이닝 이미지 사이의 유사 정도를 가리키는, 퀄리티 메트릭의 평균으로 결정됨.-
중 하나 이상을 포함하는
트랜스코딩 시스템.
제19 항에 있어서,
각각의 행렬은,
상기 입력 이미지에 대한 인코딩 정확도를 특징짓는 퀄리티 팩터 QF(I)를 가리키는 제1 인덱스;
상기 출력 이미지에 대한 뷰잉 컨디션에 기인한 이미지 해상도에서의 변화를 특징짓는 뷰잉 스케일링 팩터 zV 를 가리키는 제2 인덱스; 및
상기 입력 이미지 대비 상기 출력 이미지의 상대적인 크기를 특징짓는 최대 상대 이미지 크기 "smax"를 가리키는 제3 인덱스
중 둘 이상의 인덱스에 의해 인덱스되는
트랜스코딩 시스템.
제17 항 내지 제20 항 중 어느 한 항에 있어서,
상기 오프-라인 데이터-세트 생성기(b24)는,
(a29) 상기 트레이닝 이미지 세트 T 에서 트레이닝 이미지의 특징을 추출하는 이미지 특징 추출 유닛;
(b29) 상기 QFT 및 상기 zT를 선택하고, 상기 이미지 특징 추출 유닛(a29)에 의해 추출된 특징을 사용하여 상기 평균 최적 퀄리티 팩터 QFA 및 상기 평균 최적 스케일링 팩터 zA를 결정하는 제1 퀄리티-인식 파라미터 선택 유닛;
(c29) 상기 제1 퀄리티-인식 파라미터 선택 유닛(b29)에 의해 선택된 상기 QFT 및 상기 zT를 사용하여 상기 트레이닝 이미지를 트랜스코딩된 트레이닝 이미지로 트랜스코딩하는 트랜스코딩 유닛; 및
(d29) 상기 트랜스코딩 유닛(c29)에 의하여 생성된 상기 트랜스코딩된 트레이닝 이미지에 대한 상기 퀄리티 메트릭을 결정하는 퀄리티 평가 유닛 - 여기서, 상기 퀄리티 메트릭은, 상기 트레이닝 이미지와 상기 트랜스코딩된 트레이닝 이미지 사이의 유사 정도를 가리킴.- 을 포함하는
트랜스코딩 시스템.
제21 항에 있어서,
상기 트랜스코딩 유닛(c29)은,
(a31) 상기 스케일링 팩터 zT를 상기 트레이닝 이미지에 적용하여 압축해제 및 스케일링된 트레이닝 이미지를 산출하는 압축해제 및 스케일링 유닛; 및
(b31) 상기 트랜스코딩 퀄리티 팩터 QFT를 상기 압축해제 및 스케일링된 트레이닝 이미지에 적용하여 상기 트랜스코딩된 트레이닝 이미지를 산출하는 압축 유닛을 포함하는
트랜스코딩 시스템.
제21 항 또는 제22 항에 있어서,
상기 퀄리티 평가 유닛(d29)은,
(a32) 재-스케일링 팩터 zR을 적용하여 상기 트랜스코딩된 트레이닝 이미지를 압축해제 및 스케일링하는 제2 압축해제 및 스케일링 유닛;
(b32) 상기 뷰잉 스케일링 팩터 zV를 적용하여 상기 트레이닝 이미지를 압축해제 및 스케일링하는 제3 압축해제 및 스케일링 유닛; 및
(c32) 상기 트랜스코딩된 트레이닝 이미지에 대한 상기 퀄리티 메트릭을 계산하는 퀄리티 메트릭 계산 유닛을 포함하는
트랜스코딩 시스템.
제23 항에 있어서,
상기 퀄리티 메트릭 계산 유닛(c32)은,
상기 트레이닝 이미지와 상기 트랜스코딩된 트레이닝 이미지 사이의 유사성을 가리키는 구조적 유사성(SSIM) 인덱스를 결정하기 위한 계산 수단을 포함하는
트랜스코딩 시스템.
제1 항 내지 제16 항 중 어느 한 항의 방법을 수행하기 위하여, 컴퓨터에 의해 실행될 때, 컴퓨터 판독가능 프로그램 코드 명령어가 저장된,
컴퓨터 판독가능 저장 매체.