WO2023163494A1

WO2023163494A1 - 전자 장치 및 그 제어 방법

Info

Publication number: WO2023163494A1
Application number: PCT/KR2023/002496
Authority: WO
Inventors: 김욱형; 함철희; 김남욱; 바이잘아난트; 구자윤; 조일현
Original assignee: 삼성전자주식회사
Priority date: 2022-02-23
Filing date: 2023-02-22
Publication date: 2023-08-31

Abstract

전자 장치가 개시된다. 전자 장치는, 학습된 신경망 모델을 저장하는 메모리 및 입력 영상을 학습된 신경망 모델에 입력하여 입력 영상의 품질 스코어, 입력 영상에 포함된 픽셀 별 품질 스코어 및 픽셀 별 ROI(Region of Interst) 스코어를 획득하는 프로세서를 포함하며, 학습된 신경망 모델은, 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득하는 제1 신경망 모듈, 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득하는 제2 신경망 모듈, 제1 특징 정보 및 제2 특징 정보가 결합된 제3 특징 정보에 기초하여 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는 제3 신경망 모듈, 제1 특징 정보 및 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 픽셀 별 ROI 스코어를 획득하는 제4 신경망 모듈 및 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어에 기초하여 입력 영상의 품질 스코어를 획득하는 연산 모듈을 포함한다.

Description

전자 장치 및 그 제어 방법

본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 학습된 신경망 모델을 이용하여 영상의 품질 평가를 수행하는 전자 장치 및 그 제어 방법에 관한 것이다.

전자 기술의 발달에 힘입어 다양한 유형의 전자 기기가 개발 및 보급되고 있다. 특히, 이미지/비디오의 품질을 향상시키기 위하여 이미지/비디오의 품질을 평가하는 방법이 개발되고 있다. 일반적으로 이러한 품질 평가는 전문가를 통해 수행하는 것이 가장 정확하지만, 시간 및 비용이 많이 필요하다는 문제가 있다.

이러한 문제를 극복하기 위하여 인공 지능 기반의 이미지/비디오 품질 평가 방법 역시 발전하고 있으나, 이러한 인공 지능 기반의 품질 평가 기술은 이미지 또는 비디오 프레임(frame) 단위로만 품질 평가가 진행되고, 이미지 또는 비디오 내 픽셀 별(pixel-by-pixel) 품질 평가가 진행되지 않기 때문에 픽셀 별로 화질을 개선하는 다양한 어플리케이션들(예를 들어, Super-Resolution, Denoise, Deblur)에 활용되기 어렵다는 문제가 있다.

또한, 픽셀 별 품질 평가를 수행할 수 있는 인공 지능 모델을 학습시키기 위하여 각 이미지 프레임 내 픽셀 별 품질을 평가한 데이터 셋(data set)이 필요하나, 이러한 데이터 셋을 확보하기 위하여 많은 시간 및 비용이 필요하다는 문제가 있다.

이상과 같은 목적을 달성하기 위한 일 실시 예에 따른 전자 장치는, 학습된 신경망 모델을 저장하는 메모리 및 입력 영상을 상기 학습된 신경망 모델에 입력하여 상기 입력 영상의 품질 스코어, 상기 입력 영상에 포함된 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI(Region of Interst) 스코어를 획득하는 프로세서를 포함하며, 상기 학습된 신경망 모델은, 상기 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득하는 제1 신경망 모듈, 상기 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득하는 제2 신경망 모듈, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는 제3 신경망 모듈, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 상기 픽셀 별 ROI 스코어를 획득하는 제4 신경망 모듈 및 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 연산 모듈을 포함할 수 있다.

여기서, 상기 제1 특징 정보는, 상기 입력 영상에 포함된 에지(Edge) 정보 및 노이즈(Noise) 정보 중 적어도 하나를 포함하며, 상기 제2 특징 정보는, 상기 입력 영상에 포함된 오브젝트에 대한 정보를 포함할 수 있다.

여기서, 상기 연산 모듈은, 상기 입력 영상에 포함된 제1 픽셀에 대응되는 제1 품질 스코어 및 상기 제1 픽셀에 대응되는 제1 ROI 스코어를 곱하여 제1 값을 획득하고, 상기 입력 영상에 포함된 제2 픽셀에 대응되는 제2 품질 스코어 및 상기 제2 픽셀에 대응되는 제2 ROI 스코어를 곱하여 제2 값을 획득하고, 상기 제1 값 및 제2 값의 평균 값에 기초하여 상기 입력 영상의 품질 스코어를 획득할 수 있다.

또한, 상기 학습된 신경망 모델은, 학습 이미지 및 상기 학습 이미지의 품질 스코어가 입력됨에 따라 상기 학습된 신경망 모델로부터 출력되는 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고, 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어를 상기 제3 신경망 모듈 및 상기 제4 신경망 모듈로 피드백하여 비지도 학습될 수 있다.

여기서, 상기 학습된 신경망 모델은, 상기 연산 모듈을 통해 상기 출력된 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고, 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 제3 신경망 모듈에 포함된 복수의 신경망 레이어에 대응되는 가중치 및 상기 제4 신경망 모듈에 포함된 복수의 신경망 레이어에 대응되는 가중치 중 적어도 하나를 업데이트하여 비지도 학습될 수 있다.

또한, 상기 제1 신경망 모듈은, 상기 입력 영상의 사이즈와 동일한 사이즈의 제1 특징 데이터를 출력하고, 상기 제2 신경망 모듈은, 상기 입력 영상의 사이즈보다 축소된 사이즈의 제2 특징 데이터를 출력할 수 있다.

또한, 상기 학습된 신경망 모델은, 상기 제2 특징 데이터를 제1 압축 방식에 따라 압축하는 제1 압축 모듈, 상기 제2 특징 데이터를 상기 제1 특징 데이터와 동일한 사이즈로 업스케일링하는 업스케일링 모듈 및 상기 제1 특징 데이터 및 상기 업스케일링된 제2 특징 데이터를 결합하는 결합 모듈을 포함하며, 상기 제3 신경망 모듈은, 상기 결합 모듈로부터 출력되는 상기 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득할 수 있다.

여기서, 상기 학습된 신경망 모델은, 상기 제2 특징 데이터를 제2 압축 방식에 따라 압축하는 제2 압축 모듈, 상기 제2 특징 데이터를 상기 제1 특징 데이터와 동일한 사이즈로 업스케일링하는 업스케일링 모듈 및 상기 제1 특징 데이터 및 상기 업스케일링된 제2 특징 데이터를 결합하는 결합 모듈을 포함하며, 상기 제4 신경망 모듈은, 상기 결합 모듈로부터 출력되는 상기 제4 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 ROI 스코어를 획득할 수 있다.

또한, 상기 제1 신경망 모듈 내지 제4 신경망 모듈 각각은, 복수의 신경망 레이어를 포함하며, 상기 제1 신경망 모듈의 출력 레이어로부터 출력되는 상기 제1 특징 정보 및 상기 제2 신경망 모듈의 출력 레이어로부터 출력되는 상기 제2 특징 정보가 결합된 상기 제3 특징 정보는, 상기 제3 신경망 모듈의 입력 레이어로 입력되고, 상기 제1 신경망 모듈의 출력 레이어로부터 출력되는 상기 제1 특징 정보 및 상기 제2 신경망 모듈의 출력 레이어로부터 출력되는 상기 제2 특징 정보가 결합된 상기 제4 특징 정보는, 상기 제4 신경망 모듈의 입력 레이어로 입력될 수 있다.

한편, 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 입력 영상을 학습된 신경망 모델에 입력하여 상기 입력 영상의 품질 스코어, 상기 입력 영상에 포함된 픽셀 별 품질 스코어, 상기 픽셀 별 ROI(Region of Interst) 스코어를 획득하는 단계를 포함하며, 상기 학습된 신경망 모델은, 제1 신경망 모델, 제2 신경망 모델, 제3 신경망 모델, 제4 신경망 모델 및 연산 모듈을 포함하며, 상기 획득하는 단계는, 상기 제1 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득하는 단계, 상기 제2 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득하는 단계, 상기 제3 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는 단계, 상기 제4 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 상기 픽셀 별 ROI 스코어를 획득하는 단계 및 상기 연산 모듈에 의해, 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 단계를 포함할 수 있다.

여기서, 상기 입력 영상의 품질 스코어를 획득하는 단계는, 상기 입력 영상에 포함된 제1 픽셀에 대응되는 제1 품질 스코어 및 상기 제1 픽셀에 대응되는 제1 ROI 스코어를 곱하여 제1 값을 획득하는 단계, 상기 입력 영상에 포함된 제2 픽셀에 대응되는 제2 품질 스코어 및 상기 제2 픽셀에 대응되는 제2 ROI 스코어를 곱하여 제2 값을 획득하는 단계 및 상기 제1 값 및 상기 제2 값의 평균 값에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 단계를 포함할 수 있다.

여기서, 상기 학습된 신경망 모델은, 학습 이미지 및 상기 학습 이미지의 품질 스코어가 입력됨에 따라 상기 학습된 신경망 모델로부터 출력되는 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고, 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어를 상기 제3 신경망 모듈 및 상기 제4 신경망 모듈로 피드백하여 비지도 학습될 수 있다.

여기서, 상기 학습된 신경망 모델은, 상기 연산 모듈을 통해 상기 출력된 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고, 상기 분리된 픽셀 별 품질 스코어 및 상기 분리된 픽셀 별 ROI 스코어의 크기에 기초하여 상기 제3 신경망 모듈 및 상기 제4 신경망 모듈의 가중치를 업데이트하여 비지도 학습될 수 있다.

또한, 상기 제1 특징 정보를 획득하는 단계는, 상기 입력 영상의 사이즈와 동일한 사이즈의 제1 특징 데이터를 획득하고, 상기 2 특징 정보를 획득하는 단계는, 상기 입력 영상의 사이즈보다 축소된 사이즈의 제2 특징 데이터를 획득할 수 있다.

여기서, 상기 획득하는 단계는, 제1 압축 모듈에 의해, 상기 제2 특징 데이터를 제1 압축 방식에 따라 압축하는 단계, 업스케일링 모듈에 의해, 상기 제2 특징 데이터를 상기 제1 특징 데이터와 동일한 사이즈로 업스케일링하는 단계 및 결합 모듈에 의해, 상기 제1 특징 데이터 및 상기 업스케일링된 제2 특징 데이터를 결합하는 단계를 더 포함하며, 상기 픽셀 별 품질 스코어를 획득하는 단계는, 상기 결합 모듈로부터 출력되는 상기 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득할 수 있다.

여기서, 상기 획득하는 단계는, 제2 압축 모듈에 의해, 상기 제2 특징 데이터를 제2 압축 방식에 따라 압축하는 단계, 업스케일링 모듈에 의해, 상기 제2 특징 데이터를 상기 제1 특징 데이터와 동일한 사이즈로 업스케일링하는 단계 및 결합 모듈에 의해, 상기 제1 특징 데이터 및 상기 업스케일링된 제2 특징 데이터를 결합하는 단계를 더 포함하며, 상기 픽셀 별 ROI 스코어를 획득하는 단계는, 상기 결합 모듈로부터 출력되는 상기 제4 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 ROI 스코어를 획득할 수 있다.

한편, 전자 장치의 프로세서에 의해 실행되는 경우 상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서, 상기 동작은, 입력 영상을 학습된 신경망 모델에 입력하여 상기 입력 영상의 품질 스코어, 상기 입력 영상에 포함된 픽셀 별 품질 스코어, 상기 픽셀 별 ROI(Region of Interst) 스코어를 획득하는 단계를 포함하며, 상기 학습된 신경망 모델은, 제1 신경망 모델, 제2 신경망 모델, 제3 신경망 모델, 제4 신경망 모델 및 연산 모듈을 포함하며, 상기 획득하는 단계는, 상기 제1 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득하는 단계, 상기 제2 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득하는 단계, 상기 제3 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는 단계, 상기 제4 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 상기 픽셀 별 ROI 스코어를 획득하는 단계 및 상기 연산 모듈에 의해, 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 단계를 포함할 수 있다.

도 1은 일 실시 예에 따른 입력 영상의 품질 스코어를 획득하는 방법을 개략적으로 설명하기 위한 도면이다.

도 2는 일 실시 예에 따른 전자 장치의 구성을 나타내는 블록도이다.

도 3a는 학습된 신경망 모델을 이용하여 입력 영상의 품질 스코어를 획득하는 방법을 설명하기 위한 도면이다.

도 3b는 일 예에 따른 학습된 신경망 모델 내 존재하는 복수의 모듈의 세부 구성을 설명하기 위한 도면이다.

도 4는 일 실시 예에 따른 픽셀 별 품질 스코어를 획득하는 방법을 설명하기 위한 도면이다.

도 5는 일 실시 예에 따른 픽셀 별 ROI 스코어를 획득하는 방법을 설명하기 위한 도면이다.

도 6a 및 6b는 일 실시 예에 따른 입력 영상의 품질 스코어를 획득하는 방법을 설명하기 위한 도면이다.

도 7a 내지 7d는 일 실시 예에 따른 신경망 모델을 학습시키는 방법을 설명하기 위한 도면이다.

도 8은 일 실시 예에 따른 전자 장치의 세부 구성을 설명하기 위한 도면이다.

도 9는 일 실시 예에 따른 입력 영상의 품질 스코어를 획득하는 방법을 설명하기 위한 흐름도이다.

이하에서는 첨부 도면을 참조하여 본 개시를 상세히 설명한다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.

본 개시의 실시 예에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 개시의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.

본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

A 또는/및 B 중 적어도 하나라는 표현은 "A" 또는 "B" 또는 "A 및 B" 중 어느 하나를 나타내는 것으로 이해되어야 한다.

본 명세서에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.

또한, 본 명세서에서 'DNN(deep neural network)'은 뇌 신경을 모사한 인공신경망 모델의 대표적인 예시로써, 특정 알고리즘을 사용한 인공신경망 모델로 한정되지 않는다.

또한, 본 명세서에서 '파라미터'는 뉴럴 네트워크를 이루는 각 레이어의 연산 과정에서 이용되는 값으로서 예를 들어, 입력 값을 소정 연산식에 적용할 때 이용되는 가중치를 포함할 수 있다. 또한, 파라미터는 매트릭스 형태로 표현될 수 있다. 파라미터는 훈련의 결과로 설정되는 값으로서, 필요에 따라 별도의 훈련 데이터(training data)를 통해 갱신될 수 있다.

이하 첨부된 도면들을 참조하여 본 개시의 일 실시 예를 보다 상세하게 설명한다.

본 개시의 일 실시 예에 따른 전자 장치는 학습된 신경망 모델(또는, 인공 신경망)을 이용하여 입력 영상(또는, 이미지 프레임)의 품질 스코어를 획득하도록 구현될 수 있다. 예를 들어, 입력 영상의 품질 스코어(50)는 영상 전체의 전반적인 질을 나타내는 MOS(Mean Opinion Score, MOS)일 수 있다. 일 예에 따라, 품질 스코어는 영상 각각에 대응되는 상대적인 품질 평가 점수로, 정규화된 값, 예를 들어 0~5 사이의 값을 가질 수 있으나 이에 한정되는 것은 아니다.

한편, 학습된 신경망 모델은 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 파라미터(parameters)(또는 복수의 가중치(weight values))를 포함하며, 이전(previous) 레이어의 연산 결과와 복수의 파라미터들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 복수의 신경망 레이어들에 포함된 파라미터들은 학습된 신경망 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 학습된 신경망 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 파라미터(또는, 가중치)들이 갱신될 수 있다.

인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.

도 1에 따르면, 일 실시 예에 따른 전자 장치는 영상(10)이 입력되면, 이를 학습된 신경망 모델에 입력하여 입력된 영상(10)의 픽셀 별 품질 스코어(20, 또는 pMOS(pixel-by-pixel-Mean-Opinion-Score)) 및 픽셀 별 ROI(Region-of-Interest, 또는 관심 영역) 스코어(30)을 획득할 수 있다.

여기서, 픽셀 별 품질 스코어(20)는 입력된 영상의 픽셀 각각에 대응되는 품질 평가 점수이고, 픽셀 별 ROI 스코어(30)는 입력된 영상 내 픽셀 각각이 관심 영역(ROI)에 해당할 확률 값에 대한 정보일 수 있다. 예를 들어, 픽셀 별 품질 스코어(20) 및 픽셀 별 ROI 스코어(30)는 상대적인 값일 수 있으나, 반드시 이에 한정되는 것은 아니다.

한편, 일 예에 따라 도 1에 도시된 바와 같이 학습된 신경망 모델의 출력은 픽셀 별 품질 스코어(20) 및 픽셀 별 ROI 스코어(30)를 나타내는 이미지를 포함하는 이미지 정보로서 획득될 수도 있다. 예를 들어, 품질 스코어 크기 및 ROI 스코어 크기는 픽셀의 밝기 예를 들어, 그레이 스케일 값에 비례할 수 있다. 예를 들어, 밝기가 클수록 품질 스코어 및 ROI 스코어가 상대적으로 클 수 있으나, 이에 한정되는 것은 아니다. 다만, 다른 예에 따라 각 픽셀 별 위치에 대응되는 품질 스코어 및 ROI 스코어가 숫자 형태로 획득될 수 있음은 물론이다.

이 후, 일 실시 예에 따라, 전자 장치는 픽셀 별 품질 스코어(20) 및 픽셀 별 ROI 스코어(30)가 학습된 신경망 모델 내 연산 모듈(40)을 통해 연산된 결과에 기초하여 입력 영상의 품질 스코어(50)을 획득할 수 있다.

이하에서는, 신경망 모델의 학습 방법 및 학습된 신경망 모델을 이용하여 입력 영상의 픽셀 별 품질 스코어, 픽셀 별 ROI 스코어 및 입력 영상의 품질 스코어를 획득하는 구체적인 방법을 포함하는 다양한 실시 예에 대해 설명하도록 한다.

도 2에 따르면, 전자 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다.

전자 장치(100)는 서버, 예를 들어, 컨텐츠 제공 서버, PC 등 컨텐츠를 제공할 수 있는 다양한 타입의 장치로 구현될 수 있다. 또는 전자 장치(100)는 클라우딩 컴퓨팅 환경이 구축된 시스템 자체일 수도 있다. 다만, 이에 한정되는 것은 아니며, 전자 장치(100)는 TV, 셋톱 박스(Set-top box), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer) 등 영상을 입력받아 처리하는 다양한 유형의 영상 처리 장치로 구현될 수도 있음은 물론이다.

일 예에 따라 전자 장치(100)는 다양한 압축 영상 또는 다양한 해상도의 영상을 수신할 수 있다. 예를 들어, 전자 장치(100)는 MPEG(Moving Picture Experts Group)(예를 들어, MP2, MP4, MP7 등), JPEG(joint photographic coding experts group), AVC(Advanced Video Coding), H.264, H.265, HEVC(High Efficiency Video Codec) 등으로 압축된 형태로 영상을 수신할 수 있다. 또는 전자 장치(100))는 SD(Standard Definition), HD(High Definition), Full HD, Ultra HD 영상 중 어느 하나의 영상을 수신할 수 있다.

메모리(110)는 본 개시의 다양한 실시 예를 위해 필요한 데이터를 저장할 수 있다. 메모리(110)는 데이터 저장 용도에 따라 전자 장치(100)에 임베디드된 메모리 형태로 구현되거나, 전자 장치(100)에 탈부착이 가능한 메모리 형태로 구현될 수도 있다. 예를 들어, 전자 장치(100)의 구동을 위한 데이터의 경우 전자 장치(100)에 임베디드된 메모리에 저장되고, 전자 장치(100)의 확장 기능을 위한 데이터의 경우 전자 장치(100)에 탈부착이 가능한 메모리에 저장될 수 있다. 한편, 전자 장치(100)에 임베디드된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현될 수 있다. 또한, 전자 장치(100)에 탈부착이 가능한 메모리의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결 가능한 외부 메모리(예를 들어, USB 메모리) 등과 같은 형태로 구현될 수 있다.

일 예에 따라, 메모리(110)는 전자 장치(100)를 제어하기 위한 적어도 하나의 인스트럭션(instruction) 또는 인스트럭션들을 포함하는 컴퓨터 프로그램을 저장할 수 있다

다른 예에 따라, 메모리(110)는 복수의 레이어를 포함하는 학습된 신경망 모델에 관한 정보를 저장할 수 있다. 여기서, 신경망 모델에 관한 정보를 저장한다는 것은 신경망 모델의 동작과 관련된 다양한 정보, 예를 들어 신경망 모델에 포함된 복수의 레이어에 대한 정보, 복수의 레이어 각각에서 이용되는 파라미터, 바이어스 등에 대한 정보 등을 저장한다는 것을 의미할 수 있다. 다만, 후술하는 프로세서(120)의 구현 형태에 따라 신경망 모델에 관한 정보가 프로세서(120)의 내부 메모리에 저장될 수 있음은 물론이다. 예를 들어, 프로세서(120)가 전용 하드웨어로 구현되는 경우, 신경망 모델에 관한 정보는 프로세서(120) 내부 메모리에 저장될 수도 있다.

또 다른 예에 따라, 메모리(110)는 외부 장치(예를 들어, 소스 장치), 외부 저장 매체(예를 들어, USB), 외부 서버(예를 들어 웹 하드) 등으로부터 수신된 영상(또는, 이미지)을 저장할 수 있다. 여기서, 영상은 디지털 동영상이 될 수 있으나 이에 한정되는 것은 아니다.

적어도 하나의 프로세서(120)(이하, 프로세서)는 메모리(110)와 전기적으로 연결되어 전자 장치(100)의 전반적인 동작을 제어한다. 프로세서(120)는 하나 또는 복수의 프로세서로 구성될 수 있다. 구체적으로, 프로세서(120)는 메모리(110)에 저장된 적어도 하나의 인스트럭션을 실행함으로써, 본 개시의 다양한 실시 예에 따른 전자 장치(100)의 동작을 수행할 수 있다.

일 실시 예에 따라 프로세서(120)는 디지털 영상 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), GPU(Graphics Processing Unit), AI(Artificial Intelligence) 프로세서, NPU (Neural Processing Unit), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(140)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, ASIC(application specific integrated circuit), FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.

일 실시 예에 따라 프로세서(120)는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(120)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다.

또한, 일 실시 예에 따른 인공 지능 모델(또는, 신경망 모델)을 실행하기 위한 프로세서(120)는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공 지능 전용 프로세서와 소프트웨어의 조합을 통해 구현될 수 있다.

프로세서(120)는, 메모리(110)에 저장된 기 정의된 동작 규칙 또는 신경망 모델에 따라, 입력 데이터를 처리하도록 제어할 수 있다. 또는, 프로세서(130)가 전용 프로세서(또는 인공 지능 전용 프로세서)인 경우, 특정 인공 지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다. 예를 들어, 특정 인공 지능 모델의 처리에 특화된 하드웨어는 ASIC, FPGA 등의 하드웨어 칩으로 설계될 수 있다. 프로세서(130)가 전용 프로세서로 구현되는 경우, 본 개시의 실시 예를 구현하기 위한 메모리를 포함하도록 구현되거나, 외부 메모리를 이용하기 위한 메모리 처리 기능을 포함하도록 구현될 수 있다.

일 실시 예에 따라, 프로세서(120)는 입력 영상(또는, 이미지)을 학습된 신경망 모델에 입력하여 입력 영상의 품질 스코어, 입력 영상에 포함된 픽셀 별 품질 스코어 및 픽셀 별 ROI(Region of Interst) 스코어를 획득할 수 있다. 이에 대하여는 하기의 도 3a 및 3b를 통해 자세히 설명하도록 한다.

도 3a에 따르면, 일 실시 예에 따른 학습된 신경망 모델(200)은 제1 신경망 모듈(또는, 제1 모듈, 210), 제2 신경망 모듈(또는, 제2 모듈, 220), 제3 신경망 모듈(230)(또는, 제3 모듈, 230), 제4 신경망 모듈(또는, 제4 모듈, 240) 및 연산 모듈(290)을 포함할 수 있다. 제1 신경망 모듈 내지 제4 신경망 모듈 및 연산 모듈(290) 각각은 복수의 신경망 레이어를 포함할 수 있다. 여기서, 각 신경망 모듈 내에 포함된 복수의 신경망 레이어들 각각은 복수의 파라미터를 포함하며, 학습된 신경망 모델은 이전 레이어의 연산 결과와 복수의 파라미터들 간의 연산을 통해 신경망 연산을 수행할 수 있다.

먼저, 일 실시 예에 따라 제1 신경망 모듈(210)의 입력 레이어로 영상(10)이 입력되면, 제1 신경망 모듈(210)은 입력 영상(10)에 포함된 픽셀 별 제1 특징 정보를 출력할 수 있다. 여기서, 제1 신경망 모듈(210)은 입력 영상(10)의 로컬 피쳐(local feature), 예를 들어 영상 내에 존재하는 에지(edge) 또는 포인트(point)과 같은 노이즈(noise)를 추출하는 모듈이다. 일 예에 따라, 제1 특징 정보는 입력 영상(10)에 포함된 에지(Edge) 정보 및 노이즈(Noise) 정보 중 적어도 하나를 포함할 수 있다.

한편, 일 실시 예에 따라, 제2 신경망 모듈(220)의 입력 레이어로 영상(10)이 입력되면, 제2 신경망 모듈(220)은 입력 영상(10)에 포함된 픽셀 별 제2 특징 정보를 출력할 수 있다. 여기서, 제2 신경망 모듈(220)은 입력 영상(10)의 하이 레벨 피쳐(high-level feature)를 추출하는 모듈이다. 일 예에 따라, 제2 특징 정보는, 입력 영상 내에 식별된 오브젝트의 카테고리(또는 타입) 정보 및 오브젝트의 외형 정보 등의 특징 정보를 포함할 수 있다. 즉, 제1 신경망 모듈(210)은 입력 영상(10)의 윤곽선, 점과 같은 로컬 특징을 추출하고, 제2 신경망 모듈(220)은 입력 영상(10) 내에 존재하는 오브젝트 카테고리 및 오브젝트의 식별 가능한 외형 정보 등과 같이 상대적으로 의미가 있는 하이 레벨 특징을 출력할 수 있다.

일 예에 따라 제2 신경망 모듈(220)은 InceptionResNetV2에서 일부 레이어가 변경된 신경망 모델이 될 수 있다. InceptionResNetV2은 입력 영상(10) 내에 존재하는 오브젝트, 예를 들어 키보드, 마우스, 연필 및 동물을 포함하는 1000여가지 사물을 특정 범주로 분류(classify)하는 학습된 신경망 모델로서, 입력 영상 내에 존재하는 오브젝트의 카테고리 및 오브젝트의 식별 가능한 외형 등의 특징을 추출할 수 있다. 제2 신경망 모듈(220)에 대하여는 도 4를 통해 자세히 기술하도록 한다.

한편, 일 실시 예에 따라 제1 신경망 모듈(210)의 출력 레이어로부터 출력되는 제1 특징 정보 및 제2 신경망 모듈(220)의 출력 레이어로부터 출력되는 제2 특징 정보가 결합된 제3 특징 정보는, 제3 신경망 모듈(230)의 입력 레이어로 입력될 수 있다. 이 후 제3 신경망 모듈(230)은 입력된 제3 특징 정보에 기초하여 입력 영상(10)에 포함된 픽셀 별 품질 스코어를 획득할 수 있다. 여기서, 제3 신경망 모듈(230)은 추출된 입력 영상(10)의 특징 정보를 이용하여 입력 영상(10) 내 픽셀 각각에 대응되는 품질 평가 점수를 출력하는 신경망 모듈이다. 한편, 일 예에 따라 제3 특징 정보는 제1 특징 정보와 제2 특징 정보가 연속적으로 결합된 정보로서, 학습된 신경망 모델 내 존재하는 결합 모듈(미도시)을 통해 결합될 수 있다. 이에 대하여는 도 4를 통해 자세히 설명하도록 한다.

한편, 일 실시 예에 따라 제1 신경망 모듈(210)의 출력 레이어로부터 출력되는 제1 특징 정보 및 제2 신경망 모듈(220)의 출력 레이어로부터 출력되는 제2 특징 정보가 결합된 제4 특징 정보는, 제4 신경망 모듈(240)의 입력 레이어로 입력될 수 있다. 이 후 제4 신경망 모듈(240)은 입력된 제4 특징 정보에 기초하여 입력 영상(10)에 포함된 픽셀 별 ROI 스코어를 획득할 수 있다. 여기서, 제4 신경망 모듈(240)은 추출된 입력 영상(10)의 특징 정보를 이용하여 입력 영상(10)의 관심 영역(ROI)를 추출하고, 추출된 관심 영역(ROI)에 기초하여 픽셀 별 ROI 스코어를 추출하는 모듈이다. 한편, 일 예에 따라 제4 특징 정보는 제1 특징 정보와 제2 특징 정보가 연속적으로 결합된 정보로서, 학습된 신경망 모델 내 존재하는 결합 모듈(미도시)을 통해 결합될 수 있다. 이에 대하여는 도 4를 통해 자세히 설명하도록 한다.

이 후, 일 실시 예에 따라 연산 모듈(290)은 제3 신경망 모듈(230)로부터 획득된 픽셀 별 품질 스코어 및 제4 신경망 모듈(240)로부터 획득된 픽셀 별 ROI 스코어에 기초하여 입력 영상의 품질 스코어를 획득할 수 있다. 일 예에 따라, 연산 모듈(290)은 영상 내 픽셀 각각에 대응되는 품질 스코어 및 ROI 스코어를 곱하여 제1 값을 획득하고, 획득된 영상 내 픽셀 각각의 제1 값의 대표 값(예를 들어, 평균 값, 최대 값, 최소 값 등)을 입력 이미지의 품질 스코어로 출력할 수 있다. 이에 따라 프로세서(120)는 입력 영상의 픽셀 별 품질 스코어, 픽셀 별 ROI 스코어 및 입력 영상의 품질 스코어를 획득할 수 있게 된다.

도 3b는 일 예에 따른 학습된 신경망 모델의 세부 구성을 설명하기 위한 도면이다.

학습된 신경망 모델(200)은 복수의 신경망 모듈(210 내지 280)을 포함하며, 복수의 신경망 모듈 각각에 포함된 복수의 신경망 레이어들 각각은 복수의 파라미터를 포함한다. 각각의 신경망 모듈은 이전 레이어의 연산 결과와 복수의 파라미터들 간의 연산을 통해 신경망 연산을 수행할 수 있다. 한편, 학습된 신경망 모델은 예를 들어, CNN 기반의 VDSR 기술(Jiwon Kim, et al., Accurate Image Super-Resolution Using Very Deep Convolutional Networks, CVPR 2016), EDSR(Enhanced Deep Residual Networks for Single Image Super-Resolution), DRCN(Deeply-Recursive Convolutional Network for Image Super-Resolution." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.), MDSR(Multi-scale deep super-resolution system) 등이 이용될 수 있으나, 이에 한정되는 것은 아니다.

본 개시의 일 실시 예에 따르면, 복수의 신경망 모듈(210 내지 280)은 각 신경망 모듈 내 포함된 임의의 레이어를 통해 신경망 연산 처리를 수행할 수 있다. 예를 들어, CNN (Convolutional Neural Network)에 포함된 각 컨벌루션 레이어(Convolution Layer)는 입력 데이터에 대해 한 개 이상의 필터(또는 커널)를 적용할 수 있다. 만약 임의의 컨벌루션 레이어에서 n 개의 필터가 적용된다면 출력 데이터는 n 개의 채널을 가질 수 있다. 여기서, 필터는 n*n 형태가 될 수 있다. 예를 들어 도 3b에 도시된 바와 같이 특정 컨벌루션 레이어에서 3*3 형태의 필터가 16개 적용되는 경우, 출력 데이터의 채널 개수는 16개가 될 수 있다. 한편, 일 예에 따라 도 3b의 conv(n)에서 n은 출력되는 채널의 개수를 의미할 수 있다.

일 예에 따라, 각각의 신경망 모듈은 임의의 레이어에서 컨벌루션 필터 적용 후 활성화 함수, 예를 들어 ReLU(Rectified Linear Unit) 연산을 통해 출력되는 연산 데이터가 출력될 수 있다. 이 경우, 레이어에서 출력되는 연산 데이터는 다채널 데이터로서, 예를 들어, 16 개의 피쳐 맵(또는 액티베이션 맵) 데이터가 출력되어 다음 레이어로 제공될 수 있다. 다만, 일 예에 따라 피쳐 맵 데이터가 메모리(내부 버퍼, 또는 외부 메모리)에 저장된 후 다음 레이어로 제공될 수 있으나, 도 3b에서는 해당 구성은 생략하였다. 여기서, 파라미터는 필터의 가중치(또는 계수)와 동일한 의미일 수 있다.

먼저, 일 실시 예에 따라 입력 영상(10) 내에서 픽셀 별 특징을 추출하기 위하여 제1 신경망 모듈(210)의 레이어는 로컬 특징 및 좁은 연산 필드(narrow receptive field)를 가질 수 있다. 일 예에 따라, 제1 신경망 모듈(210)은 총 7개의 레이어로 구성된다. 제1 신경망 모듈(210)은 모듈 내 포함된 각각의 레이어를 통해 컨벌루션 연산(예를 들어, 3*3 필터를 갖고 16개의 채널을 갖는 컨벌루션 연산), 배치 정규화(Batch normalization) 연산 또는 ReLU 연산을 수행할 수 있으며, 각각의 레이어로부터 출력된 출력 데이터는 다음 레이어로 제공될 수 있다. 다만 도 3b에 도시된 바와 같이 마지막 레이어의 경우 배치 정규화(Batch normalization) 및 ReLU 연산이 수행되지 않을 수 있다.

일 실시 예에 따라, 제3 신경망 모듈(230)은 총 3개의 레이어로 구성될 수 있다. 도 3b에 도시된 바와 같이 제3 신경망 모듈(230)은 모듈 내 포함된 각각의 레이어를 통해 컨벌루션 연산(1*1 또는 3*3 필터), 배치 정규화(Batch normalization) 연산, ReLU 연산 또는 드롭 아웃(Dropout) 연산을 수행할 수 있다. 이 경우, 각각의 레이어로부터 출력된 출력 데이터는 다음 레이어로 제공될 수 있다. 여기서, Dropout 연산은 실험 데이터에 의해 결과가 지나치게 오버-피팅(overfitting)된 경우 은닉층(hidden layer)의 일부 유닛이 동작하지 않게 하여 오버-피팅을 막는 연산을 의미한다.

한편, 일 실시 예에 따라 제4 신경망 모듈(240)은 총 3개의 레이어로 구성될 수 있다. 도 3b에 도시된 바와 같이 제4 신경망 모듈(240)은 모듈 내 포함된 각각의 레이어를 통해 컨벌루션 연산(1*1 또는 3*3 필터), 배치 정규화(Batch normalization) 연산 또는 ReLU 연산을 수행할 수 있다. 이 경우, 각각의 레이어로부터 출력된 출력 데이터는 다음 레이어로 제공될 수 있다. 즉, 제4 신경망 모듈은 제3 신경망 모듈에서 드롭 아웃 연산이 제거된 모듈과 동일한 구조를 갖게 된다.

한편, 일 예에 따라 제4 신경망 모델(240)은 마지막 레이어에서 정규화(normalization) 연산이 수행된다. 이 경우, 정규화 과정은 일반적으로 널리 이용되는 softmax 정규화가 아닌, 선형 정규화(linear normalization)가 수행될 수 있다. 하기 수학식 1은 일 예에 따른 선형 정규화를 나타내는 수식이다.

여기서, x =

는 비 정규화된 ROI 예측 값 세트(the set of unnormalizaed ROI prediction)이고, r =

은 선형 정규화된 ROI 예측 값 세트(the set of linear normalizaed ROI prediction)이다.

또한, 일 실시 예에 따라 제1 압축 모듈(250)은 총 4개의 레이어로 구성될 수 있다. 제1 압축 모듈(250)은 모듈 내 포함된 각각의 레이어를 통해 컨벌루션 연산(예를 들어, 1*1 필터를 갖고 2048개의 채널을 갖는 컨벌루션 필터 또는 1*1 필터를 갖고 256개의 채널을 갖는 컨벌루션 필터), 배치 정규화(Batch normalization)연산 또는 ReLU 연산을 수행할 수 있으며, 각각의 레이어로부터 출력된 출력 데이터는 다음 레이어로 제공될 수 있다. 배치 정규화는 입력 데이터를 배치(Batch) 별로 정규화(Normalization)하는 연산이다. 한편, 도 3b에 도시된 바와 같이 마지막 레이어의 경우 배치 정규화(Batch normalization) 및 ReLU 연산이 수행되지 않을 수 있다.

또한, 일 실시 예에 따라 제2 압축 모듈(280)은 총 4개의 레이어로 구성될 수 있다. 도 3b에 도시된 바와 같이 제2 압축 모듈(280)은 모듈 내 포함된 각각의 레이어를 통해 컨벌루션 연산(3*3 필터) 또는 Element- wise addition 연산(또는, 요소 별 연산)을 수행할 수 있다. 여기서, 컨벌루션 연산을 수행하는 복수의 레이어로부터 출력되는 출력 데이터는 Element- wise addition을 수행하는 레이어로 입력되고, 상기 레이어에서 각 데이터의 요소 별 연산이 수행될 수 있다.

한편, 일 예에 따라, 제2 압축 모듈(280)는 DIM(Dilated inception module)일 수 있다. DIM은 낮은 계산 복잡성(low computational complexity)를 가지며, receptive field(각 단계의 입력 이미지에 대해 하나의 필터가 커버할 수 있는 이미지 영역)가 다른 신경망 모듈에 비해 상대적으로 넓다. 이 경우, receptive field가 입력 영상을 cover하는 비율이 높으므로, center-bias가 있는 경우 함축적으로 학습되는 효과가 있다.

한편 상술한 실시 예에서 각 모듈에 포함된 레이어의 개수 및 구현 형태는 일 예일 뿐이며, 반드시 이에 한정되지 않음은 물론이다.

도 4에 따르면, 일 실시 예에 따라 먼저 프로세서(120)는 학습된 신경망 모델(200)에 이미지(10)를 입력할 수 있다. 학습된 신경망 모델(200)에 이미지(10)가 입력되면, 제1 신경망 모듈(210)은 입력 영상에 포함된 픽셀 별 제1 특징 데이터(또는, 제1 특징 정보)를 획득할 수 있다.

한편, 제2 신경망 모듈(220)은 영상이 입력되면, 입력 영상에 포함된 픽셀 별 제2 특징 데이터(또는, 제2 특징 정보)를 획득할 수 있다. 일 예에 따라 제2 신경망 모듈(220)은 InceptionResNetV2에서 일부 레이어가 변경된 신경망 모델이 될 수 있다. 예를 들어, 제2 신경망 모듈(220)은 InceptionResNetV2 내 커널 사이즈가 3이고 padding이 0인 레이어가 커널 사이즈가 3이고 padding이 1인 레이어로 변경된 신경망 모듈일 수 있다. 이에 따르면 출력 데이터의 해상도(resolution)가 줄어들지 않아 spatial 정보의 손실을 줄일 수 있게 된다.

여기서, 제1 신경망 모듈(210)로부터 추출되는 제1 특징 데이터의 사이즈는 입력 영상(10)의 사이즈와 동일하고, 제2 신경망 모듈(220)로부터 추출되는 제1 특징 데이터의 사이즈는 입력 영상(10)의 사이즈보다 축소된 사이즈일 수 있다. 예를 들어, 입력 영상(10)의 사이즈가 (w, h), 즉 가로 크기 w픽셀, 세로 h픽셀의 사이즈를 갖는 경우, 제1 특징 데이터의 사이즈는 (w, h)이고, 제2 특징 데이터의 사이즈는 (w/32, h/32)가 될 수 있다. 이는 제2 신경망 모듈(220) 내 존재하는 복수의 레이어 중 resolution(해상도)를 유지하기 위해 paddindg이 없는 곳에 padding을 추가함에 따라 발생하는 현상이다.

한편, 제1 압축 모듈(250)의 입력 레이어로 제2 특징 데이터가 입력되면, 제1 압축 모듈은 입력된 제2 특징 데이터를 제1 압축 방식에 따라 압축하여 압축된 제2 특징 데이터를 획득할 수 있다. 이는 제2 신경망 모듈(220)로부터 출력된 제2 특징 데이터의 채널 수가 제1 특징 데이터에 비하여 상대적으로 크기 때문에, 데이터의 크기를 줄여 연산 처리 속도를 빠르게 하기 위함이다.

이 후, 업스케일링 모듈(Upscaling module, 260)의 입력 레이어로 압축된 제2 특징 데이터가 입력되면, 업스케일링 모듈(260)은 압축된 제2 특징 데이터를 제1 특징 데이터와 동일한 사이즈로 업스케일링할 수 있다. 상술한 예에서 제2 특징 데이터의 사이즈가 (w/32, h/32)이고, 제1 특징 데이터의 사이즈가 (w, h)인 경우, 업스케일링 모듈(260)로부터 출력된 제2 특징 데이터의 사이즈는 제1 특징 데이터와 같은 사이즈(w, h)가 된다.

이 후, 결합 모듈(270)은 제1 특징 데이터 및 업스케일링된 제2 특징 데이터를 결합하여 제3 특징 데이터를 출력할 수 있다. 여기서, 결합이란 각 데이터 값의 변화 없이 데이터들이 접합(Concatenation)되는 것을 의미한다. 이에 따라 이 경우, 제1 특징 데이터와 제2 특징 데이터의 결합시 데이터 값의 변화는 일어나지 않으며, 제1 특징 데이터에 대응되는 복수의 채널과 제2 특징 데이터에 대응되는 복수의 채널은 연속적으로 접합(Concatenation)된다. 예를 들어, 제1 특징 데이터의 채널 개수가 64이고, 제2 특징 데이터의 채널 개수가 256인 경우, 제3 특징 데이터의 채널 개수는 320이 된다.

이 후, 제3 신경망 모듈(230)은 결합 모듈(270)로부터 출력된 제3 특징 데이터에 기초하여 입력 영상에 포함된 픽셀 별 품질 스코어를 획득할 수 있게 된다.

도 5에 따르면, 일 실시 예에 따라 먼저 프로세서(120)는 학습된 신경망 모델(200)에 이미지(10)를 입력할 수 있다. 학습된 신경망 모델(200)에 이미지(10)가 입력되면, 제1 신경망 모듈(210)은 입력 영상에 포함된 픽셀 별 제1 특징 데이터(또는, 제1 특징 정보)를 획득할 수 있다. 한편, 제2 신경망 모듈(220)은 영상이 입력되면, 입력 영상에 포함된 픽셀 별 제2 특징 데이터(또는, 제2 특징 정보)를 획득할 수 있다.

여기서, 제1 신경망 모듈(210)로부터 추출되는 제1 특징 데이터의 사이즈는 입력 영상(10)의 사이즈와 동일하고, 제2 신경망 모듈(220)로부터 추출되는 제1 특징 데이터의 사이즈는 입력 영상(10)의 사이즈보다 축소된 사이즈일 수 있다.

한편, 제2 압축 모듈(250)의 입력 레이어로 제2 특징 데이터가 입력되면, 제1 압축 모듈은 입력된 제2 특징 데이터를 제1 압축 방식에 따라 압축하여 압축된 제2 특징 데이터를 획득할 수 있다.

이 후, 결합 모듈(270)은 제1 특징 데이터 및 업스케일링된 제2 특징 데이터를 결합하여 제4 특징 데이터를 출력할 수 있다. 여기서, 결합이란 각 데이터 값의 변화 없이 데이터들이 접합(Concatenation)되는 것을 의미한다. 이에 따라, 제1 특징 데이터와 제2 특징 데이터의 결합시 데이터 값의 변화는 일어나지 않으며, 제1 특징 데이터에 대응되는 복수의 채널과 제2 특징 데이터에 대응되는 복수의 채널은 연속적으로 접합(Concatenation)된다. 예를 들어, 제1 특징 데이터의 채널 개수가 64이고, 제2 특징 데이터의 채널 개수가 256인 경우, 제4 특징 데이터의 채널 개수는 320이 된다.

이 후, 제4 신경망 모듈(240)은 결합 모듈(270)로부터 출력된 제4 특징 데이터에 기초하여 입력 영상에 포함된 픽셀 별 ROI 스코어를 획득할 수 있게 된다.

도 6a에 따르면, 일 실시 예에 따라 연산 모듈(290)의 입력 레이어로 제3 신경망 모듈(230)로부터 픽셀 별 품질 스코어가 입력되고, 제4 신경망 모듈(240)로부터 픽셀 별 ROI 스코어가 입력되면, 연산 모듈(290)은 입력된 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어에 기초하여 입력 영상(10)의 품질 스코어를 출력할 수 있다.

일 예에 따라, 연산 모듈(290)은 입력 영상(10)에 포함된 제1 픽셀에 대응되는 제1 품질 스코어 및 제1 픽셀에 대응되는 제1 ROI 스코어를 곱하여 제1 값을 획득하고, 입력 영상에 포함된 제2 픽셀에 대응되는 제2 품질 스코어 및 제2 픽셀에 대응되는 제2 ROI 스코어를 곱하여 제2 값을 획득하고, 획득된 제1 값 및 제2 값의 평균 값을 입력 영상의 품질 스코어를 획득할 수 있다. 예를 들어, 도 6b에 도시된 바와 같이 픽셀 별 품질 스코어(610)와 픽셀 별 ROI 스코어(620)는 각 픽셀에 대응되는 스코어를 가질 수 있다. 이 경우, 연산 모듈(290)은 각 픽셀에 대응되는 스코어를 곱한 값(530)을 획득할 수 있으며, 획득된 제1 값 및 제2 값의 평균값을 전체 품질 스코어(540)으로 출력할 수 있다.

다른 예에 따라, 연산 모듈(290)은 제1 픽셀에 대응되는 제1 품질 스코어 및 제1 픽셀에 대응되는 제1 ROI 스코어를 곱하여 제1 값을 획득하고, 입력 영상에 포함된 제2 픽셀에 대응되는 제2 품질 스코어 및 제2 픽셀에 대응되는 제2 ROI 스코어를 곱하여 제2 값을 획득하고, 획득된 제1 값 및 제2 값의 중앙 값(median)을 입력 영상의 품질 스코어로 출력할 수도 있다.

또는, 연산 모듈(290)은 제1 값 및 제2 값을 각각 정규화(normalization)하여, 정규화된 제1 값 및 제2 값을 곱하여 입력 영상의 품질 스코어를 획득할 수도 있다.

도 7a 및 7b는 일 실시 예에 따른 신경망 모델을 학습시키는 방법을 설명하기 위한 도면이다.

일 실시 예에 따라, 메모리(110)에 저장된 신경망 모델은 학습을 통해 만들어진 것일 수 있다. 여기서, 학습을 통해 만들어진다는 것은, 기본 신경망 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 신경망 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 별도의 서버 및/또는 시스템을 통해 이루어질 수 있으나, 이에 한정되는 것은 아니며 전자 장치(100)에서 이루어질 수도 있다. 학습 알고리즘의 예로는 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.

도 7a에 따르면, 일 실시 예에 따라, 학습된 신경망 모델(200)은 학습 이미지(710) 및 학습 이미지의 품질 스코어(720)가 입력됨에 따라 학습된 신경망 모델로부터 출력되는 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고, 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어를 제3 신경망 모듈(230) 및 제4 신경망 모듈(240)로 피드백하여 비지도 학습(Unsupervised learning)될 수 있다.

도 7b에 따르면, 일 예에 따라 학습된 신경망 모델(200)은, 연산 모듈(290)을 통해 출력된 품질 스코어(710)를 픽셀 별 품질 스코어(730) 및 픽셀 별 ROI 스코어(740)로 분리하고, 분리된 픽셀 별 품질 스코어(730) 및 분리된 픽셀 별 ROI 스코어(740)에 기초하여 제3 신경망 모듈(230)에 포함된 복수의 신경망 레이어에 대응되는 가중치 및 제4 신경망 모듈(240)에 포함된 복수의 신경망 레이어에 대응되는 가중치 중 적어도 하나를 업데이트하여 비지도 학습될 수 있다.

예를 들어, 출력된 품질 스코어(710)가 학습 이미지의 품질 스코어(720)보다 상대적으로 작은 경우, 신경망 모듈(200)은, ROI 스코어의 크기가 임계 값 이상인 픽셀을 식별하고, ROI 스코어의 크기가 임계 값 이상인 픽셀의 품질 스코어가 이전보다 큰 값을 가지도록 신경망 레이어의 가중치를 업데이트할 수 있다. 이에 따라 출력된 품질 스코어(710)는 이전보다 더 큰 값을 가지게 되고, 학습 이미지의 품질 스코어(720)의 크기에 더욱 가까워지게 된다.

다른 예로, 출력된 품질 스코어(710)가 학습 이미지의 품질 스코어(720)보다 상대적으로 큰 경우, ROI 스코어의 크기가 임계 값 미만인 픽셀의 품질 스코어가 이전보다 작은 값을 가지도록 신경망 레이어의 가중치를 업데이트할 수 있다. 이에 따라 출력된 품질 스코어(710)는 이전보다 더 작은 값을 가지게 되고, 학습 이미지의 품질 스코어(720)의 크기에 더욱 가까워지게 된다.

한편, 일 예에 따라 상술한 학습된 신경망 모듈(200)에는 Loss Function이 사용될 수 있다. 예를 들어, 하기와 같은 수학식 2의 Loss Function이 사용될 수 있다.

여기서, P 와 G는 각각 MOS 예상 값 및 Ground-truth MOS 예상 값을 의미하며, p =

은 pMOS(픽셀 별 품질 스코어)의 예측치의 세트(set)를 의미한다.수학식 2에 따라 ROI는 Ground-truth 픽셀별 품질 스코어 및 Ground-truth 픽셀별 ROI 스코어 없이 비지도 학습이 가능하게 된다.

한편, 수학식 2에 따라 픽셀 별 ROI 스코어가 출력되도록 신경망 모델(200)이 학습될 때, p가 learning weight가 된다. 이에 따라, ROI를 출력하는 신경망 모듈은 MOS가 높은 곳에서 높은 learning weight를 갖고, MOS가 낮은 곳에서 낮은 learning weight를 갖게 된다. 예를 들어, MOS 크기의 범위가 1 내지 5인 경우 ROI를 출력하는 신경망 모듈의 학습 속도는 MOS 크기의 범위가 1 내지 5를 벗어나는 경우에 비해 학습 속도가 약 5배 정도의 차이가 발생하게 된다. 이에 따라, learning weight를 보정할 필요성이 존재한다.

한편, 도 7c 및 도 7d는 각각 입력 영상의 KonIQ-10k 및 LIVE Challenge dataset의 MOS 분포표이다. 도시된 그래프에서 가로축은 MOS의 크기 범위를 나타내고, 세로 축은 샘플의 개수를 의미한다.

도 7c 및 도 7d에 따르면, 상대적으로 MOS 크기가 중앙(예를 들어, [57.02, 63.72])에 가까울수록 개수가 증가하여 이에 해당할 확률이 높아지며, 반대의 경우 이에 해당하는 MOS의 크기가 상대적으로 감소하여 이에 해당할 확률 역시 상대적으로 감소하게 된다. 이에 따라, 엔트로피의 관점으로 보면 MOS 중앙보다 양 끝단([3.42, 10.12] 또는 [90.52, 97.22])에서 더 많은 정보를 가지고 있다. 이에 기초하여, 신경망 모델(200)이 학습시 p의 평균 값(mean)을 0으로 변경하면 MOS의 중앙 부분에서는 learning weight가 낮아지고, 양 끝단으로 갈수록 learning weight가 높아지게 되므로, 정보가 많은 곳에서 learning weight를 높이기 위하여 Loss Function을 하기 수학식 3과 같이 변경할 수 있다.

은 pMOS(픽셀 별 품질 스코어)의 예측치의 세트(set)를 의미한다. 수학식 3은, 수학식 2에 비해 평균값이 변경된(Mean- shifted) 상태에서의 출력 MOS 값이다.

일 실시 예에 따르면, 학습된 신경망 모델(200)의 성능 평가는 Pearson's Linear Correlation Coefficient (PLCC) and Spearman's Rank Order Correlation Coefficient (SRCC)으로 수행되었다. PLCC는 prediction의 정확도(accuracy)를 측정하고 SRCC는 prediction의 단조(monotonicity)를 측정한다. 각 수치의 범위는 -1에서 1까지이며 높을수록 좋은 성능을 의미한다.

한편, 표 1을 통해 학습된 신경망 모델을 IQA(Image-Quality-Assessment, 이미지 품질 평가) 방법들과 성능 비교를 수행했다. 표 1에서 따르면, 본원의 학습된 신경망 모델은 KonIQ dataset 및 LIVEC dataset 모두에서 다른 방법(예를 들어, GraphIQA, HyperIQA, TRIQ 및 TranSLA)에 비하여 PLCC 및 SRCC가 가장 높은 결과를 가진다. 한편, 표 1에 따르면 KonIQ dataset에서 RMSE이는 기존 기법 대비 6%이상 감소하였다.

또한, 본원의 학습된 신경망 모델의 성능을 조사하기 위해 절제 연구(ablation study)를 진행했다. 표 2는 제안하는 모듈들을 단계적으로 추가시킨 결과를 보여준다. Local IQA(본원의 제1 신경망 모듈에 대응)만으로 구성된 네트워크는 모든 위치에서 동일 한 weight를 가지도록 MOS를 학습했으므로 성능이 좋지 않다. ROI prediction(본원의 제3 신경망 모듈)을 추가했을 경우 IQA에서 중요한 부분이 포커싱될 수 있도록 함으로써 이전에 비하여 성능이 크게 향상됨을 볼 수 있다. 마지막으로 high-level feature embedding(본원의 제2 신경망 모듈)을 수행하면서 local IQA(제1 신경망 모듈)에서 수행되지 못했던 부분이 cover되며, 이에 따라 이전에 비하여 성능 향상이 한번 더 일어나게 된다.

도 8에 따르면, 전자 장치(100')는 메모리(110), 프로세서(120), 통신 인터페이스(130), 사용자 인터페이스(140), 디스플레이(150) 및 출력부(160)를 포함할 수 있다. 도 8에 도시된 구성 중 도 2에 도시된 구성과 중복되는 구성에 대하여는 자세한 설명을 생략하도록 한다.

통신 인터페이스(130)는 외부 장치와 통신을 수행할 수 있다. 예를 들어 통신 인터페이스(130)는 AP 기반의 Wi-Fi(와이파이, Wireless LAN 네트워크), 블루투스(Bluetooth), 지그비(Zigbee), 유/무선 LAN(Local Area Network), WAN(Wide Area Network), 이더넷(Ethernet), IEEE 1394, HDMI(High-Definition Multimedia Interface), USB(Universal Serial Bus), MHL(Mobile High-Definition Link), AES/EBU(Audio Engineering Society/ European Broadcasting Union), 옵티컬(Optical), 코액셜(Coaxial 등과 같은 통신 방식을 통해 외부 장치(예를 들어, 소스 장치), 외부 저장 매체(예를 들어, USB 메모리), 외부 서버(예를 들어 웹 하드) 등으로부터 스트리밍 또는 다운로드 방식으로 영상 신호를 입력받을 수 있다. 일 실시 예에 따라, 프로세서(120)는 통신 인터페이스(130)를 통해 외부 장치(미도시)로부터 영상을 수신할 수 있다.

사용자 인터페이스(140)는 버튼, 터치 패드, 마우스 및 키보드와 같은 장치로 구현되거나, 상술한 디스플레이 기능 및 조작 입력 기능도 함께 수행 가능한 터치 스크린, 리모콘 송수신부 등으로 구현될 수 있다. 리모콘 송수신부는 적외선 통신, 블루투스 통신 또는 와이파이 통신 중 적어도 하나의 통신 방식을 통해 외부 원격 제어 장치로부터 리모콘 신호를 수신하거나, 리모콘 신호를 송신할 수 있다.

디스플레이(150)는 자발광 소자를 포함하는 디스플레이 또는, 비자발광 소자 및 백라이트를 포함하는 디스플레이로 구현될 수 있다. 예를 들어, LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, LED(Light Emitting Diodes), 마이크로 LED(micro LED), Mini LED, PDP(Plasma Display Panel), QD(Quantum dot) 디스플레이, QLED(Quantum dot light-emitting diodes) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. 디스플레이(150) 내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(150)는 터치 센서와 결합된 터치 스크린, 플렉시블 디스플레이(flexible display), 롤러블 디스플레이(rollable display), 3차원 디스플레이(3D display), 복수의 디스플레이 모듈이 물리적으로 연결된 디스플레이 등으로 구현될 수 있다.

출력부(160)는 음향 신호를 출력한다. 예를 들어, 출력부(160)는 프로세서(120)에서 처리된 디지털 음향 신호를 아날로그 음향 신호로 변환하고 증폭하여 출력할 수 있다. 예를 들어, 출력부(160)는 적어도 하나의 채널을 출력할 수 있는, 적어도 하나의 스피커 유닛, D/A 컨버터, 오디오 앰프(audio amplifier) 등을 포함할 수 있다. 일 예에 따라 출력부(160)는 다양한 멀티 채널 음향 신호를 출력하도록 구현될 수 있다. 이 경우, 프로세서(120)는 입력 영상의 인핸스 처리에 대응되도록 입력된 음향 신호를 인핸스 처리하여 출력하도록 출력부(160)를 제어할 수 있다.

도 9에 따르면, 먼저 일 실시 예에 따라 학습된 신경망 모델(200)은 제1 신경망 모듈(210), 제2 신경망 모듈(220), 제3 신경망 모듈(230), 제4 신경망 모듈(240) 및 연산 모듈(290)을 포함할 수 있다.

먼저, 일 실시 예에 따라 제1 신경망 모듈(210)은 영상이 입력되면, 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득할 수 있다(S910).

한편, 제2 신경망 모듈(220)은 영상이 입력되면, 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득할 수 있다(S915).

이 후, 제1 신경망 모듈(210)은 획득된 제1 특징 정보를 제3 신경망 모듈(230)로 전송하고(S920), 획득된 제1 특징 정보를 제4 신경망 모듈(240)로 전송할 수 있다(S935).

이 후, 제2 신경망 모듈(220)은 획득된 제2 특징 정보를 제3 신경망 모듈(230)로 전송하고(S925), 획득된 제2 특징 정보를 제4 신경망 모듈(240)로 전송할 수 있다(S940).

이 후, 제3 신경망 모듈(230)은 제1 신경망 모듈(210)로부터 제1 특징 정보가 전송(S920)되고 제2 신경망 모듈(220)로부터 제2 특징 정보가 전송(S925)되면, 전송된 제1 특징 정보 및 제2 특징 정보가 결합된 제3 특징 정보를 이용하여 입력 영상에 포함된 픽셀 별 품질 스코어를 획득할 수 있다(S930). 이 경우, 일 예에 따라 제1 특징 정보 및 제2 특징 정보는 학습된 신경망 모델(200) 내에 존재하는 결합 모듈을 통해 결합될 수 있으나 이에 한정되는 것은 아니다.

한편, 제4 신경망 모듈(240)은 제1 신경망 모듈(210)로부터 제1 특징 정보가 전송(S920)되고 제2 신경망 모듈(220)로부터 제2 특징 정보가 전송(S925)되면, 전송된 제1 특징 정보 및 제2 특징 정보가 결합된 제3 특징 정보를 이용하여 입력 영상에 포함된 픽셀 별 품질 스코어를 획득할 수 있다(S930). 이 경우, 일 예에 따라 제1 특징 정보 및 제2 특징 정보는 학습된 신경망 모델(200) 내에 존재하는 결합 모듈을 통해 결합될 수 있으나 이에 한정되는 것은 아니다.

한편, 제4 신경망 모듈(240)은 제1 신경망 모듈(210)로부터 획득된 제1 특징 정보 및 제2 신경망 모듈(220)로부터 획득된 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 입력 영상에 포함된 픽셀 별 ROI 스코어(S945)를 획득할 수 있다. 이 경우, 일 예에 따라 제1 특징 정보 및 제2 특징 정보는 학습된 신경망 모델 내에 존재하는 결합 모듈을 통해 결합될 수 있다.

이 후, 제3 신경망 모듈(230)은 픽셀 별 품질 스코어가 획득되면(S930), 획득된 픽셀 별 품질 스코어를 연산 모듈(290)로 전송할 수 있다(S950). 또한, 제4 신경망 모듈(240)은 픽셀 별 ROI 스코어가 획득되면(S945), 획득된 픽셀 별 ROI 스코어를 연산 모듈(290)로 전송할 수 있다(S955).

이 후, 연산 모듈(290)은 제3 신경망 모듈(230)로부터 획득된 픽셀 별 품질 스코어 및 제4 신경망 모듈(240)로부터 획득된 픽셀 별 ROI 스코어에 기초하여 입력 영상의 품질 스코어를 획득할 수 있다(S960).

상술한 다양한 실시 예에 따르면, 학습된 신경망 모델에 이미지만 입력하여도 입력 이미지의 픽셀 별 품질 평가 점수 및 관심 영역에 대한 정보를 획득할 수 있게 되며, 이에 기초하여 입력된 영상의 전체 품질 평가 점수를 획득할 수 있게 된다. 이에 따라 이미지 내 픽셀 별 품질 평가 점수 및 관심 영역에 대한 정보를 획득하는데 필요한 시간 및 비용이 절약된다.

한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 설치 가능한 어플리케이션 형태로 구현될 수 있다. 또는 상술한 본 개시의 다양한 실시 예들에 따른 방법들은 딥 러닝 기반의 학습된 신경망(또는 심층 학습된 신경망) 즉, 학습 네트워크 모델을 이용하여 수행될 수 있다. 또한, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다. 또한, 상술한 본 개시의 다양한 실시 예들은 전자 장치에 구비된 임베디드 서버, 또는 전자 장치의 외부 서버를 통해 수행되는 것도 가능하다.

한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 디스플레이 장치(예: 디스플레이 장치(A))를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장 매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

또한, 일 실시 예에 따르면, 이상에서 설명된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

또한, 상술한 다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims

학습된 신경망 모델을 저장하는 메모리; 및

입력 영상을 상기 학습된 신경망 모델에 입력하여 상기 입력 영상의 품질 스코어, 상기 입력 영상에 포함된 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI(Region of Interst) 스코어를 획득하는 프로세서;를 포함하며,

상기 학습된 신경망 모델은,

상기 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득하는 제1 신경망 모듈;

상기 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득하는 제2 신경망 모듈;

상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는 제3 신경망 모듈;

상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 상기 픽셀 별 ROI 스코어를 획득하는 제4 신경망 모듈; 및

상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 연산 모듈;을 포함하는 전자 장치.
제 1항에 있어서,

상기 제1 특징 정보는, 상기 입력 영상에 포함된 에지(Edge) 정보 및 노이즈(Noise) 정보 중 적어도 하나를 포함하며,

상기 제2 특징 정보는, 상기 입력 영상에 포함된 오브젝트에 대한 정보를 포함하는, 전자 장치.
제1항에 있어서,

상기 연산 모듈은,

상기 입력 영상에 포함된 제1 픽셀에 대응되는 제1 품질 스코어 및 상기 제1 픽셀에 대응되는 제1 ROI 스코어를 곱하여 제1 값을 획득하고,

상기 입력 영상에 포함된 제2 픽셀에 대응되는 제2 품질 스코어 및 상기 제2 픽셀에 대응되는 제2 ROI 스코어를 곱하여 제2 값을 획득하고,

상기 제1 값 및 제2 값의 평균 값에 기초하여 상기 입력 영상의 품질 스코어를 획득하는, 전자 장치.
제1항에 있어서,

상기 학습된 신경망 모델은,

학습 이미지 및 상기 학습 이미지의 품질 스코어가 입력됨에 따라 상기 학습된 신경망 모델로부터 출력되는 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고,

상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어를 상기 제3 신경망 모듈 및 상기 제4 신경망 모듈로 피드백하여 비지도 학습되는, 전자 장치.
제4항에 있어서,

상기 학습된 신경망 모델은,

상기 연산 모듈을 통해 상기 출력된 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고,

상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 제3 신경망 모듈에 포함된 복수의 신경망 레이어에 대응되는 가중치 및 상기 제4 신경망 모듈에 포함된 복수의 신경망 레이어에 대응되는 가중치 중 적어도 하나를 업데이트하여 비지도 학습되는, 전자 장치.
제1항에 있어서,

상기 제1 신경망 모듈은,

상기 입력 영상의 사이즈와 동일한 사이즈의 제1 특징 데이터를 출력하고,

상기 제2 신경망 모듈은,

상기 입력 영상의 사이즈보다 축소된 사이즈의 제2 특징 데이터를 출력하는, 전자 장치.
제6항에 있어서,

상기 학습된 신경망 모델은,

상기 제2 특징 데이터를 제1 압축 방식에 따라 압축하는 제1 압축 모듈;

상기 제2 특징 데이터를 상기 제1 특징 데이터와 동일한 사이즈로 업스케일링하는 업스케일링 모듈; 및

상기 제1 특징 데이터 및 상기 업스케일링된 제2 특징 데이터를 결합하는 결합 모듈;을 포함하며,

상기 제3 신경망 모듈은,

상기 결합 모듈로부터 출력되는 상기 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는, 전자 장치.
제6항에 있어서,

상기 학습된 신경망 모델은,

상기 제2 특징 데이터를 제2 압축 방식에 따라 압축하는 제2 압축 모듈;

상기 제2 특징 데이터를 상기 제1 특징 데이터와 동일한 사이즈로 업스케일링하는 업스케일링 모듈; 및

상기 제1 특징 데이터 및 상기 업스케일링된 제2 특징 데이터를 결합하는 결합 모듈; 을 포함하며,

상기 제4 신경망 모듈은,

상기 결합 모듈로부터 출력되는 상기 제4 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 ROI 스코어를 획득하는, 전자 장치.
제1항에 있어서,

상기 제1 신경망 모듈 내지 제4 신경망 모듈 각각은, 복수의 신경망 레이어를 포함하며,

상기 제1 신경망 모듈의 출력 레이어로부터 출력되는 상기 제1 특징 정보 및 상기 제2 신경망 모듈의 출력 레이어로부터 출력되는 상기 제2 특징 정보가 결합된 상기 제3 특징 정보는, 상기 제3 신경망 모듈의 입력 레이어로 입력되고,

상기 제1 신경망 모듈의 출력 레이어로부터 출력되는 상기 제1 특징 정보 및 상기 제2 신경망 모듈의 출력 레이어로부터 출력되는 상기 제2 특징 정보가 결합된 상기 제4 특징 정보는, 상기 제4 신경망 모듈의 입력 레이어로 입력되는, 전자 장치.
전자 장치의 제어 방법에 있어서,

입력 영상을 학습된 신경망 모델에 입력하여 상기 입력 영상의 품질 스코어, 상기 입력 영상에 포함된 픽셀 별 품질 스코어, 상기 픽셀 별 ROI(Region of Interst) 스코어를 획득하는 단계;를 포함하며,

상기 학습된 신경망 모델은,

제1 신경망 모델, 제2 신경망 모델, 제3 신경망 모델, 제4 신경망 모델 및 연산 모듈을 포함하며,

상기 획득하는 단계는,

상기 제1 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득하는 단계;

상기 제2 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득하는 단계;

상기 제3 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는 단계;

상기 제4 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 상기 픽셀 별 ROI 스코어를 획득하는 단계; 및

상기 연산 모듈에 의해, 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 단계;를 포함하는, 제어 방법.
제 10항에 있어서,

상기 제1 특징 정보는, 상기 입력 영상에 포함된 에지(Edge) 정보 및 노이즈(Noise) 정보 중 적어도 하나를 포함하며,

상기 제2 특징 정보는, 상기 입력 영상에 포함된 오브젝트에 대한 정보를 포함하는, 제어 방법.
제10항에 있어서,

상기 입력 영상의 품질 스코어를 획득하는 단계는,

상기 입력 영상에 포함된 제1 픽셀에 대응되는 제1 품질 스코어 및 상기 제1 픽셀에 대응되는 제1 ROI 스코어를 곱하여 제1 값을 획득하는 단계;

상기 입력 영상에 포함된 제2 픽셀에 대응되는 제2 품질 스코어 및 상기 제2 픽셀에 대응되는 제2 ROI 스코어를 곱하여 제2 값을 획득하는 단계; 및

상기 제1 값 및 상기 제2 값의 평균 값에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 단계;를 포함하는, 제어 방법.
제10항에 있어서,

상기 학습된 신경망 모델은,

학습 이미지 및 상기 학습 이미지의 품질 스코어가 입력됨에 따라 상기 학습된 신경망 모델로부터 출력되는 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고,

상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어를 상기 제3 신경망 모듈 및 상기 제4 신경망 모듈로 피드백하여 비지도 학습되는, 제어 방법.
제13항에 있어서,

상기 학습된 신경망 모델은,

상기 연산 모듈을 통해 상기 출력된 품질 스코어를 픽셀 별 품질 스코어 및 픽셀 별 ROI 스코어로 분리하고,

상기 분리된 픽셀 별 품질 스코어 및 상기 분리된 픽셀 별 ROI 스코어의 크기에 기초하여 상기 제3 신경망 모듈 및 상기 제4 신경망 모듈의 가중치를 업데이트하여 비지도 학습되는, 제어 방법.
전자 장치의 프로세서에 의해 실행되는 경우 상기 전자 장치가 동작을 수행하도록 하는 컴퓨터 명령을 저장하는 비일시적 컴퓨터 판독 가능 기록 매체에 있어서, 상기 동작은,

입력 영상을 학습된 신경망 모델에 입력하여 상기 입력 영상의 품질 스코어, 상기 입력 영상에 포함된 픽셀 별 품질 스코어, 상기 픽셀 별 ROI(Region of Interst) 스코어를 획득하는 단계;를 포함하며,

상기 학습된 신경망 모델은,

제1 신경망 모델, 제2 신경망 모델, 제3 신경망 모델, 제4 신경망 모델 및 연산 모듈을 포함하며,

상기 획득하는 단계는,

상기 제1 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제1 특징 정보를 획득하는 단계;

상기 제2 신경망 모듈에 의해, 상기 입력 영상에 포함된 픽셀 별 제2 특징 정보를 획득하는 단계;

상기 제3 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제3 특징 정보에 기초하여 상기 입력 영상에 포함된 픽셀 별 품질 스코어를 획득하는 단계;

상기 제4 신경망 모듈에 의해, 상기 제1 특징 정보 및 상기 제2 특징 정보가 결합된 제4 특징 정보에 기초하여 상기 픽셀 별 ROI 스코어를 획득하는 단계; 및

상기 연산 모듈에 의해, 상기 픽셀 별 품질 스코어 및 상기 픽셀 별 ROI 스코어에 기초하여 상기 입력 영상의 품질 스코어를 획득하는 단계;를 포함하는, 컴퓨터 판독 가능 기록 매체.