KR20220159250A - 비디오 품질을 평가하는 전자 장치 및 그 동작 방법 - Google Patents

비디오 품질을 평가하는 전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR20220159250A
KR20220159250A KR1020210190392A KR20210190392A KR20220159250A KR 20220159250 A KR20220159250 A KR 20220159250A KR 1020210190392 A KR1020210190392 A KR 1020210190392A KR 20210190392 A KR20210190392 A KR 20210190392A KR 20220159250 A KR20220159250 A KR 20220159250A
Authority
KR
South Korea
Prior art keywords
score
neural network
subjective evaluation
sub
evaluation score
Prior art date
Application number
KR1020210190392A
Other languages
English (en)
Inventor
김욱형
아난트 바이잘
함철희
김남욱
구자윤
조일현
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to PCT/KR2022/007253 priority Critical patent/WO2022250388A1/ko
Priority to US17/824,587 priority patent/US20220392210A1/en
Publication of KR20220159250A publication Critical patent/KR20220159250A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Analysis (AREA)

Abstract

전자 장치가 개시된다. 전자 장치는 하나 이상의 인스트럭션을 저장하는 메모리 및 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 프로세서는 하나 이상의 인스트럭션을 실행함으로써, 입력 프레임에 포함된 복수개의 서브 영역 각각에 대해 주관적 평가 점수(Mean Opinion Score, MOS)를 획득하고, 복수개의 서브 영역 각각에 대해, 디스플레이의 위치에 따른 특성을 나타내는 위치 가중치를 획득하고, 주관적 평가 점수 및 위치 가중치에 기반하여, 가중 평가 점수를 획득하고, 가중 평가 점수에 기반하여, 입력 프레임 전체에 대한 최종 품질 점수를 획득할 수 있다.

Description

비디오 품질을 평가하는 전자 장치 및 그 동작 방법{An electronic apparatus for performing a video quality assessment method and a method thereof}
개시된 다양한 실시 예들은 비디오 품질을 평가하는 전자 장치 및 그 동작 방법에 관한 것으로, 보다 상세하게는 사용자의 관심 영역을 고려하여 보다 정확히 비디오의 품질을 평가하는 전자 장치 및 그 동작 방법에 관한 것이다.
비디오 영상은 생성, 압축, 저장, 전송, 재생산 등의 과정에서 왜곡을 수반하게 된다. 왜곡된 영상은 사람이 지각할 수 있는 범위 내에서 재생되어야 한다. 따라서, 영상이 재생되기 전에, 이러한 왜곡이 사람이 지각하는 화질에 어떠한 영향을 미치는지를 이해하기 위해 화질을 측정하고 평가할 필요가 있다.
영상 화질 평가(Quality Assessment) 기술은 주관적 화질 평가(subjective quality assessment) 방법과 객관적 화질 평가(objective quality assessment) 방법으로 나눌 수 있다. 주관적 화질 평가 방법은 평가자가 직접 비디오를 보고 화질을 평가하는 방법으로서 사람의 화질 인지 특성을 잘 반영할 수 있다. 그러나 주관적 화질 평가 방법은 개인별로 평가 치가 다르고 시간과 비용이 많이 소요될 뿐 아니라, 실시간으로 매번 영상의 화질을 평가하기 어렵다는 단점이 있다.
객관적 화질 평가 방법은 사람의 시신경으로 지각된 화질(perceived quality)을 측정하는 알고리즘을 구현하고 이를 이용하여 압축 영상의 화질 열화 정도를 평가하는 방법이다.
객관적 화질 평가 방법은 왜곡된 영상과 비교할 수 있는 기준 영상(reference image)을 이용하는 전 기준 화질 평가(Full-Reference Quality Assessment)방식과, 기준 영상 자체가 아닌 기준 영상에 관한 일부 정보, 예를 들면, 워터 마킹(watermarking)이나 보조 채널(auxiliary channel) 등을 이용하여 화질 평가를 수행하는 감소 기준 화질 평가(Reduced Reference Quality Assessment) 방식, 및 기준 영상의 어떠한 정보도 이용하지 않고 왜곡된 영상만을 이용하여 화질 추정을 수행하는 무 기준 화질 평가(No-Reference Quality Assessment)방식으로 나뉠 수 있다.
무 기준 화질 평가 방식은 기준 영상 정보를 필요로 하지 않기 때문에, 화질 측정이 요구되는 어떠한 응용에도 이용될 수 있다는 장점이 있다.
다양한 실시 예들은 모델 기반 품질 점수에 관심 영역을 나타내는 가중치를 적용하여 프레임의 품질을 보다 정확히 평가할 수 있는 비디오 품질을 평가하는 전자 장치 및 그 동작 방법을 제공하기 위한 것이다.
다양한 실시 예들은 모델 기반 품질 점수에 위치 가중치를 적용하여 프레임의 품질을 보다 정확히 평가할 수 있는 비디오 품질을 평가하는 전자 장치 및 그 동작 방법을 제공하기 위한 것이다.
다양한 실시 예들은 프레임으로부터 고 복잡도 정보를 획득하고, 고 복잡도 정보를 위치 가중치와 함께 고려하여 프레임의 품질을 평가하는 비디오 품질을 평가하는 전자 장치 및 그 동작 방법을 제공하기 위한 것이다.
실시 예에 따른 전자 장치는 하나 이상의 인스트럭션을 저장하는 메모리 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 입력 프레임에 포함된 복수개의 서브 영역 각각에 대해 주관적 평가 점수(Mean Opinion Score, MOS)를 획득하고, 상기 복수개의 서브 영역 각각에 대해, 디스플레이의 위치에 따른 특성을 나타내는 위치 가중치를 획득하고, 상기 주관적 평가 점수 및 상기 위치 가중치에 기반하여, 가중 평가 점수를 획득하고, 상기 가중 평가 점수에 기반하여, 상기 입력 프레임 전체에 대한 최종 품질 점수를 획득할 수 있다.
실시 예에서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 비디오 프레임을 입력 받고 상기 비디오 프레임으로부터 상기 비디오 프레임에 포함된 복수개의 서브 영역 각각에 대해 주관적 평가 점수(Mean Opinion Score, MOS)를 학습한 제1 뉴럴 네트워크를 이용하여, 상기 입력 프레임에 포함된 상기 복수개의 서브 영역 각각에 대해 상기 주관적 평가 점수를 예측할 수 있다.
실시 예에서, 상기 제1 뉴럴 네트워크는, 상기 비디오 프레임에 포함된 상기 복수개의 서브 영역 각각의 주관적 평가 점수가, 비디오 프레임 전체에 대한 GT MOS 주관적 평가 점수(Ground Truth Mean Opinion Score, GT MOS)와 같아지도록 훈련된 뉴럴 네트워크일 수 있다.
실시 예에서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 제2 뉴럴 네트워크를 이용하여, 상기 주관적 평가 점수로부터 상기 위치 가중치를 예측하고, 상기 제2 뉴럴 네트워크는, 상기 제1 뉴럴 네트워크를 통해 예측된 상기 비디오 프레임에 포함된 상기 복수개의 서브 영역 각각에 대한 상기 주관적 평가 점수를 입력 받고, 상기 서브 영역 각각에 대한 주관적 평가 점수와 비디오 프레임 전체에 대한 GT MOS 주관적 평가 점수(Ground Truth Mean Opinion Score, GT MOS) 간의 차이에 대응하는 웨이트를 상기 서브 영역 각각에 대한 위치 가중치로 예측하도록 훈련된 뉴럴 네트워크일 수 있다.
실시 예에서, 상기 제2 뉴럴 네트워크는 상기 비디오 프레임에 포함된 상기 복수개의 서브 영역 각각에 대한 상기 주관적 평가 점수에, 상기 위치 가중치를 곱해 획득한 가중 평가 점수의 평균 값이 상기 비디오 프레임 전체에 대한 GT MOS와 같아지도록 훈련된 뉴럴 네트워크일 수 있다.
실시 예에서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 메모리에서 상기 위치 가중치를 획득할 수 있다.
실시 예에서, 상기 위치 가중치는, 제2 뉴럴 네트워크를 통해 예측되어 상기 메모리에 저장되고, 상기 제2 뉴럴 네트워크는 비디오 프레임에 포함된 복수개의 서브 영역 각각에 대한 주관적 평가 점수를 입력 받고, 상기 서브 영역 각각에 대한 주관적 평가 점수와 비디오 프레임 전체에 대한 GT MOS 주관적 평가 점수(Ground Truth Mean Opinion Score, GT MOS)간의 차이에 대응하는 웨이트를 상기 서브 영역 각각에 대한 위치 가중치로 예측하고, 상기 비디오 프레임에 포함된 상기 복수개의 서브 영역 각각에 대한 상기 주관적 평가 점수에 상기 위치 가중치를 곱해 획득한 가중 평가 점수의 평균 값이 상기 비디오 프레임 전체에 GT MOS와 같아지도록 훈련된 뉴럴 네트워크일 수 있다.
실시 예에서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 주관적 평가 점수와 상기 위치 가중치를 곱하여, 상기 가중 평가 점수를 획득할 수 있다.
실시 예에서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 입력 프레임으로부터 관심 영역을 나타내는 고 복잡도 정보를 획득하고, 상기 가중 평가 점수와 상기 고 복잡도 정보를 함께 고려하여, 상기 입력 프레임 전체에 대한 최종 품질 점수를 획득할 수 있다.
실시 예에서, 상기 고 복잡도 정보는 화자 식별 정보, 시맨틱 세그멘테이션(semantic segmentation) 정보, 오브젝트 디텍션(object detection) 정보, 세일리언시 맵(saliency map) 정보 적어도 하나를 포함할 수 있다.
실시 예에 따른 전자 장치에서 수행하는 비디오 품질 평가 방법은 입력 프레임에 포함된 복수개의 서브 영역 각각에 대해 주관적 평가 점수(Mean Opinion Score, MOS)를 획득하는 단계, 상기 복수개의 서브 영역 각각에 대해, 디스플레이의 위치에 따른 특성을 나타내는 위치 가중치를 획득하는 단계, 상기 주관적 평가 점수 및 상기 위치 가중치에 기반하여, 가중 평가 점수를 획득하는 단계 및 상기 가중 평가 점수에 기반하여, 상기 입력 프레임 전체에 대한 최종 품질 점수를 획득하는 단계를 포함할 수 있다.
실시 예에 따른 컴퓨터로 판독 가능한 기록 매체는 입력 프레임에 포함된 복수개의 서브 영역 각각에 대해 주관적 평가 점수(Mean Opinion Score, MOS)를 획득하는 단계, 상기 복수개의 서브 영역 각각에 대해, 디스플레이의 위치에 따른 특성을 나타내는 위치 가중치를 획득하는 단계, 상기 주관적 평가 점수 및 상기 위치 가중치에 기반하여, 가중 평가 점수를 획득하는 단계 및 상기 가중 평가 점수에 기반하여, 상기 입력 프레임 전체에 대한 최종 품질 점수를 획득하는 단계를 포함하는, 비디오 품질 평가 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체일 수 있다.
일 실시 예에 따른 비디오 품질을 평가하는 전자 장치 및 그 동작 방법은 모델 기반 품질 점수에 관심 영역을 나타내는 가중치를 적용하여 프레임의 품질을 보다 정확히 평가할 수 있다.
일 실시 예에 따른 비디오 품질을 평가하는 전자 장치 및 그 동작 방법은 모델 기반 품질 점수에 위치 가중치를 적용하여 프레임의 품질을 보다 정확히 평가할 수 있다.
일 실시 예에 따른 비디오 품질을 평가하는 전자 장치 및 그 동작 방법은 프레임으로부터 고 복잡도 정보를 획득하고, 고 복잡도 정보를 위치 가중치와 함께 고려하여 프레임의 품질을 평가할 수 있다.
도 1은 실시 예에 따라, 전자 장치가 비디오 영상의 품질 점수를 획득하고, 이에 따라 처리된 화질을 갖는 영상을 화면에 출력하는 것을 설명하기 위한 도면이다.
도 2는 실시 예에 따른 전자 장치의 내부 블록도이다.
도 3은 실시 예에 따른 도 2의 프로세서의 내부 블록도이다.
도 4는 다른 실시 예에 따른 도 2의 프로세서의 내부 블록도이다.
도 5는 실시 예에 따라, 전자 장치가 뉴럴 네트워크를 이용하여 비디오 품질을 평가하는 것을 설명하기 위한 도면이다.
도 6은 실시 예에 따라, 제1 뉴럴 네트워크가 훈련되는 것을 설명하기 위한 도면이다.
도 7은 실시 예에 따라, 제2 뉴럴 네트워크가 위치 가중치 매트릭스를 획득하는 것을 설명하기 위한 도면이다.
도 8은 실시 예에 따라, 제2 뉴럴 네트워크가 훈련되는 것을 설명하기 위한 도면이다.
도 9는 실시 예에 따른 전자 장치의 내부 블록도이다.
도 10은 실시 예에 따른 전자 장치의 내부 블록도이다.
도 11은 실시 예에 따른 위치 가중치를 도시한 도면이다.
도 12는 실시 예에 따른 비디오 품질 평가 방법을 도시한 순서도이다.
도 13은 실시 예에 따라, 고 복잡도 가중치를 고려하여 비디오 품질 평가를 수행하는 방법을 도시한 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시 예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 개시에서 사용되는 용어는, 본 개시에서 언급되는 기능을 고려하여 현재 사용되는 일반적인 용어로 기재되었으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 다양한 다른 용어를 의미할 수 있다. 따라서 본 개시에서 사용되는 용어는 용어의 명칭만으로 해석되어서는 안 되며, 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 해석되어야 한다.
또한, 본 개시에서 사용된 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것이며, 본 개시를 한정하려는 의도로 사용되는 것이 아니다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
본 명세서, 특히, 특허 청구 범위에서 사용된 “상기” 및 이와 유사한 지시어는 단수 및 복수 모두를 지시하는 것일 수 있다. 또한, 본 개시에 따른 방법을 설명하는 단계들의 순서를 명백하게 지정하는 기재가 없다면, 기재된 단계들은 적당한 순서로 행해질 수 있다. 기재된 단계들의 기재 순서에 따라 본 개시가 한정되는 것은 아니다.
본 명세서에서 다양한 곳에 등장하는 "일부 실시 예에서" 또는 "일 실시 예에서" 등의 어구는 반드시 모두 동일한 실시 예를 가리키는 것은 아니다.
본 개시의 일부 실시 예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
또한, 명세서에서 “사용자”라는 용어는 전자 장치를 이용하여 전자 장치의 기능 또는 동작을 제어하는 사람을 의미하며, 전자 장치를 이용하여 비디오를 시청하는 시청자나 소비자를 포함할 수 있다. 또한, 사용자는 관리자 또는 설치 기사를 포함할 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 실시 예에 따라, 전자 장치가 비디오 영상의 품질 점수를 획득하고, 이에 따라 처리된 화질을 갖는 영상을 화면에 출력하는 것을 설명하기 위한 도면이다.
도 1을 참조하면, 전자 장치(100)는 영상을 처리하여 출력할 수 있는 전자 장치일 수 있다. 일 예에 따라 전자 장치(100)는 디스플레이를 포함하는 다양한 형태의 전자 장치로 구현될 수 있다. 전자 장치(100)는 고정형 또는 이동형일 수 있으며, 디지털 방송 수신이 가능한 디지털 TV일 수 있으나, 이에 한정되지 않는다.
전자 장치(100)는 데스크톱, 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 화상 전화기, 전자 북 리더기(e-book reader), 랩톱 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), 디지털 카메라, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 캠코더, 네비게이션, 웨어러블 장치(wearable device), 스마트 와치(smart watch), 홈 네트워크 시스템, 보안 시스템, 의료 장치 중 적어도 하나를 포함할 수 있다.
전자 장치(100)는 평면(flat) 디스플레이 장치뿐 아니라, 곡률을 가지는 화면인 곡면(curved) 디스플레이 장치 또는 곡률을 조정 가능한 가변형(flexible) 디스플레이 장치로 구현될 수 있다. 전자 장치(100)의 출력 해상도는 예를 들어, HD(High Definition), Full HD, Ultra HD, 또는 Ultra HD 보다 더 선명한 해상도 등과 같이 다양한 해상도를 가질 수 있다.
전자 장치(100)는 비디오를 출력할 수 있다. 비디오는 복수의 프레임들로 구성될 수 있다. 비디오는, 콘텐츠 프로바이더들(contents providers)이 제공하는 텔레비전 프로그램이나 VOD 서비스를 통한 각종 영화나 드라마 등의 아이템을 포함할 수 있다. 콘텐츠 프로바이더는 소비자에게 비디오를 포함한 각종 콘텐츠를 제공하는 지상파 방송국이나 케이블 방송국, 또는 OTT 서비스 제공자, IPTV 서비스 제공자를 의미할 수 있다.
비디오는 캡쳐 된 후 압축되어 전자 장치(100)로 전송되고, 전자 장치(100)에 의해서 복원되어 출력된다. 비디오를 캡처하는데 사용되는 기기의 물리적 특성의 한계와 제한된 대역폭 등으로 인해 정보가 손실되면서 영상의 왜곡이 발생하게 된다. 왜곡된 비디오는 품질이 저하될 수 있다.
실시 예에서, 전자 장치(100)는 비디오 품질 평가 모듈을 포함할 수 있다. 비디오 품질 평가 모듈은 이미지 화질 평가(Image Quality Assessment: IQA) 기술 및/또는 비디오 화질 평가(Video Quality Assessment: VQA) 기술을 이용하여 비디오 및/또는 이미지의 화질을 객관적으로 평가할 수 있다.
실시 예에서, 비디오 품질 평가 모듈은 무 기준 화질 평가 방식으로 비디오/이미지의 화질을 객관적으로 평가할 수 있다.
비디오 품질 평가 모듈은 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치(100)에 탑재되거나, 또는 칩 형태나 장치 형태로 전자 장치(100)에 포함될 수 있다. 또는 비디오 품질 평가 모듈은 전자 장치(100)에서 소프트웨어 모듈로 구현될 수도 있다.
실시 예에 따라, 전자 장치(100)는 전자 장치(100)에 포함된 비디오 품질 평가 모듈을 이용하여 비디오 품질 평가 방법을 수행할 수 있다. 전자 장치(100)는 비디오에 포함된 입력 프레임(120)을 스크린을 통해 출력하기 전에, 비디오 품질 평가 모듈을 이용하여 비디오에 대한 품질 평가를 먼저 수행할 수 있다. 전자 장치(100)는 비디오에 포함된 복수의 프레임들 각각에 대해 품질을 평가하여 프레임 별로 점수를 획득할 수 있다.
실시 예에서, 전자 장치(100)전자 장치(100)는 하나 이상의 인스트럭션을 저장하는 메모리 및 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고, 프로세서는 하나 이상의 인스트럭션을 실행함으로써, 입력 프레임에 포함된 복수개의 서브 영역 각각에 대해 주관적 평가 점수(Mean Opinion Score, MOS)를 획득하고, 상기 복수개의 서브 영역 각각에 대해, 디스플레이의 위치에 따른 특성을 나타내는 위치 가중치를 획득하고, 상기 주관적 평가 점수 및 상기 위치 가중치에 기반하여, 가중 평가 점수를 획득하고, 상기 가중 평가 점수에 기반하여, 상기 입력 프레임 전체에 대한 최종 품질 점수를 획득하는, 최종 품질 점수를 획득할 수 있다.
실시 예에서, 전자 장치(100)는 인공지능 기술(Artificial Intelligence, AI)을 이용하여 프레임의 품질 점수를 획득할 수 있다. AI 기술은 기계학습(딥 러닝) 및 기계 학습을 활용한 요소 기술들로 구성될 수 있다. AI 기술은 알고리즘을 활용하여 구현될 수 있다. 여기서, AI 기술을 구현하기 위한 알고리즘 또는 알고리즘의 집합을 신경망(Neural Network, 뉴럴 네트워크)이라 한다. 신경망은 입력 데이터를 입력 받고, 분석 및 분류를 위한 연산을 수행하여, 결과 데이터를 출력할 수 있다.
실시 예에서, 전자 장치(100)는 입력 프레임(120)을 복수개의 서브 영역으로 나누고, 적어도 하나의 뉴럴 네트워크를 이용하여 각 서브 영역 별로 모델 기반 품질 점수를 획득할 수 있다.
실시 예에서, 적어도 하나의 뉴럴 네트워크는 비디오 품질 평가를 위해 사전에 훈련된 모델일 수 있다.
실시 예에서, 적어도 하나의 뉴럴 네트워크는 주관적 평가 점수(Mean Opinion Score, MOS)를 학습한 뉴럴 네트워크일 수 있다. 주관적 평가 점수는 사람의 주관적 평가를 통해 획득되는 것으로, 다수의 평가자들이 평가한 비디오 품질에 대한 개별 매개 변수를 종합하여 획득한 평균 점수를 의미할 수 있다. 주관적 평가 점수는 주관적 평균 의견 점수로도 호칭될 수 있다.
일반적으로 주관적 평가 점수는 복수의 평가자들이 비디오의 품질을 프레임 단위로 평가함으로써 획득될 수 있다. 이하, 설명의 편의를 위해, 비디오 프레임을 입력 받고, 비디오 프레임에 대해 평가자들이 평가한 주관적 평가 점수를 학습한 뉴럴 네트워크를 제1 뉴럴 네트워크로 호칭하기로 한다.
실시 예에서, 제1 뉴럴 네트워크는 비디오 프레임을 입력 받고, 비디오 프레임으로부터 비디오 프레임의 서브 영역 별 주관적 평가 점수(Mean Opinion Score, MOS)를 학습한 뉴럴 네트워크일 수 있다. 실시 예에서, 전자 장치(100)는 제1 뉴럴 네트워크를 이용하여, 입력 프레임에 포함된 복수개의 서브 영역 별로 주관적 평가 점수를 예측할 수 있다.
실시 예에서, 비디오 프레임의 서브 영역 별로 예측된 주관적 평가 점수는, 비디오 프레임 전체에 대해 평가자들이 평가한 주관적 평가 점수와 동일하지 않을 수 있다. 비디오 프레임 전체에 대해 평가자들이 평가한 주관적 평가 점수는 GT MOS 주관적 평가 점수(Ground Truth Mean Opinion Score, GT MOS)로 호칭될 수 있다. GT MOS, 즉, 정답 셋은 추론에 의해 제공되는 정보와 달리 직접 관찰 및/또는 측정에 의해 제공되는 실제 또는 사실로 알려진 정보 내지는 목표로 하는 정보를 의미할 수 있다.
실시 예에서, 제1 뉴럴 네트워크는 서브 영역 별로 주관적 평가 점수를 예측하는 데 있어 평가자들이 비디오 프레임 전체에 대해 평가한 주관적 평가 점수를 정답 셋으로 이용할 수 있다. 즉, 제1 뉴럴 네트워크는 서브 영역 별로 예측된 주관적 평가 점수가 프레임 전체에 대한 GT MOS와 같아지도록 훈련될 수 있다.
전자 장치(100)가 제1 뉴럴 네트워크만을 이용하여 프레임에 대한 최종 품질 점수를 획득하는 경우, 전자 장치(100)는 제1 뉴럴 네트워크를 통해 예측된 서브 영역 각각에 대한 주관적 평가 점수로부터 전체 프레임에 대한 평균 값을 구하고, 평균 값을 프레임에 대한 최종 품질 점수로 이용되게 된다. 그러나, 서브 영역 각각에 대한 주관적 평가 점수로부터 획득된, 전체 프레임에 대한 평균 값이 최종 품질 점수로 이용되는 경우, 최종 품질 점수가 관심 영역에 대한 평가자들의 평가 점수와 달라지는 문제가 있다.
사람은 보통 화면의 중앙 부분을 가장자리 부분보다 더 많이 보는 경향이 있기 때문에 통상 화면의 중앙 부분이 관심 영역이 된다. 평가자들은 비디오에 대해 평가할 때 관심 영역을 주로 보고 평가하기 때문에 관심 영역에 대한 평가 점수가 프레임 전체에 대한 평가 점수와 유사해야 한다. 그러나, 복수의 서브 영역 전체에 대한 주관적 평가 점수를 평균하는 경우, 관심 영역이 아닌 영역에 대한 평가 점수도 평균 값 연산에 이용되기 때문에, 프레임 전체에 대한 평가 점수가 관심 영역에 대한 평가 점수와 달라지게 된다.
제1 뉴럴 네트워크(600)는 서브 영역 각각에 대해 평가자들이 평가한 서브 영역 별 주관적 평가 점수를 GT MOS로 이용하는 것이 아니고, 프레임 전체에 대해 평가자들이 평가한 주관적 평가 점수를 각 서브 영역 별 GT MOS로 이용하여 학습된다.
제1 뉴럴 네트워크가 학습에 이용하는 GT MOS는 각 서브 영역 별 주관적 평가 점수가 아닌 프레임 전체에 대한 평가 점수와 동일한 점수이기 때문에 제1 뉴럴 네트워크는 디스플레이의 위치에 따라 평가 점수가 달라지는 특성을 반영하지 못한다.
실시 예에서, 전자 장치(100)는 사용자의 주의를 끄는 관심 영역이 디스플레이의 위치에 따라 달라지는 특성이 평가 점수에 반영되도록 하기 위해 디스플레이의 위치에 따른 특성을 나타내는 위치 가중치를 이용할 수 있다.
실시 예에서, 전자 장치(100)는 적어도 하나의 뉴럴 네트워크를 이용하여 복수개의 서브 영역 각각에 대한 주관적 평가 점수로부터 복수개의 서브 영역 각각에 대한 위치 가중치를 획득할 수 있다. 설명의 편의를 위하여, 복수개의 서브 영역 각각에 대한 주관적 평가 점수로부터 디스플레이의 위치에 따른 위치 가중치를 획득하도록 훈련된 뉴럴 네트워크를 제2 뉴럴 네트워크로 호칭하기로 한다.
실시 예에서, 제2 뉴럴 네트워크는, 제1 뉴럴 네트워크를 통해 예측된, 비디오 프레임에 포함된 복수개의 서브 영역 각각에 대한 주관적 평가 점수를 입력 데이터로 입력 받고, 서브 영역 각각에 대한 주관적 평가 점수와 비디오 프레임 전체에 대한 GT MOS 간의 차이에 대응하는 웨이트를 서브 영역 각각에 대한 위치 가중치로 예측하도록 훈련된 뉴럴 네트워크일 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 비디오 프레임에 포함된 복수개의 서브 영역 각각에 대한 주관적 평가 점수에, 위치 가중치를 곱해 획득한 가중 평가 점수의 평균 값이 비디오 프레임 전체에 대한 GT MOS와 같아지도록 훈련된 뉴럴 네트워크일 수 있다.
또는, 다른 실시 예에서, 위치 가중치는 전자 장치(100)에 미리 저장되어 있을 수 있다. 전자 장치(100)를 제조하는 제조사는 제2 뉴럴 네트워크를 이용하여 각 서브 영역 별 위치 가중치를 포함하는 위치 가중치 매트릭스를 예측하고, 이를 전자 장치(100) 내의 메모리 등에 미리 저장시킬 수 있다.
실시 예에서, 전자 장치(100)는 주관적 평가 점수 및 위치 가중치에 기반하여, 가중 평가 점수를 획득할 수 있다. 실시 예에서, 서브 영역 별 가중 평가 점수는, 각 서브 영역 별 주관적 평가 점수에, 각 서브 영역 별 위치 기반 가중치가 곱해져 획득된 점수일 수 있다. 전자 장치(100)는 각 서브 영역 별 주관적 평가 점수를 포함하는 주관적 평가 점수 매트릭스와 각 서브 영역 별 위치 가중치를 포함하는 위치 가중치 매트릭스를 획득하고, 주관적 평가 점수 매트릭스와 위치 가중치 매트릭스를 곱하여, 가중 평가 점수 매트릭스를 획득할 수 있다.
실시 예에서, 전자 장치(100)는 각 서브 영역 별 가중 평가 점수를 평균하여 입력 프레임 전체에 대한 최종 품질 점수를 획득할 수 있다. 따라서, 실시 예에 의하면, 전자 장치(100)가 서브 영역 별 주관적 평가 점수를 평균하는 대신 위치 가중치가 고려된 가중 평가 점수를 평균하여 최종 품질 점수를 획득하기 때문에 위치에 따른 사용자의 관심 영역이 반영된 최종 품질 점수를 획득할 수 있다.
실시 예에서, 전자 장치(100)는 입력 프레임으로부터 관심 영역(Region of Interset)에 대한 고 복잡도 정보를 획득할 수도 있다. 전자 장치(100)는 고 복잡도 정보를 획득한 경우, 서브 영역 별 가중 평가 점수와 고 복잡도 정보를 함께 고려하여, 입력 프레임에 대한 최종 품질 점수를 획득할 수 있다.
실시 예에서, 관심 영역은 전자 장치(100)를 이용하는 사용자나 시청자의 주의를 끄는 영역을 의미할 수 있다. 실시 예에서, 관심 영역에 대한 정보는, 디스플레이의 위치 별 특성을 나타내는 위치 가중치와 같은 저 복잡도 정보를 포함할 수 있다. 또한, 실시 예에서, 관심 영역에 대한 정보는 높은 연산량과 비용이 요구되는 고 복잡도 정보를 포함할 수 있다. 고 복잡도 정보는 예컨대, 입력 프레임으로부터 획득된 화자 식별 정보, 시맨틱 세그멘테이션(semantic segmentation) 정보, 오브젝트 디텍션(object detection) 정보, 세일리언시 맵(saliency map) 정보 적어도 하나를 포함할 수 있다.
실시 예에서, 고 복잡도 정보를 획득하는 것은 전자 장치(100)의 모델 사양이나 용량, 성능 등에 따라 달라질 수 있다. 예컨대, 전자 장치(100)가 대용량 메모리와 고 성능의 CPU 등을 내장하고 있는 경우, 전자 장치(100)는 입력 프레임으로부터 고 복잡도 정보를 획득하고 이를 최종 품질 점수 획득에 이용할 수 있다. 또는 사용자가 유저 인터페이스 등을 이용하여, 전자 장치(100)의 설정 메뉴에서 고 복잡도 정보 획득 여부를 결정하는 경우, 전자 장치(100)는 품질 개선을 수행할 때 사용자 선택에 따라 고 복잡도 정보를 이용할지 여부를 결정할 수 있다.
실시 예에서, 고 복잡도 정보에 포함된 각각의 정보에는 서로 다른 비중으로 중요도가 부여될 수 있다. 고 복잡도 정보에 각각의 중요도가 부여된 경우, 전자 장치(100)는 고 복잡도 정보 각각에, 각 정보의 중요도에 따른 비중을 곱하고, 이를 서브 영역 별 가중 평가 점수와 함께 고려하여 최종 품질 점수를 획득할 수 있다.
이와 같이, 실시 예에 의하면, 전자 장치(100)는 디스플레이의 위치에 따른 특성을 이용하여 위치 가중치를 생성하고, 이를 서브 영역 별 주관적 평가 점수와 함께 고려하여 최종 품질 점수를 획득할 수 있다. 따라서, 전자 장치(100)는 화면의 위치에 따른 관심 영역을 고려하여 프레임에 대한 최종 품질 점수를 획득하기 때문에 보다 정확하게 프레임의 품질 점수를 획득할 수 있다.
전자 장치(100)는 각 프레임 별로 획득한 점수를 소정 프레임들에 대해 소정 시간 동안 누적하여 복수의 프레임들을 포함하는 비디오에 대한 최종 품질 점수를 획득할 수 있다.
실시 예에서, 전자 장치(100)는 최종 품질 점수에 따라 비디오에 포함된 프레임들에 대해 화질 처리를 수행할 수 있다. 도 1에서, 전자 장치(100)는 최종 품질 점수를 기반으로, 입력 프레임(120)을 출력 프레임(130)과 같이 향상시킬 수 있다. 전자 장치(100)는 출력 프레임(130)을 디스플레이를 통해 출력할 수 있다.
다른 실시 예에서, 비디오 품질 평가 모듈은 전자 장치(100)에 포함되지 않고, 전자 장치(100)와 별개의 장치로 구현될 수도 있다. 즉, 전자 장치(100)는 통신망(미도시)를 통해 비디오 품질 평가 모듈과 통신할 수 있다. 이 경우, 전자 장치(100)는 통신망을 통해 비디오를 외부의 비디오 품질 평가 모듈로 전송할 수 있다. 비디오 품질 평가 모듈은 전자 장치(100)로부터 복수의 프레임들을 포함하는 비디오를 수신하고, 프레임들에 대한 주관적 평가 점수(Mean Opinion Score, MOS)를 학습한 뉴럴 네트워크를 이용하여, 프레임에 포함된 복수의 서브 영역 별 모델 기반 품질 점수를 획득할 수 있다.
비디오 품질 평가 모듈은 전자 장치(100)로부터 전자 장치(100)에 포함된 디스플레이에 대한 정보를 수신할 수 있다. 디스플레이에 대한 정보는 디스플레이의 크기 및 위치 중 적어도 하나에 대한 정보를 포함할 수 있다. 비디오 품질 평가 모듈은 디스플레이에 대한 정보로부터 디스플레이의 위치 별 특성을 나타내는 위치 가중치를 획득하고, 위치 가중치를 서브 영역 별 모델 기반 주관적 평가 점수와 함께 고려하여 서브 영역 별 가중 평가 점수를 획득할 수 있다.
비디오 품질 평가 모듈은 위치 가중치가 적용된 주관적 평가 점수에 기반하여 전체 프레임의 품질 점수를 획득하고, 복수의 프레임들에 대한 시계열 데이터를 누적하여 전체 비디오에 대한 품질 점수를 획득할 수 있다.
비디오 품질 평가 모듈은 입력 프레임으로부터 고 복잡도 정보를 획득할 수도 있다. 이 경우, 비디오 품질 평가 모듈은 서브 영역 별 고 복잡도 정보를 가중 평가 점수에 적용할 수 있다. 비디오 품질 평가 모듈은 고 복잡도 정보와 가중 평가 점수에 기반형 전체 프레임의 품질 점수를 획득하고 이를 복수 프레임들에 대해 누적하여 전체 비디오에 대한 품질 점수를 획득할 수 있다.
비디오 품질 평가 모듈은 획득한 점수를 통신망을 통해 전자 장치(100)로 전송할 수 있다. 전자 장치(100)는 비디오 품질 평가 모듈로부터 수신한 점수에 기반하여, 비디오의 화질을 처리하여 출력할 수 있다.
또는 비디오 품질 평가 모듈은 획득한 점수를 기반으로 비디오의 화질을 직접 처리한 후 이를 전자 장치(100)로 전송할 수도 있다. 전자 장치(100)는 비디오 품질 평가 모듈로부터 수신한 개선된 화질의 비디오를 출력할 수 있다.
이와 같이, 실시 예에 의하면, 비디오 품질 평가 모듈은 전자 장치(100) 내부에 구비되거나 또는 전자 장치(100) 외부에 구비되어 위치 별 가중치를 획득하고, 이를 이용하여 모델 기반 품질 점수, 즉, 서브 영역 별 주관적 평가 점수를 수정함으로써, 전자 장치(100)의 디스플레이의 위치에 따른 사용자의 관심 영역을 보다 잘 반영한 품질 점수를 획득할 수 있다.
도 2는 실시 예에 따른 전자 장치의 일 예의 내부 블록도이다.
도 2를 참조하면, 전자 장치(100a)는 프로세서(210) 및 메모리(220)를 포함할 수 있다.
실시 예에 따른 메모리(220)는, 적어도 하나의 인스트럭션을 저장할 수 있다. 메모리(220)는 프로세서(210)가 실행하는 적어도 하나의 프로그램을 저장하고 있을 수 있다. 메모리(220)에는 적어도 하나의 뉴럴 네트워크 및/또는 기 정의된 동작 규칙이나 AI 모델이 저장될 수 있다. 또한 메모리(220)는 전자 장치(100a)로 입력되거나 전자 장치(100a)로부터 출력되는 데이터를 저장할 수 있다.
메모리(220)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
실시 예에서, 메모리(220)에는 비디오 품질 평가 방법을 수행하기 위한 하나 이상의 인스트럭션이 저장될 수 있다.
실시 예에서, 메모리(220)는 복수의 서브 영역 별로 주관적 평가 점수를 획득하기 위한 하나 이상의 인스트럭션을 포함할 수 있다.
실시 예에서, 메모리(220)는 디스플레이의 위치에 따른 특성을 나타내는 위치 가중치를 획득하기 위한 하나 이상의 인스트럭션을 포함할 수 있다.
실시 예에서, 메모리(220)는 복수의 서브 영역 별로 주관적 평가 점수 및 위치 가중치에 기반하여 입력 프레임에 대한 최종 품질 점수를 획득하기 위한 하나 이상의 인스트럭션을 포함할 수 있다.
실시 예에서, 메모리(220)에는 적어도 하나의 뉴럴 네트워크 및/또는 기 정의된 동작 규칙이나 AI 모델이 저장될 수 있다.
실시 예에서, 메모리(220)에는 비디오 프레임으로부터 서브 영역 별 주관적 평가 점수를 학습한 제1 뉴럴 네트워크가 저장될 수 있다.
실시 예에서, 메모리(220)에는 주관적 평가 점수로부터 디스플레이의 위치 별 가중치 매트릭스를 획득하도록 훈련된 제2 뉴럴 네트워크가 저장될 수 있다. 또는, 다른 실시 예에서, 메모리(220)에는 각 서브 영역 별 위치 가중치를 포함하는 위치 가중치 매트릭스가 저장되어 있을 수 있다. 제조사는 제2 뉴럴 네트워크를 이용하여 비디오 프레임의 서브 영역 별 주관적 평가 점수로부터 디스플레이의 위치에 따른 위치 가중치 매트릭스를 획득하고, 제2 뉴럴 네트워크를 통해 획득한 위치 가중치 매트릭스를 메모리(220)에 미리 저장할 수 있다.
프로세서(210)는 전자 장치(100a)의 전반적인 동작을 제어한다. 프로세서(210)는 메모리(220)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 전자 장치(100a)가 기능하도록 제어할 수 있다.
실시 예에서, 프로세서(210)는 복수의 프레임을 포함하는 비디오에 대해 품질 평가를 수행할 수 있다. 이를 위해, 프로세서(210)는 프레임을 복수의 서브 영역으로 나누고, 제1 뉴럴 네트워크를 이용하여 각 서브 영역 별로 모델 기반 품질 점수를 획득할 수 있다. 제1 뉴럴 네트워크는 평가자 디스플레이 장치를 이용하여 획득한 주관적 평가 점수(Mean Opinion Score, MOS)를 미리 학습한 뉴럴 네트워크일 수 있다.
실시 예에서, 프로세서(210)는 위치 가중치 매트릭스를 획득할 수 있다. 프로세서(210)는 메모리(220)로부터 기 저장되어 있는 위치 가중치 매트릭스를 획득하거나, 또는 메모리(220)에 저장되어 있는 제2 뉴럴 네트워크를 이용하여, 복수의 서브 영역 별 주관적 평가 점수로부터 복수의 서브 영역 별 위치 가중치를 획득할 수 있다.
실시 예에서, 프로세서(210)는 서브 영역 별로 위치 가중치를 주관적 평가 점수에 적용하여 서브 영역 별 가중 평가 점수를 획득할 수 있다. 프로세서(210)는 서브 영역 별 가중 평가 점수를 평균하여 프레임 전체에 대한 평균 점수를 획득하고, 복수 프레임들에 대해 평균 점수를 누적하여 전체 비디오에 대한 최종 품질 점수를 획득할 수 있다.
도 3은 실시 예에 따른 도 2의 프로세서의 내부 블록도이다.
도 3을 참조하면, 프로세서(210)는 주관적 평가 점수 획득부(211), 위치 가중치 획득부(213), 가중 평가 점수 획득부(215) 및 최종 품질 점수 획득부(217)를 포함할 수 있다.
전자 장치(100a)는 비디오를 입력 받고, 입력된 비디오의 각 프레임을 복수의 서브 영역으로 나눌 수 있다. 각 서브 영역은 소정 개수의 픽셀들을 포함하는 영역일 수 있다. 서브 영역의 수나 사이즈는 사용자 또는 전자 장치(100a)에 의해 미리 설정되어 있거나, 사용자 또는 전자 장치(100a)에 의해 프레임에 맞게 변경될 수 있다. 사용자 또는 전자 장치(100a)는 프레임 별로 서브 영역의 수나 서브 영역의 사이즈를 조절하여 프레임이 더 촘촘하게 나뉘도록 하거나 또는 반대로 더 굵직하게 나뉘도록 설정할 수 있다.
복수의 서브 영역으로 나뉜 프레임은 주관적 평가 점수 획득부(211)로 입력될 수 있다. 주관적 평가 점수 획득부(211)는 복수의 서브 영역들로 나뉜 프레임을 입력 신호(IN)로 수신하고, 이로부터 주관적 평가 점수를 획득할 수 있다.
실시 예에서, 주관적 평가 점수 획득부(211)는 각 서브 영역 별로 주관적 평가 점수(Mean Opinion Score, MOS)를 획득할 수 있다. MOS는 사람의 주관적 평가를 통해 획득되는 것으로, 다수의 사람들이 평가한 비디오 품질에 대한 개별 매개 변수를 종합하여 획득한 평균 점수를 의미할 수 있다. 주관적 평가 점수 획득부(211)는 각 서브 영역 별로 획득한 주관적 평가 점수를 위치 가중치 획득부(213)로 보낸다.
일반적으로, 사람이 비디오를 볼 때 비디오에 포함된 왜곡을 인식하는 정도는 화면의 위치에 따라 달라질 수 있다. 사람은 보통 화면의 중앙 부분을 가장자리 부분보다 더 많이 보는 경향이 있다. 따라서, 왜곡의 정도가 같더라도 스크린의 중앙에 왜곡이 있는 경우와 스크린의 가장자리 부분에 왜곡이 있는 경우, 사람은 왜곡의 정도를 다르게 인식하게 된다. 관심 영역에 따라 왜곡의 정도를 인식하는 정도가 달라진다는 것은 관심 영역에 따라 평가자들이 비디오 품질을 평가하는 평가 점수 또한 다르다는 것을 의미할 수 있다. 그러나, 주관적 평가 점수 획득부(211)가 획득하는 각 서브 영역 별 주관적 평가 점수는 프레임 전체에 대한 정답 셋, 즉, GT MOS와 유사한 값을 갖도록 예측된 점수이기 때문에 서브 영역의 위치에 따라 평가 점수가 달라지는 특성을 반영하지 못한다.
실시 예에서, 위치 가중치 획득부(213)는 위치 가중치를 획득할 수 있다. 위치 가중치는 디스플레이의 위치에 따라 평가 점수가 달라지는 특성을 나타내기 위한 정보일 수 있다. 위치 가중치는 사용자의 주의를 끄는 관심 영역이 디스플레이의 위치에 따라 달라지는 특성이 품질 점수에 미치는 영향을 반영하기 위해 이용될 수 있다.
위치 가중치 획득부(213)는 각 서브 영역 별로 위치 가중치를 획득하고, 이를 이용하여 프레임 전체에 대한 위치 가중치 매트릭스를 생성할 수 있다.
일 실시 예에서, 위치 가중치 획득부(213)는 주관적 평가 점수 획득부(211)로부터 입력된 각 서브 영역 별 주관적 평가 점수로부터 각 서브 영역 별 위치 가중치를 획득할 수 있다. 즉, 위치 가중치는 주관적 평가 점수 획득부(211)가 획득한 주관적 평가 점수에 따라 다르게 생성될 수 있다.
다른 실시 예에서, 위치 가중치 획득부(213)는 메모리(220)에 기 저장되어 있는 위치 가중치 매트릭스를 획득할 수 있다. 제조사는 디스플레이의 위치에 따라 부여되는 가중치를 고려하여 위치 가중치 매트릭스를 생성하고 이를 메모리(220)에 미리 저장할 수 있다.
기 저장되어 있는 위치 가중치 매트릭스는 디스플레이의 위치 별 특성을 고정된 값으로 나타내는 위치 가중치를 포함하는 매트릭스일 수 있다. 이 경우, 위치 가중치는 주관적 평가 점수 획득부(211)로부터 수신한 주관적 평가 점수와는 무관한 값을 갖는 값을 가질 수 있다.
실시 예에서, 위치 가중치 획득부(213)는 각 서브 영역 별로 획득한 위치 가중치를 주변 서브 영역들에 대해 획득한 위치 가중치를 참조하여 수정할 수 있다. 예컨대, 위치 가중치 획득부(213)는 제1 서브 영역과 이웃한 적어도 하나의 주변 서브 영역, 예컨대, 제1 서브 영역의 우측, 좌측, 상측, 하측에 위치한 주변 서브 영역들 중 적어도 하나의 위치 가중치를 이용하여 제1 서브 영역에 대한 위치 가중치를 수정하여, 주변 서브 영역들의 위치 가중치가 자연스러운 값이 되도록 할 수 있다. 다만, 이는 하나의 실시 예로, 위치 가중치 획득부(213)는 주변 서브 영역들의 위치 가중치를 고려하지 않을 수도 있다.
실시 예에서, 가중 평가 점수 획득부(215)는 주관적 평가 점수 획득부(211)로부터 주관적 평가 점수를 수신하고, 위치 가중치 획득부(213)로부터 위치 가중치를 수신할 수 있다.
실시 예에서, 가중 평가 점수 획득부(215)는 주관적 평가 점수와 위치 가중치에 기반하여 서브 영역 별 가중 평가 점수를 획득할 수 있다.
실시 예에서, 가중 평가 점수 획득부(215)는 주관적 평가 점수와 위치 가중치를 곱하여 서브 영역 별 가중 평가 점수를 획득할 수 있다. 또는, 가중 평가 점수 획득부(215)는 주관적 평가 점수와 위치 가중치를 가중합(weighted sum)하여 서브 영역 별 가중 평가 점수를 획득할 수도 있다.
실시 예에서, 가중 평가 점수 획득부(215)는 서브 영역 별로 획득된 가중 평가 점수를 최종 품질 점수 획득부(217)로 보낸다.
실시 예에서, 최종 품질 점수 획득부(217)는 가중 평가 점수 획득부(215)로부터 수신한 서브 영역 별 가중 평가 점수로부터 서브 영역 별 가중 평가 점수의 평균 값을 획득할 수 있다. 최종 품질 점수 획득부(217)는 프레임에 포함된 각 서브 영역 별 가중 평가 점수를 모두 더하고 이를 프레임에 포함된 서브 영역들의 수로 나누어, 서브 영역 별 가중 평가 점수의 평균 값을 획득할 수 있다.
실시 예에서, 최종 품질 점수 획득부(217)는 출력 신호(OUT)로 프레임 단위로 획득한 평균 값, 즉, 프레임 전체에 대한 최종 품질 점수를 출력할 수 있다.
도 4는 다른 실시 예에 따른, 도 2의 프로세서의 내부 블록도이다.
도 4를 참조하면, 프로세서(210)는 주관적 평가 점수 획득부(211), 위치 가중치 획득부(213), 가중 평가 점수 획득부(215), 최종 품질 점수 획득부(217) 외에 고 복잡도 특징 정보 획득부(219)를 더 포함할 수 있다.
도 4의 프로세서(210)에 포함된 주관적 평가 점수 획득부(211), 위치 가중치 획득부(213), 가중 평가 점수 획득부(215) 및 최종 품질 점수 획득부(217)는 도 3의 프로세서(210)에 포함된 주관적 평가 점수 획득부(211), 위치 가중치 획득부(213), 가중 평가 점수 획득부(215) 및 최종 품질 점수 획득부(217)와 수행하는 기능이 동일하므로 동일한 도면 부호를 사용하였다. 이하, 도 3에서 설명한 내용과 중복되는 설명은 생략한다.
실시 예에서, 전자 장치(100a)는 품질 점수를 획득하는 데 있어 위치 가중치 외에도 고 복잡도 특징 정보를 더 고려할 수 있다. 이를 위해, 전자 장치(100a)는 고 복잡도 특징 정보 획득부(219)를 더 포함할 수 있다.
고 복잡도 특징 정보 획득부(219)는 입력 프레임으로부터 고 복잡도 특징 정보를 획득할 수 있다.
전술한 위치 가중치는, 상대적으로 낮은 연산량 및 낮은 복잡도로 획득될 수 있다. 이와 달리, 고 복잡도 특징 정보는 관심 영역을 획득하는 데 있어 높은 연산량 및 복잡도(complexity)가 요구되는 정보를 의미할 수 있다. 고 복잡도 특징 정보는 입력 프레임에서 관심 영역을 찾는데 이용되는 상위 레벨 특징일 수 있다.
실시 예에서, 고 복잡도 특징 정보 획득부(219)는 입력된 프레임의 각 서브 영역으로부터 평가 점수, 즉, 품질과 관련된 다양한 상위 레벨 특징을 나타내는 특징 벡터를 획득할 수 있다. 품질과 관련된 상위 레벨 특징은 화자 식별 정보, 시맨틱 세그멘테이션 정보, 오브젝트 디텍션 정보, 세일리언시 맵 정보 적어도 하나를 포함할 수 있다. 고 복잡도 특징 정보 획득부(219)는 품질과 관련된 특징으로부터 고 복잡도 특징 정보를 나타내는 고 복잡도 가중치를 획득할 수 있다.
실시 예에서, 고 복잡도 특징 정보 획득부(219)는 화자 식별 정보를 획득할 수 있다. 고 복잡도 특징 정보 획득부(219)는 비디오 프레임과 오디오 프레임을 함께 입력 받고 입력된 비디오 프레임과 오디오 프레임의 특징을 분석 및 분류하여, 프레임의 어느 위치에 화자가 있는지를 식별할 수 있다. 고 복잡도 특징 정보 획득부(219)는 화자가 있는 위치를 식별하고, 식별된 위치에 높은 가중치를 부여하여 화자 식별 정보에 따른 고 복잡도 가중치를 획득할 수 있다.
실시 예에서, 고 복잡도 특징 정보 획득부(219)는 오브젝트 디텍션(object detection) 정보를 획득할 수 있다. 고 복잡도 특징 정보 획득부(219)는 프레임에 포함된 오브젝트에 더 높은 웨이트를 주어 오브젝트 디텍션 정보에 따른 고 복잡도 가중치를 획득할 수 있다.
실시 예에서, 고 복잡도 특징 정보 획득부(219)는 시맨틱 세그멘테이션 (semantic segmentation)정보를 획득할 수 있다. 사람은 프레임에 포함된 오브젝트의 시맨틱(semantic) 정보를 고려하여 비디오를 보는 경향이 있다. 이는 해당 비디오 프레임에 포함된 오브젝트가 무엇인지에 따라, 즉, 그 오브젝트가 프레임에서 갖는 의미에 따라 오브젝트의 왜곡을 인식하는 정도가 달라질 수 있음을 의미한다. 예컨대, 비디오가 사람의 얼굴과 얼굴 주변의 하늘을 포함하는 경우, 프레임에 포함된 오브젝트가 얼굴인지, 또는 하늘인지에 따라 비디오를 시청하는 사람이 인식하는 중요도 정보는 달라질 수 있다. 즉, 사람은 배경인 하늘에 왜곡이 포함된 경우보다 얼굴에 왜곡이 포함된 경우 왜곡을 더 크게 인식하게 된다. 실시 예에서, 고 복잡도 특징 정보 획득부(219)는 오브젝트의 종류를 구분하고, 오브젝트가 갖는 의미에 따라 다른 웨이트를 부여함으로써 시맨틱 세그멘테이션 정보에 따른 고 복잡도 가중치를 획득할 수 있다.
실시 예에서, 고 복잡도 특징 정보 획득부(219)는 세일리언시 맵(saliency map) 정보를 획득할 수 있다. 세일리언시 맵은 사람들의 관심을 끄는 세일리언시 영역을 다른 영역과 구별하여 표현하는 맵을 의미할 수 있다. 세일리언시 영역은 비디오 프레임에서 사용자의 관심을 끄는 영역, 즉, 시각적 집중도가 높은 영역을 의미할 수 있다. 예컨대, 고 복잡도 특징 정보 획득부(219)는 평가자의 시선을 추적하여 얻어진 세일리언시 영역을 미리 학습한 모델을 이용하여 프레임으로부터 세일리언시 맵을 획득할 수 있다. 세일리언시 영역을 미리 학습한 모델은 입력된 비디오 프레임에 포함된 픽셀들 각각 또는 유사한 특징을 갖는 복수 픽셀들을 포함하는 픽셀 그룹의 색 변화나 분포, 엣지(edges), 공간 주파수, 구조, 분포, 히스토그램, 텍스쳐(texture) 등을 고려하여 입력된 비디오 프레임에 대한 세일리언시 맵을 획득하도록 학습된 뉴럴 네트워크일 수 있다. 실시 예에서, 고 복잡도 특징 정보 획득부(219)는 세일리언시 맵 영역에 높은 웨이트를 부여함으로써 시맨틱 세그멘테이션 정보에 따른 고 복잡도 가중치를 획득할 수 있다.
실시 예에서, 전자 장치(100a)는 적어도 하나의 뉴럴 네트워크를 이용하여, 입력 프레임으로부터 특징 맵을 획득하고, 이를 기반으로 고 복잡도 특징 정보를 획득할 수 있다.
실시 예에서, 전자 장치(100a)는 전자 장치(100a)의 용량이나 성능 등을 고려하여 고 복잡도 특징 정보를 획득 여부를 결정할 수 있다. 예컨대, 전자 장치(100a)는 비디오 품질 장치에 포함된 메모리 용량이나 CPU, 프로세서 등의 성능이 고 복잡도 특징 정보를 획득하기에 충분한 경우, 고 복잡도 특징 정보 획득부(219)가 동작하도록 제어할 수 있다. 고 복잡도 특징 정보 획득부(219)는 적어도 하나의 뉴럴 네트워크를 이용하여 고 복잡도 특징 정보를 획득할 수 있다.
실시 예에서, 전자 장치(100a)는 사용자의 선택에 따라 고 복잡도 특징 정보 획득부(219)의 동작 여부를 결정할 수 있다. 예컨대, 사용자는 사용자 인터페이스를 통해 메뉴 설정 기능에서 고 복잡도 특징 정보 획득부(219)의 동작 여부를 선택할 수 있다. 사용자가 왜곡의 정도가 더 낮고 더 높은 선명도를 갖는 비디오를 시청할 것을 선택하는 경우, 전자 장치(100a)는 고 복잡도 특징 정보 획득부(219)가 동작하도록 함으로써, 고 복잡도 특징 정보가 최종 점수 획득에 이용되도록 할 수 있다.
실시 예에서, 고 복잡도 특징 정보 획득부(219)는 고 복잡도 특징 정보를 획득하고 고 복잡도 특징 정보를 나타내는 고 복잡도 가중치를 획득할 수 있다. 고 복잡도 특징 정보 획득부(219)는 고 복잡도 가중치를 최종 품질 점수 획득부(217)로 보낼 수 있다.
최종 품질 점수 획득부(217)는 가중 평가 점수 획득부(215)로부터 수신한 서브 영역 별 가중 평가 점수에, 고 복잡도 특징 정보 획득부(219)로부터 수신한 고 복잡도 가중치를 적용하여 고 복잡도 특징 정보가 반영된 최종 품질 점수를 획득할 수 있다.
도 5는 실시 예에 따라, 전자 장치가 뉴럴 네트워크를 이용하여 비디오 품질을 평가하는 것을 설명하기 위한 도면이다.
도 5는 전자 장치에 포함된 프로세서(510)의 내부 블록도를 도시한 것으로, 도 5에 도시된 프로세서(510)는 도 2의 전자 장치(100a)에 포함된 프로세서(210)의 일 예일 수 있다.
도 5를 참조하면, 프로세서(510)는 제1 뉴럴 네트워크(511), 제2 뉴럴 네트워크(512) 및 최종 품질 점수 획득부(513)를 포함할 수 있다.
실시 예에서, 제1 뉴럴 네트워크(511)는 입력 데이터에서 특징을 추출하는 알고리즘일 수 있다. 실시 예에서, 제1 뉴럴 네트워크(511)는 입력 데이터를 분석 및 분류하여 입력된 데이터로부터 이미지의 품질 평가 점수를 추출하도록 학습된 모델일 수 있다. 실시 예에서, 제1 뉴럴 네트워크(511)는 입력 프레임에 포함된 복수의 서브 영역을 입력(IN)받고, 이로부터 주관적 평가 점수를 획득하도록 훈련될 수 있다.
복수의 평가자들은 비디오 및/또는 비디오에 포함된 프레임의 품질을 평가할 수 있다. 각 프레임에 대한 평가자들의 평가 점수는 주관적 평가 점수(MOS)로 환산되어 복수의 프레임과 함께 제1 뉴럴 네트워크(511)를 훈련하는 학습 데이터로 이용될 수 있다. 실시 예에서, 제1 뉴럴 네트워크(511)는 복수의 학습 데이터를 입력 값으로 하여 각 서브 영역 별로 주관적 평가 점수를 예측하는 방법을 학습할 수 있다. 제1 뉴럴 네트워크(511)는 비디오 프레임과 비디오 프레임에 대한 평가자들의 주관적 평가 점수를 학습 데이터 셋으로 입력 받고, 비디오 프레임과 주관적 평가 점수 간의 관련성을 학습할 수 있다.
실시 예에서, 제1 뉴럴 네트워크(511)를 훈련하는데 이용되는 주관적 평가 점수는 비디오 프레임 전체에 대한 평가자들의 주관적 평가 점수일 수 있다. 제1 뉴럴 네트워크(511)는 비디오 프레임으로부터 복수의 서브 영역 별 품질 점수를 추론/예측하고, 예측한 복수의 서브 영역 별 주관적 평가 점수가, 비디오 프레임 전체에 대한 평가자들의 주관적 평가 점수와 같아지도록 반복하여 훈련될 수 있다.
실시 예에서, 훈련이 끝난 제1 뉴럴 네트워크(511)는 전자 장치(100a)에 포함되어, 입력 프레임을 수신(IN)하고, 입력 프레임으로부터 입력 프레임에 포함된 복수의 서브 영역 별로 주관적 평가 점수를 획득할 수 있다.
제1 뉴럴 네트워크(511)는 복수의 서브 영역 별로 획득한 주관적 평가 점수를 제2 뉴럴 네트워크(512)로 전송할 수 있다.
실시 예에서, 제2 뉴럴 네트워크(512)는 입력 데이터에서 특징을 추출하는 알고리즘, 또는 알고리즘의 집합, 알고리즘의 집합을 실행하는 소프트웨어 및/또는 알고리집의 집합을 실행하는 하드웨어일 수 있다.
실시 예에서, 제2 뉴럴 네트워크(512)는 비디오 프레임의 서브 영역 별 주관적 평가 점수를 입력 데이터로 입력 받고, 입력 데이터를 분석 및 분류하여 디스플레이의 위치에 따른 특성을 나타내는 위치 가중치를 획득하도록 학습된 모델일 수 있다.
실시 예에서, 제2 뉴럴 네트워크(512)는 한 개 이상의 히든 레이어를 포함할 수 있다. 또는, 실시 예에서, 제2 뉴럴 네트워크(512)는 두 개 이상의 히든 레이어들을 포함하는 딥 뉴럴 네트워크(DNN)일 수 있다. 제2 뉴럴 네트워크(512)는 입력된 데이터가 히든 레이어들을 통과하여 처리됨으로써, 처리된 데이터가 출력되는 구조를 포함할 수 있다. 제2 뉴럴 네트워크(512)의 각 레이어들은 적어도 하나의 노드로 표현되고, 계층 간 노드들은 엣지로 연결될 수 있다.
실시 예에서, 위치 가중치는 디스플레이의 위치에 따라 비디오를 시청하는 사용자의 관심 영역이 달라지는 것을 나타내는 정보일 수 있다.
실시 예에서, 위치 가중치 매트릭스는 서브 영역 각각에 대한 위치 가중치를 포함하는, 전체 프레임에 대한 매트릭스를 의미할 수 있다.
실시 예에서, 제2 뉴럴 네트워크(512)는 모델 기반으로 획득된 비디오 프레임의 서브 영역 별 주관적 평가 점수와, 실제 평가자들이 비디오 프레임에 대해 평가한 비디오 프레임 전체에 대한 주관적 평가 점수 간의 차이에 대응하는 웨이트를 위치 가중치로 획득하도록 훈련될 수 있다.
실시 예에서, 제2 뉴럴 네트워크(512)는 비디오 프레임의 서브 영역 별 주관적 평가 점수와 위치 가중치를 함께 고려하여 각 서브 영역 별 가중 평가 점수를 획득하고, 서브 영역 별 가중 평가 점수의 평균 값이 비디오 프레임 전체에 대한 주관적 평가 점수와 같아지는 위치 가중치 매트릭스를 획득하도록 훈련될 수 있다.
훈련이 끝난 제2 뉴럴 네트워크(512)는 전자 장치(100a)에 포함되어, 제1 뉴럴 네트워크(511)로부터 모델 기반으로 획득된 복수의 서브 영역 별 주관적 평가 점수를 입력 받고, 주관적 평가 점수로부터 위치 가중치를 획득할 수 있다.
실시 예에서, 제2 뉴럴 네트워크(512)는 제1 뉴럴 네트워크(511)로부터 수신한 복수의 서브 영역 별 주관적 평가 점수에, 위치 가중치를 적용할 수 있다. 일 실시 예로, 제2 뉴럴 네트워크(512)는 각 서브 영역 별 주관적 평가 점수와 각 서브 영역 별 위치 가중치를 곱하여 각 서브 영역 별 가중 평가 점수를 획득할 수 있다.
제2 뉴럴 네트워크(512)는 복수개의 서브 영역 각각의 가중 평가 점수를 포함하는 가중 평가 점수 매트릭스를 최종 품질 점수 획득부(513)로 전송할 수 있다.
실시 예에서, 최종 품질 점수 획득부(517)는 제2 뉴럴 네트워크(512)로부터 가중 평가 점수 매트릭스를 수신할 수 있다. 최종 품질 점수 획득부(513)는 가중 평가 점수 매트릭스에 포함된 각각의 가중 평가 점수를 평균하여, 프레임 전체에 대한 최종 품질 점수를 획득할 수 있다.
도 5에는 도시되어 있지 않으나, 전자 장치(100a)는 고 복잡도 특징 정보 획득부를 더 포함할 수 있다. 이 경우, 최종 품질 점수 획득부(517)는 고 복잡도 특징 정보 획득부로부터 고 복잡도 특징 정보를 나타내는 고 복잡도 가중치를 수신하고, 이를 각 서브 영역 별 가중 평가 점수에 적용할 수 있다. 최종 품질 점수 획득부(513)는 고 복잡도 가중치가 적용된 서브 영역 별 가중 평가 점수에 기반하여 프레임 전체에 대한 최종 품질 점수를 획득할 수 있다.
실시 예에서, 최종 품질 점수 획득부(513)는 각각의 프레임에 대한 최종 품질 점수를 이용하여 비디오 전체에 대한 최종 품질 점수를 획득할 수 있다. 최종 품질 점수 획득부(513)는 시간에 따라 누적되는 프레임의 품질 점수를 이용하여, 비디오를 인식하는 것과 관련된 시간적 영향 또는 시간적 의존성을 고려할 수 있다. 실시 예에서, 최종 품질 점수 획득부(513)는 시계열 데이터를 스무딩(smoothing)하여 전체 비디오에 대한 최종 품질 점수를 획득할 수 있다. 종 품질 점수 획득부(513)는 시계열 데이터를 스무딩하기 위해, 간단한 휴리스틱 규칙(heuristic rule)을 이용하거나 또는 뉴럴 네트워크 모델을 이용할 수 있다. 최종 품질 점수 획득부(513)는 누적된 시계열 데이터에 대한 시간에 따른 효과를 고려하여, 전체 비디오에 대한 최종 품질 점수를 획득할 수 있다.
실시 예에서, 최종 품질 점수 획득부(517)는 비디오 전체에 대한 최종 품질 점수를 출력(OUT)할 수 있다.
도 6은 실시 예에 따라, 제1 뉴럴 네트워크가 훈련되는 것을 설명하기 위한 도면이다.
실시 예에서, 제1 뉴럴 네트워크(600)는 비디오 프레임으로부터 주관적 평가 점수를 획득하는 모델로 구축될 수 있다. 제1 뉴럴 네트워크(600)는 비디오 프레임과 비디오 프레임에 대한 평가자들의 주관적 평가 점수를 학습 데이터 셋으로 입력 받고, 비디오 프레임과 주관적 평가 점수 간의 관련성을 학습할 수 있다.
도 6에는 도시되어 있지 않으나, 제1 뉴럴 네트워크(600)는 입력 계층, 숨은 계층(hidden layer) 및 출력 계층을 포함할 수 있다. 숨은 계층은 하나 이상의 계층으로 구성될 수 있다. 제1 뉴럴 네트워크(600)를 형성하는 복수개의 계층들 각각은 하나 이상의 노드(node)를 포함할 수 있다. 인접한 두 개의 계층들의 노드들은 복수개의 엣지(edge)들로 연결될 수 있다. 제1 뉴럴 네트워크(600)에 포함된 각 계층들은 연산을 수행하여 입력 데이터로부터 주관적 평가 점수를 획득할 수 있다.
도 6을 참조하면, 제1 뉴럴 네트워크(600)의 입력 계층으로 복수의 서브 영역들(SB1, SB2, …, SBs)을 포함하는 입력 프레임(610)이 입력될 수 있다.
실시 예에서, 제1 뉴럴 네트워크(600)는 입력 프레임(610)으로부터 서브 영역 별 특징을 추출하고, 이를 분석 및 분류하여 출력 데이터를 출력할 수 있다. 실시 예에서, 제1 뉴럴 네트워크(600)는 서브 영역 별로 평가자들의 주관적 평가 점수를 예측하고, 예측된 주관적 평가 점수를 포함하는 매트릭스를 출력 데이터(620)로 출력할 수 있다.
실시 예에서, 제1 뉴럴 네트워크(600)는 결과의 정확도를 높이기 위해서, 복수의 학습 데이터에 근거하여 출력 계층에서 입력 계층 방향으로 학습(training)을 반복적으로 수행하여 출력 결과의 정확도가 높아지도록 엣지들의 값을 수정할 수 있다. 즉, 제1 뉴럴 네트워크(600)는 출력 계층에서 출력되는 출력 데이터(620)와 GT MOS MOS(GT MOS)(630) 간의 오차(loss, 640)를 입력 받고, 오차(640)가 최소가 되도록 히든 레이어에 포함된 엣지들의 값을 계속 수정할 수 있다. 제1 뉴럴 네트워크(600)는 수정된 엣지들의 값을 이용하여, 서브 영역 별로 평가자들의 주관적 평가 점수를 예측하고 이를 출력 데이터(620)로 출력할 수 있다.
GT MOS(630)는 추론에 의해 제공되는 정보와 달리 직접 관찰 및/또는 측정에 의해 제공되는 실제 또는 사실로 알려진 정보를 의미할 수 있다. 제1 뉴럴 네트워크(600)가 학습에 이용하는 GT MOS(630)는 입력 프레임(610) 전체에 대한 평가자들의 주관적 평가 점수(MOS)일 수 있다. 즉, 제1 뉴럴 네트워크(600)는 평가자들이 각 서브 영역 별로 생성한 주관적 평가 점수를 GT MOS로 이용하는 것이 아니고, 프레임 전체에 대한 주관적 평가 점수와 동일한 점수를 각 서브 영역 별 주관적 평가 점수로 갖는 매트릭스를 GT MOS(630)로 이용할 수 있다. 예컨대, 도 6에서, 프레임 전체에 대한 주관적 평가 점수를 3점이라고 하면, 제1 뉴럴 네트워크(600)는 각 서브 영역 별 주관적 평가 점수가 모두 3점인 매트릭스를 GT MOS(630)로 이용하여, GT MOS(630)와 출력 데이터(620), 즉, 서브 영역 별로 예측된 주관적 평가 점수를 포함하는 매트릭스 간의 오차(640)가 최소가 되도록 학습될 수 있다.
도 6에 도시된 바와 같이, 제1 뉴럴 네트워크(600)로부터 출력된 출력 데이터(620)는 주관적 평가 점수를 포함하는 매트릭스에서 가운데 위치한 서브 영역의 평가 점수는 주관적 평가 점수인 3점과 근접한 점수를 갖고, 주변에 위치한 서브 영역의 평가 점수는 3점과 차이가 큰 점수를 갖는 것을 알 수 있다. 이는, 사용자의 주의를 끄는 관심 영역이 프레임의 위치에 따라 다르다는 것을 의미할 수 있다. 또한, 사용자의 주의를 끄는 관심 영역이 프레임의 가운데 영역이라는 것을 의미할 수 있다. 예컨대, 입력 프레임(610)의 가운데 영역에 사용자의 주의를 끄는 중요한 정보가 포함되어 있고, 테두리 영역에는 왜곡의 정도가 큰 블러(blur)등이 포함된 경우일 수 있다.
그러나, 제1 뉴럴 네트워크(600)가 학습에 이용하는 GT MOS(630)는 프레임 전체에 대한 주관적 평가 점수와 동일한 점수 3점을 각 서브 영역 별 주관적 평가 점수로 포함하는 매트릭스라는 점에서, 제1 뉴럴 네트워크(600)는 프레임의 서브 영역의 위치에 따라 사용자의 주의를 끄는 관심도 및 평가 점수가 달라지는 것을 학습하지 못하는 한계를 갖는다. 또한, 제1 뉴럴 네트워크(600)를 통해 획득된 출력 데이터(620)인 주관적 평가 점수를 프레임 단위로 평균을 내고, 평균 값을 이용하여 프레임 전체에 대한 최종 품질 점수를 획득할 경우, 관심 영역이 아닌 영역에 대한 평가 점수도 평균 값 연산에 이용되기 때문에, 프레임 전체에 대한 최종 품질 점수가 관심 영역에 대한 평가 점수와 멀어지게 된다.
도 7은 실시 예에 따라, 제2 뉴럴 네트워크가 위치 가중치 매트릭스를 획득하는 것을 설명하기 위한 도면이다.
전술한 바와 같이, 제1 뉴럴 네트워크는 프레임의 서브 영역의 위치에 따라 평가 점수가 달라지는 것을 학습하지 않는다. 따라서, 실시 예에서는, 제2 뉴럴 네트워크를 이용하여 서브 영역의 위치와 평가 점수 간의 관련성을 나타내는 가중치를 학습할 수 있다. 실시 예에서, 학습이 끝난 제2 뉴럴 네트워크는 위치에 따른 가중치를 추론하여, 위치에 따른 가중치가 평가 점수에 반영되도록 할 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 제1 뉴럴 네트워크와 마찬가지로 비디오 프레임 및 비디오 프레임에 대한 평가자들의 주관적 평가 점수를 학습 데이터로 이용하여 훈련될 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 제1 뉴럴 네트워크와 연결되어, 제1 뉴럴 네트워크 모델을 기반으로 예측된 비디오 프레임의 주관적 평가 점수를 입력 데이터로 입력 받을 수 있다. 제2 뉴럴 네트워크는 모델 기반으로 예측된 비디오 프레임의 서브 영역 별 주관적 평가 점수 및 프레임 전체에 대해 평가자들이 평가한 주관적 평가 점수, 즉, GT MOS로부터, 서브 영역의 위치에 따른 특성을 나타내는 위치 가중치를 획득하도록 훈련될 수 있다.
도 7을 참조하여 설명하면, 제2 뉴럴 네트워크의 입력 계층으로는 모델 기반으로 획득된 복수의 서브 영역 별 주관적 평가 점수를 포함하는 매트릭스(710)가 입력될 수 있다. 프레임의 가로 및 세로를 각각 M개 및 N개의 서브 영역 내지 패치(patch)로 나눈다고 가정하면, 전체 프레임에는 총 MxN개의 서브 영역이 포함되게 된다. 모델 기반 주관적 평가 점수를 포함하는 매트릭스(710)는 MxN개의 서브 영역 각각에 대한 평가 점수를 p1,1, p1,2, …, pm,n와 같이 포함할 수 있다. 모델 기반 주관적 평가 점수를 포함하는 매트릭스(710)는 제1 뉴럴 네트워크를 통해 예측된 출력 데이터일 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 모델 기반 주관적 평가 점수를 포함하는 매트릭스(710)로부터, 각 서브 영역에 적용할 위치 가중치를 포함하는 위치 가중치 매트릭스(720)를 생성할 수 있다. 위치 가중치 매트릭스(720)는 모델 기반 주관적 평가 점수를 포함하는 매트릭스(710)와 마찬가지로 MxN개의 서브 영역에 대한 위치 가중치를 포함할 수 있다. 예컨대, 도 7에 도시된 바와 같이, 제2 뉴럴 네트워크가 생성한 위치 가중치 매트릭스(720)는 각 서브 영역 별로 적용될 위치 가중치를 w1,1, w1,2, …, w m,n와 같이 포함할 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 각각의 서브 영역에 대해, 모델 기반 주관적 평가 점수와 위치 가중치로부터 서브 영역 별 가중 평가 점수를 획득할 수 있다. 실시 예에서, 서브 영역 별 가중 평가 점수는, 제1 뉴럴 네트워크를 통해 획득한, 각 서브 영역 별 모델 기반 주관적 평가 점수에 각 서브 영역 별 위치 가중치를 곱한 점수일 수 있다. 제2 뉴럴 네트워크는 서브 영역 별 가중 평가 점수를 획득하고, 이를 기반으로 서브 영역 별 가중 평가 점수 매트릭스(730)를 생성할 수 있다. 서브 영역 별 가중 평가 점수 매트릭스(730)는 서브 영역 별 가중 평가 점수 p1,1w1,1, p1,2w1,2,… pm,nw m,n를 포함할 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 서브 영역 별 가중 평가 점수 매트릭스(730)에 포함된, 서브 영역 별 가중 평가 점수의 평균 값(740)을 획득할 수 있다. 예컨대, 제2 뉴럴 네트워크는 각각의 서브 영역 별 가중 평가 점수를 모두 더하고 이를 서브 영역의 개수로 나누어 가중 평가 점수의 평균 값(740)을 획득할 수 있다. 서브 영역 별 가중 평가 점수의 평균 값(740)은 평가자들이 프레임에 대해 평가한 주관적 평가 점수를 모델 기반으로 예측한 주관적 평가 점수(Predicted MOS)일 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 프레임에 대한 평가자들의 주관적 평가 점수를 GT MOS MOS(Ground Truth Mean Opinion Score, GT MOS)(750)로 이용할 수 있다.
도 7에서는 평가자들이 프레임에 대해 평가한 주관적 평가 점수가 제1 뉴럴 네트워크를 통해 예측된 모델 기반 주관적 평가 점수 중에서 프레임의 가운데 위치한 서브 영역들에 대한 평가 점수와 유사한 경우를 나타낸다. 예컨대, 프레임의 가운데 영역의 관심도는 높고 주변 영역의 관심도는 낮은 경우를 나타낸다. 이 경우, 제1 뉴럴 네트워크를 통해 모델 기반으로 예측한 주관적 평가 점수는 서브 영역의 위치가 가운데일수록 GT MOS(750)와 근접한 점수를 갖고 서브 영역의 위치가 가운데에서 멀어질수록 GT MOS(750)와 차이가 큰 점수를 갖게 된다.
실시 예에서, 제2 뉴럴 네트워크는 모델 기반 주관적 평가 점수를 포함하는 매트릭스(710)로부터 각 서브 영역의 모델 기반 주관적 평가 점수를 분석 및 분류하여 서브 영역의 모델 기반 주관적 평가 점수와 GT MOS(750) 간의 유사도를 학습하고, 이를 기반으로 위치 가중치를 수정하도록 훈련될 수 있다. 즉, 제2 뉴럴 네트워크는, 모델 기반 주관적 평가 점수와 GT MOS(750)를 비교하여, GT MOS(750)와의 오차가 작은 모델 기반 주관적 평가 점수를 갖는 서브 영역의 위치 가중치는 더 큰 값을 갖고, 오차가 큰 모델 기반 주관적 평가 점수를 갖는 서브 영역의 위치 가중치는 더 작은 값을 갖도록 학습될 수 있다. 따라서, 모델 기반 주관적 평가 점수와 GT MOS(750)와의 오차에 대응하여 생성되는 위치 가중치도 디스플레이의 위치에 따라 달라지게 된다.
실시 예에서, 제2 뉴럴 네트워크는 서브 영역 별 가중 평가 점수의 평균 값(740)과 프레임 전체에 대해 평가자들이 평가한 주관적 평가 점수, 즉, GT MOS(750)와의 오차가 최소가 되도록 훈련될 수 있다. 서브 영역 별 가중 평가 점수의 평균 값(740)과 GT MOS(750)와의 오차를 구하는 기준이나 척도는 다양할 수 있다. 예컨대, 제2 뉴럴 네트워크는 MAE (Mean Absolute Error), MSE(Mean Squared Error), RMSE (Root Mean Squared Error), MSLE (Mean Squared Log Error), MAPE(Mean Absolute Percentage Error) 등과 같은 다양한 방법을 이용하여 서브 영역 별 가중 평가 점수의 평균 값(740)과 GT MOS(750)와의 유사 정도를 평가할 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 MSE(Mean Squared Error, 평균 제곱 오차) 방법을 이용하여, 서브 영역 별 가중 평가 점수의 평균 값(740)과 GT MOS(750)의 차이의 제곱에 대한 평균을 오차로 구할 수 있다. 예컨대, 제2 뉴럴 네트워크는 아래 수학식 1을 이용하여 오차를 구할 수 있다.
Figure pat00001
수학식 1에서 L은 오차를 구하는 방식이 MSE(Mean Squared Error, 평균 제곱 오차)인 것을 의미할 수 있다. M 및 N은 프레임에 포함된 패치의 가로 및 세로의 개수를 의미할 수 있다. Pred MOS는 제1 뉴럴 네트워크에 의해 추론된 모델 기반 주관적 평가 점수(MOS)를 나타내고, GT MOS는 GT MOS MOS를 나타낸다. p는 패치 별 MOS, 즉, 모델 기반 주관적 평가 점수를 나타내고, w는 제2 뉴럴 네트워크로부터 출력된 위치 가중치를 나타낼 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 MSE 방식으로 서브 영역 별 가중 평가 점수의 평균 값(740)과 GT MOS(750) 간의 손실 함수, 즉, 오차(loss, 640)를 구하고, 오차를 피드 포워드(feed forward)하여 다시 입력 받을 수 있다. 제2 뉴럴 네트워크는 학습 모델로부터 오차(640)가 최소가 되도록 하는 과정을 반복하여 보다 정확한 서브 영역 별 위치 가중치를 획득하도록 훈련될 수 있다.
이와 같이, 실시 예에 의하면, 제2 뉴럴 네트워크는 학습 단계에서 모델 기반 주관적 평가 점수를 포함하는 매트릭스(710)와 GT MOS(650) 간의 차이를 학습하고, 이를 기반으로 디스플레이의 위치가 품질 점수에 미치는 영향을 위치 가중치 매트릭스(720)로 생성하도록 훈련될 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 화면 사이즈에 따라 디스플레이의 서브 영역 별 위치 가중치를 다르게 획득하도록 훈련될 수 있다. 사람은 화면의 사이즈가 소정 크기 이상 큰 경우에는 중앙 부분을 위주로 보나, 화면의 사이즈가 크지 않은 경우에는 전체 영역을 한꺼번에 보는 경향이 있다. 따라서, 화면 사이즈가 소정 크기보다 작은 경우 사용자는 화면 전체의 영역에 대해 거의 비슷한 정도로 왜곡을 인식하게 된다. 실시 예에서, 제2 뉴럴 네트워크는 화면의 사이즈가 소정 크기 이상인 경우에만 디스플레이의 서브 영역 별 위치 가중치를 획득할 수 있다.
실시 예에서, 화면 사이즈가 소정 크기 이상인 경우에는 화면 사이즈가 커질수록 중앙 부분과 주변 영역 간에 왜곡을 인식하는 정도 또한 커지게 된다. 따라서, 실시 예에서, 제2 뉴럴 네트워크는 화면 사이즈가 소정 크기 이상인 경우에는, 화면 사이즈가 커질수록 서브 영역 별 위치 가중치 간의 차이 또한 커지는, 서브 영역 별 위치 가중치를 획득하도록 훈련될 수 있다.
도 8은 실시 예에 따라, 제2 뉴럴 네트워크가 훈련되는 것을 설명하기 위한 도면이다.
실시 예에서, 제2 뉴럴 네트워크는 CNN(Convolution Neural Network), DCNN(Deep Convolution Neural Network) 또는 캡스넷(Capsnet) 기반의 신경망일 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 다양한 데이터들을 입력 받고, 입력된 데이터들을 분석하는 방법, 입력된 데이터들을 분류하는 방법, 및/또는 입력된 데이터들에서 결과 데이터 생성에 필요한 특징을 추출하는 방법 등을 스스로 발견 또는 터득할 수 있도록 훈련될 수 있다. 제2 뉴럴 네트워크는 다수의 학습 데이터들에 학습 알고리즘을 적용하여, 원하는 특성의 인공지능 모델로 만들어질 수 있다. 이러한 학습은 전자 장치 자체에서 이루어질 수도 있고, 별도의 서버/시스템을 통해 이루어 질 수도 있다. 여기서, 학습 알고리즘은, 다수의 학습 데이터들을 이용하여 소정의 대상 기기(예컨데, 로봇)를 훈련시켜 소정의 대상 기기 스스로 결정을 내리거나 예측을 할 수 있도록 하는 방법이다.
학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으며, 실시 예에서의 학습 알고리즘은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.
예를 들어, 제2 뉴럴 네트워크는 학습 데이터를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 데이터 추론 모델로 학습될 수 있다. 또는, 제2 뉴럴 네트워크는 별다른 지도 없이 위치 가중치를 판단하기 위해 필요한 데이터의 종류를 스스로 학습함으로써, 위치 가중치를 판단하기 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 데이터 추론 모델로 학습될 수 있다. 또는 제2 뉴럴 네트워크는 학습에 따라 위치 가중치를 추론한 결과가 올바른지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 데이터 추론 모델로 학습될 수 있다.
도 8을 참조하면, 제2 뉴럴 네트워크는 입력 계층(810), 숨은 계층(820), 및 출력 계층(830)을 포함할 수 있다. 실시 예에서, 숨은 계층(820)은 복수개의 히든 레이어들을 포함할 수 있다. 제2 뉴럴 네트워크는 하나 이상의 히든 레이어를 포함할 수 있다. 예컨대, 제2 뉴럴 네트워크는 두 개 이상의 히든 레이어들을 포함하는 딥 제2 뉴럴 네트워크(DNN)일 수 있다. 딥 뉴럴 네트워크(DNN)는 복수의 계층들을 통한 연산을 수행하는 뉴럴 네트워크로, 연산을 수행하는 내부의 계층(layer)의 개수에 따라서 네트워크의 심도(depth)가 증가할 수 있다. 딥 뉴럴 네트워크(DNN) 연산은 컨볼루션 뉴럴 네트워크(CNN: Convolution Neural Network) 연산 등을 포함할 수 있다.
예컨대, 제2 뉴럴 네트워크는 입력 계층(810)과 제1 숨은 계층 간에 형성되는 제1 계층, 제1 숨은 계층과 제2 숨은 계층 간에 형성되는 제2 계층, 제2 숨은 계층과 제3 숨은 계층 간에 형성되는 제3 계층, 제3 숨은 계층과 제4 숨은 계층 간에 형성되는 제4 계층, 제4 숨은 계층과 출력 계층(830) 간에 형성되는 제5 계층(Layer 5)으로 형성될 수 있다. 다만 하나의 실시 예로, 제2 뉴럴 네트워크의 계층의 심도나 형태는 결과의 정확도, 결과의 신뢰도, 프로세서의 연산 처리 속도 및 용량 등을 고려하여 다양하게 설계될 수 있다.
제2 뉴럴 네트워크를 형성하는 복수개의 계층들 각각은 하나 이상의 노드를 포함할 수 있다. 예를 들어, 입력 계층(810)은 데이터를 수신하는 하나 이상의 노드(node)들을 포함할 수 있다. 여기서, 제2 뉴럴 네트워크의 입력 계층(810)에 포함된 노드의 수는 출력 계층(830)에 포함된 노드의 수와 동일하다. 도 8에서는 제2 뉴럴 네트워크에 포함된 제1 숨은 계층의 노드 개수가 50개이고, 제2 숨은 계층의 노드 개수가 100개이고, 제3 숨은 계층의 노드 수가 50개인 경우를 나타낸다. 그러나 이는 하나의 실시 예로, 제2 뉴럴 네트워크의 노드의 개수는 다양하게 설계될 수 있다.
실시 예에서, 입력 계층(810)에 포함된 복수개의 노드들로 모델 기반으로 획득된 주관적 평가 점수가 입력될 수 있다. 인접한 두 개의 계층들의 노드들은 복수개의 엣지(edge)들로 연결될 수 있다. 각각의 엣지들은 대응되는 가중치 값 및 곱하기나 더하기 등과 같은 연산 정보를 가지고 있다. 제2 뉴럴 네트워크는 입력된 데이터에 엣지의 가중치 값을 곱하거나 더하여 연산을 수행하고 그 결과 값을 엣지와 연결된 다음 계층의 노드 값으로 출력할 수 있다. 실시 예에서, 제2 뉴럴 네트워크에 포함된 계층들은 이전 레이어의 모든 노드가 다음 레이어의 모든 노드에 연결되는 완전 연결 계층(Fully Connected layer)으로 형성될 수 있다.
제2 뉴럴 네트워크는 노드에 입력된 값들을 함수에 통과시킨 후 다음 레이어로 전달하는데, 이 때 다음 레이어의 출력을 결정하는 함수를 활성화 함수(Activation Function)라고 한다. 활성화 함수는 입력 데이터를 다음 레이어로 어떻게 전달할 것인지를 결정하는 함수일 수 있다. 실시 예에서, 제2 뉴럴 네트워크는 히든 레이어에서 사용하는 활성화 함수로 ReLU(Rectified Linear Unit)를 사용할 수 있다. ReLU는 비선형 활성화 함수의 하나로, 학습이 빠르고 구현이 간단하다는 장점이 있다. 다만, 이에 한정되는 것은 아니며, 제2 뉴럴 네트워크는 Sigmoid 또는 Hyperbolic tangent/Tang 함수와 같은 다른 비선형 활성화 함수를 이용할 수도 있다. 또는 제2 뉴럴 네트워크는 활성화 함수로 비선형 함수가 아닌, 이진 활성화 함수나 선형 활성화 함수를 이용할 수도 있다.
실시 예에서, 제2 뉴럴 네트워크는 입력 계층(810)에 포함된 노드들로 모델 기반 주관적 평가 점수를 입력 받고, 입력 데이터에 대해 각 계층들 간의 연산을 수행하고 그 결과 값을 출력 데이터로 획득할 수 있다. 즉, 제2 뉴럴 네트워크는 입력 데이터를 분석 및 분류하고 위치 가중치 매트릭스를 생성하는데 필요한 특징을 추출하여 위치 가중치 매트릭스를 출력 데이터로 출력할 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 결과의 정확도를 높이기 위해서, 복수의 학습 데이터에 근거하여 출력 계층(830)에서 입력 계층(810) 방향으로 학습(training)을 반복적으로 수행하여 출력 결과의 정확도가 높아지도록 가중치 값들을 수정할 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 출력 계층(830)에서 출력되는 위치 가중치 매트릭스와 모델 기반으로 획득된 주관적 평가 점수를 포함하는 매트릭스를 내적하여 서브 영역 별 가중 평가 점수(Weighted MOS) 매트릭스를 획득하고, 서브 영역 별 가중 평가 점수의 평균 값 x와 GT MOS MOS, 즉, 프레임에 대한 평가자들의 주관적 평가 점수 y와의 차이를 손실 함수로 획득할 수 있다. 제2 뉴럴 네트워크는 손실 함수를 다시 입력 받고, 손실 함수가 최소가 되도록 히든 레이어(820)에 포함된 엣지들의 가중치 값을 계속 수정할 수 있다. 엣지들의 가중치 값은 반복적인 학습을 통하여 최적화될 수 있으며, 결과의 정확도가 소정의 신뢰도를 만족할 때까지 반복적으로 수정될 수 있다. 제2 뉴럴 네트워크는 최종적으로 설정된 엣지들의 가중치 값들에 의해서 형성될 수 있다.
실시 예에 따르면, 제2 뉴럴 네트워크를 이용하여 모델 기반 주관적 평가 점수로부터 위치 가중치를 획득하는 방법을 학습하는 동작은, 전자 장치에 장착되기 전에 미리 수행될 수 있다. 복수의 학습 데이터 중 일부가 변경되는 경우, 학습 모델 또한 업데이트될 수 있다. 소정의 주기 단위로, 새로운 학습 데이터가 사용되거나 추가될 경우, 제2 뉴럴 네트워크는 새로운 학습 데이터로부터 위치 가중치를 획득하는 방법을 다시 학습할 수 있으며, 이에 따라 학습 모델이 업데이트될 수 있다.
실시 예에서, 제2 뉴럴 네트워크를 이용하여 모델 기반 주관적 평가 점수로부터 위치 가중치를 획득하는 방법을 학습하는 동작은, 외부의 컴퓨팅 장치(미도시)에서 수행될 수 있다. 제2 뉴럴 네트워크를 이용하여 주관적 평가 점수로부터 위치 가중치를 획득하는 방법을 학습하는 동작은, 상대적으로 복잡한 연산량을 필요로 할 수 있다. 이에 따라, 컴퓨팅 장치가 학습하는 동작을 수행하고, 전자 장치는 통신망을 통해 컴퓨팅 장치로부터 학습 모델을 수신할 수 있다. 또는, 전자 장치를 제조하는 제조사는 컴퓨팅 장치가 학습시킨 제2 뉴럴 네트워크를 전자 장치에 장착하여, 학습 모델이 전자 장치에서 가중치를 획득하는 데 이용되도록 할 수 있다.
또는, 본 개시의 다른 실시 예에서, 컴퓨팅 장치가 아닌, 전자 장치가 제2 뉴럴 네트워크를 통한 학습 동작을 직접 수행할 수도 있다. 이 경우, 전자 장치는 학습 데이터를 획득하고, 학습 데이터로 제2 뉴럴 네트워크를 학습시켜 학습 모델을 결정할 수 있으며, 결정된 학습 모델을 통하여 위치 가중치를 획득할 수 있다.
도 9는 실시 예에 따른 전자 장치의 내부 블록도이다.
도 9의 전자 장치 (100b)는 도 2의 전자 장치 (100a)의 일 예일 수 있다.
도 9를 참조하면, 전자 장치(100b)는 프로세서(210), 메모리(220), 디스플레이(910) 및 화질 처리부(920)를 포함할 수 있다. 도 9의 전자 장치(100b)에 포함된 프로세서(210) 및 메모리(220)는 도 2의 프로세서(210) 및 메모리(220)와 수행하는 기능이 중복되므로, 동일한 도면 부호를 사용하였다.
프로세서(210)는 전자 장치(100b)의 전반적인 동작을 제어한다. 프로세서(210)는 실시간으로 수신되는 방송 프로그램이나, 또는 스트리밍이나 다운로드를 하여 수신된 VOD 서비스의 프로그램 등을 화면에 출력하기 전에, 해당 비디오의 품질을 측정할 수 있다.
프로세서(210)는 입력된 프레임의 각 서브 영역에 대해, 모델 기반 주관적 평가 점수를 획득하고, 위치 가중치 매트릭스를 획득할 수 있다. 프로세서(210)는 주관적 평가 점수에, 위치 가중치 매트릭스를 적용하여 서브 영역 별 가중 평가 점수를 획득하고, 이를 기반으로 입력된 프레임에 대한 최종 품질 점수를 획득할 수 있다. 또한 프로세서(210)는 각 프레임 별 품질 점수를 소정 시간 동안 누적하여 복수 프레임들에 대한 시계열 데이터를 획득하여 비디오에 대한 최종 품질 점수를 획득할 수 있다.
실시 예에서, 화질 처리부(920)는 프레임의 화질을 처리할 수 있다. 실시 예에서, 화질 처리부(920)는 프레임에 대한 최종 품질 점수에 기반하여 이미지를 보정할 수 있다. 최종 품질 점수에 기반하여 이미지를 보정한다는 것은, 프레임 단위로 후처리 세팅 값을 수정하여 각 프레임에 대해 후처리를 수행하는 것을 의미할 수 있다. 예컨대, 화질 처리부(920)는 최종 품질 점수에 따라, 적응적으로, 프레임에 포함된 노이즈를 제거하여 프레임의 품질을 향상시키거나, 프레임에 포함된 디테일들을 보다 선명하게 보정함으로써 프레임의 품질을 향상시킬 수 있다. 또는 화질 처리부(920)는 여러 개의 영상을 결합시켜 해상도가 높은 고해상도 영상을 만들거나, 또는 초당 프레임 개수(Frame Per Second, FPS)를 조절하는 것과 같은 다양한 후처리 방법 중 하나 또는 둘 이상의 조합을 수행하여, 프레임의 품질을 향상시킬 수도 있다.
또는 다른 실시 예에서, 화질 처리부(920)는 프레임이나 비디오의 최종 점수에 따라, 적절한 AI 모델을 이용하여 각 프레임 별로 또는 전체 비디오의 화질을 처리할 수도 있다. 예컨대, 화질 처리부(920)는 각 프레임 별 점수나 전체 비디오의 최종 품질 점수에 따라 복수의 뉴럴 네트워크 모델들 중 하나의 이미지 복원 모델을 선택하거나 이러한 모델을 직접 설계할 수 있다. 화질 처리부(920)는 품질 점수에 따라 화질 처리 모델 적용 횟수를 결정하고, 결정된 횟수만큼 프레임에 화질 처리 모델을 반복하여 적용함으로써 프레임/비디오의 품질을 향상시킬 수 있다.
또는 화질 처리부(920)는 프레임이나 비디오의 품질 점수에 따라 대역폭을 달리하는 BPF나 HPF 등의 필터를 설계하고, 이를 이용하여 프레임이나 비디오의 소정 대역의 신호를 변경하여 프레임/비디오의 품질을 향상시킬 수 있다.
또는 화질 처리부(920)는 프레임 별 점수나 비디오의 최종 점수에 따라 뉴럴 네트워크에서 사용되는 다양한 하이퍼파라미터(Hyperparameter) 값들, 예컨대, 필터 사이즈나 필터 계수, 커널 사이즈, 노드의 가중치 값들과 같은 다양한 값들 중 하나 이상을 수정하여 최적의 성능을 가지는 모델을 생성할 수 있다. 화질 처리부(920)는 수정된 하이퍼파라미터를 갖는 AI 모델을 이용하여 프레임이나 비디오의 화질을 최적으로 향상시킬 수 있다.
실시 예에서 화질 처리부(920)에 의해 처리된 프레임 및 비디오를 디스플레이(910)로 보낼 수 있다. 디스플레이(910)는 프레임 및 비디오를 출력할 수 있다. 디스플레이(910)가 터치 스크린으로 구현되는 경우, 디스플레이(910)는 출력 장치 이외에 사용자 인터페이스와 같은 입력 장치로 사용될 수 있다. 예를 들어, 디스플레이(910)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉서블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기 영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고, 전자 장치(100b)의 구현 형태에 따라, 전자 장치(100b)는 디스플레이(910)를 둘 이상 포함할 수 있다.
이와 같이, 실시 예에 따르면, 전자 장치(100b)는 프레임에 대해 품질 점수를 획득하고 이를 이용하여 프레임 및/또는 비디오를 후처리할 수 있다. 전자 장치(100b)는 품질 점수를 기반으로 각각의 프레임 또는 전체 비디오에 적합한 이미지 복원 모델을 선택하고, 이를 이용하여 각 프레임 또는 비디오의 품질을 향상시킬 수 있다. 품질이 향상된 프레임 또는 비디오는 디스플레이(910)를 통해 출력될 수 있다.
도 10은 실시 예에 따른 전자 장치의 내부 블록도이다.
도 10의 전자 장치(100c)는 도 9의 전자 장치(100b)의 구성 요소를 포함할 수 있다.
도 10를 참조하면, 전자 장치(100c)는 프로세서(210), 메모리(220), 및 디스플레이(910) 외에 튜너부(1010), 통신부(1020), 감지부(1030), 입/출력부(1040), 비디오 처리부(1050), 오디오 처리부(1060), 오디오 출력부(1070), 및 사용자 인터페이스(1080)를 포함할 수 있다.
튜너부(1010)는 유선 또는 무선으로 수신되는 방송 콘텐츠 등을 증폭(amplification), 혼합(mixing), 공진(resonance)등을 통하여 많은 전파 성분 중에서 전자 장치(100c)에서 수신하고자 하는 채널의 주파수만을 튜닝(tuning)시켜 선택할 수 있다. 튜너부(1010)를 통해 수신된 콘텐츠는 디코딩되어 오디오, 비디오 및/또는 부가 정보로 분리된다. 분리된 오디오, 비디오 및/또는 부가 정보는 프로세서(210)의 제어에 의해 메모리(220)에 저장될 수 있다.
통신부(1020)는 프로세서(210)의 제어에 의해 전자 장치(100c)를 외부 장치나 서버와 연결할 수 있다. 전자 장치(100c)는 통신부(1020)를 통해 외부 장치나 서버 등으로부터 전자 장치(100c)가 필요로 하는 프로그램이나 어플리케이션(application)을 다운로드하거나 또는 웹 브라우징을 할 수 있다. 또한, 통신부(1020)는 외부 장치로부터 콘텐츠를 수신할 수 있다.
통신부(1020)는 전자 장치(100c)의 성능 및 구조에 대응하여 무선 랜(1021), 블루투스(1022), 및 유선 이더넷(Ethernet)(1023) 중 적어도 하나를 포함할 수 있다. 통신부(1020)는 프로세서(210)의 제어에 의해 리모컨 등과 같은 제어 장치(미도시)를 통한 제어 신호를 수신할 수 있다. 제어 신호는 블루투스 타입, RF 신호 타입 또는 와이파이 타입으로 구현될 수 있다. 통신부(1020)는 블루투스(1022) 외에 다른 근거리 통신(예를 들어, NFC(near field communication, 미도시), BLE(bluetooth low energy, 미도시)를 더 포함할 수 있다. 통신부(1020)는 블루투스(1022)나 BLE와 같은 근거리 통신을 통하여 외부 장치 등과 연결 신호를 송수신할 수도 있다.
감지부(1030)는 사용자의 음성, 사용자의 영상, 또는 사용자의 인터랙션을 감지하며, 마이크(1031), 카메라부(1032), 및 광 수신부(1033)를 포함할 수 있다. 마이크(1031)는 사용자의 발화(utterance)된 음성을 수신할 수 있고 수신된 음성을 전기 신호로 변환하여 프로세서(210)로 출력할 수 있다. 카메라부(1032)는 센서(미도시) 및 렌즈(미도시)를 포함하고, 화면에 맺힌 이미지를 촬영할 수 있다. 광 수신부(1033)는, 광 신호(제어 신호를 포함)를 수신할 수 있다. 광 수신부(1033)는 리모컨이나 핸드폰 등과 같은 제어 장치(미도시)로부터 사용자 입력(예를 들어, 터치, 눌림, 터치 제스처, 음성, 또는 모션)에 대응되는 광 신호를 수신할 수 있다. 수신된 광 신호로부터 프로세서(210)의 제어에 의해 제어 신호가 추출될 수 있다.
입/출력부(1040)는 프로세서(210)의 제어에 의해 전자 장치(100c) 외부의 기기 등으로부터 비디오(예를 들어, 동영상 신호나 정지 영상 신호 등), 오디오(예를 들어, 음성 신호나, 음악 신호 등) 및 메타데이터 등의 부가 정보를 수신할 수 있다. 메타데이터는, 콘텐츠에 대한 HDR 정보, 콘텐츠에 대한 설명이나 콘텐츠 타이틀, 콘텐츠 저장 위치 등을 포함할 수 있다. 입/출력부(1040)는 HDMI 포트(High-Definition Multimedia Interface port, 1041), 컴포넌트 잭(component jack, 1042), PC 포트(PC port, 1043), 및 USB 포트(USB port, 1044) 중 하나를 포함할 수 있다. 입/출력부(1040)는 HDMI 포트(1041), 컴포넌트 잭(1042), PC 포트(1043), 및 USB 포트(1044)의 조합을 포함할 수 있다.
비디오 처리부(1050)는, 디스플레이(1030)에 의해 표시될 영상 데이터를 처리하며, 영상 데이터에 대한 디코딩, 렌더링, 스케일링, 노이즈 필터링, 프레임 레이트 변환, 및 해상도 변환 등과 같은 다양한 영상 처리 동작을 수행할 수 있다.
실시 예에서, 비디오 처리부(1050)는, 도 10의 화질 처리부(920)의 기능을 수행할 수 있다. 즉, 비디오 처리부(1050)는 프로세서(210)가 획득한 프레임 별 점수 또는 전체 비디오의 최종 품질 점수에 기반하여 비디오 및/또는 프레임의 품질을 향상시킬 수 있다.
디스플레이(910)는 방송국으로부터 수신하거나 외부 서버, 또는 외부 저장 매체 등으로부터 수신한 콘텐츠를 화면에 출력할 수 있다. 콘텐츠는 미디어 신호로, 비디오 신호, 이미지, 텍스트 신호 등을 포함할 수 있다. 또한 디스플레이(910)는 HDMI 포트(1041)를 통해 수신한 비디오 신호나 이미지를 화면에 표시할 수 있다.
실시 예에서, 디스플레이(910)는 비디오 처리부(1050)가 비디오나 프레임의 품질을 향상시킨 경우, 향상된 품질의 비디오나 프레임을 출력할 수 있다.
디스플레이(910)가 터치 스크린으로 구현되는 경우, 디스플레이(910)는 출력 장치 이외에 입력 장치로 사용될 수 있다. 그리고, 전자 장치(100c)의 구현 형태에 따라, 전자 장치(100c)는 디스플레이(910)를 2개 이상 포함할 수 있다.
오디오 처리부(1060)는 오디오 데이터에 대한 처리를 수행한다. 오디오 처리부(1060)에서는 오디오 데이터에 대한 디코딩이나 증폭, 노이즈 필터링 등과 같은 다양한 처리가 수행될 수 있다.
오디오 출력부(1070)는 프로세서(210)의 제어에 의해 튜너부(1010)를 통해 수신된 콘텐츠에 포함된 오디오, 통신부(1020) 또는 입/출력부(1040)를 통해 입력되는 오디오, 메모리(1020)에 저장된 오디오를 출력할 수 있다. 오디오 출력부(1070)는 스피커(1071), 헤드폰 출력 단자(1072) 또는 S/PDIF(Sony/Philips Digital Interface: 출력 단자(1073) 중 적어도 하나를 포함할 수 있다.
사용자 인터페이스(1080)는 전자 장치(100c)를 제어하기 위한 사용자 입력을 수신할 수 있다. 사용자 인터페이스(1080)는 사용자의 터치를 감지하는 터치 패널, 사용자의 푸시 조작을 수신하는 버튼, 사용자의 회전 조작을 수신하는 휠, 키보드(key board), 및 돔 스위치 (dome switch), 음성 인식을 위한 마이크, 모션을 센싱하는 모션 감지 센서 등을 포함하는 다양한 형태의 사용자 입력 디바이스를 포함할 수 있으나 이에 제한되지 않는다. 또한, 전자 장치(100c)가 원격 제어 장치(remote controller)(미도시)에 의해서 조작되는 경우, 사용자 인터페이스(1080)는 원격 제어 장치로부터 수신되는 제어 신호를 수신할 수도 있을 것이다.
도 11은 실시 예에 따른 위치 가중치를 도시한 도면이다.
일반적으로 사람은 보통 화면의 중앙 부분을 가장자리 부분보다 더 많이 보는 경향이 있기 때문에, 화면의 위치에 따라 관심 영역은 달라질 수 있다. 화면의 위치에 따라 관심 영역이 달라진다는 것은, 왜곡의 정도가 같더라도 화면의 중앙에 왜곡이 있는 경우와 화면의 가장자리 부분에 왜곡이 있는 경우, 사람이 왜곡의 정도를 다르게 인식할 수 있다는 것을 의미할 수 있다. 즉, 사람은 화면의 중앙에 왜곡이 있는 경우를 가장자리 부분에 왜곡이 있는 경우보다 더 크게 인식하고, 낮은 품질 점수를 부여할 수 있다. 따라서, 화면의 위치에 따라 품질 점수는 달라질 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 화면의 위치가 품질 점수에 미치는 영향을 나타내는 위치 가중치를 획득할 수 있다. 제2 뉴럴 네트워크는 서브 영역 별 위치 가중치를 획득하고 이를 기반으로 프레임 전체에 대한 위치 가중치 매트릭스를 생성할 수 있다.
도 11은, 프레임(1100) 위의 대응 위치에 위치 가중치를 표현한 도면이다. 프레임(1100)은 가로 축이 폭(width)이고, 세로 축이 높이(height)로 표현될 수 있다. 프레임(1100)은 복수의 서브 영역들로 나뉠 수 있다. 일 예로, 도 11은 프레임(1100)의 가로 축과 세로 축이 각각 14개와 6개의 서브 영역 들로 나뉜 것을 도시한다.
도 11에서, 위치 가중치는 0에서 1.5 사이의 웨이트를 갖는다고 가정한다. 도 11에 도시된 바와 같이, 위치 가중치는 프레임(1100)의 가운데 부분이 더 큰 웨이트를 갖고, 주변 부분이 더 작은 웨이트를 갖는 것을 알 수 있다. 즉, 프레임(1100)의 가운데 부분은 1.5에 근접한 가중치를 갖고, 프레임(1100)의 주변 부분은 0 부근의 가중치를 갖는 것을 알 수 있다. 가운데 영역의 위치 가중치의 값이 더 큰 값을 갖는다는 것은 가운데 영역이 관심 영역이라는 것을 의미할 수 있다. 반대로, 주변 영역의 위치 가중치가 더 작은 값을 갖는다는 것은 주변 영역을 사람들이 중요하게 여기는 정도가 낮은 것을 의미할 수 있다.
실시 예에서, 제2 뉴럴 네트워크는 각 서브 영역 별 위치 가중치를 각 서브 영역 별로 획득된 모델 기반 주관적 평가 점수에 곱하여 서브 영역 별 가중 평가 점수를 생성할 수 있다. 따라서, 실시 예에 의하면, 프레임(1100)에 대한 품질 점수를 획득할 때 주관적 평가 점수만을 이용하지 않고 위치 가중치를 함께 이용함으로써, 위치가 품질 점수에 미치는 영향이 반영된, 보다 정확한 품질 점수가 획득될 수 있다.
아래 표 1은, 제2 뉴럴 네트워크를 이용한 경우와 이용하지 않은 경우의 각각의 품질 평가 결과를 지표로 나타낸다.
지표 PLCC SROCC
제2 뉴럴 네트워크 이용하지 않음 0.757 0.743
제2 뉴럴 네트워크 이용함 0.789 0.775
위 표 1에서, PLCC와 SROCC는 프레임/비디오의 품질 평가 기술의 성능을 나타내는 지표로, 평가자들의 주관적 평가 점수와의 연관성을 표현하는 지표이다. PLCC는 Pearson linear correlation coefficient의 약자로, 비디오 품질 평가 기술에 따른 점수와 실제 평가자들의 주관적 평가 점수와의 전반적인 선형 관계를 나타낼 수 있다. SROCC는 Spearman rank-order correlation coefficient의 약자로, 비디오 품질 평가 기술에 따른 점수와 평가자들의 주관적 평가 점수 간의 순위 유지 정도를 평가한다. 두 지표는 절댓값 기준으로 0에서 1 사이의 값을 가지며, 값이 1에 가까울수록 비디오 품질 평가 기술에 따른 점수가 실제 평가자들의 인지 화질 데이터와 통계적 유사성이 높음을 의미한다.
위 표 1에서와 같이, 비디오 품질 평가에 있어, 제2 뉴럴 네트워크를 사용한 경우가 그렇지 않은 경우보다, PLCC와 SROCC 지표 모두에서 점수가 커진 것을 알 수 있다. 따라서, 실시 예에 의하면, 연산량이 낮은 제2 뉴럴 네트워크를 이용함으로써 품질 평가 성능이 크게 향상된다.
도 12는 실시 예에 따른 비디오 품질 평가 방법을 도시한 순서도이다.
도 12를 참조하면, 전자 장치는 서브 영역 별 주관적 평가 점수를 획득할 수 있다(단계 1210).
예컨대, 전자 장치는 제1 뉴럴 네트워크를 이용하여, 복수의 서브 영역을 포함하는 프레임으로부터 서브 영역 별 주관적 평가 점수를 획득할 수 있다. 제1 뉴럴 네트워크는 비디오 프레임을 입력 받고, 비디오 프레임으로부터 비디오 프레임의 서브 영역 별 주관적 평가 점수(MOS)를 추론하도록 학습된 뉴럴 네트워크일 수 있다. 실시 예에서, 제1 뉴럴 네트워크는 출력 데이터로 출력되는 서브 영역 별 주관적 평가 점수가, 평가자들이 평가한 비디오 프레임 전체에 대한 주관적 평가 점수와 같아지도록 훈련된 뉴럴 네트워크일 수 있다.
실시 예에서, 전자 장치는 서브 영역 별 위치 가중치를 획득할 수 있다(단계 1220).
일 예로, 전자 장치는 제1 뉴럴 네트워크를 통해 획득된 복수의 서브 영역 별 주관적 평가 점수를 제2 뉴럴 네트워크에 입력 시키고, 제2 뉴럴 네트워크로부터, 위치 가중치를 획득할 수 있다. 실시 예에서, 제2 뉴럴 네트워크는 모델 기반으로 획득된, 비디오 프레임의 서브 영역 별 주관적 평가 점수를 입력 받고, 입력 데이터와 비디오 프레임 전체에 대한 주관적 평가 점수 간의 차이에 대응하는 웨이트를 위치 가중치로 획득하도록 훈련된 뉴럴 네트워크일 수 있다. 실시 예에서, 제2 뉴럴 네트워크는 모델 기반 주관적 평가 점수에 위치 가중치가 곱해져 획득된 서브 영역 별 가중 평가 점수의 평균 값이 비디오 프레임 전체에 대한 평가자들의 주관적 평가 점수(GT MOS)와 같아지도록 훈련된 뉴럴 네트워크일 수 있다.
다른 예로, 위치 가중치는 전자 장치 내부에 미리 저장되어 있거나, 통신망을 통해 외부 서버로부터 수신할 수 있다. 전자 장치는 미리 저장되어 있는 위치 가중치 매트릭스를 메모리 등으로부터 추출하여 이용하거나, 또는 서버로부터 수신하여 이용할 수 있다.
실시 예에서, 전자 장치는 주관적 평가 점수와 위치 가중치에 기반하여, 서브 영역 별 가중 평가 점수를 획득할 수 있다(단계 1230).
예컨대, 전자 장치는 모델 기반 주관적 평가 점수와 위치 가중치를 곱하여, 위치 가중치가 적용된 모델 기반 주관적 평가 점수를 서브 영역 별 가중 평가 점수로 획득할 수 있다.
실시 예에서, 전자 장치는 서브 영역 별 가중 평가 점수에 기반하여, 입력 프레임에 대한 최종 품질 점수를 획득할 수 있다(단계 1240).
예컨대, 전자 장치는 서브 영역 별 가중 평가 점수의 평균 값을 구하고, 이를 입력 프레임에 대한 최종 품질 점수로 획득할 수 있다.
도 13은 실시 예에 따라, 고 복잡도 가중치를 고려하여 비디오 품질 평가를 수행하는 방법을 도시한 순서도이다.
도 13을 참조하면, 전자 장치는 서브 영역 별 주관적 평가 점수를 획득하고(단계 1310), 또한, 서브 영역 별 위치 가중치를 획득할 수 있다(단계 1320).
실시 예에서, 전자 장치는 주관적 평가 점수와 위치 가중치에 기반하여, 서브 영역 별 가중 평가 점수를 획득할 수 있다(단계 1330).
실시 예에서, 전자 장치는 품질 점수를 획득하는 데 있어 위치 가중치 외에도 고 복잡도 특징 정보를 더 고려할 수 있다.
실시 예에서, 전자 장치는 적어도 하나의 뉴럴 네트워크를 이용하여, 입력 프레임으로부터 특징 맵을 획득하고, 이를 기반으로 고 복잡도 특징 정보를 획득할 수 있다.
고 복잡도 특징 정보는 특징 정보 획득에 있어 높은 연산량 및 복잡도(complexity)가 필요한 정보를 의미할 수 있다. 예컨대, 고 복잡도 특징 정보는 입력 프레임으로부터 획득된 화자 식별 정보, 시맨틱 세그멘테이션 정보, 오브젝트 디텍션 정보, 세일리언시 맵 정보 적어도 하나를 포함할 수 있다.
실시 예에서, 전자 장치는 고 복잡도 특징 정보를 획득하기로 결정한 경우, 관심 영역에 대한 고 복잡도 특징을 나타내는 고 복잡도 가중치를 획득할 수 있다(단계 1340).
실시 예에서, 전자 장치는 서브 영역 별 가중 평가 점수와 고 복잡도 가중치를 함께 고려하여 서브 영역 별 최종 점수를 획득할 수 있다(단계 1350). 예컨대, 전자 장치는 서브 영역 별 가중 평가 점수에 고 복잡도 가중치를 곱하여 서브 영역 별 최종 점수를 획득할 수 있다.
실시 예에서, 전자 장치는 서브 영역 별 최종 점수에 기반하여 입력 프레임 전체에 대한 최종 품질 점수를 획득할 수 있다(단계 1360).
일부 실시 예에 따른 비디오 품질 평가 방법 및 장치는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비 휘발성 매체, 분리형 및 비 분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비 휘발성, 분리형 및 비 분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
또한, 전술한 본 개시의 실시 예에 따른 비디오 품질 평가 방법을 수행하는 전자 장치 및 그 동작 방법은 입력 프레임에 포함된 복수개의 서브 영역 각각에 대해 주관적 평가 점수(Mean Opinion Score, MOS)를 획득하는 단계, 상기 복수개의 서브 영역 각각에 대해, 디스플레이의 위치에 따른 특성을 나타내는 위치 가중치를 획득하는 단계, 상기 주관적 평가 점수 및 상기 위치 가중치에 기반하여, 가중 평가 점수를 획득하는 단계 및 상기 가중 평가 점수에 기반하여, 상기 입력 프레임 전체에 대한 최종 품질 점수를 획득하는 단계를 포함하는, 비디오 품질 평가 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체를 포함하는 컴퓨터 프로그램 제품으로 구현될 수 있다.
전술한 설명은 예시를 위한 것이며, 발명이 속하는 기술분야의 통상의 지식을 가진 자는 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일 형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

Claims (20)

  1. 전자 장치에 있어서,
    하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하고,
    상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    입력 프레임에 포함된 복수개의 서브 영역 각각에 대해 주관적 평가 점수(Mean Opinion Score, MOS)를 획득하고,
    상기 복수개의 서브 영역 각각에 대해, 디스플레이의 위치에 따른 특성을 나타내는 위치 가중치를 획득하고,
    상기 주관적 평가 점수 및 상기 위치 가중치에 기반하여, 가중 평가 점수를 획득하고,
    상기 가중 평가 점수에 기반하여, 상기 입력 프레임 전체에 대한 최종 품질 점수를 획득하는, 전자 장치.
  2. 제1 항에 있어서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    비디오 프레임을 입력 받고 상기 비디오 프레임으로부터 상기 비디오 프레임에 포함된 복수개의 서브 영역 각각에 대해 주관적 평가 점수(Mean Opinion Score, MOS)를 학습한 제1 뉴럴 네트워크를 이용하여, 상기 입력 프레임에 포함된 상기 복수개의 서브 영역 각각에 대해 상기 주관적 평가 점수를 예측하는, 전자 장치.
  3. 제2 항에 있어서, 상기 제1 뉴럴 네트워크는, 상기 비디오 프레임에 포함된 상기 복수개의 서브 영역 각각의 주관적 평가 점수가, 비디오 프레임 전체에 대한 GT MOS 주관적 평가 점수(Ground Truth Mean Opinion Score, GT MOS)와 같아지도록 훈련된 뉴럴 네트워크인, 전자 장치.
  4. 제2 항에 있어서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    제2 뉴럴 네트워크를 이용하여, 상기 주관적 평가 점수로부터 상기 위치 가중치를 예측하고,
    상기 제2 뉴럴 네트워크는, 상기 제1 뉴럴 네트워크를 통해 예측된 상기 비디오 프레임에 포함된 상기 복수개의 서브 영역 각각에 대한 상기 주관적 평가 점수를 입력 받고, 상기 서브 영역 각각에 대한 주관적 평가 점수와 비디오 프레임 전체에 대한 GT MOS 주관적 평가 점수(Ground Truth Mean Opinion Score, GT MOS) 간의 차이에 대응하는 웨이트를 상기 서브 영역 각각에 대한 위치 가중치로 예측하도록 훈련된 뉴럴 네트워크인, 전자 장치.
  5. 제4 항에 있어서, 상기 제2 뉴럴 네트워크는 상기 비디오 프레임에 포함된 상기 복수개의 서브 영역 각각에 대한 상기 주관적 평가 점수에, 상기 위치 가중치를 곱해 획득한 가중 평가 점수의 평균 값이 상기 비디오 프레임 전체에 대한 GT MOS와 같아지도록 훈련된 뉴럴 네트워크인, 전자 장치.
  6. 제1 항에 있어서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 메모리에서 상기 위치 가중치를 획득하는, 전자 장치.
  7. 제6 항에 있어서, 상기 위치 가중치는, 제2 뉴럴 네트워크를 통해 예측되어 상기 메모리에 저장되고,
    상기 제2 뉴럴 네트워크는 비디오 프레임에 포함된 복수개의 서브 영역 각각에 대한 주관적 평가 점수를 입력 받고, 상기 서브 영역 각각에 대한 주관적 평가 점수와 비디오 프레임 전체에 대한 GT MOS 주관적 평가 점수(Ground Truth Mean Opinion Score, GT MOS)간의 차이에 대응하는 웨이트를 상기 서브 영역 각각에 대한 위치 가중치로 예측하고,
    상기 비디오 프레임에 포함된 상기 복수개의 서브 영역 각각에 대한 상기 주관적 평가 점수에 상기 위치 가중치를 곱해 획득한 가중 평가 점수의 평균 값이 상기 비디오 프레임 전체에 GT MOS와 같아지도록 훈련된 뉴럴 네트워크인, 전자 장치.
  8. 제1 항에 있어서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 주관적 평가 점수와 상기 위치 가중치를 곱하여, 상기 가중 평가 점수를 획득하는, 전자 장치.
  9. 제1 항에 있어서, 상기 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 입력 프레임으로부터 관심 영역을 나타내는 고 복잡도 정보를 획득하고,
    상기 가중 평가 점수와 상기 고 복잡도 정보를 함께 고려하여, 상기 입력 프레임 전체에 대한 최종 품질 점수를 획득하는, 전자 장치.
  10. 제9 항에 있어서, 상기 고 복잡도 정보는 화자 식별 정보, 시맨틱 세그멘테이션(semantic segmentation) 정보, 오브젝트 디텍션(object detection) 정보, 세일리언시 맵(saliency map) 정보 적어도 하나를 포함하는, 전자 장치.
  11. 전자 장치에서 수행하는 비디오 품질 평가 방법에 있어서,
    입력 프레임에 포함된 복수개의 서브 영역 각각에 대해 주관적 평가 점수(Mean Opinion Score, MOS)를 획득하는 단계;
    상기 복수개의 서브 영역 각각에 대해, 디스플레이의 위치에 따른 특성을 나타내는 위치 가중치를 획득하는 단계;
    상기 주관적 평가 점수 및 상기 위치 가중치에 기반하여, 가중 평가 점수를 획득하는 단계; 및
    상기 가중 평가 점수에 기반하여, 상기 입력 프레임 전체에 대한 최종 품질 점수를 획득하는 단계를 포함하는, 비디오 품질 평가 방법.
  12. 제11 항에 있어서, 상기 입력 프레임에 포함된 복수개의 서브 영역 각각에 대해 주관적 평가 점수를 획득하는 단계는
    비디오 프레임을 입력 받고, 상기 비디오 프레임으로부터 상기 비디오 프레임에 포함된 복수개의 서브 영역 각각에 대해 주관적 평가 점수(Mean Opinion Score, MOS)를 학습한 제1 뉴럴 네트워크를 이용하여, 상기 입력 프레임에 포함된 상기 복수개의 서브 영역 각각에 대해 상기 주관적 평가 점수를 예측하는 단계를 포함하는, 비디오 품질 평가 방법.
  13. 제12 항에 있어서, 상기 제1 뉴럴 네트워크는, 상기 비디오 프레임에 포함된 상기 복수개의 서브 영역 각각의 주관적 평가 점수가, 비디오 프레임 전체에 대한 GT MOS 주관적 평가 점수(Ground Truth Mean Opinion Score, GT MOS)와 같아지도록 훈련된 뉴럴 네트워크인, 비디오 품질 평가 방법.
  14. 제12 항에 있어서, 상기 위치 가중치를 획득하는 단계는 제2 뉴럴 네트워크를 이용하여, 상기 주관적 평가 점수로부터 상기 위치 가중치를 예측하는 단계를 포함하고,
    상기 제2 뉴럴 네트워크는, 상기 제1 뉴럴 네트워크를 통해 예측된 상기 비디오 프레임에 포함된 상기 복수개의 서브 영역 각각에 대한 상기 주관적 평가 점수를 입력 받고, 상기 서브 영역 각각에 대한 주관적 평가 점수와 비디오 프레임 전체에 대한 GT MOS 주관적 평가 점수(Ground Truth Mean Opinion Score, GT MOS) 점수 간의 차이에 대응하는 웨이트를 상기 서브 영역 각각에 대한 위치 가중치로 예측하도록 훈련된 뉴럴 네트워크인, 비디오 품질 평가 방법.
  15. 제14 항에 있어서, 상기 제2 뉴럴 네트워크는 상기 비디오 프레임에 포함된 상기 복수개의 서브 영역 각각에 대한 상기 주관적 평가 점수에, 상기 위치 가중치를 곱해 획득한 가중 평가 점수의 평균 값이 상기 비디오 프레임 전체에 대한 GT MOS와 같아지도록 훈련된 뉴럴 네트워크인, 비디오 품질 평가 방법.
  16. 제11 항에 있어서, 상기 위치 가중치를 획득하는 단계는 상기 전자 장치에 포함된 메모리로부터 상기 위치 가중치를 획득하는 단계를 포함하는, 비디오 품질 평가 방법.
  17. 제16 항에 있어서, 제2 뉴럴 네트워크를 통해 상기 위치 가중치를 예측하여 상기 메모리에 저장하는 단계를 더 포함하고,
    상기 제2 뉴럴 네트워크는 비디오 프레임에 포함된 복수개의 서브 영역 각각에 대한 주관적 평가 점수를 입력 받고, 상기 서브 영역 각각에 대한 주관적 평가 점수와 비디오 프레임 전체에 대한 GT MOS 주관적 평가 점수(Ground Truth Mean Opinion Score, GT MOS) 간의 차이에 대응하는 웨이트를 상기 서브 영역 각각에 대한 위치 가중치로 예측하고,
    상기 비디오 프레임에 포함된 상기 복수개의 서브 영역 각각에 대한 상기 주관적 평가 점수에 상기 위치 가중치를 곱해 획득한 가중 평가 점수의 평균 값이 상기 비디오 프레임 전체에 대한 GT MOS와 같아지도록 훈련된 뉴럴 네트워크인, 비디오 품질 평가 방법.
  18. 제11 항에 있어서, 상기 가중 평가 점수를 획득하는 단계는 상기 주관적 평가 점수와 상기 위치 가중치를 곱하여, 상기 가중 평가 점수를 획득하는 단계를 포함하는, 비디오 품질 평가 방법.
  19. 제11 항에 있어서, 상기 입력 프레임으로부터 관심 영역을 나타내는 고 복잡도 정보를 획득하는 단계를 더 포함하고,
    상기 최종 품질 점수를 획득하는 단계는 상기 가중 평가 점수와 상기 고 복잡도 정보를 함께 고려하여, 상기 입력 프레임 전체에 대한 최종 품질 점수를 획득하는 단계를 포함하는, 비디오 품질 평가 방법.
  20. 입력 프레임에 포함된 복수개의 서브 영역 각각에 대해 주관적 평가 점수(Mean Opinion Score, MOS)를 획득하는 단계;
    상기 복수개의 서브 영역 각각에 대해, 디스플레이의 위치에 따른 특성을 나타내는 위치 가중치를 획득하는 단계;
    상기 주관적 평가 점수 및 상기 위치 가중치에 기반하여, 가중 평가 점수를 획득하는 단계; 및
    상기 가중 평가 점수에 기반하여, 상기 입력 프레임 전체에 대한 최종 품질 점수를 획득하는 단계를 포함하는, 비디오 품질 평가 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
KR1020210190392A 2021-05-25 2021-12-28 비디오 품질을 평가하는 전자 장치 및 그 동작 방법 KR20220159250A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/KR2022/007253 WO2022250388A1 (ko) 2021-05-25 2022-05-20 비디오 품질을 평가하는 전자 장치 및 그 동작 방법
US17/824,587 US20220392210A1 (en) 2021-05-25 2022-05-25 Electronic device for performing video quality assessment, and operation method of the electronic device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210067016 2021-05-25
KR20210067016 2021-05-25

Publications (1)

Publication Number Publication Date
KR20220159250A true KR20220159250A (ko) 2022-12-02

Family

ID=84413114

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210190392A KR20220159250A (ko) 2021-05-25 2021-12-28 비디오 품질을 평가하는 전자 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR20220159250A (ko)

Similar Documents

Publication Publication Date Title
US20220239925A1 (en) Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (vqa)
US11928793B2 (en) Video quality assessment method and apparatus
CN109844736B (zh) 概括视频内容
Xu et al. Visual quality assessment by machine learning
US11960996B2 (en) Video quality assessment method and apparatus
US11989868B2 (en) Video quality assessing method and apparatus
US11934953B2 (en) Image detection apparatus and operation method thereof
US20170055009A1 (en) Method and apparatus for generating quality estimators
KR20230009806A (ko) 영상 처리 장치 및 그 동작 방법
Kottayil et al. Blind quality estimation by disentangling perceptual and noisy features in high dynamic range images
KR20190062030A (ko) 영상 표시 장치 및 그 동작 방법
US20220392210A1 (en) Electronic device for performing video quality assessment, and operation method of the electronic device
EP3828754A1 (en) Computer-implemented video analysis method generating user viewing prediction data for a video
US11735144B2 (en) Image display apparatus and image displaying method
KR20210026618A (ko) 컴퓨팅 장치 및 그 동작 방법
CN113658122A (zh) 图像质量评价方法、装置、存储介质与电子设备
CN113538304A (zh) 图像增强模型的训练方法及装置、图像增强方法及装置
US20230209087A1 (en) Method and device for improving video quality
Shen et al. No-reference stereoscopic 3D image quality assessment via combined model
KR20220159250A (ko) 비디오 품질을 평가하는 전자 장치 및 그 동작 방법
KR20220117057A (ko) 오디오의 존재 및 비존재에 따른 비디오 품질 평가 방법 및 장치
US20230360383A1 (en) Image processing apparatus and operation method thereof
KR20210088399A (ko) 영상 표시 장치 및 방법
KR20230156625A (ko) 영상 처리 장치 및 그 동작 방법
US20240144455A1 (en) Image processing device and operation method thereof