KR20210061943A

KR20210061943A - 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법 및 이를 위한 장치

Info

Publication number: KR20210061943A
Application number: KR1020200154683A
Authority: KR
Inventors: 정세윤; 조승현; 고현석; 권형진; 김동현; 김연희; 김종호; 이주영; 이태진; 최진수; 안세웅; 이상훈
Original assignee: 한국전자통신연구원; 연세대학교 산학협력단
Priority date: 2019-11-20
Filing date: 2020-11-18
Publication date: 2021-05-28
Also published as: KR102395038B1

Abstract

기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법 및 이를 위한 장치가 개시된다. 본 발명의 일실시예에 따른 비디오 화질 자동 측정 방법은 화질을 측정하기 위한 대상 비디오, 비교 대상이 되는 기준 비디오 및 지식기반 특징을 기계학습 기반의 프레임 단위 특징 추출 모델로 입력하여 프레임 단위의 화질 예측값을 계산하고, 프레임 단위의 화질 예측값을 모두 결합하여 프레임 스코어 벡터를 생성하고, 프레임 스코어 벡터를 합성곱 신경망 네트워크로 입력하여 프레임 스코어 벡터와 동일한 크기의 시간적 가중치를 산출하고, 프레임 스코어 벡터와 시간적 가중치를 내적한 결과를 완전 연결 신경망 네트워크로 입력하여 대상 비디오의 화질 예측값을 출력한다.

Description

기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법 및 이를 위한 장치 {METHOD FOR MEASURING VIDEO QUALITY USING MACHINE LEARNING BASED FEATURES AND KNOWLEDGE BASED FEATURES AND APPARATUS USING THE SAME}

본 발명은 비디오 화질을 자동으로 측정하는 기술에 관한 것으로, 특히 화질을 측정하기 위한 대상 비디오와 기준(reference) 비디오 간의 화질 차이 측정을 위한 지표에 관한 것이다.

비디오 처리 분야 또는 비디오 압축 분야에서는 개발 기술의 성능 검증이나 개발 기술 내에서의 최적화를 위해 화질을 나타내는 지표를 필요로 하는데, 해당 지표가 주관적 화질 성능을 잘 반영할수록 개발 기술이 우수한 화질 성능을 제공할 수 있게 된다. 이 때, 주관적 비디오 화질 측정은, 다수 평가자들이 참여하는 화질 평가 실험을 통해 도출된 개별 화질 평가 값을 통계 처리하여 화질 측정 값을 구하는 방법으로, 시간적 비용과 경제적 비용이 모두 높은 방법이라고 볼 수 있다.

일반적으로 비디오는 연속된 이미지(image)로 구성되는데, 이러한 이미지는 프레임 영상(frame image)이라고도 한다. 따라서, 이미지 화질 측정 방법으로도 비디오에 대한 화질을 측정할 수 있다.

그러나, 이미지 화질 측정 방법을 이용하여 비디오의 화질을 측정하는 경우, 그 성능이 크게 떨어지게 된다. 그 이유는 비디오 화질에는 연속된 이미지 간의 화질 변화, 즉 시간적 화질 특성도 인지적 화질에 작용하기 때문이다.

이와 같은 비디오 또는 이미지 화질 측정 방법은 인간의 시각특성에 기반하고 있다. 인간의 시각 특성은 한 이미지에 대한 화질 특성을 의미하는 공간적 화질 특성과 연속된 이미지간의 화질 특성을 의미하는 시간적 화질 특성으로 구분된다.

따라서, 비디오 또는 이미지 화질 측정은 인간의 시각 특성을 수식 또는 모델링하여 특징(feature)을 추출하고, 추출된 특징을 종합하여 최종 화질을 측정하는 방식으로 수행된다.

이 때, 비디오 화질 측정 방법은 심층 신경망과 같은 기계학습 방법을 통해 인간의 시각 특성을 학습하여 특징을 추출하는 기계학습 기반 특징을 이용할 수 있다. 그러나, 비디오 화질 측정 방법은 다른 응용의 심층 신경망 기반의 기계학습의 경우에 비해 학습 데이터의 개수가 상대적으로 매우 적기 때문에 과적합(overfitting)이 발생하기 쉽다는 문제점이 존재한다.

한국 공개 특허 제10-2018-0003609호, 2018년 1월 9일 공개(명칭: 지각 비디오 품질을 예측하기 위한 기술)

본 발명의 목적은 비디오 화질 측정 기술 개발에 있어서 학습 데이터가 충분하지 않은 것을 보완하기 위해 사전에 알고 있는 지식을 학습에 함께 사용하는 방법을 제공하는 것이다.

또한, 본 발명의 목적은 지식 기반 특징을 심층 신경망의 입력으로 함께 사용함으로써 기계 학습의 효율을 향상시키고, 화질 측정 신뢰도(PCC, SRCC 등)을 향상시키는 것이다.

또한, 본 발명의 목적은 최종 신경망의 출력 시 기계학습 기반 특징에 지식 기반 특징을 결합하여 최종 화질 점수를 출력함으로써 화질 측정 신뢰도를 더욱 향상시키는 것이다.

또한, 본 발명의 목적은 상대적으로 적은 시간적 비용과 경제적 비용으로 비디오 화질을 측정하여 주관적 화질 평가를 대체하는 것이다.

상기한 목적을 달성하기 위한 본 발명에 따른 비디오 화질 자동 측정 방법은 화질을 측정하기 위한 대상 비디오, 비교 대상이 되는 기준 비디오 및 지식기반 특징(HANDCRAFT FEATURES)을 기계학습 기반의 프레임 단위 특징 추출 모델로 입력하여 프레임 단위의 화질 예측값을 계산하는 단계; 상기 프레임 단위의 화질 예측값을 모두 결합하여 프레임 스코어 벡터(FRAME SCORE VECTOR, FSV)를 생성하는 단계; 상기 프레임 스코어 벡터를 합성곱 신경망 네트워크(CONVOLUTION NEURAL NETWORK)로 입력하여 상기 프레임 스코어 벡터와 동일한 크기의 시간적 가중치(TEMPORAL WEIGHT)를 산출하는 단계; 및 상기 프레임 스코어 벡터와 상기 시간적 가중치를 내적(DOT PROCUCT)한 결과를 완전 연결 신경망 네트워크(FULLY CONNECTED NEURAL NETWORK)로 입력하여 상기 대상 비디오의 화질 예측값을 출력하는 단계를 포함한다.

또한, 본 발명의 일실시예에 따른 비디오 화질 자동 측정 장치는, 화질을 측정하기 위한 대상 비디오, 비교 대상이 되는 기준 비디오 및 지식기반 특징(HANDCRAFT FEATURES)을 기계학습 기반의 프레임 단위 특징 추출 모델로 입력하여 프레임 단위의 화질 예측값을 계산하고, 상기 프레임 단위의 화질 예측값을 모두 결합하여 프레임 스코어 벡터(FRAME SCORE VECTOR, FSV)를 생성하고, 상기 프레임 스코어 벡터를 합성곱 신경망 네트워크(CONVOLUTION NEURAL NETWORK)로 입력하여 상기 프레임 스코어 벡터와 동일한 크기의 시간적 가중치(TEMPORAL WEIGHT)를 산출하고, 상기 프레임 스코어 벡터와 상기 시간적 가중치를 내적(DOT PROCUCT)한 결과를 완전 연결 신경망 네트워크(FULLY CONNECTED NEURAL NETWORK)로 입력하여 상기 대상 비디오의 화질 예측값을 출력하는 프로세서; 및 상기 프레임 단위 특징 추출 모델을 저장하는 메모리를 포함한다.

본 발명에 따르면, 비디오 화질 측정 기술 개발에 있어서 학습 데이터가 충분하지 않은 것을 보완하기 위해 사전에 알고 있는 지식을 학습에 함께 사용하는 방법을 제공할 수 있다.

또한, 본 발명은 지식 기반 특징을 심층 신경망의 입력으로 함께 사용함으로써 기계 학습의 효율을 향상시키고, 화질 측정 신뢰도(PCC, SRCC 등)을 향상시킬 수 있다.

또한, 본 발명은 최종 신경망의 출력 시 기계학습 기반 특징에 지식 기반 특징을 결합하여 최종 화질 점수를 출력함으로써 화질 측정 신뢰도를 더욱 향상시킬 수 있다.

또한, 본 발명은 상대적으로 적은 시간적 비용과 경제적 비용으로 비디오 화질을 측정하여 주관적 화질 평가를 대체할 수 있다.

도 1은 본 발명의 일실시예에 따른 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법을 나타낸 동작흐름도이다.
도 2는 본 발명에 따른 프레임 영상 화질 측정 모듈의 일 예를 나타낸 도면이다.
도 3은 도 2에 도시된 프레임 단위 전처리부의 일 예를 나타낸 도면이다.
도 4는 본 발명에 따른 Coefficient matrix의 일 예를 나타낸 도면이다.
도 5는 도 2에 도시된 기계학습 기반 프레임 단위 특징 추출부의 일 예를 나타낸 도면이다.
도 6은 도 5에 도시된 기계학습 기반 프레임 단위 특징 추출부의 입력단에서의 합성곱 신경망 연산의 일 예를 나타낸 도면이다.
도 7은 도 5에 도시된 기계학습 기반 프레임 단위 특징 추출부의 출력단에서의 합성곱 신경망 연산의 일 예를 나타낸 도면이다.
도 8은 도 2에 도시된 프레임 단위 화질 예측부의 일 예를 나타낸 도면이다.
도 9는 도 8에 도시된 NVS 특징 벡터의 일 예를 나타낸 도면이다.
도 10은 본 발명에 따른 AC Band 맵의 히스토그램의 일 예를 나타낸 도면이다.
도 11은 본 발명에 따른 시간적 풀링 처리 모듈의 일 예를 나타낸 도면이다.
도 12는 본 발명의 일실시예에 따른 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 장치를 나타낸 블록도이다.
도 13은 본 발명의 일실시예에 따른 컴퓨터 시스템을 나타낸 도면이다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

이하에서 설명하는 본 발명은 비디오 화질 평가 데이터로부터 합성곱 심층신경망(CNN: Convolutional deep Neural Network)을 통해 인간의 시각 특성을 학습함으로써 비디오 화질을 자동으로 측정하는 경우에 화질 측정 성능을 개선하기 위해 기존에 알려진 지식을 기반으로 설계된 특징을 함께 활용하는 방법에 관한 것이다.

일반적으로, 지식 기반으로 설계된 특징은 2가지 형태로 사용이 된다.

첫번째는 합성곱 심층 신경망 학습에 입력 데이터로 사용하는 것이다. 이는 보다 학습이 잘 되도록 하기 위함이다.

두 번째는 최종 특징 레벨에서의 결합 사용이다. 합성곱 심층신경망 기반 화질 측정 시 심층신경망이 추출한 특징으로부터 화질 점수를 도출하기 위한 일반적인 신경망(Fully Connected Neural Network)이 최종 출력단에서 사용된다. 이 출력단에 지식기반 특징을 추가로 결합하여 활용할 수 있다.

이 때, 본 발명은 이미지 단위의 화질을 측정하고, 이미지 단위의 화질 측정값을 종합(temporal pooling)하여 최종적인 비디오 화질을 출력하는 기술에 관한 것이다. 따라서, 본 발명을 위한 기계학습도 2단계로 진행될 수 있다. 즉, 이미지 단위의 화질 측정 모듈에 대한 학습을 먼저 수행한 뒤에 이미지 단위의 화질 측정 모듈과 시간적 풀링 모듈을 결합한 상태로 최종 학습을 수행하는 형태로 구성될 수 있다.

이 때, 본 발명의 이미지 단위 화질 측정 모듈은 이미지 화질 측정 방법으로 단독 활용도 가능하다.

도 1은 본 발명의 일실시예에 따른 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법을 나타낸 동작흐름도이다.

도 1을 참조하면, 본 발명의 일실시예에 따른 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법은 화질을 측정하기 위한 대상 비디오, 비교 대상이 되는 기준 비디오 및 지식 기반 특징(HANDCRAFT FEATURES)을 기계학습 기반의 프레임 단위 특징 추출 모델로 입력하여 프레임 단위의 화질 예측값을 계산한다(S110).

이 때, 지식 기반 특징은 인간의 시각 특성 연구들을 통해 알려진 지식을 기반으로 연구자가 직접 설계한 방법으로 추출하는 특징을 의미할 수 있다. 이를 핸드크래프트 특징(handcraft feature)이라고도 한다.

이 때, 프레임 단위의 화질 예측값은 기준 비디오 대비 대상 비디오의 화질 차이에 의한 상대 화질에 상응하는 값일 수 있다.

이 때, 비디오는 시간적 특성도 고려해야 하므로, 입력되는 비디오의 첫번째 프레임에 대해서는 화질 예측값을 계산하지 않고 두번째 프레임부터 화질 예측값을 계산할 수 있다. 즉, 현재 프레임(t)과 직전 프레임(t-1)의 시간적 특성을 함께 고려하여 현재 프레임의 화질을 예측할 수 있다.

예를 들어 도 2를 참조하면, 본 발명의 일실시예에 따른 비디오 화질 자동 측정 장치에 구비된 프레임 영상 화질 측정 모듈(200)의 프레임 단위 전처리부(210)로 대상 비디오(T)와 기준 비디오(R)를 프레임 단위로 순차 입력할 수 있다.

보다 상세하게는, 도 3에 도시된 것처럼 대상 비디오(T)에 대한 현재 프레임(F^t _T)과 직전 프레임(F^t-1 _T) 및 기준 비디오(R)에 대한 현재 프레임(F^t _R)과 직전 프레임(F^t-1 _R)을 각각 프레임 단위 전처리부(210)로 입력할 수 있다.

이 때, 프레임 단위 전처리부(210)는 대상 비디오의 현재 프레임(F^t _T)과 직전 프레임(F^t-1 _T), 기준 비디오의 현재 프레임(F^t _R)과 직전 프레임(F^t-1 _R) 총 4개의 프레임들로부터 8개의 특징 맵(map)들을 구하는 작업을 수행할 수 있다.

이 때, 8개의 특징 맵들 중 중간주파수(Medium frequency), 고주파수(High frequency), 수직성분(vertical component), 수평성분(horizontal component)에 의한 4개의 특징 맵들은 압축 비디오 화질 측정에 적합하다고 알려진 특징맵으로써 지식 기반 특징의 일실시예이다. 본 발명에서는 이 4개의 맵들을 압축 비디오 특징 맵(300)이라고 한다.

이하에서는 도 3에 도시된 각 특징맵들에 대해 상세하게 설명하도록 한다.

이 때, 프레임을 F로 표기하고, 아래 첨자 T는 대상 비디오임을 의미하고, 아래 첨자 R은 기준 비디오임을 의미할 수 있다. 또한, 위 첨자는 현재 프레임의 시간을 의미할 수 있다. 예를 들어, 기준 비디오의 t시간에서의 프레임을

로 표기할 수 있다.

왜곡 프레임(Distorted Frame)은 대상 비디오 현재 프레임의 다른 명칭이며 수학식 기호로

로 표기할 수 있다.

공간적 에러 맵(Spatial Error map)은 왜곡 프레임과 기준 비디오의 현재 프레임 간의 차이를 나타낸 것으로 [수학식 1]을 통해 산출될 수 있다.

[수학식 1]

프레임 차이 맵(Frame Difference Map)은 대상 비디오의 현재 프레임과 직전 프레임의 차이를 나타낸 것으로 [수학식 2]를 통해 산출될 수 있다.

[수학식 2]

시간적 에러 맵(Temporal Error Map)은 대상 비디오의 프레임 차이 맵과 기준 비디오의 프레임 차이 맵의 차이를 나타낸 것으로 [수학식 3]을 통해 산출될 수 있다.

[수학식 3]

중간주파수 특징 맵(Mid Frequency Map), 고주파수 특징 맵(High Frequency Map), 수직성분 맵(vertical Component Map) 및 수평성분 맵(Horizontal Component Map)은 현재 픽셀(m,n)을 기준으로 오른쪽 방향으로 3픽셀, 아래 방향으로 3픽셀을 포함하는 4x4 블록에 대한 4x4 DCT(Discrete Cosine Transform)를 수행하고, 도 4와 같은 DCT 계수 행렬로부터 각 맵의 현재 픽셀 위치의 값을 나타낸 것으로 [수학식 4]를 통해 산출될 수 있다.

[수학식 4]

이 때, 중간 주파수 맵의 (i,j) 픽셀의 값은 도 4에 도시된 것처럼 4x4 블록에 대해 4x4 DCT를 수행한 후 [수학식 4]의 B₃로 산출할 수 있다. 도 4에 도시된 C1의 위치가 (i,j) 픽셀의 위치에 상응할 수 있다.

이 때, 고 주파수 맵의 (i,j) 픽셀의 값은 중간 주파수 맵의 4x4 DCT 수행한 결과에 [수학식 4]의 B₄를 적용하여 산출할 수 있다.

이와 유사하게, 수직 성분맵의 (i,j) 픽셀의 값은 [수학식 4]의 B₅를 적용하여 구하고, 수평 성분맵의 (i,j)픽셀의 값은 [수학식 4]의 B₆을 적용하여 구할 수 있다.

이 때, [수학식 4]와 같이 AC 밴드 맵 B₁도 미리 계산해 두었다가, 추후에 CVS 특징을 구할 때 사용할 수 있다.

이와 같은 과정을 통해, 도 2에 도시된 프레임 단위 전처리부(210)를 통해 출력된 8개의 특징 맵들은 기계학습 기반 프레임 단위 특징 추출부(220)로 입력될 수 있다. 이 때, 기계학습 기반 프레임 단위 특징 추출부(220)는 기계학습 기반의 프레임 단위 특징 추출 모델을 이용하여 값을 출력할 수 있다.

예를 들어, 도 5를 참조하면, 기계학습 기반 프레임 단위 특징 추출부(220)는 결합부(221)를 통해 8개의 특징 맵을 결합하여 하나의 84 채널 맵을 출력할 수 있다.

이 때, 프레임 단위 전처리부(210)로부터 출력된 8개의 특징 맵들은 각각 한 개의 채널(성분)로 구성될 수 있다. 일반적으로 비디오 또는 이미지 화질 측정 기술에서는 명암 성분(luma)만을 고려하므로, 각 특징 맵은 한 개의 채널로 구성될 수 있다.

이 때, 본 발명의 일실시예는 명암 성분에 대해서만 실시예를 제시하지만, 본 발명의 실시 예를 R, G, B 각 성분 별로 적용할 수도 있다.

이 때, 8개의 특징 맵들 중 왜곡 프레임, 공간 에러 맵, 프레임 차이 맵 및 시간 에러 맵은 결합부(221)에 입력되기 전에 도 6에 도시된 것처럼 두 번의 합성곱 신경망 연산을 통해 중간 특징이 추출될 수 있다.

예를 들어, 왜곡 프레임에 Conv 1-1과 Conv 2-1에 해당하는 합성곱 신경망 연산을 적용하고, 공간 에러 맵에 Conv 1-2와 Conv 2-2에 해당하는 합성곱 신경망 연산을 적용하고, 프레임 차이 맵에 Conv 1-3과 Conv 2-3에 해당하는 합성곱 신경망 연산을 적용하고, 시간 에러 맵에 Conv 1-4와 Conv 2-4에 해당하는 합성곱 신경망 연산을 적용할 수 있다.

이 때, 추출되는 4개의 중간 특징들은 각각 원래의 가로 및 세로 크기보다 절반 크기(½ 크기)로 줄어들게 된다.

이 때, 중간 주파수 맵, 고주파수 맵, 수직성분 맵 및 수평성분 맵은 도 5에 도시된 것처럼, 각각 다운 샘플러에 의해 가로 및 세로의 크기가 절반(½ 크기)으로 줄어들게 된다.

따라서, 결합부(221)는 8개의 ½ 크기의 맵들을 결합하여 84 채널 맵을 출력할 수 있다. 이 때, 도 5에 도시된 다운 샘플러 대신 심층 신경망에서 사용하는 최대값 풀링(Max Pooling) 또는 평균값 풀링(average pooling)을 사용하는 것도 가능하다.

이 후, 기계학습 기반 프레임 단위 특징 추출부(220)에서는 도 7에 도시된 것처럼 세 번의 합성곱 신경망 연산(Conv3~5)를 통해 최종적으로 64 채널의 특징 맵(500)을 추출할 수 있다.

이와 같이 추출된 64 채널의 특징 맵(500)은 도 2에 도시된 프레임 단위 화질 예측부(230)로 입력되어 프레임 단위의 화질 예측값을 산출하는데 사용될 수 있다.

예를 들어, 8을 참조하면, 프레임 단위 화질 예측부(230)의 평균 풀링부(231)는 기계학습 기반 프레임 단위 특징 추출부(220)에서 출력한 64채널 특징 맵(500)을 입력 받아서, 각 채널 별로 평균을 취한 후 64개의 특징 값을 구할 수 있다.

이 때, 64개의 특징 값은 기계학습을 통해 추출된 최종 특징벡터에 상응할 수 있다.

이 때, 프레임 단위 화질 예측부(230)에서는 도 2에 도시된 것처럼 프레임 영상 화질 측정 모듈(200)로 입력된 지식기반 특징을 이용하여 자연 비디오 통계적(Natural Video Statistics, NVS) 특징 벡터(15개의 값)와 압축 비디오 통계적(Compressed Video Statistics, CVS) 특징 벡터(3개의 값)를 결합하고, 일반적인 2계층의 신경망(Fully Connected Neural Network)를 통해 프레임 화질 예측값(800)을 출력할 수 있다.

이 때, NVS 특징 벡터는 도 9에 도시된 과정을 통해 추출할 수 있다.

예를 들어, 도 9를 참조하면, 먼저 두 프레임 간의 차이 영상 맵(Normalized difference map, NDM)을 구하고, 평균과 표준편차를 이용해서 정규화를 수행할 수 있다.

이 때, 정규화는 [수학식 5]에 상응하게 수행할 수 있다.

[수학식 5]

이 때, W_{k, l}(k= -K. ..., K | l = -L, ..., L)은 3개의 표준 편차 (K = L = 3)으로 샘플링된 2차원 원형 대칭 가우시안 가중치 함수에 상응할 수 있다.

이 후, 도 9에 도시된 것처럼 정규화된 차이 영상 맵으로부터 히스토그램을 구한 후 이를 일반화된 가우시안 분포 함수로 피팅하여 평균(μ), 분산(σ), 모양 파라미터(γ)에 해당하는 3개의 특징을 산출할 수 있다.

또한, 도 9에 도시된 수학식 H, V, D1, D2에 각각 차이 영상 맵에서 현재 픽셀과 주변 픽셀의 관계를 대입하여 H 맵, V 맵, D1 맵, D2 맵을 구할 수 있다. 이 후, 각 맵으로부터 히스토그램을 구한 후 이를 비대칭 일반화된 가우시안 분포 함수로 피팅하여 left variance(Δ

), right variance(Δβ_r), shape parameter(Δγ)에 해당하는 3개의 특징을 산출할 수 있다. 즉, H 맵, V 맵, D1 맵, D2 맵에 해당하는 4개의 맵으로 부터 각각 3개씩의 특징을 산출하여 12개의 특징을 추출할 수 있다.

이렇게 산출한 3개의 특징(910)과 12개의 특징(920)을 합친 15개의 값을 NVS 특징 벡터로 사용할 수 있다.

또한, 다른 실시예로 보다 시간적 특성을 이용하기 위해 이전 프레임에서 구한 값들의 차이를 사용할 수도 있다.

즉, 매 프레임 별로 H 맵, V 맵, D1 맵, D2 맵을 구하여 γ,

, β_r 값을 추출하고, t-1 프레임에서 구해진 γ,

, β_r와 t 프레임에서 구해진 γ,

, β_r과의 차를 특징으로 사용할 수도 있다.(각각의 H, V, D1, D2에 대해서 매 프레임 별 Δγ, Δ

, Δβ_r 값을 추출)

이 때, CVS 특징 벡터는 도 10에 도시된 AC Band(B1) Map의 히스토그램을 이용하여 추출될 수 있다.

이 때, 도 10에 도시된 히스토그램으로부터 추출된 값을 [수학식 6]에 적용하여 Kurtosis(f₁), Smoothness(f₂), sharpness(f₃)에 해당하는 3가지 특징을 추출하여 CVS 특징 벡터로 사용할 수 있다.

[수학식 6]

이 때, 상기 [수학식 4]의 AC Band B₁에 대한 히스토그램에 대해서 [수학식 6]의 f₁을 적용할 수 있다.

이 때, E는 average 연산자,

는 히스토그램 평균,

는 히스토그램 분산을 의미할 수 있다.

이 때, 도 2에 도시된 프레임 영상 화질 측정 모듈(200)에서 시간적 특성을 고려하지 않을 경우, 출력된 화질 예측값을 정지 영상에 대한 화질 측정에 활용할 수도 있다.

또한, 본 발명의 일실시예에 따른 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법은 프레임 단위의 화질 예측값을 모두 결합하여 프레임 스코어 벡터(FRAME SCORE VECTOR, FSV)를 생성한다(S120).

또한, 본 발명의 일실시예에 따른 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법은 프레임 스코어 벡터를 합성곱 신경망 네트워크(CONVOLUTION NEURAL NETWORK)로 입력하여 프레임 스코어 벡터와 동일한 크기의 시간적 가중치(TEMPORAL WEIGHT)를 산출한다(S130).

예를 들어, 도 11을 참조하면, 본 발명의 일실시예에 따른 비디오 화질 자동 측정 장치의 시간적 풀링 처리 모듈(1120)은 프레임 스코어 벡터(1111)를 입력 받고, CNAN ATTENTION BLOCK(1121)을 이용하여 프레임 스코어 벡터(1111)와 동일한 크기의 시간적 가중치(1122)를 산출할 수 있다.

또한, 본 발명의 일실시예에 따른 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법은 프레임 스코어 벡터와 시간적 가중치를 내적(DOT PROCUCT)한 결과를 완전 연결 신경망 네트워크(FULLY CONNECTED NEURAL NETWORK)로 입력하여 대상 비디오의 화질 예측값을 출력한다(S140).

예를 들어, 도 11을 참조하면, 본 발명의 일실시예에 따른 비디오 화질 자동 측정 장치의 시간적 풀링 처리 모듈(1120)은 프레임 스코어 벡터(1111)와 시간적 가중치(1122)를 내적(dot product)하는 과정을 수행하여 (FSV^T ·TW) 값(1123)을 산출할 수 있다. 이 후, (FSV^T ·TW) 값(1123)을 일반적 신경망에 해당하는 FULLY CONNECTED NEURAL NETWORK로 입력하여 최종적으로 대상 비디오의 화질 예측값을 출력할 수 있다.

또한, 도 1에는 도시하지 아니하였으나, 본 발명의 일실시예에 따른 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법은 단계(S110) 내지 단계(S140)에서 사용되는 기계학습 기반의 프레임 단위 특징 추출 모델이나 신경망에 대한 기계학습을 수행할 수 있다.

이 때, 기계학습은 두 단계로 실행될 수 있는데, 먼저 1단계로 도 2에 도시된 프레임 영상 화질 예측 모듈(200)을 학습시킬 수 있다.

이 때, 기준 비디오, 대상 비디오 및 기준 비디오 대비 대상 비디오 화질차이 점수로 구성된 학습 데이터 셋을 입력하여 프레임 영상 화질 예측 모듈(200)을 학습시킬 수 있다.

이와 같은 학습 데이터 셋을 이용하여 프레임 단위 학습을 수행함으로, 비디오 화질 점수가 모든 프레임에서 동일하다고 가정하고 학습을 수행할 수 있다. 즉, 학습 데이터 셋을 프레임 영상 데이터 셋에 해당하는 기준 비디오의 현재 프레임과 직전 프레임, 대상 비디오의 현재 프레임과 직전 프레임 및 기준 비디오 대비 대상 비디오 화질차이 점수로 구성하여 기계학습을 수행할 수 있다.

이 후, 2단계로는 1단계에서 학습된 프레임 영상 화질 예측 모듈(200)을 도 11에 도시된 시간적 풀링 처리 모듈(1120)과 결합한 후 학습 데이터 셋을 이용하여 학습을 수행할 수 있다. 즉, 프레임 영상 화질 예측 모듈(200)의 신경망의 초기 계수 값으로 1단계 학습 결과를 사용하도록 할 수 있다.

이 때, 2단계 학습에서는 프레임 영상 화질 예측 모듈(200)과 시간적 풀링 처리 모듈(1120)을 결합한 전체 구성에 대해 지도 학습을 수행할 수 있는데, 지도학습의 입력은 비디오 영상 전체와 대응하는 주관적 화질 평가 점수를 사용할 수 있다.

이와 같은 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법을 통해 비디오 화질 측정 기술 개발에 있어서 학습 데이터가 충분하지 않은 것을 보완하기 위해 사전에 알고 있는 지식을 학습에 함께 사용하는 방법을 제공할 수 있다.

또한, 지식 기반 특징을 심층 신경망의 입력으로 함께 사용함으로써 기계 학습의 효율을 향상시키고, 화질 측정 신뢰도(PCC, SRCC 등)을 향상시킬 수 있다.

또한, 최종 신경망의 출력 시 기계학습 기반 특징에 지식 기반 특징을 결합하여 최종 화질 점수를 출력함으로써 화질 측정 신뢰도를 더욱 향상시킬 수 있다.

또한, 상대적으로 적은 시간적 비용과 경제적 비용으로 비디오 화질을 측정하여 주관적 화질 평가를 대체할 수 있다.

도 12는 본 발명의 일실시예에 따른 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 장치를 나타낸 블록도이다.

또한, 도 12를 참조하면, 본 발명의 일실시예에 따른 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 장치는 통신부(1210), 프로세서(1220) 및 메모리(1230)를 포함한다.

통신부(1210)는 네트워크와 같은 통신망을 통해 비디오 화질 자동 측정을 위해 필요한 정보를 송수신하는 역할을 할 수 있다. 이 때, 네트워크는 장치들간에 데이터를 전달하는 통로를 제공하는 것으로서, 기존에 이용되는 네트워크 및 향후 개발 가능한 네트워크를 모두 포괄하는 개념이다.

예를 들면, 네트워크는 인터넷 프로토콜(IP)을 통하여 대용량 데이터의 송수신 서비스 및 끊기는 현상이 없는 데이터 서비스를 제공하는 아이피망, 아이피를 기반으로 서로 다른 망을 통합한 아이피망 구조인 올 아이피(All IP)망 등일 수 있으며, 유선망, Wibro(Wireless Broadband)망, WCDMA를 포함하는 3세대 이동통신망, HSDPA(High Speed Downlink Packet Access)망 및 LTE 망을 포함하는 3.5세대 이동통신망, LTE advanced를 포함하는 4세대 이동통신망, 위성통신망 및 와이파이(Wi-Fi)망 중에서 하나 이상을 결합하여 이루어질 수 있다.

또한, 네트워크는 한정된 지역 내에서 각종 정보장치들의 통신을 제공하는 유무선근거리 통신망, 이동체 상호 간 및 이동체와 이동체 외부와의 통신을 제공하는 이동통신망, 위성을 이용해 지구국과 지구국간 통신을 제공하는 위성통신망이거나 유무선 통신망 중에서 어느 하나이거나, 둘 이상의 결합으로 이루어질 수 있다. 한편, 네트워크의 전송 방식 표준은, 기존의 전송 방식 표준에 한정되는 것은 아니며, 향후 개발될 모든 전송 방식 표준을 포함할 수 있다.

프로세서(1220)는 화질을 측정하기 위한 대상 비디오, 비교 대상이 되는 기준 비디오 및 지식 기반 특징(HANDCRAFT FEATURES)을 기계학습 기반의 프레임 단위 특징 추출 모델로 입력하여 프레임 단위의 화질 예측값을 계산한다.

로 표기할 수 있다.

[수학식 1]

[수학식 2]

[수학식 3]

[수학식 4]

이 때, 정규화는 [수학식 5]에 상응하게 수행할 수 있다.

[수학식 5]

즉, 매 프레임 별로 H 맵, V 맵, D1 맵, D2 맵을 구하여 γ,

, β_r 값을 추출하고, t-1 프레임에서 구해진 γ,

, β_r와 t 프레임에서 구해진 γ,

, Δβ_r 값을 추출)

[수학식 6]

이 때, E는 average 연산자,

는 히스토그램 평균,

는 히스토그램 분산을 의미할 수 있다.

또한, 프로세서(1220)는 프레임 단위의 화질 예측값을 모두 결합하여 프레임 스코어 벡터(FRAME SCORE VECTOR, FSV)를 생성한다.

또한, 프로세서(1220)는 프레임 스코어 벡터를 합성곱 신경망 네트워크(CONVOLUTION NEURAL NETWORK)로 입력하여 프레임 스코어 벡터와 동일한 크기의 시간적 가중치(TEMPORAL WEIGHT)를 산출한다.

또한, 프로세서(1220)는 프레임 스코어 벡터와 시간적 가중치를 내적(DOT PROCUCT)한 결과를 완전 연결 신경망 네트워크(FULLY CONNECTED NEURAL NETWORK)로 입력하여 대상 비디오의 화질 예측값을 출력한다.

예를 들어, 도 11을 참조하면, 본 발명의 일실시예에 따른 비디오 화질 자동 측정 장치의 시간적 풀링 처리 모듈(1120)은 프레임 스코어 벡터(1111)와 시간적 가중치(1122)를 내적(dot product)하는 과정을 수행하여 (FSV^T·TW) 값(1123)을 산출할 수 있다. 이 후, (FSV^T·TW) 값(1123)을 일반적 신경망에 해당하는 FULLY CONNECTED NEURAL NETWORK로 입력하여 최종적으로 대상 비디오의 화질 예측값을 출력할 수 있다.

또한, 프로세서(1220)는 기계학습 기반의 프레임 단위 특징 추출 모델이나 신경망에 대한 기계학습을 수행할 수 있다.

이 때, 도 12에서 설명을 위해 참조한 도 2의 프레임 영상 화질 예측 모듈(200)이나 도 11의 시간적 풀링 처리 모듈(1120)은 도 12에 도시된 프로세서(1220)와 동일한 역할을 수행하는 장치에 상응할 수 있다.

메모리(1230)는 기계학습 기반의 프레임 단위 특징 추출 모델을 저장한다.

또한, 메모리(1230)는 상술한 비디오 화질 자동 측정 과정에서 발생하는 다양한 정보를 저장한다.

이와 같은 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 장치를 이용함으로써 비디오 화질 측정 기술 개발에 있어서 학습 데이터가 충분하지 않은 것을 보완하기 위해 사전에 알고 있는 지식을 학습에 함께 사용하는 방법을 제공할 수 있다.

도 13은 본 발명의 일실시예에 따른 컴퓨터 시스템을 나타낸 도면이다.

도 13을 참조하면, 본 발명의 실시예는 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템에서 구현될 수 있다. 도 13에 도시된 바와 같이, 컴퓨터 시스템(1300)은 버스(1320)를 통하여 서로 통신하는 하나 이상의 프로세서(1310), 메모리(1330), 사용자 입력 장치(1340), 사용자 출력 장치(1350) 및 스토리지(1360)를 포함할 수 있다. 또한, 컴퓨터 시스템(1300)은 네트워크(1380)에 연결되는 네트워크 인터페이스(1370)를 더 포함할 수 있다. 프로세서(1310)는 중앙 처리 장치 또는 메모리(1330)나 스토리지(1360)에 저장된 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1330) 및 스토리지(1360)는 다양한 형태의 휘발성 또는 비휘발성 저장 매체일 수 있다. 예를 들어, 메모리는 ROM(1331)이나 RAM(1332)을 포함할 수 있다.

따라서, 본 발명의 실시예는 컴퓨터로 구현된 방법이나 컴퓨터에서 실행 가능한 명령어들이 기록된 비일시적인 컴퓨터에서 읽을 수 있는 매체로 구현될 수 있다. 컴퓨터에서 읽을 수 있는 명령어들이 프로세서에 의해서 수행될 때, 컴퓨터에서 읽을 수 있는 명령어들은 본 발명의 적어도 한 가지 측면에 따른 방법을 수행할 수 있다.

이상에서와 같이 본 발명에 따른 기계 학습 기반 특징과 지식 기반 특징을 이용한 비디오 화질 자동 측정 방법 및 이를 위한 장치는 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

200, 1110: 프레임 영상 화질 측정 모듈
210: 프레임 단위 전처리부 211: 특징맵 계산부
220: 기계학습 기반 프레임 단위 특징 추출부
221: 결합부 230: 프레임 단위 화질 예측부
231: 평균 풀링부 300: 압축 비디오 특징 맵
500: 64채널 특징 맵 800: 프레임 화질 예측값
910, 920: NVS 특징 벡터 1111: FSV(Frame Scores Vector)
1120: 시간적 풀링 처리 모듈 1121: CNAN Attention Block
1122: TW(Temporal Weight) 1123: FSVT ·TW
1210: 통신부 1220: 프로세서
1230, 1330: 메모리 1300: 컴퓨터 시스템
1310: 프로세서 1320: 버스
1331: 롬 1332: 램
1340: 사용자 입력 장치 1350: 사용자 출력 장치
1360: 스토리지 1370: 네트워크 인터페이스
1380: 네트워크

Claims

화질을 측정하기 위한 대상 비디오, 비교 대상이 되는 기준 비디오 및 지식기반 특징(HANDCRAFT FEATURES)을 기계학습 기반의 프레임 단위 특징 추출 모델로 입력하여 프레임 단위의 화질 예측값을 계산하는 단계;
상기 프레임 단위의 화질 예측값을 모두 결합하여 프레임 스코어 벡터(FRAME SCORE VECTOR, FSV)를 생성하는 단계;
상기 프레임 스코어 벡터를 합성곱 신경망 네트워크(CONVOLUTION NEURAL NETWORK)로 입력하여 상기 프레임 스코어 벡터와 동일한 크기의 시간적 가중치(TEMPORAL WEIGHT)를 산출하는 단계; 및
상기 프레임 스코어 벡터와 상기 시간적 가중치를 내적(DOT PROCUCT)한 결과를 완전 연결 신경망 네트워크(FULLY CONNECTED NEURAL NETWORK)로 입력하여 상기 대상 비디오의 화질 예측값을 출력하는 단계
를 포함하는 것을 특징으로 하는 비디오 화질 자동 측정 방법.