KR102417133B1 - 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치 및 방법 - Google Patents

시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치 및 방법 Download PDF

Info

Publication number
KR102417133B1
KR102417133B1 KR1020210010710A KR20210010710A KR102417133B1 KR 102417133 B1 KR102417133 B1 KR 102417133B1 KR 1020210010710 A KR1020210010710 A KR 1020210010710A KR 20210010710 A KR20210010710 A KR 20210010710A KR 102417133 B1 KR102417133 B1 KR 102417133B1
Authority
KR
South Korea
Prior art keywords
quality
video
spatiotemporal
prediction model
learning
Prior art date
Application number
KR1020210010710A
Other languages
English (en)
Inventor
김형국
신승수
이기용
김상욱
Original Assignee
광운대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광운대학교 산학협력단 filed Critical 광운대학교 산학협력단
Priority to KR1020210010710A priority Critical patent/KR102417133B1/ko
Application granted granted Critical
Publication of KR102417133B1 publication Critical patent/KR102417133B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/02Diagnosis, testing or measuring for television systems or their details for colour television signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/262Analysis of motion using transform domain methods, e.g. Fourier domain methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 바람직한 실시예에 따른 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치 및 방법은, 시공간 모델링을 기반으로 동영상의 품질을 자동으로 측정할 수 있으며, 측정된 동영상 품질은 전문가에 의한 주관적 평가 방법에 의한 결과와 유사한 결과를 가질 수 있다.

Description

시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치 및 방법{Apparatus and method for assessing video quality via temporal and spatial context information}
본 발명은 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치 및 방법에 관한 것으로서, 더욱 상세하게는 동영상의 품질을 자동으로 측정하는, 장치 및 방법에 관한 것이다.
동영상의 품질에 대한 평가는 객관적인 척도에 따른 평가와 주관적인 척도에 따른 평가로 구분할 수 있다.
객관적인 척도에 따른 평가에는 화면의 해상도와 프레임 레이트(frame rate)를 가지고 하는 방법이 대표적이고, 화면내 품질을 고려할 때에는 열화의 정도를 최대 신호 대 잡음비(Peak Signal-to-Noise Ratio, PSNR)을 이용하여 측정하는 방법 등이 있다.
주관적인 척도에 따른 평가에는 영화에 대한 별점이나 점수로 평가하는 방법들이 있으나, 사람마다 주관적인 평가 기준이 다 다르기 때문에, 광범위한 평가 경험을 가지고 있고 평가에 대한 기준을 나름대로 가지고 있는 평가 전문가에 의해 재생 시간 전체에 대한 평가가 수행되어야 한다.
객관적인 척도에 따른 평가에 의하면, 포맷(format) 형식만을 고려한 평가 기준으로 동영상에 포함되어 있는 내부 콘텐츠에 대한 평가가 되지 못하는 한계가 있어, 동영상 콘텐츠를 선택하는 경우 전문가들의 추천에 의존하거나, 별점이나 점수 등의 주관적인 척도를 고려하여 선택하고 있다.
기계를 이용하여 주관적인 척도를 반영하기 위해서는 딥러닝 신경망 학습을 통해서 모델을 개발하여 화질 평가에 사용하는 방법이 있을 수 있다. 이전 세대의 신경망은 충분한 양의 참고할 수 있는 학습용 데이터를 이용해서 신경망 모델을 먼저 수립한 뒤, 이후에 수립한 모델을 가지고서 테스트를 수행한다. 이 경우, 모델링하는데 있어서 한정된 수의 학습용 데이터가 다루고 있는 특화된 부분들이 있어서 모델링에 사용된 데이터 특성에 의존하고, 적용 범위를 광범위하게 넓혀서 적용하기에는 한계가 있었다. 이러한 문제는 딥러닝에 의해 개선할 수 있다. 일방적인 한 방향 교육에 의한 백프로파게이션(back-propagation) 학습이 이전 세대의 신경망 학습이었다면, 딥러닝은 교육에 의한 학습과 자기 학습에 의해 학습 모델을 만들어 가는 것이 가능하다. 딥러닝에 기반하여 기계가 사람과 유사하게 학습하고 품질을 평가하는 무참조(No-Reference, NR) 품질 평가(quality assessment) 방식을 구현할 수 있다. 딥러닝을 할 때 학습을 하는데 어떤 특징을 사용하는지에 따라 성능에 차이를 보인다. 시간과 공간의 특성과 사람의 주관적인 품질 평가 척도와 유사한 효과를 제공할 수 있는 특징을 추출하여 모델링에 사용할 수 있다.
딥러닝에 의한 경우, 한정된 수의 데이터를 이용해 모델을 만들기 때문에, 정지 영상에는 적용이 용이하나, 동영상에는 적용되기 어려운 한계가 있다. 동영상에 대해서는 사용되지 못하고 있는 이유 가운데 하나는 동영상을 구성하고 있는 장면마다 시간적/공간적으로 변화가 있을 수 있어, 시간적/공간적인 변화를 효과적으로 모델링에 반영할 수 있는 방법이 필요하기 때문이다.
동영상에서는 움직임이 많이 발생한다. 특히, 스포츠 동영상의 경우 장면의 전환이 많이 일어나게 된다. 영상의 분석에 많이 사용하는 이산 푸리에 변환(Discrete Fourier Transform, DFT)의 경우, 시간과 공간이라는 측면에서 보았을 때, 공간에 대한 변화를 분석할 수 있게 하지만 시간에 대한 변화는 이산 푸리에 변환(DFT) 결과만을 가지고서는 볼 수가 없다. 이러한 문제는 시간과 공간에 대한 변화를 특징으로 제공할 수 있는 쉬어렛 변환(Shearlet Transform) 기술을 이용하여 해결할 수 있다.
본 발명이 이루고자 하는 목적은, 영화, 스포츠 중계 영상 등과 같은 동영상의 품질을 평가하는데 있어 전문가가 수행해야 하던 일을 기계로 자동화하고 대체할 수 있도록 하기 위해, 시공간 모델링을 기반으로 동영상의 품질에 대한 전문가에 의한 주관적 평가 방법에 의한 결과와 유사한 결과를 제공하는, 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치 및 방법을 제공하는 데 있다.
본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.
상기의 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치는, 3차원 쉬어렛 변환(3 Dimensional Shearlet Transform)을 이용하여 추출 대상 동영상에서 시공간 특징을 추출하는 시공간 특징 추출부; 학습 동영상에서 상기 시공간 특징 추출부를 통해 추출된 시공간 특징 및 상기 학습 동영상에 대응되는 전문가 주관적 점수 정보를 기반으로, 양방향 게이트 순환 신경망(Gated Recurrent Neural Networks, GRNN), 잔차(residual) 학습 프레임워크 및 로지스틱 회귀(Logistic Regression)로 이루어지는 품질 예측 모델을 학습하는 품질 예측 모델 학습부; 및 상기 품질 예측 모델 학습부를 통해 학습된 상기 품질 예측 모델을 이용하여, 평가 대상 동영상에서 상기 시공간 특징 추출부를 통해 추출된 시공간 특징을 기반으로 상기 평가 대상 동영상의 품질을 측정하는 동영상 품질 측정부;를 포함한다.
여기서, 상기 시공간 특징 추출부는, 미리 설정된 비율로 중첩되게 미리 설정된 프레임 개수 단위로 상기 추출 대상 동영상을 분할하여 복수개의 블록을 획득하고, 3차원 쉬어렛 변환을 이용하여 상기 복수개의 블록 각각에 대한 시공간 특징을 추출할 수 있다.
여기서, 상기 시공간 특징 추출부는, 이산 푸리에 변환(Discrete Fourier Transform, DFT)을 이용하여 하나의 상기 블록을 주파수 도메인(frequency domain)으로 변환하고, 주파수 도메인으로 변환된 상기 블록의 고역 통과 성분으로부터 복수개의 피라미드 영역을 획득하며, 상기 복수개의 피라미드 영역 각각을 미리 설정된 스케일 파라미터에 따라 복수개의 스케일 영역으로 분리하고, 상기 복수개의 피라미드 영역 각각에 대해 상기 복수개의 스케일 영역 각각에서 미리 설정된 개수의 방향 각각에 대한 3차원 쉬어렛 계수를 획득하여, 하나의 상기 블록에 대한 시공간 특징을 추출하며, 상기 방향은, 피라미드 영역의 한쪽 면에서 피라미드 영역의 중심을 통해 피라미드 영역의 반대쪽 면으로 진행하는 방향일 수 있다.
여기서, 상기 시공간 특징 추출부는, 상기 복수개의 피라미드 영역 각각에서 상기 복수개의 스케일 영역 각각에 대한 미리 설정된 개수의 상기 방향 중에서 중첩되는 방향을 제외한 나머지 방향 각각에 대한 상기 3차원 쉬어렛 계수를 획득할 수 있다.
여기서, 상기 시공간 특징 추출부는, 복수개의 상기 3차원 쉬어렛 계수 각각에서 평균 풀링(mean pooling)을 이용하여 미리 설정된 개수의 풀링된 벡터값을 획득하고, 복수개의 상기 3차원 쉬어렛 계수로부터 획득된 벡터값에서 평균을 빼고 표준 편차로 나누어 정규화 처리를 하며, 정규화 처리된 벡터값에서 0인 값을 가지는 요소에 미리 설정된 값을 추가하여 화이트닝 처리를 하여, 하나의 상기 블록에 대한 시공간 특징을 추출할 수 있다.
여기서, 상기 시공간 특징 추출부는, 상기 추출 대상 동영상의 프레임들을 그레이 스케일로 변환하고, 그레이 스케일로 변환된 상기 추출 대상 동영상의 프레임들의 크기를 조정하며, 크기가 조정된 상기 추출 대상 동영상을 분할하여 상기 복수개의 블록을 획득할 수 있다.
여기서, 상기 품질 예측 모델 학습부는, 상기 전문가 주관적 점수 정보를 미리 설정된 범위 사이의 값으로 변환하여 상기 학습 동영상에 대한 정답 레이블을 획득하는 레이블 획득 모듈; 및 상기 시공간 특징 추출부를 통해 상기 학습 동영상에서 추출된 상기 복수개의 블록 각각에 대한 시공간 특징 및 상기 레이블 획득 모듈을 통해 획득된 상기 정답 레이블을 기반으로 상기 품질 예측 모델을 학습하는 모델 학습 모듈;을 포함할 수 있다.
여기서, 상기 모델 학습 모듈은, 상기 복수개의 블록 각각에 대한 시공간 특징을 상기 품질 예측 모델에 입력하고, 상기 정답 레이블을 이용하여 상기 품질 예측 모델의 목적 함수의 가중치를 획득하며, 획득된 상기 목적 함수의 가중치를 이용하여 상기 품질 예측 모델로부터 출력되는 결과값과 상기 정답 레이블을 비교하여 오차값을 획득하고, 상기 복수개의 블록 전부에 대한 학습이 종료되면 상기 품질 예측 모델의 출력 레이어에서 히든 레이어를 통해 입력 레이어로 평균 오차값을 전달하여 상기 품질 예측 모델의 가중치를 업데이트하며, 업데이트된 가중치를 이용하여 상기 품질 예측 모델로부터 출력되는 결과값과 상기 정답 레이블의 차이가 미리 설정된 범위 이내이면 상기 품질 예측 모델의 학습을 종료하며, 상기 목적 함수는, 동영상 레벨 품질의 정확성에 대응되는 항과 블록 레벨 품질의 균일한 분포에 대응되는 항을 포함할 수 있다.
여기서, 상기 목적 함수 O는,
Figure 112021010189208-pat00001
이며, 상기 S는, 상기 학습 동영상의 총 개수이고, 상기 Ds는, s번째 상기 학습 동영상에 대한 총 오차값이며, 상기 Qs는, s번째 상기 학습 동영상에 대한 상기 정답 레이블이고, 상기 α(Qs)는, 상기 목적 함수의 가중치이며, 상기 Ts는, s번째 상기 학습 동영상에 대한 블록의 총 개수이고, fs,t는, s번째 상기 학습 동영상의 t번째 블록에 대한 상기 품질 예측 모델의 결과값이며, 상기 Fs는, s번째 상기 학습 동영상에 대한 상기 품질 예측 모델의 결과값이고,
Figure 112021010189208-pat00002
일 수 있다.
여기서, 상기 품질 예측 모델은, 입력 레이어, 13개의 잔차 레이어, 및 출력 레이어를 포함하며, 상기 잔차 레이어는, 3개의 활동 함수, 상기 활동 함수 사이에 위치하는 2개의 양방향 레이어, 및 배치 정규화(Batch Normalization, BN)를 포함하고, 상기 양방향 레이어는, 2개의 게이트 순환 유닛(Gated Recurrent Units, GRU)을 포함할 수 있다.
상기의 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 방법은, 3차원 쉬어렛 변환(3 Dimensional Shearlet Transform)을 이용하여 학습 동영상에서 추출된 시공간 특징 및 상기 학습 동영상에 대응되는 전문가 주관적 점수 정보를 기반으로, 양방향 게이트 순환 신경망(Gated Recurrent Neural Networks, GRNN), 잔차(residual) 학습 프레임워크 및 로지스틱 회귀(Logistic Regression)로 이루어지는 품질 예측 모델을 학습하는 단계; 및 학습된 상기 품질 예측 모델을 이용하여, 3차원 쉬어렛 변환을 이용하여 평가 대상 동영상에서 추출된 시공간 특징을 기반으로 상기 평가 대상 동영상의 품질을 측정하는 단계;를 포함한다.
여기서, 상기 시공간 특징은, 미리 설정된 비율로 중첩되게 미리 설정된 프레임 개수 단위로 추출 대상 동영상을 분할하여 획득된 복수개의 블록 각각에 대하여 3차원 쉬어렛 변환을 이용하여 추출될 수 있다.
상기의 기술적 과제를 달성하기 위한 본 발명의 바람직한 실시예에 따른 컴퓨터 프로그램은 컴퓨터로 읽을 수 있는 기록 매체에 저장되어 상기한 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 방법 중 어느 하나를 컴퓨터에서 실행시킨다.
본 발명의 바람직한 실시예에 따른 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치 및 방법에 의하면, 시공간 모델링을 기반으로 동영상의 품질을 자동으로 측정할 수 있으며, 측정된 동영상 품질은 전문가에 의한 주관적 평가 방법에 의한 결과와 유사한 결과를 가질 수 있다.
또한, 동영상 품질의 평가와 함께 동영상 내의 중요 장면에 상황에 맞는 인덱스(index)를 자동으로 부여할 수 있다.
또한, 동영상을 검색할 때에 원하는 품질과 내용을 검색 조건으로 사용할 수 있게 되어, 동영상 내에 있는 원하는 장면이 있는 시간대를 빨리 쉽게 찾을 수 있다. 특히, 스포츠 영상의 경우, 득점하게 되는 상황이나 묘기가 있는 장면과 같이 중요한 정보를 다루고 있는 시간대에 메타 데이터를 추가하여 관심있는 장면을 쉽게 찾아서 볼 수 있게 할 수 있다.
또한, 동영상 콘텐츠가 청소년용인지 청소년불가인지와 같은 등급 심의를 자동으로 처리할 수 있어, 인터넷상에 개인이 올린 콘텐츠도 가정에 스트리밍될 때에 자동 심의를 진행하여 자녀가 볼 수 있는지 없는지를 알 수 있게 할 수 있다.
또한, 인터넷 상에서 동영상 콘텐츠를 서비스 받을 때, 네트워크 상황에 따라 동영상 콘텐츠의 품질을 맞추어 제공할 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 바람직한 실시예에 따른 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치를 설명하기 위한 블록도이다.
도 2는 도 1에 도시한 시공간 특징 추출부의 동작을 설명하기 위한 도면이다.
도 3 내지 도 5는 본 발명의 바람직한 실시예에 따른 시공간 특징 추출 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 바람직한 실시예에 따른 3차원 쉬어렛 계수의 정규화 처리 과정을 설명하기 위한 도면이다.
도 7은 도 1에 도시한 품질 예측 모델 학습부의 세부 구성을 설명하기 위한 블록도이다.
도 8은 본 발명의 바람직한 실시예에 따른 품질 예측 모델의 일례를 설명하기 위한 도면이다.
도 9는 도 8에 도시한 양방향 레이어의 구조를 설명하기 위한 도면이다.
도 10은 본 발명의 바람직한 실시예에 따른 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 방법을 설명하기 위한 흐름도이다.
도 11은 도 10에 도시한 품질 예측 모델 학습 단계의 세부 단계를 설명하기 위한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 실시 예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서 "제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
본 명세서에서 각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 명세서에서, "가진다", "가질 수 있다", "포함한다" 또는 "포함할 수 있다"등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
또한, 본 명세서에 기재된 '~부'라는 용어는 소프트웨어 또는 FPGA(field-programmable gate array) 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터 구조들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다.
이하에서 첨부한 도면을 참조하여 본 발명에 따른 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.
먼저, 도 1을 참조하여 본 발명의 바람직한 실시예에 따른 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치에 대하여 설명한다.
도 1은 본 발명의 바람직한 실시예에 따른 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치를 설명하기 위한 블록도이다.
도 1을 참조하면, 본 발명의 바람직한 실시예에 따른 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치(이하 '동영상 품질 측정 장치'라 한다)(100)는 영화, 스포츠 중계 영상 등과 같은 동영상의 품질을 평가하는데 있어 전문가가 수행해야 하던 일을 기계로 자동화하고 대체할 수 있도록 하기 위해, 시공간 모델링을 기반으로 동영상의 품질에 대한 전문가에 의한 주관적 평가 방법에 의한 결과와 유사한 결과를 제공한다.
즉, 동영상 품질 측정 장치(100)는 동영상 품질 평가에서 시간과 공간에 따라 동적으로 변화하는 동영상 내 움직임을 신경망 학습을 통해 모델링하여 품질 평가에 고려할 수 있게 함으로써, 시청자가 관심있는 동영상을 선택할 때에 품질을 하나의 선택 척도로 사용할 수 있도록 할 수 있다.
인간은 영상 장면을 볼 때에 두 눈에 입력된 영상 신호가 뇌로 전달되고, 초당 30장 이상의 프레임이 제공될 때에 연속된 영상으로 인식하는 특징을 가지고 있다. 연속된 영상을 시청하게 되면 장면마다 시청자는 품질에 대한 판단을 하게 되고, 시간이 지나면 다른 장면에 대해 새로운 품질 판단을 하게 된다. 여러 장면에 대한 품질 판단을 종합하여, 동영상 전반에 대한 품질 판단을 내리게 된다. 전반적인 동영상의 품질을 평가하기 위해서는 각 장면에 대한 품질 평가가 종합 되어야 하나, 이 경우 동영상 전체를 시청하면서 장면 별로 평가한 뒤에 각 장면에 대한 평가를 취합하여 전체적인 평가를 수행해야 하는 문제가 있다. 동영상의 재생 시간이 길어지면 장시간 시청에 따른 피곤함으로 주관적인 평가를 하기 어렵게 되고, 시간의 제약에 따라 전체적인 평가가 제대로 실시되기 어려운 문제와, 각 장면에서 평가한 결과가 전체 평가에서 차지하는 가중치 적용을 하는데 어려운 문제가 있다.
이러한 문제를 해결 하기 위해, 본 발명은 시간과 공간 모델링에 기반하여 조건부 제어를 하면서 주관적 평가 성능과 유사한 결과를 제공 할 수 있는 동영상 품질 평가 방식을 제시한다.
이를 위해, 동영상 품질 측정 장치(100)는 시공간 특징 추출부(110), 품질 예측 모델 학습부(130), 동영상 품질 측정부(150) 및 정보 출력부(170)를 포함할 수 있다.
시공간 특징 추출부(110)는 3차원 쉬어렛 변환(3 Dimensional Shearlet Transform)을 이용하여 추출 대상 동영상에서 시공간 특징을 추출한다.
즉, 시공간 특징 추출부(110)는 품질 예측 모델 학습부(130)로부터 학습 동영상을 제공 받으면, 3차원 쉬어렛 변환을 이용하여 학습 동영상에서 시공간 특징을 추출하고, 추출한 시공간 특징을 품질 예측 모델 학습부(130)에 제공할 수 있다.
또한, 시공간 특징 추출부(110)는 동영상 품질 측정부(150)로부터 평가 대상 동영상을 제공 받으면, 3차원 쉬어렛 변환을 이용하여 평가 대상 동영상에서 시공간 특징을 추출하고, 추출한 시공간 특징을 동영상 품질 측정부(150)에 제공할 수 있다.
품질 예측 모델 학습부(130)는 학습 동영상에서 시공간 특징 추출부(110)를 통해 추출된 시공간 특징 및 학습 동영상에 대응되는 전문가 주관적 점수 정보를 기반으로, 품질 예측 모델을 학습한다.
여기서, 품질 예측 모델은 양방향 게이트 순환 신경망(Gated Recurrent Neural Networks, GRNN), 잔차(residual) 학습 프레임워크 및 로지스틱 회귀(Logistic Regression)로 이루어진다. 그리고, 품질 예측 모델의 입력은 동영상에서 추출된 시공간 특징이며, 품질 예측 모델의 출력은 해당 동영상의 예측 품질인 결과값이다. 이와 같이, 양방향 게이트 순환 신경망(GRNN)과 잔차 학습 프레임워크의 연결을 통해, 정보 전달이 가능하게 되고 장기 의존성 학습이 가능하게 된다.
동영상 품질 측정부(150)는 품질 예측 모델 학습부(130)를 통해 학습된 품질 예측 모델을 이용하여, 평가 대상 동영상에서 시공간 특징 추출부(110)를 통해 추출된 시공간 특징을 기반으로 평가 대상 동영상의 품질을 측정한다.
정보 출력부(170)는 동영상 품질 측정부(150)를 통해 측정된 평가 대상 동영상의 품질 정보를 출력한다.
그러면, 도 2 내지 도 6을 참조하여 본 발명의 바람직한 실시예에 따른 시공간 특징 추출부의 동작에 대하여 보다 자세하게 설명한다.
도 2는 도 1에 도시한 시공간 특징 추출부의 동작을 설명하기 위한 도면이고, 도 3 내지 도 5는 본 발명의 바람직한 실시예에 따른 시공간 특징 추출 과정을 설명하기 위한 도면이며, 도 6은 본 발명의 바람직한 실시예에 따른 3차원 쉬어렛 계수의 정규화 처리 과정을 설명하기 위한 도면이다.
도 2를 참조하면, 시공간 특징 추출부(110)는 "전처리 과정 -> 변환 과정 -> 시공간 특징 추출 과정"을 통해 추출 대상 동영상에서 시공간 특징을 추출할 수 있다.
즉, 시공간 특징 추출부(110)는 추출 대상 동영상의 프레임들을 그레이 스케일로 변환하고, 그레이 스케일로 변환된 추출 대상 동영상의 프레임들의 크기를 조정하는, 추출 대상 동영상의 전처리 과정을 수행할 수 있다.
예컨대, 추출 대상 동영상이 "832 x 480(수평 x 수직)"의 프레임 크기를 가지는 경우, 시공간 특징 추출부(110)는 추출 대상 동영상의 프레임들을 그레이 스케일로 변환하고, 추출 대상 동영상의 프레임 크기를 "624 x 240(수평 x 수직)"으로 조정한 후 중앙 부분의 "416 x 240(수평 x 수직)" 크기를 추출하여, 추출 대상 동영상의 전처리 과정을 수행할 수 있다.
그런 다음, 시공간 특징 추출부(110)는 크기가 조정된 추출 대상 동영상을 미리 설정된 비율로 중첩되게 미리 설정된 프레임 개수 단위로 분할하여 복수개의 블록을 획득하는, 추출 대상 동영상의 변환 과정을 수행할 수 있다.
예컨대, 시공간 특징 추출부(110)는 크기가 조정된 추출 대상 동영상을 50%로 중첩되게 80 프레임 단위로 분할하여 복수개의 블록을 획득할 수 있다. 여기서, 하나의 블록은 "416 x 240 x 80(수평 x 수직 x 시간)"의 크기를 가지게 된다. 이때, 시공간 특징 추출부(110)는 크기가 조정된 추출 대상 동영상을 50%로 중첩하여 미리 설정된 길이(30 fps 동영상인 경우, 80 프레임에 해당하는 영상 길이인 2.67초)의 서브 동영상들로 분할하고, 각각의 서브 동영상에서 "416 x 240 x 80(수평 x 수직 x 시간)"의 크기를 가지는 블록을 획득할 수도 있다.
그런 다음, 시공간 특징 추출부(110)는 3차원 쉬어렛 변환을 이용하여 추출 대상 동영상에 대한 복수개의 블록 각각에 대한 시공간 특징을 추출하는, 추출 대상 동영상의 시공간 특징 추출 과정을 수행할 수 있다. 즉, 시공간 특징 추출부(110)는 들어오는 블록에서 동적 모션 장면에 대한 분석을 통해 시공간 특징을 추출할 수 있다.
여기서, 시공간 특징 추출부(110)는 추출 대상 동영상에 대한 복수개의 블록 각각에서, 도 2에 도시된 바와 같이 "3D 쉬어렛 계수 획득 과정 -> 정규화 처리 과정 -> 화이트닝 처리 과정"을 통해 시공간 특징을 추출할 수 있다.
즉, 시공간 특징 추출부(110)는 하나의 블록에서 3D 쉬어렛 계수를 획득하는, 3D 쉬어렛 계수 획득 과정을 수행할 수 있다.
보다 자세하게 설명하면, 시공간 특징 추출부(110)는 이산 푸리에 변환(Discrete Fourier Transform, DFT)을 이용하여 하나의 블록을 주파수 도메인(frequency domain)으로 변환하고, 주파수 도메인으로 변환된 블록의 고역 통과 성분으로부터 복수개의 피라미드 영역을 획득하며, 복수개의 피라미드 영역 각각을 미리 설정된 스케일 파라미터에 따라 복수개의 스케일 영역으로 분리하고, 복수개의 피라미드 영역 각각에 대해 복수개의 스케일 영역 각각에서 미리 설정된 개수의 방향 각각에 대한 3차원 쉬어렛 계수를 획득할 수 있다.
여기서, 방향은 피라미드 영역의 한쪽 면에서 피라미드 영역의 중심을 통해 피라미드 영역의 반대쪽 면으로 진행하는 방향을 나타낸다.
도 3을 참조하면, 블록의 푸리에 주파수 공간은 4개의 서로 다른 서브 패밀리로 분해될 수 있다. 1개의 서브 패밀리는 저주파 큐브 Φ를 처리할 수 있다. 다른 3개의 서브 패밀리들은 고주파 영역을 처리할 수 있다.
3차원 쉬어렛 변환은 아래의 [수학식 1]로 표현될 수 있다.
Figure 112021010189208-pat00003
여기서, Φ는 저역 통과 성분을 나타낸다. P1은 고역 통과 성분으로부터의 제1 방향에 대한 제1 피라미드 영역을 나타낸다. P2은 고역 통과 성분으로부터의 제2 방향에 대한 제2 피라미드 영역을 나타낸다. P3은 고역 통과 성분으로부터의 제3 방향에 대한 제3 피라미드 영역을 나타낸다. α는 이방성 파라미터를 나타낸다. c는 위치 요소를 나타낸다. φ는 저주파 큐브와 관련된 스케일링 함수를 나타낸다. p1은 제1 피라미드 영역과 관련된 쉬어렛을 나타낸다. p2는 제2 피라미드 영역과 관련된 쉬어렛을 나타낸다. p3은 제3 피라미드 영역과 관련된 쉬어렛을 나타낸다.
도 4를 참조하면, 각 피라미드 영역은 스케일 파라미터 j(예컨대, j=4)에 따라 4개의 스케일 영역으로 분리한다. 스케일 파라미터 j가 작을 경우에는 해상도가 낮아지므로 가장자리와 같은 명확한 윤곽 정보만 존재한다. 반대로 스케일 파라미터 j가 큰 경우에는 해상도가 높아 지므로 더 자세한 정보가 포함된다. 각 스케일 영역에서는 9개의 방향(도 4에 도시된 1번 ~ 9번)에 대해 분석하는데, 방향은 피라미드 영역의 한쪽 면에서 피라미드 영역의 중심을 통해 피라미드 영역의 반대쪽 면으로 진행한다. 이에 따라, 블록의 제1 피라미드 영역에서는 4개의 스케일 영역과 9개의 방향성에 대해 분석해서 총 36개의 3차원 쉬어렛 계수를 구해서 사용한다. 블록의 제2 피라미드 영역 및 제3 피라미드 영역에서도 4개의 스케일 영역과 9개의 방향성에 대해 분석된다.
이때, 시공간 특징 추출부(110)는 복수개의 피라미드 영역 각각에서 복수개의 스케일 영역 각각에 대한 미리 설정된 개수의 방향 중에서 중첩되는 방향을 제외한 나머지 방향 각각에 대한 3차원 쉬어렛 계수를 획득할 수 있다.
즉, 제1 피라미드 영역은 4개의 스케일 영역과 9개의 방향으로 분해되어 총 36개의 쉬어렛이 적용된다. 그러나, 제2 피라미드 영역과 제3 피라미드 영역은 제1 피라미드 영역과 방향 성분이 중첩되는 부분이 있어, 중첩되는 부분의 방향은 생략하게 된다. 제2 피라미드 영역과 제3 피라미드 영역도 4개의 스케일 영역이 적용되지만, 9개의 방향 중 7개의 방향이 제외되어 총 2개의 방향만이 적용된다. 따라서, 제1 피라미드 영역에는 4(스케일 영역 개수)*9(방향 개수)=36개의 쉬어렛이 적용되고, 제2 피라미드 영역에는 4(스케일 영역 개수)*2(방향 개수)=8개의 쉬어렛이 적용되며, 제3 피라미드 영역에는 4(스케일 영역 개수)*2(방향 개수)=8개의 쉬어렛이 적용되어, 총 52개의 쉬어렛이 적용된다. 도 5를 참조하면, 제2 피라미드 영역과 제3 피라미드 영역은 1번 ~ 9번 방향 중에서 1번과 2번 방향 성분만이 제1 피라미드 영역과 중첩되지 않고, 6번 방향은 수평 성분이어서 생략된다.
그런 다음, 시공간 특징 추출부(110)는 복수개의 3차원 쉬어렛 계수 각각에서 평균 풀링(mean pooling)을 이용하여 미리 설정된 개수의 풀링된 벡터값을 획득하고, 복수개의 3차원 쉬어렛 계수로부터 획득된 벡터값에서 평균을 빼고 표준 편차로 나누는, 3D 쉬어렛 계수의 정규화 처리 과정을 수행할 수 있다.
여기서, 평균 풀링은 각 3차원 쉬어렛 계수의 벡터에 특정 스케일, 방향 및 시간을 고려하여 적용될 수 있다. 도 6을 참조하면, 평균 풀링을 통해 하나의 3차원 쉬어렛 계수에서 8개의 풀링된 값을 구한다. 총 52개의 3차원 쉬어렛 계수에 동일한 절차를 적용하여 총 416개의 풀링된 값을 구한다. 각각의 풀링 영역에서 3차원 쉬어렛 계수의 3D 벡터의 평균 풀링을 수행한 후에, 풀링된 값이 벡터로 구해진다. 그리고, 시공간 운동 특징을 얻기 위해, 벡터값에서 평균을 빼고 요소의 표준 편차를 가지고 나누어 정규화 처리를 할 수 있다.
그런 다음, 시공간 특징 추출부(110)는 정규화 처리된 벡터값에서 0인 값을 가지는 요소에 미리 설정된 값을 추가하는, 3D 쉬어렛 계수의 화이트닝 처리 과정을 수행할 수 있다.
예컨대, 시공간 특징 추출부(110)는 0의 값을 갖는 요소들에 미리 설정된 값(ε)을 추가할 수 있다. 여기서, ε은 1x10-6일 수 있다.
그러면, 시공간 특징 추출부(110)는 하나의 블록에 대한 시공간 특징을 추출할 수 있다.
그러면, 도 7 내지 도 9를 참조하여 본 발명의 바람직한 실시예예 따른 품질 예측 모델 학습부의 동작에 대하여 보다 자세하게 설명한다.
도 7은 도 1에 도시한 품질 예측 모델 학습부의 세부 구성을 설명하기 위한 블록도이고, 도 8은 본 발명의 바람직한 실시예에 따른 품질 예측 모델의 일례를 설명하기 위한 도면이며, 도 9는 도 8에 도시한 양방향 레이어의 구조를 설명하기 위한 도면이다.
도 7을 참조하면, 품질 예측 모델 학습부(130)는 레이블 획득 모듈(131) 및 모델 학습 모듈(133)을 포함할 수 있다.
레이블 획득 모듈(131)은 전문가 주관적 점수 정보를 미리 설정된 범위 사이의 값으로 변환하여 학습 동영상에 대한 정답 레이블을 획득할 수 있다.
예컨대, 전문가 주관적 점수 정보는 해당 동영상에 대해 전문가가 평가한 주관적인 품질 정수를 나타내며, MOS(Mean Opinion Score)일 수 있다. MOS는 5단계(5 : "Excellent", 4 : "Good", 3 : "Fair", 2 : "Poor", 1 : "Bad")로 구성되며, 여러명의 전문가들에 의해 평가된 점수들의 평균 값을 나타낸다. 따라서, 전문가 주관적 점수 정보는 1 ~ 5 사이의 값(소수점 포함)으로 제공된다. 이때, 품질 예측 모델의 출력 값은 0 ~ 1 사이의 값을 가지게 되므로, 정답 레이블로 전문가 주관적 점수를 적용하기 위해 "(MOS - 1) / 4"를 수행하여 0 ~ 1 사이의 값으로 변환할 수 있다. 그리고, 정답 레이블은 품질 예측 모델의 학습시 해당 동영상에 대한 정답으로 제공된다.
모델 학습 모듈(133)은 시공간 특징 추출부(110)를 통해 학습 동영상에서 추출된 복수개의 블록 각각에 대한 시공간 특징 및 레이블 획득 모듈(131)을 통해 획득된 정답 레이블을 기반으로 품질 예측 모델을 학습할 수 있다.
즉, 모델 학습 모듈(133)은 복수개의 블록 각각에 대한 시공간 특징을 품질 예측 모델에 입력할 수 있다. 여기서, 3차원 쉬어렛 변환을 통해 추출된 시공간 특징들은 품질 예측 모델의 입력 레이어로부터 히든 레이어들을 거쳐 출력 레이어로 전달되고, 최종으로 출력 레이어에서 동영상 품질을 측정하는데 이용된다.
그런 다음, 모델 학습 모듈(133)은 정답 레이블을 이용하여 아래의 [수학식 2]를 통해 품질 예측 모델의 목적 함수의 가중치를 획득할 수 있다.
Figure 112021010189208-pat00004
여기서, α(Qs)는 목적 함수의 가중치를 나타낸다. Qs는 s번째 학습 동영상에 대한 정답 레이블을 나타낸다. QMAX는 미리 설정된 동영상 품질의 최대값을 나탄낸다.
그런 다음, 모델 학습 모듈(133)은 획득된 목적 함수의 가중치를 이용하여 품질 예측 모델로부터 출력되는 결과값과 정답 레이블을 비교하여 오차값을 획득할 수 있다.
그런 다음, 모델 학습 모듈(133)은 복수개의 블록 전부에 대한 학습이 종료되면, 품질 예측 모델의 출력 레이어에서 히든 레이어를 통해 입력 레이어로 평균 오차값을 전달하여, 품질 예측 모델의 가중치를 업데이트할 수 있다.
그런 다음, 모델 학습 모듈(133)은 업데이트된 가중치를 이용하여 품질 예측 모델로부터 출력되는 결과값과 정답 레이블의 차이가 미리 설정된 범위 이내이면 품질 예측 모델의 학습을 종료할 수 있다. 이때, 품질 예측 모델로부터 출력되는 결과값과 정답 레이블의 차이가 미리 설정된 범위 이내가 아니면, 다른 학습 동영상을 이용하여 추가적인 학습 과정을 다시 수행할 수 있다.
여기서, 품질 예측 모델의 목적 함수는 품질 예측 모델의 출력이 정답 레이블과 동일한 값을 갖도록 학습을 통해 훈련시키는 역할을 수행한다.
즉, 목적 함수 O는 아래의 [수학식 3]과 같다.
Figure 112021010189208-pat00005
여기서, S는 학습 동영상의 총 개수를 나타낸다. Ds는 s번째 학습 동영상에 대한 총 오차값을 나타낸다. Ts는 s번째 학습 동영상에 대한 블록의 총 개수를 나타낸다. fs,t는 s번째 학습 동영상의 t번째 블록에 대한 품질 예측 모델의 결과값을 나타낸다. Fs는 s번째 학습 동영상에 대한 품질 예측 모델의 결과값을 나타내며, 아래의 [수학식 4]를 통해 계산될 수 있다.
Figure 112021010189208-pat00006
이와 같이, 품질 예측 모델의 목적 함수는 동영상 레벨 품질의 정확성에 대응되는 항(블록 레벨에서의 품질 차이 분포는 고려하지 않고, 동영상 레벨 품질의 정확성에만 초점을 맞추는 [수학식 3]의 첫 번째 부분)과 블록 레벨 품질의 균일한 분포에 대응되는 항(블록 레벨 품질이 균일한 분포를 따르도록 하는 [수학식 3]의 두 번째 부분)을 포함할 수 있다. 이와 같은 제약에 따르면, 고품질 동영상 여부를 쉽게 확인할 수 있다. 고품질 동영상의 경우에는 동영상 레벨 품질 점수의 점수 값과 동일한 값을 갖는 균일하게 분포된 블록 레벨 품질들로 구성되어, 추정된 동영상 레벨 품질 값이 블록 레벨 품질 점수 값과 동일한 값을 갖게 된다. 이 제약 조건은 또한 품질 예측 모델로 하여금 처리되는 블록이 깨끗한 블록인지 열화된 블록인지를 구분할 수 있게 한다.
그리고, 품질 예측 모델은 도 8에 도시된 바와 같이 정보가 수평 방향(시간 차원)과 수직 방향(깊이 차원)으로 흐르게 되며, 입력 레이어, 13개의 잔차 레이어, 및 출력 레이어를 포함할 수 있다. 즉, 품질 예측 모델은 t번째 블록의 시공간 특징으로부터 해당 블록의 품질을 측정하기 위해 t-1번째 블록의 시공간 특징(도 8의 파란색 화살표)과 t+1번째 블록의 시공간 특징(빨간색 화살표)을 이용할 수 있다. 이와 같이, 품질 예측 모델은 맥락 정보를 활용하여 현재의 블록에 대한 품질을 계산할 수 있다. 맥락 정보는 현 시점의 블록에 대한 품질을 계산할 때 이용되는 과거 시점의 정보와 미래 시점의 정보를 말한다.
여기서, 하나의 잔차 레이어는 3개의 활동 함수(ReLU 등), 활동 함수 사이에 위치하는 2개의 양방향 레이어, 및 배치 정규화(Batch Normalization, BN)를 포함할 수 있다.
여기서, 하나의 양방향 레이어는 도 9에 도시된 바와 같이 2개의 게이트 순환 유닛(Gated Recurrent Units, GRU)을 포함할 수 있다. 즉, 정방향 게이트 순환 유닛(GRU)는 정방향 시간 축을 따라 과거 상태를 계산하고, 역방향 게이트 순환 유닛(GRU)는 역방향 시간 축을 따라 미래 상태를 계산할 수 있다.
이와 같은 품질 예측 모델을 이용하여 동적 모션 장면에서 시간적인 상관 관계를 학습할 수 있다.
즉, 품질 예측 모델은 양방향 게이트 순환 신경망(GRNN)에 아래 사항들을 고려하여 설계된 잔차 학습 프레임워크가 결합되어 구성되고, 출력 레이어는 로지스틱 회귀와 연결되어, 동영상의 품질을 측정하는 작업을 수행한다.
- 잔차 학습 프레임워크가 입력과 출력의 차이점을 학습하여 심층 신경망을 최적화하고, 입력 값의 작은 변화에 민감하게 반응한다.
- 양방향 레이어를 통한 잔류 연결을 통해 심층 신경망에서의 그래디언트 소멸 및 폭발 문제를 제어하면여 학습 속도를 향상시킨다.
위와 같은 사항들을 고려하여 설계된 품질 예측 모델은 잔차 학습 프레임워크에 기초하여 보다 안정적으로 시공간 상관 관계를 학습할 수 있게 된다.
그러면, 본 발명의 바람직한 실시예에 따른 동영상 품질 측정부의 동작에 대하여 보다 자세하게 설명한다.
동영상 품질 측정부(150)는 시공간 특징 추출부(110)를 통해 평가 대상 동영상에서 추출된 복수개의 블록 각각에 대한 시공간 특징을 품질 예측 모델 학습부(130)를 통해 학습된 품질 예측 모델에 입력하고, 품질 예측 모델로부터 출력되는 결과값을 기반으로 평가 대상 동영상의 품질을 측정할 수 있다.
이때, 동영상 품질 측정부(150)는 품질 예측 모델로부터 출력되는 평가 대상 동영상 전체에 대한 품질 결과값을 정보 출력부(170)로 제공할 수 있다.
물론, 동영상 품질 측정부(150)는 품질 예측 모델로부터 출력되는 평가 대상 동영상 전체에 대한 품질 결과값뿐만 아니라, 평가 대상 동영상에 대한 복수개의 블록 각각에 대한 시간 정보와 품질 결과값도 정보 출력부(170)로 제공할 수도 있다.
그러면, 본 발명의 바람직한 실시예에 따른 정보 출력부의 동작에 대하여 보다 자세하게 설명한다.
정보 출력부(170)는 동영상 품질 측정부(150)를 통해 측정된 평가 대상 동영상의 품질을 기반으로, 평가 대상 동영상에 대한 품질 정보를 출력할 수 있다.
여기서, 품질 정보는 평가 대상 동영상의 품질을 미리 설정된 기준에 따라 분류하여 획득한 품질 등급일 수 있다. 예컨대, 품질 등급은 상/중/하 중 하나이거나, 별점 형태로 이루어지거나, 점수 형태로 이루어질 수 있다.
이때, 정보 출력부(170)는 동영상 품질 측정부(150)로부터 평가 대상 동영상 전체에 대한 품질 결과값을 제공받으면, 품질 결과값을 미리 설정된 범위 사이의 값으로 변환하여 평가 대상 동영상에 대한 품질 정보를 획득할 수 있다.
예컨대, 품질 예측 모델로부터 출력되는 결과값은 0 ~ 1 사이의 값을 가지고 있기 때문에, 정보 출력부(170)는 품질 결과값을 전문가 주관적 점수 정보인 MOS로 변환하여 품질 정보를 획득할 수 있다. 정보 출력부(170)는 품질 결과값에 4를 곱한 뒤 1을 더하여 MOS로 변환할 수 있다.
또한, 정보 출력부(170)는 동영상 품질 측정부(150)로부터 평가 대상 동영상 전체에 대한 품질 결과값과, 평가 대상 동영상에 대한 복수개의 블록 각각에 대한 시간 정보와 품질 결과값을 제공받으면, 품질 결과값을 미리 설정된 범위 사이의 값으로 변환하여 평가 대상 동영상 전체에 대한 품질 정보와 평가 대상 동영상의 재생 시간 구간에 대응되는 품질 정보를 획득할 수 있다.
그러면, 도 10 및 도 11을 참조하여 본 발명의 바람직한 실시예에 따른 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 방법에 대하여 설명한다.
도 10은 본 발명의 바람직한 실시예에 따른 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 방법을 설명하기 위한 흐름도이다.
도 10을 참조하면, 동영상 품질 측정 장치(100)는 3차원 쉬어렛 변환을 이용하여 학습 동영상에서 추출된 시공간 특징 및 학습 동영상에 대응되는 전문가 주관적 점수 정보를 기반으로, 품질 예측 모델을 학습한다(S110).
여기서, 시공간 특징은 위에서 설명한 바와 같이 미리 설정된 비율로 중첩되게 미리 설정된 프레임 개수 단위로 추출 대상 동영상을 분할하여 획득된 복수개의 블록 각각에 대하여 3차원 쉬어렛 변환을 이용하여 추출될 수 있다. 아울러, 시공간 특징 추출 과정에 대한 내용은 위에서 설명하였는 바, 상세한 설명은 생략한다.
이후, 동영상 품질 측정 장치(100)는 학습된 품질 예측 모델을 이용하여, 3차원 쉬어렛 변환을 이용하여 평가 대상 동영상에서 추출된 시공간 특징을 기반으로 평가 대상 동영상의 품질을 측정한다(S130).
그러면, 동영상 품질 측정 장치(100)는 평가 대상 동영상의 품질 정보를 출력할 수 있다(S150).
여기서, 품질 정보는 평가 대상 동영상의 품질을 미리 설정된 기준에 따라 분류하여 획득한 품질 등급일 수 있다.
이때, 동영상 품질 측정 장치(100)는 평가 대상 동영상 전체에 대한 품질 결과값을 미리 설정된 범위 사이의 값으로 변환하여 평가 대상 동영상에 대한 품질 정보를 획득할 수 있다.
또한, 동영상 품질 측정 장치(100)는 평가 대상 동영상 전체에 대한 품질 결과값과, 평가 대상 동영상에 대한 복수개의 블록 각각에 대한 시간 정보와 품질 결과값을 기반으로, 품질 결과값을 미리 설정된 범위 사이의 값으로 변환하여 평가 대상 동영상 전체에 대한 품질 정보와 평가 대상 동영상의 재생 시간 구간에 대응되는 품질 정보를 획득할 수 있다.
도 11은 도 10에 도시한 품질 예측 모델 학습 단계의 세부 단계를 설명하기 위한 흐름도이다.
도 11을 참조하면, 동영상 품질 측정 장치(100)는 전문가 주관적 점수 정보를 미리 설정된 범위 사이의 값으로 변환하여 학습 동영상에 대한 정답 레이블을 획득할 수 있다(S111).
예컨대, 전문가 주관적 점수 정보는 해당 동영상에 대해 전문가가 평가한 주관적인 품질 정수를 나타내며, MOS(Mean Opinion Score)일 수 있다.
그런 다음, 동영상 품질 측정 장치(100)는 학습 동영상에서 추출된 복수개의 블록 각각에 대한 시공간 특징 및 정답 레이블을 기반으로 품질 예측 모델을 학습할 수 있다(S113).
여기서, 품질 예측 모델 학습 과정에 대한 내용은 위에서 설명하였는 바, 상세한 설명은 생략한다.
이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록 매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록 매체로서는 자기기록매체, 광 기록매체 등이 포함될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 동영상 품질 측정 장치,
110 : 시공간 특징 추출부,
130 : 품질 예측 모델 학습부,
131 : 레이블 획득 모듈,
133 : 모델 학습 모듈,
150 : 동영상 품질 측정부,
170 : 정보 출력부

Claims (13)

  1. 3차원 쉬어렛 변환(3 Dimensional Shearlet Transform)을 이용하여 추출 대상 동영상에서 시공간 특징을 추출하는 시공간 특징 추출부;
    학습 동영상에서 상기 시공간 특징 추출부를 통해 추출된 시공간 특징 및 상기 학습 동영상에 대응되는 전문가 주관적 점수 정보를 기반으로, 양방향 게이트 순환 신경망(Gated Recurrent Neural Networks, GRNN), 잔차(residual) 학습 프레임워크 및 로지스틱 회귀(Logistic Regression)로 이루어지는 품질 예측 모델을 학습하는 품질 예측 모델 학습부; 및
    상기 품질 예측 모델 학습부를 통해 학습된 상기 품질 예측 모델을 이용하여, 평가 대상 동영상에서 상기 시공간 특징 추출부를 통해 추출된 시공간 특징을 기반으로 상기 평가 대상 동영상의 품질을 측정하는 동영상 품질 측정부;
    를 포함하는 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치.
  2. 제1항에서,
    상기 시공간 특징 추출부는,
    미리 설정된 비율로 중첩되게 미리 설정된 프레임 개수 단위로 상기 추출 대상 동영상을 분할하여 복수개의 블록을 획득하고, 3차원 쉬어렛 변환을 이용하여 상기 복수개의 블록 각각에 대한 시공간 특징을 추출하는,
    시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치.
  3. 제2항에서,
    상기 시공간 특징 추출부는,
    이산 푸리에 변환(Discrete Fourier Transform, DFT)을 이용하여 하나의 상기 블록을 주파수 도메인(frequency domain)으로 변환하고, 주파수 도메인으로 변환된 상기 블록의 고역 통과 성분으로부터 복수개의 피라미드 영역을 획득하며, 상기 복수개의 피라미드 영역 각각을 미리 설정된 스케일 파라미터에 따라 복수개의 스케일 영역으로 분리하고, 상기 복수개의 피라미드 영역 각각에 대해 상기 복수개의 스케일 영역 각각에서 미리 설정된 개수의 방향 각각에 대한 3차원 쉬어렛 계수를 획득하여, 하나의 상기 블록에 대한 시공간 특징을 추출하며,
    상기 방향은,
    피라미드 영역의 한쪽 면에서 피라미드 영역의 중심을 통해 피라미드 영역의 반대쪽 면으로 진행하는 방향인,
    시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치.
  4. 제3항에서,
    상기 시공간 특징 추출부는,
    상기 복수개의 피라미드 영역 각각에서 상기 복수개의 스케일 영역 각각에 대한 미리 설정된 개수의 상기 방향 중에서 중첩되는 방향을 제외한 나머지 방향 각각에 대한 상기 3차원 쉬어렛 계수를 획득하는,
    시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치.
  5. 제3항에서,
    상기 시공간 특징 추출부는,
    복수개의 상기 3차원 쉬어렛 계수 각각에서 평균 풀링(mean pooling)을 이용하여 미리 설정된 개수의 풀링된 벡터값을 획득하고, 복수개의 상기 3차원 쉬어렛 계수로부터 획득된 벡터값에서 평균을 빼고 표준 편차로 나누어 정규화 처리를 하며, 정규화 처리된 벡터값에서 0인 값을 가지는 요소에 미리 설정된 값을 추가하여 화이트닝 처리를 하여, 하나의 상기 블록에 대한 시공간 특징을 추출하는,
    시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치.
  6. 제2항에서,
    상기 시공간 특징 추출부는,
    상기 추출 대상 동영상의 프레임들을 그레이 스케일로 변환하고, 그레이 스케일로 변환된 상기 추출 대상 동영상의 프레임들의 크기를 조정하며, 크기가 조정된 상기 추출 대상 동영상을 분할하여 상기 복수개의 블록을 획득하는,
    시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치.
  7. 제2항에서,
    상기 품질 예측 모델 학습부는,
    상기 전문가 주관적 점수 정보를 미리 설정된 범위 사이의 값으로 변환하여 상기 학습 동영상에 대한 정답 레이블을 획득하는 레이블 획득 모듈; 및
    상기 시공간 특징 추출부를 통해 상기 학습 동영상에서 추출된 상기 복수개의 블록 각각에 대한 시공간 특징 및 상기 레이블 획득 모듈을 통해 획득된 상기 정답 레이블을 기반으로 상기 품질 예측 모델을 학습하는 모델 학습 모듈;
    을 포함하는 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치.
  8. 제7항에서,
    상기 모델 학습 모듈은,
    상기 복수개의 블록 각각에 대한 시공간 특징을 상기 품질 예측 모델에 입력하고, 상기 정답 레이블을 이용하여 상기 품질 예측 모델의 목적 함수의 가중치를 획득하며, 획득된 상기 목적 함수의 가중치를 이용하여 상기 품질 예측 모델로부터 출력되는 결과값과 상기 정답 레이블을 비교하여 오차값을 획득하고, 상기 복수개의 블록 전부에 대한 학습이 종료되면 상기 품질 예측 모델의 출력 레이어에서 히든 레이어를 통해 입력 레이어로 평균 오차값을 전달하여 상기 품질 예측 모델의 가중치를 업데이트하며, 업데이트된 가중치를 이용하여 상기 품질 예측 모델로부터 출력되는 결과값과 상기 정답 레이블의 차이가 미리 설정된 범위 이내이면 상기 품질 예측 모델의 학습을 종료하며,
    상기 목적 함수는,
    동영상 레벨 품질의 정확성에 대응되는 항과 블록 레벨 품질의 균일한 분포에 대응되는 항을 포함하는,
    시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치.
  9. 제8항에서,
    상기 목적 함수 O는,
    Figure 112021010189208-pat00007

    이며,
    상기 S는, 상기 학습 동영상의 총 개수이고,
    상기 Ds는, s번째 상기 학습 동영상에 대한 총 오차값이며,
    상기 Qs는, s번째 상기 학습 동영상에 대한 상기 정답 레이블이고,
    상기 α(Qs)는, 상기 목적 함수의 가중치이며,
    상기 Ts는, s번째 상기 학습 동영상에 대한 블록의 총 개수이고,
    fs,t는, s번째 상기 학습 동영상의 t번째 블록에 대한 상기 품질 예측 모델의 결과값이며,
    상기 Fs는, s번째 상기 학습 동영상에 대한 상기 품질 예측 모델의 결과값이고,
    Figure 112021010189208-pat00008
    인,
    시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치.
  10. 제8항에서,
    상기 품질 예측 모델은,
    입력 레이어, 13개의 잔차 레이어, 및 출력 레이어를 포함하며,
    상기 잔차 레이어는,
    3개의 활동 함수, 상기 활동 함수 사이에 위치하는 2개의 양방향 레이어, 및 배치 정규화(Batch Normalization, BN)를 포함하고,
    상기 양방향 레이어는,
    2개의 게이트 순환 유닛(Gated Recurrent Units, GRU)을 포함하는,
    시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치.
  11. 3차원 쉬어렛 변환(3 Dimensional Shearlet Transform)을 이용하여 학습 동영상에서 추출된 시공간 특징 및 상기 학습 동영상에 대응되는 전문가 주관적 점수 정보를 기반으로, 양방향 게이트 순환 신경망(Gated Recurrent Neural Networks, GRNN), 잔차(residual) 학습 프레임워크 및 로지스틱 회귀(Logistic Regression)로 이루어지는 품질 예측 모델을 학습하는 단계; 및
    학습된 상기 품질 예측 모델을 이용하여, 3차원 쉬어렛 변환을 이용하여 평가 대상 동영상에서 추출된 시공간 특징을 기반으로 상기 평가 대상 동영상의 품질을 측정하는 단계;
    를 포함하는 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 방법.
  12. 제11항에서,
    상기 시공간 특징은,
    미리 설정된 비율로 중첩되게 미리 설정된 프레임 개수 단위로 추출 대상 동영상을 분할하여 획득된 복수개의 블록 각각에 대하여 3차원 쉬어렛 변환을 이용하여 추출되는,
    시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 방법.
  13. 제11항 또는 제12항에 기재된 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램.
KR1020210010710A 2021-01-26 2021-01-26 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치 및 방법 KR102417133B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210010710A KR102417133B1 (ko) 2021-01-26 2021-01-26 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210010710A KR102417133B1 (ko) 2021-01-26 2021-01-26 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102417133B1 true KR102417133B1 (ko) 2022-07-05

Family

ID=82402145

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210010710A KR102417133B1 (ko) 2021-01-26 2021-01-26 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102417133B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115278303A (zh) * 2022-07-29 2022-11-01 腾讯科技(深圳)有限公司 视频处理方法、装置、设备以及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200044652A (ko) * 2018-10-19 2020-04-29 삼성전자주식회사 영상의 주관적 품질을 평가하는 방법 및 장치
KR20200110255A (ko) * 2019-03-15 2020-09-23 한국전자통신연구원 영상의 특징을 측정하는 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200044652A (ko) * 2018-10-19 2020-04-29 삼성전자주식회사 영상의 주관적 품질을 평가하는 방법 및 장치
KR20200110255A (ko) * 2019-03-15 2020-09-23 한국전자통신연구원 영상의 특징을 측정하는 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
이기용, 외 2, "3차원 쉐어렛 변환과 심층 잔류 신경망을 이용한 무참조 스포츠 비디오 화질 평가", 멀티미디어학회 논문지 제23권 제12호, 2020.12.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115278303A (zh) * 2022-07-29 2022-11-01 腾讯科技(深圳)有限公司 视频处理方法、装置、设备以及介质
CN115278303B (zh) * 2022-07-29 2024-04-19 腾讯科技(深圳)有限公司 视频处理方法、装置、设备以及介质

Similar Documents

Publication Publication Date Title
Bampis et al. Spatiotemporal feature integration and model fusion for full reference video quality assessment
Ye et al. Deep joint depth estimation and color correction from monocular underwater images based on unsupervised adaptation networks
CN112954312B (zh) 一种融合时空特征的无参考视频质量评估方法
Mozhaeva et al. Full reference video quality assessment metric on base human visual system consistent with PSNR
CN106993188B (zh) 一种基于多人脸视频显著性的hevc压缩编码方法
CN106127234B (zh) 基于特征字典的无参考图像质量评价方法
Kottayil et al. Blind quality estimation by disentangling perceptual and noisy features in high dynamic range images
Mahajan et al. Perceptual quality evaluation of hazy natural images
KR102417133B1 (ko) 시공간 맥락 정보를 이용하여 동영상 품질을 측정하는 장치 및 방법
Yang et al. No-reference quality evaluation of stereoscopic video based on spatio-temporal texture
Sinno et al. Spatio-temporal measures of naturalness
Madhusudana et al. Conviqt: Contrastive video quality estimator
Keimel et al. Video is a cube
Singh et al. Action recognition in dark videos using spatio-temporal features and bidirectional encoder representations from transformers
Da et al. Perceptual quality assessment of nighttime video
Li et al. Human motion quality assessment toward sophisticated sports scenes based on deeply-learned 3D CNN model
CN111479107A (zh) 基于自然音视频统计的无参考音视频联合质量评价方法
Kouamou et al. Extraction of video features for real-time detection of neonatal seizures
Pashike et al. Human perceptions based on translations of recurrent neural networks principles for low latency applications
Nguyen et al. Gaze tracking for region of interest coding in JPEG 2000
CN110211146B (zh) 视交叉仿真的视频前景分割方法及装置
KR101571440B1 (ko) 디스플레이 인지 컬러 평가 방법, 이를 수행하기 위한 기록 매체 및 장치
Kawa et al. Survey on the state-of-the-art methods for objective video quality assessment in recognition tasks
Ouni et al. No-reference image semantic quality approach using neural network
Luo et al. Saliency and texture information based full-reference quality metrics for video QoE assessment

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant