KR102625063B1 - 비 참조 영상 기반의 영상 품질 평가 방법 - Google Patents

비 참조 영상 기반의 영상 품질 평가 방법 Download PDF

Info

Publication number
KR102625063B1
KR102625063B1 KR1020220039854A KR20220039854A KR102625063B1 KR 102625063 B1 KR102625063 B1 KR 102625063B1 KR 1020220039854 A KR1020220039854 A KR 1020220039854A KR 20220039854 A KR20220039854 A KR 20220039854A KR 102625063 B1 KR102625063 B1 KR 102625063B1
Authority
KR
South Korea
Prior art keywords
cnn
image
output
rnn
learning
Prior art date
Application number
KR1020220039854A
Other languages
English (en)
Other versions
KR20230142021A (ko
Inventor
홍성만
곽영수
Original Assignee
주식회사 이노와이어리스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이노와이어리스 filed Critical 주식회사 이노와이어리스
Priority to KR1020220039854A priority Critical patent/KR102625063B1/ko
Priority to JP2023053810A priority patent/JP7457854B2/ja
Priority to EP23165101.9A priority patent/EP4254328A1/en
Priority to US18/128,145 priority patent/US20230316483A1/en
Publication of KR20230142021A publication Critical patent/KR20230142021A/ko
Application granted granted Critical
Publication of KR102625063B1 publication Critical patent/KR102625063B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 학습 범위 설정이 가능한 복수의 합성곱 신경망(CNN)과 순환 신경망(RNN)으로 구성된 인공지능을 이용하여 원본 영상 없이 수신한 영상의 품질을 평가하는 비 참조 영상 기반의 영상 품질 평가 방법에 관한 것이다.
본 발명의 비 참조 영상 기반의 영상 품질 평가 방법은 영상의 한 프레임에 대해 RGB 값을 추출하는 (a) 과정; 상기 추출한 RGB 값을 1번 CNN에 주어 출력을 획득하는 (b) 과정; 상기 추출된 RGB 값을 n번(n ≥ 2 이상의 정수) CNN에 제공하여 출력을 획득하는 (c) 과정; (a) ~ (c) 과정을 모든 프레임에 대해 반복하고 모든 CNN의 출력을 병합하는 (d) 과정; 시간 차원의 학습을 위해 병합된 출력 값을 RNN에 전달한 후 시간 차원을 1로 줄인 RNN의 출력을 획득하는 (e) 과정 및 출력 값이 1개의 차원이 되도록 RNN의 최종 출력에 회귀 알고리즘을 적용한 후 이 값을 비디오 품질 값으로 예측하는 (f) 과정을 포함하여 이루어진다.

Description

비 참조 영상 기반의 영상 품질 평가 방법{method for evaluating video quality based of non reference video}
본 발명은 비 참조 영상 기반의 영상 품질 평가 방법에 관한 것으로, 특히 학습 범위 설정이 가능한 복수의 합성곱 신경망(CNN)과 순환 신경망(RNN)으로 구성된 인공지능을 이용하여 원본 영상 없이 수신한 영상의 품질을 평가하는 비 참조 영상 기반의 영상 품질 평가 방법에 관한 것이다.
도 1은 무선 통신 환경에서 늘어나는 영상 트래픽 수요를 보인 그래프이다. 도 1에 도시한 바와 같이, 최근 5세대 이동통신 시스템의 도입 및 그에 따른 5세대 가입자 수의 증가와 원격 근무 수요의 증가 등으로 인해 영상에 대한 네트워크 트래픽의 수요가 증가하고 있다.
그러나 이에 반해 사용자가 느끼는 수신 영상에 대한 품질을 원본 영상 없이 비 참조 방식으로 평가하는 방법으로는 아직까지 대부분 사람이 직접 수작업으로 설계한 알고리즘이 알려져 있다. 즉 영상의 BPS(Bit Per Second), 밝기 및 흐림의 정도 등 약 10개 내외의 KPI(Key Performance Indicator)를 SVM(Support Vector Machine) 등의 알고리즘의 입력으로 사용하여 평가하는데, 이는 인간이 영상에 대한 품질을 평가하는 방법이 매우 고차원적이라는 것을 감안할 때 제대로 동작하기 어려운 문제가 있다.
구체적으로 종래 수신한 영상 데이터의 품질을 평가하는 방식은 크게 세가지로 구분될 수 있다.
a. 원본 영상과 수신 영상을 모두 획득한 후 수학적인 알고리즘을 통해 지연 시간 등을 계산하여 수신한 영상 데이터의 품질을 평가한다(전 참조 방식).
b. 원본 영상에 대한 일부 정보와 수신 영상을 획득한 후 수학적인 알고리즘을 통해 색 공간의 변화 정도 등을 계산하여 수신한 영상 데이터의 품질을 평가한다(축소 참조 방식).
c. 수신 영상만으로 수신한 영상 데이터의 품질을 평가한다(비 참조 방식).
전술한 전 참조 방식의 경우에 원본 영상과 수신 영상을 활용할 수 있으므로 수신 영상의 품질을 구하는 알고리즘의 설계가 쉬우며 대체적으로 비 참조 방식보다 수신 영상의 예측 품질과 실제 사람이 느꼈던 품질 간의 오차가 적다. 반면에, 실제 통신 환경에서 수신기가 원본 영상을 가지고 있는 경우가 극히 드물어서 대부분의 실제 환경에서 적용이 불가능하다(하기 선행기술 1 참조).
전술한 축소 참조 방식의 경우에 원본 영상을 모두 가지고 있지 않고 일부 정보만 가지고 있어도 수신 영상에 대한 품질 예측이 가능하다는 장점이 있는 반면에,실제 환경에서 적용하려면 추가적인 정보 처리 및 정보 전송이 필요한 부담이 있어서 실제 환경에 적용하는데 장애물이 된다.
마지막으로 비 참조 방식의 경우에는 수신 영상 만으로 품질 예측이 가능하다는 장점이 있는 반면에 수신 영상만으로 수신한 영상 데이터의 품질을 판단하는 알고리즘의 설계가 매우 어렵다는 단점이 있다. 이에 따라 대부분의 비 참조 방식은 BPS, 밝기 및 흐림 등의 수십개의 KPI를 활용하여 수신 영상의 품질을 예측하는 알고리즘으로 설계되고 있으나 알고리즘이 상대적으로 단순하기 때문에 대체적으로 전 참조 방식에 비해 수신 영상의 예측 품질과 실제 사람이 느꼈던 품질 간의 오차가 크다는 문제점이 있었다(하기 선행기술 2 참조).
선행기술 1: 10-2020-0044652호 공개특허공보(발명의 명칭: 영상의 주관적 품질을 평가하는 방법 및 장치)
선행기술 2: 10-1279705호 등록특허공보(발명의 명칭: 영상 프레임 내의 블러 측정 방법과 이를 이용하여 영상 프레임의 화질 측정 장치 및 방법)
본 발명은 전술한 문제점을 해결하기 위해 안출된 것으로서, 학습 범위 설정이 가능한 복수의 합성곱 신경망(CNN)과 순환 신경망(RNN)으로 구성된 인공지능을 이용하여 원본 영상 없이 수신한 영상의 품질을 평가하는 비 참조 영상 기반의 영상 품질 평가 방법을 제공함을 목적으로 한다.
전술한 목적을 달성하기 위한 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법은 영상의 한 프레임에 대해 RGB 값을 추출하는 (a) 과정; 상기 추출한 RGB 값을 1번 CNN에 주어 출력을 획득하는 (b) 과정; 상기 추출된 RGB 값을 n번(n ≥ 2 이상의 정수) CNN에 제공하여 출력을 획득하는 (c) 과정; (a) ~ (c) 과정을 모든 프레임에 대해 반복하고 모든 CNN의 출력을 병합하는 (d) 과정; 시간 차원의 학습을 위해 병합된 출력 값을 RNN에 전달한 후 시간 차원을 1로 줄인 RNN의 출력을 획득하는 (e) 과정 및 출력 값이 1개의 차원이 되도록 RNN의 최종 출력에 회귀 알고리즘을 적용한 후 이 값을 비디오 품질 값으로 예측하는 (f) 과정을 포함하여 이루어진다.
전술한 구성에서, 1번 CNN의 일부 컨볼루션 계층은 학습이 불가능하도록 하는 반면에 나머지는 학습이 가능하도록 설정한다.
1번 CNN의 일부 컨볼루션 계층은 복수의 ImageNet 학습 데이터로 사전 학습되어 계수가 고정되어 있고, 1번 CNN의 나머지 컨볼루션 계층은 상기 사전 학습된 계수에서 학습을 시작하지만 추가 학습이 가능하다.
상기 n은 2이고, 2번 CNN의 일부 컨볼루션 계층은 1번 CNN과는 다른 복수의 이미지 학습 데이터로 사전 학습되어 계수가 고정되어 있고, 2번 CNN의 나머지 컨볼루션 계층은 상기 사전 학습된 계수에서 학습을 시작하지만 추가 학습이 가능하다.
학습 과정에서 오차 역전파법(backpropagation)을 사용한다.
RNN에서 시간 개념을 담당하는 프레임 수 차원을 제외한 나머지 데이터는 전역 평균 풀링(global average pooling)을 통해 전체 필터 수의 차원으로 변경하여 1차원 RNN으로 동작한다.
본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에 따르면, 종래 KPI를 사용하는 방식이나 사람이 수학적으로 고안한 품질 평가 알고리즘 대신에 학습 범위 설정이 가능한 복수의 컨볼루션 신경망을 AI 구조 설계에 반영함으로써 영상 그 자체만을 요구하는 진정한 비 참조 영상 품질 모니터링 시스템을 AI로 구현함과 동시에 사람에 의한 MOS(Mean Opinion Score) 값과 AI의 예측 값의 상관도를 증가시킬 수가 있고, 이에 따라 언택트 시대의 도래에 따라 급증하는 영상 수요에 맞춰 소비자의 만족도를 크게 증진시킬 수가 있다.
한편, 낮은 MOS 값은 촬영 환경의 장애와도 상관관계가 있는데, 본 발명의 방법은 영상 그 자체만을 활용하여 영상의 MOS 값을 측정하는 시스템이기 때문에 향후 자율 주행 시스템 등에서 카메라 촬영 환경에 장애가 있는지를 높은 정확도로 실시간으로 검출하는데 도움을 줄 수 있고, 결과적으로 자율주행 시스템 등에서 카메라가 먼지나 나무조각 등에 가려져 있을 때 이를 제대로 파악하지 못하여 초래될 수 있는 큰 인명사고를 미연에 방지할 수가 있다.
도 1은 무선 통신 환경에서 늘어나는 영상 트래픽 수요를 보인 그래프.
도 2는 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법의 개요를 설명하기 위한 도.
도 3은 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법을 요약하여 설명하기 위한 모식도.
도 4는 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법을 설명하기 위한 흐름도.
도 5는 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에서 영상을 프레임별로 디코딩하는 과정을 예시적으로 보인 도.
도 6은 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에서 CNN의 동작을 요약하여 설명하기 위한 모식도.
도 7은 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에서 RNN의 동작을 요약하여 설명하기 위한 모식도.
도 8은 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에서 회귀 계층(Regression layer)의 동작을 요약하여 설명하기 위한 모식도.
도 9는 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법을 보다 구체적으로 요약하여 정리한 모식도.
도 10은 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에서 CNN의 학습 범위를 설정하는 예를 설명하기 위한 도.
도 11은 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에서 복수의 CNN을 사용하여 과적합을 방지하는 예를 설명하기 위한 도.
이하에서는 첨부한 도면을 참조하여 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법의 바람직한 실시예에 대해 상세하게 설명한다.
잘 알려진 바와 같이, 인공신경망은 인간의 주관을 개재함이 없이 데이터 만으로 학습이 될 뿐만 아니라 입력 특성으로 영상의 원본 그 자체를 사용한다는 점에서 수십 개 내외의 KPI를 사용하는 방식보다 더욱 더 고차원적으로 동작할 수 있다.
도 2는 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법의 개요를 설명하기 위한 도이다. 도 2에 도시한 바와 같이 본 발명의 방법에 따르면, 인공신경망이 영상의 픽셀 값만으로 유의미한 특성을 충분히 추출할 수 있도록 복수의 합성곱 신경망을 사용하고 시간의 개념을 학습할 수 있도록 순환 신경망을 사용하되, 인공지능 학습 시 측정(예측)의 정확도를 높이기 위하여 합성곱 신경망과 순환 신경망 이 동시에 학습되도록 한다.
또한 BPS, 밝기, 흐림 등의 수십개의 KPI를 기반으로 동작하는 알고리즘 대신 수신 영상의 픽셀 값 만을 입력으로 받아 동작하도록 한다.
만약 KPI를 사용하는 경우 사용하는 KPI가 20개라면 알고리즘의 입력 값은 (20 x 영상의 길이)가 되지만, 픽셀 값을 사용하는 경우 "채널 수 x 영상의 가로 폭(너비) x 영상의 세로 폭(높이) x 영상의 길이"가 입력 값이 되어 훨씬 고차원적이면서도 KPI 등의 어떤 추가 정보도 요구하지 않는 진정한 비 참조 영상 품질 평가 알고리즘이 설계될 수 있다. 기존 학습 과정의 어려움은 AI 구조의 개선으로 달성한다.
도 3은 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법을 요약하여 설명하기 위한 모식도이다. 도 3에 도시한 바와 같이 본 발명의 방법에 따르면, 복수의 학습 범위 설정이 가능한 합성곱 신경망(CNN; Convolutional Neural Network)과 순환 신경망(RNN: Recurrent Neural Network)을 사용하되 이들을 한꺼번에 학습시킨다. 영상과 사람이 매긴 품질 값이 정답지로 존재하는 학습 데이터를 수십만개 이상 대량으로 확보하기 힘들어서 상기와 같이 픽셀 값을 사용하는 방식으로 동작하는 AI의 학습 과정에는 과적합(over-fitting)이 발생할 우려가 있다. 이에 따라, 예를 들어 이미지 데이터베이스인 ImageNet에 있는 수백만장의 이미지에 대해 CNN을 사전 학습시키되, ImageNet에 대한 과적합을 추가적으로 방지하기 위해 CNN의 일부 컨볼루션 계층(Convolution Layer)에 대해서만 선택적으로 학습이 가능하도록 한다.
이를 통해 ImageNet과 영상 데이터 모두에 대해 과적합을 방지할 수 있다. 또한 선택적으로 학습 가능한 CNN이 복수가 되도록 ImageNet 이외의 여러 이미지 학습 데이터를 사용할 수 있도록 함으로써 이미지 기반 학습 데이터 셋의 증가로 인한 일반화 효과를 더욱 배가시킬 수가 있다.
도 4는 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법을 설명하기 위한 흐름도이다. 도 4에 도시한 바와 같이 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법은, 예를 들어 CNN의 수를 2라고 할 때, 영상의 한 프레임에 대해 RGB 값을 추출하는 (a) 과정, 상기 추출한 RGB 값을 1번 CNN에 주어 출력을 획득(이때 1번 CNN에 존재하는 컨볼루션 계층 중 일부는 학습이 불가능하도록 하는 반면에 일부는 학습이 가능하도록 설정한다. 이와 같이 CNN의 일부 컨볼루션 계층만 학습이 가능하기 때문에 이미지에 대해 사전 학습된 CNN이 이미지나 영상 데이터의 어느 하나에만 과적합(overfitting)되는 것이 방지되면서도 영상 데이터에 대해 CNN이 추가 학습을 할 수 있게 된다.)하는 (b) 과정, 상기 추출된 RGB 값을 2번 CNN에 제공하여 출력을 획득하는 (c) 과정, (a) ~ (c) 과정을 모든 프레임에 대해 반복하고 두 CNN의 출력을 병합하는 (d) 과정, 시간 차원의 학습을 위해 병합된 출력 값을 RNN에 전달한 후 시간 차원을 1로 줄인 RNN의 출력을 획득하는 (e) 과정 및 출력 값이 1개의 차원이 되도록 RNN의 최종 출력에 회귀 알고리즘을 적용한 후 이 값을 비디오 품질 값으로 예측하는 (f) 과정을 포함하여 이루어질 수 있다. 본 발명의 방법에서는 학습 과정에서 오차 역전파법(backpropagation)을 사용하여 학습되게 된다.
이하에서는 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법의 각 과정에 대해 구체적으로 설명한다.
(a) 과정: 영상의 한 프레임에 대해 RGB값 추출
본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에 따른 비 참조 영상 품질 평가 인공신경망은 수신 영상 이외에 다른 정보들을 요구하지 않음, 즉 수신 영상 외의 다른 정보의 필요 등 다른 선결 조건을 요구하지 않음으로써 안정적으로 비 참조 방식의 영상 품질 평가가 가능하도록 하고 있다. 또한 수신 영상 이외의 다른 정보가 필요하지 않아 정보의 계산 등의 시간이 추가적으로 필요하지 않은 장점이 있다.
그러나 기계가 영상을 이해하기 위해서는 수학적으로 영상이 표현될 필요가 있기 때문에 영상의 각 프레임에 대해 RGB 값으로 변환하는 과정이 요구된다.
도 5는 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에서 영상을 프레임별로 디코딩하는 과정을 예시적으로 보인 도이다. 도 5에 도시한 바와 같이, 예를 들어, 영상이 30fps(frame per second)으로 이루어지고 8초의 재생 길이를 갖고 있다면 240개의 프레임을 갖는 영상이 된다. 또한, 예를 들어 영상의 높이가 540 픽셀이고 너비가 960 픽셀이라면 하나의 프레임은 3 x 540 x 960으로 표현되는 행렬이 되며, 이때 앞의 3은 RGB 색공간을 의미한다. 만약 RGB 값이 8비트로 표현된다면 각 RGB 값은 0~255로 표현될 수 있는데, 최대값을 255로 하고 최소값을 0으로 하여 정규화하는 경우 0~1로 표현될 수 있으며 각 단계는 1/255의 해상도를 갖게 된다. 또한 영상은 "프레임 수 x 3(R, G, B 색공간의 수) x 높이 픽셀 수 x 너비 픽셀 수의 행렬(형태)로 표현되게 된다.
(b) 과정: (a) 과정에서 추출된 RGB 값을 1번 CNN(학습 범위의 설정이 가능한)에 제공하여 출력을 획득
본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에서 제안하는 CNN은 영상과 사람이 매긴 품질 값이 정답지로 존재하는 학습 데이터를 수십만개 이상 대량으로 확보하기 힘들어서 영상만으로만 인공신경망의 학습을 진행하게 되는 경우 실제 예측시 학습 과정만큼의 성능이 발휘하지 않는 과적합 현상이 발생되는 것을 피하기 위해 이미지로 사전 학습된 CNN이다. 이때 1번 CNN은 수백만장의 ImageNet 학습 데이터로 사전 학습이 된 CNN일 수 있다.
여기에서, CNN의 모든 컨볼루션 계층을 아예 학습시키지 않게 되면 영상과 품질 값 사이에 담긴 패턴을 학습하지 못하는 문제가 있다. 반면에, CNN의 모든 컨볼루션 계층을 학습시키면 학습용 영상 데이터의 수가 수십만개 이하인 경우 영상 데이터에만 과적합, 즉 이미지에 대해 학습한 일반적인 패턴을 상실하고, 영상 데이터에 존재하는 패턴에만 과도하게 학습되는 과적합 현상이 발생함으로써 오히려 CNN을 학습시키지 않는 경우보다 못한 일반화 성능을 보일 가능성이 있다. 따라서 ImageNet과 영상 데이터 모두에 과적합이 되지 않도록 하기 위해 CNN을 구성하는 일부 컨볼루션 계층은 ImageNet으로부터 사전 학습된 계수를 고정함으로써 학습이 되지 않도록 하고, 나머지 컨볼루션 계층은 사전 학습된 계수에서 학습을 시작하지만 추가 학습이 가능하도록 설정한다.
도 6은 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에서 CNN의 동작을 요약하여 설명하기 위한 모식도이다.
예를 들어 CNN 구조로 잘 알려진 Resnet50의 경우 하나의 CNN에 총 48개의 컨볼루션 계층이 있는데, 본 발명의 방법에서는 예를 들어 39개의 컨볼루션 계층은 학습이 불가능하도록 설정하고 9개의 컨볼루션 계층만 학습이 가능하도록 설정함으로써 ImageNet과 영상 데이터 모두에 과적합이 발생되지 않도록 할 수 있다. 또한 도 6에 도시한 바와 같이, 한 프레임 당 3(R, G, B 색공간) x 높이 픽셀 수 x 너비 픽셀 수의 길이를 갖는 데이터가 1번 CNN의 입력이라면 1번 CNN의 출력은 필터 수(CNN의 최종 컨볼루션 계층의 필터 수) x 높이 픽셀 수 x 너비 픽셀수로 바뀌게 된다. 이는 CNN의 일반적인 입출력 데이터의 형태로, 3이라는 RGB 색공간의 수가 CNN의 필터 수로 바뀌어서 표현되기 때문이다.
(c) 과정: (a) 과정에서 추출된 RGB 값을 2번 CNN(학습 범위의 설정이 가능한)에 제공하여 출력을 획득
이 과정에서의 CNN을 (b) 과정과 같이 수백만장의 ImageNet 학습 데이터로 사전 학습이 된 CNN으로 가정하면 ImageNet으로만 학습된 패턴에 과적합될 우려가 있기 때문에 본 발명의 방법에서는 복수의 CNN의 사용을 제안한다. 예를 들어, 2번 CNN은 1번 CNN과 다른 수 만장 이상의 이미지 학습 데이터로 사전 학습된 신경망으로 가정한다. 이 경우 2번 CNN도 이미지 데이터와 영상 데이터 모두에 과적합이 되지 않도록 하기 위해 CNN의 일부 컨볼루션 계층은 사전 학습된 계수를 고정하고, 나머지 컨볼루션 계층은 사전 학습된 계수에서 학습을 시작하지만 추가 학습이 가능하도록 설정한다.
한 프레임 당 3(R, G, B 색공간) x 높이 픽셀 수 x 너비 픽셀 수의 길이를 갖는 데이터가 2번 CNN의 입력이라면 2번 CNN의 출력은 필터 수(CNN의 최종 컨볼루션 계층의 필터 수) x 높이 픽셀 수 x 너비 픽셀수로 바뀌게 된다.
(d) 과정: (a) 내지 (c) 과정을 모든 프레임에 대해 반복 수행한 후 두 CNN의 출력을 병합
구체적으로 (a) 과정 내지 (c) 과정을 반복하면 그 출력에 프레임 수의 차원이 추가됨으로써 결과적으로 2개의 프레임 수 x 필터 수 x 높이 픽셀 수 x 너비 픽셀 수를 갖는 데이터가 출력된다. 두 CNN에서 사용되는 이미지의 높이 픽셀 수 및 너비 픽셀 수가 동일하다고 가정할 때 (d) 과정을 거치면 프레임 수 x 전체 필터 수(복수의 CNN의 필터 수를 모두 합친 값) x 높이 픽셀 수 x 너비 픽셀 수를 갖는 데이터가 출력된다.
(e) 과정: (d) 과정의 출력 값을 시간 차원의 학습을 위해 RNN에 전달한 후 시간 차원을 1로 줄인 RNN의 출력 획득
도 7은 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에서 RNN의 동작을 요약하여 설명하기 위한 모식도이다. 도 7에 도시한 바와 같이, 본 발명의 방법에서는 (d) 과정의 출력인 프레임 수 x 전체 필터 수(복수의 CNN의 필터 수를 모두 합친 값) x 높이 픽셀 수 x 너비 픽셀 수의 길이를 갖는 데이터에 대해 시간 개념이 학습되도록 하기 위해 RNN을 사용한다. 이때 RNN에서 시간 개념을 담당하는 프레임 수 차원을 제외한 나머지 데이터는 전역 평균 풀링(global average pooling)을 통해 전체 필터 수의 차원으로 변경하여 1차원 RNN으로 동작할 수 있도록 한다. 이후 RNN이 모든 프레임 수만큼의 데이터를 입력 받은 이후의 출력인 전체 필터 수의 차원을 갖는 데이터를 RNN의 출력으로 획득한다(RNN을 거치면서 프레임 수 차원의 데이터가 제거된다).
(f) 과정: RNN의 최종 출력에 출력 값이 1개의 차원이 되도록 회귀 알고리즘을 적용
도 8은 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에서 회귀 계층(Regression layer)의 동작을 요약하여 설명하기 위한 모식도이다. 도 8에 도시한 바와 같이, 본 발명의 방법에서는 (e) 과정의 출력 값인 전체 필터 수에서 1의 차원(MOS 값)이 되도록 회귀 알고리즘을 적용한다. 구체적으로는 ReLU(Rectified Linear Unit) 레이어를 통해 회귀 알고리즘이 적용되나 다른 활성화 함수(activation function) 등이 사용될 수도 있다.
만약 신경망이 학습이 완료된 신경망이라면 전술한 과정을 통해 수신 영상을 신경망에 입력으로 주어 영상의 품질 값인 MOS 값을 얻을 수 있게 된다.
도 9는 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법을 보다 구체적으로 요약하여 정리한 모식도이다. 도 9에 도시한 바와 같이, 본 발명의 방법에서는 먼저, 미리 CNN을 이미지 데이터에 의해 학습시켜 준비하는데, 이 과정에서 예를 들어 수백만장의 이미지 학습 데이터가 존재하는 ImageNet의 데이터 셋이 사용될 수 있다.
다음으로, 학습하고자 하는 영상 데이터를 준비한다.
마지막으로 준비된 이미지에 의해 학습된 CNN의 컨볼루션 계층 중에서 일부를 선별하여 해당 컨볼루션 계층은 재학습이 가능하도록 구성하는 반면에 나머지 컨볼루션 계층은 재학습이 불가능하도록 하여 이미 학습된 컨볼루션 계층의 특성이 학습이 진행되어도 변경되지 않도록 한다.
도 10은 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에서 CNN의 학습 범위를 설정하는 예를 설명하기 위한 도이다.
보통 학습하고자 하는 영상 데이터 셋보다는 이미지 데이터 셋이 상대적으로 더 큰 수로 존재하므로 본 발명의 방법에서는 영상 데이터 셋 이외에 이미지 데이터 셋도 활용함으로써 학습 데이터가 적은 한계를 극복하고 있는데, 이를 전이 학습(transfer learning)이라고 한다. 이 과정에서 도 10에 도시한 바와 같이, 이미지 데이터와 이미지 데이터에 대한 정답 레이블로 미리 CNN을 학습시킨 후 일부 컨볼루션 계층만을 선별하여 영상 데이터를 학습하는 과정에서 계수가 변경되도록 한다. 만약 영상 데이터 셋을 학습하는 과정에서 모든 컨볼루션 계층이 학습 가능하도록 할 경우 인공신경망이 영상 데이터에만 과적합될 우려가 존재하기 때문이다.
한편, CNN을 한 개만 사용하게 되면 비록 ImageNet에 과적합이 되지는 않지만 ImageNet에만 의존적인 인공신경망이 발생할 수 있다. 이를 방지하기 위해 본 발명의 방법에서는 학습 범위 설정이 가능한 컨볼루션 신경망을 복수로 확장하고 있는데, 도 11은 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법에서 복수의 CNN을 사용하여 과적합을 방지하는 예를 설명하기 위한 도이다.
도 11에 도시한 바와 같이, 본 발명의 방법에 따르면 학습 범위 설정이 가능한 CNN이 복수로 존재하고 각 CNN은 서로 다른 이미지 데이터 셋에 기반하여 사전 학습된 모습을 보여준다. 이를 통해 본 발명의 방법에 따른 인공신경망은 보다 더 일반화가 가능하고 다양한 이미지 데이터 셋의 모든 패턴을 활용할 수 있게 된다.
이상, 첨부한 도면을 참조하여 본 발명의 비 참조 영상 기반의 영상 품질 평가 방법의 바람직한 실시예에 대하여 상세히 설명하였으나 이는 예시에 불과한 것이며, 본 발명의 기술적 사상의 범주 내에서 다양한 변형과 변경이 가능할 것이다. 따라서, 본 발명의 권리범위는 이하의 청구범위의 기재에 의하여 정해져야 할 것이다. 예를 들어 CNN을 3개 또는 그 이상으로 구성할 수도 있다.

Claims (6)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 영상의 한 프레임에 대해 RGB 값을 추출하는 (a) 과정;
    상기 추출한 RGB 값을 1번째 CNN에 주어 출력을 획득하는 (b) 과정;
    상기 추출된 RGB 값을 2번째 CNN에 제공하여 출력을 획득하는 (c) 과정;
    (a) ~ (c) 과정을 모든 프레임에 대해 반복하고 1번째 및 2번째 CNN의 출력을 병합하는 (d) 과정;
    시간 차원의 학습을 위해 병합된 출력 값을 RNN에 전달한 후 시간 차원을 1로 줄인 RNN의 출력을 획득하는 (e) 과정 및
    출력 값이 1개의 차원이 되도록 RNN의 최종 출력에 회귀 알고리즘을 적용한 후 이 값을 비디오 품질 값으로 예측하는 (f) 과정을 포함하되,
    1번째 CNN의 일부 컨볼루션 계층은 복수의 ImageNet 학습 데이터로 사전 학습되어 계수가 고정되어 있고, 1번째 CNN의 나머지 컨볼루션 계층은 상기 사전 학습된 계수에서 학습을 시작하지만 영상 데이터를 사용하여 RNN과 동시에 추가 학습이 가능하며,
    2번째 CNN의 일부 컨볼루션 계층은 1번째 CNN의 학습 데이터보다 적은 수의 이미지 학습 데이터로 사전 학습되어 계수가 고정되어 있고, 2번째 CNN의 나머지 컨볼루션 계층은 상기 사전 학습된 계수에서 학습을 시작하지만 영상 데이터를 사용하여 RNN과 동시에 추가 학습이 가능하고,
    학습 과정에서는 오차 역전파법(backpropagation)이 사용되는, 비 참조 영상 기반의 영상 품질 평가 방법.
  5. 삭제
  6. 삭제
KR1020220039854A 2022-03-30 2022-03-30 비 참조 영상 기반의 영상 품질 평가 방법 KR102625063B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020220039854A KR102625063B1 (ko) 2022-03-30 2022-03-30 비 참조 영상 기반의 영상 품질 평가 방법
JP2023053810A JP7457854B2 (ja) 2022-03-30 2023-03-29 非参照映像基盤の映像品質評価方法
EP23165101.9A EP4254328A1 (en) 2022-03-30 2023-03-29 Method for evaluating video quality based on non-reference video
US18/128,145 US20230316483A1 (en) 2022-03-30 2023-03-29 Method for evaluating video quality based on non-reference video

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220039854A KR102625063B1 (ko) 2022-03-30 2022-03-30 비 참조 영상 기반의 영상 품질 평가 방법

Publications (2)

Publication Number Publication Date
KR20230142021A KR20230142021A (ko) 2023-10-11
KR102625063B1 true KR102625063B1 (ko) 2024-01-16

Family

ID=85781740

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220039854A KR102625063B1 (ko) 2022-03-30 2022-03-30 비 참조 영상 기반의 영상 품질 평가 방법

Country Status (4)

Country Link
US (1) US20230316483A1 (ko)
EP (1) EP4254328A1 (ko)
JP (1) JP7457854B2 (ko)
KR (1) KR102625063B1 (ko)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101279705B (zh) 2008-05-23 2010-06-02 刘富生 棉纤被芯及其制备方法
KR101279705B1 (ko) 2011-12-22 2013-06-27 연세대학교 산학협력단 영상 프레임 내의 블러 측정 방법과 이를 이용하여 영상 프레임의 화질 측정 장치 및 방법
WO2020080623A1 (ko) 2018-10-19 2020-04-23 삼성전자 주식회사 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
KR20210158261A (ko) * 2020-06-23 2021-12-30 삼성전자주식회사 비디오 품질 평가 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Domonkos Varga, "No-Reference Video Quality Assessment Using Multi-Pooled, Saliency Weighted Deep Features and Decision Fusion", Sensors 2022, 22, 2209, 1-17pages (2022. 3. 12.)*
Yezhou Li et al., Image quality assessment using deep convolutional networks, AIP Advances 7, 125324-1 ~ 125324-12pages (2017.)*

Also Published As

Publication number Publication date
EP4254328A1 (en) 2023-10-04
JP2023152957A (ja) 2023-10-17
JP7457854B2 (ja) 2024-03-28
KR20230142021A (ko) 2023-10-11
US20230316483A1 (en) 2023-10-05

Similar Documents

Publication Publication Date Title
Pan et al. Blind predicting similar quality map for image quality assessment
KR101967089B1 (ko) 컨볼루션 신경망 기반의 완전 기준 이미지 품질 평가
Liu et al. Image quality assessment using multi-method fusion
Corchs et al. No reference image quality classification for JPEG-distorted images
CN103188493B (zh) 图像编码装置及图像编码方法
CN112001274B (zh) 人群密度确定方法、装置、存储介质和处理器
Yue et al. Blind quality assessment for screen content images via convolutional neural network
Aguiar et al. A real-time video quality estimator for emerging wireless multimedia systems
US20220067888A1 (en) Image processing method and apparatus, storage medium, and electronic device
US20240153044A1 (en) Circuit for executing stateful neural network
CN114022506B (zh) 一种边缘先验融合多头注意力机制的图像修复方法
KR102625063B1 (ko) 비 참조 영상 기반의 영상 품질 평가 방법
CN111583345A (zh) 一种相机参数的获取方法、装置、设备及存储介质
CN115550658B (zh) 基于智慧校园管理平台的数据传输方法
Gaata et al. No-reference quality metric based on fuzzy neural network for subjective image watermarking evaluation
CN113660488B (zh) 对多媒体数据进行流控及流控模型训练方法、以及装置
Engelke et al. An artificial neural network for quality assessment in wireless imaging based on extraction of structural information
Kawa et al. Survey on the state-of-the-art methods for objective video quality assessment in recognition tasks
Ouni et al. No-reference image semantic quality approach using neural network
Cárdenas-Angelat et al. Application of Deep Learning Techniques to Video QoE Prediction in Smartphones
Shi et al. A user-perceived video quality assessment metric using inter-frame redundancy
Kulkarni NVL2E-Neural Network-Based Video Feature Extraction Enabled Loss Computation to Learn and Evaluate Video Quality
Athar Image Quality Assessment: Addressing the Data Shortage and Multi-Stage Distortion Challenges
Alhakim et al. Image quality assessment using nonlinear learning methods
WO2022181367A1 (ja) 情報処理装置、情報処理方法及び記録媒体

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant