KR20230156585A - 초해상도 신경망을 기반으로 한 화질개선 방법 및 장치 - Google Patents
초해상도 신경망을 기반으로 한 화질개선 방법 및 장치 Download PDFInfo
- Publication number
- KR20230156585A KR20230156585A KR1020220056193A KR20220056193A KR20230156585A KR 20230156585 A KR20230156585 A KR 20230156585A KR 1020220056193 A KR1020220056193 A KR 1020220056193A KR 20220056193 A KR20220056193 A KR 20220056193A KR 20230156585 A KR20230156585 A KR 20230156585A
- Authority
- KR
- South Korea
- Prior art keywords
- super
- neural network
- data set
- distortion
- image
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000015556 catabolic process Effects 0.000 claims abstract description 6
- 238000006731 degradation reaction Methods 0.000 claims abstract description 6
- 238000004590 computer program Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
Abstract
본 개시는 초해상도 신경망을 기반으로 한 화질개선 방법 및 장치를 제공한다.
본 개시의 일 실시예에 따르면, 타겟 영상의 왜곡 특성에 최적화된 화질개선 방법으로서, 하나 이상의 왜곡을 첨가한 학습용 데이터 세트를 하나 이상 생성하는 과정; 상기 하나 이상의 학습용 데이터 세트를 왜곡 부호화 신경망(DEN: Degradation Encoder Neural Network)에 입력하여 각각의 학습용 왜곡 특성값을 출력하는 과정; 상기 타겟 영상의 이미지 패치로 구성된 서비스 데이터 세트를 상기 왜곡 부호화 신경망에 입력하여 서비스 왜곡 특성값을 출력하는 과정; 상기 각각의 학습용 왜곡 특성값과 상기 서비스 왜곡 특성값 간의 유사도를 계산하는 과정; 및 상기 서비스 왜곡 특성값과 가장 유사도가 높은 학습용 데이터 세트를 선정하는 과정을 포함하는 영상 화질개선 방법을 제공한다.
본 개시의 일 실시예에 따르면, 타겟 영상의 왜곡 특성에 최적화된 화질개선 방법으로서, 하나 이상의 왜곡을 첨가한 학습용 데이터 세트를 하나 이상 생성하는 과정; 상기 하나 이상의 학습용 데이터 세트를 왜곡 부호화 신경망(DEN: Degradation Encoder Neural Network)에 입력하여 각각의 학습용 왜곡 특성값을 출력하는 과정; 상기 타겟 영상의 이미지 패치로 구성된 서비스 데이터 세트를 상기 왜곡 부호화 신경망에 입력하여 서비스 왜곡 특성값을 출력하는 과정; 상기 각각의 학습용 왜곡 특성값과 상기 서비스 왜곡 특성값 간의 유사도를 계산하는 과정; 및 상기 서비스 왜곡 특성값과 가장 유사도가 높은 학습용 데이터 세트를 선정하는 과정을 포함하는 영상 화질개선 방법을 제공한다.
Description
본 개시는 초해상도 신경망을 기반으로 한 화질개선 방법 및 장치에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 개시에 대한 배경정보를 제공할 뿐 종래기술을 구성하는 것이 아니다.
화질개선 모델을 기초로 저화질 영상을 고화질 영상으로 변환할 수 있다. 인공신경망을 기반으로 한 머신러닝(machine learning)을 기초로 화질개선 모델을 학습시킬 수 있다. 화질개선 모델을 학습시키기 위해서는, 왜곡(distortion)에 대한 충분한 지도학습 데이터가 필요하다. 여기서 왜곡이란, 저화질 영상에서 발견되는 블러(blur) 및 노이즈(noise) 등을 의미한다. 지도학습 데이터를 수집하는 방식으로서, 수작업으로 저화질 데이터를 고화질 데이터로 변환하는 방식이 있다. 이 방식은 상당한 비용이 소모된다. 한편, 영상을 제공하는 서비스 환경에 따라서는, 지도학습 데이터 자체를 수집할 수 없는 경우도 있다.
지도학습 데이터를 생성하기 위하여, 종래 기술은 타겟 영상에 블러, 노이즈 및 압축(compression) 등의 왜곡을 무작위적으로 첨가하여 지도학습 데이터를 수집하였다. 이 방식은, 모든 영상에 적용할 수 있는 보편적인 방식이지만, 타겟 영상에만 반영된 왜곡 특성에 초점을 맞추지 못한 지도학습 데이터를 생성하는 문제점이 있다.
한편, 많은 왜곡 특성이 반영된 데이터 세트를 기초로 학습된 화질개선 모델은, 타겟 영상에만 반영된 왜곡 특성에 대하여 충분한 학습이 이루어지지 않으므로, 타겟 영상을 고화질 영상으로 변환하는 데 최적화되지 않다는 문제점이 있다.
본 개시의 일 실시예에 따르면, 영상 화질개선 장치는, 학습용 데이터 세트의 왜곡 특성값과 서비스 데이터 세트의 왜곡 특성값간의 유사도를 계산함으로써, 타겟 영상의 서비스 데이터 세트의 왜곡 특성과 가장 유사한 왜곡을 첨가한 학습용 데이터 세트를 선정할 수 있다.
본 개시의 일 실시예에 따르면, 영상 화질개선 장치는, 왜곡 특성값간의 유사도를 기초로 특정한 왜곡 특성에 최적화된 초해상도 신경망을 선정할 수 있다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 실시예에 따르면, 타겟 영상의 왜곡 특성에 최적화된 화질개선 방법으로서, 하나 이상의 왜곡을 첨가한 학습용 데이터 세트를 하나 이상 생성하는 과정; 상기 하나 이상의 학습용 데이터 세트를 왜곡 부호화 신경망(DEN: Degradation Encoder Neural Network)에 입력하여 각각의 학습용 왜곡 특성값을 출력하는 과정; 상기 타겟 영상의 이미지 패치로 구성된 서비스 데이터 세트를 상기 왜곡 부호화 신경망에 입력하여 서비스 왜곡 특성값을 출력하는 과정; 상기 각각의 학습용 왜곡 특성값과 상기 서비스 왜곡 특성값 간의 유사도를 계산하는 과정; 및 상기 서비스 왜곡 특성값과 가장 유사도가 높은 학습용 데이터 세트를 선정하는 과정을 포함하는 영상 화질개선 방법을 제공한다.
본 개시의 일 실시예에 따르면, 타겟 영상의 왜곡 특성에 최적화된 화질개선 방법으로서, 서로 다른 왜곡이 첨가된 학습용 데이터 세트를 이용하여, 하나 이상의 초해상도 신경망(SRN: Super Resolution Neural Network) 각각을 특정한 왜곡에 최적화되도록 학습시키는 과정; 왜곡 부호화 신경망(DEN: Degradation Encoder Neural Network)을 이용하여, 상기 하나 이상의 초해상도 신경망 각각에 적용된 학습용 데이터 세트와 서비스 데이터 세트의 유사도를 계산하는 과정; 상기 하나 이상의 초해상도 신경망 중 유사도가 가장 높은 학습용 데이터 세트로 학습된 초해상도 신경망을 선정하는 과정; 및 선정된 초해상도 신경망을 이용하여 타겟 영상을 고화질 영상으로 변환하는 과정을 포함하는 영상 화질개선 방법을 제공한다.
본 개시의 일 실시예에 따르면, 타겟 영상의 왜곡 특성에 최적화된 화질개선 장치로서, 하나 이상의 명령어를 저장하는 메모리; 및 프로세서를 포함하되, 상기 프로세서는, 상기 하나 이상의 명령어를 실행함으로써, 서로 다른 왜곡이 첨가된 학습용 데이터 세트를 이용하여, 하나 이상의 초해상도 신경망(SRN: Super Resolution Neural Network) 각각을 특정한 왜곡에 최적화되도록 학습시키고, 왜곡 부호화 신경망(DEN: Degradation Encoder Neural Network)을 이용하여, 상기 하나 이상의 초해상도 신경망 각각에 적용된 학습용 데이터 세트와 서비스 데이터 세트의 유사도를 계산하고, 상기 하나 이상의 초해상도 신경망 중 유사도가 가장 높은 학습용 데이터 세트로 학습된 초해상도 신경망을 선정하며, 선정된 초해상도 신경망을 이용하여 타겟 영상을 고화질 영상으로 변환하는, 영상 화질개선 장치를 제공한다.
본 개시의 일 실시예에 따르면, 가장 유사도가 높은 학습용 데이터 세트를 기초로 하나의 초해상도 신경망을 학습시킴으로써, 타겟 영상에 최적화된 초해상도 신경망을 이용하여 타겟 영상을 고화질 영상으로 변환할 수 있는 효과가 있다.
본 개시의 일 실시예에 따르면, 학습용 데이터 세트의 왜곡 특성과 서비스 데이터 세트의 왜곡 특성 간의 유사도를 계산함으로써, 기 학습된 초해상도 신경망들 중 타겟 영상의 왜곡 특성에 초점을 맞추어 학습된 초해상도 신경망을 선정할 수 있는 효과가 있다.
본 개시의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 상기의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1a 및 도 1b는 본 개시의 일 실시예에 따른 영상 화질개선 방법의 흐름도이다.
도 2는 본 개시의 일 실시예에 따른 학습용 데이터 세트를 생성하는 과정을 도시한 예시도이다.
도 3은 본 개시의 일 실시예에 따라 초해상도 신경망을 학습시키는 과정을 도시한 예시도이다.
도 4는 본 개시의 일 실시예에 따라 서비스 데이터 세트를 왜곡 부호화 신경망에 입력하여 왜곡 특성을 추출하는 과정을 도시한 예시도이다.
도 5는 본 개시의 일 실시예에 따라 학습용 데이터 세트와 서비스 데이터 세트 간의 유사도를 기초로 가중치를 계산하는 과정을 도시한 예시도이다.
도 6은 본 개시의 일 실시예에 따른 영상 화질개선 장치의 구성블록도이다.
도 2는 본 개시의 일 실시예에 따른 학습용 데이터 세트를 생성하는 과정을 도시한 예시도이다.
도 3은 본 개시의 일 실시예에 따라 초해상도 신경망을 학습시키는 과정을 도시한 예시도이다.
도 4는 본 개시의 일 실시예에 따라 서비스 데이터 세트를 왜곡 부호화 신경망에 입력하여 왜곡 특성을 추출하는 과정을 도시한 예시도이다.
도 5는 본 개시의 일 실시예에 따라 학습용 데이터 세트와 서비스 데이터 세트 간의 유사도를 기초로 가중치를 계산하는 과정을 도시한 예시도이다.
도 6은 본 개시의 일 실시예에 따른 영상 화질개선 장치의 구성블록도이다.
이하, 본 개시의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성 요소들에 참조부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
본 개시에 따른 실시예의 구성요소를 설명하는 데 있어서, 제1, 제2, i), ii), a), b) 등의 부호를 사용할 수 있다. 이러한 부호는 그 구성요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 부호에 의해 해당 구성요소의 본질 또는 차례나 순서 등이 한정되지 않는다. 명세서에서 어떤 부분이 어떤 구성요소를 '포함' 또는 '구비'한다고 할 때, 이는 명시적으로 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1a 및 도 1b는 본 개시의 일 실시예에 따른 영상 화질개선 방법의 흐름도이다.
도 1a를 참조하면, 하나 이상의 왜곡이 첨가된 학습용 데이터 세트를 하나 이상 생성한다(S100). 여기서, 왜곡은, 블러(blur) 및 노이즈(noise) 등을 포함한다. 왜곡을 첨가하는 방식은, 하나의 왜곡 특성을 특정한 비율로 첨가하거나, 두 가지 이상의 왜곡 특성을 각각 일정한 비율로 조합하여 첨가할 수도 있다. 학습용 데이터 세트는, 학습용 영상에 포함된 하나 이상의 이미지 패치를 하나의 학습용 세트로 분류한 것이다.
하나 이상의 학습용 데이터 세트 및 서비스 데이터 세트를 왜곡 부호화 신경망(DEN: Degradation Encoder Neural Network)에 입력한다. 왜곡 부호화 신경망은 하나 이상의 학습용 데이터 세트 각각의 왜곡 특성값 및 서비스 데이터 세트의 왜곡 특성값을 출력한다. 영상 화질개선 장치는, 출력된 학습용 데이터 세트의 왜곡 특성값 및 서비스 데이터 세트의 왜곡 특성값 간의 유사도(score)를 계산한다(S102). 여기서, 서비스 데이터 세트란, 화질개선의 대상이 되는 타겟 영상을 구성하는 하나 이상의 이미지 패치를 하나의 서비스 세트로 분류한 것이다. 왜곡 부호화 신경망이란, 입력 영상에 포함된 왜곡의 특성값을 출력하는 신경망이다. 왜곡 부호화 신경망의 출력값은 입력 영상의 왜곡 특성과 강도에 의하여 군집화되는 벡터이다. 왜곡 부호화 신경망은 대조 학습(contrastive learning)을 기초로 학습될 수 있다. 대조 학습은, 동일한 왜곡을 가진 이미지 패치 간에는 손실을 최소화하고 서로 다른 왜곡을 가진 이미지 패치 간에는 손실을 최대화하도록 설계된 목적함수를 이용하여, 학습 대상을 학습시킨다. 대조 학습은 제1 목적함수()를 이용하여 왜곡 부호화 신경망을 학습시킨다. 제1 목적함수는 수학식 1을 이용하여 표현할 수 있다.
[수학식 1]
여기서, 는 학습하고자 하는 서로 다른 왜곡의 총 수이고, 및 는 각각 m 번째 왜곡이 첨가된 이미지 패치에 해당하는 쿼리 샘플(query sample) 및 포지티브 샘플(positive sample)이다. 이미지 패치란, 하나의 데이터 세트를 구성하는 복수의 이미지들 중 하나의 이미지를 의미한다. 은, m 번째가 아닌 왜곡이 첨가된 이미지 패치에 해당하는 네거티브 샘플(negative sample)이며, 은 네거티브 샘플의 총 수이다. 대조 학습을 이용하여 왜곡 부호화 신경망을 학습시키는 경우, 네거티브 샘플의 수가 많을수록 학습이 안정적으로 수행될 수 있다.
영상 화질개선 장치는, 서비스 데이터 세트의 왜곡 특성값과의 유사도가 가장 높은 학습용 데이터 세트를 선정한다(S104). 유사도가 가장 높은 학습용 데이터 세트를 선정하는 이유는, 이 학습용 데이터 세트를 이용하여, 타겟 영상의 왜곡 특성에 최적화되도록 초해상도 신경망을 학습시킬 수 있기 때문이다. 유사도는 수학식 2를 이용하여 계산할 수 있다.
[수학식 2]
여기서 는 학습 배치에 포함된 샘플들의 총 수이다. 타겟 영상을 구성하는 모든 서비스 데이터 세트를 기초로 유사도를 계산하는 것은 비효율적이므로, 설정자는 서비스 데이터 세트를 대표하는 개의 샘플들을 미리 설정할 수 있다. 개의 샘플들을 추출하는 방식은, 서비스 데이터 세트 중 임의로 샘플링 하거나 K-means 군집화를 이용하여 군집 별 대표 영상을 선정하여 샘플링 하는 방식 등이 있다. 는 서비스 데이터 세트의 왜곡 특성을 표현하는 값이다. 이 값은, 하나 이상의 초해상도 신경망 별로 미리 계산할 수 있다. 초해상도 신경망 별로 미리 계산된 값들을 표의 형태로 배치한 룩업테이블을 생성할 수 있다.
유사도는 두가지 방식으로 활용될 수 있다. 첫번째 방식은, 유사도를 기초로 학습용 데이터 세트에 대한 가중치를 계산하는 것이다. 계산된 가중치는 제2 목적함수에 반영될 수 있다. 제2 목적함수란, 초해상도 신경망(SRN)을 학습시키는 함수이다. 제2 목적함수는 수학식 3을 이용하여 표현될 수 있다.
[수학식 3]
여기서 는 임의의 왜곡이 첨가된 저화질 학습용 영상이고, 는 화질개선의 목표가 되는 고화질 학습용 영상이며, 첨자 i 는 i 번째 샘플임을 의미한다. 는 가중치를 의미하며, 수학식 4를 이용하여 표현될 수 있다.
[수학식 4]
여기서 는 학습용 배치에 포함된 샘플들의 총 수이며, 는 서비스 데이터 세트를 대표하는 샘플들의 총 수이다. 타겟 영상의 모든 서비스 데이터 세트를 기초로 유사도를 계산하는 것은 비효율적이므로, 설정자는 서비스 데이터 세트를 대표하는 개의 샘플들을 미리 설정할 수 있다. 개의 샘플들을 추출하는 방식은, 서비스 데이터 세트 중 임의로 샘플링 하거나 K-평균(K-means) 군집화 알고리즘을 이용하여 군집 별 대표 영상을 선정하여 샘플링 하는 방식 등이 있다.
유사도를 활용하는 두번째 방식은 복수의 초해상도 신경망 중 하나를 선정하는 경우에 활용될 수 있다. 예컨대, 타겟 영상의 왜곡 특성값과 가장 유사한 왜곡을 가지는 데이터 세트를 선택하기 위하여, 복수의 데이터 세트들에 대하여 각각의 유사도를 계산한다. 계산된 유사도를 상호간 비교하여, 가장 높은 유사도에 해당하는 데이터 세트를 선정하여 초해상도 신경망을 학습시킬 수 있다. 한편, 서비스에 제공될 데이터가 특정되어 있는 경우, 복수의 초해상도 신경망을 학습시킬 필요가 없으며, 가장 유사도가 높은 학습용 데이터 세트를 기초로 하나의 초해상도 신경망만을 학습시키는 것이 효율적일 수 있다.
영상 화질개선 장치는, 선정된 학습용 데이터 세트를 기초로 제2 목적함수를 이용하여 하나의 초해상도 신경망(SRN: Super Resolution Neural Network)를 학습시킨다(S106).
영상 화질개선 장치는, 제2 목적함수를 이용하여 학습된 초해상도 신경망을 이용하여 타겟 영상을 고화질 영상으로 변환한다(S108).
도 1b를 참조하면, 영상 화질개선 장치는, 서로 다른 왜곡에 최적화된 하나 이상의 학습용 데이터 세트를 생성한다. 영상 화질개선 장치는, 이 학습용 데이터 세트를 이용하여, 하나 이상의 초해상도 신경망을 학습시킬 수 있다. 하나 이상의 초해상도 신경망 각각은, 특정한 왜곡에 최적화된 초해상도 신경망에 해당한다 (S150).
영상 화질개선 장치는, 왜곡 부호화 신경망을 이용하여, 하나 이상의 초해상도 신경망에 적용된 학습용 데이터 세트 각각과 서비스 데이터 세트 간의 유사도를 계산한다(S152).
영상 화질개선 장치는, 가장 유사도가 높은 학습용 데이터 세트가 적용된 초해상도 신경망을 선정한다(S154).
영상 화질개선 장치는, 선정된 초해상도 신경망을 이용하여 타겟 영상을 고화질 영상으로 변환한다(S156).
도 2는 본 개시의 일 실시예에 따른 학습용 데이터 세트를 생성하는 과정을 도시한 예시도이다.
도 2를 참조하면, 영상 화질개선 장치는 학습용 이미지 원본(200)에 왜곡을 첨가할 수 있다. 영상 화질개선 장치는, 학습용 이미지 원본(200)에 블러를 첨가한 서비스 데이터 세트(202), 원본(200)에 노이즈를 첨가한 서비스 데이터 세트(204) 및 블러와 노이즈를 모두 첨가한 서비스 데이터 세트(206)를 생성할 수 있다. 영상 화질개선 장치는 타겟 영상의 왜곡 특성과 유사한 왜곡을 첨가한 학습용 데이터 세트를 생성함으로써, 타겟 영상의 왜곡 특성에 초점을 맞춘 학습용 데이터 세트를 기초로 초해상도 신경망을 학습시킬 수 있다.
도 3은 본 개시의 일 실시예에 따라 초해상도 신경망을 학습시키는 과정을 도시한 예시도이다.
도 3을 참조하면, 학습용 영상(300)을 왜곡 부호화 신경망에 입력하면, 왜곡 부호화 신경망은 학습용 왜곡 특성값(302)을 출력한다. 학습용 왜곡 특성값(302)을 기초로 가중치(304)를 계산한다. 출력 영상(306)과 목표 영상(308) 간의 차이를 가중치(304)와 연산을 기초로 생성된 제2 목적함수를 이용하여 초해상도 신경망을 학습시킬 수 있다.
도 4는 본 개시의 일 실시예에 따라 서비스 데이터 세트를 왜곡 부호화 신경망에 입력하여 왜곡 특성을 추출하는 과정을 도시한 예시도이다.
도 4를 참조하면, 서비스 데이터 세트(400)를 왜곡 부호화 신경망에 입력하면, 왜곡 부호화 신경망은 서비스 왜곡 특성값(402)을 출력한다. 서비스 왜곡 특성값(402)은 의 벡터 값(N은 자연수)이다. 각각의 서비스 왜곡 특성값(402)을 기초로 서비스 왜곡 특성값의 평균(404)을 계산한다.
도 5는 본 개시의 일 실시예에 따라 학습용 데이터 세트와 서비스 데이터 세트 간의 유사도를 기초로 가중치를 계산하는 과정을 도시한 예시도이다.
도 5를 참조하면, 영상 화질개선 장치는, 학습용 데이터 세트(500)의 이미지 패치 각각을 왜곡 부호화 신경망에 입력하여 각 이미지의 학습용 왜곡 특성값(502)을 출력한다. 학습용 왜곡 특성값(502)은 의 벡터 값(N은 자연수)이다. 영상 화질개선 장치는, 학습용 왜곡 특성값(502)과 서비스 왜곡 특성값의 평균(504) 간의 유사도를 기초로 학습용 데이터 세트의 가중치(506)를 계산한다.
도 6은 본 개시의 일 실시예에 따른 영상 화질개선 장치의 구성블록도이다.
도 6을 참조하면, 영상 화질개선 장치(600)는 메모리(602) 및 프로세서(604)를 전부 또는 일부 포함한다.
메모리(602)는 본 발명의 일 실시예에 따른 영상 화질개선 방법을 수행하도록 하는 프로그램을 저장할 수 있다. 예컨대, 프로그램은 프로세서(604)에 의해서 실행 가능한(executable) 복수의 명령어들을 포함할 수 있고, 복수의 명령어들이 프로세서(604)에 의해서 실행됨으로써 영상 화질개선 방법이 수행될 수 있다.
메모리(602)는 휘발성 메모리 및 비휘발성 메모리 중 적어도 하나를 포함할 수 있다. 휘발성 메모리는 SRAM(Static Random Access Memory) 또는 DRAM(Dynamic Random Access Memory) 등을 포함하고, 비휘발성 메모리는 플래시 메모리(flash memory) 등을 포함한다.
프로세서(604)는 적어도 하나의 명령어를 실행할 수 있는 적어도 하나의 구성을 포함할 수 있다. 프로세서(604)는 메모리(602)에 저장된 명령어들을 실행할 수 있으며, 명령어들을 실행함으로써 본 개시에 따른 영상 화질개선 방법을 수행할 수 있다.
본 명세서에 설명되는 장치 및 방법의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(Field Programmable Gate Array), ASIC(Application Specific Integrated Circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다.
본 개시의 순서도/흐름도에서는 각각의 과정들을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 발명의 일부 실시예의 기술 사상을 예시적으로 설명한 것에 불과하다. 다시 말해, 본 발명의 일부 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일부 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 본 개시의 순서도/흐름도에 기재된 과정을 변경하여 실행하거나 각각의 과정 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 본 개시의 순서도/흐름도는 시계열적인 순서로 한정되는 것은 아니다.
본 명세서에 설명되는 장치 및 방법의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
600: 영상 화질개선 장치
602: 메모리
604: 프로세서
602: 메모리
604: 프로세서
Claims (5)
- 타겟 영상의 왜곡 특성에 최적화된 화질개선 방법으로서,
하나 이상의 왜곡을 첨가한 학습용 데이터 세트를 하나 이상 생성하는 과정;
상기 하나 이상의 학습용 데이터 세트를 왜곡 부호화 신경망(DEN: Degradation Encoder Neural Network)에 입력하여 각각의 학습용 왜곡 특성값을 출력하는 과정;
상기 타겟 영상의 이미지 패치로 구성된 서비스 데이터 세트를 상기 왜곡 부호화 신경망에 입력하여 서비스 왜곡 특성값을 출력하는 과정;
상기 각각의 학습용 왜곡 특성값과 상기 서비스 왜곡 특성값 간의 유사도를 계산하는 과정; 및
상기 서비스 왜곡 특성값과 가장 유사도가 높은 학습용 데이터 세트를 선정하는 과정
을 포함하는 영상 화질개선 방법. - 제1항에 있어서,
상기 선정된 학습용 데이터 세트를 기초로 하나의 초해상도 신경망(SRN: Super Resolution Neural Network)을 학습시키는 과정; 및
상기 초해상도 신경망을 이용하여, 상기 타겟 영상을 고화질 영상으로 변환하는 과정을 더 포함하는 영상 화질개선 방법. - 타겟 영상의 왜곡 특성에 최적화된 화질개선 방법으로서,
서로 다른 왜곡이 첨가된 학습용 데이터 세트를 이용하여, 하나 이상의 초해상도 신경망(SRN: Super Resolution Neural Network) 각각을 특정한 왜곡에 최적화되도록 학습시키는 과정;
왜곡 부호화 신경망(DEN: Degradation Encoder Neural Network)을 이용하여, 상기 하나 이상의 초해상도 신경망 각각에 적용된 학습용 데이터 세트와 서비스 데이터 세트의 유사도를 계산하는 과정;
상기 하나 이상의 초해상도 신경망 중 유사도가 가장 높은 학습용 데이터 세트로 학습된 초해상도 신경망을 선정하는 과정; 및
선정된 초해상도 신경망을 이용하여 타겟 영상을 고화질 영상으로 변환하는 과정
을 포함하는 영상 화질개선 방법. - 제1항 내지 제3항 중 어느 한 항에 따른 영상 화질개선 방법이 포함하는 각 과정을 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터 프로그램.
- 타겟 영상의 왜곡 특성에 최적화된 화질개선 장치로서,
하나 이상의 명령어를 저장하는 메모리; 및
프로세서를 포함하되,
상기 프로세서는,
상기 하나 이상의 명령어를 실행함으로써,
서로 다른 왜곡이 첨가된 학습용 데이터 세트를 이용하여, 하나 이상의 초해상도 신경망(SRN: Super Resolution Neural Network) 각각을 특정한 왜곡에 최적화되도록 학습시키고,
왜곡 부호화 신경망(DEN: Degradation Encoder Neural Network)을 이용하여, 상기 하나 이상의 초해상도 신경망 각각에 적용된 학습용 데이터 세트와 서비스 데이터 세트의 유사도를 계산하고,
상기 하나 이상의 초해상도 신경망 중 유사도가 가장 높은 학습용 데이터 세트로 학습된 초해상도 신경망을 선정하며,
선정된 초해상도 신경망을 이용하여 타겟 영상을 고화질 영상으로 변환하는,
영상 화질개선 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220056193A KR20230156585A (ko) | 2022-05-06 | 2022-05-06 | 초해상도 신경망을 기반으로 한 화질개선 방법 및 장치 |
PCT/KR2022/019384 WO2023214633A1 (ko) | 2022-05-06 | 2022-12-01 | 초해상도 신경망을 기반으로 한 화질개선 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220056193A KR20230156585A (ko) | 2022-05-06 | 2022-05-06 | 초해상도 신경망을 기반으로 한 화질개선 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230156585A true KR20230156585A (ko) | 2023-11-14 |
Family
ID=88646560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220056193A KR20230156585A (ko) | 2022-05-06 | 2022-05-06 | 초해상도 신경망을 기반으로 한 화질개선 방법 및 장치 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20230156585A (ko) |
WO (1) | WO2023214633A1 (ko) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101922964B1 (ko) * | 2017-06-27 | 2018-11-28 | 아주대학교산학협력단 | 이미지 왜곡 검출을 이용한 이미지 복원 장치 및 방법 |
CN107767343B (zh) * | 2017-11-09 | 2021-08-31 | 京东方科技集团股份有限公司 | 图像处理方法、处理装置和处理设备 |
KR102675806B1 (ko) * | 2019-05-03 | 2024-06-18 | 삼성전자주식회사 | 영상 처리 장치 및 그 영상 처리 방법 |
CN111709891B (zh) * | 2020-06-12 | 2023-11-24 | 北京小米松果电子有限公司 | 图像去噪模型的训练方法、图像去噪方法、装置及介质 |
JP2022064389A (ja) * | 2020-10-14 | 2022-04-26 | プラスマン合同会社 | 画像処理装置、画像処理方法およびプログラム |
-
2022
- 2022-05-06 KR KR1020220056193A patent/KR20230156585A/ko unknown
- 2022-12-01 WO PCT/KR2022/019384 patent/WO2023214633A1/ko unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023214633A1 (ko) | 2023-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444878B (zh) | 一种视频分类方法、装置及计算机可读存储介质 | |
JP6647632B2 (ja) | 機械学習用訓練データの生成 | |
US11798131B2 (en) | Method for processing image for improving the quality of the image and apparatus for performing the same | |
EP3255586A1 (en) | Method, program, and apparatus for comparing data graphs | |
CN110378338B (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
CN110570433A (zh) | 基于生成对抗网络的图像语义分割模型构建方法和装置 | |
CN113592991A (zh) | 一种基于神经辐射场的图像渲染方法、装置及电子设备 | |
CN112949706B (zh) | Ocr训练数据生成方法、装置、计算机设备及存储介质 | |
CN113807353A (zh) | 图像转换模型训练方法、装置、设备及存储介质 | |
KR20210116922A (ko) | 초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치 | |
JP2008234479A (ja) | 画像高品質化装置、方法、及びプログラム | |
CN110796624A (zh) | 一种图像生成方法、装置及电子设备 | |
CN112669215A (zh) | 一种训练文本图像生成模型、文本图像生成的方法和装置 | |
JP2024026745A (ja) | 人工知能ニューラルネットワークの推論または訓練に対する、故意に歪みを制御する撮像装置の利用 | |
CN112884648A (zh) | 多类模糊图像超分辨率重建的方法和系统 | |
US11461657B2 (en) | Data augmentation in training deep neural network (DNN) based on genetic model | |
EP3803712A1 (en) | An apparatus, a method and a computer program for selecting a neural network | |
CN113743277A (zh) | 一种短视频分类方法及系统、设备和存储介质 | |
CN110728217B (zh) | Sar图像识别方法、装置、设备和存储介质 | |
KR20230156585A (ko) | 초해상도 신경망을 기반으로 한 화질개선 방법 및 장치 | |
KR20210038027A (ko) | 신경망 압축 훈련 방법 및 압축된 신경망을 이용하는 방법 | |
CN110069666B (zh) | 基于近邻结构保持的哈希学习方法和装置 | |
US10956778B2 (en) | Multi-level deep feature and multi-matcher fusion for improved image recognition | |
JP2020181402A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
KR102630844B1 (ko) | 인공지능 카메라 시스템, 인공지능 카메라 시스템에서의 영상 변환 방법, 및 컴퓨터 판독 가능 매체 |