KR102654017B1 - 생성형 순환 신경망 모델을 이용한 영상 개선과 학습데이터 생성을 통합하는 방법 및 그 장치 - Google Patents

생성형 순환 신경망 모델을 이용한 영상 개선과 학습데이터 생성을 통합하는 방법 및 그 장치 Download PDF

Info

Publication number
KR102654017B1
KR102654017B1 KR1020230158108A KR20230158108A KR102654017B1 KR 102654017 B1 KR102654017 B1 KR 102654017B1 KR 1020230158108 A KR1020230158108 A KR 1020230158108A KR 20230158108 A KR20230158108 A KR 20230158108A KR 102654017 B1 KR102654017 B1 KR 102654017B1
Authority
KR
South Korea
Prior art keywords
image
neural network
quality
generative
feature map
Prior art date
Application number
KR1020230158108A
Other languages
English (en)
Inventor
백준기
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Priority to KR1020230158108A priority Critical patent/KR102654017B1/ko
Application granted granted Critical
Publication of KR102654017B1 publication Critical patent/KR102654017B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하는 방법 및 그 장치가 개시된다. 생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하는 방법은, (a) 타겟 영상을 입력받는 단계; 및 (b) 상기 타겟 영상을 학습이 완료된 생성형 순환 신경망 모델에 적용하여 상기 타겟 영상의 유형에 따라 화질 개선된 고화질 영상 및 저화질 영상 중 어느 하나를 선택적으로 생성하는 단계를 포함한다.

Description

생성형 순환 신경망 모델을 이용한 영상 개선과 학습데이터 생성을 통합하는 방법 및 그 장치{A method and apparatus for integrating image enhancement and training data generation using a generative recurrent neural network model}
본 발명은 생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하는 방법 및 그 장치에 관한 것이다.
디지털 영상은 촬영 환경, 광학 시스템 성능 한계, 영상 센서 기능의 한계 등으로 화질이 저하되는 단점이 있다. 이렇게 저하된 화질을 개선하기 위해 인공지능 기반 영상 개선 모델이 사용되고 있다.
인공지능 기반 영상개선 기술은 CNN을 사용한 잡음 제거 및 해상도 개선 기술에 기반한 방법, 생성형 적대적 신경망을 이용한 방법, 비전 트랜스포머(vision transformer)를 사용한 방법, 스윈 트랜스포머(swin transformer)를 사용한 방법, 확산(diffusion) 모델을 사용한 방법 등으로 발전하면서 지속적으로 성능을 향상시켜왔다.
이러한, 인공지능 기반 영상개선 모델은 높은 화질의 영상과 저하된 화질의 영상 페어를 이용한 학습을 필요로 한다. 인공지능 기반 영상 개선 모델의 성능을 보장하기 위해서는 충분한 양의 다양한 학습 영상 데이터가 필요하나 공개된 학습 데이터 이외의 특수한 환경의 학습 데이터를 확보하는 것은 매우 어렵거나 불가능하다.
또한, 인공지능 기반 영상개선 모델이 발전하고 복잡해질수록 학습에 필요한 데이터 양과 종류가 급격하게 증가하고, 학습에 소요되는 시간도 증가하며, 특수한 환경에서 효과적으로 모델을 구현하는데 많은 제약이 있다.
예를 들어, 자율주행 자동차에서 저조도를 개선하고자 할 때, 도로에서 획득되는 영상의 특성을 고려하지 않은 일반적인 영상개선 모델은 최적의 성능을 제공하기가 어려울 뿐만 아니라 구현 비용 및 처리 시간 등의 문제로 구현이 어려운 문제점이 있다.
본 발명은 생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하는 방법 및 그 장치를 제공하기 위한 것이다.
또한, 본 발명은 고화질의 영상 또는 비디오 입력만으로 다양한 종류의 저화질 영상을 생성할 수 있을 뿐만 아니라, 이와 같이 생성된 저화질 영상을 학습된 모델을 통해 개선할 수 있는 생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하는 방법 및 그 장치를 제공하기 위한 것이다.
본 발명의 일 측면에 따르면, 생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하는 방법이 제공된다.
본 발명의 일 실시예에 따르면, (a) 타겟 영상을 입력받는 단계; 및 (b) 상기 타겟 영상을 학습이 완료된 생성형 순환 신경망 모델에 적용하여 상기 타겟 영상의 유형에 따라 화질 개선된 고화질 영상 및 저화질 영상 중 어느 하나를 선택적으로 생성하는 단계를 포함하는 생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하는 방법이 제공될 수 있다.
상기 생성형 순환 신경망 모델은, 학습된 영상 개선 신경망 모듈과 학습된 열화 영상 생성 모듈을 포함하며, 상기 타겟 영상의 화질이 기준 화질 이하인 경우, 상기 학습된 영상 개선 신경망 모듈만 동작하고 상기 학습된 열화 영상 생성 모듈은 동작하지 않고, 상기 타겟 영상의 화질이 기준 화질을 초과하는 경우, 상기 학습된 열화 영상 생성 모듈만 동작하고 상기 학습된 영상 개선 신경망 모듈은 동작하지 않을 수 있다.
상기 (a) 단계 이전에, 제1 영상과 제2 영상을 포함하는 영상 데이터 셋을 이용하여 상기 생성형 순환 신경망 모델을 학습하는 단계를 더 포함하되, 상기 생성형 순환 신경망 모델을 학습하는 단계는, 상기 제1 영상과 상기 제2 영상을 생성형 순환 신경망 모델에 적용하여 상기 제1 영상과 상기 제2 영상 중 저화질 영상에 대한 화질 개선된 고화질 영상을 생성하고, 상기 화질 개선된 고화질 영상을 이용하여 저화질 영상을 생성하도록 학습하는 단계를 포함할 수 있다.
상기 제1 영상과 상기 제2 영상은 동일 장면에 대해 화질이 서로 상이한 페어(pair) 영상이다.
상기 생성형 순환 신경망 모델은, 상기 제1 영상과 상기 제2 영상 중 저화질 영상을 입력받은 후 화질 개선된 고화질 영상을 생성하는 영상 개선 신경망 모듈; 상기 영상 개선 신경망 모듈의 후단에 위치되되, 화질 개선된 고화질 영상을 입력받은 후 저화질 영상을 생성하는 열화 영상 신경망 모듈; 상기 제1 영상과 상기 제2 영상 중 고화질 영상과 상기 화질 개선된 고화질 영상에 대한 제1 일관성 손실이 최소가 되도록 상기 영상 개선 신경망 모듈의 가중치를 조정하는 제1 판별 모듈; 및 상기 제1 영상과 상기 제2 영상 중 저화질 영상과 상기 열화 영상 신경망 모듈에서 출력된 저화질 영상을 이용하여 제2 일관성 손실을 계산한 후 상기 제2 일관성 손실이 최소가 되도록 상기 열화 영상 신경망 모듈의 가중치를 조정하는 제2 판별 모듈을 포함할 수 있다.
상기 영상 개선 신경망 모듈과 열화 영상 신경망 모듈은 각각, 복수의 트랜스포머 기반 인코더와 복수의 컨볼루션 레이어를 이용한 디코더로 구성되되, 상기 복수의 트랜스포머와 상기 복수의 컨볼루션 레이어는 서로 대칭 구조를 가지도록 구성될 수 있다.
상기 트랜스포머는 각각, 입력 영상의 특징맵을 추출하는 컨볼루션 레이어; 상기 추출된 특징맵을 분리하는 분리(split) 레이어; 상기 분리된 특징맵을 입력받아 제1 글로벌 특징맵을 추출하는 제1 스윈 트랜스포머 블록(swin transformer); 상기 제1 스윈 트랜스포머 블록 후단에 위치되며, 상기 제1 글로벌 특징맵을 입력받아 제1 로컬 특징맵을 추출하는 제1 잔차 블록(residual block); 상기 분리된 특징맵을 입력받아 상기 분리된 특징맵에 대한 제2 로컬 특징맵을 추출하는 제2 잔차 블록; 상기 제2 잔차 블록 후단에 위치되며, 상기 제2 로컬 특징맵을 입력받아 제2 글로벌 특징맵을 추출하는 제2 스윈 트랜스포머 블록; 및 상기 제1 잔차 블록에서 출력된 상기 제1 로컬 특징맵과 상기 제2 스윈 트랜스포머 블록에서 출력되는 상기 제2 글로벌 특징맵을 결합한 후 컨볼루션 레이어를 통과하여 특징맵을 출력할 수 있다.
본 발명의 다른 측면에 따르면, 생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하기 위한 장치가 제공된다.
본 발명의 일 실시예에 따르면, 적어도 하나의 명령어를 저장하는 메모리; 및 상기 메모리에 저장된 명령어를 실행하는 프로세서를 포함하되, 상기 프로세서에 의해 실행된 명령어는 각각, (a) 타겟 영상을 입력받는 단계; 및 (b) 상기 타겟 영상을 학습이 완료된 생성형 순환 신경망 모델에 적용하여 상기 타겟 영상의 유형에 따라 화질 개선된 고화질 영상 및 저화질 영상 중 어느 하나를 선택적으로 생성하는 단계를 수행하는 것을 특징으로 하는 컴퓨팅 장치가 제공될 수 있다.
본 발명의 일 실시예에 따른 생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하는 방법 및 그 장치를 제공함으로써, 고화질의 영상 또는 비디오 입력만으로 다양한 종류의 저화질 영상을 생성할 수 있을 뿐만 아니라, 이와 같이 생성된 저화질 영상을 학습된 모델을 통해 개선할 수 있는 이점이 있다.
또한, 본 발명은 군시설이나 위험 지역과 같이 접근이 어렵거나 데이터를 획득할 수 없는 경우에도 생성형 순환 신경망 모델을 이용하여 영상 학습 데이터 생성이 가능한 이점도 있다.
도 1은 본 발명의 일 실시예에 따른 생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하는 방법을 나타낸 순서도.
도 2는 본 발명의 일 실시예에 따른 생성형 순환 신경망 모델의 전체 구성을 도시한 도면.
도 3은 본 발명의 일 실시예에 따른 영상 개선 신경망 모듈과 열화 영상 생성 모듈의 상세 구조를 도시한 도면.
도 4는 본 발명의 일 실시예에 따른 트랜스포머 블록의 상세 구조를 도시한 도면.
도 5는 본 발명의 일 실시예에 따른 스윈 트랜스포머의 상세 구조를 도시한 도면.
도 6은 본 발명의 일 실시예에 따른 저화질 영상 입력시 생성형 순환 신경망 모델의 동작을 설명하기 위해 도시한 도면.
도 7은 본 발명의 일 실시예에 따른 고화질 영상 입력시 생성형 순환 신경망 모델의 동작을 설명하기 위해 도시한 도면.
도 8은 본 발명의 일 실시예에 따른 컴퓨팅 장치의 내부 구성을 개략적으로 도시한 블록도.
본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하는 방법을 나타낸 순서도이고, 도 2는 본 발명의 일 실시예에 따른 생성형 순환 신경망 모델의 전체 구성을 도시한 도면이고, 도 3은 본 발명의 일 실시예에 따른 영상 개선 신경망 모듈과 열화 영상 생성 모듈의 상세 구조를 도시한 도면이며, 도 4는 본 발명의 일 실시예에 따른 트랜스포머 블록의 상세 구조를 도시한 도면이고, 도 5는 본 발명의 일 실시예에 따른 스윈 트랜스포머의 상세 구조를 도시한 도면이고, 도 6은 본 발명의 일 실시예에 따른 저화질 영상 입력시 생성형 순환 신경망 모델의 동작을 설명하기 위해 도시한 도면이고, 도 7은 본 발명의 일 실시예에 따른 고화질 영상 입력시 생성형 순환 신경망 모델의 동작을 설명하기 위해 도시한 도면이다.
단계 110에서 컴퓨팅 장치(100)는 영상 데이터 셋을 입력받는다.
편의상 영상 데이터 셋을 와 같이 나타내기로 한다. 영상 데이터 셋은 동일 장면에 대해 서로 화질이 상이한 영상이 하나의 페어(pair)로 구성되며, N개의 페어(pair)를 포함할 수 있다.
이하에서는 이해와 설명의 편의를 도모하기 위해, 는 i번째 영상 페어(pair)의 고화질 영상으로 표기하고, 는 i번째 영상 페어(pair)의 저화질 영상으로 표기하여 설명하기로 한다.
단계 115에서 컴퓨팅 장치(100)는 i번째 영상 페어(, )를 생성형 순환 신경망 모델에 적용하여 에 대한 화질 개선된 고화질 영상을 생성하고, 화질 개선된 고화질 영상을 이용하여 저화질 영상을 생성하도록 생성형 순환 신경망 모델을 학습시킨다.
도 2에 생성형 순환 신경망 모델의 상세 구조가 도시되어 있다. 도 2를 참조하여 이에 대해 보다 상세히 설명하기로 한다.
도 2에 도시된 바와 같이, 생성형 순환 신경망 모델은 영상 개선 신경망 모듈(210), 열화 영상 생성 모듈(220), 제1 판별 모듈(230) 및 제2 판별 모듈(240)을 포함하여 구성된다.
생성형 순환 신경망 모델의 학습을 위해, 를 영상 개선 신경망 모듈(210)에 적용하고, 영상 개선 신경망 모듈(210)은 에 대한 화질 개선된 고화질 영상을 생성하도록 학습될 수 있다.
영상 개선 신경망 모듈(210)의 출력인 화질 개선된 고화질 영상은 해당 영상 개선 신경망 모듈(210)의 후단에 위치된 열화 영상 생성 모듈(220)로 전달된다. 열화 영상 생성 모듈(220)은 화질 개선된 고화질 영상을 입력받아 저화질 영상을 생성하도록 학습된다.
제1 판별 모듈(230)은 영상 개선 신경망 모듈(210)의 출력인 화질 개선된 고화질 영상을 이용하여 판별 확률과 일관성 손실(편의상 제1 일관성 손실이라 칭하기로 함)을 계산할 수 있다. 제1 판별 모듈(230)은 판별 확률이 0.5가 되며, 제1 일관성 손실이 최소가 되도록 영상 개선 신경망 모듈(210)의 파라미터 가중치를 조정할 수 있다.
또한, 제2 판별 모듈(240)은 열화 영상 생성 모듈(220)의 출력인 을 이용하여 판별 확률과 일관성 손실(편의상 제2 일관성 손실이라 칭하기로 함)을 계산할 수 있다. 제2 판별 모듈(240)은 판별 확률이 0.5가 되며, 제2 일관성 손실이 최소가 되도록 열화 영상 생성 모듈(220)의 파라미터 가중치를 조정할 수 있다.
영상 데이터 셋에 포함된 영상 페어들을 이용하여 생성형 순환 신경망 모델이 저화질 영상에 대해 화질 개선된 영상을 생성하고, 해당 화질 개선된 영상을 이용하여 저화질 영상을 생성하도록 반복적으로 학습시킬 수 있다.
생성형 순환 신경망 모델에 포함된 영상 개선 신경망 모듈(210)과 열화 영상 생성 모듈(220)은 복수의 트랜스포머 기반 인코더와 복수의 컨볼루션 레이어를 이용한 디코더 구조로 구성되며, 복수의 트랜스포머 기반 인코더와 복수의 컨볼루션 레이어를 이용한 디코더는 서로 대칭 구조를 가지는 Unet 구조로 구성될 수 있다.
도 3에는 영상 개선 신경망 모듈(210)과 열화 영상 생성 모듈(220)의 Unet 구조가 상세히 도시되어 있다. 도 3에 도시된 바와 같이, 영상 개선 신경망 모듈(210)과 열화 영상 생성 모듈(220)은 동일하게 복수의 트랜스포머 기반 인코더와 복수의 컨볼루션 레이어를 이용한 디코더를 가지는 Unet 구조로 구성되나, 학습 과정에서 서로 다른 가중치로 파라미터가 조정될 수 있다. 이에 따라 영상 개선 신경망 모듈(210)과 열화 영상 생성 모듈(220)은 파라미터 가중치가 서로 상이하게 조정됨에 따라 서로 다른 화질의 영상을 생성하도록 학습될 수 있다.
또한, 영상 개선 신경망 모듈(210)과 열화 영상 생성 모듈(220) 각각의 인코더를 구성하는 트랜스포머 블록은 도 4에 도시된 바와 같이 입력 영상(또는 특징맵)에 대한 글로벌 특징맵을 추출한 후 로컬 특징맵을 추출하고, 로컬 특징맵을 추출한 후 글로벌 특징맵을 추출한 후 이를 통합하는 구조로 구성될 수 있다.
도 4에는 트랜스포머 블록의 구성이 도시되어 있다. 도 4를 참조하여 트랜스포머 블록의 동작에 대해 간략하게 설명하기로 한다.
도 4에 도시된 바와 같이, 입력 영상(또는 입력 특징맵)은 컨볼루션 레이어를 통해 특징맵이 추출되고, 해당 컨볼루션 레이어에 의해 추출된 특징맵은 분리(split) 레이어를 통해 두 개의 브랜치로 분리될 수 있다. 분리된 특징맵은 제1 스윈 트랜스포머(swin transformer)를 통해 글로벌 특징맵(편의상 제1 글로벌 특징맵이라 칭하기로 함)을 추출한 후 제1 스윈 트랜스포머의 후단에 위치된 제1 잔차 블록(residual block)으로 전달되어 제1 로컬 특징맵을 추정할 수 있다. 또한, 분리된 특징맵은 제2 잔차 블록을 통해 제2 로컬 특징맵이 추출된 후 제2 스윈 트랜스포머를 통해 제2 글로벌 특징맵이 추정될 수 있다. 제1 및 제2 스윈 트랜스포머의 상세 구조는 도 5에 도시된 바와 같다.
추정된 제1 로컬 특징맵과 제2 글로벌 특징맵을 결합한 후 컨볼루션 연산을 적용하여 해당 트랜스포머 블록의 최종 특징맵이 출력될 수 있다.
본 발명의 일 실시예에 따른 각 트랜스포머 블록은 도 4에 도시된 바와 같이, 하나의 브랜치를 통해 스윈 트랜스포머를 적용하여 글로벌 특징맵을 추출한 후 후단에 위치된 잔차 블록으로 전달하여 로컬 특징맵을 추정하고, 다른 브랜치를 통해 잔차 블록을 통해 로컬 특징맵을 추출한 후 후단에 위치한 스윈 트랜스포머를 통과시켜 글로벌 특징맵을 추정하도록 할 수 있다.
상술한 바와 같이, 생성형 순환 신경망 모델에 영상 개선 신경망 모듈과 열화 영상 생성 모듈을 결합하여 학습시킴으로써 특수한 환경(차량용 카메라, 군사 경계 현장)에 대한 고화질 또는 저화질 영상으로 저화질 또는 화질 개선된 영상 학습 데이터를 생성하고, 이를 이용하여 해당 모델을 다시 학습시킬 수 있다.
도 2 내지 도 4를 참조하여, 생성형 순환 신경망 모델의 학습 과정에 대해 설명하였다.
영상 데이터 셋을 이용하여 생성형 순환 신경망 모델의 학습이 완료된 이후의 동작 과정에 대해 설명하기로 한다.
단계 120에서 컴퓨팅 장치(100)는 타겟 영상을 입력받는다. 여기서, 타겟 영상은 저화질 영상일 수도 있으며, 고화질 영상일 수도 있다.
단계 125에서 컴퓨팅 장치(100)는 타겟 영상을 학습이 완료된 생성형 순환 신경망 모델에 적용하여 타겟 영상의 유형에 따라 화질 개선된 고화질 영상 및 저화질 영상 중 어느 하나를 선택적으로 생성할 수 있다.
학습이 완료된 생성형 순환 신경망 모델은 학습된 영상 개선 신경망 모듈(210)과 학습된 열화 영상 생성 모듈(220) 중 어느 하나를 타겟 영상의 유형에 따라 선택적으로 동작시킬 수 있다.
예를 들어, 타겟 영상의 화질이 기준 화질 이하인 저화질 영상이라고 가정하기로 한다. 학습이 완료된 생성형 순환 신경망 모델은 학습된 영상 개선 신경망 모듈(210)과 학습된 열화 영상 생성 모듈(220) 중 영상 개선 신경망 모듈(210)만 동작시키고, 열화 영상 생성 모듈(220)은 동작하지 않도록 비활성화시킬 수 있다. 이에 따라, 해당 타겟 영상이 저화질 영상인 경우, 학습이 완료된 생성형 순환 신경망 모델은 도 6에 도시된 바와 같이, 저화질 영상에 대해 화질 개선된 영상을 생성하는 영상 개선 신경망 모델처럼 동작될 수 있다.
다른 예를 들어, 타겟 영상의 화질이 기준 화질을 초과하는 고하질 영상이라고 가정하기로 한다. 학습이 완료된 생성형 순환 신경망 모델은 학습된 영상 개선 신경망 모듈(210)과 학습된 열화 영상 생성 모듈(220) 중 열화 영상 생성 모듈(220)만 동작시키고, 영상 개선 신경망 모듈(210)은 동작하지 않도록 비활성화시킬 수 있다. 이에 따라, 해당 타겟 영상이 고화질 영상인 경우, 학습이 완료된 생성형 순환 신경망 모델은 도 7에 도시된 바와 같이, 고화질 영상에 대해 화질 저하된 저화질 영상을 생성하는 열화 영상 생성 모델처럼 동작될 수 있다.
도 8은 본 발명의 일 실시예에 따른 컴퓨팅 장치의 내부 구성을 개략적으로 도시한 블록도이다.
도 8을 참조하면, 본 발명의 일 실시예에 따른 컴퓨팅 장치(100)는 메모리(810) 및 프로세서(820)를 포함하여 구성된다.
메모리(810)는 본 발명의 일 실시예에 따른 생성형 순환 신경망 모델을 이용한 학습 데이터 생성 방법을 수행하기 위한 명령어들을 저장한다.
프로세서(820)는 메모리(810)와 연동되며, 메모리(810)에 저장된 명령어를 실행한다.
프로세서(820)에 의해 실행된 명령어는 타겟 영상을 입력받고, 타겟 영상을 학습이 완료된 생성형 순환 신경망 모델에 적용하여 상기 타겟 영상의 유형에 따라 화질 개선된 고화질 영상 및 저화질 영상 중 어느 하나를 선택적으로 생성하기 위한 일련의 과정을 수행할 수 있다.
이외에도, 프로세서(820)에 의해 실행된 명령어는, 제1 영상과 제2 영상을 포함하는 영상 데이터 셋을 이용하여 상기 생성형 순환 신경망 모델을 학습하기 위한 일련의 과정을 수행할 수도 있다. 학습 과정은 도 1 내지 도 4를 참조하여 설명한 바와 동일하므로 중복되는 설명은 생략하기로 한다.
본 발명의 실시 예에 따른 장치 및 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (14)

  1. (a) 타겟 영상을 입력받는 단계; 및
    (b) 상기 타겟 영상을 학습이 완료된 생성형 순환 신경망 모델에 적용하여 상기 타겟 영상의 유형에 따라 화질 개선된 고화질 영상 및 저화질 영상 중 어느 하나를 선택적으로 생성하는 단계를 포함하되,
    상기 생성형 순환 신경망 모델은,
    제1 영상과 제2 영상 중 저화질 영상을 입력받은 후 화질 개선된 고화질 영상을 생성하는 영상 개선 신경망 모듈;
    상기 영상 개선 신경망 모듈의 후단에 위치되되, 화질 개선된 고화질 영상을 입력받은 후 저화질 영상을 생성하는 열화 영상 신경망 모듈;
    상기 제1 영상과 상기 제2 영상 중 고화질 영상과 상기 화질 개선된 고화질 영상에 대한 제1 일관성 손실이 최소가 되도록 상기 영상 개선 신경망 모듈의 가중치를 조정하는 제1 판별 모듈; 및
    상기 제1 영상과 상기 제2 영상 중 저화질 영상과 상기 열화 영상 신경망 모듈에서 출력된 저화질 영상을 이용하여 제2 일관성 손실을 계산한 후 상기 제2 일관성 손실이 최소가 되도록 상기 열화 영상 신경망 모듈의 가중치를 조정하는 제2 판별 모듈을 포함하고,
    상기 영상 개선 신경망 모듈과 열화 영상 신경망 모듈은 각각,
    복수의 트랜스포머 기반 인코더와 복수의 컨볼루션 레이어를 이용한 디코더로 구성되되,
    상기 복수의 트랜스포머와 상기 복수의 컨볼루션 레이어는 서로 대칭 구조를 가지도록 구성되며,
    상기 트랜스포머는 각각,
    입력 영상의 특징맵을 추출하는 컨볼루션 레이어;
    상기 추출된 특징맵을 분리하는 분리(split) 레이어;
    상기 분리된 특징맵을 입력받아 제1 글로벌 특징맵을 추출하는 제1 스윈 트랜스포머 블록(swin transformer);
    상기 제1 스윈 트랜스포머 블록 후단에 위치되며, 상기 제1 글로벌 특징맵을 입력받아 제1 로컬 특징맵을 추출하는 제1 잔차 블록(residual block);
    상기 분리된 특징맵을 입력받아 상기 분리된 특징맵에 대한 제2 로컬 특징맵을 추출하는 제2 잔차 블록;
    상기 제2 잔차 블록 후단에 위치되며, 상기 제2 로컬 특징맵을 입력받아 제2 글로벌 특징맵을 추출하는 제2 스윈 트랜스포머 블록; 및
    상기 제1 잔차 블록에서 출력된 상기 제1 로컬 특징맵과 상기 제2 스윈 트랜스포머 블록에서 출력되는 상기 제2 글로벌 특징맵을 결합한 후 컨볼루션 레이어를 통과하여 특징맵을 출력하는 것을 특징으로 하는 생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하는 방법.
  2. 제1 항에 있어서,
    상기 생성형 순환 신경망 모델은,
    학습된 영상 개선 신경망 모듈과 학습된 열화 영상 생성 모듈을 포함하며,
    상기 타겟 영상의 화질이 기준 화질 이하인 경우, 상기 학습된 영상 개선 신경망 모듈만 동작하고 상기 학습된 열화 영상 생성 모듈은 동작하지 않고,
    상기 타겟 영상의 화질이 기준 화질을 초과하는 경우, 상기 학습된 열화 영상 생성 모듈만 동작하고 상기 학습된 영상 개선 신경망 모듈은 동작하지 않는 것을 특징으로 하는 생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하는 방법.
  3. 제1 항에 있어서,
    상기 (a) 단계 이전에,
    제1 영상과 제2 영상을 포함하는 영상 데이터 셋을 이용하여 상기 생성형 순환 신경망 모델을 학습하는 단계를 더 포함하되,
    상기 생성형 순환 신경망 모델을 학습하는 단계는,
    상기 제1 영상과 상기 제2 영상을 생성형 순환 신경망 모델에 적용하여 상기 제1 영상과 상기 제2 영상 중 저화질 영상에 대한 화질 개선된 고화질 영상을 생성하고, 상기 화질 개선된 고화질 영상을 이용하여 저화질 영상을 생성하도록 학습하는 단계를 포함하는 것을 특징으로 하는 생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하는 방법.
  4. 제3 항에 있어서,
    상기 제1 영상과 상기 제2 영상은 동일 장면에 대해 화질이 서로 상이한 페어(pair) 영상인 것을 특징으로 하는 생성형 순환 신경망 모델을 이용한 영상 개선과 학습 데이터 생성을 통합하는 방법.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 제1 항에 따른 방법을 수행하기 위한 프로그램 코드를 기록한 컴퓨터로 판독 가능한 기록매체.
  9. 적어도 하나의 명령어를 저장하는 메모리; 및
    상기 메모리에 저장된 명령어를 실행하는 프로세서를 포함하되,
    상기 프로세서에 의해 실행된 명령어는 각각,
    (a) 타겟 영상을 입력받는 단계; 및
    (b) 상기 타겟 영상을 학습이 완료된 생성형 순환 신경망 모델에 적용하여 상기 타겟 영상의 유형에 따라 화질 개선된 고화질 영상 및 저화질 영상 중 어느 하나를 선택적으로 생성하는 단계를 수행하되,
    상기 생성형 순환 신경망 모델은,
    제1 영상과 제2 영상 중 저화질 영상을 입력받은 후 화질 개선된 고화질 영상을 생성하는 영상 개선 신경망 모듈;
    상기 영상 개선 신경망 모듈의 후단에 위치되되, 화질 개선된 고화질 영상을 입력받은 후 저화질 영상을 생성하는 열화 영상 신경망 모듈;
    상기 제1 영상과 상기 제2 영상 중 고화질 영상과 상기 화질 개선된 고화질 영상에 대한 제1 일관성 손실이 최소가 되도록 상기 영상 개선 신경망 모듈의 가중치를 조정하는 제1 판별 모듈; 및
    상기 제1 영상과 상기 제2 영상 중 저화질 영상과 상기 열화 영상 신경망 모듈에서 출력된 저화질 영상을 이용하여 제2 일관성 손실을 계산한 후 상기 제2 일관성 손실이 최소가 되도록 상기 열화 영상 신경망 모듈의 가중치를 조정하는 제2 판별 모듈을 포함하고,
    상기 영상 개선 신경망 모듈과 열화 영상 신경망 모듈은 각각,
    복수의 트랜스포머 기반 인코더와 복수의 컨볼루션 레이어를 이용한 디코더로 구성되되,
    상기 복수의 트랜스포머와 상기 복수의 컨볼루션 레이어는 서로 대칭 구조를 가지도록 구성되며,
    상기 트랜스포머는 각각,
    입력 영상의 특징맵을 추출하는 컨볼루션 레이어;
    상기 추출된 특징맵을 분리하는 분리(split) 레이어;
    상기 분리된 특징맵을 입력받아 제1 글로벌 특징맵을 추출하는 제1 스윈 트랜스포머 블록(swin transformer);
    상기 제1 스윈 트랜스포머 블록 후단에 위치되며, 상기 제1 글로벌 특징맵을 입력받아 제1 로컬 특징맵을 추출하는 제1 잔차 블록(residual block);
    상기 분리된 특징맵을 입력받아 상기 분리된 특징맵에 대한 제2 로컬 특징맵을 추출하는 제2 잔차 블록;
    상기 제2 잔차 블록 후단에 위치되며, 상기 제2 로컬 특징맵을 입력받아 제2 글로벌 특징맵을 추출하는 제2 스윈 트랜스포머 블록; 및
    상기 제1 잔차 블록에서 출력된 상기 제1 로컬 특징맵과 상기 제2 스윈 트랜스포머 블록에서 출력되는 상기 제2 글로벌 특징맵을 결합한 후 컨볼루션 레이어를 통과하여 특징맵을 출력하는 것을 특징으로 하는 것을 특징으로 하는 컴퓨팅 장치.
  10. 제9 항에 있어서,
    상기 생성형 순환 신경망 모델은,
    학습된 영상 개선 신경망 모듈과 학습된 열화 영상 생성 모듈을 포함하며,
    상기 타겟 영상의 화질이 기준 화질 이하인 경우, 상기 학습된 영상 개선 신경망 모듈만 동작하고 상기 학습된 열화 영상 생성 모듈은 동작하지 않고,
    상기 타겟 영상의 화질이 기준 화질을 초과하는 경우, 상기 학습된 열화 영상 생성 모듈만 동작하고 상기 학습된 영상 개선 신경망 모듈은 동작하지 않는 것을 특징으로 하는 컴퓨팅 장치.
  11. 제9 항에 있어서,
    상기 (a) 단계 이전에,
    제1 영상과 제2 영상을 포함하는 영상 데이터 셋을 이용하여 상기 생성형 순환 신경망 모델을 학습하는 단계를 더 수행하되,
    상기 생성형 순환 신경망 모델을 학습하는 단계는,
    상기 제1 영상과 상기 제2 영상을 생성형 순환 신경망 모델에 적용하여 상기 제1 영상과 상기 제2 영상 중 저화질 영상에 대한 화질 개선된 고화질 영상을 생성하고, 상기 화질 개선된 고화질 영상을 이용하여 저화질 영상을 생성하도록 학습하는 단계를 포함하는 것을 특징으로 하는 컴퓨팅 장치.
  12. 삭제
  13. 삭제
  14. 삭제
KR1020230158108A 2023-11-15 2023-11-15 생성형 순환 신경망 모델을 이용한 영상 개선과 학습데이터 생성을 통합하는 방법 및 그 장치 KR102654017B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230158108A KR102654017B1 (ko) 2023-11-15 2023-11-15 생성형 순환 신경망 모델을 이용한 영상 개선과 학습데이터 생성을 통합하는 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230158108A KR102654017B1 (ko) 2023-11-15 2023-11-15 생성형 순환 신경망 모델을 이용한 영상 개선과 학습데이터 생성을 통합하는 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR102654017B1 true KR102654017B1 (ko) 2024-04-02

Family

ID=90714518

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230158108A KR102654017B1 (ko) 2023-11-15 2023-11-15 생성형 순환 신경망 모델을 이용한 영상 개선과 학습데이터 생성을 통합하는 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR102654017B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200046163A (ko) * 2018-10-17 2020-05-07 한국항공우주연구원 딥러닝 기반 영상 처리 시스템 및 그 방법
KR20210056619A (ko) * 2019-11-11 2021-05-20 경북대학교 산학협력단 전자 장치 및 이의 학습 방법
US20230135978A1 (en) * 2021-10-28 2023-05-04 Adobe Inc. Generating alpha mattes for digital images utilizing a transformer-based encoder-decoder

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200046163A (ko) * 2018-10-17 2020-05-07 한국항공우주연구원 딥러닝 기반 영상 처리 시스템 및 그 방법
KR20210056619A (ko) * 2019-11-11 2021-05-20 경북대학교 산학협력단 전자 장치 및 이의 학습 방법
US20230135978A1 (en) * 2021-10-28 2023-05-04 Adobe Inc. Generating alpha mattes for digital images utilizing a transformer-based encoder-decoder

Similar Documents

Publication Publication Date Title
US10043113B1 (en) Method and device for generating feature maps by using feature upsampling networks
KR101938945B1 (ko) Cnn을 이용한 이미지 디헤이징 방법 및 그 시스템
KR20170136588A (ko) 공간 트랜스포머 모듈들
US20200250402A1 (en) Method for recognizing face using multiple patch combination based on deep neural network with fault tolerance and fluctuation robustness in extreme situation
CN110009573B (zh) 模型训练、图像处理方法、装置、电子设备及存储介质
US11200644B2 (en) Video super resolution method
US10872297B2 (en) Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same
CN111488979B (zh) 设备上持续学习用于分析输入数据的神经网络的方法及装置
US20220414838A1 (en) Image dehazing method and system based on cyclegan
RU2770748C1 (ru) Способ и аппарат для обработки изображений, устройство и носитель данных
KR102405428B1 (ko) 이미지 스티칭 방법 및 장치
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
CN116258652B (zh) 基于结构注意和文本感知的文本图像修复模型及方法
KR102166016B1 (ko) 이미지 대 이미지의 변환을 위한 도메인 인식 기반의 변환 기법
CN113837941B (zh) 图像超分模型的训练方法、装置及计算机可读存储介质
WO2022164680A1 (en) Simultaneously correcting image degradations of multiple types in an image of a face
KR102654017B1 (ko) 생성형 순환 신경망 모델을 이용한 영상 개선과 학습데이터 생성을 통합하는 방법 및 그 장치
CN117689592A (zh) 一种基于级联自适应网络的水下图像增强方法
WO2023246392A1 (zh) 图像获取方法、装置、设备和非瞬态计算机存储介质
CN110163116A (zh) 通过加速OpenPose推理获取人体姿态的方法
CN115496654A (zh) 基于自注意力机制的图像超分辨率重建方法、设备及介质
KR102296644B1 (ko) 단일 이미지 상에서 기 설정된 속성을 제거하여 무잡음 영상을 생성하기 위한 장치 및 이를 위한 방법
KR20230088213A (ko) 딥러닝 분해 기반 다중 노출 영상 융합 방법 및 그 장치
US11670023B2 (en) Artificial intelligence techniques for performing image editing operations inferred from natural language requests
KR102537207B1 (ko) 머신 러닝에 기반한 이미지 처리 방법 및 장치