KR102593489B1 - 기계 학습을 이용한 데이터 생성 방법 및 이를 수행하기 위한 컴퓨팅 장치 - Google Patents

기계 학습을 이용한 데이터 생성 방법 및 이를 수행하기 위한 컴퓨팅 장치 Download PDF

Info

Publication number
KR102593489B1
KR102593489B1 KR1020210055549A KR20210055549A KR102593489B1 KR 102593489 B1 KR102593489 B1 KR 102593489B1 KR 1020210055549 A KR1020210055549 A KR 1020210055549A KR 20210055549 A KR20210055549 A KR 20210055549A KR 102593489 B1 KR102593489 B1 KR 102593489B1
Authority
KR
South Korea
Prior art keywords
data
task
machine learning
input
equation
Prior art date
Application number
KR1020210055549A
Other languages
English (en)
Other versions
KR20220148470A (ko
Inventor
채경수
황금별
박성우
Original Assignee
주식회사 딥브레인에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딥브레인에이아이 filed Critical 주식회사 딥브레인에이아이
Priority to KR1020210055549A priority Critical patent/KR102593489B1/ko
Priority to PCT/KR2021/007631 priority patent/WO2022231061A1/ko
Priority to US17/764,265 priority patent/US20240046141A1/en
Publication of KR20220148470A publication Critical patent/KR20220148470A/ko
Application granted granted Critical
Publication of KR102593489B1 publication Critical patent/KR102593489B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

기계 학습을 이용한 데이터 생성 방법 및 이를 수행하기 위한 컴퓨팅 장치가 개시된다. 개시되는 일 실시예에 따른 컴퓨팅 장치는, 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비하며, 기계 학습 모델을 포함하는 컴퓨팅 장치로서, 기계 학습 모델은, 원본 데이터의 일부가 손상 또는 제거된 데이터를 입력 받고, 손상 또는 제거된 데이터 부분을 복원(restoration)하여 출력하는 과제를 주 과제로 수행하도록 학습되고, 원본 데이터를 입력 받고, 입력 받은 원본 데이터를 재건(reconstruction)하여 출력하는 과제를 보조 과제로 수행하도록 학습된다.

Description

기계 학습을 이용한 데이터 생성 방법 및 이를 수행하기 위한 컴퓨팅 장치{METHOD FOR GENERATING DATA OF USING MACHINE LEARNING AND COMPUTING DEVICE FOR EXECUTING THE METHOD}
본 발명의 실시예는 기계 학습을 이용한 데이터 생성 기술과 관련된다.
데이터의 손상 또는 제거된 부분을 복원하는 과제(예를 들어, 부분적으로 손상된 데이터를 복원하는 과제, 이미지 인페인팅 과제, 얼굴 영상에서 가려진 발화 부분을 음성 신호에 맞게 채워 넣는 립 싱크 영상 합성 과제 등)를 수행하는 기계 학습 모델은 일 부분이 손상 또는 제거된 데이터를 입력하면 해당 부분의 정보를 입력 데이터에 존재하는 다른 부분의 정보로부터 추정해서 복원하게 된다. 이러한 과제에서는 기계 학습 모델의 학습 시 데이터의 일부를 손상 또는 제거하여 입력하고, 기계 학습 모델에서 출력하는 데이터와 원본 데이터 간의 오차를 줄이도록 학습이 이루어지게 된다.
예를 들어, 코로나 예방 등을 위해 마스크를 써서 코, 입, 턱 등이 가려진 얼굴 영상에서 개인의 얼굴을 인식하기 위해 마스크로 가려진 부분의 생김새를 복원하는 과제를 기계 학습 모델이 수행하는 경우, 얼굴의 드러난 부분의 위치, 형태, 색상, 질감, 및 마스크의 굴곡 등을 기반으로 마스크로 가려진 얼굴 부분의 구조, 위치, 형태, 색상, 및 질감 등을 예측하여야 한다.
이때, 데이터를 복원해야 하는 부분의 위치나 패턴이 매우 다양(예를 들어, 사람, 물체, 풍경 등 다양한 객체가 포함된 이미지의 손상된 부분을 복원하는 경우 등)하거나, 복원해야 하는 부분의 상세 정보가 다른 부분에 없거나 다른 부분에서 유추하기가 어려운 경우(예를 들어, 얼굴의 입술 부분을 복원해야 하는데 얼굴의 다른 부분에는 입술과 비슷한 형태와 색상을 갖는 부분이 존재하지 않음), 해당 부분을 정확히 복원하기가 어렵다.
한편, 이러한 문제는 서로 다른 유형의 데이터 간 변환을 수행하는 기계 학습 모델(예를 들어, 텍스트를 입력 받아 음성 스펙트로그램 또는 파형으로 변환하는 음성 합성 모델, 음성을 입력으로 받아 얼굴 영상을 생성하거나 얼굴 영상의 발화 부분을 채워 넣는 립싱크 영상 합성 모델, 정규 분포를 따르는 난수를 입력 받아 영상 또는 음성 등 특정한 패턴을 가진 데이터를 생성하는 모델 등)에서도 발생하게 된다.
예를 들어, 텍스트를 입력으로 하여 말하는 음성을 출력하는 음성 합성 모델의 경우, 입력되는 텍스트를 그와는 전혀 다른 유형의 음성 정보로 변환해야 한다. 이때, 입력 데이터인 텍스트는 출력 데이터인 음성에 비하여 상대적으로 단순하고 정보의 양이 적다. 즉, 텍스트는 음성 신호의 단순한 패턴과 관련되어 있을 뿐 실제 주파수 성분과 배음 구조 등의 상세한 정보는 포함하고 있지 않기 때문에, 입력 데이터로부터 출력 데이터의 상세한 정보를 재구성하는 것이 어려울 수 있다.
한국등록특허공보 제10-2053242호(2019.12.06)
본 발명의 실시예는 정밀하게 데이터를 복원 또는 재구성할 수 있는 기계 학습을 이용한 데이터 생성 방법 및 이를 수행하기 위한 컴퓨팅 장치를 제공하기 위한 것이다.
개시되는 일 실시예에 따른 컴퓨팅 장치는, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비하며, 기계 학습 모델을 포함하는 컴퓨팅 장치로서, 상기 기계 학습 모델은, 원본 데이터의 일부가 손상 또는 제거된 데이터를 입력 받고, 상기 손상 또는 제거된 데이터 부분을 복원(restoration)하여 출력하는 과제를 주 과제로 수행하도록 학습되고, 원본 데이터를 입력 받고, 입력 받은 원본 데이터를 재건(reconstruction)하여 출력하는 과제를 보조 과제로 수행하도록 학습된다.
상기 기계 학습 모델은, 상기 주 과제의 학습 시 상기 원본 데이터의 일부가 손상 또는 제거된 데이터를 입력으로 하여 제1 특징 벡터를 추출하고, 상기 보조 과제의 학습 시 상기 원본 데이터를 입력으로 하여 제2 특징 벡터를 추출하는 인코더; 및 상기 주 과제의 학습 시 상기 인코더로부터 입력되는 제1 특징 벡터에 기반하여 복원 데이터를 출력하고, 상기 보조 과제의 학습 시 상기 인코더로부터 입력되는 제2 특징 벡터에 기반하여 재건 데이터를 출력하는 디코더를 포함할 수 있다.
상기 주 과제를 위한 기계 학습 모델은 하기의 수학식 1로 표현되고, 상기 주 과제를 수행하기 위한 목적 함수(Lrestoration)는 하기의 수학식 2로 표현될 수 있다.
(수학식 1)
(수학식 2)
X : 원본 데이터
Y : 원본 데이터에서 일부가 손상 또는 제거된 데이터
: 복원 데이터
E : 인코더를 구성하는 신경망
α : 인코더를 구성하는 신경망의 가중치
D : 디코더를 구성하는 신경망
β : 디코더를 구성하는 신경망의 가중치
상기 보조 과제를 위한 기계 학습 모델은 하기의 수학식 3으로 표현되고, 상기 보조 과제를 수행하기 위한 목적 함수(Lreconstruction)는 하기의 수학식 4로 표현될 수 있다.
(수학식 3)
(수학식 4)
: 재건 데이터
상기 주 과제 및 상기 보조 과제를 모두 수행하기 위한 상기 기계 학습 모델의 최적화된 가중치(α*, β*)는 하기의 수학식 5를 통해 표현될 수 있다.
(수학식 5)
λ : 주 과제의 목적 함수와 보조 과제의 목적 함수 간의 비중에 대한 가중치
상기 기계 학습 모델은, 상기 주 과제의 목적 함수 및 상기 보조 과제의 목적 함수의 합이 최소가 되도록 상기 주 과제 및 상기 보조 과제의 학습 횟수의 비율을 조절할 수 있다.
개시되는 다른 실시예에 따른 컴퓨팅 장치는, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비하며, 기계 학습 모델을 포함하는 컴퓨팅 장치로서, 상기 기계 학습 모델은, 제1 타입의 데이터를 입력 받고, 상기 제1 타입의 데이터를 상기 제1 타입과는 다른 타입인 제2 타입의 데이터로 변환(transformation)하여 출력하는 과제를 주 과제로 수행하도록 학습되고, 상기 주 과제에서 출력하는 타입과 동일한 타입인 제2 타입의 데이터를 입력 받고, 입력 받은 제2 타입의 데이터를 재건(reconstruction)하여 출력하는 과제를 보조 과제로 수행하도록 학습된다.
상기 기계 학습 모델은, 상기 주 과제의 학습 시 상기 제1 타입의 데이터를 입력으로 하여 제1 특징 벡터를 추출하는 제1 인코더; 상기 보조 과제의 학습 시 상기 제2 타입의 데이터를 입력으로 하여 제2 특징 벡터를 추출하는 제2 인코더; 및 상기 주 과제의 학습 시 상기 제1 인코더로부터 입력되는 제1 특징 벡터에 기반하여 변환 데이터를 출력하고, 상기 보조 과제의 학습 시 상기 제2 인코더로부터 입력되는 제2 특징 벡터에 기반하여 재건 데이터를 출력하는 디코더를 포함할 수 있다.
상기 주 과제를 위한 기계 학습 모델은 하기의 수학식 6으로 표현되고, 상기 주 과제를 수행하기 위한 목적 함수(Ltransformation)는 하기의 수학식 7로 표현될 수 있다.
(수학식 6)
(수학식 7)
X : 제2 타입의 데이터
Y : 제1 타입의 데이터
: 변환 데이터
E1 : 제1 인코더를 구성하는 신경망
α : 제1 인코더를 구성하는 신경망의 가중치
D : 디코더를 구성하는 신경망
β : 디코더를 구성하는 신경망의 가중치
상기 보조 과제를 위한 기계 학습 모델은 하기의 수학식 8로 표현되고, 상기 보조 과제를 수행하기 위한 목적 함수(Lreconstruction)는 하기의 수학식 9로 표현될 수 있다.
(수학식 8)
(수학식 9)
E2 : 제2 인코더를 구성하는 신경망
γ : 제2 인코더를 구성하는 신경망의 가중치
: 재건 데이터
상기 주 과제 및 상기 보조 과제를 모두 수행하기 위한 상기 기계 학습 모델의 최적화된 가중치(α*, β*, γ*)는 다음의 수학식 10을 통해 표현될 수 있다.
(수학식 10)
λ : 주 과제의 목적 함수와 보조 과제의 목적 함수 간의 비중에 대한 가중치
상기 기계 학습 모델은, 상기 주 과제의 목적 함수 및 상기 보조 과제의 목적 함수의 합이 최소가 되도록 상기 주 과제 및 상기 보조 과제의 학습 횟수의 비율을 조절할 수 있다.
개시되는 일 실시예에 따른 기계 학습을 이용한 데이터 생성 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 기계 학습 모델에서, 원본 데이터의 일부가 손상 또는 제거된 데이터를 입력 받고, 상기 손상 또는 제거된 데이터 부분을 복원(restoration)하여 출력하는 과제를 주 과제로 학습하는 동작; 및 상기 기계 학습 모델에서, 원본 데이터를 입력 받고, 입력 받은 원본 데이터를 재건(reconstruction)하여 출력하는 과제를 보조 과제로 학습하는 동작을 포함한다.
개시되는 다른 실시예에 따른 기계 학습을 이용한 데이터 생성 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 기계 학습 모델에서, 제1 타입의 데이터를 입력 받고, 상기 제1 타입의 데이터를 상기 제1 타입과는 다른 타입인 제2 타입의 데이터로 변환(transformation)하여 출력하는 과제를 주 과제로 학습하는 동작; 및 상기 기계 학습 모델에서, 상기 주 과제에서 출력하는 타입과 동일한 타입인 제2 타입의 데이터를 입력 받고, 입력 받은 제2 타입의 데이터를 재건(reconstruction)하여 출력하는 과제를 보조 과제로 학습하는 동작을 포함한다.
개시되는 실시예에 의하면, 데이터의 일부가 손상 또는 제거된 데이터를 입력 받고 입력된 데이터에서 손상 또는 제거된 데이터 부분을 복원(restoration)하는 과제를 주 과제로 하는 기계 학습 모델에서 원본 데이터를 입력으로 하고, 입력된 원본 데이터를 동일한 형태로 다시 재건(reconstruction)하여 출력하는 보조 과제를 추가로 수행하도록 함으로써, 기계 학습 모델을 구성하는 신경망의 가중치들이 데이터의 손상 또는 제거된 부분에 대해서도 보조 과제에서는 정방향 연산을 수행하게 되므로, 주 과제만 수행하는 것에 비하여 보다 효과적인 학습이 이루어지게 된다.
또한, 제1 타입의 데이터를 입력 받아 제2 타입의 데이터로 변환(transformation)하여 출력하는 과제를 주 과제 하는 기계 학습 모델에서 제2 타입의 데이터를 입력 받고, 입력된 제2 타입의 데이터와 동일한 형태로 재건(reconstruction)하여 출력하는 보조 과제를 추가로 수행하도록 함으로써, 제2 타입의 데이터에 대해서도 정방향 연산을 수행하여 해당 신경망의 가중치를 조절하도록 할 수 있으며, 그로 인해 주 과제의 수행만으로는 재현이 어려운 상세한 부분까지 세밀하게 변환할 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 데이터 생성 장치를 개략적으로 나타낸 도면
도 2는 본 발명의 일 실시예에 따른 데이터 생성 장치의 주 과제 및 보조 과제를 수행하기 위한 신경망을 개략적으로 나타낸 도면
도 3은 본 발명의 다른 실시예에 따른 데이터 생성 장치를 개략적으로 나타낸 도면
도 4는 본 발명의 다른 실시예에 따른 데이터 생성 장치의 주 과제 및 보조 과제를 수행하기 위한 신경망을 개략적으로 나타낸 도면
도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
도 1은 본 발명의 일 실시예에 따른 데이터 생성 장치를 개략적으로 나타낸 도면이다.
도 1을 참조하면, 데이터 생성 장치(100)는 기계 학습 모델(100a)을 포함한다. 기계 학습 모델(100a)은 원본 데이터의 일부가 손상 또는 제거된 데이터를 입력 받고, 입력된 데이터에서 손상 또는 제거된 데이터 부분을 복원하도록 학습된다. 이때, 기계 학습 모델(100a)은 기계 학습 모델(100a)이 복원한 데이터(복원 데이터)와 원본 데이터 간의 차이가 최소화 되도록 학습될 수 있다.
기계 학습 모델(100a)은 데이터의 일부가 손상 또는 제거된 데이터를 입력 받고 입력된 데이터에서 손상 또는 제거된 데이터 부분을 복원(restoration)하는 과제를 주 과제(main task)로 수행할 수 있다. 또한, 기계 학습 모델(100a)은 주 과제 이외에 보조 과제(auxiliary task)를 수행할 수 있다. 기계 학습 모델(100a)은 원본 데이터를 입력으로 하고, 입력된 원본 데이터를 동일한 형태로 다시 재건(reconstruction)하여 출력하는 과제를 보조 과제로 수행할 수 있다. 즉, 기계 학습 모델(100a)은 오토 인코딩(autoencoding) 과제를 보조 과제로 수행할 수 있다.
다시 말하면, 기계 학습 모델(100a)은 원본 데이터의 일부가 손상 또는 제거된 데이터를 입력 받고 입력된 데이터에서 손상 또는 제거된 데이터 부분을 복원하는 주 과제를 수행하고, 원본 데이터를 입력 받고 입력된 원본 데이터를 다시 재건하여 출력하는 보조 과제를 수행하도록 학습될 수 있다.
이 경우, 기계 학습 모델(100a)은 주 과제를 학습할 때 기계 학습 모델(100a)에서 출력하는 복원 데이터와 원본 데이터 간의 오차를 해당 신경망에서 역전파(back propagation)를 통해 가중치들을 학습하게 된다. 즉, 기계 학습 모델(100a)이 주 과제를 학습하는 경우, 원본 데이터의 일부가 손상 또는 제거된 부분을 복원할 때, 복원 데이터와 원본 데이터 간의 오차를 역전파를 통해 학습하여 신경망의 가중치들을 조절하게 된다.
한편, 기계 학습 모델(100a)이 보조 과제를 수행하는 경우, 원본 데이터 자체를 입력 데이터로 하여 원본 데이터와 동일한 형태의 재건 데이터를 출력하게 된다. 이때, 신경망의 가중치들이 주 과제에서는 손상 또는 제거된 부분에 대해서도 보조 과제에서는 정방향 연산을 수행하게 되므로, 주 과제만 수행하는 것에 비하여 보조 과제를 추가로 수행하는 경우가 보다 효과적인 학습이 이루어지게 된다.
즉, 주 과제에서 손상 또는 제거된 부분이 보조 과제에서는 입력 데이터에 포함된 상태로 입력(원본 데이터 자체가 입력)되므로, 보조 과제에서 주 과제 시 손상 또는 제거된 부분에 대해서도 특징을 추출하는 과정(정방향 연산)이 이루어지게 되고 이 과정을 통해 신경망의 가중치가 학습되므로, 주 과제에 의한 역전파를 통해서만 신경망의 가중치를 학습하는 것보다 효과적인 학습이 이루어지게 된다. 그로 인해 주 과제에 의한 학습만으로는 복원이 어려웠던 손상 또는 제거된 부분도 정밀하게 복원할 수 있게 된다.
예를 들어, 하관이 가려진 얼굴 영상에서 하관이 가려진 부분을 복원하는 주 과제를 기계 학습 모델(100a)이 학습하는 경우, 기계 학습 모델(100a)은 입력된 얼굴 영상에서 하관이 가려진 부분(입, 턱 등)의 영상 특징을 추출하지 못한 상태에서 해당 부분의 형태와 색상 등을 채워 넣도록 시도하여 복원 영상을 출력하게 된다. 그리고, 기계 학습 모델(100a)은 복원 영상과 원본 영상의 오차에 대해 역전파를 통해 신경망의 가중치를 학습하게 된다.
이때, 기계 학습 모델(100a)이 하관이 가려지지 않은 동일한 얼굴 영상을 입력 받고, 입력된 얼굴 영상에서 영상 특징을 추출(주 과제에서 하관이 가려진 부분도 영상 특징을 추출하게 됨)한 후, 입력 영상을 재건한 재건 영상을 출력하는 보조 과제를 추가로 수행하도록 하면, 하관이 가려진 부분에 대해서도 영상 특징을 추출하는 정방향 연산이 이루어지게 되는 바, 주 과제를 통해 수행하고자 하였던 목적(즉, 하관이 가려진 부분을 복원하는 목적)을 보다 효과적으로 수행할 수 있게 된다.
도 2는 본 발명의 일 실시예에 따른 데이터 생성 장치의 주 과제 및 보조 과제를 수행하기 위한 신경망을 개략적으로 나타낸 도면이다.
도 2를 참조하면, 기계 학습 모델(100a)은 인코더(102) 및 디코더(104)를 포함할 수 있다. 예시적인 실시예에서, 기계 학습 모델(100a)은 합성곱 신경망 (Convolutional Neural Network : CNN) 기반의 기계 학습 모델일 수 있으나, 이에 한정되는 것은 아니며 수행하고자 하는 과제에 따라 그 이외의 다양한 신경망으로 구현될 수 있다.
인코더(102)는 주 과제의 학습 시 원본 데이터에서 일부가 손상 또는 제거된 데이터(이하, 손상 데이터라 지칭할 수 있음)를 입력으로 하여 제1 특징 벡터를 추출할 수 있다. 또한, 인코더(102)는 보조 과제의 학습 시 원본 데이터를 입력으로 하여 제2 특징 벡터를 추출할 수 있다.
디코더(104)는 주 과제의 학습 시 인코더(102)로부터 입력되는 제1 특징 벡터에 기반하여 복원 데이터를 출력할 수 있다. 또한, 디코더(104)는 보조 과제의 학습 시 인코더(102)로부터 입력되는 제2 특징 벡터에 기반하여 재건 데이터를 출력할 수 있다.
여기서, 주 과제를 위한 기계 학습 모델(100a)은 하기의 수학식 1을 통해 나타낼 수 있다.
(수학식 1)
X : 원본 데이터
Y : 원본 데이터에서 일부가 손상 또는 제거된 데이터(손상 데이터)
: 복원 데이터
E : 인코더를 구성하는 신경망
α : 인코더를 구성하는 신경망의 가중치
D : 디코더를 구성하는 신경망
β : 디코더를 구성하는 신경망의 가중치
그리고, 기계 학습 모델(100a)의 주 과제를 수행하기 위한 목적 함수(Lrestoration)는 하기의 수학식 2를 통해 나타낼 수 있다.
(수학식 2)
수학식 2에서, 함수는 A와 B의 차이를 구하는 함수(예를 들어, A와 B의 유클리디안 거리(L2 distance) 또는 맨하튼 거리(L1 distance)를 구하는 함수 등)를 나타낸다.
또한, 보조 과제를 위한 기계 학습 모델(100a)은 하기의 수학식 3을 통해 나타낼 수 있다.
(수학식 3)
: 재건 데이터
그리고, 기계 학습 모델(100a)의 보조 과제를 수행하기 위한 목적 함수(Lreconstruction)는 하기의 수학식 4를 통해 나타낼 수 있다.
(수학식 4)
한편, 주 과제 및 보조 과제를 모두 수행하기 위한 기계 학습 모델(100a)의 최적화된 가중치(α**)는 다음의 수학식 5를 통해 나타낼 수 있다.
(수학식 5)
λ : 주 과제의 목적 함수와 보조 과제의 목적 함수 간의 비중에 대한 가중치
여기서, argminα,β()는 ()를 최소화하는 α, β를 찾는 함수를 나타낸다. 한편, 기계 학습 모델(100a)은 주 과제에 더하여 보조 과제를 동시에 수행할 수도 있고, 주 과제와 보조 과제를 번갈아 가면서 수행할 수도 있다. 수학식 5에서 λ는 주 과제 및 보조 과제의 학습 횟수의 비율로 대체할 수 있다. 즉, 기계 학습 모델(100a)은 주 과제의 목적 함수 및 보조 과제의 목적 함수의 합이 최소가 되도록 주 과제 및 보조 과제의 학습 횟수의 비율을 조절할 수 있다.
도 3은 본 발명의 다른 실시예에 따른 데이터 생성 장치를 개략적으로 나타낸 도면이다.
도 3을 참조하면, 데이터 생성 장치(200)는 기계 학습 모델(200a)을 포함한다. 기계 학습 모델(200a)은 제1 타입의 데이터를 입력 받고, 입력된 제1 타입의 데이터로부터 제1 타입과는 다른 타입인 제2 타입의 데이터를 생성하도록 학습된다. 즉, 기계 학습 모델(200a)은 제1 타입의 데이터를 제2 타입의 데이터로 변환하여 출력하도록 학습될 수 있다. 이때, 기계 학습 모델(200a)은 기계 학습 모델(200a)이 변환한 데이터(변환 데이터)와 원본 데이터(즉, 제2 타입의 원본 데이터) 간의 차이가 최소화 되도록 학습될 수 있다.
기계 학습 모델(200a)은 제1 타입의 데이터를 입력 받아 제2 타입의 데이터로 변환(transformation)하여 출력하는 과제를 주 과제(main task)로 수행할 수 있다. 또한, 기계 학습 모델(200a)은 제2 타입의 데이터(즉, 주 과제에서 출력하는 타입과 동일한 타입의 데이터)를 입력 받고, 입력된 제2 타입의 데이터와 동일한 형태로 다시 재건(reconstruction)하여 출력하는 과제를 보조 과제로 수행할 수 있다.
여기서, 기계 학습 모델(200a)이 주 과제를 학습할 때 변환 데이터와 원본 데이터 간의 오차를 역전파를 통해 학습하여 신경망의 가중치들을 조절하게 되나, 출력 데이터의 형태인 제2 타입의 데이터에 대해서는 정방향 연산이 이루어지지 않은 상태이게 된다.
이에 개시되는 실시예에서는, 기계 학습 모델(200a)이 보조 과제를 추가로 수행하도록 함으로써, 제2 타입의 데이터에 대해서도 정방향 연산을 수행하여 해당 신경망의 가중치를 조절하도록 할 수 있으며, 그로 인해 주 과제의 수행만으로는 재현이 어려운 상세한 부분까지 세밀하게 변환할 수 있게 된다.
예를 들어, 기계 학습 모델(200a)이 음성 신호를 입력으로 하여 얼굴 영상의 발화와 관련된 부분을 생성하는 과제를 주 과제로 수행하는 경우, 기계 학습 모델(200a)은 입 부분의 영상 패턴에 대한 특징을 추출하지 못한 상태에서 해당 부분의 형태와 색상 등을 채워 넣도록 시도하여 복원 영상을 출력하게 된다.
여기서, 기계 학습 모델(200a)이 발화와 관련된 부분이 온전한 얼굴 영상을 입력 받고, 입력된 얼굴 영상에서 영상 특징을 추출(입 부분에 대해서도 영상 특징을 추출하게 됨)한 후, 얼굴 영상을 재건한 재건 영상을 출력하는 보조 과제를 추가로 수행하게 되면, 발화와 관련된 부분에 대해서도 영상 특징을 추출하는 정방향 연산이 이루어지고 신경망의 가중치들이 학습되게 되는 바, 주 과제를 통해 수행하고자 하였던 목적을 보다 효과적으로 수행할 수 있게 된다.
도 4는 본 발명의 다른 실시예에 따른 데이터 생성 장치의 주 과제 및 보조 과제를 수행하기 위한 신경망을 개략적으로 나타낸 도면이다.
도 4를 참조하면, 기계 학습 모델(200a)은 제1 인코더(202), 제2 인코더(204), 및 디코더(206)를 포함할 수 있다. 예시적인 실시예에서, 기계 학습 모델(200a)은 합성곱 신경망 (Convolutional Neural Network : CNN) 기반의 기계 학습 모델일 수 있으나, 이에 한정되는 것은 아니며 수행하고자 하는 과제에 따라 그 이외의 다양한 신경망으로 구현될 수 있다.
제1 인코더(202)는 주 과제의 학습 시 제1 타입의 데이터를 입력으로 하여 제1 특징 벡터를 추출할 수 있다. 제2 인코더(204)는 보조 과제의 학습 시 제2 타입의 데이터를 입력으로 하여 제2 특징 벡터를 추출할 수 있다.
디코더(206)는 주 과제의 학습 시 제1 인코더(202)로부터 입력되는 제1 특징 벡터에 기반하여 제2 타입의 데이터(변환 데이터)를 출력할 수 있다. 또한, 디코더(206)는 보조 과제의 학습 시 제2 인코더(204)로부터 입력되는 제2 특징 벡터에 기반하여 제2 타입의 데이터(재건 데이터)를 출력할 수 있다.
여기서, 주 과제를 위한 기계 학습 모델(200a)은 하기의 수학식 6을 통해 나타낼 수 있다.
(수학식 6)
X : 제2 타입의 데이터
Y : 제1 타입의 데이터
: 변환 데이터
E1 : 제1 인코더를 구성하는 신경망
α : 제1 인코더를 구성하는 신경망의 가중치
D : 디코더를 구성하는 신경망
β : 디코더를 구성하는 신경망의 가중치
그리고, 기계 학습 모델(200a)의 주 과제를 수행하기 위한 목적 함수(Ltransformation)는 하기의 수학식 7을 통해 나타낼 수 있다.
(수학식 7)
또한, 보조 과제를 위한 기계 학습 모델(200a)은 하기의 수학식 8을 통해 나타낼 수 있다.
(수학식 8)
E2 : 제2 인코더를 구성하는 신경망
γ : 제2 인코더를 구성하는 신경망의 가중치
: 재건 데이터
그리고, 기계 학습 모델(200a)의 보조 과제를 수행하기 위한 목적 함수(Lreconstruction)는 하기의 수학식 9를 통해 나타낼 수 있다.
(수학식 9)
한편, 주 과제 및 보조 과제를 모두 수행하기 위한 기계 학습 모델(200a)의 최적화된 가중치(α***)는 다음의 수학식 10을 통해 나타낼 수 있다.
(수학식 10)
λ : 주 과제의 목적 함수와 보조 과제의 목적 함수 간의 비중에 대한 가중치
여기서, argminα,β,γ()는 ()를 최소화하는 α, β, γ를 찾는 함수를 나타낸다. 한편, 기계 학습 모델(200a)은 주 과제에 더하여 보조 과제를 동시에 수행할 수도 있고, 주 과제와 보조 과제를 번갈아 가면서 수행할 수도 있다. 수학식 10에서 λ는 주 과제 및 보조 과제의 학습 횟수의 비율로 대체할 수 있다. 즉, 기계 학습 모델(200a)은 주 과제의 목적 함수 및 보조 과제의 목적 함수의 합이 최소가 되도록 주 과제 및 보조 과제의 학습 횟수의 비율을 조절할 수 있다.
도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 데이터 생성 장치(100, 200)일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100, 200 : 데이터 생성 장치
100a, 200a : 기계 학습 모델
102 : 인코더
104 : 디코더
202 : 제1 인코더
204 : 제2 인코더
206 : 디코더

Claims (14)

  1. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비하며, 기계 학습 모델을 포함하는 컴퓨팅 장치로서,
    상기 기계 학습 모델은,
    원본 데이터의 일부가 손상 또는 제거된 데이터를 입력 받고, 상기 손상 또는 제거된 데이터 부분을 복원(restoration)하여 출력하는 과제를 주 과제로 수행하도록 학습되고,
    원본 데이터를 입력 받고, 입력 받은 원본 데이터를 재건(reconstruction)하여 출력하는 과제를 보조 과제로 수행하도록 학습되고,
    상기 기계 학습 모델은,
    상기 주 과제의 학습 시 상기 원본 데이터의 일부가 손상 또는 제거된 데이터를 입력으로 하여 제1 특징 벡터를 추출하고, 상기 보조 과제의 학습 시 상기 원본 데이터를 입력으로 하여 제2 특징 벡터를 추출하는 인코더; 및
    상기 주 과제의 학습 시 상기 인코더로부터 입력되는 제1 특징 벡터에 기반하여 복원 데이터를 출력하고, 상기 보조 과제의 학습 시 상기 인코더로부터 입력되는 제2 특징 벡터에 기반하여 재건 데이터를 출력하는 디코더를 포함하는, 컴퓨팅 장치.
  2. 삭제
  3. 청구항 1에 있어서,
    상기 주 과제를 위한 기계 학습 모델은 하기의 수학식 1로 표현되고, 상기 주 과제를 수행하기 위한 목적 함수(Lrestoration)는 하기의 수학식 2로 표현되는, 컴퓨팅 장치.
    (수학식 1)

    (수학식 2)

    X : 원본 데이터
    Y : 원본 데이터에서 일부가 손상 또는 제거된 데이터
    : 복원 데이터
    E : 인코더를 구성하는 신경망
    α : 인코더를 구성하는 신경망의 가중치
    D : 디코더를 구성하는 신경망
    β : 디코더를 구성하는 신경망의 가중치
  4. 청구항 3에 있어서,
    상기 보조 과제를 위한 기계 학습 모델은 하기의 수학식 3으로 표현되고, 상기 보조 과제를 수행하기 위한 목적 함수(Lreconstruction)는 하기의 수학식 4로 표현되는, 컴퓨팅 장치.
    (수학식 3)

    (수학식 4)

    : 재건 데이터
  5. 청구항 4에 있어서,
    상기 주 과제 및 상기 보조 과제를 모두 수행하기 위한 상기 기계 학습 모델의 최적화된 가중치(α*, β*)는 하기의 수학식 5를 통해 표현되는, 컴퓨팅 장치.
    (수학식 5)
    λ : 주 과제의 목적 함수와 보조 과제의 목적 함수 간의 비중에 대한 가중치
  6. 청구항 4에 있어서,
    상기 기계 학습 모델은,
    상기 주 과제의 목적 함수 및 상기 보조 과제의 목적 함수의 합이 최소가 되도록 상기 주 과제 및 상기 보조 과제의 학습 횟수의 비율을 조절하는, 컴퓨팅 장치.
  7. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비하며, 기계 학습 모델을 포함하는 컴퓨팅 장치로서,
    상기 기계 학습 모델은,
    제1 타입의 데이터를 입력 받고, 상기 제1 타입의 데이터를 상기 제1 타입과는 다른 타입인 제2 타입의 데이터로 변환(transformation)하여 출력하는 과제를 주 과제로 수행하도록 학습되고,
    상기 제2 타입의 데이터를 입력 받고, 입력 받은 제2 타입의 데이터를 재건(reconstruction)하여 출력하는 과제를 보조 과제로 수행하도록 학습되고,
    상기 기계 학습 모델은,
    상기 주 과제의 학습 시 상기 제1 타입의 데이터를 입력으로 하여 제1 특징 벡터를 추출하는 제1 인코더;
    상기 보조 과제의 학습 시 상기 제2 타입의 데이터를 입력으로 하여 제2 특징 벡터를 추출하는 제2 인코더; 및
    상기 주 과제의 학습 시 상기 제1 인코더로부터 입력되는 제1 특징 벡터에 기반하여 변환 데이터를 출력하고, 상기 보조 과제의 학습 시 상기 제2 인코더로부터 입력되는 제2 특징 벡터에 기반하여 재건 데이터를 출력하는 디코더를 포함하는, 컴퓨팅 장치.
  8. 삭제
  9. 청구항 7에 있어서,
    상기 주 과제를 위한 기계 학습 모델은 하기의 수학식 6으로 표현되고, 상기 주 과제를 수행하기 위한 목적 함수(Ltransformation)는 하기의 수학식 7로 표현되는, 컴퓨팅 장치.
    (수학식 6)

    (수학식 7)

    X : 제2 타입의 데이터
    Y : 제1 타입의 데이터
    : 변환 데이터
    E1 : 제1 인코더를 구성하는 신경망
    α : 제1 인코더를 구성하는 신경망의 가중치
    D : 디코더를 구성하는 신경망
    β : 디코더를 구성하는 신경망의 가중치
  10. 청구항 9에 있어서,
    상기 보조 과제를 위한 기계 학습 모델은 하기의 수학식 8로 표현되고, 상기 보조 과제를 수행하기 위한 목적 함수(Lreconstruction)는 하기의 수학식 9로 표현되는, 컴퓨팅 장치.
    (수학식 8)

    (수학식 9)

    E2 : 제2 인코더를 구성하는 신경망
    γ : 제2 인코더를 구성하는 신경망의 가중치
    : 재건 데이터
  11. 청구항 10에 있어서,
    상기 주 과제 및 상기 보조 과제를 모두 수행하기 위한 상기 기계 학습 모델의 최적화된 가중치(α*, β*, γ*)는 다음의 수학식 10을 통해 표현되는, 컴퓨팅 장치.
    (수학식 10)
    λ : 주 과제의 목적 함수와 보조 과제의 목적 함수 간의 비중에 대한 가중치
  12. 청구항 10에 있어서,
    상기 기계 학습 모델은,
    상기 주 과제의 목적 함수 및 상기 보조 과제의 목적 함수의 합이 최소가 되도록 상기 주 과제 및 상기 보조 과제의 학습 횟수의 비율을 조절하는, 컴퓨팅 장치.
  13. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
    기계 학습 모델에서, 원본 데이터의 일부가 손상 또는 제거된 데이터를 입력 받고, 상기 손상 또는 제거된 데이터 부분을 복원(restoration)하여 출력하는 과제를 주 과제로 학습하는 동작; 및
    상기 기계 학습 모델에서, 원본 데이터를 입력 받고, 입력 받은 원본 데이터를 재건(reconstruction)하여 출력하는 과제를 보조 과제로 학습하는 동작을 포함하고,
    상기 기계 학습 모델은,
    상기 주 과제의 학습 시 상기 원본 데이터의 일부가 손상 또는 제거된 데이터를 입력으로 하여 제1 특징 벡터를 추출하고, 상기 보조 과제의 학습 시 상기 원본 데이터를 입력으로 하여 제2 특징 벡터를 추출하는 인코더; 및
    상기 주 과제의 학습 시 상기 인코더로부터 입력되는 제1 특징 벡터에 기반하여 복원 데이터를 출력하고, 상기 보조 과제의 학습 시 상기 인코더로부터 입력되는 제2 특징 벡터에 기반하여 재건 데이터를 출력하는 디코더를 포함하는, 기계 학습을 이용한 데이터 생성 방법.
  14. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
    기계 학습 모델에서, 제1 타입의 데이터를 입력 받고, 상기 제1 타입의 데이터를 상기 제1 타입과는 다른 타입인 제2 타입의 데이터로 변환(transformation)하여 출력하는 과제를 주 과제로 학습하는 동작; 및
    상기 기계 학습 모델에서, 상기 제2 타입의 데이터를 입력 받고, 입력 받은 제2 타입의 데이터를 재건(reconstruction)하여 출력하는 과제를 보조 과제로 학습하는 동작을 포함하고,
    상기 기계 학습 모델은,
    상기 주 과제의 학습 시 상기 제1 타입의 데이터를 입력으로 하여 제1 특징 벡터를 추출하는 제1 인코더;
    상기 보조 과제의 학습 시 상기 제2 타입의 데이터를 입력으로 하여 제2 특징 벡터를 추출하는 제2 인코더; 및
    상기 주 과제의 학습 시 상기 제1 인코더로부터 입력되는 제1 특징 벡터에 기반하여 변환 데이터를 출력하고, 상기 보조 과제의 학습 시 상기 제2 인코더로부터 입력되는 제2 특징 벡터에 기반하여 재건 데이터를 출력하는 디코더를 포함하는, 기계 학습을 이용한 데이터 생성 방법.
KR1020210055549A 2021-04-29 2021-04-29 기계 학습을 이용한 데이터 생성 방법 및 이를 수행하기 위한 컴퓨팅 장치 KR102593489B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210055549A KR102593489B1 (ko) 2021-04-29 2021-04-29 기계 학습을 이용한 데이터 생성 방법 및 이를 수행하기 위한 컴퓨팅 장치
PCT/KR2021/007631 WO2022231061A1 (ko) 2021-04-29 2021-06-17 기계 학습을 이용한 데이터 생성 방법 및 이를 수행하기 위한 컴퓨팅 장치
US17/764,265 US20240046141A1 (en) 2021-04-29 2021-06-17 Method for generating data using machine learning and computing device for executing the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210055549A KR102593489B1 (ko) 2021-04-29 2021-04-29 기계 학습을 이용한 데이터 생성 방법 및 이를 수행하기 위한 컴퓨팅 장치

Publications (2)

Publication Number Publication Date
KR20220148470A KR20220148470A (ko) 2022-11-07
KR102593489B1 true KR102593489B1 (ko) 2023-10-24

Family

ID=83848593

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210055549A KR102593489B1 (ko) 2021-04-29 2021-04-29 기계 학습을 이용한 데이터 생성 방법 및 이를 수행하기 위한 컴퓨팅 장치

Country Status (3)

Country Link
US (1) US20240046141A1 (ko)
KR (1) KR102593489B1 (ko)
WO (1) WO2022231061A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150030237A1 (en) 2013-07-24 2015-01-29 Microsoft Corporation Image restoration cascade
JP6622505B2 (ja) 2015-08-04 2019-12-18 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
CN111292265A (zh) 2020-01-22 2020-06-16 东华大学 一种基于生成式对抗神经网络的图像修复方法
KR102132690B1 (ko) 2019-01-30 2020-07-13 인천대학교 산학협력단 초고해상도 영상 복원 시스템
KR102154424B1 (ko) 2019-01-18 2020-09-10 한국항공대학교산학협력단 개선된 영상 압축 시스템 및 방법
KR102212442B1 (ko) 2018-12-13 2021-02-04 주식회사 픽스트리 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102053242B1 (ko) 2017-04-26 2019-12-06 강현인 압축 파라미터를 이용한 영상 복원용 머신러닝 알고리즘 및 이를 이용한 영상 복원방법
KR102312337B1 (ko) * 2018-10-19 2021-10-14 삼성전자주식회사 Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법
KR102525181B1 (ko) * 2019-03-06 2023-04-25 한국전자통신연구원 이미지 수정 시스템 및 이의 이미지 수정 방법
KR20220111390A (ko) * 2021-02-02 2022-08-09 주식회사 딥브레인에이아이 영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법
KR20220111388A (ko) * 2021-02-02 2022-08-09 주식회사 딥브레인에이아이 영상 품질을 향상시킬 수 있는 영상 합성 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150030237A1 (en) 2013-07-24 2015-01-29 Microsoft Corporation Image restoration cascade
JP6622505B2 (ja) 2015-08-04 2019-12-18 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
KR102212442B1 (ko) 2018-12-13 2021-02-04 주식회사 픽스트리 기계 학습 기반으로 파라미터를 학습하는 영상 처리 장치 및 동작 방법
KR102154424B1 (ko) 2019-01-18 2020-09-10 한국항공대학교산학협력단 개선된 영상 압축 시스템 및 방법
KR102132690B1 (ko) 2019-01-30 2020-07-13 인천대학교 산학협력단 초고해상도 영상 복원 시스템
CN111292265A (zh) 2020-01-22 2020-06-16 东华大学 一种基于生成式对抗神经网络的图像修复方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Kai Yi et al. "Cosmo VAE: Variational Autoencoder for CMB Image Inpainting" 2020 International Joint Conference on Neural Networks (IJCNN). Date of Conference: 19-24 July 2020.
Ken Deng et al. "Real-Time Limited-View CT Inpainting and Reconstruction with Dual Domain Based on Spatial Information". arXiv:2101.07594 Tue, 19 Jan 2021.
QIANG Zhenping et al. "Image Inpainting Based on Improved Deep Convolutional Auto-encoder Network". Chinese Journal of Electronics Vol.29, No.6, Nov. 2020
Ya’nan Zhou et al. "Superpixel-based time-series reconstruction for optical images incorporating SAR data using autoencoder networks" . GISCIENCE & REMOTE SENSING 2020, VOL. 57, NO. 8, 1005-1025

Also Published As

Publication number Publication date
US20240046141A1 (en) 2024-02-08
WO2022231061A1 (ko) 2022-11-03
KR20220148470A (ko) 2022-11-07

Similar Documents

Publication Publication Date Title
KR102360839B1 (ko) 머신 러닝 기반의 발화 동영상 생성 방법 및 장치
KR102287407B1 (ko) 이미지 생성을 위한 학습 장치 및 방법과 이미지 생성 장치 및 방법
US20220358703A1 (en) Method and device for generating speech video on basis of machine learning
US20220375190A1 (en) Device and method for generating speech video
KR102540763B1 (ko) 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치
US11972516B2 (en) Method and device for generating speech video by using text
KR102437039B1 (ko) 영상 생성을 위한 학습 장치 및 방법
US20220399025A1 (en) Method and device for generating speech video using audio signal
US20230177663A1 (en) Device and method for synthesizing image capable of improving image quality
US20220375224A1 (en) Device and method for generating speech video along with landmark
CN110084250B (zh) 一种图像描述的方法及系统
KR20220011100A (ko) 얼굴 이미지 검색을 통한 가상 인물 생성 시스템 및 방법
US20230177664A1 (en) Device and method for synthesizing image capable of improving image quality
KR102399255B1 (ko) 인공지능을 이용한 웹툰 제작 시스템 및 방법
KR102593489B1 (ko) 기계 학습을 이용한 데이터 생성 방법 및 이를 수행하기 위한 컴퓨팅 장치
KR102360840B1 (ko) 텍스트를 이용한 발화 동영상 생성 방법 및 장치
JP2023169230A (ja) コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法
US20220415085A1 (en) Method of machine learning and facial expression recognition apparatus
CN113077383B (zh) 一种模型训练方法及模型训练装置
US20220343651A1 (en) Method and device for generating speech image
CN114373033A (zh) 图像处理方法、装置、设备、存储介质及计算机程序
KR102584484B1 (ko) 발화 합성 영상 생성 장치 및 방법
KR102540756B1 (ko) 발화 합성 영상 생성 장치 및 방법
KR102584485B1 (ko) 발화 합성 영상 생성 장치 및 방법
KR20220003389A (ko) 신경망 기반의 특징점 학습 장치 및 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant