KR20230038164A - 신경망 기반의 특징점 학습 장치 및 방법 - Google Patents
신경망 기반의 특징점 학습 장치 및 방법 Download PDFInfo
- Publication number
- KR20230038164A KR20230038164A KR1020230030183A KR20230030183A KR20230038164A KR 20230038164 A KR20230038164 A KR 20230038164A KR 1020230030183 A KR1020230030183 A KR 1020230030183A KR 20230030183 A KR20230030183 A KR 20230030183A KR 20230038164 A KR20230038164 A KR 20230038164A
- Authority
- KR
- South Korea
- Prior art keywords
- model
- feature point
- image
- input image
- input
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000006870 function Effects 0.000 claims description 37
- 230000014509 gene expression Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009365 direct transmission Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G06T5/001—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
신경망 기반의 특징점 학습 장치 및 방법이 개시된다. 개시되는 일 실시예에 따른 특징점 학습 장치는, 입력 영상으로부터 키 포인트를 추출하도록 학습되는 특징점 모델 및 특징점 모델에서 출력하는 키 포인트를 입력으로 하여 입력 영상을 복원하도록 학습되는 영상 복원 모델을 포함한다.
Description
본 발명의 실시예는 머신 러닝 기술을 이용한 특징점 학습 기술과 관련된다.
최근, 인공 지능 분야의 기술 발전에 따라 다양한 유형의 콘텐츠가 인공 지능 기술에 기초하여 생성되고 있다. 그 일 예로, 어떤 전달하고자 하는 음성 메시지가 있을 때, 그 음성 메시지를 유명 인물(예를 들어, 대통령 등)이 말하는 것과 같은 발화 동영상을 생성하여 사람들의 주의를 끌고자 하는 경우가 있다. 이는 유명 인물의 영상에서 유명 인물이 특정 메시지를 말하는 것처럼 입 모양 등을 특정 메시지에 맞게 생성하여 구현하게 된다.
종래에는 이러한 립 싱크 얼굴 영상의 합성을 위해 입력되는 영상에서 얼굴 특징점을 추출하고 이를 정답 값과 비교하여 그 차이가 최소화 되도록 학습하는 방법을 사용하였다. 그러나, 영상에서 얼굴 특징점 데이터의 정답 값에는 어노테이션(Annotation) 노이즈가 존재하게 되는 바, 시간에 대한 연속성이 불안정하여 이를 기반으로 립 싱크 얼굴 영상을 합성하면 영상 품질이 저하되는 문제점이 있다.
즉, 영상에서 얼굴 특징점 데이터의 정답 값은 사람이 영상을 보면서 라벨링하여 얻어지는 것으로, 여러 사람이 작업하는 경우 사람마다 기준이 다르고, 동일인이 작업하더라도 영상 프레임마다 대응되는 지점을 찍을 수 없는 등의 이유로 어노테이션(Annotation) 노이즈가 존재할 수 밖에 없게 된다. 기존에는 이렇게 노이즈가 존재하는 정답 값을 이용하여 얼굴 특징점을 예측하게 되는 바, 예측된 얼굴 특징점을 이용하여 얼굴 영상을 합성하는 경우 영상이 흔들리는 등 영상 품질이 저하되게 된다.
본 발명의 실시예는 시간에 대해 연속적이고 안정적인 특징점을 추출할 수 있는 신경망 기반의 특징점 학습 장치 및 방법을 제공하기 위한 것이다.
본 발명의 실시예는 특징점 기반의 영상 복원 시 영상 품질을 높일 수 있는 신경망 기반의 특징점 학습 장치 및 방법을 제공하기 위한 것이다.
개시되는 일 실시예에 따른 신경망 기반의 특징점 학습 장치는, 입력 영상으로부터 키 포인트를 추출하도록 학습되는 특징점 모델; 및 상기 특징점 모델에서 출력하는 키 포인트를 입력으로 하여 상기 입력 영상을 복원하도록 학습되는 영상 복원 모델을 포함한다.
상기 특징점 모델은, 상기 추출되는 키 포인트와 상기 입력 영상에 대해 라벨링 된 키 포인트의 차이가 최소화 되도록 학습되고, 상기 영상 복원 모델은, 상기 복원되는 영상과 상기 입력 영상의 차이가 최소화 되도록 학습될 수 있다.
상기 특징점 모델은, 상기 추출되는 키 포인트와 상기 입력 영상에 대해 라벨링 된 키 포인트의 차이가 최소화 되도록 1차 학습되고, 상기 복원되는 영상과 상기 입력 영상의 차이가 최소화 되게 상기 키 포인트를 추출하도록 2차 학습될 수 있다.
상기 특징점 모델은, 상기 입력 영상으로부터 특징 벡터를 추출하도록 학습되는 추출 모듈; 및 상기 추출 모듈에서 추출된 특징 벡터에 기반하여 상기 입력 영상의 키 포인트 좌표를 예측하도록 학습되는 예측 모듈을 포함하고, 상기 영상 복원 모델은, 상기 특징점 모델에서 출력되는 키 포인트 좌표에 기초하여 상기 입력 영상을 복원하도록 학습될 수 있다.
상기 특징점 모델 및 상기 영상 복원 모델의 최적화된 파라미터는 하기의 수학식을 통해 산출될 수 있다.
(수학식)
K : 입력 영상의 라벨링 된 키 포인트 좌표
G : 특징점 모델을 구성하는 신경망
θ : 특징점 모델의 파라미터
I : 입력 영상
G(I ; θ) : 특징점 모델로부터 예측된 키 포인트 좌표
D : 영상 복원 모델을 구성하는 신경망
α : 특징점 모델의 목적 함수의 가중치
β : 영상 복원 모델의 목적 함수의 가중치
상기 특징점 모델은, 상기 입력 영상으로부터 특징 텐서를 추출하도록 학습되는 추출 모듈; 및 상기 추출 모듈에서 추출된 특징 텐서에 기반하여 특징점 이미지를 예측하도록 학습되는 예측 모듈을 포함하고, 상기 영상 복원 모델은, 상기 특징점 모델에서 출력되는 특징점 이미지에 기초하여 상기 입력 영상을 복원하도록 학습될 수 있다.
상기 특징점 이미지는, 상기 입력 영상과 대응되는 이미지 공간에서 각 픽셀이 특징점에 해당하는지 여부를 확률 값으로 나타낸 이미지일 수 있다.
상기 특징점 모델의 목적 함수(Lprediction)는 하기의 수학식을 통해 표현될 수 있다.
(수학식)
P : 특징점 모델을 구성하는 신경망
δ : 특징점 모델의 파라미터
상기 특징점 모델 및 상기 영상 복원 모델의 최적화된 파라미터는 하기의 수학식을 통해 산출될 수 있다.
(수학식)
α : 특징점 모델의 목적 함수의 가중치
β : 영상 복원 모델의 목적 함수의 가중치
I : 입력 영상
H : 영상 복원 모델을 구성하는 신경망
η : 영상 복원 모델의 파라미터
개시되는 일 실시예에 따른 특징점 학습 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 신경망 기반의 학습 방법으로서, 특징점 모델에서, 입력 영상으로부터 키 포인트를 추출하도록 학습하는 단계; 및 영상 복원 모델에서, 상기 특징점 모델에서 출력하는 키 포인트를 입력으로 하여 상기 입력 영상을 복원하도록 학습하는 단계를 포함한다.
개시되는 실시예에 의하면, 특징점 모델에서 입력 영상으로부터 키 포인트를 추출하고, 영상 복원 모델에서 특징점 모델의 키 포인트로부터 입력 영상을 복원하도록 학습함으로써, 입력 영상 자체는 키 포인트와는 다르게 시간에 따른 노이즈(즉, 어노테이션 노이즈)가 없으므로, 학습이 진행되는 동안 시간에 대해 연속적이고 안정적인 키 포인트를 추출할 수 있게 된다.
또한, 키 포인트 추출의 정확도가 높아지고 시간에 대해 안정적인 키 포인트를 추출함에 따라, 영상 복원 모델에서 복원하는 복원 영상의 품질도 향상될 수 있게 된다.
도 1은 본 발명의 실시예에 따른 특징점 학습 장치의 구성을 개략적으로 나타낸 블록도
도 2는 본 발명의 실시예에 따른 특징점 학습 장치의 다른 학습 방법을 개략적으로 나타낸 도면
도 3은 본 발명의 제1 실시예에 따른 특징점 학습 장치의 구성을 나타낸 블록도
도 4는 본 발명의 제2 실시예에 따른 특징점 학습 장치의 구성을 나타낸 블록도
도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
도 2는 본 발명의 실시예에 따른 특징점 학습 장치의 다른 학습 방법을 개략적으로 나타낸 도면
도 3은 본 발명의 제1 실시예에 따른 특징점 학습 장치의 구성을 나타낸 블록도
도 4는 본 발명의 제2 실시예에 따른 특징점 학습 장치의 구성을 나타낸 블록도
도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
이하의 설명에 있어서, 신호 또는 정보의 "전송", "통신", "송신", "수신" 기타 이와 유사한 의미의 용어는 일 구성요소에서 다른 구성요소로 신호 또는 정보가 직접 전달되는 것뿐만이 아니라 다른 구성요소를 거쳐 전달되는 것도 포함한다. 특히 신호 또는 정보를 일 구성요소로 "전송" 또는 "송신"한다는 것은 그 신호 또는 정보의 최종 목적지를 지시하는 것이고 직접적인 목적지를 의미하는 것이 아니다. 이는 신호 또는 정보의 "수신"에 있어서도 동일하다. 또한 본 명세서에 있어서, 2 이상의 데이터 또는 정보가 "관련"된다는 것은 하나의 데이터(또는 정보)를 획득하면, 그에 기초하여 다른 데이터(또는 정보)의 적어도 일부를 획득할 수 있음을 의미한다.
또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
도 1은 본 발명의 일 실시예에 따른 특징점 학습 장치의 구성을 개략적으로 나타낸 블록도이다.
도 1을 참조하면, 특징점 학습 장치(100)는 특징점 모델(102) 및 영상 복원 모델(104)를 포함할 수 있다. 예시적인 실시예에서, 특징점 학습 장치(100)는 얼굴 영상에서 특징점을 추출하고, 추출한 특징점에 기반하여 얼굴 영상을 복원하는 경우를 일 예로 설명하나, 본 발명이 이에 한정되는 것은 아니며 그 이외의 다양한 영상에 모두 적용될 수 있다.
또한, 특징점 학습 장치(100)는 합성곱 신경망(Convolutional Neural Network : CNN) 기반의 머신 러닝 기술로 구현될 수 있으나, 머신 러닝 기술이 이에 한정되는 것은 아니며 그 이외의 다양한 머신 러닝 기술이 적용될 수 있다. 또한, 예시적인 실시예에서, 특징점 모델(102) 및 영상 복원 모델(104)은 인코더-디코더(Encoder-Decoder) 형태의 신경망으로 이루어질 수 있으나, 이에 한정되는 것은 아니다.
특징점 모델(102)은 입력되는 영상(입력 영상)으로부터 키 포인트(Keypoint)를 추출하도록 학습될 수 있다. 예시적인 실시예에서, 입력되는 영상은 얼굴을 포함하는 영상일 수 있으나, 이에 한정되는 것은 아니다. 특징점 모델(102)은 입력되는 영상으로부터 추출한 키 포인트와 해당 입력 영상에 대해 라벨링 된 키 포인트(즉, 정답 값)의 차이가 최소화 되도록 학습될 수 있다.
예시적인 실시예에서, 특징점 모델(102)은 하나 이상의 합성곱 층(Convolutional Layer) 및 하나 이상의 풀링 층(Pooling Layer)을 포함할 수 있다. 합성곱 층은 입력되는 영상에서 기 설정된 크기(예를 들어, 3×3 픽셀 크기)의 필터를 일정 간격으로 이동시키면서 해당 필터에 대응되는 픽셀들의 특징 값(즉, 키 포인트)을 추출할 수 있다. 풀링 층은 합성곱 층의 출력을 입력으로 받아 다운 샘플링(Down Sampling)을 수행할 수 있다.
영상 복원 모델(104)은 특징점 모델(102)에서 출력하는 키 포인트를 입력 받을 수 있다. 영상 복원 모델(104)은 입력되는 키 포인트로부터 입력 영상을 복원하도록 학습될 수 있다. 영상 복원 모델(104)은 키 포인트로부터 복원된 영상과 특징점 모델(102)로 입력되는 입력 영상의 차이가 최소화 되도록 학습될 수 있다.
즉, 영상 복원 모델(104)은 특징점 모델(102)에서 출력하는 키 포인트를 통해 입력 영상을 복원하도록 학습된다. 이 경우, 특징점 모델(102)은 1차적으로 입력 영상으로부터 추출한 키 포인트와 해당 입력 영상에 대해 라벨링 된 키 포인트의 차이가 최소화 되도록 학습되고, 2차적으로 영상 복원 모델(104)에서 복원하는 복원 영상과 입력 영상의 차이가 최소화 되게 키 포인트를 추출하도록 학습되게 된다.
여기서, 입력 영상 자체는 키 포인트와는 다르게 시간에 따른 노이즈(즉, 어노테이션 노이즈)가 없으므로, 학습이 진행되는 동안 시간에 대해 연속적이고 안정적인 키 포인트를 추출할 수 있게 된다. 또한, 키 포인트 추출의 정확도가 높아지고 시간에 대해 안정적인 키 포인트를 추출함에 따라, 영상 복원 모델(104)에서 복원하는 복원 영상의 품질도 향상될 수 있게 된다.
한편, 도 1에서는 특징점 모델(102)과 영상 복원 모델(104)을 하나의 신경망 모델에서 동시에 학습하는 경우를 일 예로 설명하였으나, 이에 한정되는 것은 아니며 도 2에 도시된 바와 같이, 제1 머신 러닝 모델(M1)에서 특징점 모델(102)이 입력 영상으로부터 키 포인트를 추출하도록 하되, 추출한 키 포인트와 해당 입력 영상에 대해 라벨링 된 키 포인트의 차이가 최소화 되도록 학습시킬 수 있다(도 2의 (a)). 그리고, 학습된 제1 머신 러닝 모델(M1)의 출력단에 영상 복원 모델(104)을 추가하여 제1 머신 러닝 모델(M1)에서 출력되는 키 포인트를 기반으로 입력 영상을 복원하도록 학습할 수도 있다(도 2의 (b)). 즉, 특징점 모델(102)을 포함하는 제1 머신 러닝 모델(M1)을 학습시킨 후, 제1 머신 러닝 모델(M1)에 영상 복원 모델(104)을 추가할 수도 있다.
도 3은 본 발명의 제1 실시예에 따른 특징점 학습 장치의 구성을 나타낸 블록도이다.
도 3을 참조하면, 특징점 학습 장치(200)는 특징점 모델(202) 및 영상 복원 모델(204)을 포함할 수 있다.
특징점 모델(202)은 추출 모듈(202a) 및 예측 모듈(202b)을 포함할 수 있다. 추출 모듈(202a)은 입력 영상으로부터 특징 벡터(Feature Vector)를 추출하도록 학습될 수 있다. 추출 모듈(202a)은 다수의 합성곱 신경망 층을 통해 입력 영상으로부터 특징 벡터를 추출할 수 있다. 예시적인 실시예에서, 추출 모듈(202a)은 이미지 인코더(Image Encoder)로 이루어질 수 있다.
예측 모듈(202b)은 추출 모듈(202a)에서 추출된 특징 벡터에 기반하여 입력 영상의 키 포인트 좌표를 예측하도록 학습될 수 있다. 즉, 예측 모듈(202b)은 추출된 특징 벡터에 기반하여 입력 영상의 좌표계에서 어느 좌표 값(x, y)이 키 포인트에 해당하는지를 예측하도록 학습될 수 있다.
여기서, 입력 영상의 키 포인트 좌표(K)는 다음의 수학식 1로 나타낼 수 있다.
(수학식 1)
K = [(x1, y1), (x2, y2), ?? , (xn, yn)]
xn : n번째 키 포인트의 x축 좌표 값
yn : n번째 키 포인트의 y축 좌표 값
특징점 모델(202)에서 입력 영상으로부터 키 포인트 좌표를 예측하여 추출하는 것은 다음의 수학식 2를 통해 표현될 수 있다.
(수학식 2)
K' = G(I ; θ)
여기서, K'는 특징점 모델(202)로부터 예측된 키 포인트 좌표를 나타내고, G는 특징점 모델(202)을 구성하는 신경망을 나타내며, I는 입력 영상을 나타내고, θ는 신경망 G의 파라미터를 나타낸다.
영상 복원 모델(204)은 특징점 모델(202)에서 출력되는 키 포인트 좌표에 기초하여 입력 영상을 복원하도록 학습될 수 있다. 예시적인 실시예에서, 영상 복원 모델(204)은 디코더(Decoder)로 구성할 수 있다.
영상 복원 모델(204)에서 키 포인트 좌표에 기초하여 입력 영상을 복원하는 것은 다음의 수학식 3을 통해 표현될 수 있다.
(수학식 3)
I' = D(K' ; φ)
여기서, I'는 영상 복원 모델(204)에 의해 복원된 영상을 나타내고, D는 영상 복원 모델(204)을 구성하는 신경망을 나타내며, φ는 신경망 D의 파라미터를 나타낸다.
한편, 특징점 모델(202)은 입력 영상으로부터 추출한 키 포인트 좌표와 라벨링 된 키 포인트 좌표(즉, 정답 값)의 차이가 최소화 되도록 학습될 수 있다. 그리고, 영상 복원 모델(204)은 특징점 모델(202)에서 추출한 키 포인트 좌표에 기초하여 복원된 영상과 입력 영상의 차이가 최소화 되도록 학습될 수 있다.
이때, 특징점 모델(202)의 목적 함수(Lprediction)는 다음의 수학식 4를 통해 표현할 수 있다.
(수학식 4)
K는 입력 영상의 라벨링 된 키 포인트 좌표를 나타내고, 함수는 A와 B의 차이를 구하는 함수(예를 들어, A와 B의 유클리디안 거리(L2 distance) 또는 맨하튼 거리(L1 distance)를 구하는 함수 등)를 나타낸다.
그리고, 영상 복원 모델(204)의 목적 함수(Lreconstruction)는 다음의 수학식 5를 통해 표현할 수 있다.
(수학식 5)
(수학식 6)
여기서, 는 A+B를 최소화하는 θ, φ를 찾는 함수를 나타낸다. α는 특징점 모델(202)의 목적 함수의 가중치이고, β는 영상 복원 모델(204)의 목적 함수의 가중치를 나타낸다.
도 4는 본 발명의 제2 실시예에 따른 특징점 학습 장치의 구성을 나타낸 블록도이다.
도 4를 참조하면, 특징점 학습 장치(300)는 특징점 모델(302) 및 영상 복원 모델(304)을 포함할 수 있다.
특징점 모델(302)은 추출 모듈(302a) 및 예측 모듈(302b)을 포함할 수 있다. 추출 모듈(302a)은 입력 영상으로부터 특징 텐서(Feature Tensor)를 추출하도록 학습될 수 있다. 추출 모듈(302a)은 특징점이 입력 영상과 대응되는 이미지 공간 상의 한 지점으로 표현되도록 특징 텐서(Feature Tensor)를 추출할 수 있다. 추출 모듈(302a)은 인코더-디코더 형태의 신경망으로 구성함으로써, image-to-image 학습 방식의 효율을 높일 수 있다.
예측 모듈(302b)은 추출 모듈(302a)에서 추출된 특징 텐서에 기반하여 특징점 이미지를 예측하도록 학습될 수 있다. 여기서, 특징점 이미지는 입력 영상과 대응되는 이미지 공간에서 각 픽셀이 특징점에 해당하는지 여부를 나타낸 것으로, 각 픽셀에 대해 특징점에 해당하면 픽셀 값을 1로 하고 특징점에 해당하지 않으면 픽셀 값을 0으로 나타낸 이미지일 수 있다.
예시적인 실시예에서, 예측 모듈(302b)은 추출된 특징 텐서에 기반하여 각 픽셀에 대해 0과 1 사이의 확률 값(즉, 특징점 여부에 대한 확률 값)을 출력하여 특징점 이미지를 예측할 수 있다. 예측 모듈(302b)에서 각 픽셀마다 확률 값을 출력하는 것은 다음의 수학식 7을 통해 나타낼 수 있다.
(수학식 7)
여기서, 는 픽셀 의 특징점 여부에 대한 확률 값을 나타내고, P는 특징점 모델(302)을 구성하는 신경망을 나타내며, 는 픽셀 의 특징 텐서를 나타내고, δ는 신경망 P의 파라미터를 나타낸다. 그리고, 확률분포 함수로는 Sigmoid, Gaussian 등이 사용될 수 있으나, 이에 한정되는 것은 아니다.
한편, 특징점 모델(302)의 목적 함수(Lprediction)는 다음의 수학식 8을 통해 표현할 수 있다.
(수학식 8)
여기서, 은 입력 영상의 픽셀의 라벨링 된 특징점 여부 값을 나타낸다. 즉, 해당 픽셀이 특징점인 경우 1의 값을 가지고, 특징점이 아닌 경우 0의 값을 가지도록 라벨링 된 것일 수 있다.
수학식 8에 의하면, 픽셀의 라벨링 된 특징점 여부 값이 1인 경우 픽셀 의 특징점 여부에 대한 확률 값(즉, )이 높아지도록 학습되며, 픽셀 의 라벨링 된 특징점 여부 값이 0인 경우 픽셀 의 특징점 여부에 대한 확률 값(즉, )이 낮아지도록 학습되게 된다.
영상 복원 모델(304)은 특징점 모델(302)에서 출력되는 특징점 이미지에 기초하여 입력 영상을 복원하도록 학습될 수 있다. 예시적인 실시예에서, 영상 복원 모델(304)은 인코더-디코더 형태의 신경망으로 구성될 수 있다. 영상 복원 모델(304)의 목적 함수(Lreconstruction)는 다음의 수학식 9를 통해 표현할 수 있다.
(수학식 9)
여기서, I는 입력 영상을 나타내고, H는 영상 복원 모델(304)을 구성하는 신경망을 나타내고, η는 신경망 H의 파라미터를 나타낸다.
(수학식 10)
한편, 본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 "모듈"은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아니다.
도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 특징점 학습 장치(100, 200, 300)일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
Claims (10)
- 신경망 기반의 특징점 학습 장치로서,
입력 영상으로부터 키 포인트를 추출하도록 학습되는 특징점 모델; 및
상기 특징점 모델에서 출력하는 키 포인트를 입력으로 하여 상기 입력 영상을 복원하도록 학습되는 영상 복원 모델을 포함하고,
상기 특징점 모델 및 상기 영상 복원 모델의 최적화된 파라미터는 하기의 수학식을 통해 산출되는, 특징점 학습 장치.
(수학식)
: 특징점 모델의 최적화된 파라미터
: 영상 복원 모델의 최적화된 파라미터
Lprediction : 특징점 모델의 목적 함수
Lreconstruction : 영상 복원 모델의 목적 함수
α : 특징점 모델의 목적 함수의 가중치
β : 영상 복원 모델의 목적 함수의 가중치 - 청구항 1에 있어서,
상기 특징점 모델은, 상기 추출되는 키 포인트와 상기 입력 영상에 대해 라벨링 된 키 포인트의 차이가 최소화 되도록 학습되고,
상기 영상 복원 모델은, 상기 복원되는 영상과 상기 입력 영상의 차이가 최소화 되도록 학습되는, 특징점 학습 장치. - 청구항 2에 있어서,
상기 특징점 모델은,
상기 추출되는 키 포인트와 상기 입력 영상에 대해 라벨링 된 키 포인트의 차이가 최소화 되도록 1차 학습되고, 상기 복원되는 영상과 상기 입력 영상의 차이가 최소화 되게 상기 키 포인트를 추출하도록 2차 학습되는, 특징점 학습 장치. - 청구항 1에 있어서,
상기 특징점 모델은 상기 입력 영상으로부터 키 포인트 좌표를 예측하도록 학습되는, 특징점 학습 장치. - 청구항 1에 있어서,
상기 특징점 모델은 상기 입력 영상으로부터 상기 입력 영상과 대응되는 이미지 공간에서 각 픽셀이 특징점에 해당하는지 여부를 확률 값으로 나타낸 이미지인 특징점 이미지를 예측하도록 학습되는, 특징점 학습 장치. - 컴퓨팅 장치에서 수행되는 신경망 기반의 학습 방법으로서,
특징점 모델에서, 입력 영상으로부터 키 포인트를 추출하도록 학습하는 단계; 및
영상 복원 모델에서, 상기 특징점 모델에서 출력하는 키 포인트를 입력으로 하여 상기 입력 영상을 복원하도록 학습하는 단계를 포함하고,
상기 특징점 모델 및 상기 영상 복원 모델의 최적화된 파라미터는 하기의 수학식을 통해 산출되는, 특징점 학습 방법.
(수학식)
: 특징점 모델의 최적화된 파라미터
: 영상 복원 모델의 최적화된 파라미터
Lprediction : 특징점 모델의 목적 함수
Lreconstruction : 영상 복원 모델의 목적 함수
α : 특징점 모델의 목적 함수의 가중치
β : 영상 복원 모델의 목적 함수의 가중치
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230030183A KR102612625B1 (ko) | 2020-07-01 | 2023-03-07 | 신경망 기반의 특징점 학습 장치 및 방법 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200081147A KR102510881B1 (ko) | 2020-07-01 | 2020-07-01 | 신경망 기반의 특징점 학습 장치 및 방법 |
KR1020230030183A KR102612625B1 (ko) | 2020-07-01 | 2023-03-07 | 신경망 기반의 특징점 학습 장치 및 방법 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200081147A Division KR102510881B1 (ko) | 2020-07-01 | 2020-07-01 | 신경망 기반의 특징점 학습 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230038164A true KR20230038164A (ko) | 2023-03-17 |
KR102612625B1 KR102612625B1 (ko) | 2023-12-12 |
Family
ID=79316352
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200081147A KR102510881B1 (ko) | 2020-07-01 | 2020-07-01 | 신경망 기반의 특징점 학습 장치 및 방법 |
KR1020230030183A KR102612625B1 (ko) | 2020-07-01 | 2023-03-07 | 신경망 기반의 특징점 학습 장치 및 방법 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200081147A KR102510881B1 (ko) | 2020-07-01 | 2020-07-01 | 신경망 기반의 특징점 학습 장치 및 방법 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220343679A1 (ko) |
KR (2) | KR102510881B1 (ko) |
WO (1) | WO2022004970A1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102446720B1 (ko) * | 2022-02-18 | 2022-09-26 | 오드컨셉 주식회사 | 이미지 복원 모델, 및 이미지 복원 모델의 학습 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190016236A (ko) * | 2017-08-08 | 2019-02-18 | 한국과학기술원 | 보조정보를 이용하는 조건부 변분 오토인코더 기반의 협업 필터링 방법 및 장치 |
US20190251418A1 (en) * | 2018-02-09 | 2019-08-15 | Preferred Networks, Inc. | Autoencoder, data processing system, data processing method and non-transitory computer readable medium |
KR102091643B1 (ko) | 2018-04-23 | 2020-03-20 | (주)이스트소프트 | 인공신경망을 이용한 안경 착용 영상을 생성하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 |
US20200134415A1 (en) * | 2018-10-30 | 2020-04-30 | Huawei Technologies Co., Ltd. | Autoencoder-Based Generative Adversarial Networks for Text Generation |
KR102124497B1 (ko) * | 2020-03-02 | 2020-06-18 | 엔에이치네트웍스 주식회사 | 영상 개선 장치 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2986441B2 (ja) * | 1998-01-27 | 1999-12-06 | 株式会社エイ・ティ・アール人間情報通信研究所 | 任意表情を持つ3次元顔モデルの生成方法 |
KR100368743B1 (ko) * | 2000-06-01 | 2003-01-24 | (주)버추얼미디어 | 적은 수의 특징점을 이용한 얼굴 영상 압축과 손상된 얼굴영상의 복원 방법 및 장치 |
JP5206517B2 (ja) * | 2009-03-13 | 2013-06-12 | 日本電気株式会社 | 特徴点選択システム、特徴点選択方法および特徴点選択プログラム |
KR101734419B1 (ko) * | 2011-01-18 | 2017-05-12 | 삼성전자주식회사 | 이미지 복원 장치 및 방법 |
KR101558653B1 (ko) * | 2013-06-14 | 2015-10-08 | 전북대학교산학협력단 | 신경망을 이용한 영상의 화질 개선 시스템 및 방법 |
JP2015026922A (ja) * | 2013-07-25 | 2015-02-05 | 三菱電機株式会社 | 動画像符号化装置および動画像符号化方法 |
KR102532748B1 (ko) * | 2017-09-08 | 2023-05-16 | 삼성전자주식회사 | 뉴럴 네트워크 학습 방법 및 장치 |
KR102064486B1 (ko) * | 2018-03-20 | 2020-03-02 | 영남대학교 산학협력단 | 영상 복원 방법과 이를 수행하기 위한 장치 및 시스템 |
KR102102182B1 (ko) * | 2018-08-31 | 2020-04-20 | 서울대학교산학협력단 | 영상 복원 장치 및 방법 |
KR20200048032A (ko) * | 2018-10-29 | 2020-05-08 | 삼성전자주식회사 | 이미지 생성 장치 및 방법과 생성 모델을 트레이닝시키는 장치 및 방법 |
US10635917B1 (en) * | 2019-01-30 | 2020-04-28 | StradVision, Inc. | Method and device for detecting vehicle occupancy using passenger's keypoint detected through image analysis for humans' status recognition |
-
2020
- 2020-07-01 KR KR1020200081147A patent/KR102510881B1/ko active IP Right Grant
- 2020-12-01 US US17/762,819 patent/US20220343679A1/en active Pending
- 2020-12-01 WO PCT/KR2020/017404 patent/WO2022004970A1/ko active Application Filing
-
2023
- 2023-03-07 KR KR1020230030183A patent/KR102612625B1/ko active IP Right Grant
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190016236A (ko) * | 2017-08-08 | 2019-02-18 | 한국과학기술원 | 보조정보를 이용하는 조건부 변분 오토인코더 기반의 협업 필터링 방법 및 장치 |
US20190251418A1 (en) * | 2018-02-09 | 2019-08-15 | Preferred Networks, Inc. | Autoencoder, data processing system, data processing method and non-transitory computer readable medium |
KR102091643B1 (ko) | 2018-04-23 | 2020-03-20 | (주)이스트소프트 | 인공신경망을 이용한 안경 착용 영상을 생성하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 |
US20200134415A1 (en) * | 2018-10-30 | 2020-04-30 | Huawei Technologies Co., Ltd. | Autoencoder-Based Generative Adversarial Networks for Text Generation |
KR102124497B1 (ko) * | 2020-03-02 | 2020-06-18 | 엔에이치네트웍스 주식회사 | 영상 개선 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20220003389A (ko) | 2022-01-10 |
KR102510881B1 (ko) | 2023-03-16 |
US20220343679A1 (en) | 2022-10-27 |
KR102612625B1 (ko) | 2023-12-12 |
WO2022004970A1 (ko) | 2022-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110796619B (zh) | 一种图像处理模型训练方法、装置、电子设备及存储介质 | |
CN110503703B (zh) | 用于生成图像的方法和装置 | |
US11983903B2 (en) | Processing images using self-attention based neural networks | |
KR101887637B1 (ko) | 로봇 시스템 | |
CN111460876B (zh) | 用于识别视频的方法和装置 | |
CN110516598B (zh) | 用于生成图像的方法和装置 | |
KR20230025824A (ko) | 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법 | |
KR102437039B1 (ko) | 영상 생성을 위한 학습 장치 및 방법 | |
KR102612625B1 (ko) | 신경망 기반의 특징점 학습 장치 및 방법 | |
CN114549369B (zh) | 数据修复方法、装置、计算机及可读存储介质 | |
WO2022222854A1 (zh) | 一种数据处理方法及相关设备 | |
KR20230062429A (ko) | 문장 기반 스케치 추천 방법 및 장치 | |
CN112115744B (zh) | 点云数据的处理方法及装置、计算机存储介质、电子设备 | |
CN116432012A (zh) | 用于训练模型的方法、电子设备和计算机程序产品 | |
CN112714263B (zh) | 视频生成方法、装置、设备及存储介质 | |
CN113542758A (zh) | 生成对抗神经网络辅助的视频压缩和广播 | |
US20220319157A1 (en) | Temporal augmentation for training video reasoning system | |
US11917142B2 (en) | System for training and deploying filters for encoding and decoding | |
US20210027168A1 (en) | Electronic apparatus and controlling method thereof | |
KR102381914B1 (ko) | 이미지 복원 방법 및 장치 | |
US20240169701A1 (en) | Affordance-based reposing of an object in a scene | |
CN111126454B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN116740540B (zh) | 一种数据处理方法、装置、设备以及计算机可读存储介质 | |
KR20220013850A (ko) | 발화 영상 생성 방법 및 장치 | |
WO2023023162A1 (en) | 3d semantic plane detection and reconstruction from multi-view stereo (mvs) images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |