KR20220154872A - 광학 흐름 추정을 위한 딥 유사도 기반 비지도 학습의 컴퓨터 시스템 및 그의 방법 - Google Patents

광학 흐름 추정을 위한 딥 유사도 기반 비지도 학습의 컴퓨터 시스템 및 그의 방법 Download PDF

Info

Publication number
KR20220154872A
KR20220154872A KR1020210062354A KR20210062354A KR20220154872A KR 20220154872 A KR20220154872 A KR 20220154872A KR 1020210062354 A KR1020210062354 A KR 1020210062354A KR 20210062354 A KR20210062354 A KR 20210062354A KR 20220154872 A KR20220154872 A KR 20220154872A
Authority
KR
South Korea
Prior art keywords
similarity
deep
loss function
optical flow
computer system
Prior art date
Application number
KR1020210062354A
Other languages
English (en)
Other versions
KR102544800B1 (ko
Inventor
윤성의
임우빈
김태균
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020210062354A priority Critical patent/KR102544800B1/ko
Priority to US17/538,555 priority patent/US20220366669A1/en
Publication of KR20220154872A publication Critical patent/KR20220154872A/ko
Application granted granted Critical
Publication of KR102544800B1 publication Critical patent/KR102544800B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

다양한 실시예들은 광학 흐름 추정을 위한 딥 유사도 기반 비지도 학습의 컴퓨터 시스템 및 그의 방법을 제공한다. 다양한 실시예들에 따르면, 컴퓨터 시스템은 연속되는 복수의 이미지들에서 추출되는 딥러닝 특징들을 이용하여, 딥 유사도를 계산하고, 딥 유사도를 기반으로, 이미지들에 대한 광학 흐름을 학습하도록 구성될 수 있다. 즉, 컴퓨터 시스템은 연속되는 복수의 이미지들에 대한 딥 유사도를 기반으로 하는 비지도 학습을 통해, 광학 흐름을 추정하기 위한 딥러닝 모델을 학습할 수 있다. 이 때, 컴퓨터 시스템이 딥 유사도 맵에서의 가림(occlusion) 위치들과 비가림(non-occlusion) 위치들로 구분함으로써 획득되는 특징 분리 손실 함수(feature separation loss)를 이용하여, 광학 흐름을 학습할 수 있다.

Description

광학 흐름 추정을 위한 딥 유사도 기반 비지도 학습의 컴퓨터 시스템 및 그의 방법{COMPUTER SYSTEM OF UNSUPERVISED LEARNING WITH DEEP SIMILARITY FOR OPTICAL FLOW ESTIMATION AND METHOD THEREOF}
다양한 실시예들은 광학 흐름(optical flow) 추정을 위한 딥 유사도(deep similarity) 기반 비지도 학습의 컴퓨터 시스템 및 그의 방법에 관한 것이다.
광학 흐름이란 시간 t를 간격으로 2장의 개별 이미지들이 주어졌을 때, 첫 번째 이미지의 각 픽셀이 두 번째 이미지 어떤 픽셀에 해당하는가를 찾는 문제를 나타낸다. 최근에는 딥러닝을 이용하여 광학 흐름 문제를 해결하는데, 이러한 연구들은, 정답 데이터가 있는 경우(지도 학습)와 정답 데이터가 없는 경우(비지도 학습)으로 나뉜다. 이들 중 비지도 학습은 광학 흐름을 모르는 수만장의 연속된 이미지들을 입력 받아, 광학 흐름을 추정하는 딥러닝 모델을 학습하는 것이다. 그렇게 학습된 딥러닝 모델은 다른 연속된 이미지들이 입력되었을 때, 광학 흐름을 빠른 시간내에 계산해낼 수 있다.
이러한 비지도 학습은 일반적으로 RGB 기반의 광도(photometric) 손실 함수를 이용한다. 이는 움직인 대상(예컨대, 공, 의자 등)이 첫 번째 이미지에서 가졌던 RGB가 두 번째 이미지에서도 유지될 것이라는 가정을 기반으로 한다. RGB 외에도, 이미지의 어떤 국소적 지역을 표현하는 특징(feature)들을 사용할 수 있는데, 그 예시로서, 물체의 가장자리를 나타내는 그라디언트(gradient), 또는 그 그라디언트를 다방향으로 바이너리(binary)하게 나타낸 센서스 변환(census transform)을 사용하기도 한다. 이러한 특징들은 모두 낮은 수준의 정보만을 가진다는 단점이 있다. 즉, 실제 비디오에서는 물체가 그림자 속으로 들어가기도 하고, 물체가 부분적으로 가려지기도 하며, 움직임에 의해 흐려지기도 하므로, RGB를 포함한 특징들이 유지된다는 가정이 틀려지게 된다.
다양한 실시예들은, 광학 흐름 추정을 위한 딥 유사도 기반 비지도 학습의 컴퓨터 시스템 및 그의 방법을 제공한다.
다양한 실시예들에 따른 컴퓨터 시스템의 방법은, 연속되는 복수의 이미지들에서 추출되는 딥러닝 특징들을 이용하여, 딥 유사도를 계산하는 단계, 및 상기 딥 유사도를 기반으로, 상기 이미지들에 대한 광학 흐름을 학습하는 단계를 포함할 수 있다.
다양한 실시예들에 따른 컴퓨터 시스템은, 메모리, 및 상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성되는 프로세서를 포함할 수 있다. 다양한 실시예들에 따르면, 상기 프로세서는, 연속되는 복수의 이미지들에서 추출되는 딥러닝 특징들을 이용하여, 딥 유사도를 계산하고, 상기 딥 유사도를 기반으로, 상기 이미지들에 대한 광학 흐름을 학습하도록 구성될 수 있다.
다양한 실시예들에 따른 비-일시적인 컴퓨터-판독 가능 저장 매체는, 연속되는 복수의 이미지들에서 추출되는 딥러닝 특징들을 이용하여, 딥 유사도를 계산하는 단계, 및 상기 딥 유사도를 기반으로, 상기 이미지들에 대한 광학 흐름을 학습하는 단계를 포함하는 방법을 실행하기 위한 하나 이상의 프로그램들을 저장할 수 있다.
다양한 실시예들에 따르면, 컴퓨터 시스템은 비지도 학습을 통해, 광학 흐름을 추정할 수 있다. 구체적으로, 컴퓨터 시스템은 연속되는 복수의 이미지들에 대한 딥 유사도를 기반으로 하는 비지도 학습을 통해, 광학 흐름을 추정하기 위한 딥러닝 모델을 학습할 수 있다. 이러한 딥러닝 모델을 이용하여, 컴퓨터 시스템은 입력되는 복수의 다른 이미지들에 대한 광학 흐름을 빠른 시간 내에 추정할 수 있다. 이 때, 컴퓨터 시스템이 딥 유사도 맵에서의 가림(occlusion) 위치들과 비가림(non-occlusion) 위치들로 구분함으로써 획득되는 특징 분리 손실 함수(feature separation loss)를 이용하여, 광학 흐름을 추정함으로써, 광학 흐름의 성능이 증대될 수 있다. 즉, 컴퓨터 시스템은 보다 높은 수준의 정보를 기반으로, 보다 높은 성능의 광학 흐름을 학습할 수 있다.
도 1은 다양한 실시예들에 따른 컴퓨터 시스템의 구성을 도시하는 블록도이다.
도 2는 도 1의 프로세서의 세부 구성을 도시하는 블록도이다.
도 3은 도 2의 유사도 계산부의 세부 구성을 도시하는 블록도이다.
도 4는 도 2의 딥 유사도 계산부의 동작을 설명하기 위한 예시도이다.
도 5는 다양한 실시예들에 따른 컴퓨터 시스템의 방법의 구성을 도시하는 순서도이다.
도 6은 도 5의 딥 유사도를 계산하는 단계의 세부 구성을 도시하는 순서도이다.
도 7은 도 5의 광학 흐름을 학습하는 단계의 세부 구성을 도시하는 순서도이다.
이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다. 다양한 실시예들은, 광학 흐름 추정을 위한 딥 유사도 기반 비지도 학습의 컴퓨터 시스템 및 그의 방법을 제공한다.
기존의 광도(photometric) 손실 함수는 RGB, 그라디언트, 센서스와 같은 낮은 수준의 특징들을 활용하기 때문에, 다양한 실제 환경의 변화에 강인하지 못하다는 단점이 있다. 이와 반대로 다양한 분야들에서 증명되었듯이, 딥러닝 특징들은 빛의 변화나 물체 각도의 변화와 같은 다양한 실제 환경의 변화에 강인하다. 이에, 다양한 실시예들에서는 딥러닝 특징들을 활용하여 기존 광도 손실 함수의 단점을 보완할 수 있다.
도 1은 다양한 실시예들에 따른 컴퓨터 시스템(100)의 구성을 도시하는 블록도이다. 도 2는 도 1의 프로세서(140)의 세부 구성을 도시하는 블록도이다. 도 3은 도 2의 유사도 계산부(220)의 세부 구성을 도시하는 블록도이다. 도 4는 도 2의 딥 유사도 계산부(230)의 동작을 설명하기 위한 예시도이다.
도 1을 참조하면, 다양한 실시예들에 따른 컴퓨터 시스템(100)은 입력 모듈(110), 출력 모듈(120), 메모리(130), 또는 프로세서(140) 중 적어도 하나를 포함할 수 있다. 어떤 실시예에서, 컴퓨터 시스템(100)의 구성 요소들 중 적어도 하나가 생략될 수 있으며, 적어도 하나의 다른 구성 요소가 추가될 수 있다. 어떤 실시예에서, 컴퓨터 시스템(100)의 구성 요소들 중 적어도 두 개가 하나의 통합된 회로로 구현될 수 있다. 이 때 컴퓨터 시스템(100)은 적어도 하나의 장치, 예컨대 적어도 하나의 서버(server) 또는 적어도 하나의 전자 장치(electronic device) 중 적어도 하나로 이루어질 수 있다. 예를 들면, 전자 장치는 스마트폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, PDA(personal digital assistants), PMP(portable multimedia player), 태블릿 PC, 게임 콘솔(game console), 웨어러블 디바이스(wearable device), IoT(internet of things) 디바이스, 가전 기기, 의료 기기, 또는 로봇(robot) 중 적어도 하나를 포함할 수 있다. 어떤 실시예에서, 컴퓨터 시스템(100)이 복수의 장치들을 포함하는 경우, 컴퓨터 시스템(100)의 구성 요소들은 장치들 중 하나에 구성되거나, 장치들 중 적어도 두 개에 분산되어 구성될 수 있다.
입력 모듈(110)은 컴퓨터 시스템(100)의 적어도 하나의 구성 요소에 사용될 신호를 입력할 수 있다. 입력 모듈(110)은, 사용자가 컴퓨터 시스템(100)에 직접적으로 신호를 입력하도록 구성되는 입력 장치, 주변의 변화를 감지하여 신호를 발생하도록 구성되는 센서 장치, 또는 외부 기기로부터 신호를 수신하도록 구성되는 수신 장치 중 적어도 하나를 포함할 수 있다. 예를 들면, 입력 장치는 마이크로폰(microphone), 마우스(mouse) 또는 키보드(keyboard) 중 적어도 하나를 포함할 수 있다. 어떤 실시예에서, 입력 장치는 터치를 감지하도록 설정된 터치 회로(touch circuitry) 또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로 중 적어도 하나를 포함할 수 있다.
출력 모듈(120)은 컴퓨터 시스템(100)의 외부로 정보를 출력할 수 있다. 출력 모듈(120)은, 정보를 시각적으로 출력하도록 구성되는 표시 장치, 정보를 오디오 신호로 출력할 수 있는 오디오 출력 장치, 또는 정보를 무선으로 송신할 수 있는 송신 장치 중 적어도 하나를 포함할 수 있다. 예를 들면, 표시 장치는 디스플레이, 홀로그램 장치 또는 프로젝터 중 적어도 하나를 포함할 수 있다. 일 예로, 표시 장치는 입력 모듈(110)의 터치 회로 또는 센서 회로 중 적어도 하나와 조립되어, 터치 스크린으로 구현될 수 있다. 예를 들면, 오디오 출력 장치는 스피커 또는 리시버 중 적어도 하나를 포함할 수 있다.
일 실시예에 따르면, 수신 장치와 송신 장치는 통신 모듈로 구현될 수 있다. 통신 모듈은 컴퓨터 시스템(100)에서 외부 기기와 통신을 수행할 수 있다. 통신 모듈은 컴퓨터 시스템(100)와 외부 기기 간 통신 채널을 수립하고, 통신 채널을 통해, 외부 기기와 통신을 수행할 수 있다. 여기서, 외부 기기는 차량, 위성, 기지국, 서버 또는 다른 컴퓨터 시스템 중 적어도 하나를 포함할 수 있다. 통신 모듈은 유선 통신 모듈 또는 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 유선 통신 모듈은 외부 기기와 유선으로 연결되어, 유선으로 통신할 수 있다. 무선 통신 모듈은 근거리 통신 모듈 또는 원거리 통신 모듈 중 적어도 하나를 포함할 수 있다. 근거리 통신 모듈은 외부 기기와 근거리 통신 방식으로 통신할 수 있다. 예를 들면, 근거리 통신 방식은, 블루투스(Bluetooth), 와이파이 다이렉트(WiFi direct), 또는 적외선 통신(IrDA; infrared data association) 중 적어도 하나를 포함할 수 있다. 원거리 통신 모듈은 외부 기기와 원거리 통신 방식으로 통신할 수 있다. 여기서, 원거리 통신 모듈은 네트워크를 통해 외부 기기와 통신할 수 있다. 예를 들면, 네트워크는 셀룰러 네트워크, 인터넷, 또는 LAN(local area network)이나 WAN(wide area network)과 같은 컴퓨터 네트워크 중 적어도 하나를 포함할 수 있다.
메모리(130)는 컴퓨터 시스템(100)의 적어도 하나의 구성 요소에 의해 사용되는 다양한 데이터를 저장할 수 있다. 예를 들면, 메모리(130)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 하나를 포함할 수 있다. 데이터는 적어도 하나의 프로그램 및 이와 관련된 입력 데이터 또는 출력 데이터를 포함할 수 있다. 프로그램은 메모리(130)에 적어도 하나의 명령을 포함하는 소프트웨어로서 저장될 수 있으며, 운영 체제, 미들 웨어 또는 어플리케이션 중 적어도 하나를 포함할 수 있다.
프로세서(140)는 메모리(130)의 프로그램을 실행하여, 컴퓨터 시스템(100)의 적어도 하나의 구성 요소를 제어할 수 있다. 이를 통해, 프로세서(140)는 데이터 처리 또는 연산을 수행할 수 있다. 이 때 프로세서(140)는 메모리(130)에 저장된 명령을 실행할 수 있다. 프로세서(140)는 광학 흐름을 추정하기 위한 딥러닝 모델을 포함할 수 있다. 이 때, 프로세서(140)는 비지도 학습을 통해, 딥러닝 모델을 학습할 수 있다. 이를 통해, 프로세서(140)는 딥러닝 모델을 이용하여, 입력되는 이미지들에 대한 광학 흐름을 빠른 시간 내에 추정할 수 있다. 다양한 실시예들에 따르면, 프로세서(140)는 연속되는 복수의 이미지들(I(t), I(t+1), 여기서, I(t)는 시간 t의 이미지를 나타내고, I(t+1)는 I(t)에 시간적으로 연속되는 이미지를 나타냄)에 대한 딥 유사도를 기반으로 하는 비지도 학습을 통해 딥러닝 모델을 학습할 수 있다.
프로세서(140)는 연속되는 이미지들(I(t), I(t+1))에서 추출되는 딥러닝 특징들(hi l(t), hi l(t+1), 여기서, i는 이미지에 대한 식별자를 나타내고, l은 레이어에 대한 식별자를 나타냄)을 이용하여, 이미지들의 딥 유사도를 계산할 수 있다. 이를 위해, 프로세서(140)는, 도 2에 도시된 바와 같이 특징 추출부(210), 유사도 계산부(220), 및 딥 유사도 계산부(230)를 포함할 수 있다.
특징 추출부(210)는 복수의 레이어들로 이루어지는 딥 네트워크를 이용하여, 이미지들(I(t), I(t+1))의 각각에서 딥러닝 특징들(hi l(t), hi l(t+1))을 추출할 수 있다. 이 때, 이미지들(I(t), I(t+1))의 각각에 대해, 딥러닝 특징들(hi l(t), hi l(t+1))은 레이어들의 각각에 대한 공간 콘볼루션(convolutional) 특징으로 추출될 수 있다. 예를 들어, 여섯 개의 레이어들에 대해, 이미지들(I(t), I(t+1))의 각각으로부터 국소적 특징 벡터들로서, 여섯 개의 공간 콘볼루션 특징들이 추출되며, 공간 콘볼루션 특징들의 각각은 해당 이미지 내 위치들에 대한 딥러닝 특징들(hi l(t), hi l(t+1))로 이루어질 수 있다.
유사도 계산부(220)는 레이어들의 각각에 대해, 이미지들(I(t), I(t+1))에서 서로 매핑되는 위치들의 딥러닝 특징들(hi l(t), hi l(t+1))의 내적(inner product)을 기반으로, 해당 위치들에서의 유사도를 계산할 수 있다. 이를 통해, 유사도 계산부(220)는 레이어들에 개별적으로 대응하도록, 이미지들(I(t), I(t+1))의 유사도 맵들(siml)을 생성할 수 있다. 여기서, 유사도 맵들의 각각에서, 각 유사도의 위치는 맵 내 픽셀에 대응되며, 이에 따라 유사도들의 개수는 픽셀들의 개수와 동일할 수 있다. 예를 들어, 여섯 개의 레이어들에 대해, 여섯 개의 유사도 맵들(siml)이 생성될 수 있다.
유사도 계산부(220)는, 도 3에 도시된 바와 같이 l2-정규화부(310), 내적 연산부(320), 및 정규화부(330)를 포함할 수 있다. l2-정규화부(310)는 이미지들(I(t), I(t+1))의 각각에 대해, l 번째 레이어의 딥러닝 특징들(hi l(t), hi l(t+1))을 채널축으로 l2-정규화(normalization)할 수 있다. 내적 연산부(320)는 이미지들(I(t), I(t+1))의 l 번째 레이어들에서 서로 매핑되는 위치들의 딥러닝 특징들(hi l(t), hi l(t+1))의 내적을 기반으로, 해당 위치들에서의 유사도를 계산할 수 있다. 이 때, 내적 연산부(320)는 광학 흐름을 추정하기 위한 딥러닝 모델, 즉 학습전 딥러닝 모델을 이용하여 추정되는 이미지들(I(t), I(t+1))의 광학 흐름을 기반으로, 이미지들(I(t), I(t+1))의 l 번째 레이어들에서 서로 매핑되는 위치들을 검출할 수 있다. 정규화부(330)는 각 유사도를 0과 1 사이의 값으로 정규화할 수 있다. 이를 통해, 이미지들(I(t), I(t+1))의 l 번째 레이어들의 유사도 맵(siml)이 생성될 수 있다. 이러한 방식으로, 이미지들(I(t), I(t+1))의 모든 레이어들에 대해, 유사도 맵들(siml)이 생성될 수 있다.
딥 유사도 계산부(230)는 레이어들에서 서로 매핑되는 위치들의 유사도들을 곱으로 합하여, 해당 위치들에서의 딥 유사도를 계산할 수 있다. 이를 통해, 딥 유사도 계산부(230)는 이미지들(I(t), I(t+1))의 딥 유사도 맵(simf)을 생성할 수 있다. 바꿔 말하면, 딥 유사도 계산부(230)는 유사도 맵들을 곱으로 합하여, 딥 유사도 맵(simf)을 생성할 수 있다. 예를 들어, 도 4에 도시된 바와 같이, 여섯 개의 유사도 맵들(siml)로부터, 하나의 딥 유사도 맵(simf)이 생성될 수 있다. 이 때, 딥 유사도 맵(simf)은 하기 [수학식 1]과 같이 표현될 수 있다. 광학 흐름을 추정하기 위한 딥러닝 모델, 즉 학습전 딥러닝 모델을 이용하여 추정되는 이미지들(I(t), I(t+1))의 광학 흐름을 기반으로, 결과적으로 딥 유사도가 계산되므로, 딥 유사도는 광학 흐름에 대한 스코어(score) 또는 정확도라고도 지칭될 수 있다.
Figure pat00001
여기서, 광학 흐름을 추정하기 위한 딥러닝 모델, 즉 학습전 딥러닝 모델을 이용하여 추정되는 이미지들(I(t), I(t+1))의 광학 흐름을 나타낼 수 있다.
프로세서(140)는 딥 유사도를 기반으로, 이미지들(I(t), I(t+1))에 대한 광학 흐름을 학습할 수 있다. 바꿔 말하면, 프로세서(140)는 딥 유사도를 기반으로 하는 비지도 학습을 통해, 광학 흐름을 추정하기 위한 딥러닝 모델을 학습할 수 있다. 이를 위해, 프로세서(140)는, 도 2에 도시된 바와 같이 광학 흐름 학습부(240)를 포함할 수 있다.
광학 흐름 학습부(240)는 특징 분리 손실 함수(feature separation loss)(Lf)를 이용하여, 광학 흐름을 학습할 수 있다. 이 때, 특징 분리 손실 함수(Lf)는 딥 유사도의 분리성(discriminative)을 증대시킴으로써, 광학 흐름의 성능을 증대시킬 수 있다.
이를 위해, 광학 흐름 학습부(240)는 딥 유사도 맵(simf)을 기반으로, 특징 분리 손실 함수(Lf)를 구성할 수 있다. 구체적으로, 광학 흐름 학습부(240)는 딥 유사도 맵(simf)에서 가림(occlusion) 위치들과 비가림(non-occlusion) 위치들을 추정할 수 있다. 여기서, 가림 위치들은 물체가 그림자나 다른 물체에 의해 가려지거나, 움직임에 의해 흐려지는 위치들을 나타낼 수 있다. 예를 들면, 광학 흐름 학습부(240)는 이미지들(I(t), I(t+1))의 전후 계속성(forward-backward consistency)을 분석함으로써, 딥 유사도 맵(simf)에서 가림 위치들과 비가림 위치들을 추정할 수 있다. 그리고, 광학 흐름 학습부(240)는 딥 유사도 맵(simf)에서의 가림 위치들의 딥 유사도들로부터 제 1 평균 유사도(kocc)를 계산하고, 딥 유사도 맵(simf)에서의 비가림 위치들의 딥 유사도들로부터 제 2 평균 유사도(knoc)를 계산할 수 있다. 또한, 광학 흐름 학습부(240)는 제 1 평균 유사도(kocc)와 제 2 평균 유사도(knoc)를 기반으로, 유사도 임계값(k)을 정의할 수 있다. 이 때, 유사도 임계값(k)은 하기 [수학식 2]와 같이 제 1 평균 유사도(kocc)와 제 2 평균 유사도(knoc)의 평균값일 수 있다. 이를 통해, 광학 흐름 학습부(240)는 하기 [수학식 3]과 같이 딥 유사도 맵(simf)과 유사도 임계값(k)을 기반으로, 특징 분리 손실 함수(Lf)를 구성할 수 있다. 이로써, 특징 분리 손실 함수(Lf)가 유사도 임계값(k)을 기준으로, 딥 유사도 맵(simf)에서의 대비를 높이도록 구성될 수 있다. 이는, 특징 분리 손실 함수(Lf)가 엔트로피(entropy)를 감소시키는 것, 바꿔 말하면 엔트로피를 최소화하는 것으로 해석될 수 있다.
Figure pat00002
Figure pat00003
어떤 실시예들에서, 광학 흐름 학습부(240)는 특징 분리 손실 함수(Lf)뿐 아니라, 딥 유사도 맵(simf)을 기반으로 하는 광도(photometric) 손실 함수(Lr), 딥 유사도 맵(simf)을 기반으로 하는 평활도(smoothness) 손실 함수(Ls), 데이터 증류(data distillation) 손실 함수(Ld) 중 적어도 하나를 더 이용하여, 광학 흐름을 학습할 수 있다. 이를 위해, 광학 흐름 학습부(240)는 하기 [수학식 4]와 같이 딥 유사도 맵(simf)을 기반으로, 광도 손실 함수(Lr)를 구성할 수 있다. 한편, 광학 흐름 학습부(240)는 하기 [수학식 5]와 같이 딥 유사도 맵(simf)을 기반으로, 평활도 손실 함수(Ls)를 구성할 수 있다. 한편, 광학 흐름 학습부(240)는 이미 알려져 있는 방식으로, 하기 [수학식 6]과 같이 데이터 증류 손실 함수(Ld)를 구성할 수 있다.
Figure pat00004
Figure pat00005
Figure pat00006
즉, 광학 흐름 학습부(240)는 특징 분리 손실 함수(Lf), 및 광도 손실 함수(Lr), 평활도 손실 함수(Ls), 데이터 증류 손실 함수(Ld) 중 적어도 하나를 기반으로, 최종 손실 함수(L)를 구성하고, 최종 손실 함수(L)를 이용하여, 광학 흐름을 학습할 수 있다. 일 실시예에 따르면, 광학 흐름 학습부(240)는 하기 [수학식 7]과 같이 특징 분리 손실 함수(Lf), 광도 손실 함수(Lr), 및 평활도 손실 함수(Ls)를 기반으로, 최종 손실 함수(L)를 구성할 수 있다. 이 때, 광학 흐름 학습부(240)는 분리 손실 함수(Lf), 광도 손실 함수(Lr), 및 평활도 손실 함수(Ls)에 대해, 상이한 가중치(예컨대, λf, λs)를 적용할 수 있다. 다른 실시예에 따르면, 광학 흐름 학습부(240)는 하기 [수학식 8]과 같이 특징 분리 손실 함수(Lf), 광도 손실 함수(Lr), 평활도 손실 함수(Ls), 및 데이터 증류 손실 함수(Ld)를 기반으로, 최종 손실 함수(L)를 구성할 수 있다. 이 때, 광학 흐름 학습부(240)는 분리 손실 함수(Lf), 광도 손실 함수(Lr), 평활도 손실 함수(Ls), 및 데이터 증류 손실 함수(Ld)에 대해, 상이한 가중치(예컨대, λf, λs, λd)를 적용할 수 있다.
Figure pat00007
Figure pat00008
도 5는 다양한 실시예들에 따른 컴퓨터 시스템(100)의 방법의 구성을 도시하는 순서도이다.
도 5를 참조하면, 컴퓨터 시스템(100)은 510 단계에서 연속되는 복수의 이미지들(I(t), I(t+1))에서 추출되는 딥러닝 특징들(hi l(t), hi l(t+1))을 이용하여, 딥 유사도를 계산할 수 있다. 이 때, 복수의 유사도 맵들(siml)이 생성될 수 있다. 이에 대해, 도 6을 참조하여, 보다 상세하게 후술될 것이다.
도 6은 도 5의 딥 유사도를 계산하는 단계(510 단계)의 세부 구성을 도시하는 순서도이다.
도 6을 참조하면, 컴퓨터 시스템(100)은 611 단계에서 복수의 레이어들로 이루어지는 딥 네트워크를 이용하여, 이미지들(I(t), I(t+1))의 각각에서 딥러닝 특징들(hi l(t), hi l(t+1))을 추출할 수 있다. 이 때, 프로세서(140)는 이미지들(I(t), I(t+1))의 각각에 대해, 딥러닝 특징들(hi l(t), hi l(t+1))을 레이어들의 각각에 대한 공간 콘볼루션 특징으로 추출할 수 있다. 예를 들어, 여섯 개의 레이어들에 대해, 이미지들(I(t), I(t+1))의 각각으로부터 여섯 개의 공간 콘볼루션 특징들이 추출되며, 공간 콘볼루션 특징들의 각각은 해당 이미지 내 위치들에 대한 딥러닝 특징들(hi l(t), hi l(t+1))로 이루어질 수 있다.
컴퓨터 시스템(100)은 613 단계에서 레이어들의 각각에 대해, 이미지들(I(t), I(t+1))에서 서로 매핑되는 위치들의 딥러닝 특징들(hi l(t), hi l(t+1))의 내적을 기반으로, 해당 위치들에서의 유사도를 계산할 수 있다. 이를 통해, 프로세서(140)는 레이어들에 개별적으로 대응하도록, 이미지들(I(t), I(t+1))의 유사도 맵들(siml)을 생성할 수 있다. 여기서, 유사도 맵들의 각각에서, 각 유사도의 위치는 맵 내 픽셀에 대응되며, 이에 따라 유사도들의 개수는 픽셀들의 개수와 동일할 수 있다. 예를 들어, 여섯 개의 레이어들에 대해, 여섯 개의 유사도 맵들(siml)이 생성될 수 있다.
구체적으로, 프로세서(140)는 이미지들(I(t), I(t+1))의 각각에 대해, l 번째 레이어의 딥러닝 특징들(hi l(t), hi l(t+1))을 채널축으로 l2-정규화할 수 있다. 이 후, 프로세서(140)는 이미지들(I(t), I(t+1))의 l 번째 레이어들에서 서로 매핑되는 위치들의 딥러닝 특징들(hi l(t), hi l(t+1))의 내적을 기반으로, 해당 위치들에서의 유사도를 계산할 수 있다. 이 때, 프로세서(140)는 광학 흐름을 추정하기 위한 딥러닝 모델, 즉 학습전 딥러닝 모델을 이용하여 추정되는 이미지들(I(t), I(t+1))의 광학 흐름을 기반으로, 이미지들(I(t), I(t+1))의 l 번째 레이어들에서 서로 매핑되는 위치들을 검출할 수 있다. 그리고, 프로세서(140)는 각 유사도를 0과 1 사이의 값으로 정규화할 수 있다. 이를 통해, 이미지들(I(t), I(t+1))의 l 번째 레이어들의 유사도 맵(siml)이 생성될 수 있다. 이러한 방식으로, 이미지들(I(t), I(t+1))의 모든 레이어들에 대해, 유사도 맵들(siml)이 생성될 수 있다.
컴퓨터 시스템(100)은 615 단계에서 레이어들에서 서로 매핑되는 위치들의 유사도들을 곱으로 합하여, 해당 위치들에서의 딥 유사도를 계산할 수 있다. 이를 통해, 프로세서(140)는 이미지들(I(t), I(t+1))의 딥 유사도 맵(simf)을 생성할 수 있다. 바꿔 말하면, 프로세서(140)는 유사도 맵들을 곱으로 합하여, 딥 유사도 맵(simf)을 생성할 수 있다. 이 때, 광학 흐름을 추정하기 위한 딥러닝 모델, 즉 학습전 딥러닝 모델을 이용하여 추정되는 이미지들(I(t), I(t+1))의 광학 흐름을 기반으로, 결과적으로 딥 유사도가 계산되므로, 딥 유사도는 광학 흐름에 대한 스코어 또는 정확도라고도 지칭될 수 있다.
다음으로, 컴퓨터 시스템(100)은 도 5로 복귀하여, 520 단계로 진행할 수 있다. 그리고, 컴퓨터 시스템(100)은 520 단계에서 딥 유사도를 기반으로, 이미지들(I(t), I(t+1))에 대한 광학 흐름을 학습할 수 있다. 바꿔 말하면, 컴퓨터 시스템(100)은 딥 유사도를 기반으로 하는 비지도 학습을 통해, 광학 흐름을 추정하기 위한 딥러닝 모델을 학습할 수 있다. 이에 대해, 도 7을 참조하여, 보다 상세하게 후술될 것이다.
도 7은 도 5의 광학 흐름을 학습하는 단계(520 단계)의 세부 구성을 도시하는 순서도이다.
도 7을 참조하면, 컴퓨터 시스템(100)은 721 단계에서 딥 유사도 맵(simf)을 기반으로, 특징 분리 손실 함수(Lf)를 구성할 수 있다. 구체적으로, 프로세서(140)는 딥 유사도 맵(simf)에서 가림 위치들과 비가림 위치들을 추정할 수 있다. 예를 들면, 프로세서(140)는 이미지들(I(t), I(t+1))의 전후 계속성을 분석함으로써, 딥 유사도 맵(simf)에서 가림 위치들과 비가림 위치들을 추정할 수 있다.
컴퓨터 시스템(100)은 723 단계에서 가림 위치들에 대한 제 1 평균 유사도(kocc)와 비가림 위치들에 대한 제 2 평균 유사도(knoc)를 기반으로, 유사도 임계값(k)을 정의할 수 있다. 구체적으로, 프로세서(140)는 딥 유사도 맵(simf)에서의 가림 위치들의 딥 유사도들로부터 제 1 평균 유사도(kocc)를 계산하고, 딥 유사도 맵(simf)에서의 비가림 위치들의 딥 유사도들로부터 제 2 평균 유사도(knoc)를 계산할 수 있다. 그리고, 프로세서(140)는 제 1 평균 유사도(kocc)와 제 2 평균 유사도(knoc)를 기반으로, 유사도 임계값(k)을 정의할 수 있다. 이 때, 유사도 임계값(k)은 제 1 평균 유사도(kocc)와 제 2 평균 유사도(knoc)의 평균값일 수 있다.
컴퓨터 시스템(100)은 725 단계에서 유사도 임계값(k)을 갖는 손실 함수(L)를 이용하여, 광학 흐름을 학습할 수 있다. 이 때, 프로세서(140)는 특징 분리 손실 함수(Lf)를 이용하여, 광학 흐름을 학습할 수 있다. 이를 위해, 프로세서(140)는 딥 유사도 맵(simf)과 유사도 임계값(k)을 기반으로, 특징 분리 손실 함수(Lf)를 구성할 수 있다. 이로써, 특징 분리 손실 함수(Lf)가 유사도 임계값(k)을 기준으로, 딥 유사도 맵(simf)에서의 대비를 높이도록 구성될 수 있다. 이는, 특징 분리 손실 함수(Lf)가 엔트로피(entropy)를 감소시키는 것, 바꿔 말하면 엔트로피를 최소화하는 것으로 해석될 수 있다.
어떤 실시예들에서, 프로세서(140)는 특징 분리 손실 함수(Lf)뿐 아니라, 딥 유사도 맵(simf)을 기반으로 하는 광도 손실 함수(Lr), 딥 유사도 맵(simf)을 기반으로 하는 평활도 손실 함수(Ls), 데이터 증류 손실 함수(Ld) 중 적어도 하나를 더 이용하여, 광학 흐름을 학습할 수 있다. 즉, 프로세서(140)는 특징 분리 손실 함수(Lf), 및 광도 손실 함수(Lr), 평활도 손실 함수(Ls), 데이터 증류 손실 함수(Ld) 중 적어도 하나를 기반으로, 최종 손실 함수(L)를 구성하고, 최종 손실 함수(L)를 이용하여, 광학 흐름을 학습할 수 있다. 일 실시예에 따르면, 프로세서(140)는 특징 분리 손실 함수(Lf), 광도 손실 함수(Lr), 및 평활도 손실 함수(Ls)를 기반으로, 최종 손실 함수(L)를 구성할 수 있다. 이 때, 프로세서(140)는 분리 손실 함수(Lf), 광도 손실 함수(Lr), 및 평활도 손실 함수(Ls)에 대해, 상이한 가중치(예컨대, λf, λs)를 적용할 수 있다. 다른 실시예에 따르면, 프로세서(140)는 특징 분리 손실 함수(Lf), 광도 손실 함수(Lr), 평활도 손실 함수(Ls), 및 데이터 증류 손실 함수(Ld)를 기반으로, 최종 손실 함수(L)를 구성할 수 있다. 이 때, 프로세서(140)는 분리 손실 함수(Lf), 광도 손실 함수(Lr), 평활도 손실 함수(Ls), 및 데이터 증류 손실 함수(Ld)에 대해, 상이한 가중치(예컨대, λf, λs, λd)를 적용할 수 있다.
다양한 실시예들에 따르면, 컴퓨터 시스템(100)은 비지도 학습을 통해, 광학 흐름을 추정할 수 있다. 구체적으로, 컴퓨터 시스템(100)은 연속되는 복수의 이미지들(I(t), I(t+1))에 대한 딥 유사도를 기반으로 하는 비지도 학습을 통해, 광학 흐름을 추정하기 위한 딥러닝 모델을 학습할 수 있다. 이러한 딥러닝 모델을 이용하여, 컴퓨터 시스템(100)은 입력되는 복수의 다른 이미지들에 대한 광학 흐름을 빠른 시간 내에 추정할 수 있다. 이 때, 컴퓨터 시스템(100)이 딥 유사도 맵에서의 가림 위치들과 비가림 위치들로 구분함으로써 획득되는 특징 분리 손실 함수를 이용하여, 광학 흐름을 추정함으로써, 광학 흐름의 성능이 증대될 수 있다. 즉, 컴퓨터 시스템(100)은 보다 높은 수준의 정보를 기반으로, 보다 높은 성능의 광학 흐름을 학습할 수 있다.
다양한 실시예들에 따른 컴퓨터 시스템(100)의 방법은, 연속되는 복수의 이미지들(I(t), I(t+1))에서 추출되는 딥러닝 특징들(hi l(t), hi l(t+1))을 이용하여, 딥 유사도를 계산하는 단계(510 단계), 및 딥 유사도를 기반으로, 이미지들(I(t), I(t+1))에 대한 광학 흐름을 학습하는 단계(520 단계)를 포함할 수 있다.
다양한 실시예들에 따르면, 딥러닝 특징들(hi l(t), hi l(t+1))은, 복수의 레이어들로 이루어지는 딥 네트워크를 이용하여, 이미지들(I(t), I(t+1))의 각각에서 추출될 수 있다.
다양한 실시예들에 따르면, 딥 유사도를 계산하는 단계(510 단계)는, 레이어들의 각각에 대해, 이미지들(I(t), I(t+1))에서 서로 매핑되는 위치들의 딥러닝 특징들(hi l(t), hi l(t+1))의 내적을 기반으로, 위치들에서의 유사도를 계산하는 단계(613 단계), 및 레이어들의 유사도들을 곱으로 합하여, 위치들에서의 딥 유사도를 계산하는 단계(615 단계)를 포함할 수 있다.
다양한 실시예들에 따르면, 컴퓨터 시스템(100)의 방법은, 딥 유사도를 기반으로 이미지들(I(t), I(t+1))의 모든 위치들이 각각 매칭되는 딥 유사도 맵(simf)을 생성하는 단계를 더 포함할 수 있다.
다양한 실시예들에 따르면, 광학 흐름을 학습하는 단계(520 단계)는, 딥 유사도 맵(simf)에서 가림 위치들과 비가림 위치들을 추정하는 단계(721 단계), 가림 위치들에 대한 제 1 평균 유사도(kocc)와 비가림 위치들에 대한 제 2 평균 유사도(knoc)를 기반으로, 유사도 임계값(k)을 정의하는 단계(723 단계), 및 유사도 임계값(k)을 갖는 손실 함수를 이용하여, 광학 흐름을 학습하는 단계(725 단계)를 포함할 수 있다.
다양한 실시예들에 따르면, 유사도 임계값(k)은, 제 1 평균 유사도(kocc)와 제 2 평균 유사도(knoc)의 평균값일 수 있다.
다양한 실시예들에 따르면, 손실 함수는, 유사도 임계값(k)을 기준으로, 딥 유사도 맵(simf)에서의 대비를 높이도록 구성되는 특징 분리 손실 함수(Lf)일 수 있다.
다양한 실시예들에 따르면, 손실 함수를 이용하여, 광학 흐름을 학습하는 단계(725 단계)는, 딥 유사도 맵(simf)을 기반으로 하는 광도 손실 함수(Lr), 또는 딥 유사도 맵(simf)을 기반으로 하는 평활도 손실 함수(Ls) 중 적어도 하나를 더 이용하여, 광학 흐름을 학습할 수 있다.
다양한 실시예들에 따르면, 손실 함수를 이용하여, 광학 흐름을 학습하는 단계(725 단계)는, 특징 분리 손실 함수(Lf), 광도 손실 함수(Lr), 또는 평활도 손실 함수(Ls) 중 적어도 하나에 대해, 상이한 가중치(예컨대, λf, λs)를 적용할 수 있다.
다양한 실시예들에 따른 컴퓨터 시스템(100)은, 메모리(130), 및 메모리(130)와 연결되고, 메모리(130)에 저장된 적어도 하나의 명령을 실행하도록 구성되는 프로세서(140)를 포함할 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 연속되는 복수의 이미지들(I(t), I(t+1))에서 추출되는 딥러닝 특징들(hi l(t), hi l(t+1))을 이용하여, 딥 유사도를 계산하고, 딥 유사도를 기반으로, 이미지들(I(t), I(t+1))에 대한 광학 흐름을 학습하도록 구성될 수 있다.
다양한 실시예들에 따르면, 딥러닝 특징들(hi l(t), hi l(t+1))은, 복수의 레이어들로 이루어지는 딥 네트워크를 이용하여, 이미지들(I(t), I(t+1))의 각각에서 추출될 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 레이어들의 각각에 대해, 이미지들(I(t), I(t+1))에서 서로 매핑되는 위치들의 딥러닝 특징들(hi l(t), hi l(t+1))의 내적을 기반으로, 위치들에서의 유사도를 계산하고, 레이어들의 유사도들을 곱으로 합하여, 위치들에서의 딥 유사도를 계산하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 딥 유사도를 기반으로 이미지들(I(t), I(t+1))의 모든 위치들이 각각 매칭되는 딥 유사도 맵(simf)을 생성하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 딥 유사도 맵(simf)에서 가림 위치들과 비가림 위치들을 추정하고, 가림 위치들에 대한 제 1 평균 유사도(kocc)와 비가림 위치들에 대한 제 2 평균 유사도(knoc)를 기반으로, 유사도 임계값(k)을 정의하고, 유사도 임계값(k)을 갖는 손실 함수를 이용하여, 광학 흐름을 학습하도록 구성될 수 있다.
다양한 실시예들에 따르면, 유사도 임계값(k)은, 제 1 평균 유사도(kocc)와 제 2 평균 유사도(knoc)의 평균값일 수 있다.
다양한 실시예들에 따르면, 손실 함수는, 유사도 임계값(k)을 기준으로, 딥 유사도 맵(simf)에서의 대비를 높이도록 구성되는 특징 분리 손실 함수(Lf)일 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 딥 유사도 맵(simf)을 기반으로 하는 광도 손실 함수(Lr), 또는 딥 유사도 맵(simf)을 기반으로 하는 평활도 손실 함수(Ls) 중 적어도 하나를 더 이용하여, 광학 흐름을 학습하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 특징 분리 손실 함수(Lf), 광도 손실 함수(Lr), 또는 평활도 손실 함수(Ls) 중 적어도 하나에 대해, 상이한 가중치(예컨대, λf, λs)를 적용할 수 있다.
이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성 요소는, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성 요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
다양한 실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터-판독 가능 매체에 기록될 수 있다. 이 때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 그리고, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성 요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성 요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성 요소를 다른 구성 요소와 구분하기 위해 사용될 뿐 해당 구성 요소들을 한정하지 않는다. 어떤(예: 제 1) 구성 요소가 다른(예: 제 2) 구성 요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성 요소가 상기 다른 구성 요소에 직접적으로 연결되거나, 다른 구성 요소(예: 제 3 구성 요소)를 통하여 연결될 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
다양한 실시예들에 따르면, 기술한 구성 요소들의 각각의 구성 요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성 요소들 중 하나 이상의 구성 요소들 또는 단계들이 생략되거나, 또는 하나 이상의 다른 구성 요소들 또는 단계들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성 요소들(예: 모듈 또는 프로그램)은 하나의 구성 요소로 통합될 수 있다. 이런 경우, 통합된 구성 요소는 복수의 구성 요소들 각각의 구성 요소의 하나 이상의 기능들을 통합 이전에 복수의 구성 요소들 중 해당 구성 요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 단계들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 단계들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 단계들이 추가될 수 있다.

Claims (20)

  1. 컴퓨터 시스템의 방법에 있어서,
    연속되는 복수의 이미지들에서 추출되는 딥러닝 특징들을 이용하여, 딥 유사도를 계산하는 단계; 및
    상기 딥 유사도를 기반으로, 상기 이미지들에 대한 광학 흐름을 학습하는 단계
    를 포함하는,
    방법.
  2. 제 1 항에 있어서,
    상기 딥러닝 특징들은,
    복수의 레이어들로 이루어지는 딥 네트워크를 이용하여, 상기 이미지들의 각각에서 추출되는,
    방법.
  3. 제 2 항에 있어서,
    상기 딥 유사도를 계산하는 단계는,
    상기 레이어들의 각각에 대해, 상기 이미지들에서 서로 매핑되는 위치들의 딥러닝 특징들의 내적을 기반으로, 상기 위치들에서의 유사도를 계산하는 단계; 및
    상기 레이어들의 유사도들을 곱으로 합하여, 상기 위치들에서의 상기 딥 유사도를 계산하는 단계
    를 포함하는,
    방법.
  4. 제 1 항에 있어서,
    상기 딥 유사도를 기반으로 상기 이미지들의 모든 위치들이 각각 매칭되는 딥 유사도 맵을 생성하는 단계
    를 더 포함하는,
    방법.
  5. 제 4 항에 있어서,
    상기 광학 흐름을 학습하는 단계는,
    상기 딥 유사도 맵에서 가림(occlusion) 위치들과 비가림(non-occlusion) 위치들을 추정하는 단계;
    상기 가림 위치들에 대한 제 1 평균 유사도와 상기 비가림 위치들에 대한 제 2 평균 유사도를 기반으로, 유사도 임계값을 정의하는 단계; 및
    상기 유사도 임계값을 갖는 손실 함수를 이용하여, 상기 광학 흐름을 학습하는 단계
    를 포함하는,
    방법.
  6. 제 5 항에 있어서,
    상기 유사도 임계값은,
    상기 제 1 평균 유사도와 상기 제 2 평균 유사도의 평균값인,
    방법.
  7. 제 5 항에 있어서,
    상기 손실 함수는,
    상기 유사도 임계값을 기준으로, 상기 딥 유사도 맵에서의 대비를 높이도록 구성되는 특징 분리 손실 함수인,
    방법.
  8. 제 5 항에 있어서,
    상기 손실 함수를 이용하여, 상기 광학 흐름을 학습하는 단계는,
    상기 딥 유사도 맵을 기반으로 하는 광도(photometric) 손실 함수, 또는 상기 딥 유사도 맵을 기반으로 하는 평활도(smoothness) 손실 함수 중 적어도 하나를 더 이용하여, 상기 광학 흐름을 학습하는,
    방법.
  9. 제 8 항에 있어서,
    상기 손실 함수를 이용하여, 상기 광학 흐름을 학습하는 단계는,
    상기 특징 분리 손실 함수, 상기 광도 손실 함수, 또는 상기 평활도 손실 함수 중 적어도 하나에 대해, 상이한 가중치를 적용하는,
    방법.
  10. 컴퓨터 시스템에 있어서,
    메모리; 및
    상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성되는 프로세서를 포함하고,
    상기 프로세서는,
    연속되는 복수의 이미지들에서 추출되는 딥러닝 특징들을 이용하여, 딥 유사도를 계산하고,
    상기 딥 유사도를 기반으로, 상기 이미지들에 대한 광학 흐름을 학습하도록 구성되는,
    컴퓨터 시스템.
  11. 제 10 항에 있어서,
    상기 딥러닝 특징들은,
    복수의 레이어들로 이루어지는 딥 네트워크를 이용하여, 상기 이미지들의 각각에서 추출되는,
    컴퓨터 시스템.
  12. 제 11 항에 있어서,
    상기 프로세서는,
    상기 레이어들의 각각에 대해, 상기 이미지들에서 서로 매핑되는 위치들의 딥러닝 특징들의 내적을 기반으로, 상기 위치들에서의 유사도를 계산하고,
    상기 레이어들의 유사도들을 곱으로 합하여, 상기 위치들에서의 상기 딥 유사도를 계산하도록 구성되는,
    컴퓨터 시스템.
  13. 제 10 항에 있어서,
    상기 프로세서는,
    상기 딥 유사도를 기반으로 상기 이미지들의 모든 위치들이 각각 매칭되는 딥 유사도 맵을 생성하도록 구성되는,
    컴퓨터 시스템.
  14. 제 13 항에 있어서,
    상기 프로세서는,
    상기 딥 유사도 맵에서 가림 위치들과 비가림 위치들을 추정하고,
    상기 가림 위치들에 대한 제 1 평균 유사도와 상기 비가림 위치들에 대한 제 2 평균 유사도를 기반으로, 유사도 임계값을 정의하고,
    상기 유사도 임계값을 갖는 손실 함수를 이용하여, 상기 광학 흐름을 학습하도록 구성되는,
    컴퓨터 시스템.
  15. 제 14 항에 있어서,
    상기 유사도 임계값은,
    상기 제 1 평균 유사도와 상기 제 2 평균 유사도의 평균값인,
    컴퓨터 시스템.
  16. 제 14 항에 있어서,
    상기 손실 함수는,
    상기 유사도 임계값을 기준으로, 상기 딥 유사도 맵에서의 대비를 높이도록 구성되는 특징 분리 손실 함수인,
    컴퓨터 시스템.
  17. 제 14 항에 있어서,
    상기 프로세서는,
    상기 딥 유사도 맵을 기반으로 하는 광도 손실 함수, 또는 상기 딥 유사도 맵을 기반으로 하는 평활도 손실 함수 중 적어도 하나를 더 이용하여, 상기 광학 흐름을 학습하도록 구성되는,
    컴퓨터 시스템.
  18. 제 17 항에 있어서,
    상기 프로세서는,
    상기 특징 분리 손실 함수, 상기 광도 손실 함수, 또는 상기 평활도 손실 함수 중 적어도 하나에 대해, 상이한 가중치를 적용하도록 구성되는,
    컴퓨터 시스템.
  19. 비-일시적인 컴퓨터-판독 가능 저장 매체에 있어서,
    연속되는 복수의 이미지들에서 추출되는 딥러닝 특징들을 이용하여, 딥 유사도를 계산하는 단계; 및
    상기 딥 유사도를 기반으로, 상기 이미지들에 대한 광학 흐름을 학습하는 단계
    를 포함하는 방법을 실행하기 위한 하나 이상의 프로그램들을 저장하기 위한 컴퓨터-판독 가능 저장 매체.
  20. 제 19 항에 있어서,
    상기 방법은,
    상기 딥 유사도를 기반으로 상기 이미지들의 모든 위치들이 각각 매칭되는 딥 유사도 맵을 생성하는 단계
    를 더 포함하고,
    상기 광학 흐름을 학습하는 단계는,
    상기 딥 유사도 맵에서 가림(occlusion) 위치들과 비가림(non-occlusion) 위치들을 추정하는 단계;
    상기 가림 위치들에 대한 제 1 평균 유사도와 상기 비가림 위치들에 대한 제 2 평균 유사도를 기반으로, 유사도 임계값을 정의하는 단계; 및
    상기 유사도 임계값을 갖는 손실 함수를 이용하여, 상기 광학 흐름을 학습하는 단계
    를 포함하는,
    컴퓨터-판독 가능 저장 매체.
KR1020210062354A 2021-05-14 2021-05-14 광학 흐름 추정을 위한 딥 유사도 기반 비지도 학습의 컴퓨터 시스템 및 그의 방법 KR102544800B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210062354A KR102544800B1 (ko) 2021-05-14 2021-05-14 광학 흐름 추정을 위한 딥 유사도 기반 비지도 학습의 컴퓨터 시스템 및 그의 방법
US17/538,555 US20220366669A1 (en) 2021-05-14 2021-11-30 Computer system of unsupervised learning with deep similarity for optical flow estimation and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210062354A KR102544800B1 (ko) 2021-05-14 2021-05-14 광학 흐름 추정을 위한 딥 유사도 기반 비지도 학습의 컴퓨터 시스템 및 그의 방법

Publications (2)

Publication Number Publication Date
KR20220154872A true KR20220154872A (ko) 2022-11-22
KR102544800B1 KR102544800B1 (ko) 2023-06-20

Family

ID=83997934

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210062354A KR102544800B1 (ko) 2021-05-14 2021-05-14 광학 흐름 추정을 위한 딥 유사도 기반 비지도 학습의 컴퓨터 시스템 및 그의 방법

Country Status (2)

Country Link
US (1) US20220366669A1 (ko)
KR (1) KR102544800B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595271A (zh) * 2023-07-17 2023-08-15 湖南谛图科技有限公司 基于深度学习的空间地图信息推荐方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761594B (zh) * 2022-11-28 2023-07-21 南昌航空大学 一种基于全局与局部耦合的光流计算方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200010971A (ko) * 2018-06-25 2020-01-31 한국전자통신연구원 광학 흐름 추정을 이용한 이동체 검출 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200010971A (ko) * 2018-06-25 2020-01-31 한국전자통신연구원 광학 흐름 추정을 이용한 이동체 검출 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Zachary Teed et al., RAFT: Recurrent All-Pairs Field Transforms for Optical Flow, arXiv:2003.12039v3, 1-21pages (2022. 8. 25.)* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595271A (zh) * 2023-07-17 2023-08-15 湖南谛图科技有限公司 基于深度学习的空间地图信息推荐方法
CN116595271B (zh) * 2023-07-17 2023-09-12 湖南谛图科技有限公司 基于深度学习的空间地图信息推荐方法

Also Published As

Publication number Publication date
KR102544800B1 (ko) 2023-06-20
US20220366669A1 (en) 2022-11-17

Similar Documents

Publication Publication Date Title
US11145075B2 (en) Depth from motion for augmented reality for handheld user devices
KR102544800B1 (ko) 광학 흐름 추정을 위한 딥 유사도 기반 비지도 학습의 컴퓨터 시스템 및 그의 방법
US20150347846A1 (en) Tracking using sensor data
US11651214B2 (en) Multimodal data learning method and device
US11430124B2 (en) Visual object instance segmentation using foreground-specialized model imitation
US20210170229A1 (en) Systems and methods for providing strategic game recommendations in a sports contest using artificial intelligence
KR102094506B1 (ko) 피사체 추적 기법을 이용한 카메라와 피사체 사이의 거리 변화 측정방법 상기 방법을 기록한 컴퓨터 판독 가능 저장매체 및 거리 변화 측정 장치.
US11717467B2 (en) Automated generation of control signals for sexual stimulation devices
US11455471B2 (en) System and method for explaining and compressing deep learning natural language understanding (NLU) models
CN110874853A (zh) 目标运动的确定方法、装置、设备及存储介质
US11989939B2 (en) System and method for enhancing machine learning model for audio/video understanding using gated multi-level attention and temporal adversarial training
KR20210067874A (ko) 경기 영상 내의 타겟 영상을 제공하기 위한 전자 장치 및 그의 동작 방법
US11481039B2 (en) System for recognizing user hand gesture and providing virtual reality content based on deep learning using transfer learning
US20210342624A1 (en) System and method for robust image-query understanding based on contextual features
CN111833391B (zh) 图像深度信息的估计方法及装置
US11854528B2 (en) Method and system for detecting unsupported utterances in natural language understanding
CN117795550A (zh) 用于在训练图像生成对抗网络中使用的图像质量敏感语义分割
CN111507944B (zh) 皮肤光滑度的确定方法、装置和电子设备
CN115362478A (zh) 用于标记图像之间的空间关系的强化学习模型
US11900258B2 (en) Learning device, image generating device, learning method, image generating method, and program
KR20210059612A (ko) 심층 신경망 특징 매칭을 위한 비대칭 정규화 상관 계층
US20220067487A1 (en) Electronic device for generating data and improving task performance by using only very small amount of data without prior knowledge of associative domain and operating method thereof
US11847771B2 (en) Systems and methods for quantitative evaluation of optical map quality and for data augmentation automation
US20230385546A1 (en) System and method for context insertion for contrastive siamese network training
US20230040176A1 (en) Controllable neural networks or other controllable machine learning models

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant