KR102176273B1 - 동영상 수평 조정 시스템, 방법 및 컴퓨터 프로그램 - Google Patents

동영상 수평 조정 시스템, 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR102176273B1
KR102176273B1 KR1020190080806A KR20190080806A KR102176273B1 KR 102176273 B1 KR102176273 B1 KR 102176273B1 KR 1020190080806 A KR1020190080806 A KR 1020190080806A KR 20190080806 A KR20190080806 A KR 20190080806A KR 102176273 B1 KR102176273 B1 KR 102176273B1
Authority
KR
South Korea
Prior art keywords
rotation angle
video
rotation
estimation
present
Prior art date
Application number
KR1020190080806A
Other languages
English (en)
Inventor
원주철
조성현
Original Assignee
재단법인대구경북과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인대구경북과학기술원 filed Critical 재단법인대구경북과학기술원
Priority to KR1020190080806A priority Critical patent/KR102176273B1/ko
Application granted granted Critical
Publication of KR102176273B1 publication Critical patent/KR102176273B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06T3/0093
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 일 실시예에 따르면 사용자 단말로부터 입력 비디오를 획득하는 비디오 입력부; 회전 추정 네트워크를 이용하여 상기 입력 비디오의 회전각의 초기 추정치를 산출하는 제1 회전각 추정부; 이미지의 복수개 로컬영역별 회전각의 추정을 이용하는 오류모델에 기반하여 상기 초기 추정치로부터 최종 회전각을 추정하는 제2 회전각 추정부; 상기 최종 회전각에 기반하여 상기 입력 비디오의 프레임을 역회전시키는 프레임 회전부; 를 포함하는 동영상 수평 조정 시스템이 제공된다.

Description

동영상 수평 조정 시스템, 방법 및 컴퓨터 프로그램{METHOD, SYSTEM AND COMPUTER PROGRAM FOR VIDEO UPRIGHT ADJUSTMENT}
본 발명은 동영상 수평 조정 시스템, 방법 및 컴퓨터 프로그램에 관한 것으로, 보다 상세하게는 딥러닝과 베이지안 추론을 결합하여 비디오 프레임에서 정확한 회전각을 추정하는 동영상 수평 조정 시스템, 방법 및 컴퓨터 프로그램에 관한 것이다.
근래에는 폰 카메라와 액션 캠 등을 이용하여 일반인도 손쉽게 동영상을 촬영할 수 있다. 그러나, 고품질의 동영상을 촬영하는 것은 일반인에게는 여전히 어려운데, 그 이유는 전문 기기를 이용한 촬영이 아니므로 손떨림 및 수평 기울어짐이 발생하여 영상의 심미적 품질을 저하시키고 시각적으로도 불안정함을 유발할 수 있기 때문이다.
한편, 정지된 이미지의 기울어진 수평을 조절하는 방법들이 기존에 연구되고 있었다. 대표적인 것으로는, 이미지 내에 존재하는 수평선이나 건물과 같은 구조물의 방향을 이용하여 기울어짐을 보정하는 방법이 존재한다.
본 발명은 딥러닝 및 베이지안 추론을 결합하여 정확한 회전각을 추정하여 비디오의 수평을 조정하는 것을 일 목적으로 한다.
또한, 본 발명은 비디오 안정화 및 수평 조정을 동시에 적용하는 것을 다른 목적으로 한다.
본 발명의 일 실시예에 따르면, 사용자 단말로부터 입력 비디오를 획득하는 비디오 입력부; 회전 추정 네트워크를 이용하여 상기 입력 비디오의 회전각의 초기 추정치를 산출하는 제1 회전각 추정부; 상기 추정치인 제1 회전각으로부터 제 1 회전각에 존재하는 오류를 제거하여 최종 회전각을 추정하는 제2 회전각 추정부; 상기 최종 회전각에 기반하여 상기 입력 비디오의 프레임을 역회전시키는 프레임 회전부; 를 포함하는 동영상 수평 조정 시스템이 제공된다.
본 발명에 있어서, 상기 회전 추정 네트워크는, 복수개의 이미지로 이루어진 훈련 데이터 세트를 임의의 회전각으로 회전시킨 후 상기 회전각을 예측하는 컨볼루션 뉴럴 네트워크(convolutional neural network, CNN)를 훈련하여 생성된 추정 네트워크일 수 있다.
본 발명에 있어서, 상기 제2 회전각 추정부는, 이미지의 복수개 로컬영역별 회전각의 추정을 이용하는 오류모델에 기반하여 상기 초기 추정치로부터 오류를 제거하여 최종 회전각을 추정할 수 있다.
본 발명에 있어서, 상기 오류모델은, 상기 입력 비디오의 매 프레임에서 복수의 로컬 영역에 대한 회전각 추정치의 분산 및 제곱 오차의 분포를 이용하여 상기 회전 추정 네트워크의 신뢰성을 분석하는 모델일 수 있다.
본 발명에 있어서, 상기 제2 회전각 추정부는, 상기 오류모델을 사용하여 연속적인 프레임 간의 상대적인 회전을 고려하여 상기 최종 회전각을 추정할 수 있다.
본 발명에 있어서, 특징점 매칭 및 상기 최종 회전각을 이용하여 획득한 안정화 및 수평 조정된 카메라 경로를 이용하여 워핑(warping) 및 크로핑(cropping)을 수행하는 결합부; 를 추가적으로 포함할 수 있다.
본 발명의 다른 실시예에 따르면, 사용자 단말로부터 입력 비디오를 획득하는 비디오 입력 단계; 회전 추정 네트워크를 이용하여 상기 입력 비디오의 회전각의 초기 추정치를 산출하는 제1 회전각 추정 단계; 상기 추정치인 제1 회전각으로부터 제 1 회전각에 존재하는 오류를 제거하여 최종 회전각을 추정하는 제2 회전각 추정 단계; 상기 최종 회전각에 기반하여 상기 입력 비디오의 프레임을 역회전시키는 프레임 회전 단계; 를 포함하는 동영상 수평 조정 방법이 제공된다.
또한, 본 발명에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 제공된다.
본 발명에 의하면, 딥러닝 및 베이지안 추론을 결합하여 정확한 회전각을 추정함으로써 시간적으로 일관되고 신뢰할 수 있는 비디오 수평 조정 방법을 제공할 수 있다.
본 발명에 의하면, 비디오 안정화 및 수평 조정을 동시에 적용하면서도 손실되는 부분을 최소로 하여 비디오 품질을 유지할 수 있다.
도 1 은 본 발명의 일 실시예에 따른 동영상 수평 조정 시스템의 구성을 나타낸 도면이다.
도 2 는 본 발명의 일 실시예에 따르면 서버의 내부 구성을 설명하기 위한 블록도이다.
도 3 은 본 발명의 일 실시예에 따른 동영상 수평 조정 시스템의 프로세서의 내부 구성을 나타낸 것이다.
도 4 는 본 발명의 일 실시예에 따른 동영상 수평 조정 방법을 나타낸 순서도이다.
도 5 는 본 발명의 일 따른 회전 추정 네트워크를 설명하기 위한 것이다.
도 6 은 본 발명의 일 실시예에 따른 로컬 영역을 설명하기 위한 것이다.
도 7 은 본 발명의 일 실시예에 따른 오류 분석을 나타낸 그래프이다.
도 8 은 본 발명의 일 실시예에 따른 결합 방법을 도식으로 나타낸 것이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1 은 본 발명의 일 실시예에 따른 동영상 수평 조정 시스템의 구성을 나타낸 도면이다.
도 1 을 참조하면, 본 발명의 일 실시예에 따른 동영상 수평 조정 시스템을 개시하고 있다. 본 발명의 동영상 수평 조정 시스템은 서버(200) 및 사용자 단말(100)을 포함한다.
본 발명의 일 실시예에 따른 서버(200)는 사용자 단말로부터 동영상을 획득하고, 동영상의 수평을 조정하고 안정화하여 보정된 동영상을 사용자 단말(100)에 제공할 수 있다. 동영상의 수평 조정이란, 촬영된 동영상에서 수평이 맞지 않는 영상들의 기울기를 보정하는 것을 말한다. 이하의 명세서에서 수평 조정과 수직 조정은 동의어로 사용될 수 있다. 또한, 동영상의 안정화란, 동영상에 떨림이 존재하는 경우 이를 보정하는 것을 말한다.
보다 상세히, 본 발명은 비디오 수평 조정 방법에 관한 것으로서, 딥 러닝(deep learning)과 베이지안 추론(Bayesian inference)을 결합하여 비디오 프레임에서 정확한 회전각을 추정하여 비디오의 수평을 조정할 수 있는 동영상 수평 보정 시스템에 관한 것이다.
본 발명은 입력 비디오 프레임의 회전 각의 초기 추정치를 얻기 위해 컨볼루션 뉴럴 네트워크(convolutional neural network, CNN)를 훈련시킨다. 그러나, 컨볼루션 뉴럴 네트워크로부터의 초기 추정치는 시간적으로 일관성이없고 부정확하다는 단점이 존재한다. 본 발명은 이를 해결하기 위해 베이지안 추론을 사용한다. 본 발명은 네트워크의 추정 오류를 분석하고 오류모델을 도출한 후, 오류모델을 사용하여 연속적인 프레임 간의 상대적인 회전을 고려하면서 초기 추정치와 일관된 회전각을 추정하여 비디오 수평 수정을 수행한다. 마지막으로, 본 발명은 안정화 및 수평 조정을 별도로 처리하여 발생하는 정보 손실을 최소화하기 위하여 비디오 안정화 및 수평 조정을 동시에 수행할 수 있다.
근래에는 폰 카메라와 액션 캠 등을 이용하여 일반인도 손쉽게 동영상을 촬영할 수 있다. 그러나, 고품질의 동영상을 촬영하는 것은 일반인에게는 여전히 어려운데, 그 이유는 전문 기기를 이용한 촬영이 아니므로 손떨림 및 수평 기울어짐이 발생하여 영상의 심미적 품질을 저하시키고 시각적으로도 불안정함을 유발할 수 있기 때문이다.
이와 같은 문제점을 해결하기 위해, 비디오에서 카메라 흔들림을 제거하는 것을 동영상 안정화(Video stabilization) 기법이라 하며, 현재 여러가지 비디오 안정화 기법이 있고 동영상 편집 소프트웨어에서 비디오 안정화 기능을 제공하고 있다. 그러나, 동영상의 수평 기울어짐 현상에 대한 해결 방법은 특별히 연구되지 않고 있고, 정지된 이미지의 수평 기울어짐을 보정하는 방법만이 간간히 연구되고 있다.
그러나, 이미지의 수평 기울어짐 방법을 동영상에 동일하게 적용하기에는 어려움이 존재한다. 이는, 이미지 수평 조정 방법을 각 동영상 프레임에 적용할 경우 시작적으로 일관성 및 안정성이 보장되지 않기 때문이다. 즉, 프레임마다 영상이 끊기는 현상이 발생할 수 있다. 더불어, 이미지의 수평 조정 방법은 부정확한 결과를 도출하더라도 CNN에서 오류를 감지하기가 어렵다.
본 발명에서는, 비디오 프레임의 회전각을 정확하게 예측할 수 있는 새로운 비디오 수평 조정 방법을 제안한다. 이를 위해, 본 발명은 딥 러닝과 베이지안 추론을 결합하여 신뢰할 수 있는 3단계의 프로세스로 수평 조정 방법을 설계한다.
보다 상세히, 첫번째로, 본 발명은 CNN을 이용하여 입력 비디오로부터 회전각의 초기 추정치를 획득한다. 그러나, CNN 으로부터의 회전각도 초기 추정치는 오차가 존재하여 시간적으로 일치하지 않는 수평 조정 결과를 초래할 수 있다. 이를 해결하기 위해 CNN 의 오류를 분석하고 오류모델을 도출한다.
두번째로, 본 발명은 오류모델을 기반으로 최대 사후 확률(maximum a posteriori, MAP) 문제를 해결하여 초기 추정치로부터 안정적이고 일관된 회전각을 추정한다. 이때, 본 발명은 정확도를 높이기 위해 연속된 프레임 간의 상대 회전을 활용하기 전에 시간적 일관성을 적용한다. 이로 인해, 본 발명은 더 정확하고 일관된 회전각을 얻을 수 있다.
세번째로, 본 발명은 추정된 각도만큼 입력 비디오 프레임을 역회전시켜 기울어진 수평을 조정한다.
더불어, 본 발명에 따르면 비디오 안정화 방법과 수평 조정 방법을 동시에 적용하면서도 비디오 품질을 유지할 수 있다. 그러나, 비디오 안정화와 비디오 수평 조정은 모두 프레임 경계를 잘라내어 잘못된 픽셀을 제거하므로 해상도가 과도하게 손실되는 문제점이 존재한다. 따라서 두가지를 순차적으로 적용할 경우 비디오 품질이 저하될 수 있다. 이에, 본 발명은 비디오 안정화와 수평 조정 방법을 동시에 적용하되, 비디오 프레임을 회전시키지 않고 회전각을 추정한 다음, 추청된 회전각을 반영하되 잘리지 않은 비디오 프레임에서 비디오 안정화를 위한 워핑 파라미터(warping parameters)를 추정한다. 그 후, 비디오 안정화 및 수평 조정을 위해 비디오 프레임을 변형한다. 이때, 본 발명은 워핑 파라미터를 계산하기 위해 잘리지 않은 비디오 프레임을 사용함으로서, 본 발명은 더 많은 내용을 보전하면서 비디오를 보다 정확히 안정화시킬 수 있다.
도 2 는 본 발명의 일 실시예에 따르면 서버의 내부 구성을 설명하기 위한 블록도이다.
본 실시예에 따른 서버(200)는 프로세서(210), 버스(220), 네트워크 인터페이스(230) 및 메모리(240)를 포함할 수 있다. 메모리(240)는 운영체제(241) 및 서비스 제공 루틴(242)을 포함할 수 있다. 프로세서(210)는 다른 실시예들에서 서버(200)는 도 2의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다.
메모리(240)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(240)에는 운영체제(241)와 서비스 제공 루틴(242)을 위한 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism, 미도시)을 이용하여 메모리(240)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체(미도시)를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 네트워크 인터페이스(230)를 통해 메모리(240)에 로딩될 수도 있다.
버스(220)는 서버(200)의 구성요소들간의 통신 및 데이터 전송을 가능하게 할 수 있다. 버스(220)는 고속 시리얼 버스(high-speed serial bus), 병렬 버스(parallel bus), SAN(Storage Area Network) 및/또는 다른 적절한 통신 기술을 이용하여 구성될 수 있다.
네트워크 인터페이스(230)는 서버(200)를 컴퓨터 네트워크에 연결하기 위한 컴퓨터 하드웨어 구성요소일 수 있다. 네트워크 인터페이스(230)는 서버(200)를 무선 또는 유선 커넥션을 통해 컴퓨터 네트워크에 연결시킬 수 있다.
프로세서(210)는 기본적인 산술, 로직 및 서버(200)의 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(240) 또는 네트워크 인터페이스(230)에 의해, 그리고 버스(220)를 통해 프로세서(210)로 제공될 수 있다. 프로세서(210)는 프로그램 코드를 실행하도록 구성될 수 있다. 이러한 프로그램 코드는 메모리(240)와 같은 기록 장치에 저장될 수 있다.
도 3 은 본 발명의 일 실시예에 따른 동영상 수평 조정 시스템의 프로세서의 내부 구성을 나타낸 것이다.
도 3 을 참조하면, 본 발명의 일 실시예에 따른 프로세서(210)는 비디오 입력부(310), 오류모델 생성부(330), 수평 조정부(340), 제1 회전각 추정부(341), 제2 회전각 추정부(342), 프레임 회전부(343) 및 결합부(350)를 포함할 수 있다.
도 4 는 본 발명의 일 실시예에 따른 동영상 수평 조정 방법을 나타낸 순서도이다.
이하에서는, 도 3 및 도 4 를 함께 참조하여 본 발명의 동영상 수평 조정 시스템 및 방법을 설명하기로 한다.
먼저, 비디오 입력부(310)는 사용자 단말(100)로부터 입력 비디오를 획득한다(S1). 이때, 입력 비디오는 사용자가 사용자 단말(100)을 이용하여 직접 촬영할 수 있다.
다음으로, 네트워크 생성부(320)는 비디오의 회전각을 추정하기 위한 회전 추정 네트워크(Rotation Estimation Network)를 생성한다. 본 발명의 회전 추정 네트워크는 직선이 없는 영상에서도 회전 각을 추정할 수 있도록 컨볼루션 뉴럴 네트워크(CNN)를 훈련한다. CNN 기반 접근법은 기존의 방법에 비해 수평 또는 수평 방향 가장자리가 없는 이미지를 처리할 수 있고, 가장자리 감지 또는 복잡한 활용이 없고 계산 효율이 높고, 구현하기 쉬우며 높은 정확도를 가질 수 있다.
본 발명의 일 실시예에 따르면, 회전 추정 네트워크는 VGG-19 네트워크(K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.)에 기초하여 변형된 네트워크일 수 있다. 본 발명은 최종 연결된 레이어의 출력 크기를 1,000에서 1로 변경하여 입력 이미지의 회전각에 해당하는 단일 회귀 결과를 생성할 수 있다.
먼저, 네트워크 생성부(320)는 회전 추정 네트워크를 훈련하기 위해 훈련 데이터를 획득할 수 있다. 본 발명은 회전 추정 네트워크의 훈련 데이터 세트로서 복수개의 이미지를 사용할 수 있다. 또한, 네트워크 생성부(320)는 훈련 데이터 세트의 이미지들의 회전각이 0인 것으로 가정하고 훈련 데이터 세트에서 무작위로 이미지를 선택하되, 이때 선택된 이미지들은 직선을 반드시 포함하지 않을 수 있다(즉, 곡선 물체로만 이루어진 이미지와 같이 수평을 판단하기 용이하지 않을 수 있다.). 다음으로, 네트워크 생성부(320)는 훈련 세트의 모든 이미지를 무작위로 회전시킨 후, 회전된 각 이미지로부터 직사각형 모양을 자른다. 이와 같은 잘린 이미지를 이용하여, 해당 잘린 이미지로부터 입력 이미지를 회전시키는데 사용된 임의의 회전각을 예측하도록 회전 추정 네트워크를 반복한다.
예를 들어, 본 발명은 훈련 데이터 세트로서 40 개 도시에서 찍은 다양한 장면의 2,000,000개의 이미지로 구성된 이미지 세트를 사용할 수 있으며, 데이터 세트에서 300,000개의 이미지를 무작위로 샘플링하고 경사 이미지 및 기타 비정상적인 방향으로 캡처한 로고 및 객체와 같은 방해 이미지를 수동으로 제거하여, 최종적으로 110,000 개의 이미지를 최종 훈련 세트로서 얻을 수 있다. 이때, 훈련 세트의 모든 이미지가 직립, 즉 회전 각이 0 인 것으로 가정할 수 있다. 최종 훈련 세트는 구조물의 이미지뿐만 아니라 인물 사진 및 곡선 물체와 같이 명확한 직선이 없는 이미지로 구성될 수 있다. 상술한 예시의 훈련 세트에서 직선이 없는 이미지의 비율은 절반 정도라 가정한다. 이때, 검증을 위해 직립인 이미지 500개를 추가적으로 샘플링할 수 있으며, 이 경우 500개의 이미지 중 100개의 이미지에는 건물 경계와 같은 직선 혹은 수평선이 없을 수 있다.
본 발명의 네트워크 생성부(320)는 회전 추정 네트워크 훈련을 위해 훈련 데이터 세트의 이미지를 무작위로 회전시킨다. 이때, 가능한 범위의 회전각 범위를 [-45 ?, +45 ?]로 제한한다. 다음으로, 회전된 각 이미지의 가운데 가장 큰 정사각형 모양을 자르고, 잘린 영역의 크기를 224 × 224로 조정한다. 다음으로, 네트워크 생성부(320)는 본 발명의 회전 추정 네트워크를 훈련시켜 입력 이미지를 회전시키는 데 사용된 임의의 회전각을 예측한다.
보다 상세히, 네트워크 생성부(320)는 처음부터 네트워크를 훈련하는 대신 사전 훈련 된 VGG-19 네트워크를 미세 조정한다. 특히 무작위로 초기화 된 최종 완전 연결 레이어를 제외하고 사전 훈련된 파라미터를 사용하여 네트워크의 모든 파라미터를 초기화한다. 본 발명의 네트워크 생성부(320)는 훈련 시기를 반복할 때마다 학습률이 감소하도록 설정할 수 있다. 이와 같은 본 발명의 구체적인 예시에서, 네트워크 생성부(320)는 본 발명의 회전 추정 네트워크를 330,000회 반복 훈련할 수 있다. 해당 예시에서, 훈련된 회전 추정 네트워크는 검증 세트에서 0.7 ?의 평균 오차를 달성할 수 있다. 상술한 본 발명의 예시는 회전 추정 네트워크를 생성하기 위한 구체적인 예시를 나타낸 것으로서, 본 발명은 반드시 이 예시에 한정되지 않는다.
도 5 는 본 발명의 일 따른 회전 추정 네트워크를 설명하기 위한 것이다.
도 5 는 본 발명의 회전 추정 네트워크를 이용하여 수행된 이미지 수평 보정의 예시를 나타내는 이미지이다. 도 5 의 (a) 열은 입력 이미지, (b) 열은 포토샵을 이용하여 수평 보정을 한 결과, (c) 열은 본 발명의 회전 추정 네트워크에 의한 수평 보정 결과, (d) 열은 그라운드트루스(Ground truth) 이미지이다. 본 발명의 회전 추정 네트워크는 직선에 의존하지 않으므로 직선이 없는 이미지(도 5 의 두번째, 세번째 행)에 대해서도 회전각을 성공적으로 추정하는 것을 알 수 있다. 이와 반대로, 포토샵과 같은 기존의 도구는 명시적 라인 감지에 의존하기 때문에 두번째 및 세번째 행의 이미지에서 수평 보정을 효과적으로 수행하지 못하는 문제점이 존재한다.
다음으로, 오류모델 생성부(330)는 본 발명의 회전 추정네트워크에 의해 추정된 각도의 신뢰도를 측정하기 위해 실험적으로 오류를 분석하고 오류모델을 도출한다. 보다 상세히, 본 발명의 오류 분석은 가정을 포함하는데, 그 가정은 '회전 추정 네트워크가 이미지에 대한 잘못된 추정치를 산출하면, 그것은 이미지가 신뢰할 수 없는 특징이나 서로 모순되는 특징을 가진다는 것을 의미한다' 이다. 즉, 신뢰도가 낮거나 모순되는 특성으로부터 잘못된 추정치가 얻어진다는 것이다. 보다 상세히, 회전은 카메라에 의해 발생되기 때문에 동일 평면의 회전각은 동일해야 하지만 영역 별로 회전각이 달라지는 것은 잘못된 결과라는 것을 뜻한다. 따라서, 본 발명의 회전 추정 네트워크가 동일 이미지의 여러 로컬 영역에 대해 일관되지 않은 각도 추정치를 산출한다면, 본 발명은 그 일관성을 검사함으로서 추정된 회전각의 신뢰성을 예측할 수 있다.
상술한 본 발명의 가정의 타당성을 검증하기 위해, 본 발명은 비디오의 로컬 영역의 회전각 추정치의 분산 및 제곱 오차(squared error)의 기대값을 입력 비디오의 매 프레임에서 실험적으로 분석한다. 본 발명은 분석을 위해 수평 정렬된(수평이 맞는) 1,500 개의 이미지를 수집하고 무작위로 회전시킨다. 각각의 회전된 이미지 Ii 에 대해 i ∈ {1, ..., 1500} 를 이미지 인덱스로 지정하고, 서로 다른 7개의 로컬 영역을 잘라내어 본 발명의 회전 추정 네트워크를 사용하여 각 로컬 영역에 대한 회전각을 추정한다. 관련하여, 원근감과 렌즈 왜곡의 영향을 피하기 위해 폭과 높이가 입력 프레임 높이의 5/6 인 큰 중첩 영역이 있는 큰 로컬 영역을 사용한다. 또한, 각 로컬 영역의 추정치를 j ∈ {1, ..., 7} 인 경우 로 표시한다.
도 6 은 본 발명의 일 실시예에 따른 로컬 영역을 설명하기 위한 것이다.
도 6 을 참조하면, 하나의 이미지가 7개의 로컬 영역으로 나뉜 것을 알 수 있다. 본 발명은 도 6 과 이 생성된 로컬 영역 각각에 대해 회전 추정 네트워크를 통해 추정 회전각 및 추정 회전각들의 분산을 산출한다. 이때, 도 6 에 도시된 바와 같이 로컬 영역들은 정사각형일 수 있다. 또한, 원근감과 렌즈 왜곡의 영향을 피하기 위해, 중앙의 최대 크기 로컬 영역과, 폭과 높이가 입력 프레임 높이의 5/6인 나머지 6개의 로컬 영역을 설정할 수 있다. 또한, 복수개의 로컬 영역들은 각각은 적어도 하나의 다른 로컬 영역과 겹치는 영역이 존재할 수 있다.
다음으로, 오류모델 생성부(330)는 7개의 로컬 영역의 회전각에 대해 평균 및 분산을 계산하고, 이를 회전각 평균 및 회전각 분산 이라 칭한다. 본 발명은 를 회전각 평균 간의 차이로 정의하고, 그라운드 트루스 회전각을 로 정의한다. 마지막으로, 를 그래프에 플롯팅하고, 생성된 선을 최소 자승법(least squares method)로 피팅시킨다.
도 7 은 본 발명의 일 실시예에 따른 오류 분석을 나타낸 그래프이다.
도 7 을 참조하면, 도 7 의 (a) 및 (b) 의 가로축은 로컬 영역의 회전각들의 분산의 분포이고, 세로축은 제곱 에러이다. 도 7의 (a) 는 1500개의 이미지로부터 얻은 데이터이고, 도 7 의 (b) 는 1000개의 프레임의 비디오로부터 얻은 데이터이다.
도 7 을 참조하면, 피팅된 선은 서로 다른 회전각 분산에 대한 제곱 오차의 평균에 해당하거나, 혹은 에러가 제로 평균 분포를 따른다고 가정하면 에러의 분산과 동일하다. 도 7의 (a) 에서 볼 수 있는 바와 같이, 피팅된 선은 양의 기울기를 가지므로 각도 분산만큼 에러도 증가한다.
본 발명의 오류모델 생성부(330)는 또한 회전 카메라 동작이 있는 비디오를 사용하여 얻은 다른 이미지 세트로 상술한 것과 동일한 실험을 수행할 수 있다. 비디오는 1000개의 프레임을 포함하며, 모든 프레임에 대해 그라운드 트루스 회전각을 수동으로 라벨링하였다. 그 후, 각 비디오 프레임에 대하여 첫번째 실험과 동일한 프로세스를 수행하였다. 도 7 의 (b) 는 그 결과를 나타낸 것으로서, 점들의 분포는 동일하지 않지만, 회전각 분산이 증가하면서 에러도 증가한다는 점들의 분포 경향은 유사하다. 이러한 첫번째 및 두번째 실험 결과는 상술한 가정이 옳다는 것을 증명한다.
상술한 본 발명의 분석에 기초하여, 오류모델 생성부(330)는 본 발명의 회전각 분산의 선형 함수로서 오차의 분산을 다음의 [수학식 1]과 같이 모델링할 수 있다.
[수학식 1]
상기 [수학식 1]에서 는 에러의 분산이고, 는 회전각 분산이다. α는 직접적으로 도 7 에 나타난 선의 기술기에 대응하는 스케일 팩터(scale factor)이다. α는 도 7 과 같은 그래프로부터 도출될 수 있다.
본 발명의 접근은 다음과 같이 고려될 수 있다. 본 발명은 동일한 각도로 회전된 이미지들의 분포를 고려할 수 있고, 또한 본 발명의 회전각 추정 네트워크를 회전각의 추정기로 간주할 수 있으며, 이는 회전각 분포의 파라미터가 될 수 있다. 본 발명은 비디오 프레임의 로컬 영역을 잘라서 이용한다. 잘려진 로컬 영역들은 동일 회전각으로 회전된 이미지들이고, 따라서 로컬 영역들은 동일 분포로부터의 샘플로 간주될 수 있다. 따라서, 회전 추정 네트워크, 즉 추정기의 신뢰성 혹은 그 결과의 신뢰성은 추정기의 분포에 의해 측정될 수 있고, 이는 추정치의 분산에 의해 추정될 수 있다.
본 발명의 수평 조정부(340)는 최종적으로 비디오 프레임별로 수평을 조정한다. 본 발명의 수평 조정 방법은 초기 회전각 추정을 하는 제1 회전각 추정 단계, 오류를 보정한 강건한 회전각을 추정하는 제2 회전각 추정 단계 및 프레임 회전 단계단계의 세 단계로 이루어질 수 있다.
먼저, 제1 회전각 추정부(341)는 회전 추정 네트워크를 이용하여 상기 입력 비디오의 회전각의 초기 추정치를 산출한다(S2). 즉, 제1 회전각 추정부(341)는 초기 회전각 추정과 관련하여, 본 발명은 먼저 N 프레임의 입력 비디오로부터 회전각 추정 네트워크를 사용하여 초기 각도 추정치를 얻는다. 상술한 바와 같이, 본 발명의 회전각 추정 네트워크는 복수개의 이미지로 이루어진 훈련 데이터 세트를 임의의 회전각으로 회전시킨 후 상기 회전각을 예측하는 컨볼루션 뉴럴 네트워크(convolutional neural network, CNN)를 훈련하여 생성된 추정 네트워크일 수 있다.
보다 상세히, 입력 비디오의 입력 프레임의 t 번째 비디오 프레임의 경우, 상술한 오류모델 생성부(330)의 설명에서 예시한 바와 같이, 기재된 7개의 로컬 영역을 잘래내고, 회전각 추정 네트워크를 사용하여 로컬 영역들의 회전각을 추정한다. 또한, 본 발명은 추정된 회전각들의 평균인 를 계산한다. 또한, t번째 프레임의 회전각 분산 를 계산한다.
다음으로, 제2 회전각 추정부(342)는 추정치인 제1 회전각으로부터 제 1 회전각에 존재하는 오류를 제거하여 최종 회전각을 추정한다. 보다 상세히, 제2 회전각 추정부(342)는 이미지의 복수개 로컬영역별 회전각의 추정을 이용하는 오류모델에 기반하여 상기 초기 추정치로부터 오류를 제거하여 강건한 회전각인 최종 회전각을 추정할 수 있으며, 추청된 강건한 회전값은 최종 회전각이 된다.
보다 구체적으로, 제2 회전각 추정부(342)는 강건한 회전각 추정과 관련하여, 초기 회전각을 라 가정한다. 본 발명은 정확하고 시간적으로 일관된 회전각 를 모든 비디오 프레임에 대해 동시에 추정한다. 또한, 본 발명은 하기의 [수학식 2]와 같이 정의된 최대 사후 문제(MAP)로서 문제를 공식화한다.
[수학식 2]
상기 [수학식 2]에서, 는 사후 분포(posterior distribution), 는 우도(likelihood), p (θ)는 사전 확률이다. 각 초기 회전각 추정치의 에러가 0의 평균과 의 분산을 가진 정규 분포라고 가정하면, 하기의 [수학식 3]과 같이 우도 를 정의할 수 있다.
[수학식 3]
상기 [수학식 2]에서, 은 정규분포를 의미한다. θ 의 시간적 일관성을 증대시키기 위해, p(θ) 를 하기의 [수학식 4]와 같이 정의할 수 있다.
[수학식 4]
상기 [수학식 4] 에서, 는 한 쌍의 시간적 일관성 측정값이고, 는 이전의 형태를 제어하는 파라미터이다.
시간적으로 부드러운 회전각을 생성하기 위해, 를 하기의 [수학식 5]와 같이 정의할 수 있다.
[수학식 5]
이때, 연속하는 프레임 사이에 회전각의 변화가 없거나 매우 작다고 가정한다. 그러나, [수학식 5]는 연속 프레임 사이에 존재할 수 있는 회전 동작을 무시한다. 따라서 연속 프레임 사이에 존재할 수 있는 회전 동작을 반영하기 위하여, 본 발명은 를 하기의 [수학식 6]과 같이 정의한다.
[수학식 6]
상기 [수학식 6]에서, 는 t번째 프레임과 t+1 번째 프레임 사이의 상대적인 회전각 변화이다. 는 특징 기반 이미지 정렬에 의해 용이하게 추론될 수 있다. 특히, 2개의 인접한 프레임이 주어지면, 특징점을 추출하여 둘 사이에서 매칭시킬 수 있다.
또한, 제2 회전각 추정부(342)는 에너지 함수를 산출하고, 산출된 에너지 함수를 고려하여 최종 회전각을 산출할 수 있다. 보다 상세히, 최적화부(360)는 상술한 [수학식 2]에 음의 대수를 적용함으로써, 본 발명은 하기의 [수학식 7]과 같은 에너지 함수를 얻을 수 있다.
[수학식 7]
상기 [수학식 7]에서, 이다. [수학식 7] 은 θ의 단순한 2차 함수이며, 최소 제곱법을 사용하여 효율적으로 해결할 수 있다. 따라서, 산출된 θ는 최종 회전각이 된다. λ는 α와 의 함수로 정의되지만 는 사용자 파라미터이므로 직접 설정할 수도 있다. 본 발명에서 λ = 4.0으로 설정될 수 있다.
다음으로, 프레임 회전부(343)는 최종 회전각에 기반하여 상기 입력 비디오의 프레임을 역회전시킨다(S4). 보다 상세히, 프레임 회전부(343)는 최종 회전각 θ가 계산되면, 입력 비디오 프레임을 최종 회전각과 반대로 회전시키고 불필요한 픽셀을 제거하도록 모서리를 잘라내 비디오 수평 조정을 수행할 수 있다. 이때, 본 발명의 명세서에서 회전각에 기초하여 프레임을 역회전시키는 것을 워핑(warping)이라 할 수 있고, 모서리를 잘라내는 것을 크로핑(cropping)이라 할 수 있다. 수평 조정된 결과 비디오의 공간 크기는 입력 비디오의 최대 회전각에 의해 결정된다. 최대 회전각이 작은 경우 손실되는 픽셀이 크지 않지만, 적어도 하나의 프레임이 심하게 회전하면 정보가 과도하게 손실될 수 있다.
따라서, 본 발명에서는 정보가 과도하게 손실되는 것을 방지하기 위해 하기 [수학식 8]과 같이 잘린 회전각 τ를 사용하여 회전각을 한정할 수 있다.
[수학식 8]
[수학식 8]에서, 는 잘린 회전각이고, sgn(x)는 x>0에 대해 1로, x=0일 에 대해 0으로, x<0일 때 -1로 정의되는 부호 함수이다. 입력 비디오 프레임은 θ 대신 만큼 거꾸로 회전한다. τ는 정보 손실과 회전각 보정 간의 균형을 제어할 수 있다. 작은 τ는 큰 영역을 보존하는 반면 큰 τ는 더 많은 프레임의 수평을 정확히 보정할 수 있다.
다음으로, 본 발명의 결합부(350)는 비디오 안정화 방법과 비디오 수평 조정 방법을 결합하여 적용한다. 이때, 비디오 안정화 방법은 기존의 비디오 안정화 방법을 사용할 수도 있다.
보다 상세히, 본 발명의 비디오 안정화 방법은 카메라 경로 모델링을 통해 동질화(homography)에 기반한 간단한 카메라 모션들의 세트로서 카메라 모션을 모델링하는 번들 카메라 경로(bundled camera paths)라는 메쉬 기반 모션 모델을 사용할 수 있다. 번들 카메라 경로 모델은 비디오 프레임을 M × M 정규 격자로 분할하며, 이때 M = 16일 수 있다. 각 격자 셀에 대해 카메라 움직임은 전통적인 2D 안정화 방법에서와 같이 동질성을 사용하여 모델링될 수 있다.
비디오 안정화를 위해, 먼저 특징점을 이용하여 연속적인 프레임 간의 로컬 동질성을 추정한다. 를 t 번째 및 t + 1 번째 프레임의 i 번째 격자 셀을 정렬하는 3x3 동질화 행렬인 것으로 가정한다. 원래 카메라 경로 는 i 번째 격자 셀에서 첫 번째 프레임부터 t 번째 프레임까지의 카메라 모션으로 정의되며, 이는 다음의 [수학식 9]와 같이 계산될 수 있다.
[수학식 9]
[수학식 9]에서, 원래 경로는 이고, 안정화 경로는 에너지 최소화 문제를 해결함으로써 로 계산할 수 있다. 마지막으로, 각 프레임의 각 그리드 셀은, 워핑 트랜스폼(warping tranform) 는 로 계산되어 질 수 있고, 안정화된 비디오는 입력 비디오 프레임을 워핑 트랜스폼으로 워핑(warping)함으로써 얻을 수 있다.
비디오 수평 보정과 안정화를 모두 수행하기 위해, 본 발명은 첫번째로 수평 보정을 행한 후 안정화를 수행할 수 있다. 본 발명의 결합 방법의 핵심 순서는 1) 수평 조정된 비디오의 카메라 경로는 실제로 회전된 프레임에서 계산할 필요는 없고, 수평 조정된 비디오의 카메라 경로는 수평 보정을 위한 회전각에 의해 원본 비디오의 경로를 회전함으로써 계산될 수 있다. 2) 수평 보정 및 안정화는 특징점 매칭, 뒤틀림 및 자르기를 공유하므로 두 작업에 대해 한번만 수행할 수 있다.
결과적으로, 본 발명에 따르면 잘리지 않은 원본 비디오에서 직접 추정할 때 정확한 회전각과 카메라 모션을 추정할 수 있다. 또한, 본 발명에 따르면 워핑 및 자르기가 한 번만 수행되므로 공간 해상도가 과도하게 손실되는 것을 방지 할 수 있다. 또한 가장 시간이 많이 걸리는 두 가지 구성 요소인 특징점 매칭 및 워핑이 한 번만 수행되므로 많은 양의 계산 시간을 절약 할 수 있다.
도 8 은 본 발명의 일 실시예에 따른 결합 방법을 도식으로 나타낸 것이다.
도 8 을 참조하면, 수평 조정을 위하여 본 발명은 먼저 회전각 추정 네트워크를 사용하여 초기 회전각 θ0를 먼저 추정한다. 병렬적으로, 본 발명은 특징점 매칭을 수행하고 상대적 회전각 φ를 계산하다. 다음으로, θ0와 φ로부터 최종 회전각 θ를 계산하다. 다음으로, 안정화를 위해 특징점 매칭 결과를 이용하여 입력 비디오의 카메라 경로 C를 추정하고, 카메라 경로 C 와 함께 최종 회전각 θ를 함께 고려하여 수평으로 조정 된 비디오의 카메라 경로 C'를 산출한다.
수평 조정 된 비디오의 카메라 경로 C'는 다음과 같이 유도될 수 있다. xt는 동등한 좌표의 3D 벡터로 표현되는 t 번째 원본 비디오 프레임의 한 지점이라고 가정하기로 한다. 또한, xt' 는t 번째 수평 조정된 비디오 프레임의 대응하는 지점이라고 가정하기로 한다. 그러면 Rt 가 는 θt만큼 포인트를 회전시키는 회전 행렬이라고 할 때 가 된다. 또한, 에 대해, 본 발명은 t번째 및 t+1번째 수평 조정된 카메라 모션 를 하기의 [수학식 10]과 같이 나타낼 수 있다.
[수학식 10]
또한, t 번재 수평 조정된 비디오 프레임의 i번째 그리드 셀의 원본 카메라 경로 는 [수학식 9]와 유사하기 하기의 [수학식 11]과 같이 나타낼 수 있다.
[수학식 11]
본 발명에서는 이미 C'에 대해 산출하였으므로, 본 발명은 새로운 안정화된 카메라 경로 P'를 수평 조정된 카메라에 대해 계산할 수 있다. 그런 다음 입력 비디오 프레임에서 수평 조정 및 안정화된 프레임으로의 워핑 변환인 를 계산하고, 하기의 [수학식 12]와 같이 안정화를 위한 워핑을 수행한다.
[수학식 12]
마지막으로, 본 발명은 입력 비디오 프레임을 에 의해 워핑하고 크로핑(cropping)을 수행하여 최종 결과물을 얻는다.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (13)

  1. 사용자 단말로부터 입력 비디오를 획득하는 비디오 입력부;
    회전 추정 네트워크를 이용하여 상기 입력 비디오의 회전각의 초기 추정치를 산출하는 제1 회전각 추정부;
    복수개 로컬영역별 회전각을 기초로 상기 추정치인 제1 회전각으로부터 제 1 회전각에 존재하는 오류를 제거하여 최종 회전각을 추정하는 제2 회전각 추정부;
    상기 최종 회전각에 기반하여 상기 입력 비디오의 프레임을 역회전시키는 프레임 회전부;
    를 포함하고,
    상기 로컬영역은 상기 입력 비디오에 포함된 입력 프레임과 지정된 기준치 이상의 중첩 영역을 포함하는,
    동영상 수평 조정 시스템.
  2. 제 1 항에 있어서,
    상기 회전 추정 네트워크는, 복수개의 이미지로 이루어진 훈련 데이터 세트를 임의의 회전각으로 회전시킨 후 상기 회전각을 예측하는 컨볼루션 뉴럴 네트워크(convolutional neural network, CNN)를 훈련하여 생성된 추정 네트워크인, 동영상 수평 조정 시스템.
  3. 제 1 항에 있어서,
    상기 제2 회전각 추정부는, 이미지의 복수개 로컬영역별 회전각의 추정을 이용하는 오류모델에 기반하여 상기 초기 추정치로부터 오류를 제거하여 최종 회전각을 추정하는 동영상 수평 조정 시스템.
  4. 제 3 항에 있어서,
    상기 오류모델은, 상기 입력 비디오의 매 프레임에서 복수의 로컬 영역에 대한 회전각 추정치의 분산 및 제곱 오차의 분포를 이용하여 상기 회전 추정 네트워크의 신뢰성을 분석하는 모델인, 동영상 수평 조정 시스템.
  5. 제 3 항에 있어서,
    상기 제2 회전각 추정부는,
    상기 오류모델을 사용하여 연속적인 프레임 간의 상대적인 회전을 고려하여 상기 최종 회전각을 추정하는, 동영상 수평 조정 시스템.
  6. 제 1 항에 있어서,
    특징점 매칭 및 상기 최종 회전각을 이용하여 획득한 안정화 및 수평 조정된 카메라 경로를 이용하여 워핑(warping) 및 크로핑(cropping)을 수행하는 결합부; 를 추가적으로 포함하는, 동영상 수평 조정 시스템.
  7. 사용자 단말로부터 입력 비디오를 획득하는 비디오 입력 단계;
    회전 추정 네트워크를 이용하여 상기 입력 비디오의 회전각의 초기 추정치를 산출하는 제1 회전각 추정 단계;
    복수개 로컬영역별 회전각을 기초로 상기 추정치인 제1 회전각으로부터 제 1 회전각에 존재하는 오류를 제거하여 최종 회전각을 추정하는 제2 회전각 추정 단계;
    상기 최종 회전각에 기반하여 상기 입력 비디오의 프레임을 역회전시키는 프레임 회전 단계;
    를 포함하고,
    상기 로컬영역은 상기 입력 비디오에 포함된 입력 프레임과 지정된 기준치 이상의 중첩 영역을 포함하는,
    동영상 수평 조정 방법.
  8. 제 7 항에 있어서,
    상기 회전 추정 네트워크는, 복수개의 이미지로 이루어진 훈련 데이터 세트를 임의의 회전각으로 회전시킨 후 상기 회전각을 예측하는 컨볼루션 뉴럴 네트워크(convolutional neural network, CNN)를 훈련하여 생성된 추정 네트워크인, 동영상 수평 조정 방법.
  9. 제 7 항에 있어서,
    상기 제2 회전각 추정 단계는, 이미지의 복수개 로컬영역별 회전각의 추정을 이용하는 오류모델에 기반하여 상기 초기 추정치로부터 오류를 제거하여 최종 회전각을 추정하는 동영상 수평 조정 방법.
  10. 제 9 항에 있어서,
    상기 오류모델은, 상기 입력 비디오의 매 프레임에서 복수의 로컬 영역에 대한 회전각 추정치의 분산 및 제곱 오차의 분포를 이용하여 상기 회전 추정 네트워크의 신뢰성을 분석하는 모델인, 동영상 수평 조정 방법.
  11. 제 9 항에 있어서,
    상기 제2 회전각 추정 단계는,
    상기 오류모델을 사용하여 연속적인 프레임 간의 상대적인 회전을 고려하여 상기 최종 회전각을 추정하는, 동영상 수평 조정 방법.
  12. 제 7 항에 있어서,
    특징점 매칭 및 상기 최종 회전각을 이용하여 획득한 안정화 및 수평 조정된 카메라 경로를 이용하여 워핑(warping) 및 크로핑(cropping)을 수행하는 결합 단계; 를 추가적으로 포함하는, 동영상 수평 조정 방법.
  13. 제7항 내지 제12항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체.
KR1020190080806A 2019-07-04 2019-07-04 동영상 수평 조정 시스템, 방법 및 컴퓨터 프로그램 KR102176273B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190080806A KR102176273B1 (ko) 2019-07-04 2019-07-04 동영상 수평 조정 시스템, 방법 및 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190080806A KR102176273B1 (ko) 2019-07-04 2019-07-04 동영상 수평 조정 시스템, 방법 및 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
KR102176273B1 true KR102176273B1 (ko) 2020-11-09

Family

ID=73429586

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190080806A KR102176273B1 (ko) 2019-07-04 2019-07-04 동영상 수평 조정 시스템, 방법 및 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR102176273B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220114264A (ko) * 2021-02-08 2022-08-17 주식회사 현대엠아이비인터내셔널 비대면 트레이닝과 비대면 재활을 위한 딥러닝 기반 영상 보정 시스템 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120051564A (ko) * 2010-11-12 2012-05-22 삼성전자주식회사 카메라 시선 방향 보상을 통한 비디오 안정화 방법 및 장치
KR20150095782A (ko) * 2012-12-11 2015-08-21 페이스북, 인크. 제약-기반 회전 스무싱을 통한 디지털 비디오 안정화 시스템 및 방법
KR20150132846A (ko) * 2013-03-15 2015-11-26 구글 인코포레이티드 비디오 안정화를 위한 캐스케이드 카메라 모션 추정, 롤링 셔터 검출 및 카메라 흔들림 검출
KR20160079900A (ko) * 2011-12-15 2016-07-06 애플 인크. 비디오 안정화를 위한 동작센서 기반 가상삼각 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120051564A (ko) * 2010-11-12 2012-05-22 삼성전자주식회사 카메라 시선 방향 보상을 통한 비디오 안정화 방법 및 장치
KR20160079900A (ko) * 2011-12-15 2016-07-06 애플 인크. 비디오 안정화를 위한 동작센서 기반 가상삼각 방법
KR20150095782A (ko) * 2012-12-11 2015-08-21 페이스북, 인크. 제약-기반 회전 스무싱을 통한 디지털 비디오 안정화 시스템 및 방법
KR20150132846A (ko) * 2013-03-15 2015-11-26 구글 인코포레이티드 비디오 안정화를 위한 캐스케이드 카메라 모션 추정, 롤링 셔터 검출 및 카메라 흔들림 검출

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
홍은빈 외 3명, "딥러닝을 이용한 영상 수평 보정", 컴퓨터그래픽스학회논문지 23(3), 95-103(9pages), 2017.07.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220114264A (ko) * 2021-02-08 2022-08-17 주식회사 현대엠아이비인터내셔널 비대면 트레이닝과 비대면 재활을 위한 딥러닝 기반 영상 보정 시스템 및 방법
KR102453095B1 (ko) * 2021-02-08 2022-10-07 주식회사 현대엠아이비인터내셔널 비대면 트레이닝과 비대면 재활을 위한 딥러닝 기반 영상 보정 시스템 및 방법

Similar Documents

Publication Publication Date Title
WO2021174939A1 (zh) 人脸图像的获取方法与系统
US9684962B2 (en) Method and system for calibrating surveillance cameras
US10455152B2 (en) Panoramic video processing method and device and non-transitory computer-readable medium
US9854168B2 (en) One-pass video stabilization
KR101532864B1 (ko) 모바일 디바이스들에 대한 평면 맵핑 및 트래킹
US7187809B2 (en) Method and apparatus for aligning video to three-dimensional point clouds
US20150093042A1 (en) Parameter calibration method and apparatus
CN110009732B (zh) 基于gms特征匹配的面向复杂大尺度场景三维重建方法
CN111462207A (zh) 一种融合直接法与特征法的rgb-d同时定位与地图创建方法
CN109389555B (zh) 一种全景图像拼接方法及装置
CN106886748B (zh) 一种基于tld的适用于无人机的变尺度目标跟踪方法
US8391542B2 (en) Method for estimating the pose of a PTZ camera
CN111445526A (zh) 一种图像帧之间位姿的估计方法、估计装置和存储介质
CN111105432A (zh) 基于深度学习的无监督端到端的驾驶环境感知方法
CN105872345A (zh) 基于特征匹配的全帧电子稳像方法
JP2007183256A (ja) 画像処理装置及びその方法
US20060215036A1 (en) Method and apparatus for video stabilization
JP7116262B2 (ja) 画像深度推定方法および装置、電子機器、ならびに記憶媒体
CN111915651B (zh) 基于数字影像地图与特征点跟踪的视觉位姿实时估计方法
KR20190044814A (ko) 딥러닝 학습을 위한 데이터 생성 및 자료 구축 방법
CN111062966A (zh) 基于l-m算法和多项式插值对相机跟踪进行优化的方法
CN112991515A (zh) 一种三维重建方法、装置及相关设备
KR102176273B1 (ko) 동영상 수평 조정 시스템, 방법 및 컴퓨터 프로그램
JP2016500890A (ja) 並列化可能なアーキテクチャ内の画像を使用して、サーフェルの局所的なジオメトリまたは面法線を初期化し、解くための方法
WO2024051591A1 (zh) 用于估算视频旋转的方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant