WO2021241804A1

WO2021241804A1 - 다중 플로우 기반 프레임 보간 장치 및 방법

Info

Publication number: WO2021241804A1
Application number: PCT/KR2020/011173
Authority: WO
Inventors: 이상윤; 이형민; 김태오
Original assignee: 연세대학교 산학협력단
Priority date: 2020-05-29
Filing date: 2020-08-21
Publication date: 2021-12-02
Also published as: KR102201297B1

Abstract

본 발명은 대상 프레임의 다양한 개수의 픽셀과 위치를 참조하여 보간 프레임의 각 픽셀을 생성할 수 있어, 다양하고 복잡한 동작 및 큰 동작이 포함된 비디오에서도 정확한 보간 프레임을 획득할 수 있을 뿐만 아니라, 대상 프레임에 폐색 영역 존재하는 경우에도 안정적으로 보간 프레임을 생성할 수 있는 프레임 보간 장치 및 방법을 제공할 수 있다.

Description

다중 플로우 기반 프레임 보간 장치 및 방법

본 발명은 프레임 보간 장치 및 방법에 관한 것으로, 다중 플로우 기반 프레임 보간 장치 및 방법에 관한 것이다.

비디오 프레임 보간은 비디오 영상에서 시간적으로 인접한 두 프레임이 주어졌을 때, 두 프레임 사이의 프레임을 생성하여 초당 프레임 수를 늘리는 기술로, 비디오 처리 분야에서 가장 어려운 과제들 중 하나이다.

프레임 보간 기술을 이용하면, 전문적인 고가의 고속 카메라를 사용하지 않고도 일반 비디오에서 슬로우 모션 비디오를 획득할 수 있을 뿐만 아니라, 비디오의 프레임 속도를 자유롭게 변환하여 비디오 코딩 시스템에 적용할 수 있다는 장점이 있다. 다만 비디오 프레임 보간은 이미지의 픽셀 보간과 달리 픽셀의 움직임에 대한 이해가 필요하다. 실제 비디오에는 단순한 동작뿐만 아니라 크고 복잡한 동작도 포함되어 있어 비디오 프레임 보간 작업을 매우 어렵게 한다.

이에 최근에는 딥러닝(deep learning)을 이용한 다양한 방법들이 제안되고 있는데, 이들의 대부분은 자체적인 와핑(warping) 연산을 정의하여 복원하고자 하는 픽셀을 얻기 위해 필요한 인접 프레임 상의 참조할 위치를 찾는 데 집중한다.

이와 같이 픽셀의 동작을 분석하여 프레임 보간을 수행하는 기존의 비디오 프레임 보간 기법의 대표적인 예로 커널 기반 프레임 보간 기법과 플로우 기반 프레임 보간 기법이 있다.

커널 기반 프레임 보간 기법은 두 개의 인접한 대상 프레임 사이에 위치할 보간 프레임의 각 픽셀을 생성하는데 필요한 정보를 획득하기 위해, 두 개의 대상 프레임에서 생성하고자 하는 픽셀의 위치를 중심으로 주변을 탐색하는 기법이다. 커널 기반 프레임 보간 기법에서는 픽셀 탐색에 충분한 크기의 커널(kernel)을 추정하고, 두 개의 대상 프레임에서 추정된 커널의 크기 범위에서 관심있는 픽셀에 큰 가중치를 할당하여 적절한 참조 위치를 탐색하는 기법이다. 다만, 커널 기반 프레임 보간 기법에서는 커널의 크기보다 큰 움직임을 다룰 수 없다는 한계가 있다. 또한 움직임이 작거나 없는 상황에서도 큰 크기의 커널을 항상 유지해야 하므로 비효율적이라는 문제가 있다.

한편, 플로우 기반 프레임 보간 기법은 보간 프레임의 각 픽셀을 생성하는데 필요한 정보를 두 개의 대상 프레임 상의 대응하는 픽셀의 위치를 가리키는 벡터를 생성하는 기법이다. 플로우 기반 프레임 보간 기법에서는 각 벡터가 가리키는 위치의 픽셀 값을 조합하여 얻고자 하는 픽셀의 값을 계산한다. 다만 플로우 기반 프레임 보간 기법에서는 프레임 하나당 단 하나의 픽셀만을 참조하기 때문에 복잡한 움직임을 다룰 수 없다는 한계가 있을 뿐만 아니라, 입력된 대상 프레임의 화질이 좋지 않을 경우, 안정적인 보간 프레임 생성을 위해 둘 이상의 다수의 픽셀을 참조해야 할 필요가 있을 수 있다는 문제가 있다.

상기한 커널 기반 프레임 보간 기법과 플로우 기반 프레임 보간 기법의 단점을 보완하기 위해 커널 및 플로우 조합 기반 프레임 보간 기법도 제안된 바가 있다. 커널 및 플로우 조합 기반 프레임 보간 기법은 커널 기반 프레임 보간 기법에 비해 상대적으로 작은 크기로 커널을 추정한 후, 추가적으로 추정된 벡터만큼 그 커널을 평행이동 시켜 대응하는 픽셀의 위치를 판별하는 기법이다. 그러나 커널 및 플로우 조합 기반 프레임 보간 기법 또한 커널의 크기가 크지 않다는 점에서 플로우 기반의 프레임 보간 기술과 유사한 단점이 존재할 뿐만 아니라, 커널의 크기 또는 모양이 자유롭지 않다는 한계가 있다.

본 발명의 목적은 대상 프레임의 다양한 개수의 픽셀과 위치를 참조하여 보간 프레임의 각 픽셀을 생성할 수 있어, 다양하고 복잡한 동작이 포함된 비디오에서도 정확한 보간 프레임을 획득할 수 있는 프레임 보간 장치 및 방법을 제공하는데 있다.

본 발명의 다른 목적은 대상 프레임에 폐색 영역에 대해서도 정확하게 보간 프레임을 생성할 수 있는 프레임 보간 장치 및 방법을 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 프레임 보간 장치는 다수의 프레임으로 구성된 비디오 영상에서 시간적으로 인접한 두 개의 대상 프레임을 인가받고, 미리 학습된 패턴 추정 방식에 따라 인가된 두 개의 대상 프레임 사이에서 픽셀들 간의 관계에 따른 패턴을 추정하여 모션 특징맵을 획득하는 모션 특징 추출부; 미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 생성되어야 하는 보간 프레임의 각 픽셀이 상기 두 개의 대상 프레임 각각에서 참조해야하는 적어도 하나의 픽셀 위치를 나타내는 2개의 플로우맵과, 상기 보간 프레임의 각 픽셀에 대한 상기 두 개의 대상 프레임의 각 픽셀의 중요도를 나타내는 2개의 가중치맵을 획득하고, 두 개의 대상 프레임 각각을 상기 2개의 플로우맵과 상기 2개의 가중치맵 중 대응하는 플로우맵과 가중치맵을 이용하여 와핑하여 2개의 와핑 프레임을 획득하는 와핑 프레임 획득부; 미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 상기 2개의 대상 프레임의 폐색 영역을 나타내는 폐색맵을 획득하는 폐색맵 획득부; 및 상기 2개의 와핑 프레임과 상기 폐색맵을 기지정된 방식으로 결합하여 상기 보간 프레임을 획득하는 보간 프레임 획득부를 포함한다.

상기 와핑 프레임 획득부는 상기 두 개의 대상 프레임 중 제1 대상 프레임의 다수의 픽셀 중 상기 보간 프레임의 각 픽셀이 참조해야하는 픽셀들의 위치를 추정하여 제1 플로우맵을 획득하고, 제2 대상 프레임의 다수의 픽셀 중 상기 보간 프레임의 각 픽셀이 참조해야하는 적어도 하나의 픽셀들의 추정하여 제2 플로우맵을 획득하는 플로우맵 획득부; 상기 두 개의 대상 프레임 중 제1 대상 프레임의 다수의 픽셀 각각이 상기 보간 프레임의 각 픽셀에 미치는 영향도를 추정하여 제1 가중치맵을 획득하고, 제2 대상 프레임의 다수의 픽셀 각각이 상기 보간 프레임의 각 픽셀에 미치는 영향도를 추정하여 제2 가중치맵을 획득하는 가중치맵 획득부; 및 상기 제1 대상 프레임을 상기 제1 플로우맵과 상기 제1 가중치맵에 따라 와핑하여 제1 와핑 프레임을 획득하고, 상기 제2 대상 프레임을 상기 제2 플로우맵과 상기 제2 가중치맵에 따라 와핑하여 제2 와핑 프레임을 획득하는 프레임 와핑부를 포함할 수 있다.

상기 프레임 와핑부는 상기 제1 플로우맵의 벡터 형태로 표현된 픽셀 위치에 상기 제1 가중치맵의 대응하는 가중치를 가중하고 합하여 제1 와핑 프레임의 위치별 픽셀값을 획득하고, 상기 제2 플로우맵의 벡터 형태로 표현된 픽셀 위치에 상기 제2 가중치맵의 대응하는 가중치를 가중하고 합하여 상기 제1 와핑 프레임의 위치별 픽셀값을 획득할 수 있다.

상기 폐색맵 획득부는 상기 폐색맵이 상기 제1 대상 프레임의 폐색 영역과 상기 제2 대상 프레임의 폐색 영역이 서로 다른 지정된 값을 갖도록 생성할 수 있다.

상기 프레임 보간 장치는 인공 신경망으로 상기 모션 특징 추출부와 상기 플로우맵 획득부, 상기 가중치맵 획득부 및 상기 폐색맵 획득부를 지도 학습 방식 또는 적대적 학습 방식 중 적어도 하나를 이용하여 학습시키기 위한 학습부를 더 포함할 수 있다.

상기 학습부는 비디오 영상에서 특정 프레임에 대해 시간적으로 인접한 이전 프레임과 이후 프레임을 2개의 대상 프레임으로 설정하여 상기 모션 특징 추출부로 인가하고, 상기 보간 프레임 획득부에서 획득되는 보간 프레임과 특정 프레임 사이의 차를 지도 학습 손실로 계산하여 역전파할 수 있다.

상기 학습부는 시간적 순서에 따라 상기 제1 대상 프레임과 상기 보간 프레임을 순차 배치 결합하여 제1 결합 프레임을 획득하고, 상기 보간 프레임과 상기 제2 대상 프레임을 순차 배치 및 결합하여 제2 결합 프레임을 획득하는 프레임 결합부; 상기 제1 결합 프레임 또는 상기 제2 결합 프레임 중 하나를 랜덤하게 선택하는 랜덤 선택부; 및 선택된 결합 프레임이 상기 제1 결합 프레임인지 또는 상기 제2 결합 프레임인지 여부를 판별하여 적대적 손실을 계산하여 역전파하는 프레임 판별부를 포함할 수 있다.

상기 학습부는 비디오 영상에서 특정 프레임에 대해 시간적으로 인접한 이전 프레임과 이후 프레임을 2개의 대상 프레임으로 설정하여 상기 모션 특징 추출부로 인가하고, 상기 보간 프레임 획득부에서 획득되는 보간 프레임과 특정 프레임 사이의 차를 지도 학습 손실로 계산하여 역전파하여 지도 학습을 수행하고, 이후 상기 제1 및 제2 대상 프레임 각각과 상기 보간 프레임을 시간적 순서에 따라 순차 배치 결합하여 2개의 결합 프레임을 획득하고, 2개의 결합 프레임 중 하나를 랜덤하게 선택하여, 상기 제1 및 제2 대상 프레임 중 선택된 결합 프레임에 결합된 프레임을 판별하여 적대적 손실을 계산하고 역전파할 수 있다.

상기 다른 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 프레임 보간 방법은 다수의 프레임으로 구성된 비디오 영상에서 시간적으로 인접한 두 개의 대상 프레임을 인가받고, 미리 학습된 패턴 추정 방식에 따라 인가된 두 개의 대상 프레임 사이에서 픽셀들 간의 관계에 따른 패턴을 추정하여 모션 특징맵을 획득하는 단계; 미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 생성되어야 하는 보간 프레임의 각 픽셀이 상기 두 개의 대상 프레임 각각에서 참조해야하는 적어도 하나의 픽셀 위치를 나타내는 2개의 플로우맵과, 상기 보간 프레임의 각 픽셀에 대한 상기 두 개의 대상 프레임의 각 픽셀의 중요도를 나타내는 2개의 가중치맵을 획득하고, 두 개의 대상 프레임 각각을 상기 2개의 플로우맵과 상기 2개의 가중치맵 중 대응하는 플로우맵과 가중치맵을 이용하여 와핑하여 2개의 와핑 프레임을 획득하는 단계; 미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 상기 2개의 대상 프레임의 폐색 영역을 나타내는 폐색맵을 획득하는 단계; 및 상기 2개의 와핑 프레임과 상기 폐색맵을 기지정된 방식으로 결합하여 상기 보간 프레임을 획득하는 단계를 포함한다.

따라서, 본 발명의 실시예에 따른 프레임 보간 장치 및 방법은 대상 프레임의 다양한 개수의 픽셀과 위치를 참조하여 보간 프레임의 각 픽셀을 생성할 수 있어, 다양하고 복잡한 동작 및 큰 동작이 포함된 비디오에서도 정확한 보간 프레임을 획득할 수 있다. 뿐만 아니라, 대상 프레임에 폐색 영역 존재하는 경우에도 안정적으로 보간 프레임을 생성할 수 있다.

도 1은 본 발명의 일 실시예에 따른 프레임 보간 장치의 개략적 구조를 나타낸다.

도 2는 도 1의 와핑 프레임 획득부의 상세 구성의 일 예를 나타낸다.

도 3은 도 1의 와핑 프레임 획득부가 오프셋 벡터의 시작 위치를 조절하기 위한 팽창 파라미터의 기능을 설명하기 위한 도면이다.

도 4는 도 1의 폐색맵 획득부가 획득하는 폐색맵의 일 예를 나타낸다.

도 5는 인공 신경망을 이용한 도 1의 프레임 보간 장치를 구현 예를 나타낸다.

도 6은 도 1의 프레임 보간 장치의 프레임 보간 방식과 기존의 프레임 보간 기법 사이의 차이를 설명하기 위한 도면이다.

도 7은 도 1의 학습부의 상세 구성의 일 예를 나타낸다.

도 8은 본 발명의 일 실시예에 따른 프레임 보간 방법을 나타낸다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 본 발명의 일 실시예에 따른 프레임 보간 장치의 개략적 구조를 나타내고, 도 2는 도 1의 와핑 프레임 획득부의 상세 구성의 일 예를 나타내며, 도 3은 도 1의 와핑 프레임 획득부가 오프셋 벡터의 시작 위치를 조절하기 위한 팽창 파라미터의 기능을 설명하기 위한 도면이다. 그리고 도 4는 도 1의 폐색맵 획득부가 획득하는 폐색맵의 일 예를 나타낸다.

도 1 내지 도 4를 참조하면, 본 실시예에 따른 프레임 보간 장치는 영상 획득부(100), 모션 특징 추출부(200), 와핑 프레임 획득부(300), 폐색맵 획득부(400) 및 보간 프레임 획득부(500)를 포함한다.

우선 영상 획득부(100)는 다수의 프레임으로 구성되고, 다수의 프레임 중 시간적으로 인접한 두 개의 프레임(I _n, I _n+1) 사이에 보간 프레임(I _out)이 생성되어 포함되어야 하는 비디오 영상을 획득한다. 여기서 영상 획득부(100)는 일 예로 카메라와 같은 비디오 영상 촬영 장치로 구현되거나, 미리 획득된 비디오 영상이 저장된 저장 장치 또는 네트워크를 통해 다른 기기로부터 비디오 영상을 인가받는 통신부로 구현될 수 있다.

모션 특징 추출부(200)는 영상 획득부(100)로부터 인접한 두 개의 프레임(I _n, I _n+1)을 인가받고, 미리 학습된 패턴 추정 방식에 따라 인가된 두 개의 프레임(I _n, I _n+1) 사이에서 픽셀들 간의 관계에 따른 패턴을 추정하여 모션 특징맵(m)을 추출한다. 여기서 두 개의 프레임(I _n, I _n+1)은 사이에 보간 프레임(I _out)이 생성되어 삽입되어야 하는 대상 프레임으로 볼 수 있다. 그리고 모션 특징 추출부(200)는 두 개의 대상 프레임(I _n, I _n+1)에서 픽셀들 사이의 대응 관계에 따른 특징을 추출하여 모션 특징맵(m)을 획득한다.

여기서 모션 특징 추출부(200)는 두 개의 대상 프레임(I _n, I _n+1) 중 제1 대상 프레임(I _n)의 다수의 픽셀에서 제2 대상 프레임(I _n+1)의 다수의 픽셀로의 변화되는 특징을 추출하여 모션 특징맵(m)을 획득하는 것으로 볼 수 있다.

모션 특징 추출부(200)에서 획득된 모션 특징맵(m)은 와핑 프레임 획득부(300)의 플로우맵 획득부(310)와 가중치맵 획득부(320)와 함께 폐색맵 획득부(400)에 각각 인가된다.

플로우맵 획득부(310)는 모션 특징 추출부(200)로부터 모션 특징맵(m)이 인가되면, 미리 학습된 패턴 추정 방식에 따라 인가된 모션 특징맵(m)으로부터 2개의 플로우맵(f ₁, f ₂)을 획득한다.

여기서 플로우맵 획득부(310)는 두 개의 대상 프레임(I _n, I _n+1) 각각의 다수에 픽셀 중 보간 프레임(I _out)을 구성할 다수의 픽셀 각각에 대응하는 픽셀을 추정하여 플로우맵(f ₁, f ₂)을 획득할 수 있다. 즉 2개의 플로우맵(f ₁, f ₂) 각각은 보간 프레임(I _out)의 각 픽셀이 2개의 대상 프레임(I _n, I _n+1)에서 참조할 대응하는 픽셀의 위치를 벡터 형식으로 표현한 특징맵으로 볼 수 있다.

도 2를 참조하면, 플로우맵 획득부(310)는 제1 플로우맵 획득부(311)와 제2 플로우맵 획득부(312)를 포함한다. 제1 플로우맵 획득부(311)는 모션 특징맵(m)을 기반으로 2개의 대상 프레임 중 시간적으로 앞서는 제1 대상 프레임(I _n)과 보간 프레임(I _out) 사이에 대응하는 픽셀들의 위치 관계를 추정하여 제1 플로우맵(f ₁)을 획득하고, 제2 플로우맵 획득부(312)는 모션 특징맵(m)을 기반으로 제2 대상 프레임(I _n+1)과 보간 프레임(I _out) 사이에 대응하는 픽셀들의 위치 관계를 추정하여 제2 플로우맵(f ₂)을 획득한다.

이때 본 실시예에서 플로우맵 획득부(310)의 제1 플로우맵 획득부(311)와 제2 플로우맵 획득부(312)는 각각 제1 및 제2 대상 프레임(I _n, I _n+1)에서 보간 프레임(I _out)의 각 픽셀에 대응하는 다수의 픽셀을 동시에 추정할 수 있다. 즉 보간 프레임(I _out)의 각 픽셀은 제1 및 제2 대상 프레임(I _n, I _n+1)의 다수의 픽셀을 참조하여 생성될 수 있다. 이는 기존의 플로우 기반 프레임 보간 기법에서 프레임 하나당 단 하나의 픽셀만을 참조하기 때문에 복잡한 움직임을 다룰 수 없다는 한계를 극복하기 위함이다.

이에 플로우맵 획득부(310)는 보간 프레임(I _out)의 다수의 픽셀이 참조할 수 있는 적어도 하나의 픽셀을 2개의 대상 프레임(I _n, I _n+1) 각각에서 탐색하고, 보간 프레임(I _out)의 각 위치별 픽셀과 이에 대응하여 대상 프레임에서 탐색된 적어도 하나의 픽셀 사이의 위치 관계를 플로우맵(f ₁, f ₂)으로 획득할 수 있다.

모션 특징 추출부(200)에서 획득되는 모션 특징맵(m)이 2개의 대상 프레임(I _n, I _n+1)의 픽셀들 사이의 변화를 추정하여 획득되는데 반해, 플로우맵 획득부(310)에서 획득되는 2개의 플로우맵(f ₁, f ₂)은 2개의 대상 프레임(I _n, I _n+1) 각각을 기준으로 생성되어야 하는 가상의 보간 프레임(I _out)의 각 픽셀의 변화를 모션 특징맵(m)에서 추정된 픽셀간 변화를 기반으로 추정하여 획득되는 것으로 볼 수 있다.

여기서 플로우맵 획득부(310)의 제1 플로우맵 획득부(311)와 제2 플로우맵 획득부(312) 각각은 대상 프레임(I _n, I _n+1)에서 픽셀과 가상의 보간 프레임(I _out)의 픽셀 사이의 위치 관계를 행방향(또는 x축 방향) 및 열방향(또는 y축 방향)으로 구분하여 획득할 수도 있다. 즉 제1 및 제2 플로우맵(f ₁, f ₂) 각각을 제1 및 제2 행 플로우맵(α ₁, α ₂)과 제1 및 제2 열 플로우맵(β ₁, β ₂)으로 구분하여 획득할 수 있다.

본 실시예에서 플로우맵 획득부(310)가 제1 플로우맵(f ₁)과 제2 플로우맵(f ₂)으로 2개의 플로우맵을 획득하는 것은 제1 대상 프레임(I _n)과 보간 프레임(I _out) 사이의 대응하는 픽셀간 위치 관계와 제2 대상 프레임(I _n+1)과 보간 프레임(I _out) 사이의 대응하는 픽셀간 위치 관계를 모두 분석하여, 보간 프레임(I _out)의 각 픽셀이 2개의 대상 프레임(I _n, I _n+1) 사이에서 정확한 픽셀값을 나타낼 수 있도록 하기 위함이다.

한편 가중치맵 획득부(320)는 미리 학습된 패턴 추정 방식에 따라 모션 특징 추출부(200)에서 인가된 모션 특징맵(m)으로부터 2개의 가중치맵(W ₁, W ₂)을 획득한다. 가중치맵 획득부(320)는 모션 특징맵(m)으로부터 두 개의 대상 프레임(I _n, I _n+1)의 다수의 픽셀이 생성될 가상의 보간 프레임(I _out)의 다수의 픽셀 각각에 미치는 영향을 추정하여 2개의 가중치맵(W ₁, W ₂)을 획득한다. 즉 두 개의 대상 프레임(I _n, I _n+1)의 다수의 픽셀 각각과 보간 프레임(I _out)의 각 픽셀 사이의 상호 관계에 따른 중요도를 추정하여 가중치맵(W ₁, W ₂)을 획득한다.

도 2에 도시된 바와 같이, 가중치맵 획득부(320)는 플로우맵 획득부(310)와 마찬가지로 제1 가중치맵 획득부(321)와 제2 가중치맵 획득부(312)를 포함할 수 있다.

제1 가중치맵 획득부(321)는 제1 플로우맵 획득부(311)에 대응하여, 제1 대상 프레임(I _n)의 각 픽셀이 가상의 보간 프레임(I _out)의 각 픽셀에 미치는 영향을 추정하여 제1 가중치맵(W ₁)을 획득한다. 그리고 제2 가중치맵 획득부(322)는 제2 플로우맵 획득부(312)에 대응하여, 제2 대상 프레임(I _n+1)의 각 픽셀이 가상의 보간 프레임(I _out)의 각 픽셀에 미치는 영향을 추정하여 제2 가중치맵(W ₂)을 획득한다.

본 실시예에서는 와핑 프레임 획득부(300)가 플로우맵 획득부(310)와 가중치맵 획득부(320)를 별도로 구비하여 2개의 플로우맵(f ₁, f ₂)과 2개의 가중치맵(W ₁, W ₂)을 각각 획득한다. 이는 보간 프레임(I _out)의 각 픽셀이 참조할 대상 프레임(I _n, I _n+1)의 픽셀들의 위치와, 참조할 픽셀별 중요도를 구분하여 획득함으로써, 더 정확한 보간 프레임(I _out)을 생성할 수 있도록 하기 위함이다. 즉 생성될 보간 프레임(I _out)의 각 픽셀의 픽셀값을 정밀하게 추정할 수 있도록 하기 위함이다.

프레임 와핑부(330)는 플로우맵 획득부(310)에서 획득된 2개의 플로우맵(f ₁, f ₂)과 가중치맵 획득부(320)에서 획득된 2개의 가중치맵(W ₁, W ₂)를 이용하여, 영상 획득부(100)에서 전송된 2개의 대상 프레임(I _n, I _n+1)을 각각 와핑한다.

도 2를 참조하면, 프레임 와핑부(330) 또한 제1 프레임 와핑부(331)와 제2 프레임 와핑부(332)를 포함할 수 있다. 제1 프레임 와핑부(331)는 제1 플로우맵(f ₁)과 제1 가중치맵(W ₁)을 이용하여 제1 대상 프레임(I _n)을 와핑하여 제1 와핑 프레임(I' _n)을 획득하고, 제2 프레임 와핑부(332)는 제2 플로우맵(f ₂)과 제2 가중치맵(W ₂)을 이용하여 제2 대상 프레임(I _n+1)을 와핑하여 제2 와핑 프레임(I' _n+1)을 획득한다.

제1 프레임 와핑부(331)는 제1 와핑 프레임(I' _n)의 각 픽셀이 참조해야하는 제1 대상 프레임(I _n)의 픽셀들을 제1 플로우맵(f ₁)을 기반으로 판별하고, 판별된 제1 대상 프레임(I _n)의 픽셀들의 픽셀값에 제1 가중치맵(W ₁)의 가중치를 가중하여 합함으로써 제1 와핑 프레임(I' _n)의 각 픽셀값을 획득할 수 있다.

이와 마찬가지로 제1 프레임 와핑부(331)는 제1 와핑 프레임(I' _n)의 각 픽셀이 참조해야하는 제1 대상 프레임(I _n)의 픽셀을 제1 플로우맵(f ₁)을 기반으로 판별하고, 판별된 제1 대상 프레임(I _n)의 픽셀들의 픽셀값에 제1 가중치맵(W ₁)의 가중치를 가중하여 합함으로써 제1 와핑 프레임(I' _n)의 각 픽셀값을 획득할 수 있다.

와핑 프레임 획득부(300)에서 획득되는 와핑 프레임(I')을 수학식으로 표현하면 수학식 1과 같이 표현될 수 있다.

여기서 i, j는 와핑 프레임(I')의 각 픽셀의 행방향 및 열방향 위치를 나타내고, F는 제1 및 제2 가중치맵(W ₁, W ₂)으로 표현되는 커널 크기를 나타내며, (α, β)는 각 축방향으로 구분된 플로우맵(f)을 나타낸다. 그리고 W는 가중치맵을 나타내고, d는 팽창(dilation) 파라미터로서 플로우맵(f)의 각 벡터가 시작하는 오프셋 위치를 조절하기 위한 파라미터이다.

도 3을 참조하면, 팽창 파라미터(d)의 크기에 따라 제1 및 제2 플로우맵 획득부(311, 312)가 플로우맵 획득 시에 특정 픽셀의 플로우를 나타내는 벡터의 시작 위치를 해당 픽셀 위치로 한정하여 벡터를 획득하는지, 주변 픽셀 위치까지 확장하여 벡터를 획득할 수 있는지에 대해 조절할 수 있다. 이는 더 넓은 영역에서 대응하는 픽셀을 탐색할 수 있도록 하기 위함이다.

여기서 제1 프레임 와핑부(331)에서 획득된 제1 와핑 프레임(I' _n)은 제1 대상 프레임(I _n)을 기준으로 추정한 가상의 보간 프레임으로 볼 수 있고, 제2 프레임 와핑부(332)에서 획득된 제2 와핑 프레임(I' _n+1)은 제2 대상 프레임(I _n+1)을 기준으로 추정한 가상의 보간 프레임으로 볼 수 있다. 만일 제1 와핑 프레임(I' _n)과 제2 와핑 프레임(I' _n+1)이 모두 정확하게 추정된 경우를 가정하면, 제1 와핑 프레임(I' _n)과 제2 와핑 프레임(I' _n+1)에서 2개의 대상 프레임(I _n, I _n+1)의 폐색 영역을 제외한 나머지 영역은 동일하게 획득될 수 있을 것이다.

즉 본 실시예에서 와핑 프레임 획득부(300)는 제1 대상 프레임(I _n)과 제2 대상 프레임(I _n+1) 사이에 위치하는 보간 프레임을 생성하기 위한 사전 작업으로, 제1 대상 프레임(I _n)을 기준으로 하는 제1 와핑 프레임(I' _n)과 제2 대상 프레임(I _n+1)을 기준으로 하는 제2 와핑 프레임(I' _n+1)의 2개의 와핑 프레임을 획득한다.

다시 도 1을 참조하면, 폐색맵 획득부(400)는 학습된 패턴 추정 방식에 따라 모션 특징맵(m)의 패턴으로부터 2개의 대상 프레임(I _n, I _n+1) 중 하나의 대상 프레임에만 나타나는 폐색 영역(occlusion region)을 추정하여 폐색맵(V)을 획득한다.

도 4의 (a) 및 (b)에 도시된 바와 같이, 인접하는 두 개의 프레임 사이에서도 각 프레임 내에서의 객체의 위치 변화에 의해 가려져서, 하나의 프레임에만 나타나는 폐색 영역이 존재하게 된다. 그리고 (c)에 도시된 바와 같이, 폐색 영역을 (a)의 제1 프레임에만 나타나는 영역과 (b)의 제2 프레임에만 나타나는 영역으로 구분될 수 있다. 이러한 폐색 영역은 2개의 대상 프레임(I _n, I _n+1) 중 하나의 대상 프레임에만 나타나므로, 폐색 영역에 포함되는 픽셀들은 보간 프레임(I _out) 생성시에 별도로 고려되어야만 한다.

이에 폐색맵 획득부(400)는 모션 특징맵(m)으로부터 제1 대상 프레임(I _n)의 폐색 영역과 제2 대상 프레임(I _n+1)의 폐색 영역을 구분하여 나타낼 수 있는 폐색맵(V)을 획득한다. 여기서 폐색맵 획득부(400)는 각 원소의 원소값이 0 또는 1의 값을 갖도록 폐색맵(V ∈ [0, 1])을 획득할 수 있다. 일 예로 폐색맵(V)에서 원소값이 0인 원소는 제1 대상 프레임(I _n)에서 대응하는 위치의 픽셀이 폐색 영역에 포함된 픽셀임을 나타내고, 원소값이 1인 원소는 제2 대상 프레임(I _n+1)에서 대응하는 위치의 픽셀이 폐색 영역에 포함된 픽셀임을 나타내도록 획득될 수 있다.

도 4의 (c)에서는 원소값이 0인 영역, 즉 제1 대상 프레임(I _n)의 폐색 영역으로 제2 대상 프레임(I _n+1)에서만 나타나는 영역을 파란색으로 표시하였으며, 원소값이 1인 영역, 즉 제2 대상 프레임(I _n+1)의 폐색 영역으로 제1 대상 프레임(I _n)에서만 나타나는 영역을 빨간색으로 표시하였다.

보간 프레임 획득부(500)는 와핑 프레임 획득부(300)에서 획득된 제1 와핑 프레임(I' _n)과 제2 와핑 프레임(I' _n+1) 및 폐색맵 획득부(400)에서 획득된 폐색맵(V)을 인가받고, 인가된 제1 와핑 프레임(I' _n)과 제2 와핑 프레임(I' _n+1) 및 폐색맵(V)을 이용하여 보간 프레임(I _out)을 획득한다.

보간 프레임 획득부(500)는 수학식 2에 따라 보간 프레임(I _out)을 획득할 수 있다.

여기서 T는 와핑 프레임 획득부(300)가 수행하는 프레임 와핑 연산을 의미한다.

즉 보간 프레임 획득부(500)는 제1 와핑 프레임(I' _n)과 제2 와핑 프레임(I' _n+1) 각각에서 폐색맵(V)에 의해 지정된 폐색 영역을 반영하여 결합함으로써, 보간 프레임(I _out)을 획득할 수 있다.

학습부(600)는 프레임 보간 장치의 학습 시에 구비되는 구성으로, 프레임 보간 장치가 실제 프레임 보간 동작을 수행되는 경우에는 제거될 수 있다. 학습부(600)는 인공 신경망으로 구현되는 모션 특징 추출부(200)와 와핑 프레임 획득부(300)의 플로우맵 획득부(310) 및 가중치맵 획득부(320), 그리고 폐색맵 획득부(400)를 학습시킨다.

본 실시예에서 학습부(600)는 진리값이 미리 획득된 학습 데이터를 이용하는 지도 학습 방식과 생성적 적대 네트워크(Generative Adversarial Network: GAN)에 기반한 적대적 학습 방식 중 적어도 하나를 이용하여 프레임 보간 장치를 학습시킬 수 있다.

학습부(600)가 프레임 보간 장치를 학습시키는 방법에 대한 상세한 설명은 후술하도록 한다.

도 5에 도시된 바와 같이, 본 실시예의 프레임 보간 장치에서 모션 특징 추출부(200)와 와핑 프레임 획득부(300)의 플로우맵 획득부(310) 및 가중치맵 획득부(320), 그리고 폐색맵 획득부(400)는 모두 인공 신경망으로 구현될 수 있다. 그리고 모션 특징 추출부(200)와 플로우맵 획득부(310), 가중치맵 획득부(320) 및 폐색맵 획득부(400)는 각각 적어도 하나의 콘볼루션 레이어를 포함하는 콘볼루션 신경망(Convolution Neuron Network: CNN)으로 구현될 수 있다. 각각의 콘볼루션 레이어는 콘볼루션 커널을 이용하여 콘볼루션 연산을 수행하고, 이후 활성화 함수(activation function)인 평균값 풀링(avgpool) 함수, 소프트 맥스(Softmax) 함수 및 시그모이드(Sigmoid) 함수 등을 이용할 수 있다.

도 5에서는 상기한 바와 같이, 제1 및 제2 플로우맵(f ₁, f ₂) 각각을 제1 및 제2 행 플로우맵(α ₁, α ₂)과 제1 및 제2 열 플로우맵(β ₁, β ₂)으로 구분하여 표현하였으며, 제1 및 제2 프레임 와핑부(331, 332)를 AdaCoF로 표현하였다. 이는 제1 및 제2 프레임 와핑부(331, 332)가 각 픽셀의 플로우를 나타내는 다수의 벡터에 대해 가중치를 가중하여 합하는 플로우의 적응적 공동 작업(Adaptive Collaboration of Flows)에 기반하여 와핑을 수행하기 때문이다.

도 6에서 (a)는 기존의 커널 기반 프레임 보간 기법을 나타내고, (b)는 플로우 기반 프레임 보간 기법을 나타내며, (c)는 커널 및 플로우 조합 기반 프레임 보간 기법을 나타낸다. 그리고 (d)는 본 실시예에 따른 프레임 보간 기법을 나타낸다.

(a)에 도시된 바와 같이 커널 기반 프레임 보간 기법에서는 지정된 크기의 커널 내에서 대응하는 픽셀을 탐색함에 따라 커널 크기보다 큰 픽셀의 움직임에 대응할 수 없다. (b)에 도시된 플로우 기반 프레임 보간 기법은 픽셀의 움직임 크기에는 제한되지 않으나, 여러 픽셀을 동시에 참조할 수 없으며, 대상 프레임(I _t-1, I _t+1)의 화질이 선명하지 않은 경우에 정확한 보간 프레임(I _t)을 획득하지 못한다. (c)와 같이 커널 및 플로우 조합 기반 프레임 보간 기법 또한 커널의 크기가 제한됨에 따라 실질적으로 크기가 큰 픽셀에 대한 플로우 기반 프레임 보간 기법을 적용하는 것으로 볼 수 있으며, 이에 플로우 기반 프레임 보간 기법과 동일한 한계를 갖는다. 그에 비해 본 실시예에 따른 프레임 보간 기법은 (d)에 도시된 바와 같이 픽셀의 위치 및 개수에 제약받지 않고 다양한 위치의 다수의 픽셀을 참조하여 보간 프레임(I _t)의 픽셀을 생성할 수 있으므로 매우 정확한 보간 프레임(I _t)을 획득할 수 있다.

도 7은 도 1의 학습부의 상세 구성의 일 예를 나타낸다.

지도 학습 방식에 따라 프레임 보간 장치를 학습시키는 경우, 학습부(600)는 다수의 프레임으로 구성된 비디오 영상에서 각 프레임(I _t)에 대해 시간적으로 이전 프레임(I _t-1)과 이후 프레임(I _t+1)이 모션 특징 추출부(200)로 인가되도록 한다. 그리고 현재 프레임(I _t)을 진리값(I _gt)으로 하여, 보간 프레임 획득부(500)에서 획득된 보간 프레임(I _out)과 진리값(I _gt) 사이의 차이를 지도 학습 손실(L ₁)로서 수학식 3에 따라 계산할 수 있다.

학습부(600)는 계산된 손실(L ₁)을 역전파하여 프레임 보간 장치의 모션 특징 추출부(200)와 플로우맵 획득부(310) 및 가중치맵 획득부(320), 그리고 폐색맵 획득부(400)를 학습시킬 수 있다.

한편, 적대적 학습 방식에 따라 프레임 보간 장치를 학습시키는 경우, 학습부(600)는 도 7에 도시된 바와 같은 구성을 가질 수 있다. 도 7을 참조하면, 학습부(600)는 프레임 결합부(610), 랜덤 선택부(620) 및 프레임 판별부(630)를 포함할 수 있다.

적대적 학습 방식에서는 별도의 학습 데이터가 요구되지 않으므로, 프레임 결합부(610)는 보간 프레임 획득부(500)에서 획득된 보간 프레임(I _out)을 2개의 대상 프레임(I _n, I _n+1)에 각각 결합(concatenate)하여 결합 프레임([I _n, I _out], [I _out, I _n+1])을 출력한다. 이때 프레임 결합부(610)는 대상 프레임(I _n, I _n+1)과 보간 프레임(I _out) 사이의 시간적 순서에 따라 프레임들을 결합한다.

도 7에 도시된 바와 같이, 프레임 결합부(610)는 제1 프레임 결합부(611)와 제2 프레임 결합부(612)를 포함할 수 있다.

제1 프레임 결합부(611)는 2개의 대상 프레임(I _n, I _n+1) 중 제1 대상 프레임(I _n)과 보간 프레임(I _out)을 인가받아 결합하여 제1 결합 프레임([I _n, I _out])을 출력한다. 제1 프레임 결합부(611)는 제1 대상 프레임(I _n)과 보간 프레임(I _out)을 시간적 배치 순서에 따라 제1 대상 프레임(I _n)을 우선 배치하고 이후 보간 프레임(I _out)을 배치 및 결합하여 제1 결합 프레임([I _n, I _out])을 획득한다.

제2 프레임 결합부(612)는 2개의 대상 프레임(I _n, I _n+1) 중 제2 대상 프레임(I _n+1)과 보간 프레임(I _out)을 인가받아 결합하여 제2 결합 프레임([I _out, I _n+1])을 출력한다. 제2 프레임 결합부(612)는 제2 대상 프레임(I _n+1)과 보간 프레임(I _out)을 시간적 배치 순서에 따라 보간 프레임(I _out)을 우선 배치하고 이후 제2 대상 프레임(I _n+1)을 배치 및 결합하여 제2 결합 프레임([I _out, I _n+1])을 획득한다.

랜덤 선택부(620)는 프레임 결합부(610)에서 획득된 제1 결합 프레임([I _n, I _out]) 또는 제2 결합 프레임([I _out, I _n+1]) 중 하나를 랜덤하게 선택하여 프레임 판별부(630)로 전달한다.

그리고 프레임 판별부(630)는 랜덤 선택부(620)에서 선택되어 전달된 결합 프레임이 제1 결합 프레임([I _n, I _out])인지 또는 제2 결합 프레임([I _out, I _n+1])인지 여부를 판별한다. 만일 보간 프레임(I _out)이 2개의 대상 프레임(I _n, I _n+1)의 사이에 매우 자연스러운 프레임으로 생성되었다면, 프레임 판별부(630)는 인가된 결합 프레임이 제1 결합 프레임([I _n, I _out])인지 또는 제2 결합 프레임([I _out, I _n+1])인지 여부를 정확하게 판별하기 어렵다. 그러나 보간 프레임 생성 장치에서 보간 프레임(I _out)이 정상적으로 생성되지 않았다면, 프레임 판별부(630)는 인가된 결합 프레임이 제1 결합 프레임([I _n, I _out])인지 또는 제2 결합 프레임([I _out, I _n+1])인지 여부를 용이하게 판별할 수 있을 것이다.

따라서 프레임 판별부(630)가 결합 프레임을 정확하게 판별할 수 없다면, 모션 특징 추출부(200)와 플로우맵 획득부(310), 가중치맵 획득부(320) 및 폐색맵 획득부(400)가 정상적으로 학습된 것으로 볼 수 있다.

다만 결합 프레임을 판별 프레임 판별부(630) 또한 학습이 수행될 필요가 있다. 프레임 판별부(630)에 대한 손실(L _C)은 수학식 4로 계산될 수 있다.

여기서 C는 프레임 판별부(630)의 판별함수를 나타내고, []는 프레임 결합을 나타낸다.

한편, 수학식 4에 따라 프레임 판별부(630)의 손실(L _C)이 계산되면, 결합 프레임의 불확실성, 즉 엔트로피가 최대화되도록 하여 적대적 손실(L _adv)을 수학식 5에 따라 계산할 수 있다.

일반적으로 적대적 학습 방식은 매우 우수한 학습 성능을 나타내지만 학습에 매우 긴 시간이 요구된다는 단점이 있다. 반면, 지도 학습 방식의 경우, 학습 속도는 상대적으로 빠르지만 적대적 학습 방식에 비해 학습 성능이 떨어질 수 있다.

이에 본 실시예에서는 지도 학습 방식과 적대적 학습 방식을 함께 이용하는 혼합 학습 방법을 수행할 수도 있다. 즉 지도 학습 방식에 따라 우선 학습을 수행하여 빠르게 1차 학습을 수행하고, 이후, 적대적 학습 방식을 추가로 적용하여 2차 학습을 수행함으로써, 학습 속도를 높이면서도 우수한 학습 결과를 획득할 수 있도록 한다.

도 1내지 도 7을 참조하여, 도 8의 프레임 보간 방법을 설명하면, 우선 다수의 프레임으로 구성된 비디오 영상에서 시간적으로 인접한 두 개의 대상 프레임(I _n, I _n+1)을 획득한다(S10). 그리고 미리 학습된 패턴 추정 방식에 따라 인가된 두 개의 대상 프레임(I _n, I _n+1) 사이에서 픽셀들 간의 관계에 따른 패턴을 추정하여 모션 특징맵(m)을 획득한다(S20).

모션 특징맵(m)이 획득되면, 미리 학습된 패턴 추정 방식에 따라 획득된 모션 특징맵(m)의 패턴으로부터, 생성되어야 하는 보간 프레임의 각 픽셀이 두 개의 대상 프레임(I _n, I _n+1)에서 참조해야 하는 각 픽셀의 위치 관계를 추정하여 2개의 플로우맵(f ₁, f ₂)을 획득한다(S30). 이때, 제1 플로우맵(f ₁)은 두 개의 대상 프레임(I _n, I _n+1) 중 제1 대상 프레임(I _n)의 다수의 픽셀 중 보간 프레임의 각 픽셀이 참조할 픽셀들과의 위치 관계를 추정하여 획득되고, 제2 플로우맵(f ₂)은 제2 대상 프레임(I _n+1)의 다수의 픽셀 중 보간 프레임의 각 픽셀이 참조할 픽셀들과의 위치 관계를 추정하여 획득될 수 있다.

이와 함께, 미리 학습된 패턴 추정 방식에 따라 획득된 모션 특징맵(m)의 패턴으로부터, 생성되어야 하는 보간 프레임의 각 픽셀에 대해 두 개의 대상 프레임(I _n, I _n+1)의 각 픽셀의 중요도를 추정하여 2개의 가중치맵(W ₁, W ₂)을 획득한다(S40). 여기서 제1 가중치맵(W ₁)은 두 개의 대상 프레임(I _n, I _n+1) 중 제1 대상 프레임(I _n)의 다수의 픽셀이 보간 프레임의 각 픽셀에 미치는 영향을 추정하여 획득되고, 제2 가중치맵(W ₂)은 제2 대상 프레임(I _n+1)의 다수의 픽셀이 보간 프레임의 각 픽셀에 미치는 영향을 추정하여 획득될 수 있다.

2개의 플로우맵(f ₁, f ₂)과 2개의 가중치맵(W ₁, W ₂)이 획득되면, 2개의 대상 프레임(I _n, I _n+1) 각각을 대응하는 플로우맵(f ₁, f ₂)과 가중치맵(W ₁, W ₂)을 이용하여 와핑함으로써, 2개의 와핑 프레임(I' _n, I' _n+1)을 획득한다(S50). 여기서 와핑 프레임(I' _n, I' _n+1)은 플로우맵(f ₁, f ₂)에 의해 지정된 위치의 대상 프레임(I _n, I _n+1)의 픽셀에 대해 가중치맵(W ₁, W ₂)에 의해 지정된 가중치를 가중하여 합함으로써, 획득될 수 있다.

또한 플로우맵(f ₁, f ₂)을 획득하는 단계(S30)와 가중치맵(W ₁, W ₂)을 획득하는 단계와 별도로, 미리 학습된 패턴 추정 방식에 따라 모션 특징맵(m)의 패턴으로부터 2개의 대상 프레임(I _n, I _n+1)의 폐색 영역을 나타내는 폐색맵(V)을 획득한다(S60). 이때 폐색맵(V)은 제1 대상 프레임(I _n)의 폐색 영역과 제2 대상 프레임(I _n+1)의 폐색 영역이 서로 다른 지정된 값([0, 1])을 갖도록 생성될 수 있다.

2개의 와핑 프레임(I' _n, I' _n+1)과 폐색맵(V)이 획득되면, 획득된 2개의 와핑 프레임(I' _n, I' _n+1)과 폐색맵(V)을 이용하여 보간 프레임(I _out)을 획득한다. 이때 보간 프레임은 수학식 2에 따라 획득될 수 있다.

한편, 도 8에 도시된 프레임 보간 방법은 사전에 학습이 수행되어야 한다. 여기서 학습은 모션 특징맵(m)을 획득하는 단계(S20)와 2개의 플로우맵(f ₁, f ₂)을 획득하는 단계(S30), 2개의 가중치맵(W ₁, W ₂)을 획득하는 단계(S40) 및 폐색맵(V)을 획득하는 단계(S60)가 정상적으로 수행되도록 수행된다.

따라서 본 실시예에 따른 프레임 보간 방법은 대상 프레임 획득 단계 이전, 학습 단계(미도시)를 더 포함할 수 있다.

학습 단계에서는 지도 학습 단계 및 적대적 학습 단계 중 적어도 하나를 포함할 수 있다. 학습 단계가 지도 학습 단계를 포함하는 경우, 지도 학습 단계는 다수의 프레임으로 구성된 비디오 영상에서 각 프레임(I _t)에 대해 시간적으로 이전 프레임(I _t-1)과 이후 프레임(I _t+1)을 2개의 대상 프레임(I _n, I _n+1)으로 선택하여 모션 특징(m)을 추출하여 보간 프레임(I _out)을 획득한다. 그리고 획득된 보간 프레임(I _out)과 진리값(I _gt)인 현재 프레임(I _t) 사이의 차이를 지도 학습 손실(L ₁)로서 계산하여 역전파함으로써 수행될 수 있다.

한편, 학습 단계가 적대적 학습 단계를 포함하는 경우, 시간적 순서에 따라 제1 대상 프레임(I _n)과 보간 프레임(I _out)을 배치 결합하여 제1 결합 프레임([I _n, I _out])을 획득하고, 보간 프레임(I _out)과 제2 대상 프레임(I _n+1)을 배치 및 결합하여 제2 결합 프레임([I _out, I _n+1])을 획득한다.

그리고 획득된 제1 결합 프레임([I _n, I _out]) 또는 제2 결합 프레임([I _out, I _n+1]) 중 하나를 랜덤하게 선택하고, 랜덤하게 선택된 결합 프레임이 제1 결합 프레임([I _n, I _out])인지 또는 제2 결합 프레임([I _out, I _n+1])인지 여부를 판별하여, 판별 결과를 기반으로 적대적 손실(L _adv)을 수학식 5에 따라 계산하여 역전파함으로써 수행될 수 있다.

경우에 따라서 학습 단계는 지도 학습 단계를 우선 수행한 이후 적대적 학습 단계를 추가적으로 수행하도록 구성될 수도 있다.

본 발명에 따른 방법은 컴퓨터에서 실행시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.

따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

다수의 프레임으로 구성된 비디오 영상에서 시간적으로 인접한 두 개의 대상 프레임을 인가받고, 미리 학습된 패턴 추정 방식에 따라 인가된 두 개의 대상 프레임 사이에서 픽셀들 간의 관계에 따른 패턴을 추정하여 모션 특징맵을 획득하는 모션 특징 추출부;

미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 생성되어야 하는 보간 프레임의 각 픽셀이 상기 두 개의 대상 프레임 각각에서 참조해야하는 적어도 하나의 픽셀 위치를 나타내는 2개의 플로우맵과, 상기 보간 프레임의 각 픽셀에 대한 상기 두 개의 대상 프레임의 각 픽셀의 중요도를 나타내는 2개의 가중치맵을 획득하고, 두 개의 대상 프레임 각각을 상기 2개의 플로우맵과 상기 2개의 가중치맵 중 대응하는 플로우맵과 가중치맵을 이용하여 와핑하여 2개의 와핑 프레임을 획득하는 와핑 프레임 획득부;

미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 상기 2개의 대상 프레임의 폐색 영역을 나타내는 폐색맵을 획득하는 폐색맵 획득부; 및

상기 2개의 와핑 프레임과 상기 폐색맵을 기지정된 방식으로 결합하여 상기 보간 프레임을 획득하는 보간 프레임 획득부를 포함하는 프레임 보간 장치.
제1항에 있어서, 상기 와핑 프레임 획득부는

상기 두 개의 대상 프레임 중 제1 대상 프레임의 다수의 픽셀 중 상기 보간 프레임의 각 픽셀이 참조해야하는 픽셀들의 위치를 추정하여 제1 플로우맵을 획득하고, 제2 대상 프레임의 다수의 픽셀 중 상기 보간 프레임의 각 픽셀이 참조해야하는 적어도 하나의 픽셀들의 추정하여 제2 플로우맵을 획득하는 플로우맵 획득부;

상기 두 개의 대상 프레임 중 제1 대상 프레임의 다수의 픽셀 각각이 상기 보간 프레임의 각 픽셀에 미치는 영향도를 추정하여 제1 가중치맵을 획득하고, 제2 대상 프레임의 다수의 픽셀 각각이 상기 보간 프레임의 각 픽셀에 미치는 영향도를 추정하여 제2 가중치맵을 획득하는 가중치맵 획득부; 및

상기 제1 대상 프레임을 상기 제1 플로우맵과 상기 제1 가중치맵에 따라 와핑하여 제1 와핑 프레임을 획득하고, 상기 제2 대상 프레임을 상기 제2 플로우맵과 상기 제2 가중치맵에 따라 와핑하여 제2 와핑 프레임을 획득하는 프레임 와핑부를 포함하는 프레임 보간 장치.
제2항에 있어서, 상기 프레임 와핑부는

상기 제1 플로우맵의 벡터 형태로 표현된 픽셀 위치에 상기 제1 가중치맵의 대응하는 가중치를 가중하고 합하여 제1 와핑 프레임의 위치별 픽셀값을 획득하고,

상기 제2 플로우맵의 벡터 형태로 표현된 픽셀 위치에 상기 제2 가중치맵의 대응하는 가중치를 가중하고 합하여 상기 제1 와핑 프레임의 위치별 픽셀값을 획득하는 프레임 보간 장치.
제2항에 있어서, 상기 폐색맵 획득부는

상기 폐색맵이 상기 제1 대상 프레임의 폐색 영역과 상기 제2 대상 프레임의 폐색 영역이 서로 다른 지정된 값을 갖도록 생성하는 프레임 보간 장치.
제2항에 있어서, 상기 프레임 보간 장치는

인공 신경망으로 상기 모션 특징 추출부와 상기 플로우맵 획득부, 상기 가중치맵 획득부 및 상기 폐색맵 획득부를 지도 학습 방식 또는 적대적 학습 방식 중 적어도 하나를 이용하여 학습시키기 위한 학습부를 더 포함하는 프레임 보간 장치.
제5항에 있어서, 상기 학습부는

비디오 영상에서 특정 프레임에 대해 시간적으로 인접한 이전 프레임과 이후 프레임을 2개의 대상 프레임으로 설정하여 상기 모션 특징 추출부로 인가하고, 상기 보간 프레임 획득부에서 획득되는 보간 프레임과 특정 프레임 사이의 차를 지도 학습 손실로 계산하여 역전파하는 프레임 보간 장치.
제5항에 있어서, 상기 학습부는

시간적 순서에 따라 상기 제1 대상 프레임과 상기 보간 프레임을 순차 배치 결합하여 제1 결합 프레임을 획득하고, 상기 보간 프레임과 상기 제2 대상 프레임을 순차 배치 및 결합하여 제2 결합 프레임을 획득하는 프레임 결합부;

상기 제1 결합 프레임 또는 상기 제2 결합 프레임 중 하나를 랜덤하게 선택하는 랜덤 선택부; 및

선택된 결합 프레임이 상기 제1 결합 프레임인지 또는 상기 제2 결합 프레임인지 여부를 판별하여 적대적 손실을 계산하여 역전파하는 프레임 판별부를 포함하는 프레임 보간 장치.
제7항에 있어서, 상기 프레임 판별부는

결합 프레임의 불확실성이 최대가 되도록 상기 적대적 손실(L _adv)을 수학식

(여기서 C는 프레임 판별 함수를 나타내고, I _n, I _n+1은 각각 제1 및 제 대상 프레임을 나타내며, I _out는 보간 프레임을 나타낸다. 그리고 []는 결합 함수를 나타낸다.)

에 따라 계산하는 프레임 보간 장치.
제5항에 있어서, 상기 학습부는

비디오 영상에서 특정 프레임에 대해 시간적으로 인접한 이전 프레임과 이후 프레임을 2개의 대상 프레임으로 설정하여 상기 모션 특징 추출부로 인가하고, 상기 보간 프레임 획득부에서 획득되는 보간 프레임과 특정 프레임 사이의 차를 지도 학습 손실로 계산하여 역전파하여 지도 학습을 수행하고,

이후 상기 제1 및 제2 대상 프레임 각각과 상기 보간 프레임을 시간적 순서에 따라 순차 배치 결합하여 2개의 결합 프레임을 획득하고, 2개의 결합 프레임 중 하나를 랜덤하게 선택하여, 상기 제1 및 제2 대상 프레임 중 선택된 결합 프레임에 결합된 프레임을 판별하여 적대적 손실을 계산하고 역전파하는 프레임 보간 장치.
다수의 프레임으로 구성된 비디오 영상에서 시간적으로 인접한 두 개의 대상 프레임을 인가받고, 미리 학습된 패턴 추정 방식에 따라 인가된 두 개의 대상 프레임 사이에서 픽셀들 간의 관계에 따른 패턴을 추정하여 모션 특징맵을 획득하는 단계;

미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 생성되어야 하는 보간 프레임의 각 픽셀이 상기 두 개의 대상 프레임 각각에서 참조해야하는 적어도 하나의 픽셀 위치를 나타내는 2개의 플로우맵과, 상기 보간 프레임의 각 픽셀에 대한 상기 두 개의 대상 프레임의 각 픽셀의 중요도를 나타내는 2개의 가중치맵을 획득하고, 두 개의 대상 프레임 각각을 상기 2개의 플로우맵과 상기 2개의 가중치맵 중 대응하는 플로우맵과 가중치맵을 이용하여 와핑하여 2개의 와핑 프레임을 획득하는 단계;

미리 학습된 패턴 추정 방식에 따라 상기 모션 특징맵의 패턴을 추정하여, 상기 2개의 대상 프레임의 폐색 영역을 나타내는 폐색맵을 획득하는 단계; 및

상기 2개의 와핑 프레임과 상기 폐색맵을 기지정된 방식으로 결합하여 상기 보간 프레임을 획득하는 단계를 포함하는 프레임 보간 방법.
제10항에 있어서, 상기 와핑 프레임을 획득하는 단계는

상기 두 개의 대상 프레임 중 제1 대상 프레임의 다수의 픽셀 중 상기 보간 프레임의 각 픽셀이 참조해야하는 픽셀들의 위치를 추정하여 제1 플로우맵을 획득하고, 제2 대상 프레임의 다수의 픽셀 중 상기 보간 프레임의 각 픽셀이 참조해야하는 적어도 하나의 픽셀들의 추정하여 제2 플로우맵을 획득하는 단계;

상기 두 개의 대상 프레임 중 제1 대상 프레임의 다수의 픽셀 각각이 상기 보간 프레임의 각 픽셀에 미치는 영향도를 추정하여 제1 가중치맵을 획득하고, 제2 대상 프레임의 다수의 픽셀 각각이 상기 보간 프레임의 각 픽셀에 미치는 영향도를 추정하여 제2 가중치맵을 획득하는 단계; 및

제1 와핑 프레임을 획득하기 위해 상기 제1 대상 프레임을 상기 제1 플로우맵과 상기 제1 가중치맵에 따라 와핑하고, 제2 와핑 프레임을 획득하기 위해 상기 제2 대상 프레임을 상기 제2 플로우맵과 상기 제2 가중치맵에 따라 와핑하는 단계를 포함하는 프레임 보간 방법.
제11항에 있어서, 상기 와핑하는 단계는

상기 제1 플로우맵의 벡터 형태로 표현된 픽셀 위치에 상기 제1 가중치맵의 대응하는 가중치를 가중하고 합하여 제1 와핑 프레임의 위치별 픽셀값을 획득하는 단계; 및

상기 제2 플로우맵의 벡터 형태로 표현된 픽셀 위치에 상기 제2 가중치맵의 대응하는 가중치를 가중하고 합하여 상기 제1 와핑 프레임의 위치별 픽셀값을 획득하는 단계를 포함하는 프레임 보간 방법.
제11항에 있어서, 상기 폐색맵을 획득하는 단계는

상기 폐색맵이 상기 제1 대상 프레임의 폐색 영역과 상기 제2 대상 프레임의 폐색 영역이 서로 다른 지정된 값을 갖도록 생성하는 프레임 보간 방법.
제11항에 있어서, 상기 프레임 보간 방법은

인공 신경망을 이용하여 수행되는 상기 모션 특징맵을 획득하는 단계와 상기 플로우맵을 획득하는 단계, 상기 가중치맵을 획득하는 단계 및 상기 폐색맵을 획득하는 단계를 지도 학습 방식 또는 적대적 학습 방식 중 적어도 하나를 이용하여 학습시키기 위한 학습 단계를 더 포함하는 프레임 보간 방법.
제14항에 있어서, 상기 학습 단계는

비디오 영상에서 특정 프레임에 대해 시간적으로 인접한 이전 프레임과 이후 프레임을 2개의 대상 프레임으로 설정하는 단계; 및

보간 프레임과 상기 특정 프레임 사이의 차를 지도 학습 손실로 계산하여 역전파하는 단계를 포함하는 프레임 보간 방법.
제14항에 있어서, 상기 학습 단계는

시간적 순서에 따라 상기 제1 대상 프레임과 상기 보간 프레임을 순차 배치 결합하여 제1 결합 프레임을 획득하고, 상기 보간 프레임과 상기 제2 대상 프레임을 순차 배치 및 결합하여 제2 결합 프레임을 획득하는 단계;

상기 제1 결합 프레임 또는 상기 제2 결합 프레임 중 하나를 랜덤하게 선택하는 단계; 및

선택된 결합 프레임이 상기 제1 결합 프레임인지 또는 상기 제2 결합 프레임인지 여부를 판별하여 적대적 손실을 계산하여 역전파하는 단계를 포함하는 프레임 보간 방법.
제16항에 있어서, 상기 역전파하는 단계는

결합 프레임의 불확실성이 최대가 되도록 상기 적대적 손실(L _adv)을 수학식

(여기서 C는 프레임 판별 함수를 나타내고, I _n, I _n+1은 각각 제1 및 제 대상 프레임을 나타내며, I _out는 보간 프레임을 나타낸다. 그리고 []는 결합 함수를 나타낸다.)

에 따라 계산하는 프레임 보간 방법.
제14항에 있어서, 상기 학습 단계는

비디오 영상에서 특정 프레임에 대해 시간적으로 인접한 이전 프레임과 이후 프레임을 2개의 대상 프레임으로 설정하여 획득되는 보간 프레임과 특정 프레임 사이의 차를 지도 학습 손실로 계산하여 역전파하여 지도 학습을 수행하는 단계; 및

이후 상기 제1 및 제2 대상 프레임 각각과 상기 보간 프레임을 시간적 순서에 따라 순차 배치 결합하여 2개의 결합 프레임을 획득하고, 2개의 결합 프레임 중 하나를 랜덤하게 선택하여, 상기 제1 및 제2 대상 프레임 중 선택된 결합 프레임에 결합된 프레임을 판별하여 적대적 손실을 계산하고 역전파하는 단계를 포함하는 프레임 보간 방법.