KR20210029089A

KR20210029089A - 시간적 일관성이 개선된 비디오 처리를 위한 시스템 및 방법

Info

Publication number: KR20210029089A
Application number: KR1020200101842A
Authority: KR
Inventors: 모스타파 엘-카미; 이정원; 라이언 제토
Original assignee: 삼성전자주식회사
Priority date: 2019-09-04
Filing date: 2020-08-13
Publication date: 2021-03-15
Also published as: CN112449141A; US11526970B2; US20210065340A1; TW202112138A

Abstract

비디오 프레임들에 대한 시간적 특성을 유지하면서 입력 비디오를 처리하기 위한 시스템 및 방법이 개시된다. 본 방법은, 입력 비디오를 제1 프레임 레이트에서 제2 프레임 레이트로 변환하는 단계로서, 제2 프레임 레이트는 상기 제1 프레임 레이트보다 고속인 프레임 레이트인 단계, 입력 비디오의 처리된 프레임들(processed frames)을 제2 프레임 레이트에서 생성하는 단계, 및 처리된 프레임을 시간적 슬라이딩 윈도우 집계(temporal sliding window aggregation)를 사용하여 집계하여 제3 프레임 레이트에서 처리된 출력 비디오를 생성하는 단계를 포함한다.

Description

시간적 일관성이 개선된 비디오 처리를 위한 시스템 및 방법{SYSTEM AND METHO FOR VIDEO PROCESSSING WITH ENHANCED TEMPORAL CONSISTENCY}

본 개시(disclosure)는 일반적으로 비디오 처리에 관한 것이다. 특히, 본 개시는 비디오 프레임들 간의 시간적 특성에 기초하여 비디오를 처리하기 위한 시스템 및 방법에 관한 것이다.

비디오는 특정 프레임 레이트에서 재생되는 일련의 프레임이다. 비디오는 비디오 편집, 비디오 채색, 비디오 인페인팅, 비디오 향상, 비디오 초 해상도 처리 및 비디오 스타일 전송 처리와 같은, 알려진 비디오 처리 기술을 사용하여 프레임 단위로 처리될 수 있다.

공지된 처리 기술을 사용하여 처리된 비디오는 종종 연속적인 프레임들 사이의 변화로 인해 시간적으로 비일관적인 비디오를 야기하여, 비디오 재생 동안 깜빡임을 초래한다. 따라서, 비디오 프레임들을 시간적으로 일관성 있게 렌더링하기 위해 사후 처리가 필요할 수 있다. 사후 처리는 각 비디오 프레임에 제공된 모든 정보를 설명하기 위해 많은 양의 컴퓨터 처리 자원이 필요할 수 있다.

따라서, 시간적 일관성이 개선된 비디오 프레임을 생성할 수 있는 비디오 처리 기술을 제공함으로써, 비디오 프레임들 사이의 시간적 변동을 정정하기 위해 추가 처리 (즉, 사후 처리)를 제공할 필요를 줄일 수 있다.

본 발명이 해결하고자 하는 기술적 과제는 비디오 프레임들에 대한 시간적 일관성을 유지하면서 입력 비디오를 처리하는 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 다른 기술적 과제는 비디오 프레임들에 대한 시간적 일관성을 유지하면서 입력 비디오를 처리하기 위한 시스템을 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한 몇몇 실시예에 따른 비디오 프레임들에 대한 시간적 일관성(temporal consistency)을 유지하면서 입력 비디오를 처리하는 방법은, 입력 비디오를 제1 프레임 레이트에서 제2 프레임 레이트로 변환하는 단계로서, 제2 프레임 레이트는 상기 제1 프레임 레이트보다 고속인 프레임 레이트인 단계, 입력 비디오의 처리된 프레임들(processed frames)을 제2 프레임 레이트에서 생성하는 단계, 및 처리된 프레임을 시간적 슬라이딩 윈도우 집계(temporal sliding window aggregation)를 사용하여 집계하여 제3 프레임 레이트에서 처리된 출력 비디오를 생성하는 단계를 포함한다.

상기 기술적 과제를 해결하기 위한 몇몇 실시예에 따른 비디오 프레임들에 대한 시간적 일관성을 유지하면서 입력 비디오를 처리하기 위한 시스템은, 비일시적 컴퓨터 판독 가능 메모리 및 프로세서를 포함하고, 프로세서는, 비일시적 컴퓨터 판독 가능 메모리에 저장된 명령을 실행할 때, 입력 비디오를 제1 프레임 레이트에서 제2 프레임 레이트로 변환하되, 제2 프레임 레이트는 제1 프레임 레이트보다 고속인 프레임 레이트이고, 제2 프레임 레이트에서 입력 비디오의 처리된 프레임을 생성하고, 처리된 프레임을 시간적 슬라이딩 윈도우 집계를 사용하여 집계하여 제3 프레임 레이트에서 처리된 출력 비디오를 산출하도록 구성된다.

본 개시 내용의 특정 실시 양태의 상기 및 다른 측면, 특징 및 이점은 첨부 도면과 함께 다음의 상세한 설명으로부터 보다 명백해질 것이다.
도 1은 일 실시 예에 따른 시간적 상향 변환 및 집계를 위한 흐름을 나타내는 도면이다.
도 2는 일 실시 예에 따른 시간적 상향 변환 및 집계 동안 프레임들을 도시하는 도면이다.
도 3은 일 실시 예에 따른 비디오 인페인팅을 수행하기 위한 입력 비디오 프레임 및 마스크를 도시하는 도면이다.
도 4a는 일 실시 예에 따른 비디오 인페인팅을 수행하기 위한 프레임 보간 단계를 도시하는 도면이다.
도 4b는 일 실시 예에 따른 비디오 인페인팅을 수행하기 위한 프레임 단위의 페인팅 단계를 도시하는 도면이다.
도 4c는 일 실시 예에 따른 시간적 집계 단계를 도시하는 도면이다.
도 5는 일 실시 예에 따른 네트워크 환경에서의 전자 장치를 도시하는 블록도이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예를 설명한다. 동일한 도면 부호가 상이한 도면에 도시되어 있지만, 동일한 요소는 동일한 도면 부호로 표시될 것이다. 이하의 설명에서, 상세한 구성 및 구성 요소와 같은 특정 세부 사항은 단지 본 개시의 실시 예의 전반적인 이해를 돕기 위해 제공된다. 그러므로, 본 명세서의 범위를 벗어나지 않고 본 명세서에 기술된 실시 예들의 다양한 변경 및 수정이 이루어질 수 있다는 것이 당업자에게 명백하다. 또한, 잘 알려진 기능 및 구성에 대한 설명은 명확성 및 간결성을 위해 생략된다. 이하에서 설명되는 용어들은 본 발명의 기능을 고려하여 정의된 용어 들로서, 사용자, 사용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 그 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면을 참조하여 상세하게 설명하고자 한다. 그러나, 본 개시는 실시 예들에 제한되지 않고 본 개시의 범위 내의 모든 수정, 균등물 및 대안들을 포함한다는 것을 이해해야 한다.

제1, 제2 등과 같은 서수를 포함하는 용어는 다양한 요소를 설명하기 위해 사용될 수 있지만, 구조적 요소는 용어에 의해 제한되지 않는다. 이 용어는 하나의 요소를 다른 요소와 구별하기 위해서만 사용된다. 예를 들어, 본 개시의 범위를 벗어나지 않으면서, 제1 구조적 요소는 제2 구조적 요소로 지칭될 수 있다. 유사하게, 제2 구조적 요소는 또한 제1 구조적 요소로 지칭될 수 있다. 본원에 사용된 용어 "및/또는"은 하나 이상의 관련 항목의 임의의 및 모든 조합을 포함한다.

다르게 정의되지 않는 한, 본 명세서에서 사용된 모든 용어는 본 발명이 속하는 기술 분야의 당업자에 의해 이해되는 것과 동일한 의미를 갖는다. 일반적으로 사용되는 사전에 정의된 용어와 같은 용어는 관련 분야의 문맥적 의미와 동일한 의미를 갖는 것으로 해석되어야 하며, 본 개시에서 명확하게 정의되지 않는 한 이상적이거나 지나치게 공식적인 의미를 갖는 것으로 해석되어서는 안된다.

일 실시 예에 따른 전자 장치는 다양한 유형의 전자 장치 중 하나일 수 있다. 전자 장치는, 예를 들어 휴대용 통신 장치 (예를 들어, 스마트폰), 컴퓨터, 휴대용 멀티미디어 장치, 휴대용 의료 장치, 카메라, 웨어러블 장치 또는 가전 제품을 포함할 수 있다. 본 개시의 일 실시 예에 따르면, 전자 장치는 전술한 것들로 제한되지 않는다.

본 명세서에서 사용한 용어는 단지 본 발명을 제한하고자 하는 것이 아니라, 해당되는 실시 예에 대한 다양한 변경, 균등물 또는 대체물을 포함하도록 의도된 것이다. 첨부된 도면의 설명과 관련하여, 유사한 또는 관련된 구성 요소를 지칭하기 위해 유사한 참조 번호가 사용될 수 있다. 항목에 대응하는 단수형의 명사에는 관련 문맥이 명확하게 달리 나타내지 않는 한 하나 이상의 사물이 포함될 수 있다. 본원에 사용된 "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B 또는 C", "A, B, 또는 C 중 적어도 하나", 및 "A, B 또는 C 중 적어도 하나"와 같은 문구는 각각 해당 문구 중 하나에 함께 열거된 항목의 모든 가능한 조합을 포함할 수 있다. 본 명세서에서 사용되는 바와 같이, "제1", "제2", "첫번째1" 및 "두번째"와 같은 용어는 대응하는 성분을 다른 요소와 구별하기 위해 사용될 수 있지만, 다른 측면 (예를 들어, 중요도나 순서)의 요소를 제한하려는 것은 아니다. 하나의 구성 요소 (예를 들어, 제1 구성 요소)가 "작동 가능하게" 또는 "통신 가능하게"라는 용어와 함께 또는 이 용어 없이, 다른 구성 요소 (예를 들어, 제2 구성 요소) "과 결합된", "에 결합된", "과 연결된" 또는 "에 연결된"으로 지칭되는 경우, 이것은 그 구성 요소가 다른 구성 요소와 직접 (예를 들어, 유선), 무선으로, 또는 제3 요소를 통해 결합될 수 있음을 나타낸다.

본 명세서에서 사용되는 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있고, 다른 용어, 예를 들어 "논리", "논리 블록", "부분" 및 "회로"와 상호 교환하여 사용될 수 있다. 모듈은 하나 이상의 기능을 수행하도록 구성된 단일 통합 구성 요소 또는 그 최소 단위나 부분일 수 있다. 예를 들어, 일 실시 예에 따르면, 모듈은 주문형 집적 회로 (ASIC)의 형태로 구현될 수 있다.

많은 알고리즘이 학습 기반의 알고리즘으로 되어 있는 딥 러닝의 시대에, 만족스러운 출력 비디오를 생성하기 위해 알고리즘을 학습시키는 데 필요한 데이터를 수집하는 것이 어려울 수 있다. 또한, 비디오 처리 알고리즘이 인접 프레임으로부터의 정보를 고려할 때, 시간 정보는 종종 간과되고 비디오 처리는 여전히 프레임 단위로 수행된다. 또한, 연속적인 프레임들이 상당한 변형들을 포함하는 경우, 처리된 비디오는 시간적으로 비일관적이거나 인코히어런트일 수 있다.

멀티프레임 처리는 프레임 (즉, 비디오 프레임)의 시퀀스 내의 다수의 프레임을 처리하는 알고리즘을 지칭할 수 있다. 이들 프레임들은 그들 사이에 시간적 일관성을 가질 수 있다. 그러나, 프레임 레이트와 프레임 내 객체의 속도는 연속적인 프레임들 사이에 관찰될 수 있는 변화량을 결정할 수 있다.

따라서, 일련의 프레임이 픽셀 누락으로 불완전한 경우, 이 누락 영역 (즉, 누락된 픽셀에 대응하는 프레임의 영역)을 정확한 (즉, 현실적인) 값 (즉, 픽셀 값)으로 대체하기 위해 멀티 프레임 처리 시스템 및 방법을 사용할 수 있다.

본 개시는 비디오 프레임을 더 높은 프레임 레이트로 처리하고 시간에 따른 결과를 목표 프레임 레이트로 집계하기 위한 프레임 처리 알고리즘을 포함하는 시스템 및 방법을 제공한다. 시스템은 방법의 동작을 수행하기 위한 전자 장치 및/또는 프로세서를 포함할 수 있다.

예를 들어, 이미지 인페인팅(image inpainting)은 더 높은 프레임 레이트로 비디오 프레임들에 대해 수행될 수 있는 이미지 처리 알고리즘의 유형일 수 있다.

이미지 인페인팅은 이미지에서 누락된 픽셀 세트를 현실적인 값으로 대체하는 작업으로 정의될 수 있다. 예를 들어, 비디오에서 워터 마크 제거 및/또는 객체 제거를 달성하기 위해 이미지 인페인팅이 수행될 수 있다.

이미지 인페인팅은 두 단계의 네트워크 구성을 특징으로 하는데, 제1 단계에서는 대략 예측을 행하고, 제2 단계에서는 두 개의 스트림 (즉, 이미지의 전경(foreground) 스트림 및 배경(background) 스트림)을 고려함으로써 예측 픽셀 값을 개선한다.

보정될 이미지의 영역 내부의 특징을 개선하기 위해, 인페인팅 모듈은 인페인팅된 영역 외부의 배경 패치들의 가중치 합을 취함으로써 인페인팅된 영역 내부의 전경 패치를 재구성할 수 있다. 이 가중 합을 결정하기 위해 사용되는 가중치는 전경 패치 및/또는 배경 패치 사이의 상관 관계로서 계산될 수 있다. 또한, 이미지 인페인팅의 상관 관계 및 재구성 동작은 배경 패치를 적층함으로써 병렬로 수행되어 전경 (예를 들어, 비폐색) 영역, 다른 배경 패치 및/또는 상관 값으로 콘볼루션을 수행할 수 있다.

또한, 기존 인코더-디코더 네트워크의 일반 콘볼루션 층을 부분 콘볼루션 층으로 대체함으로써, 추론 동안 예기치 않은 동작을 야기할 수 있는, 폐색 영역의 자리 표시자 값(placeholder values of the occluded region)에 의존하지 않고 이미지 인페인팅이 수행될 수 있다. 부분 컨볼루션 층은 입력 텐서 (예를 들어, 행렬 또는 벡터로 구성된 데이터)와 마스크를 인수로 사용할 수 있고, 각각의 출력 위치에서의 값을 마스킹되지 않은 입력 값들의 정규화된 가중치 합으로서 계산하도록 구성된다.

또한, 이미지 인페인팅은 두 가지 유형의 손실, 재구성 손실 및 적대적 손실을 설명함으로써 이미지를 성공적으로 재구성할 수 있다.

재구성 손실은 예측 및 실재 이미지의 전체 프레임 간의 픽셀 단위 거리를 결정하고 가장 가까운 알려진 픽셀로부터의 거리에 기초하여 각 픽셀의 기여도를 스케일링하는데 사용될 수 있다. 적대적 손실은 이미지 인페인팅 모델과 함께 판별기를 업데이트할 수 있다. 재구성 손실 및 적대적 손실은 개선된 이미지 인페인팅을 위해 함께 최적화될 수 있다.

비디오 시퀀스 내의 연속 프레임들과 같은, 이미지의 크고 연속적인 폐색 영역(occluded regions)을 고려할 때, 한 프레임에서 다음 프레임으로의 이미지의 대응하는 영역에 유사한 정보를 포함하는 컨텍스트 프레임을 식별하는 것이 유리할 수 있다.

다수의 컨텍스트 프레임뿐만 아니라, 참조 프레임 자체에 기초하여 참조 프레임 (예를 들어, 비디오 시퀀스의 특정 프레임)의 특징을 재구성함으로써, 시간 방향으로 다수의 이미지 프레임 (예를 들어, 연속적 프레임)으로 구성된 비디오를 설명하기 위해 이미지 인페인팅이 확장될 수 있다. 이를 달성하기 위해, 배경 패치가 참조 프레임 및 콘텍스트 프레임 둘 다로부터 추출되어 참조 프레임의 전경 영역과 콘볼루트될 수 있다. 결과는 이미지 내의 위치에 따라 할당된 가중치에 기초하여 정규화될 수 있다.

그러나, 비디오 인페인팅과 관련하여, 추가된 시간의 차수는 충족되어야 하는 추가 기준을 유도하게 된다. 예를 들어, 근처의 프레임들 사이의 내용은 일관성이 있어야 하고 그들 사이의 겉보기 움직임은 현실적이어야 한다

본 개시는 영상 처리를 수행하기 위해 복잡한 시간 의존적 알고리즘에 반드시 의존할 필요 없이 개별 프레임의 시간적 특성을 고려하여, 비디오 프레임에 대해 영상 처리 (예를 들어, 인페인팅)를 수행하는 시스템 및 방법을 제공한다.

도 1은 일 실시 예에 따른 시간적 상향 변환 및 집계를 위한 흐름도를 도시한다.

도 1을 참조하면, 단계 101에서, 시스템은 처리되지 않은 비디오를 시간적으로 업샘플링하여 고속 프레임 레이트 보간 비디오를 생성하는 프레임 보간 방법을 사용하여 폐색된 입력 비디오의 프레임 레이트를 증가시킨다.

단계 102에서, 시스템은 고속 프레임 레이트의 출력 비디오를 생성하기 위해 고속 프레임 레이트 보간 비디오에 프레임 단위 처리 알고리즘을 전개한다. 고속 프레임 레이트 보간 비디오의 각 프레임은 프레임 단위 처리 (예를 들어, 이미지 인페인팅 애플리케이션 또는 각 프레임에 스타일을 적용하기 위한 애플리케이션)를 사용하여 독립적으로 처리된다.

단계 103에서, 고속 프레임 레이트 출력 비디오의 프레임들은 적절한 스트라이드 (예를 들어, 다수의 프레임)의 중첩 윈도우 내에서 정렬 및 집계되어 목표 프레임 레이트에서 출력 비디오를 얻는다.

단계 101, 102 및 103은 도 2에 도시된 프레임을 보면서 가시화될 수 있다.

도 2는 일 실시 예에 따른 시간적 상향 변환 및 집계 동안의 프레임들을 도시한다.

도 2의 단계 201, 202 및 203은 각각 도 1의 단계 101, 102 및 103에 대응할 수 있다.

도 2를 참조하면, 원래의 프레임 레이트 R_o에서 실행되는 비처리 비디오 V는 입력으로서 제공될 수 있고, 단계 201, 202 및 203을 수행한 후에, 목표 프레임 레이트 R_t에서 실행되는 처리 비디오 Y가 출력으로서 제공될 수 있다.

단계 201에서, 입력된 비처리 비디오 V 프레임 레이트를 R_o에서 R_u로 업 샘플링하기 위해 프레임 레이트 상향 변환(FRUC)이 수행되고, 여기서 R_u는 R_o 보다 높은 비디오 프레임 속도이다.

시간적 상향 변환 (예를 들어, FRUC; Frame Rate Up-Conversion)은 연속적인 프레임들 사이의 조명, 컬러 및 모션의 변화를 보간할 수 있고, 연속적인 프레임들 보다 모션, 조명 및/또는 컬러의 덜 급격한 변화를 갖는 중간 프레임을 생성할 수 있다. 또한, 보간된 프레임은 좌측 L 및 우측 R (예를 들어, 전방 및 후방) 기준 프레임으로부터 시간 정보를 전달할 수 있다.

FRUC는 종래의 프레임 보간 기술을 사용하여 수행될 수 있다. 추가적으로 또는 대안적으로, FRUC는 한 쌍의 광학 흐름을 예측함에 의한 딥 러닝 기술을 사용하여 수행될 수 있고, 그에 따른 입력 프레임을 특정 시간 단계로 워핑(warp)하는데 사용되는 워핑 그리드를 사용하여 수행될 수 있다.

예를 들어, FRUC는 제1 시간 단계에서의 제1 프레임(예를 들어, L 프레임)과 제2 시간 단계에서의 제2 프레임(예를 들어, R 프레임) 사이의 정방향 및 역방향 광학 흐름(예를 들어, 수학식 1과 수학식 2의 O_t->L과 O_t->R)을 추정하고, 상기 제1 시간 단계에서의 상기 제1 프레임과 상기 제2 시간 단계에서의 상기 제2 프레임 사이의 전방 및 후방 워핑 그리드를 추정함으로써 실행될 수 있다. 정방향 광학 흐름 및 정방향 워핑 그리드는 전방 방향에 대응할 수 있고, 역방향 광학 흐름 및 역방향 워핑 그리드는 후방 방향에 대응할 수 있다.

광학 흐름은 제1 시간 단계에서의 제1 프레임과 제2 시간 단계에서의 제2 프레임 사이의 각 중간 프레임에 대해 보간될 수 있다. 제2 시간 단계는 제1 시간 단계와 관련한 임의의 시간 단계일 수 있다. 보간된 광한 흐름(O_t->L 및 O_t->R)은 수학식 1 및 수학식 2에 따라, L 및 R 프레임으로부터 추정된 정방향 및 역방향 광학 흐름(O_L->R, O_R->L)의 가중 합으로 추정될 수 있다.

<수학식 1>

O_t->L = -(1-t) t × O_L->R - t2 O_R->L

<수학식 2>

O_t->R = (1-t2) O_L->R - t (1-t) O_R->L

수학식 1 및 수학식 2에서, 좌측 프레임으로부터의 보간된 광학 흐름은 O_t->L이고, 우측 프레임으로부터의 보간된 광 흐름은 O_t->R이다. 좌측 및 우측 프레임들은 보간된 광학 흐름들 O_t->L 및 O_t->R로부터 유도된 워핑 그리드를 이용하여 워프되어, (예를 들어, L로부터) 방향 F_t(L)에서 보간된 워핑된 프레임 및 후방 (예를 들어, R로부터) 방향 F_t(R)에서 보간된 워핑된 프레임을 제공할 수 있다.

부가적으로, 가중치 마스크는 L 및 R 방향으로부터 워핑된 프레임을 합산하기 위해 추정 및 사용될 수 있으므로, 중간 시간 단계 t에서의 프레임, F_t은 다음 수학식 3에 의해 정의된다.

<수학식 3>

F_t = w_L × F_t (L) + w_R × F_t (R)

수학식 3에서, w_L은 워핑된 프레임을 좌측으로부터 합산하기 위한 가중치 마스크이고, w_R은 워핑된 프레임을 우측으로부터 합산하기 위한 가중치 마스크이다.

단계 202에서, 보간된 프레임들에 대해 프레임 단위 변환이 수행된다.

중간 (예를 들어, 보간된) 프레임들에 대한 프레임 단위 변환 (예를 들어, 처리)은 참조, 비보간된 프레임들에 대해 얻어진 것과 다른 결과들을 산출할 수 있는데, 왜냐하면 중간 프레임들이 전방 방향과 후방 방향 둘 다에서의 보간으로부터 얻어지므로 왼쪽 및 오른쪽 프레임 (예를 들어, 컨텍스트 프레임)으로부터 특성 및/또는 기능을 전달할 수 있기 때문이다.

프레임 단위 처리를 수행하기 위해, 시간 보간된 프레임(VS)으로 구성된 고속 프레임 레이트 비디오는 하나 이상의 프레임 단위 처리 기술들을 포함하는 프레임 단위 알고리즘을 사용하여 시간 t에서 처리되므로, 적어도 하나의 처리되지 않은 보간 프레임 F_t가 프레임 단위 알고리즘(P)에 의해 적어도 하나의 처리된 프레임 P(F_t)으로 처리된다.

프레임 단위 알고리즘(P)은 다수의 상이한 유형의 프레임 단위 이미지 처리 알고리즘일 수 있다. 예를 들어, 프레임 단위 알고리즘(P)은 상황별 주목 인페인팅 네트워크를 사용하여 각 프레임을 독립적으로 인페인팅할 수 있는 인페인팅 알고리즘일 수 있다. 추가로 또는 대안적으로, 프레임 단위 알고리즘(P)은 블러(blur) 제거 알고리즘 또는 암흑 제거 알고리즘과 같이, 특정 스타일을 보간된 프레임에 적용할 수 있는 알고리즘일 수 있다. 업샘플링된 비디오 프레임(VS)에는 많은 다른 유형의 프레임 방식 알고리즘이 적용될 수 있다.

단계 203에서, 프레임 레이트 하향 변환(frame rate down-conversion)은 프레임들을 집계(aggregating)함으로써 수행된다. 특히, 처리된 비디오(Y)를 목표 프레임 레이트 R_t에서 산출하기 위해 보간 처리된 프레임들을 시간적으로 조합하여 슬라이딩 윈도우 집계를 사용하여, 처리된 고속 프레임 레이트 비디오(YS)가 시간적으로 집계될 수 있다. 목표 프레임 레이트(R_t)는 원래의 프레임 레이트 R_o일 수 있다.

시간적 집계 프로세스에서, 처리된 고속 프레임 레이트 비디오(YS)로부터 처리 보간된 프레임들로부터의 정보는 이전 (즉, 왼쪽) 참조 프레임으로 되돌아가 다음 (즉, 오른쪽) 참조 프레임으로 전달되고, 이로써, 집계 후 목표 프레임 레이트 R_t에서 처리된 프레임들 사이의 시간적 일관성을 향상시킨다.

특정 업샘플링 레이트(u)가 주어진 경우 (예를 들어, 특정 시간 단계에 대응함) t가 목표 프레임 주위의 시간 보간에 대응할 때, 목표 프레임 레이트 R_t에서 처리된 비디오(Y)는 처리된 프레임들의 조합일 수 있다.

처리된 비디오는 수학식 4에 따라 목표 프레임 레이트(R_t)로 집계될 수 있다.

<수학식 4>

P(F_L)= Agg(P(F_{uL-m}), P(F_{uL-m+1}), ..., P(F_{uL}), P(F_{uL+1}),) .. P(F_{uL+m}))

수학식 4에서, m은 "2m+1"이 집계를 위한 윈도우 크기가 되도록 하는 윈도우 크기의 함수일 수 있고, b는 타겟 윈도우에서 처리된 하이퍼프레임 (예를 들어, 업샘플링된 프레임)의 인덱스를 지시하는 -m과 m 사이의 숫자를 나타낼 수 있다. 집계 함수 (Agg())는 처리된 프레임 P(F_{uL + b}) 각각과 처리된 목표 프레임 P(F_{uL}) 사이의 광학 흐름 O_(uL + b)->uL을 계산할 수 있다. 보간된 프레임 F_(uL + b)은 계산된 광학 흐름 O_(uL + b)-> uL을 사용하여 목표 프레임 F_uL으로 워핑될 수 있으며, 그 결과 워핑된 프레임 W_(uL + b)-> uL이 생성된다. 처리된 프레임 P(F_L)은 가중치 r_b를 사용하여 수학식 5에 기초하여 워핑된 프레임들을 합산함으로써 시간적으로 집계될 수 있다.

<수학식 5>

P(F_L) = SUM_(b in {-m:m}) (r_b W_(uL+b)->uL)

수학식 5에서, 가중치 r_b는 목표 프레임으로부터 더 멀리 있거나 절대 값 b가 더 큰 프레임들에 대해 더 작은 가중치를 가질 수 있다.

보간된 프레임을 처리하기 위해 상이한 유형의 프레임 단위 처리가 사용될 수 있다. 예를 들어, 이미지 인페인팅은 이미지의 공간적인 구멍 (픽셀의 세트 또는 영역)이 현실적인 값으로 대체되는 단일 프레임 처리의 유형일 수 있다. 추가적으로 또는 대안적으로, 스타일 전달 처리, 스타일화 처리, 초해상도 처리, 노이즈 제거 처리, 강화 처리, 선명화 처리 및 음영 감소 처리는 보간된 프레임을 처리하는데 사용되는 프레임 단위 처리의 유형일 수 있다.

비디오 인페인팅은 본 개시에 적용될 수 있는 다른 유형의 처리이다. 비디오 인페인팅은 비디오의 시공간적인 구멍을 현실적이고 그럴듯한 내용 (즉, 값)으로 대체할 수 있는 비디오 멀티 프레임 처리의 예이다.

영상 인페인팅과 비교하여, 시간 프레임들 사이에서 프로세싱을 수행하는 비디오 인페인팅은 더 복잡하다. 예를 들어, 일 프레임에서 교체된 정보는 인접한 프레임에서 교체된 유사한 정보와 시간적으로 일치해야 한다. 이는 프레임간에 상당한 움직임이 있을 때 특히 어려워진다.

도 3은 일 실시 예에 따른 비디오 인페인팅을 수행하기 위한 입력 비디오 프레임 및 마스크를 도시한다.

도 3에 도시된 바와 같이, 비디오 인페인팅을 수행하기 위해, 처리되지 않은 폐색된 입력 비디오 프레임(301) 각각은 마스크(302) (예를 들어, 폐색 마스크)를 동반할 수 있다. 마스크(302)는 인페인팅할 입력 비디오 프레임(301)의 영역에 대응한다. 입력 비디오에서 매시간 단계 마다 각각의 입력 비디오 프레임(301)에 대해 마스크(302)가 존재할 수 있다. 또한, 마스크 프레임(302)은 입력 비디오 프레임 (예를 들어, 단계 101)으로 업샘플링되어 비디오 인페인팅이 고속의 업샘플링된 프레임 레이트(R_u)에서 수행될 수 있도록 한.

따라서, 도 4a-4c는 비디오 인페인팅을 도시하며, 이 때. 도 4a는 단계 101에 대응하고, 도 4b는 단계 102에 대응하고, 도 4c는 단계 103에 대응한다.

도 4a는 일 실시 예에 따른 비디오 인페인팅을 수행하기 위한 프레임 보간 단계를 도시한다.

도 4a을 참조하면, V는 입력 비디오 (즉, 적색 녹색 청색 (RGB) 비디오)를 나타내고 {v1, ..., vN} 프레임으로 구성될 수 있고, X는 폐색 마스크(occlusion mask)를 나타내며 {x1, ..., xN} 프레임으로 구성될 수 있다. 이와 함께, V{v1, ..., vN} 및 X{x1, ..., xN}은 픽셀이 V에서 폐색될 때 인페인트할 영역을 나타낸다. 또한, 폐색된 픽셀은 프레임에서 자신의 위치를 인식하기 위한 자리 표시자 값을 가질 수 있다.

비디오 인페인팅 기술을 수행하기 위해, 컨트롤러는 V{v1, ..., vN} 및 X{x1, ..., xN}을 입력으로서 수용하여 Y = {Y1, ..., YN}를 출력하며, 이 때 Y = {Y1, ..., YN}는, 폐색된 픽셀이 하나 이상의 폐색된 영역을 제거하고 대체하는 것으로 사실적이며 그럴듯한 값으로 대체된 것을 제외하고, V{v1, ..., vN}와 동일한 값을 갖는다.

예를 들어, 비디오 인페인팅 기술은 비디오 V{v1, ..., vN}에 포함된 프레임 및 마스크 X{x1, ..., xN}에 포함된 프레임에 동일한 워핑 연산을 적용하여, 시간적 상향 변환 (예를 들어, FRUC)으로 폐색된 비디오 (V{v1, ..., vN} 및 X{x1, ..., xN})의 프레임 레이트를 인위적으로 증가시킬 수 있다. 도 4a에 도시된 바와 같이, FPS (high-frame per second) 마스크(XS)는 고속 FPS 폐색 비디오(VS)의 각 프레임에 대해 생성될 수 있다.

부가적으로 또는 대안적으로, SloMo, FRUM 및/또는 프레임 보간과 같은 프레임 상향 변환 방법으로, 폐색된 비디오 V의 각 쌍의 프레임과 폐색된 마스크 X 사이에 다수의 프레임이 삽입되어, V와 X의 고속 FPS 버전을 생성한다. 폐색된 비디오(VS)의 고속 FPS 버전은 {vsl, ..., vsN} 프레임으로 구성되고, XS로 나타낸 폐색 마스크의 고속 FPS 버전은 {xsl, ..., xsN}으로 구성된다.

프레임 상향 변환 방법은 폐색된 비디오 V의 각 프레임 쌍과 폐색 마스크 X 사이에 다수의 중간 프레임을 생성할 수 있다. 또한, 주어진 시간 단계에 대해, 한 쌍의 광학 흐름 워핑 그리드가 폐색된 비디오 V 및 폐색된 마스크 X의 프레임을 그 시간 단계로 워핑하는데 사용될 수 있다.

도 4b는 일 실시 예에 따른 비디오 인페인팅을 수행하기 위한 프레임 단위 인페인팅 단계를 도시한다. 도 4b를 참조하면, 폐색된 비디오(VS) 및 폐색된 마스크(XS)의 고속 FPS 버전이 획득된 후, 고 FPS 폐색 비디오의 각 프레임은 독립적으로 인페인트되어 고 FPS 출력 비디오 YS를 생성할 수 있다.

고속 FPS 폐색 비디오에서 독립적으로, 인페인팅한 프레임은 유리하게도 시간적 비디오 인페인팅보다 적은 처리 파워를 사용하는데, 이는 시간에 기초한 프레임들 간의 차이를 고려해야만 한다. 그러나, 본 개시의 비디오 인페인팅 실시 예는 고 FPS 비디오의 프레임들을 집계할 때 프레임들 사이의 시간적 요인들을 고려한다.

도 4c는 일 실시 예에 따른 시간 집계 단계를 도시한다.

도 4c에 도시된 바와 같이, 시간적 집계는 처리된 프레임을 집계할 때 적용될 수 있다 (예를 들어, 보간된 프레임에 인페이팅을 실행한 후 또는 보간된 프레임에 다른 유형의 이미지 처리를 수행한 후). 구체적으로, 고속 FPS 출력 비디오(YS)가 생성된 후, 고속 FPS 출력 비디오(YS)의 프레임들은 최종 출력 비디오 Y를 위한 프레임들을 생성하기 위해 적절한 스트라이드 (즉, 길이 또는 프레임 수)을 갖는 슬라이딩 윈도우에 걸쳐 정렬되고 평균화될 수 있다.

시간적 집계를 수행하기 위해, 처리된 프레임은 고속 FPS 출력 비디오(YS)에서 미리 결정된 스트라이드(즉, 길이 또는 다수의 프레임)의 중첩 윈도우 내에서 정렬 및 평균화되어 출력 Y = {Y1, ..., YN}을 얻을 수 있다.

구체적으로, 고속 FPS 출력 비디오(YS)에서 적어도 하나의 기준 프레임(501)이 식별될 수 있다. 적어도 하나의 컨텍스트 프레임(502)은 시간 방향으로 참조 프레임(501) 전후에 참조 프레임(501)을 둘러싼다.

도 4c에 도시된 바와 같이, 하나의 기준 프레임(501) 및 4 개의 컨텍스트 프레임을 포함하는, 5 개의 기준 프레임의 길이를 갖는 슬라이딩 윈도우(503)가 선택된다. 슬라이딩 윈도우(503)는 기준 프레임이 윈도우(503) 내에 정렬 (예를 들어, 중심에 위치)되도록 기준 프레임(501)과 관련하여 배향될 수 있다. 즉, 정렬될 때, 동일한 수의 컨텍스트 프레임이 기준 프레임(501)의 좌측 및 우측에 위치될 수 있다.

도 4c에 도시된 바와 같이, 기준 프레임(501)은 3 개의 프레임마다 한 번씩 고속 FPS 출력 비디오(YS)에서 식별된다. 따라서, 슬라이딩 윈도우(503)에 포함된 프레임의 수 (예를 들어, 5 개의 프레임)가 기준 프레임 (예를 들어, 2 개의 프레임) 사이의 프레임의 수보다 많기 때문에, 콘텍스트 프레임들 중 적어도 일부는 하나 이상의 기준 프레임과 정렬될 수 있다. 전방 방향에서의 참조 프레임에 대해 그리고 후방 방향에서의 참조 프레임에 대해 동일한 컨텍스트 프레임을 정렬하게 되면 집계 후 프레임들 사이의 매끄러움 및 이미지 일관성이 향상된다.

고속 FPS 출력 비디오 YS의 프레임이 각각의 슬라이딩 윈도우 내에 정렬된 후에, 슬라이딩 윈도우(503)의 각각의 프레임 사이의 광학 흐름이 추정될 수 있고, 이 프레임들은 광학 흐름에 기초하여 워핑될 수 있다. 출력 비디오(Y)에 포함된 최종 출력 프레임은 워핑된 프레임을 기준 프레임(501)으로 평균화함으로써 결정될 수 있다.

따라서, 본 개시의 실시 예들에 따르면, 비디오 프레임들 사이의 시간적 일관성을 위해 추가 (즉, 사후) 처리가 필요하지 않을 수 있다.

도 5는 일 실시 예에 따른 네트워크 환경(500)에서의 전자 장치(501)의 블록도를 도시한다. 도 5를 참조하면, 네트워크 환경(500)의 전자 장치(501)는 제1 네트워크(598) (예를 들어, 근거리 무선 통신 네트워크)를 통해 다른 전자 장치(502)와, 또는 제2 네트워크(599)(예를 들어, 장거리 무선 통신 네트워크)를 통해 다른 전자 장치(504)나 서버(508)와 통신할 수 있다. 전자 장치(501)는 또한 서버(508)를 통해 전자 장치(504)와 통신할 수 있다. 전자 장치(501)는 프로세서(520), 메모리(530), 입력 장치(550), 음향 출력 장치(555), 디스플레이 장치(560), 오디오 모듈(570), 센서 모듈(576), 인터페이스(577), 햅틱 모듈(579), 카메라 모듈(580), 전력 관리 모듈(588), 배터리(589), 통신 모듈(590), 가입자 식별 모듈(SIM)(596) 또는 안테나 모듈(597)를 포함할 수 있다. 일 실시 예에서, 구성 요소들 중 적어도 하나 (예를 들어, 디스플레이 장치(560) 또는 카메라 모듈(580))는 전자 장치(501)에서 생략되거나, 하나 이상의 다른 구성 요소가 전자 장치(501)에 추가될 수 있다. 일 실시 예에서, 구성 요소들 중 일부는 단일 집적 회로(IC)로서 구현될 수 있다. 예를 들어, 센서 모듈(576) (예를 들어, 지문 센서, 홍채 센서 또는 조도 센서)이 디스플레이 장치(560) (예를 들어, 디스플레이)에 내장될 수 있다.

프로세서(520)는 프로세서(520)와 연결된 전자 장치(501)의 적어도 하나의 다른 구성 요소 (예를 들어, 하드웨어 또는 소프트웨어 구성 요소)를 제어하기 위해, 예를 들어, 소프트웨어 (예를 들어, 프로그램(540))를 실행할 수 있으며, 다양한 데이터 처리 또는 계산을 수행한다. 데이터 처리 또는 계산의 적어도 일부로서, 프로세서(520)는 다른 구성 요소 (예를 들어, 센서 모듈(576) 또는 통신 모듈(590))로부터 수신된 명령 또는 데이터를 휘발성 메모리(532)에 로드하고, 휘발성 메모리(532)에 저장된 명령 또는 내부에 저장된 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(534)에 저장한다. 프로세서(520)는 메인 프로세서(521) (예를 들어, 중앙 처리 장치(CPU) 또는 응용 프로세서(AP)) 및 보조 프로세서(510) (예를 들어, 그래픽 처리 장치(GPU), 이미지 신호 프로세서(ISP), 센서 허브 프로세서, 또는 메인 프로세서(521)와 독립적으로 또는 이와 관련하여 동작 가능한 통신 프로세서(CP))를 포함할 수 있다. 부가적으로 또는 대안적으로, 보조 프로세서(510)는 메인 프로세서(521) 보다 적은 전력을 소비하거나 특정 기능을 실행하도록 구성될 수 있다. 보조 프로세서(510)는 메인 프로세서(521)와 별도로 또는 일부로 구현될 수 있다.

보조 프로세서(510)는 메인 프로세서(521)가 비활성 (예를 들어, 슬립) 상태에 있는 동안 메인 프로세서(521) 대신에, 또는 메인 프로세서(521)가 활성 상태에 있는 동안 (예를 들어, 애플리케이션을 실행) 메인 프로세서(521)와 함께, 전자 장치(501)의 구성 요소 중 적어도 하나의 구성 요소(예를 들어, 디스플레이 장치(560), 센서 모듈(576) 또는 통신 모듈(590))와 관련된 기능 또는 상태 중 적어도 일부를 제어할 수 있다. 일 실시 예에 따르면, 보조 프로세서(510) (예를 들어, ISP 또는 CP)는 보조 프로세서(510)와 기능적으로 관련된 다른 구성 요소 (예를 들어, 카메라 모듈(580) 또는 통신 모듈(590))의 일부로서 구현될 수 있다.

메모리(530)는 전자 장치(501)의 적어도 하나의 구성 요소 (예를 들어, 프로세서(520) 또는 센서 모듈(576))가 사용하는 다양한 데이터를 저장할 수 있다. 다양한 데이터는, 예를 들어, 소프트웨어 (예를 들어, 프로그램(540)) 및 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(530)는 휘발성 메모리(532) 또는 비휘발성 메모리(534)를 포함할 수 있다.

프로그램(540)은 소프트웨어로서 메모리(530)에 저장될 수 있고, 예를 들어 운영 체제 (OS)(542), 미들웨어(544) 또는 애플리케이션(546)을 포함할 수 있다.

입력 장치(550)는 전자 장치(501)의 외부 (예를 들어, 사용자)로부터 전자 장치(501)의 다른 구성 요소 (예를 들어, 프로세서 520)가 사용할 명령 또는 데이터를 수신할 수 있다. 입력 장치(550)는, 예를 들어, 마이크, 마우스 또는 키보드를 포함할 수 있다.

음향 출력 장치(555)는 전자 장치(501)의 외부로 음향 신호를 출력할 수 있다. 음향 출력 장치(555)는 예를 들어, 스피커 또는 수신기를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 기록과 같은 일반적인 목적으로 사용될 수 있고, 수신기는 수신 전화를 수신하기 위해 사용될 수 있다. 일 실시 예에 따르면, 수신기는 스피커와 분리되거나 또는 그 일부로 구현될 수 있다.

디스플레이 장치(560)는 전자 장치(501)의 외부 (예를 들어, 사용자)에 정보를 시각적으로 제공할 수 있다. 디스플레이 장치(560)는 예를 들어, 디스플레이, 홀로그램 장치, 또는 프로젝터, 및 디스플레이, 홀로그램 장치 및 프로젝터 중 대응하는 것을 제어하는 제어 회로를 포함할 수 있다. 일 실시 예에 따르면, 디스플레이 장치(560)는 터치를 검출하도록 구성된 터치 회로, 또는 터치에 의해 발생된 힘의 강도를 측정하도록 구성된 센서 회로 (예를 들어, 압력 센서)를 포함할 수 있다.

오디오 모듈(570)은 사운드를 전기 신호로 또는 그 반대로 변환할 수 있다. 일 실시 예에 따르면, 오디오 모듈(570)은 입력 장치(550)를 통해 사운드를 획득하거나 사운드 출력 장치(555) 또는 외부 전자 장치(502)의 헤드폰을 통해 직접 (예를 들어, 유선) 또는 전자 장치(501)와 무선으로 결합하여 소리를 출력할 수 있다.

센서 모듈(576)은 전자 장치(501)의 동작 상태 (예를 들어, 전력 또는 온도) 또는 전자 장치(501) 외부의 환경 상태 (예를 들어, 사용자의 상태)를 감지할 수 있으며, 다음에 검출된 상태에 대응하는 전기 신호 또는 데이터 값을 생성한다. 센서 모듈(576)은 예를 들어, 제스처 센서, 자이로 센서, 대기압 센서, 자기 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, 적외선(IR) 센서, 생체 인식 센서, 온도 센서, 습도 센서 또는 조도 센서를 포함할 수 있다.

인터페이스(577)는 전자 장치(501)가 외부 전자 장치(502)와 직접 (예를 들어, 유선) 또는 무선으로 연결되도록 사용될 하나 이상의 특정 프로토콜을 지원할 수 있다. 일 실시 예에 따르면, 인터페이스(577)는 예를 들어, HDMI(High Definition Multimedia Interface), USB(Universal Serial Bus) 인터페이스, SD (Secure Digital) 카드 인터페이스 또는 오디오 인터페이스를 포함할 수 있다.

연결 단자(578)는 전자 장치(501)가 외부 전자 장치(502)와 물리적으로 연결될 수 있게 하는 커넥터를 포함할 수 있다. 일 실시 예에 따르면, 연결 단자(578)는, 예를 들어, HDMI 커넥터, USB 커넥터, SD 카드 커넥터 또는 오디오 커넥터 (예를 들어, 헤드폰 커넥터)를 포함할 수 있다.

햅틱 모듈(579)은 전기 신호를 촉각적 감각 또는 운동적 감각을 통해 사용자에 의해 인식될 수 있는 기계적 자극 (예를 들어, 진동 또는 움직임) 또는 전기적 자극으로 변환할 수 있다. 일 실시 예에 따르면, 햅틱 모듈(579)은 예를 들어 모터, 압전 소자 또는 전기 자극기를 포함할 수 있다.

카메라 모듈(580)은 정지 이미지 또는 동영상을 캡처할 수 있다. 일 실시 예에 따르면, 카메라 모듈(580)은 하나 이상의 렌즈, 이미지 센서, ISP 또는 플래시를 포함할 수 있다.

전원 관리 모듈(588)은 전자 장치(501)에 공급되는 전원을 관리할 수 있다. 전력 관리 모듈(588)은 예를 들어, 전력 관리 집적 회로 (PMIC)의 적어도 일부로서 구현될 수 있다.

배터리(589)는 전자 장치(501)의 적어도 하나의 구성 요소에 전원을 공급할 수 있다. 일 실시 예에 따르면, 배터리(589)는 예를 들어, 재충전이 불가능한 1 차 전지, 재충전이 가능한 2 차 전지 또는 연료 전지를 포함할 수 있다.

통신 모듈(590)은 전자 장치(501)와 외부 전자 장치 (예를 들어, 전자 장치(502), 전자 장치(504), 또는 서버(508)) 간의 직접 (예를 들어, 유선) 통신 채널 또는 무선 통신 채널을 설정하고 및 설정된 통신 채널을 통해 통신을 수행하는 것을 지원할 수 있다. 통신 모듈(590)은 프로세서(520) (예를 들어, AP)와 독립적으로 동작할 수 있고 직접 (예를 들어, 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 CP를 포함할 수 있다. 일 실시 예에 따르면, 통신 모듈(590)은 무선 통신 모듈(592) (예를 들어, 셀룰러 통신 모듈, 근거리 무선 통신 모듈 또는 GNSS (global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(594)(예를 들어, 근거리 통신망 (LAN) 통신 모듈 또는 전력선 통신 (PLC) 모듈)을 포함할 수 있다. 이들 통신 모듈 중 대응하는 모듈은 제1 네트워크(598) (예를 들어, 블루투스 TM, 무선 충실도 (Wi-Fi) 다이렉트 또는 적외선 데이터 연합(IrDA)의 표준과 같은 단거리 통신 네트워크) 또는 제2 네트워크(599) (예를 들어, 셀룰러 네트워크, 인터넷 또는 컴퓨터 네트워크 (예를 들어, LAN 또는 WAN)와 같은 장거리 통신 네트워크)를 통해 외부 전자 장치와 통신할 수 있다. 이러한 다양한 유형의 통신 모듈은 단일 구성 요소 (예를 들어, 단일 IC)로서 구현될 수 있거나, 서로 분리된 다중 구성 요소 (예를 들어, 다중 IC)로서 구현될 수 있다. 무선 통신 모듈(592)은 가입자 식별 모듈(596)에 저장된 가입자 정보 (예를 들어, 국제 이동 가입자 식별 정보 (IMSI))를 이용하여 제1 네트워크(598) 또는 제2 네트워크(599)와 같은 통신 네트워크에서 전자 장치(501)를 식별하고 인증할 수 있다.

안테나 모듈(597)은 전자 장치(501)의 외부 (예를 들어, 외부 전자 장치)와 신호 또는 전력을 송수신할 수 있다. 일 실시 예에 따르면, 안테나 모듈(597)은 하나 이상의 안테나를 포함할 수 있으며, 그로부터 제1 네트워크(598) 또는 제2 네트워크(599)와 같은, 통신 네트워크에 사용되는 통신 방식에 적합한 적어도 하나의 안테나는 예를 들어, 통신 모듈(590) (예를 들어, 무선 통신 모듈(592))에 의해 선택될 수 있다. 그 후, 신호 또는 전력은 선택된 적어도 하나의 안테나를 통해 통신 모듈(590)과 외부 전자 장치 사이에서 전송 또는 수신될 수 있다.

전술한 구성 요소들 중 적어도 일부는 서로 결합되어 그들 사이에서 주변 기기 간 통신 방식 (예를 들어, 버스, 범용 입출력 포트(GPIO), 직렬 주변 인터페이스(SPI), 또는 모바일 산업 프로세서 인터페이스(MIPI))를 통해 신호 (예를 들어, 명령 또는 데이터)를 전달할 수 있다.

일 실시 예에 따르면, 명령 또는 데이터는 제2 네트워크(599)와 연결된 서버(508)를 통해 전자 장치(501)와 외부 전자 장치(504) 사이에서 전송 또는 수신될 수 있다. 각각의 전자 장치(502 및 504)는 전자 장치(501)와 동일한 장치이거나 다른 유형일 수 있다. 전자 장치(501)에서 실행될 동작의 전부 또는 일부는 외부 전자 장치(502, 504 또는 508) 중 하나 이상에서 실행될 수 있다. 예를 들어, 전자 장치(501)가 자동으로, 또는 사용자 또는 다른 장치의 요청에 응답하여, 기능 또는 서비스를 수행하는 경우, 전자 장치(501)는 기능 또는 서비스를 실행하는 것에 대신하거나, 그에 부가하여, 하나 이상의 외부 전자 장치에 대해 기능 또는 서비스의 적어도 일부를 수행하도록 요청할 수 있다. 요청을 수신한 하나 이상의 외부 전자 장치는 요청된 기능 또는 서비스의 적어도 일부, 또는 요청과 관련된 추가 기능 또는 추가 서비스를 수행하고, 수행 결과를 전자 장치(501)로 전달할 수 있다. 전자 장치(501)는 그 결과를 요청에 대한 응답의 적어도 일부로서 결과의 추가 처리와 함께 또는 추가 처리 없이, 제공할 수 있다. 이를 위해, 예를 들어 클라우드 컴퓨팅, 분산 컴퓨팅 또는 클라이언트-서버 컴퓨팅 기술이 사용될 수 있다.

일 실시 예는 기계 (예를 들어, 전자 장치(501))에 의해 판독 가능한 저장 매체 (예를 들어, 내부 메모리(536) 또는 외부 메모리(538))에 저장된 하나 이상의 명령어를 포함하는 소프트웨어 (예를 들어, 프로그램(540))로서 구현될 수 있다. 예를 들어, 전자 장치(501)의 프로세서는 저장 매체에 저장된 하나 이상의 명령어 중 적어도 하나를 호출하여, 이를 프로세서의 제어 하에 하나 이상의 다른 구성 요소를 사용하거나 사용하지 않고 실행할 수 있다. 따라서, 호출된 적어도 하나의 명령에 따라 적어도 하나의 기능을 수행하도록 기계가 작동될 수 있다. 하나 이상의 명령어는 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행 가능한 코드를 포함할 수 있다. 기계 판독 가능 저장 매체는 비일시적 저장 매체의 형태로 제공될 수 있다. "비일시적"이라는 용어는 저장 매체가 유형의 장치이며 신호 (예를 들어, 전자기파)를 포함하지 않지만, 이 용어는 데이터가 저장 매체에 반영구적으로 저장되는 위치와 데이터가 저장 매체에 일시적으로 저장되는 위치를 구별하지 않는다.

일 실시 예에 따르면, 본 발명의 방법은 컴퓨터 프로그램 제품에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 판매자와 구매자 사이의 제품으로 거래될 수 있다. 컴퓨터 프로그램 제품은 기계 판독 가능 저장 매체 (예를 들어, CD-ROM (compact disc read only memory))의 형태로 배포될 수 있거나, 응용 프로그램 저장소 (예를 들어, Play StoreTM)를 통해 온라인상에서 또는 두 사용자 장치 (예를 들어, 스마트 폰) 사이에서 직접 배포 (예를 들어, 다운로드 또는 업로드)될 수 있다. 온라인으로 배포되는 경우, 컴퓨터 프로그램 제품의 적어도 일부는 제조자 서버의 메모리, 애플리케이션 스토어의 서버, 또는 중계 서버와 같이, 기계 판독 가능한 저장 매체에 일시적으로 생성되거나 적어도 일시적으로 저장될 수 있다.

일 실시 예에 따르면, 전술한 구성 요소의 각 구성 요소 (예를 들어, 모듈 또는 프로그램)는 단일 엔티티 또는 다중 엔티티를 포함할 수 있다. 전술한 구성 요소들 중 하나 이상이 생략되거나 하나 이상의 다른 구성 요소가 추가될 수 있다. 대안적으로 또는 추가로, 복수의 구성 요소 (예를 들어, 모듈 또는 프로그램)가 단일 구성 요소에 통합될 수 있다. 이 경우, 통합된 구성 요소는 통합 이전에 복수의 구성 요소 중 대응하는 하나에 의해 수행되는 것과 동일하거나 유사한 방식으로 복수의 구성 요소 각각의 하나 이상의 기능을 여전히 수행할 수 있다. 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작은 순차적으로, 병렬로, 반복적으로 또는 경험적으로 수행될 수 있거나, 하나 이상의 동작이 상이한 순서로 실행되거나 생략되거나, 또는 하나 이상의 다른 동작이 추가될 수 있다.

이상, 본 개시의 상세한 설명에서 본 개시의 특정 실시 예들이 설명되었지만, 본 개시는 본 개시의 범위를 벗어나지 않고 다양한 형태로 수정될 수 있다. 따라서, 본 개시의 범위는 설명된 실시 예들에 기초하여 결정될 것이 아니라 첨부된 청구 범위 및 그 등가물에 기초하여 결정될 것이다.

Claims

비디오 프레임들에 대한 시간적 일관성(temporal consistency)을 유지하면서 입력 비디오를 처리하는 방법에 있어서, 상기 방법은,
상기 입력 비디오를 제1 프레임 레이트에서 제2 프레임 레이트로 변환하는 단계로서, 상기 제2 프레임 레이트는 상기 제1 프레임 레이트보다 고속인 프레임 레이트인 단계;
상기 입력 비디오의 처리된 프레임들(processed frames)을 상기 제2 프레임 레이트에서 생성하는 단계; 및
상기 처리된 프레임을 시간적 슬라이딩 윈도우 집계(temporal sliding window aggregation)를 사용하여 집계하여 제3 프레임 레이트에서 처리된 출력 비디오를 생성하는 단계를 포함하는 방법.
제1항에 있어서,
상기 입력 비디오를 상기 제1 프레임 레이트에서 상기 제2 프레임 레이트로 변환하는 단계는,
제1 시간 단계에서의 제1 비디오 프레임과 제2 시간 단계에서의 제2 비디오 프레임의 가중 합을 계산함으로써 중간 프레임을 결정하는 단계를 포함하는, 방법.
제2항에 있어서,
상기 제1 시간 단계에서의 상기 제1 비디오 프레임과 상기 제2 시간 단계에서의 상기 제2 비디오 프레임의 상기 가중 합을 계산하는 단계는,
상기 제1 비디오 프레임에서 상기 중간 프레임에 대응하는 제3 시간 단계까지의 정방향 워핑 그리드(forward warping grid)를 계산하는 단계;
상기 제2 비디오 프레임에서 상기 중간 프레임에 대응하는 상기 제3 시간 단계까지의 역방향 워핑 그리드(backward warping grid)를 계산하는 단계; 및
상기 제1 비디오 프레임 및 상기 제2 비디오 프레임을 상기 제3 시간 단계로 이중 선형 워핑(bilinearly warping)함으로써 상기 제3 시간 단계에서 상기 중간 프레임을 결정하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 입력 비디오를 상기 제1 프레임 레이트에서 상기 제2 프레임 레이트로 변환하는 단계는,
상기 입력 비디오 및 폐색 마스크(occlusion mask)를 모두 상기 제1 프레임 레이트에서 상기 제2 프레임 레이트로 변환하는 단계를 포함하고,
상기 폐색 마스크는 처리할 상기 입력 비디오의 영역을 나타내는, 방법.
제4항에 있어서,
상기 입력 비디오의 상기 처리된 프레임들을 상기 제2 프레임 레이트에서 생성하는 단계는,
상기 제2 프레임 레이트에서의 상기 입력 비디오의 각 프레임을 상기 제2 프레임 레이트에서 상기 폐색 마스크로 독립적으로 처리하는 단계를 포함하고,
상기 처리된 프레임들을 생성하는 단계는, 강화 처리, 선명화 처리, 노이즈 제거 처리, 초해상도 처리 및 인페인팅 처리 중 적어도 하나를 포함하는, 방법.
제1항에 있어서,
상기 처리된 프레임을 시간적 슬라이딩 윈도우 집계를 사용하여 집계하는 단계는,
소정의 스트라이드를 갖는 시간적 슬라이딩 윈도우를 선택하는 단계; 및
상기 시간적 슬라이딩 윈도우 내에서 상기 처리된 프레임들 중 적어도 일부를 정렬하고 평균화하는 단계를 포함하는, 방법.
제6항에 있어서,
상기 시간적 슬라이딩 윈도우 내에서 정렬되고 평균화된 상기 처리된 프레임은 하나의 기준 프레임(reference fram) 및 적어도 2 개의 컨텍스트 프레임(context frames)을 포함하는, 방법.
제7항에 있어서,
상기 적어도 2 개의 콘텍스트 프레임은 상기 기준 프레임 뒤에 위치된 적어도 하나의 콘텍스트 프레임 및 상기 기준 프레임 앞에 위치된 적어도 하나의 콘텍스트 프레임을 포함하는, 방법.
제1항에 있어서,
상기 상기 처리된 프레임을 시간 슬라이딩 윈도우 집계를 사용하여 집계하는 단계는,
상기 시간적 슬라이딩 윈도우 내부에서 상기 처리된 프레임의 제1 세트를 정렬 및 평균화하는 단계; 및
상기 시간 슬라이딩 윈도우 내부에서 상기 처리된 프레임의 제2 세트를 정렬 및 평균화하는 단계를 포함하고,
상기 처리된 프레임의 제1 세트 및 상기 처리된 프레임의 제2 세트는 적어도 하나의 공유 컨텍스트 프레임(shared context frame)을 포함하는, 방법
제1항에 있어서,
상기 제1 프레임 레이트는 상기 제3 프레임 레이트와 동일한, 방법.
비디오 프레임들에 대한 시간적 일관성을 유지하면서 입력 비디오를 처리하기 위한 시스템에 있어서, 상기 시스템은,
비일시적 컴퓨터 판독 가능 메모리 및 프로세서를 포함하고,
상기 프로세서는, 상기 비일시적 컴퓨터 판독 가능 메모리에 저장된 명령을 실행할 때,
상기 입력 비디오를 제1 프레임 레이트에서 제2 프레임 레이트로 변환하되, 상기 제2 프레임 레이트는 상기 제1 프레임 레이트보다 고속인 프레임 레이트이고,
상기 제2 프레임 레이트에서 상기 입력 비디오의 처리된 프레임을 생성하고,
상기 처리된 프레임을 시간적 슬라이딩 윈도우 집계를 사용하여 집계하여 제3 프레임 레이트에서 처리된 출력 비디오를 산출하도록 구성된, 시스템.
제11항에 있어서,
상기 입력 비디오를 상기 제1 프레임 레이트에서 상기 제2 프레임 레이트로 변환할 때, 상기 프로세서는,
제1 시간 단계에서의 제1 비디오 프레임과 제2 시간 단계에서의 제2 비디오 프레임의 가중 합을 계산함으로써 중간 프레임을 결정하도록 더욱 구성되는, 시스템.
제12항에 있어서,
상기 제1 시간 단계에서의 상기 제1 비디오 프레임과 상기 제2 시간 단계에서의 상기 제2 비디오 프레임의 가중 합을 계산할 때, 상기 프로세서는,
상기 제1 비디오 프레임에서 상기 중간 프레임에 대응하는 제3 시간 단계까지의 정방향 워핑 그리드를 계산하고,
상기 제2 비디오 프레임에서 상기 중간 프레임에 대응하는 상기 제3 시간 단계까지의 역방향 워핑 그리드를 계산하고,
상기 제1 비디오 프레임 및 상기 제2 비디오 프레임을 상기 제3 시간 단계로 이중 선형 워핑함으로써 상기 제3 시간 단계에서 상기 중간 프레임을 결정하도록 더욱 구성되는, 시스템.
제11항에 있어서,
상기 입력 비디오를 상기 제1 프레임 레이트에서 상기 제2 프레임 레이트로 변환할 때, 상기 프로세서는,
상기 입력 비디오 및 폐색 마스크를 모두 상기 제1 프레임 레이트에서 상기 제2 프레임 레이트로 변환하도록 더욱 구성되고,
상기 폐색 마스크는 처리할 상기 입력 비디오의 영역을 표시하는, 시스템.
제14항에 있어서,
상기 입력 비디오의 상기 처리된 프레임을 상기 제2 프레임 속도에서 생성할 때, 상기 프로세서는,
상기 제2 프레임 레이트에서 상기 폐색 마스크를 사용하여 상기 제2 프레임 레이트에서 상기 입력 비디오의 각 프레임을 독립적으로 처리하도록 더욱 구성되고,
상기 처리된 프레임들을 생성하는 단계는 강화 처리, 선명화 처리, 노이즈 제거 처리, 초해상도 처리 및 인페인팅 처리 중 적어도 하나를 포함하는, 시스템.
제11항에 있어서,
상기 처리된 프레임을 시간적 슬라이딩 윈도우 집계를 사용하여 집계할 때, 상기 프로세서는,
소정의 스트라이드를 갖는 시간적 슬라이딩 윈도우를 선택하고,
상기 시간적 슬라이딩 윈도우 내부에서 상기 처리된 프레임들 중 적어도 일부를 정렬하고 평균화하도록 더욱 구성되는, 시스템.
제16항에 있어서,
상기 시간적 슬라이딩 윈도우 내에서 정렬되고 평균화된 상기 처리된 프레임은 하나의 기준 프레임 및 적어도 2 개의 컨텍스트 프레임을 포함하는, 시스템.
제17항에 있어서,
상기 적어도 2 개의 콘텍스트 프레임은 상기 기준 프레임 앞에 위치된 적어도 하나의 콘텍스트 프레임 및 상기 기준 프레임 뒤에 위치된 적어도 하나의 콘텍스트 프레임을 포함하는, 시스템.
제11항에 있어서,
상기 처리된 프레임을 시간적 슬라이딩 윈도우 집계를 사용하여 집계할 때, 상기 프로세서는,
시간적 슬라이딩 윈도우 내에서 처리된 프레임의 제1 세트를 정렬하고 평균화하고,
상기 시간적 슬라이딩 윈도우 내부에서 처리된 프레임의 제2 세트를 정렬하고 평균화하도록 더욱 구성되고,
상기 처리된 프레임의 제1 세트 및 상기 처리된 프레임의 제2 세트는 적어도 하나의 공유 컨텍스트 프레임을 포함하는, 시스템.
제11항에 있어서,
상기 제1 프레임 레이트는 상기 제3 프레임 레이트와 동일한, 시스템.