KR102459606B1 - 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법 - Google Patents
프레임 보간을 위한 움직임 기반 저정밀도 계산 방법 Download PDFInfo
- Publication number
- KR102459606B1 KR102459606B1 KR1020210137609A KR20210137609A KR102459606B1 KR 102459606 B1 KR102459606 B1 KR 102459606B1 KR 1020210137609 A KR1020210137609 A KR 1020210137609A KR 20210137609 A KR20210137609 A KR 20210137609A KR 102459606 B1 KR102459606 B1 KR 102459606B1
- Authority
- KR
- South Korea
- Prior art keywords
- motion
- precision
- frame interpolation
- calculation method
- frame
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 31
- 230000003287 optical effect Effects 0.000 claims description 7
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 230000006866 deterioration Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- PGLIUCLTXOYQMV-UHFFFAOYSA-N Cetirizine hydrochloride Chemical compound Cl.Cl.C1CN(CCOCC(=O)O)CCN1C(C=1C=CC(Cl)=CC=1)C1=CC=CC=C1 PGLIUCLTXOYQMV-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0135—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
- H04N7/0137—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes dependent on presence/absence of motion, e.g. of motion zones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/144—Movement detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0135—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
- H04N7/014—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes involving the use of motion vectors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
본 발명은 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법에 관한 것으로, 프레임에서 움직임이 발생하는 영역에 대한 정보를 명시적으로 제공하여 입력 영상의 특성에 따라 정밀도(presision)를 제어하고 객관적 화질 성능인 PSNR(Peak Signal-to-Noise Ratio)과 SSIM(Structual Similarity)의 저하 없이 수행 시간을 단축시킬 수 있도록 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법을 제공한다.
Description
본 발명은 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법에 관한 것으로서, 더욱 상세하게는 영상 특성을 적극적으로 반영할 수 있는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법에 관한 것이다.
비디오 보간법(video interpolation)은 과거 및 미래의 비디오로부터 현재의 비디오 프레임을 예측하는 기술로서, 비디오 프레임을 보간 하기 위해서는 움직임을 예측하고 픽셀을 합성하는 방식으로 진행되었다.
종래에는 비디오 프레임 예측 방법으로 블록 단위 예측하고 스무딩(Smoothing) 하는 방법, 옵티컬 플로우(Optical Flow)를 이용한 움직임 예측 등이 제안된 바 있으나, 최근 딥러닝(Deep Learning)을 활용한 비디오 보간법에 대한 연구가 활발히 이루어지고 있다.
이러한 딥러닝 기반의 프레임 보간(FI; Frame Interpolation)에 관한 선행기술로서 참고문헌 1, 2 등이 제안된 바 있다.
그런데, 상기 참고문헌 1, 2 들은 입력 영상 특성을 학습에만 의존함으로써 학습 데이터에 사용된 영상 전반의 평균적인 특성을 활용하여 객관적 화질을 높이는데 초점을 맞추고 있어, 처리 속도 및 리소스 오버헤드(resource overhead)가 증가함으로써 온디바이스 적합도는 떨어지는 단점이 있다.
참고문헌 1 : Simon Niklaus, et al, "Video frame interpolation via adaptive separable convolution," in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp 261-270.
참고문헌 2 : Wenbo Bao, et al, "Depth-aware video frame interpolation," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp 3703-3712
참고문헌 3 : Z Liu, et al. Video frame synthesis using deep voxel flow. In ICCV, 2017.
따라서, 본 발명은 이러한 문제점들을 해결하기 위한 것으로서 본 발명은 영상 특성을 적극적으로 반영할 수 있는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법을 제공하는데 그 목적이 있다.
특히, 본 발명은 2개의 입력 프레임들 사이의 광학 흐름(Optical Flow)을 찾아 중간 프레임을 합성하는 DVF(Deep Voxel Flow) 기반에서 이루어지는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법을 제공하는데 그 목적이 있다.
이와 같은 기술적 과제를 해결하기 위해 본 발명은;
프레임 보간을 위한 움직임 기반 저정밀도 계산 방법에 있어서, 인코더의 출력인 2개의 연속된 프레임의 신호 차이를 비교하는 제1단계; 상기 제1단계 이후에 2개의 연속된 프레임의 신호 차이에 따라 모션 영역은 '1' 또는 배경 영역은 '0'으로 바이너리 마스크를 생성하는 제2단계; 및 상기 바이너리 마스크 값에 따라 이미지를 블록으로 나누어 저정밀도를 수행하는 제3단계;를 포함하는 것을 특징으로 하는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법을 제공한다.
이때, 상기 제3단계는 디코더 계층에서 float32와 양자화된 int8 가중치를 공유하여 4×4 블록별로 정밀도를 달리하여 연산을 수행하는 단계인 것을 특징으로 한다.
그리고, 상기 제3단계는 상기 블록별 바이너리 마스크 값에 따라 움직임이 있는 모션 영역은 float32 연산을 수행하고, 움직임이 없는 배경 영역은 int8 연산을 수행하는 것을 특징으로 한다.
아울러, 상기 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법은 입력되는 2개의 프레임들 사이의 광학 흐름(Optical Flow)을 찾아 중간 프레임을 합성하는 DVF(Deep Voxel Flow) 기반에서 이루어진 것을 특징으로 한다.
또한, 상기 제1단계에서, 2개의 연속된 프레임의 신호의 차이(Ri,jzero)는 하기의 식으로 계산되는 것을 특징으로 한다.
그리고, 상기 제2단계에서, 바이너리 마스크(Mi,j)는 2개의 연속된 프레임의 신호의 차이(Ri,jzero)의 특성에 따라 하기의 식(2)에 따라 계산되는 것을 특징으로 한다.
아울러, 상기 제1단계 이전에, 연속된 2개의 이미지 사이에 계산된 모션벡터를 이용하여 원본 이미지에서 픽셀을 빌려와 프레임을 생성하는 제4단계;를 더 포함하는 것을 특징으로 한다.
본 발명에 따르면, 프레임에서 움직임이 발생하는 영역에 대한 정보를 명시적으로 제공하여 입력 영상의 특성에 따라 정밀도(presision)를 제어하고 객관적 화질 성능인 PSNR(Peak Signal-to-Noise Ratio)과 SSIM(Structual Similarity)의 저하 없이 수행 시간을 단축하는 효과가 있다.
도 1은 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산을 위한 이미지 처리장치의 구성도이다.
도 2는 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산을 위한 베이스라인 DVF의 네트워크 및 레이어별 MAC 분포를 설명하기 위해 도시한 도면이다.
도 3은 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산을 위한 네트워크 구조를 도시한 도면이다.
도 4는 본 발명에 따른 이미지의 블록 단위 처리 예를 도시한 도면이다.
도 5는 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산시 TH에 따른 움직임 영역 비율과 속도 향상 예를 도시한 도면이다.
도 6은 본 발명에 따른 움직임 기반 저정밀도 계산시 움직임 영역 비율에 따른 PSNR과 SSIM의 평가표이다.
도 2는 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산을 위한 베이스라인 DVF의 네트워크 및 레이어별 MAC 분포를 설명하기 위해 도시한 도면이다.
도 3은 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산을 위한 네트워크 구조를 도시한 도면이다.
도 4는 본 발명에 따른 이미지의 블록 단위 처리 예를 도시한 도면이다.
도 5는 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산시 TH에 따른 움직임 영역 비율과 속도 향상 예를 도시한 도면이다.
도 6은 본 발명에 따른 움직임 기반 저정밀도 계산시 움직임 영역 비율에 따른 PSNR과 SSIM의 평가표이다.
이하, 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법을 첨부한 도면을 참고로 하여 상세히 기술되는 실시 예에 의하여 그 특징들을 이해할 수 있을 것이다.
이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.
따라서, 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들은 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
도 1을 참고하면, 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법은 영상 특성을 적극적으로 반영할 수 있도록 MALFnet(Motion-aware Low-precision Computation for Flow-based Frame Synthesis Network)을 제안한다.
통상적으로 영상의 픽셀(Pixel) 값을 직접 생성하는 기존의 프레임 보간(FI; Frame Interpolation)보다 광학 흐름(Optical Flow) 기반의 연구가 덜 흐릿하며 좋은 성능을 보인다고 알려져 있다.
이에 본 발명에서는 입력되는 2개의 프레임들 사이의 광학 흐름(Optical Flow)을 찾아 중간 프레임을 합성하는 DVF(Deep Voxel Flow) 기반에서 이루어졌다. 상기 DVF(Deep Voxel Flow)는 참고문헌 3의 비디오 프레임 합성을 의미한다.
이때, 프레임에서 움직임이 있는 모션 영역은 밀집(dense)한 흐름(flow)이 필요하고, 움직임이 없는 배경 영역은 밀도가 낮은(sparse) 흐름(flow) 출력값을 갖는다.
상기 영상은 카메라(1)를 통해 촬영될 수 있으며, PC, 노트북 등의 다양한 이미지 처리장치(10)에서 연산을 통해 입력 영상의 특성에 따라 정밀도(presision)를 제어하고 객관적 화질 성능의 저하 없이 수행 시간을 줄일 수 있다.
좀 더 구체적으로 설명하면 상기 이미지 처리장치(10)는 프레임에서 움직임이 발생하는 영역에 대한 정보를 명시적으로 제공하여 입력 영상의 특성에 따라 정밀도(presision)를 제어하고 객관적 화질 성능인 PSNR(Peak Signal-to-Noise Ratio)과 SSIM(Structual Similarity)의 저하 없이 수행 시간을 줄일 수 있다.
이를 위해 상기 이미지 처리장치(10)는 프레임 보간을 위한 움직임 기반 저정밀도 계산을 위한 프로그램이 저장되는 메모리(11)와, 상기 프로그램을 로딩하여 연산을 수행하는 프로세서(12)를 구비함으로써 후술할 다양한 방법 내지는 동작을 수행한다.
도 2는 본 발명의 베이스라인(baseline)인 인코더-디코더 구조를 가진 DVF(Deep Voxel Flow)를 설명하기 위해 도시한 도면이다.
이에 의하면 연속된 2개의 이미지 사이에 계산된 모션벡터를 이용하여 원본 이미지에서 픽셀을 빌려와 프레임을 생성한다. 레이어별 요구되는 MAC을 보면 실행 속도 향상을 위해서 디코더 레이어의 계산 수행 시간을 줄이는 것이 필요하다는 것을 알 수 있다.
도 3은 본 발명에서 제안하는 MALFnet(Motion-aware Low-precision Computation for Flow-based Frame Synthesis Network)을 보인다.
이에 의하면 블록 별 바이너리 마스크 값에 따라 움직임이 있는 모션 영역과 움직임이 없는 배경 영역을 다르게 처리한다.
이에 바이너리 마스크 값에 따라 빨간색으로 구분되어진 모션 영역은 float32 연산을 수행하고, 보라색 영역으로 구분되어진 배경 영역은 int8 연산을 수행한다. 파이토치(pytorch) 프레임워크 기반 양자화(Quantization)를 가중치(Weights)와 엑티베이션(Activation)에 적용하고 양자화 인식 훈련을 통해 양자화 파라미터를 결정함으로써 성능 손실을 최소화한다. 저정밀도(Low precision) 수행을 위해 추가되는 가중치 메모리는 전체 메모리 증가율의 3%를 차지한다.
상기 파이토치(pytorch)는 페이스북(Facebook)에서 개발 한 AI(Artificial Intelligence) 프레임 워크로서, GPU의 성능을 활용하고 딥 러닝 개발 플랫폼으로서의 유연성을 제공하기 위해 Numpy를 대체하는 Python 기반 패키지이다.
한편, 본 발명에서는 연속된 2개 이미지의 특징을 추출하기 위해 가중치가 공유된 인코더(encoder)와 추출된 2개 이미지의 신호 차이를 이용하여 마스크 생성자(Mask Generator)가 모션 영역과 배경 영역을 구분하는 바이너리값을 생성한다. 디코더(decoder) 계층은 float32와 양자화된 int8 가중치를 공유하여 4×4 블록별로 정밀도(precision)를 달리하여 연산을 수행한다.
상기 인코더(encoder)의 출력인 2개의 연속된 프레임의 신호의 차이가 배경과 같은 움직임이 없는 영역에서 '0'에 가깝다는 단순한 특성으로 하기의 식(1)을 이용한다.
이에 의하면 블록 단위로 '0'의 비율을 기준으로 Ri,jzero < TH 이면 모션 영역인 '1', Ri,jzero > TH 이면 배경 영역인 '0'으로 나타내는 바이너리 마스크(Mi,j)를 식(2)로 생성한다.
바이너리 마스크(Mi,j) 값에 따라 이미지를 4×4 블록으로 나누어 고정밀도(High precision) 또는 저정밀도(Low precision)를 수행한다.
이미지를 블록 별로 나누어 처리하기 위해서는 도 4와 같이 인접 블록에서 위와 왼쪽의 W*(K-S)*N 과 H*(K-S)*N의 빨간 영역이 필요하며, 초록 영역의 재계산이 필요하다. 여기서 W, H, K, S와 N은 각각 이미지 크기와 kernel, stride size, channel의 개수를 의미한다.
이하, 도 5 및 도 6을 참고로 본 발명에 따른 프레임 보간을 위한 움직임 기반 저정밀도 계산 계산을 통한 이미지 처리 실험 예를 설명한다.
본 발명의 실험에 사용된 이미지 처리장치(10)의 컴퓨팅 플랫폼은 4.8㎓의 클럭 주파수와 48GB RAM의 AMD 16 코어 Ryzen 5950 CPU로 구성된다. 실험을 통해 UCF101 이미지 10,000개를 사용하였다. 정량적 결과와 정성적 결과를 baseline DVF(Deep Voxel Flow)[참고문헌 3]와 비교하였다.
도 5에서 TH = 0.7이 적용되었을 때 움직임 영역 비율이 평균 0.5이고 처리속도는 2배 증가하였다. 도 6의 표에서 제안된 기법으로 생성된 in-between frame들의 평균적인 PSNR, SSIM값은 High precision(FP32)과 거의 차이가 나지 않음을 확인할 수 있다.
이상에서와 같이 최근 연구된 다양한 딥러닝 기반 이미지 처리를 디바이스에 적용하려면 다양한 유형의 입력 데이터를 처리할 수 있는 속도 향상 기술이 필수적이다.
본 발명에서는 오토 인코더 네트워크의 디코더 계층에 초점을 맞춘 속도 개선 기술을 제안하였으나 이에 한정하지 않고 인코더 계층에 대한 연구를 기반으로 추가적인 성능 개선 역시 바람직하다.
위에서 설명한 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법을 정리하면, 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법에 있어서, 인코더의 출력인 2개의 연속된 프레임의 신호 차이를 비교하는 제1단계, 상기 제1단계 이후에 2개의 연속된 프레임의 신호 차이에 따라 모션 영역은 '1' 또는 배경 영역은 '0'으로 바이너리 마스크를 생성하는 제2단계 및 상기 바이너리 마스크 값에 따라 이미지를 블록으로 나누어 저정밀도를 수행하는 제3단계를 포함하여 이루어지게 된다.
이때, 상기 제3단계는 디코더 계층에서 float32와 양자화된 int8 가중치를 공유하여 4×4 블록별로 정밀도를 달리하여 연산을 수행하게 된다.
그리고, 상기 제3단계는 상기 블록별 바이너리 마스크 값에 따라 움직임이 있는 모션 영역은 float32 연산을 수행하고, 움직임이 없는 배경 영역은 int8 연산을 수행하게 된다.
아울러, 상기 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법은 입력되는 2개의 프레임들 사이의 광학 흐름(Optical Flow)을 찾아 중간 프레임을 합성하는 DVF(Deep Voxel Flow) 기반에서 이루어진다.
또한, 상기 제1단계에서, 2개의 연속된 프레임의 신호의 차이(Ri,jzero)는 하기의 식으로 계산되게 된다.
그리고, 상기 제2단계에서, 바이너리 마스크(Mi,j)는 2개의 연속된 프레임의 신호의 차이(Ri,jzero)의 특성에 따라 하기의 식(2)에 따라 계산되게 된다.
아울러, 상기 제1단계 이전에, 연속된 2개의 이미지 사이에 계산된 모션벡터를 이용하여 원본 이미지에서 픽셀을 빌려와 프레임을 생성하는 제4단계를 더 포함하게 된다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형 가능한 것으로, 본 발명의 보호범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
1: 카메라 10: 이미지 처리장치
11: 메모리 12: 프로세서
11: 메모리 12: 프로세서
Claims (7)
- 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법에 있어서,
인코더의 출력인 2개의 연속된 프레임의 신호 차이를 비교하는 제1단계;
상기 제1단계 이후에 2개의 연속된 프레임의 신호 차이에 따라 모션 영역은 '1' 또는 배경 영역은 '0'으로 바이너리 마스크를 생성하는 제2단계; 및
상기 바이너리 마스크 값에 따라 이미지를 블록으로 나누어 저정밀도를 수행하는 제3단계;를 포함하고,
상기 제3단계는 상기 블록별 바이너리 마스크 값에 따라 움직임이 있는 모션 영역은 float32 연산을 수행하고, 움직임이 없는 배경 영역은 int8 연산을 수행하는 것을 특징으로 하는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법.
- 제 1항에 있어서,
상기 제3단계는 디코더 계층에서 float32와 양자화된 int8 가중치를 공유하여 4×4 블록별로 정밀도를 달리하여 연산을 수행하는 단계인 것을 특징으로 하는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법.
- 삭제
- 제 1항에 있어서,
상기 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법은 입력되는 2개의 프레임들 사이의 광학 흐름(Optical Flow)을 찾아 중간 프레임을 합성하는 DVF(Deep Voxel Flow) 기반에서 이루어진 것을 특징으로 하는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법.
- 삭제
- 삭제
- 제 1항에 있어서,
상기 제1단계 이전에, 연속된 2개의 이미지 사이에 계산된 모션벡터를 이용하여 원본 이미지에서 픽셀을 빌려와 프레임을 생성하는 제4단계;를 더 포함하는 것을 특징으로 하는 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210137609A KR102459606B1 (ko) | 2021-10-15 | 2021-10-15 | 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210137609A KR102459606B1 (ko) | 2021-10-15 | 2021-10-15 | 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102459606B1 true KR102459606B1 (ko) | 2022-10-27 |
Family
ID=83810330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210137609A KR102459606B1 (ko) | 2021-10-15 | 2021-10-15 | 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102459606B1 (ko) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080072454A (ko) * | 2007-02-02 | 2008-08-06 | 삼성전자주식회사 | 배경과 이동 객체를 분리하여 움직임을 추정하는 프레임보간 장치 및 프레임 보간 방법 |
KR20090041562A (ko) * | 2007-10-24 | 2009-04-29 | 엘지디스플레이 주식회사 | 프레임 보간 장치 및 그를 포함한 프레임 속도 상향 변환장치 |
KR102244187B1 (ko) * | 2019-10-31 | 2021-04-26 | 한국과학기술원 | 예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치 |
-
2021
- 2021-10-15 KR KR1020210137609A patent/KR102459606B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080072454A (ko) * | 2007-02-02 | 2008-08-06 | 삼성전자주식회사 | 배경과 이동 객체를 분리하여 움직임을 추정하는 프레임보간 장치 및 프레임 보간 방법 |
KR20090041562A (ko) * | 2007-10-24 | 2009-04-29 | 엘지디스플레이 주식회사 | 프레임 보간 장치 및 그를 포함한 프레임 속도 상향 변환장치 |
KR102244187B1 (ko) * | 2019-10-31 | 2021-04-26 | 한국과학기술원 | 예외적 움직임에 강인한 비디오 프레임 보간 방법 및 그 장치 |
Non-Patent Citations (3)
Title |
---|
Simon Niklaus, et al, "Video frame interpolation via adaptive separable convolution," in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp 261-270. |
Wenbo Bao, et al, "Depth-aware video frame interpolation," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp 3703-3712 |
Z Liu, et al. Video frame synthesis using deep voxel flow. In ICCV, 2017. |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lee et al. | Mobisr: Efficient on-device super-resolution through heterogeneous mobile processors | |
Wu et al. | Edge computing driven low-light image dynamic enhancement for object detection | |
Luo et al. | Image restoration with mean-reverting stochastic differential equations | |
CN111868751B (zh) | 在视频代码化的机器学习模型中使用应用于量化参数的非线性函数 | |
CN110427899B (zh) | 基于人脸分割的视频预测方法及装置、介质、电子设备 | |
US11831909B2 (en) | Learned B-frame coding using P-frame coding system | |
Sebai et al. | Semantic-oriented learning-based image compression by Only-Train-Once quantized autoencoders | |
Parger et al. | Deltacnn: End-to-end cnn inference of sparse frame differences in videos | |
Kuanar et al. | Deep learning based HEVC in-loop filter and noise reduction | |
Mao et al. | Mobieye: An efficient cloud-based video detection system for real-time mobile applications | |
Zhao et al. | CBREN: Convolutional neural networks for constant bit rate video quality enhancement | |
US20140169444A1 (en) | Image sequence encoding/decoding using motion fields | |
CN116309135A (zh) | 扩散模型处理方法及装置、图片处理方法及装置 | |
US20220198628A1 (en) | Image processing apparatus and method of processing multi-frames using the same | |
KR102459606B1 (ko) | 프레임 보간을 위한 움직임 기반 저정밀도 계산 방법 | |
Zhao et al. | SASA: saliency-aware self-adaptive snapshot compressive imaging | |
Sulun et al. | Can learned frame prediction compete with block motion compensation for video coding? | |
CN115272527B (zh) | 基于色盘对抗网络的图像上色方法 | |
NO20200708A1 (en) | Method, computer program and system for detecting changes and moving objects in a video view | |
Pathak et al. | Enhanced Hierarchical Prediction for Lossless Medical Image Compression in the Field of Telemedicine Application | |
CN116996695B (zh) | 一种全景图像压缩方法、装置、设备及介质 | |
CN116228895B (zh) | 视频生成方法、深度学习模型训练方法、装置以及设备 | |
WO2024146569A1 (en) | Feature fusion for input picture data preprocessing for learning model | |
Terai et al. | Comparative study of Video/Image denoising algorithms based on Convolutional neural network CNN | |
US20240202942A1 (en) | Image processing device determining motion vector between frames, and method thereby |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GRNT | Written decision to grant |