KR102253119B1

KR102253119B1 - 딥러닝을 이용한 영상의 만화 스타일 요약 방법

Info

Publication number: KR102253119B1
Application number: KR1020200015565A
Authority: KR
Inventors: 정규만; 서명찬; 김바름
Original assignee: 대구대학교 산학협력단
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2021-05-18

Abstract

영상을 카메라 신(camera scene) 별로 분할하고, 각 카메라 신마다 복수 개의 프레임을 추출하는 제1단계; 상기 프레임을 전용 컨볼루셔널 신경망(Convolutional Neural Network, CNN) 모델에 입력하여 상기 프레임에 대한 스코어를 각각 산출하는 제2단계; 최고 스코어를 획득한 프레임을 기준으로 미리 설정된 프레임 개수가 충족되도록 나머지 프레임을 선정하는 제3단계; 선정된 프레임을 만화 스타일로 변환하는 제4단계; 및 변환된 프레임을 시간 순으로 만화 레이아웃에 따라 배치하는 제5단계;를 포함하는 딥러닝을 이용한 영상의 만화 스타일 요약 방법을 제공한다.

Description

딥러닝을 이용한 영상의 만화 스타일 요약 방법{METHOD OF CARTOON STYLE SUMMARY FOR VEDIO USING DEEP LEARNING}

본 발명은 딥러닝 기술을 사용하여 비디오 영상 중 중요 프레임을 추출하고, 만화 스타일로 제공하는 영상의 만화 스타일 요약 방법에 관한 것이다.

그러나, 비디오 형태의 미디어는 사용자가 그 내용을 이해하기 위해 비교적 긴 시간을 소비해야 한다는 단점이 존재한다. 이런 단점에 대해 일부 사용자는 블로그 혹은 특정 웹사이트에 해당 비디오를 요약하거나, 재가공하는 형태로 제공하고 있다. 이는, 특히 뉴스 기사 혹은 연설문과 같은 사실적 콘텐츠를 담고 있는 비디오 영상에서는 그 핵심적인 내용을 빠르게 전달할 수 있다는 점에서 활용성이 높다.

최근 사람의 주관적 판단이나 평가를 학습을 통해 자동 수행 가능한 인공지능 기술이 각광받고 있다. 따라서, 이런 기술을 이용하여 영화나 드라마 등의 비디오 영상을 자동으로 요약하고 이를 만화 스타일로 제공하는 알고리즘을 제안하고자 한다.

Nal Kalchbrenner, Edward Grefenstette, Phil Blunsom. (2014). A Convolutional Neural Network for Modelling Sentences. Proceedings of The 52nd Annual Meeting of The Association for Computational Linguistics Microsoft. (2016). World Wide Web https://github.com/Microsoft/CNTK/blob/master/Tutorials/CNTK_201B_CIFAR-10_ImageHandsOn.ipynb Jeffrey F. Cohn, Adena J. Zlochower, James J. Lien, Takeo Kanade. (1998). Feature-Point Tracking by Optical Flow Discriminates Subtle Differences in Facial Expression. IEEE International Conference on Automatic Face and Gesture Recognition, 396-412 Archana B. Patankar, Purnima Tawde. (2014). Cartoonization using LBG and KPE Vector Quantization. J ournal of Engineering Research and Applications, 4(5), 45-49

본 발명의 실시예는 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 딥러닝 기술을 이용하여 비디오 영상 중 미리 설정된 개수의 중요 프레임을 선정하고, 이를 만화 스타일로 변환하여 만화 레이아웃에 맞춰 제공할 수 있는 영상의 만화 스타일 요약 방법을 제공하고자 한다.

또한, 최종 선정된 중요 프레임에 대한 객관성, 신뢰성을 보다 향상시킬 수 있는 전용 컨볼루셔널 신경망 모델을 설계하고자 한다. 또한, 영상 중 전달하고자 하는 중요 정보를 빠른 시간에 효과적으로 제공하고자 한다.

본 발명의 실시예는 상기와 같은 과제를 해결하고자, 영상을 카메라 신(camera scene) 별로 분할하고, 각 카메라 신마다 복수 개의 프레임을 추출하는 제1단계; 상기 프레임을 전용 컨볼루셔널 신경망(Convolutional Neural Network, CNN) 모델에 입력하여 상기 프레임에 대한 스코어를 각각 산출하는 제2단계; 최고 스코어를 획득한 프레임을 기준으로 미리 설정된 프레임 개수가 충족되도록 나머지 프레임을 선정하는 제3단계; 선정된 프레임을 만화 스타일로 변환하는 제4단계; 및 변환된 프레임을 시간 순으로 만화 레이아웃에 따라 배치하는 제5단계;를 포함하는 딥러닝을 이용한 영상의 만화 스타일 요약 방법을 제공한다.

상기 전용 컨볼루셔널 신경망 모델을 학습시키기 위한 학습용 데이터는 학습용 영상에서 카메라 신(camera scene) 별로 복수 개의 학습용 프레임을 추출하는 (a)단계; 상기 학습용 프레임을 트레이닝 셋(training set)과 테스트 셋(test set) 중 어느 하나로 분류하는 (b)단계; 및 각 분류 별로 각 분류에 속하는 학습용 프레임에 대해 베스트 라벨, 노멀 라벨 및 언네세서리 라벨 중 어느 하나를 부여하는 (c)단계;를 통해 생성될 수 있다.

추출된 상기 프레임을 레터박스 영역을 제외한 전처리 프레임으로 변환한 후 입력하며, 상기 전용 컨볼루셔널 신경망 모델은 상기 전처리 프레임을 대상으로 컨볼루셔널 과정을 반복하여, 상기 전처리 프레임에 대해 베스트 확률값, 노멀 확률값 및 언네세서리 확률값을 각각 출력하는 것이 바람직하다.

상기 확률값은 미리 설정되는 보정계수에 의해 보정되는 것이 바람직하다.

상기 전용 컨볼루셔널 신경망 모델을 학습시키기 위해 학습용 영상에서 카메라 신(camera scene) 별로 복수 개의 학습용 프레임을 추출하고, 상기 학습용 프레임에 대해 베스트 라벨, 노멀 라벨 및 언네세서리 라벨 중 어느 하나를 부여하며, 1) 상기 베스트 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수를 상기 베스트 라벨이 부여된 학습용 프레임의 개수로 나눈 값이고, 2) 상기 노멀 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수를 상기 노멀 라벨이 부여된 학습용 프레임의 개수로 나눈 값이며, 3) 상기 언네세서리 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수를 상기 언네세서리 라벨이 부여된 학습용 프레임의 개수로 나눈 값인 것을 특징으로 한다.

상기 스코어는 상기 보정계수에 의해, 보정된 베스트 확률값과 보정된 노멀 확률값을 더한 후, 보정된 언네세서리 확률값을 뺀 결과인 것을 특징으로 한다.

상기 분할은 상기 영상에서 광원의 위치가 변동되는 것을 일 기준으로 한다.

상기 만화 레이아웃은 적어도 하나 이상의 행을 포함하며, 각 행에 배치되는 프레임은 각 프레임에 대한 상기 베스트 확률값에 의해 좌우 크기가 조절되는 것이 바람직하다.

이상에서 살펴본 바와 같은 본 발명의 과제해결 수단에 의하면 다음과 같은 사항을 포함하는 다양한 효과를 기대할 수 있다. 다만, 본 발명이 하기와 같은 효과를 모두 발휘해야 성립되는 것은 아니다.

본 발명의 일 실시예에 따른 비디오 영상의 만화 스타일 요약 방법은 딥러닝 기술을 이용하여 영상 중 미리 설정된 개수의 중요 프레임을 선정하고, 이를 만화 스타일로 변환하여 만화 레이아웃에 맞춰 제공할 수 있다. 또한, 새로 설계된 전용 컨볼루셔널 신경망 모델을 통해, 최종 선정된 중요 프레임에 대한 객관성, 신뢰성을 보다 향상시킬 수 있다. 또한, 만화 레이아웃을 사용하고, 이에 배치되는 프레임의 크기를 달리하여 전달하고자 하는 중요 정보를 빠른 시간에 효과적으로 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 딥러닝을 이용한 영상의 만화 스타일 요약 방법에 관한 흐름도.
도 2는 카메라 신 별로 폴더가 형성되며, 각 폴더에는 추출된 복수 개의 프레임이 저장된 상태를 나타내는 도면.
도 3은 Microsoft의 CNTK CNN 알고리즘에 관한 설명을 나타내는 도면.
도 4는 일 실시예에 따른 전용 컨볼루셔널 신경망 모델을 설명하는 도면.
도 5는 일 실시예에 따른 제3단계를 설명하는 결과.
도 6은 일 실시예에 따른 만화 스타일의 프레임을 보여주는 도면.
도 7은 일 실시예에 따른 만화 레이아웃을 나타내는 도면.
도 8은 일 실시예에 따라 선정된 30개의 프레임을 만화 스타일로 요약한 결과.

이하, 본 발명을 설명함에 있어서 관련된 공지 기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 도면을 참조하여 본 발명의 구체적인 실시예를 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 딥러닝을 이용한 영상의 만화 스타일 요약 방법에 관한 흐름도이고, 도 2는 카메라 신 별로 폴더가 형성되며, 각 폴더에는 추출된 복수 개의 프레임이 저장된 상태를 나타내는 도면이며, 도 3은 Microsoft의 CNTK CNN 알고리즘에 관한 설명을 나타내는 도면이다.

도 1 내지 도 3을 참조하면, 본 발명의 일 실시예에 따른 딥러닝을 이용한 영상의 만화 스타일 요약 방법은 제1단계 내지 제5단계를 포함할 수 있다. 이를 통해, 영화나 드라마 등의 비디오 영상에서 비디오 요약에 적합한 장면(프레임)을 선정한 후 이에 만화 스타일을 적용하여, 만화 레이아웃에 배치하는 일련의 방법으로 비디오 영상에 대한 요약 만화를 생성할 수 있다.

이를 위해, 먼저 딥러닝 알고리즘에 대한 새로운 모델을 설계한다. 일 실시예는 전용 컨볼루셔널 신경망(Convolutional Neural Network, CNN) 모델을 이용한다. 전용 컨볼루셔널 신경망(CNN) 모델은 비특허문헌 1에 개시된 다중 컨볼루셔널 레이어 알고리즘, 비특허문헌 2에 개시된 Microsoft의 CNTK CNN 알고리즘을 기반으로 한다. 비특허문헌 1과 2에는 일정한 크기의 마스크를 사용하며, 데이터의 특징을 찾아내는 컨볼루션 과정과 그 이후 이를 극대화하는 Max Pooling 등에 대한 기술이 개시되어 있다. Max Pooling을 통해 마스크 내에서 가장 큰 값을 뽑아낼 수 있다.

다만, 본 발명의 경우, 명확한 이미지를 찾는 것이 아닌 다소 주관적인 베스트 장면(프레임)을 선정한다는 점에서 비특허문헌 1과 2에 기재된 기술에 일부 변경이 가해진다. 구체적으로, 개발자는 라벨이 부여된 학습용 프레임을 이용하여 전용 컨볼루셔널 신경망(CNN) 모델을 반복적으로 학습시킬 수 있다. 그 결과, 전용 컨볼루셔널 신경망(CNN) 모델은 요약에 적합한 프레임을 선정할 수 있다.

전용 컨볼루셔널 신경망 모델을 학습시키기 위한 학습용 데이터는 학습용 영상에서 카메라 신(camera scene) 별로 복수 개의 학습용 프레임을 추출하는 (a)단계와, 학습용 프레임을 트레이닝 셋(training set)과 테스트 셋(test set) 중 어느 하나로 분류하는 (b)단계, 및 각 분류 별로 각 분류에 속하는 학습용 프레임에 대해 베스트 라벨, 노멀 라벨 및 언네세서리 라벨 중 어느 하나를 부여하는 (c)단계를 통해 생성될 수 있다. 한편, (a)단계에서 학습용 프레임을 추출하는 방법은 후술할 제1단계의 내용과 동일한 바, 생략한다.

여기서, 트레이닝 셋과 테스트 셋에 대한 분류 비율은 개발자 등에 의해 조절될 수 있다. 또한, 학습용 프레임에 부여되는 각 라벨 역시 개발자 등에 의해 부여될 수 있다. 한편, 라벨은 프레임에 가중치를 부여하는 것으로, 베스트 라벨은 중요한 장면을, 노멀 라벨은 일반적 장면을, 언네세서리 라벨은 불필요한 장면을 의미한다. 예를 들어, 현저히 어둡거나 두 장면이 오버랩되어 중복적 의미를 갖는 장면, 영화 제목 등 문자가 포함되는 장면은 언네세서리 라벨로 분류한다.

일 실시예에 따른 학습용 영상은 영화 트레일러 29편을 대상으로 하였다. 그리고, 각 영화 트레일러의 카메라 신을 분할하여 84,967개의 장면, 즉 84,967개의 학습용 프레임을 추출하였다. 여기서, 학습용 프레임은 3.45 : 1의 비율로 트레이닝 셋과 테스트 셋으로 분류하였다.

	트레이닝 셋	테스트 셋
분류 비율	3.45	1
학습용 프레임 개수	65,902	19,065
베스트 라벨 개수	2,138	1,181
노멀 라벨 개수	47,464	12,267
언네세서리 라벨 개수	16,300	5,617

도 4는 일 실시예에 따른 전용 컨볼루셔널 신경망 모델을 설명하는 도면이고, 도 5는 일 실시예에 따른 제3단계를 설명하는 결과이며, 도 6은 일 실시예에 따른 만화 스타일의 프레임을 보여주는 도면이고, 도 7은 일 실시예에 따른 만화 레이아웃을 나타내는 도면이며, 도 8은 일 실시예에 따라 선정된 30개의 프레임을 만화 스타일로 요약한 결과이다.도 4 내지 도 8을 참조하면, 제1단계는 영상을 카메라 신(camera scene) 별로 분할하고, 각 카메라 신마다 복수 개의 프레임을 추출하는 단계이다.(s10) 분할은 카메라 신의 변화를 인식할 수 있는 기준에 의한다. 이를 위해, 비특허문헌 3에 개시된 Opical Flow 알고리즘을 기반으로 한다. 다만, Optical Flow는 인물의 표정 변화를 분석하는 방법인 바, 인물 뿐만 아니라, 다양한 대상을 포함하는 영상을 분석하기에는 이에 대한 일부 변경이 필요하다.

이를 위해, 단일 프레임에서 얻어낼 수 있는 특징적 포인트를 찾아낸 뒤 전, 후 프레임 간의 평균 벡터값을 이용하여 전, 후 프레임 간의 차이를 계산한다. 한편, 일 실시예에 따른 분할은 영상에서 광원의 위치가 변동되는 것을 일 기준으로 채택할 수 있다. 즉, 광원의 변화에 따른 전, 후 프레임 간의 평균 벡터값의 차이를 활용한다.

그러나, 일부 고정된 장면에서 Fade In/Out 현상에 따라 영상의 밝기가 변하는 것을 카메라 신의 변화로 잘못 인식하여 분류할 수도 있다. Fade In/Out 현상을 표현하기 위한 프레임의 개수는 통상 짧게는 6 ~ 12 프레임인 바, 이를 고려하여, Fade In/Out 현상에 따라 분류되는 경우를 제외할 수 있다. 예를 들어, 12프레임 이하로 분류되는 경우, 이를 Fade In/Out 현상으로 인식하여 제외시킬 수 있다. 제1단계 이후, 카메라 신 별로 폴더가 형성되고, 각 폴더에는 복수 개의 프레임에 해당되는 이미지가 저장된다.

다음으로, 제2단계는 프레임을 전용 컨볼루셔널 신경망(Convolutional Neural Network, CNN) 모델에 입력하여 프레임에 대한 스코어를 각각 산출하는 단계이다.(s20) 이를 위해, 입력되는 프레임은 전처리 과정을 거친다. 구체적으로, 추출된 프레임을 레터박스 영역을 제외한 전처리 프레임으로 변환한 후 전용 컨볼루셔널 신경망(CNN) 모델에 입력한다. 마찬가지로, 전술한 학습용 프레임 역시 전용 컨볼루셔널 신경망(CNN) 모델에 입력하기 위해서는 동일하게 전처리 과정을 거쳐, 전처리 학습용 프레임으로 변환시킨다.

일 실시예에 따른 비디오 영상은 HD해상도(1280*720)를 갖는다. 이런 영상에서 추출된 프레임의 경우, 자막 또는 영화 타이틀과 같은 부가정보가 기입된 레터박스 영역을 제외하면 1280*520 크기의 전처리 프레임으로 변환된다. 또한, 일 실시예에 따른 전처리 프레임의 depth는 3으로 설정될 수 있다.

그 다음, 전용 컨볼루셔널 신경망 모델은 전처리 프레임을 대상으로 컨볼루셔널 과정을 반복한다. 이 때, 마스크는 예를 들어, 3*3 크기를 이용하고, 컨볼루셔널 과정의 반복을 통해 depth는 확장되며, width와 height의 크기는 마스크의 외곽을 제외한 크기의 절반으로 계속 줄어든다. 아래 [표 2]는 컨볼루션 과정과 Max pooling의 반복 결과이다.

Processing	width	Hight	Depth	Mask Size
입력	1280	520	3	3
Convolution	1280	520	64	3
Max Pooling	639	259	64	3
Convolution	639	259	64	3
Max Pooling	319	129	64	3
Convolution	319	129	128	3
Max Pooling	159	129	128	3
Convolution	159	64	128	3
Max Pooling	79	31	128	3
Convolution	79	31	256	3
Max Pooling	39	15	256	3
Convolution	39	7	256	3
Max Pooling	19	7	512	3
Convolution	19	3	512	3
Max Pooling	9	3	512	3
Dense	512			-
Result	3			-

최종적으로, 전처리 프레임에 대해 베스트 확률값, 노멀 확률값 및 언네세서리 확률값을 각각 출력한다. 예를 들어, 어느 하나의 프레임에 대해 베스트 확률값 = 0.03, 노멀 확률값 = 0.87, 언네세서리 확률값 = 0.1이 각각 출력될 수 있다. 이 때, 각 확률값은 미리 설정되는 보정계수에 의해 보정되는 것이 바람직하다.보정계수는 베스트 확률값, 노멀 확률값 및 언네세서리 확률값 별로 각각 다르게 산출된다. 전술한 것처럼, 전용 컨볼루셔널 신경망 모델을 학습시키기 위해 학습용 영상에서 카메라 신(camera scene) 별로 복수 개의 학습용 프레임을 추출하고, 상기 학습용 프레임에 대해 베스트 라벨, 노멀 라벨 및 언네세서리 라벨 중 어느 하나를 부여한다.

이 때, 1) 베스트 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수(u)를 베스트 라벨이 부여된 학습용 프레임의 개수(a)로 나눈 값이고, 2) 노멀 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수(u)를 노멀 라벨이 부여된 학습용 프레임의 개수(b)로 나눈 값이며, 3) 언네세서리 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수(u)를 언네세서리 라벨이 부여된 학습용 프레임의 개수(c)로 나눈 값이다.

일 실시예에 따른 추출된 학습용 프레임의 전체 개수(u)는 84,967개이다. 그리고, 베스트 라벨이 부여된 학습용 프레임의 개수(a)는 3,319개, 노멀 라벨이 부여된 학습용 프레임의 개수(b)는 59,231개, 언네세서리 라벨이 부여된 학습용 프레임의 개수(c)는 21,917개 이다. 이를 반영하면, 확률값은 보정계수에 의해 보정된 확률값을 산출할 수 있다.

즉, 보정된 베스트 확률값(0.03*(u/a))은 0.03*(84,967)/(3,319) = 0.768, 보정된 노멀 확률값(0.87*(u/b))은 0.87*(84,967)/(59,231)= 1.248, 보정된 언네세서리 확률값(0.1*(u/c))은 0.1*(84,967)/(21,917) = 0.387이 된다.

한편, 일 실시예에 따른 스코어는 보정된 베스트 확률값과 보정된 노멀 확률값을 더한 후 보정된 언네세서리 확률값을 뺀 결과이다. 따라서, 전술한 어느 하나의 프레임에 대한 스코어는 0.768+1.248-0.387=1.628으로 계산될 수 있다.

이런 방법을 사용하여 카메라 신 별로 가장 높은 스코어를 갖는 프레임을 선정할 수 있다. 이를, 예비 선정 프레임이라 한다. 다만, 이런 경우에도 카메라 신의 전체 개수가 요약하고자 하는 프레임의 개수보다 많거나, 특정 구간 내에 예비 선정 프레임이 집중되는 경우를 방지하기 위한 방법을 고려한다.

제3단계는 최고 스코어를 획득한 프레임을 기준으로 미리 설정된 프레임 개수가 충족되도록 나머지 프레임을 선정하는 단계이다.(s30) 일 실시예의 경우, 예비 선정 프레임을 스코어 기준으로 내림차순 정렬한다. 그리고, 예비 선정 프레임을 다시 시간 순으로 정렬한 후 최고 스코어를 획득한 프레임에서 시간적으로 좌우 일정 범위 내에 높은 스코어를 갖는 예비 선정 프레임이 위치하는 경우, 이를 선정에서 제외한다. 이를 통해, 특정 구간 내에 예비 선정 프레임이 집중되는 현상을 방지할 수 있다. 그 결과, 일정 범위 밖에서 예비 선정 프레임이 선정되면, 다시 이를 기준으로 좌우 일정 범위 내에 높은 스코어를 갖는 예비 선정 프레임을 선정에서 제외시킨다. 그리고, 이런 규칙을 반복 적용하여 사용자가 요약을 위해 미리 설정된 프레임 개수가 충족되도록 나머지 프레임을 선정할 수 있다.

제4단계는 선정된 프레임을 만화 스타일로 변환하는 단계이다.(s40) 일 실시예는 비특허문헌 4에 개시된 비사실적 렌더링 기술을 기반으로 한다. 이는 사진에 만화 효과를 적용하기 위해, 이미지를 벡터 양자화하고, 그라디언트 에지 감지 방법을 이용해 선분을 추출하는 LBG(LindeBuzo Gray) 와 KPE(Kekre's Proprotionate Error) 방법을 사용한다. 그 결과, 사실적 형태의 프레임을 만화 스타일로 변환할 수 있다.

다음으로, 제5단계는 변환된 프레임을 시간 순으로 만화 레이아웃에 따라 배치하는 단계이다.(s50) 한편, 레이아웃의 크기는 최종 선정된 프레임의 중요도에 따라 그 크기를 달리할 수 있다. 한편, 만화 레이아웃은 적어도 하나 이상의 행을 포함하며, 각 행에 배치되는 프레임은 각 프레임에 대한 베스트 확률값에 의해 좌우 크기가 조절될 수 있다.

일 실시예는 한 페이지에 6개의 이미지(프레임)를 나열하고, 각 행에 2개의 이미지를 나열한다. 이 때, 각 행에 배치되는 프레임 2개에 대한 각각의 베스트 확률값을 이용하여 프레임의 크기를 조절할 수 있다. 다만, 설정에 의해 그 차이가 지나치게 큰 경우, 각 프레임의 좌, 우 크기를 특정 크기로 미리 제한할 수 있다. 이와 같이, 만화 레이아웃을 사용하고, 이에 배치되는 프레임의 크기를 달리하여 전달하고자 하는 중요 정보를 빠른 시간에 효과적으로 제공할 수 있다.

이상에서는 본 발명의 바람직한 실시예를 예시적으로 설명하였으나, 본 발명의 범위는 이와 같은 특정 실시예에만 한정되는 것은 아니며, 특허청구범위에 기재된 범주 내에서 적절하게 변경 가능한 것이다.

Claims

영상을 카메라 신(camera scene) 별로 분할하고, 각 카메라 신마다 복수 개의 프레임을 추출하는 제1단계;
상기 프레임을 전용 컨볼루셔널 신경망(Convolutional Neural Network, CNN) 모델에 입력하여 상기 프레임에 대한 스코어를 각각 산출하는 제2단계;
최고 스코어를 획득한 프레임을 기준으로 미리 설정된 프레임 개수가 충족되도록 나머지 프레임을 선정하는 제3단계;
선정된 프레임을 만화 스타일로 변환하는 제4단계; 및
변환된 프레임을 시간 순으로 만화 레이아웃에 따라 배치하는 제5단계;를 포함하며,
상기 제2단계에서,
추출된 상기 프레임을 레터박스 영역을 제외한 전처리 프레임으로 변환한 후 입력하며, 상기 전용 컨볼루셔널 신경망 모델은 상기 전처리 프레임을 대상으로 컨볼루셔널 과정을 반복하여, 상기 전처리 프레임에 대해 베스트 확률값, 노멀 확률값 및 언네세서리 확률값을 각각 출력하는 딥러닝을 이용한 영상의 만화 스타일 요약 방법.
제1항에 있어서,
상기 전용 컨볼루셔널 신경망 모델을 학습시키기 위한 학습용 데이터는
학습용 영상에서 카메라 신(camera scene) 별로 복수 개의 학습용 프레임을 추출하는 (a)단계;
상기 학습용 프레임을 트레이닝 셋(training set)과 테스트 셋(test set) 중 어느 하나로 분류하는 (b)단계; 및
각 분류 별로 각 분류에 속하는 학습용 프레임에 대해 베스트 라벨, 노멀 라벨 및 언네세서리 라벨 중 어느 하나를 부여하는 (c)단계;를 통해 생성되는 딥러닝을 이용한 영상의 만화 스타일 요약 방법.
삭제
제1항에 있어서,
상기 확률값은 미리 설정되는 보정계수에 의해 보정되는 것을 특징으로 하는 딥러닝을 이용한 영상의 만화 스타일 요약 방법.
제4항에 있어서,
상기 전용 컨볼루셔널 신경망 모델을 학습시키기 위해 학습용 영상에서 카메라 신(camera scene) 별로 복수 개의 학습용 프레임을 추출하고, 상기 학습용 프레임에 대해 베스트 라벨, 노멀 라벨 및 언네세서리 라벨 중 어느 하나를 부여하며,
1) 상기 베스트 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수를 상기 베스트 라벨이 부여된 학습용 프레임의 개수로 나눈 값이고, 2) 상기 노멀 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수를 상기 노멀 라벨이 부여된 학습용 프레임의 개수로 나눈 값이며, 3) 상기 언네세서리 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수를 상기 언네세서리 라벨이 부여된 학습용 프레임의 개수로 나눈 값인 것을 특징으로 하는 딥러닝을 이용한 영상의 만화 스타일 요약 방법.
제5항에 있어서,
상기 스코어는 상기 보정계수에 의해, 보정된 베스트 확률값과 보정된 노멀 확률값을 더한 후, 보정된 언네세서리 확률값을 뺀 결과인 것을 특징으로 하는 딥러닝을 이용한 영상의 만화 스타일 요약 방법.
제1항에 있어서, 상기 제1단계에서,
상기 분할은 상기 영상에서 광원의 위치가 변동되는 것을 일 기준으로 하는 딥러닝을 이용한 영상의 만화 스타일 요약 방법.
제1항에 있어서, 상기 제5단계에서,
상기 만화 레이아웃은 적어도 하나 이상의 행을 포함하며,
각 행에 배치되는 프레임은 각 프레임에 대한 상기 베스트 확률값에 의해 좌우 크기가 조절되는 딥러닝을 이용한 영상의 만화 스타일 요약 방법.