KR102253119B1 - 딥러닝을 이용한 영상의 만화 스타일 요약 방법 - Google Patents
딥러닝을 이용한 영상의 만화 스타일 요약 방법 Download PDFInfo
- Publication number
- KR102253119B1 KR102253119B1 KR1020200015565A KR20200015565A KR102253119B1 KR 102253119 B1 KR102253119 B1 KR 102253119B1 KR 1020200015565 A KR1020200015565 A KR 1020200015565A KR 20200015565 A KR20200015565 A KR 20200015565A KR 102253119 B1 KR102253119 B1 KR 102253119B1
- Authority
- KR
- South Korea
- Prior art keywords
- frames
- frame
- learning
- label
- cartoon
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Image Analysis (AREA)
Abstract
영상을 카메라 신(camera scene) 별로 분할하고, 각 카메라 신마다 복수 개의 프레임을 추출하는 제1단계; 상기 프레임을 전용 컨볼루셔널 신경망(Convolutional Neural Network, CNN) 모델에 입력하여 상기 프레임에 대한 스코어를 각각 산출하는 제2단계; 최고 스코어를 획득한 프레임을 기준으로 미리 설정된 프레임 개수가 충족되도록 나머지 프레임을 선정하는 제3단계; 선정된 프레임을 만화 스타일로 변환하는 제4단계; 및 변환된 프레임을 시간 순으로 만화 레이아웃에 따라 배치하는 제5단계;를 포함하는 딥러닝을 이용한 영상의 만화 스타일 요약 방법을 제공한다.
Description
본 발명은 딥러닝 기술을 사용하여 비디오 영상 중 중요 프레임을 추출하고, 만화 스타일로 제공하는 영상의 만화 스타일 요약 방법에 관한 것이다.
그러나, 비디오 형태의 미디어는 사용자가 그 내용을 이해하기 위해 비교적 긴 시간을 소비해야 한다는 단점이 존재한다. 이런 단점에 대해 일부 사용자는 블로그 혹은 특정 웹사이트에 해당 비디오를 요약하거나, 재가공하는 형태로 제공하고 있다. 이는, 특히 뉴스 기사 혹은 연설문과 같은 사실적 콘텐츠를 담고 있는 비디오 영상에서는 그 핵심적인 내용을 빠르게 전달할 수 있다는 점에서 활용성이 높다.
최근 사람의 주관적 판단이나 평가를 학습을 통해 자동 수행 가능한 인공지능 기술이 각광받고 있다. 따라서, 이런 기술을 이용하여 영화나 드라마 등의 비디오 영상을 자동으로 요약하고 이를 만화 스타일로 제공하는 알고리즘을 제안하고자 한다.
Nal Kalchbrenner, Edward Grefenstette, Phil Blunsom. (2014). A Convolutional Neural Network for Modelling Sentences. Proceedings of The 52nd Annual Meeting of The Association for Computational Linguistics
Microsoft. (2016). World Wide Web
https://github.com/Microsoft/CNTK/blob/master/Tutorials/CNTK_201B_CIFAR-10_ImageHandsOn.ipynb
Jeffrey F. Cohn, Adena J. Zlochower, James J. Lien, Takeo Kanade. (1998). Feature-Point Tracking by Optical Flow Discriminates Subtle Differences in Facial Expression. IEEE International Conference on Automatic Face and Gesture Recognition, 396-412
Archana B. Patankar, Purnima Tawde. (2014). Cartoonization using LBG and KPE Vector Quantization. J ournal of Engineering Research and Applications, 4(5), 45-49
본 발명의 실시예는 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 딥러닝 기술을 이용하여 비디오 영상 중 미리 설정된 개수의 중요 프레임을 선정하고, 이를 만화 스타일로 변환하여 만화 레이아웃에 맞춰 제공할 수 있는 영상의 만화 스타일 요약 방법을 제공하고자 한다.
또한, 최종 선정된 중요 프레임에 대한 객관성, 신뢰성을 보다 향상시킬 수 있는 전용 컨볼루셔널 신경망 모델을 설계하고자 한다. 또한, 영상 중 전달하고자 하는 중요 정보를 빠른 시간에 효과적으로 제공하고자 한다.
본 발명의 실시예는 상기와 같은 과제를 해결하고자, 영상을 카메라 신(camera scene) 별로 분할하고, 각 카메라 신마다 복수 개의 프레임을 추출하는 제1단계; 상기 프레임을 전용 컨볼루셔널 신경망(Convolutional Neural Network, CNN) 모델에 입력하여 상기 프레임에 대한 스코어를 각각 산출하는 제2단계; 최고 스코어를 획득한 프레임을 기준으로 미리 설정된 프레임 개수가 충족되도록 나머지 프레임을 선정하는 제3단계; 선정된 프레임을 만화 스타일로 변환하는 제4단계; 및 변환된 프레임을 시간 순으로 만화 레이아웃에 따라 배치하는 제5단계;를 포함하는 딥러닝을 이용한 영상의 만화 스타일 요약 방법을 제공한다.
상기 전용 컨볼루셔널 신경망 모델을 학습시키기 위한 학습용 데이터는 학습용 영상에서 카메라 신(camera scene) 별로 복수 개의 학습용 프레임을 추출하는 (a)단계; 상기 학습용 프레임을 트레이닝 셋(training set)과 테스트 셋(test set) 중 어느 하나로 분류하는 (b)단계; 및 각 분류 별로 각 분류에 속하는 학습용 프레임에 대해 베스트 라벨, 노멀 라벨 및 언네세서리 라벨 중 어느 하나를 부여하는 (c)단계;를 통해 생성될 수 있다.
추출된 상기 프레임을 레터박스 영역을 제외한 전처리 프레임으로 변환한 후 입력하며, 상기 전용 컨볼루셔널 신경망 모델은 상기 전처리 프레임을 대상으로 컨볼루셔널 과정을 반복하여, 상기 전처리 프레임에 대해 베스트 확률값, 노멀 확률값 및 언네세서리 확률값을 각각 출력하는 것이 바람직하다.
상기 확률값은 미리 설정되는 보정계수에 의해 보정되는 것이 바람직하다.
상기 전용 컨볼루셔널 신경망 모델을 학습시키기 위해 학습용 영상에서 카메라 신(camera scene) 별로 복수 개의 학습용 프레임을 추출하고, 상기 학습용 프레임에 대해 베스트 라벨, 노멀 라벨 및 언네세서리 라벨 중 어느 하나를 부여하며, 1) 상기 베스트 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수를 상기 베스트 라벨이 부여된 학습용 프레임의 개수로 나눈 값이고, 2) 상기 노멀 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수를 상기 노멀 라벨이 부여된 학습용 프레임의 개수로 나눈 값이며, 3) 상기 언네세서리 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수를 상기 언네세서리 라벨이 부여된 학습용 프레임의 개수로 나눈 값인 것을 특징으로 한다.
상기 스코어는 상기 보정계수에 의해, 보정된 베스트 확률값과 보정된 노멀 확률값을 더한 후, 보정된 언네세서리 확률값을 뺀 결과인 것을 특징으로 한다.
상기 분할은 상기 영상에서 광원의 위치가 변동되는 것을 일 기준으로 한다.
상기 만화 레이아웃은 적어도 하나 이상의 행을 포함하며, 각 행에 배치되는 프레임은 각 프레임에 대한 상기 베스트 확률값에 의해 좌우 크기가 조절되는 것이 바람직하다.
이상에서 살펴본 바와 같은 본 발명의 과제해결 수단에 의하면 다음과 같은 사항을 포함하는 다양한 효과를 기대할 수 있다. 다만, 본 발명이 하기와 같은 효과를 모두 발휘해야 성립되는 것은 아니다.
본 발명의 일 실시예에 따른 비디오 영상의 만화 스타일 요약 방법은 딥러닝 기술을 이용하여 영상 중 미리 설정된 개수의 중요 프레임을 선정하고, 이를 만화 스타일로 변환하여 만화 레이아웃에 맞춰 제공할 수 있다. 또한, 새로 설계된 전용 컨볼루셔널 신경망 모델을 통해, 최종 선정된 중요 프레임에 대한 객관성, 신뢰성을 보다 향상시킬 수 있다. 또한, 만화 레이아웃을 사용하고, 이에 배치되는 프레임의 크기를 달리하여 전달하고자 하는 중요 정보를 빠른 시간에 효과적으로 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 딥러닝을 이용한 영상의 만화 스타일 요약 방법에 관한 흐름도.
도 2는 카메라 신 별로 폴더가 형성되며, 각 폴더에는 추출된 복수 개의 프레임이 저장된 상태를 나타내는 도면.
도 3은 Microsoft의 CNTK CNN 알고리즘에 관한 설명을 나타내는 도면.
도 4는 일 실시예에 따른 전용 컨볼루셔널 신경망 모델을 설명하는 도면.
도 5는 일 실시예에 따른 제3단계를 설명하는 결과.
도 6은 일 실시예에 따른 만화 스타일의 프레임을 보여주는 도면.
도 7은 일 실시예에 따른 만화 레이아웃을 나타내는 도면.
도 8은 일 실시예에 따라 선정된 30개의 프레임을 만화 스타일로 요약한 결과.
도 2는 카메라 신 별로 폴더가 형성되며, 각 폴더에는 추출된 복수 개의 프레임이 저장된 상태를 나타내는 도면.
도 3은 Microsoft의 CNTK CNN 알고리즘에 관한 설명을 나타내는 도면.
도 4는 일 실시예에 따른 전용 컨볼루셔널 신경망 모델을 설명하는 도면.
도 5는 일 실시예에 따른 제3단계를 설명하는 결과.
도 6은 일 실시예에 따른 만화 스타일의 프레임을 보여주는 도면.
도 7은 일 실시예에 따른 만화 레이아웃을 나타내는 도면.
도 8은 일 실시예에 따라 선정된 30개의 프레임을 만화 스타일로 요약한 결과.
이하, 본 발명을 설명함에 있어서 관련된 공지 기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 도면을 참조하여 본 발명의 구체적인 실시예를 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 딥러닝을 이용한 영상의 만화 스타일 요약 방법에 관한 흐름도이고, 도 2는 카메라 신 별로 폴더가 형성되며, 각 폴더에는 추출된 복수 개의 프레임이 저장된 상태를 나타내는 도면이며, 도 3은 Microsoft의 CNTK CNN 알고리즘에 관한 설명을 나타내는 도면이다.
도 1 내지 도 3을 참조하면, 본 발명의 일 실시예에 따른 딥러닝을 이용한 영상의 만화 스타일 요약 방법은 제1단계 내지 제5단계를 포함할 수 있다. 이를 통해, 영화나 드라마 등의 비디오 영상에서 비디오 요약에 적합한 장면(프레임)을 선정한 후 이에 만화 스타일을 적용하여, 만화 레이아웃에 배치하는 일련의 방법으로 비디오 영상에 대한 요약 만화를 생성할 수 있다.
이를 위해, 먼저 딥러닝 알고리즘에 대한 새로운 모델을 설계한다. 일 실시예는 전용 컨볼루셔널 신경망(Convolutional Neural Network, CNN) 모델을 이용한다. 전용 컨볼루셔널 신경망(CNN) 모델은 비특허문헌 1에 개시된 다중 컨볼루셔널 레이어 알고리즘, 비특허문헌 2에 개시된 Microsoft의 CNTK CNN 알고리즘을 기반으로 한다. 비특허문헌 1과 2에는 일정한 크기의 마스크를 사용하며, 데이터의 특징을 찾아내는 컨볼루션 과정과 그 이후 이를 극대화하는 Max Pooling 등에 대한 기술이 개시되어 있다. Max Pooling을 통해 마스크 내에서 가장 큰 값을 뽑아낼 수 있다.
다만, 본 발명의 경우, 명확한 이미지를 찾는 것이 아닌 다소 주관적인 베스트 장면(프레임)을 선정한다는 점에서 비특허문헌 1과 2에 기재된 기술에 일부 변경이 가해진다. 구체적으로, 개발자는 라벨이 부여된 학습용 프레임을 이용하여 전용 컨볼루셔널 신경망(CNN) 모델을 반복적으로 학습시킬 수 있다. 그 결과, 전용 컨볼루셔널 신경망(CNN) 모델은 요약에 적합한 프레임을 선정할 수 있다.
전용 컨볼루셔널 신경망 모델을 학습시키기 위한 학습용 데이터는 학습용 영상에서 카메라 신(camera scene) 별로 복수 개의 학습용 프레임을 추출하는 (a)단계와, 학습용 프레임을 트레이닝 셋(training set)과 테스트 셋(test set) 중 어느 하나로 분류하는 (b)단계, 및 각 분류 별로 각 분류에 속하는 학습용 프레임에 대해 베스트 라벨, 노멀 라벨 및 언네세서리 라벨 중 어느 하나를 부여하는 (c)단계를 통해 생성될 수 있다. 한편, (a)단계에서 학습용 프레임을 추출하는 방법은 후술할 제1단계의 내용과 동일한 바, 생략한다.
여기서, 트레이닝 셋과 테스트 셋에 대한 분류 비율은 개발자 등에 의해 조절될 수 있다. 또한, 학습용 프레임에 부여되는 각 라벨 역시 개발자 등에 의해 부여될 수 있다. 한편, 라벨은 프레임에 가중치를 부여하는 것으로, 베스트 라벨은 중요한 장면을, 노멀 라벨은 일반적 장면을, 언네세서리 라벨은 불필요한 장면을 의미한다. 예를 들어, 현저히 어둡거나 두 장면이 오버랩되어 중복적 의미를 갖는 장면, 영화 제목 등 문자가 포함되는 장면은 언네세서리 라벨로 분류한다.
일 실시예에 따른 학습용 영상은 영화 트레일러 29편을 대상으로 하였다. 그리고, 각 영화 트레일러의 카메라 신을 분할하여 84,967개의 장면, 즉 84,967개의 학습용 프레임을 추출하였다. 여기서, 학습용 프레임은 3.45 : 1의 비율로 트레이닝 셋과 테스트 셋으로 분류하였다.
트레이닝 셋 | 테스트 셋 | |
분류 비율 | 3.45 | 1 |
학습용 프레임 개수 | 65,902 | 19,065 |
베스트 라벨 개수 | 2,138 | 1,181 |
노멀 라벨 개수 | 47,464 | 12,267 |
언네세서리 라벨 개수 | 16,300 | 5,617 |
도 4는 일 실시예에 따른 전용 컨볼루셔널 신경망 모델을 설명하는 도면이고, 도 5는 일 실시예에 따른 제3단계를 설명하는 결과이며, 도 6은 일 실시예에 따른 만화 스타일의 프레임을 보여주는 도면이고, 도 7은 일 실시예에 따른 만화 레이아웃을 나타내는 도면이며, 도 8은 일 실시예에 따라 선정된 30개의 프레임을 만화 스타일로 요약한 결과이다.도 4 내지 도 8을 참조하면, 제1단계는 영상을 카메라 신(camera scene) 별로 분할하고, 각 카메라 신마다 복수 개의 프레임을 추출하는 단계이다.(s10) 분할은 카메라 신의 변화를 인식할 수 있는 기준에 의한다. 이를 위해, 비특허문헌 3에 개시된 Opical Flow 알고리즘을 기반으로 한다. 다만, Optical Flow는 인물의 표정 변화를 분석하는 방법인 바, 인물 뿐만 아니라, 다양한 대상을 포함하는 영상을 분석하기에는 이에 대한 일부 변경이 필요하다.
이를 위해, 단일 프레임에서 얻어낼 수 있는 특징적 포인트를 찾아낸 뒤 전, 후 프레임 간의 평균 벡터값을 이용하여 전, 후 프레임 간의 차이를 계산한다. 한편, 일 실시예에 따른 분할은 영상에서 광원의 위치가 변동되는 것을 일 기준으로 채택할 수 있다. 즉, 광원의 변화에 따른 전, 후 프레임 간의 평균 벡터값의 차이를 활용한다.
그러나, 일부 고정된 장면에서 Fade In/Out 현상에 따라 영상의 밝기가 변하는 것을 카메라 신의 변화로 잘못 인식하여 분류할 수도 있다. Fade In/Out 현상을 표현하기 위한 프레임의 개수는 통상 짧게는 6 ~ 12 프레임인 바, 이를 고려하여, Fade In/Out 현상에 따라 분류되는 경우를 제외할 수 있다. 예를 들어, 12프레임 이하로 분류되는 경우, 이를 Fade In/Out 현상으로 인식하여 제외시킬 수 있다. 제1단계 이후, 카메라 신 별로 폴더가 형성되고, 각 폴더에는 복수 개의 프레임에 해당되는 이미지가 저장된다.
다음으로, 제2단계는 프레임을 전용 컨볼루셔널 신경망(Convolutional Neural Network, CNN) 모델에 입력하여 프레임에 대한 스코어를 각각 산출하는 단계이다.(s20) 이를 위해, 입력되는 프레임은 전처리 과정을 거친다. 구체적으로, 추출된 프레임을 레터박스 영역을 제외한 전처리 프레임으로 변환한 후 전용 컨볼루셔널 신경망(CNN) 모델에 입력한다. 마찬가지로, 전술한 학습용 프레임 역시 전용 컨볼루셔널 신경망(CNN) 모델에 입력하기 위해서는 동일하게 전처리 과정을 거쳐, 전처리 학습용 프레임으로 변환시킨다.
일 실시예에 따른 비디오 영상은 HD해상도(1280*720)를 갖는다. 이런 영상에서 추출된 프레임의 경우, 자막 또는 영화 타이틀과 같은 부가정보가 기입된 레터박스 영역을 제외하면 1280*520 크기의 전처리 프레임으로 변환된다. 또한, 일 실시예에 따른 전처리 프레임의 depth는 3으로 설정될 수 있다.
그 다음, 전용 컨볼루셔널 신경망 모델은 전처리 프레임을 대상으로 컨볼루셔널 과정을 반복한다. 이 때, 마스크는 예를 들어, 3*3 크기를 이용하고, 컨볼루셔널 과정의 반복을 통해 depth는 확장되며, width와 height의 크기는 마스크의 외곽을 제외한 크기의 절반으로 계속 줄어든다. 아래 [표 2]는 컨볼루션 과정과 Max pooling의 반복 결과이다.
Processing | width | Hight | Depth | Mask Size |
입력 | 1280 | 520 | 3 | 3 |
Convolution | 1280 | 520 | 64 | 3 |
Max Pooling | 639 | 259 | 64 | 3 |
Convolution | 639 | 259 | 64 | 3 |
Max Pooling | 319 | 129 | 64 | 3 |
Convolution | 319 | 129 | 128 | 3 |
Max Pooling | 159 | 129 | 128 | 3 |
Convolution | 159 | 64 | 128 | 3 |
Max Pooling | 79 | 31 | 128 | 3 |
Convolution | 79 | 31 | 256 | 3 |
Max Pooling | 39 | 15 | 256 | 3 |
Convolution | 39 | 7 | 256 | 3 |
Max Pooling | 19 | 7 | 512 | 3 |
Convolution | 19 | 3 | 512 | 3 |
Max Pooling | 9 | 3 | 512 | 3 |
Dense | 512 | - | ||
Result | 3 | - |
최종적으로, 전처리 프레임에 대해 베스트 확률값, 노멀 확률값 및 언네세서리 확률값을 각각 출력한다. 예를 들어, 어느 하나의 프레임에 대해 베스트 확률값 = 0.03, 노멀 확률값 = 0.87, 언네세서리 확률값 = 0.1이 각각 출력될 수 있다. 이 때, 각 확률값은 미리 설정되는 보정계수에 의해 보정되는 것이 바람직하다.보정계수는 베스트 확률값, 노멀 확률값 및 언네세서리 확률값 별로 각각 다르게 산출된다. 전술한 것처럼, 전용 컨볼루셔널 신경망 모델을 학습시키기 위해 학습용 영상에서 카메라 신(camera scene) 별로 복수 개의 학습용 프레임을 추출하고, 상기 학습용 프레임에 대해 베스트 라벨, 노멀 라벨 및 언네세서리 라벨 중 어느 하나를 부여한다.
이 때, 1) 베스트 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수(u)를 베스트 라벨이 부여된 학습용 프레임의 개수(a)로 나눈 값이고, 2) 노멀 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수(u)를 노멀 라벨이 부여된 학습용 프레임의 개수(b)로 나눈 값이며, 3) 언네세서리 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수(u)를 언네세서리 라벨이 부여된 학습용 프레임의 개수(c)로 나눈 값이다.
일 실시예에 따른 추출된 학습용 프레임의 전체 개수(u)는 84,967개이다. 그리고, 베스트 라벨이 부여된 학습용 프레임의 개수(a)는 3,319개, 노멀 라벨이 부여된 학습용 프레임의 개수(b)는 59,231개, 언네세서리 라벨이 부여된 학습용 프레임의 개수(c)는 21,917개 이다. 이를 반영하면, 확률값은 보정계수에 의해 보정된 확률값을 산출할 수 있다.
즉, 보정된 베스트 확률값(0.03*(u/a))은 0.03*(84,967)/(3,319) = 0.768, 보정된 노멀 확률값(0.87*(u/b))은 0.87*(84,967)/(59,231)= 1.248, 보정된 언네세서리 확률값(0.1*(u/c))은 0.1*(84,967)/(21,917) = 0.387이 된다.
한편, 일 실시예에 따른 스코어는 보정된 베스트 확률값과 보정된 노멀 확률값을 더한 후 보정된 언네세서리 확률값을 뺀 결과이다. 따라서, 전술한 어느 하나의 프레임에 대한 스코어는 0.768+1.248-0.387=1.628으로 계산될 수 있다.
이런 방법을 사용하여 카메라 신 별로 가장 높은 스코어를 갖는 프레임을 선정할 수 있다. 이를, 예비 선정 프레임이라 한다. 다만, 이런 경우에도 카메라 신의 전체 개수가 요약하고자 하는 프레임의 개수보다 많거나, 특정 구간 내에 예비 선정 프레임이 집중되는 경우를 방지하기 위한 방법을 고려한다.
제3단계는 최고 스코어를 획득한 프레임을 기준으로 미리 설정된 프레임 개수가 충족되도록 나머지 프레임을 선정하는 단계이다.(s30) 일 실시예의 경우, 예비 선정 프레임을 스코어 기준으로 내림차순 정렬한다. 그리고, 예비 선정 프레임을 다시 시간 순으로 정렬한 후 최고 스코어를 획득한 프레임에서 시간적으로 좌우 일정 범위 내에 높은 스코어를 갖는 예비 선정 프레임이 위치하는 경우, 이를 선정에서 제외한다. 이를 통해, 특정 구간 내에 예비 선정 프레임이 집중되는 현상을 방지할 수 있다. 그 결과, 일정 범위 밖에서 예비 선정 프레임이 선정되면, 다시 이를 기준으로 좌우 일정 범위 내에 높은 스코어를 갖는 예비 선정 프레임을 선정에서 제외시킨다. 그리고, 이런 규칙을 반복 적용하여 사용자가 요약을 위해 미리 설정된 프레임 개수가 충족되도록 나머지 프레임을 선정할 수 있다.
제4단계는 선정된 프레임을 만화 스타일로 변환하는 단계이다.(s40) 일 실시예는 비특허문헌 4에 개시된 비사실적 렌더링 기술을 기반으로 한다. 이는 사진에 만화 효과를 적용하기 위해, 이미지를 벡터 양자화하고, 그라디언트 에지 감지 방법을 이용해 선분을 추출하는 LBG(LindeBuzo Gray) 와 KPE(Kekre's Proprotionate Error) 방법을 사용한다. 그 결과, 사실적 형태의 프레임을 만화 스타일로 변환할 수 있다.
다음으로, 제5단계는 변환된 프레임을 시간 순으로 만화 레이아웃에 따라 배치하는 단계이다.(s50) 한편, 레이아웃의 크기는 최종 선정된 프레임의 중요도에 따라 그 크기를 달리할 수 있다. 한편, 만화 레이아웃은 적어도 하나 이상의 행을 포함하며, 각 행에 배치되는 프레임은 각 프레임에 대한 베스트 확률값에 의해 좌우 크기가 조절될 수 있다.
일 실시예는 한 페이지에 6개의 이미지(프레임)를 나열하고, 각 행에 2개의 이미지를 나열한다. 이 때, 각 행에 배치되는 프레임 2개에 대한 각각의 베스트 확률값을 이용하여 프레임의 크기를 조절할 수 있다. 다만, 설정에 의해 그 차이가 지나치게 큰 경우, 각 프레임의 좌, 우 크기를 특정 크기로 미리 제한할 수 있다. 이와 같이, 만화 레이아웃을 사용하고, 이에 배치되는 프레임의 크기를 달리하여 전달하고자 하는 중요 정보를 빠른 시간에 효과적으로 제공할 수 있다.
이상에서는 본 발명의 바람직한 실시예를 예시적으로 설명하였으나, 본 발명의 범위는 이와 같은 특정 실시예에만 한정되는 것은 아니며, 특허청구범위에 기재된 범주 내에서 적절하게 변경 가능한 것이다.
Claims (8)
- 영상을 카메라 신(camera scene) 별로 분할하고, 각 카메라 신마다 복수 개의 프레임을 추출하는 제1단계;
상기 프레임을 전용 컨볼루셔널 신경망(Convolutional Neural Network, CNN) 모델에 입력하여 상기 프레임에 대한 스코어를 각각 산출하는 제2단계;
최고 스코어를 획득한 프레임을 기준으로 미리 설정된 프레임 개수가 충족되도록 나머지 프레임을 선정하는 제3단계;
선정된 프레임을 만화 스타일로 변환하는 제4단계; 및
변환된 프레임을 시간 순으로 만화 레이아웃에 따라 배치하는 제5단계;를 포함하며,
상기 제2단계에서,
추출된 상기 프레임을 레터박스 영역을 제외한 전처리 프레임으로 변환한 후 입력하며, 상기 전용 컨볼루셔널 신경망 모델은 상기 전처리 프레임을 대상으로 컨볼루셔널 과정을 반복하여, 상기 전처리 프레임에 대해 베스트 확률값, 노멀 확률값 및 언네세서리 확률값을 각각 출력하는 딥러닝을 이용한 영상의 만화 스타일 요약 방법. - 제1항에 있어서,
상기 전용 컨볼루셔널 신경망 모델을 학습시키기 위한 학습용 데이터는
학습용 영상에서 카메라 신(camera scene) 별로 복수 개의 학습용 프레임을 추출하는 (a)단계;
상기 학습용 프레임을 트레이닝 셋(training set)과 테스트 셋(test set) 중 어느 하나로 분류하는 (b)단계; 및
각 분류 별로 각 분류에 속하는 학습용 프레임에 대해 베스트 라벨, 노멀 라벨 및 언네세서리 라벨 중 어느 하나를 부여하는 (c)단계;를 통해 생성되는 딥러닝을 이용한 영상의 만화 스타일 요약 방법. - 삭제
- 제1항에 있어서,
상기 확률값은 미리 설정되는 보정계수에 의해 보정되는 것을 특징으로 하는 딥러닝을 이용한 영상의 만화 스타일 요약 방법. - 제4항에 있어서,
상기 전용 컨볼루셔널 신경망 모델을 학습시키기 위해 학습용 영상에서 카메라 신(camera scene) 별로 복수 개의 학습용 프레임을 추출하고, 상기 학습용 프레임에 대해 베스트 라벨, 노멀 라벨 및 언네세서리 라벨 중 어느 하나를 부여하며,
1) 상기 베스트 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수를 상기 베스트 라벨이 부여된 학습용 프레임의 개수로 나눈 값이고, 2) 상기 노멀 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수를 상기 노멀 라벨이 부여된 학습용 프레임의 개수로 나눈 값이며, 3) 상기 언네세서리 확률값에 대한 보정계수는 추출된 학습용 프레임의 전체 개수를 상기 언네세서리 라벨이 부여된 학습용 프레임의 개수로 나눈 값인 것을 특징으로 하는 딥러닝을 이용한 영상의 만화 스타일 요약 방법. - 제5항에 있어서,
상기 스코어는 상기 보정계수에 의해, 보정된 베스트 확률값과 보정된 노멀 확률값을 더한 후, 보정된 언네세서리 확률값을 뺀 결과인 것을 특징으로 하는 딥러닝을 이용한 영상의 만화 스타일 요약 방법. - 제1항에 있어서, 상기 제1단계에서,
상기 분할은 상기 영상에서 광원의 위치가 변동되는 것을 일 기준으로 하는 딥러닝을 이용한 영상의 만화 스타일 요약 방법. - 제1항에 있어서, 상기 제5단계에서,
상기 만화 레이아웃은 적어도 하나 이상의 행을 포함하며,
각 행에 배치되는 프레임은 각 프레임에 대한 상기 베스트 확률값에 의해 좌우 크기가 조절되는 딥러닝을 이용한 영상의 만화 스타일 요약 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200015565A KR102253119B1 (ko) | 2020-02-10 | 2020-02-10 | 딥러닝을 이용한 영상의 만화 스타일 요약 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200015565A KR102253119B1 (ko) | 2020-02-10 | 2020-02-10 | 딥러닝을 이용한 영상의 만화 스타일 요약 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102253119B1 true KR102253119B1 (ko) | 2021-05-18 |
Family
ID=76158457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200015565A KR102253119B1 (ko) | 2020-02-10 | 2020-02-10 | 딥러닝을 이용한 영상의 만화 스타일 요약 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102253119B1 (ko) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190054721A (ko) * | 2017-11-14 | 2019-05-22 | 한성호 | 동영상을 이용한 카툰 생성장치 및 방법 |
KR101993001B1 (ko) * | 2019-01-16 | 2019-06-25 | 영남대학교 산학협력단 | 영상 하이라이트 제작 장치 및 방법 |
KR20190136577A (ko) * | 2018-05-31 | 2019-12-10 | 주식회사 뷰노 | 심층 신경망을 이용하여 영상을 분류하는 방법 및 이를 이용한 장치 |
-
2020
- 2020-02-10 KR KR1020200015565A patent/KR102253119B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190054721A (ko) * | 2017-11-14 | 2019-05-22 | 한성호 | 동영상을 이용한 카툰 생성장치 및 방법 |
KR20190136577A (ko) * | 2018-05-31 | 2019-12-10 | 주식회사 뷰노 | 심층 신경망을 이용하여 영상을 분류하는 방법 및 이를 이용한 장치 |
KR101993001B1 (ko) * | 2019-01-16 | 2019-06-25 | 영남대학교 산학협력단 | 영상 하이라이트 제작 장치 및 방법 |
Non-Patent Citations (5)
Title |
---|
Archana B. Patankar, Purnima Tawde. (2014). Cartoonization using LBG and KPE Vector Quantization. J ournal of Engineering Research and Applications, 4(5), 45-49 |
https://github.com/Microsoft/CNTK/blob/master/Tutorials/CNTK_201B_CIFAR-10_ImageHandsOn.ipynb |
Jeffrey F. Cohn, Adena J. Zlochower, James J. Lien, Takeo Kanade. (1998). Feature-Point Tracking by Optical Flow Discriminates Subtle Differences in Facial Expression. IEEE International Conference on Automatic Face and Gesture Recognition, 396-412 |
Microsoft. (2016). World Wide Web |
Nal Kalchbrenner, Edward Grefenstette, Phil Blunsom. (2014). A Convolutional Neural Network for Modelling Sentences. Proceedings of The 52nd Annual Meeting of The Association for Computational Linguistics |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818906B (zh) | 一种基于多模态信息融合理解的全媒体新闻智能编目方法 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN109472232B (zh) | 基于多模态融合机制的视频语义表征方法、系统及介质 | |
Lee et al. | Automatic video parsing using shot boundary detection and camera operation analysis | |
JP2001155169A (ja) | ビデオ画像の分割、分類、および要約のための方法およびシステム | |
WO2009143279A1 (en) | Automatic tracking of people and bodies in video | |
CN113689440A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
CN115131797B (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
US20220036108A1 (en) | Automatically detecting and isolating objects in images | |
CN111401368B (zh) | 一种基于深度学习的新闻视频标题提取方法 | |
Anitha Kumari et al. | Automated image captioning for flickr8k dataset | |
CN110517270A (zh) | 一种基于超像素深度网络的室内场景语义分割方法 | |
KR102277929B1 (ko) | 얼굴 인식에 기반한 실시간 얼굴 마스킹 시스템 및 이를 이용한 실시간 얼굴 마스킹 방법 | |
Jin et al. | Focusing on persons: Colorizing old images learning from modern historical movies | |
CN112200078A (zh) | 一种基于视频智能分析的语料数据集生成方法及系统 | |
Mun et al. | Texture preserving photo style transfer network | |
Selvi et al. | Kathakali face expression detection using deep learning techniques | |
KR20210011707A (ko) | Cnn을 기반으로 한 동영상의 씬 단위 장소 분류 방법 및 이를 이용한 장소 분류 장치 | |
KR102253119B1 (ko) | 딥러닝을 이용한 영상의 만화 스타일 요약 방법 | |
CN113255423A (zh) | 从视频提取配色方案的方法及装置 | |
de Lima et al. | Virtual cinematography director for interactive storytelling | |
Gupta et al. | A learning-based approach for automatic image and video colorization | |
Akila et al. | Ontology based multiobject segmentation and classification in sports videos | |
Chai et al. | An artistic analysis model based on sequence cartoon images for scratch | |
Ueno | Computational interpretation of comic scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |