KR102605070B1

KR102605070B1 - 인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치

Info

Publication number: KR102605070B1
Application number: KR1020200082871A
Authority: KR
Inventors: 손정우; 곽창욱; 김선중; 이호재; 한민호; 함경준
Original assignee: 한국전자통신연구원
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2023-11-24
Also published as: US20220004773A1; US11886499B2; KR20220005255A

Abstract

촬영본 영상 분석 장치가 개시된다. 본 발명의 실시예에 따른 촬영본 영상 분석 장치는, 적어도 하나의 프로그램 및 프로그램이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은 촬영본으로부터 적어도 하나의 프레임을 추출하는 프레임 추출부, 미리 학습된 촬영 구도 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 구도 및 촬영 위치를 추정하는 촬영 구도 및 위치 인식부, 미리 학습된 촬영 장소 인식 모델 및 촬영 시간 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정하는 장소 및 시간 정보 추출부 및 프레임별로 추정된 정보들을 촬영본 별로 결합하고, 결합 정보를 촬영본에 태깅하는 정보 결합부를 포함할 수 있다.

Description

인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치{Apparatus for Learning Recognition Model, Apparatus for Analyzing Video and Apparatus for Providing Video Searching Service}

기재된 실시예는 영상 콘텐츠의 촬영본 분석 및 이를 활용한 검색 기술에 관한 것이다.

방송, 영화 등의 영상 콘텐츠는 전문적인 제작자가 참여하여 수많은 촬영본을 제작한 후, 최종 편집을 통해 완성된다. 이 과정은 영상 콘텐츠가 서비스된 지난 수십 년간 다듬어져, 다양한 제작 기법들이 제작 인력 양상 과정에서 교육이 되고 있다. 이러한 제작 기법 중, 영상의 구도는 콘텐츠의 스토리를 강조하고, 시청자가 그 흐름에 집중하도록 하는 중요한 매개체이다.

따라서 촬영 과정에서는 동일한 장면이라도 다양한 구도로 반복하여 촬영하게 되고, 최종 편집 과정에서는 전체 영상의 흐름을 고려하여 적합한 구도를 선택한다. 영상 제작에서 이 과정은 PD, 감독 등 제작자가 감당해야 하는 작업으로, 제작자가 촬영본의 정렬/검색/선택을 모두 수동으로 영상을 일일이 보고 진행하게 된다. 영화나 다큐멘터리 등 상업적으로 활용되는 대부분의 영상 콘텐츠 제작에서는 수천 개까지의 촬영본이 제작되기 때문에 모든 촬영본을 일일이 본 후에 선택하는 과정은 많은 시간이 소요되므로 그에 따른 인건비 또한 상승하게 된다.

따라서, 영상 콘텐츠의 제작시, 촬영된 촬영본을 최종 편집하여 콘텐츠를 제작하는 과정에 필요한 시간 및 인건비를 감소시키는 데 그 목적이 있다.

실시예에 따른 인식 모델 학습 장치는, 적어도 하나의 프로그램 및 프로그램이 기록된 메모리 및 적어도 하나의 프로그램을 실행하는 프로세서를 포함하며, 적어도 하나의 프로그램은, 촬영 구도 및 촬영 위치가 태깅된 촬영본을 학습 데이터로 하여 촬영 구도 및 촬영 위치를 추정하는 신경망 모델을 생성하는 촬영 구도 인식 모델 생성부 및 촬영 시간 및 촬영 장소가 태깅된 촬영본을 학습 데이터로 하여 촬영 시간 및 촬영 장소를 추정하는 신경망 모델을 생성하는 촬영 시간 및 장소 인식 모델 생성부를 포함할 수 있다.

이때, 촬영 구도 인식 모델 생성부는, 촬영본으로부터 적어도 하나의 프레임을 추출하여 프레임 단위의 데이터를 구성하는 프레임 추출부, 추출된 적어도 하나의 프레임에 포함된 객체에 관련된 영상 특징을 추출하는 영상 특징 추출부 및 추출된 영상 특징이 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 구도 및 촬영 위치를 추정하도록 신경망 모델인 촬영 구도 인식 모델을 학습시키는 인식 모델 학습부를 포함할 수 있다.

이때, 촬영 구도는, 익스트림 롱샷, 롱샷, 풀샷, 니샷, 웨이스트샷, 바스트샷, 클로즈샷, 클로즈업샷, 익스트림 클로즈업샷 및 오버 숄더샷 중 적어도 하나를 포함할 수 있다.

이때, 촬영 구도 각각은, 촬영 위치에 따라 하이 앵글 샷, 로우앵글 샷, 일반 샷 중 적어도 하나로 분류될 수 있다.

이때, 촬영 구도 인식 모델 생성부는, 촬영본으로부터 오디오 스펙트럼(audio spectrum)을 추출하는 음성 특징 추출부를 더 포함하고, 인식 모델 학습부는, 오디오 스펙트럼이 입력됨에 따라 해당 촬영본에 태깅되어 있는 촬영 구도 및 촬영 위치를 추정하도록 신경망 모델인 촬영 구도 인식 모델을 학습시킬 수 있다.

이때, 촬영 시간 및 장소 인식 모델 생성부는, 촬영본으로부터 적어도 하나의 프레임을 추출하여 프레임 단위의 데이터를 구성하는 프레임 추출부 및 추출된 프레임의 촬영 구도, 색상 분포 및 키 프레임 중 적어도 하나가 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 장소 또는 촬영 시간을 추정하도록 촬영 장소 인식 모델 또는 시간 인식 모델을 학습시키는 인식 모델 학습부를 포함할 수 있다.

이때, 프레임 추출부 및 인식 모델 학습부 사이에, 미리 학습된 촬영 구도 인식 모델을 기반으로 추출된 프레임에서 촬영 구도를 추정하는 촬영 구도 추출부, 추출된 프레임에서 색상 분포를 추출해내는 영상 특징 추출부 및 추출된 프레임들 중에 대표 프레임 추출해내는 키 프레임 추출부 중 적어도 하나를 포함할 수 있다.

이때, 영상 특징 추출부는, 프레임의 복수의 분할 영역들 각각의 색상 분포 및 프레임 전체의 색상 분포를 추출해낼 수 있다.

실시예에 따른 촬영본 영상 분석 장치는, 적어도 하나의 프로그램 및 프로그램이 기록된 메모리 및 적어도 하나의 프로그램을 실행하는 프로세서를 포함하며, 적어도 하나의 프로그램은, 촬영본으로부터 적어도 하나의 프레임을 추출하는 프레임 추출부, 미리 학습된 촬영 구도 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 구도 및 촬영 위치를 추정하는 촬영 구도 및 위치 인식부, 미리 학습된 촬영 장소 인식 모델 및 촬영 시간 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정하는 장소 및 시간 정보 추출부 및 프레임별로 추정된 정보들을 촬영본 별로 결합하고, 결합 정보를 촬영본에 태깅하는 정보 결합부를 포함할 수 있다.

실시예에 따른 촬영본 영상 분석 장치는, 추출된 프레임별로 소정 요소들을 기반으로 촬영 품질을 측정하는 촬영 품질 측정부를 더 포함하고, 정보 결합부는, 측정된 촬영 품질을 기반으로 결합 정보를 선별할 수 있다.

이때, 결합 정보는, 촬영 구도, 촬영 위치 및 촬영 품질 중 적어도 하나를 포함하되, 정보 결합부는, 촬영 구도별로 합산된 촬영 품질 점수를 기반으로 촬영 구도를 선정하고, 촬영 위치별로 합산된 촬영 품질 점수를 기반으로 촬영 위치를 선정하고, 선정된 촬영 구도로 인식된 프레임들의 품질 점수의 평균으로 촬영 품질을 산출하여 결합 정보로 사용할 수 있다.

이때, 소정 요소는, 프레임에 포함된 주요 선의 방향이 일정한 정도인 선의 방향성, 선의 선명한 정도인 선예도 및 사전에 구축된 촬영 구도 데이터와 프레임에 포함된 객체 정보를 비교한 유사도 중 적어도 하나를 포함할 수 있다.

이때, 장소 및 시간 정보 추출부는, 미리 학습된 촬영 구도 검출 모델을 기반으로 추정된 프레임의 촬영 구도, 색상 분포 및 키 프레임 중 적어도 하나를 촬영 장소 인식 모델 및 촬영 시간 인식 모델에 입력하여 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정해낼 수 있다.

실시예에 따른 촬영본 영상 분석 장치는, 추정된 촬영 장소 및 촬영 시간을 기반으로 프레임들을 소정 그룹들로 클러스터링하는 장소 및 시간 기준 그룹화부를 더 포함하고, 정보 결합부는, 그룹 결과를 기반으로 결합 정보를 선별할 수 있다.

이때, 결합 정보는, 시간 그룹 및 장소 그룹 중 적어도 하나를 포함하되, 정보 결합부는, 각 그룹들에 속한 프레임의 개수를 기반으로 결합 정보로 사용될 시간 그룹 및 장소 그룹을 결정할 수 있다.

실시예에 따른 촬영본 검색 서비스 제공 장치는, 적어도 하나의 프로그램 및 프로그램이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은, 검색 키워드가 입력됨에 따라, 해당 검색 키워드에 상응하는 적어도 하나의 항목이 태깅된 촬영본을 검색하는 태깅 항목 검색부 및 검색된 적어도 하나의 촬영본을 출력하는 촬영본 출력부를 포함할 수 있다.

이때, 항목은, 촬영구도, 촬영위치, 실제촬영장소 및 실제촬영시간 중 적어도 하나를 포함할 수 있다.

실시예에 따른 촬영본 검색 서비스 제공 장치는, 검색된 촬영본들이 복수일 경우, 검색된 촬영본들을 소정 기준에 따라 정렬하는 촬영본 정렬부를 더 포함하되, 촬영본 출력부는, 촬영본 정렬부에 의해 정렬된 순서로 촬영본들을 출력할 수 있다.

이때, 촬영본 정렬부는, 복수의 촬영본들 각각에 태깅된 다른 항목들을 참조하여 촬영본들을 정렬할 수 있다.

실시예에 따른 촬영본 검색 서비스 제공 장치는, 이미 제작된 영화에 대한 영화 문법(film grammar) 정보를 저장하는 DB를 더 포함하고, 촬영본 정렬부는, 영화 문법 정보를 기반으로 이전에 선택된 촬영본의 촬영 구도와 최적으로 매칭되는 촬영 구도가 태깅된 촬영본 순으로 정렬할 수 있다.

실시예에 따라, 수천 개의 촬영본을 제작하고 일일이 찾아야 하는 방송 및 영화 등 상업 영상 제작 환경을 개선할 수 있을 것으로 기대된다.

도 1은 실시예에 따른 영상 콘텐츠의 촬영본 분석 기반 검색 시스템의 개략적인 블록 구성도이다.
도 2는 실시예에 따른 촬영 구도 인식 모델 생성부의 블록 구성도이다.
도 3은 실시예에 따른 촬영 시간 및 장소 인식 모델 생성부의 개략적인 블록 구성도이다.
도 4는 실시예에 따른 촬영본 영상 분석 장치의 개략적인 블록 구성도이다.
도 5는 실시예에 따른 품질 측정부에 의해 고려되는 속성들의 예시도이다.
도 6은 실시예에 따른 장소 및 시간 정보 추출부의 개략적인 블록 구성도이다.
도 7은 실시예에 따른 촬영본 검색 서비스 제공 장치의 개략적인 블록 구성도이다.
도 8은 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

비록 "제1" 또는 "제2" 등이 다양한 구성요소를 서술하기 위해서 사용되나, 이러한 구성요소는 상기와 같은 용어에 의해 제한되지 않는다. 상기와 같은 용어는 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용될 수 있다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.

본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소 또는 단계가 하나 이상의 다른 구성요소 또는 단계의 존재 또는 추가를 배제하지 않는다는 의미를 내포한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 해석될 수 있다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하에서는, 도 1 내지 도 8을 참조하여 실시예에 따른 장치 및 방법이 상세히 설명된다.

도 1은 실시예에 따른 영상 콘텐츠의 촬영본 분석 기반 검색 시스템의 개략적인 블록 구성도이다.

도 1을 참조하면, 영상 콘텐츠의 촬영본 분석 기반 검색 시스템은, 크게 모델 학습 장치(100, 200), 인식 모델 DB(10), 촬영본 영상 분석 장치(300), 촬영본 DB(20) 및 촬영본 검색 서비스 제공 장치(400)를 포함할 수 있다.

모델 학습 장치(100, 200)는 촬영본의 촬영 구도, 촬영 시간, 촬영 장소를 인식할 수 있는 인공 지능 인식 모델의 학습을 수행한다. 상세하게는, 촬영 구도 및 촬영 위치가 태깅된 촬영본을 학습 데이터로 하여 촬영 구도 및 촬영위치를 추정하는 신경망 모델을 생성하는 촬영 구도 인식 모델 생성부(100)(도 2 참조) 및 촬영 시간 및 촬영 장소가 태깅된 촬영본을 학습 데이터로 하여 촬영 시간 및 촬영 장소를 추정하는 신경망 모델을 생성하는 촬영 시간 및 인식 모델 생성부(200)(도 3 참조)를 포함할 수 있다.

촬영본 영상 분석 장치(300)는, 다수의 촬영본을 저장할 때, 콘텐츠 내 동일한 장소/시간 및 촬영본의 구도 정보를 추출하여 함께 저장한 후, 특정 구도의 촬영본을 쉽게 검색 및 활용할 수 있도록 하고자 한다. 즉, 촬영본 영상 분석 장치(300)는, 촬영본 영상 분석 장치(300)는, 사용자가 하나의 영상 콘텐츠 제작을 위해 촬영된 모든 촬영본들을 업로드함에 따라, 해당 촬영본들별로 촬영 구도, 촬영 위치, 촬영 장소 및 촬영 시간을 분석하고, 분석된 정보들을 해당 촬영본에 태깅하여 촬영본 DB(20)에 저장해둔다. 실시예에 따라, 촬영본의 촬영 구도 및 품질을 측정하고, 촬영본 내 영상이 표현하는 장소와 시간을 추가 분석하여 해당 내용을 태깅한다. 이에 대한 상세한 설명은 도 4 내지 6을 참조하여 후술하기로 한다.

촬영본 검색 서비스 제공 장치(400)는 제작자가 콘텐츠를 최종 편집할 때, 촬영본 DB(20)에 저장된 촬영본의 태깅된 항목을 복수의 조건을 기반으로 검색할 수 있는 기능을 제공한다. 이때, 동일 촬영 구도를 가지는 촬영본 사이에도 구도의 적합성을 판단하여 더 나은 촬영본을 검색 결과 상위에 위치하도록 하며, 이전에 제작된 장면 내 촬영 구도의 흐름을 고려하여 적합한 구도를 먼저 제안하는 것을 특징으로 한다. 예컨대, 순차적으로 촬영본을 선택할 때, 필름 문법(film grammar)에 입각한 촬영 구도 시퀀스의 분석을 통해 이전에 선택된 구도를 고려하여 현재 장면에 적합한 촬영 구도를 제안함으로써 제작자의 선택에 도움을 주고자 한다. 이에 대한 상세한 설명은 도 7을 참조하여 후술하기로 한다.

도 2는 실시예에 따른 촬영 구도 인식 모델 생성부의 블록 구성도이다.

도 2를 참조하면, 촬영 구도 인식 모델 생성부(100)는, 촬영 구도 학습 데이터 DB(110), 프레임 추출부(120), 영상 특징 추출부(130) 및 인식 모델 학습부(140)를 포함할 수 있다. 부가적으로, 음성 특징 추출부(150)를 더 포함할 수 있다.

촬영 구도 학습 데이터 DB(110)는, 촬영 구도 인식 모델을 학습시키기 위한 학습 데이터를 저장하는 것으로, 학습 데이터는 편집 과정이 이루어지기 전 촬영본 영상과 해당 촬영본 영상이 촬영된 촬영 구도 및 촬영 위치가 태깅된 상태로 저장될 수 있다.

이때, 촬영 구도는, 익스트림 롱샷, 롱샷, 풀샷, 니샷, 웨이스트샷, 바스트샷, 클로즈샷, 클로즈업샷, 익스트림 클로즈업샷 및 오버 숄더샷 중 적어도 하나로 정의될 수 있다.

또한, 촬영 구도 각각은, 촬영 위치에 따라 하이 앵글 샷, 로우앵글 샷, 일반 샷 중 적어도 하나로 분류될 수 있다.

따라서, 복수의 촬영본 영상들 각각은 전술한 촬영 구도 및 촬영 위치 중 하나로 태깅되어 저장될 수 있다. 예컨대, 도 2에 도시된 바와 같이, 촬영본 1은 와이드 샷, 하이 앵글이 태깅되어 저장될 수 있고, 촬영본 2는 숄더 샷, 일반 앵글이 태깅되어 저장될 수 있다.

프레임 추출부(120)는, 촬영 구도 학습 데이터 DB(110)에 저장된 촬영본 영상들 각각에 대해 소정 개수의 주요 프레임들을 추출하여 프레임 단위의 데이터를 구성한다. 따라서, 생성되는 촬영 구도 인식 모델은 하나의 프레임이 입력되면, 해당 프레임이 속한 촬영본의 구도 및 촬영 위치를 추정하도록 학습된다.

이를 위해, 추출된 프레임에서 특징(Feature)이 추출된다. 이때, 특징은 영상 특징 및 음향 특징이 추출될 수 있다.

영상 특징 추출부(130)는, 추출된 프레임으로부터 객체 확률, 주요 객체(사람/동물/차량 등)의 위치 및 크기, 모든 객체의 크기 평균 및 분산을 추출할 수 있다. 이는 프레임 구도가 보여지는 객체의 크기, 모습에 변화를 주는 것에 착안된 것이다. 이때, 영상 특징 추출부(130)는 CNN과 같은 영상 인식 알고리즘이 사용될 수 있다.

인식 모델 학습부(140)는, 영상 특징 추출부(130)로부터 추출된 특징이 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 구도 및 촬영 위치를 추정하도록 신경망 모델인 촬영 구도 인식 모델을 학습시킨다.

이때, 촬영 구도 인식 모델은, 추출된 특징을 활용할 수 있는 모든 형태의 분류 모델로, Inception, Resnet 등의 알고리즘이 사용될 수 있다.

부가적으로, 음성 특징 추출부(140)는, 촬영본 각각으로부터 오디오 스펙트럼(audio spectrum)을 추출할 수 있다. 이때, 음성 특징은 촬영본에서 추출된 프레임이 아닌 촬영본 별로 추출되며, 동일한 촬영본에서 추출된 프레임들은 동일한 음성 특징을 공유할 수 있다.

이때, 인식 모델 학습부(140)는, 영상 특징 추출부(130)가 추출한 영상 특징과 아울러 음성 특징을 촬영 구도 인식 모델의 입력으로 할 수 있다. 이러한 음성 특징은 등장 인물의 대화를 동반하는 경우가 많은 촬영 구도, 롱샷류의 구도가 주변 소음만을 담는 경우가 많은 촬영 구도 등과 같이 촬영 구도에 따른 오디오 상황 정보를 촬영 구도 인식 모델이 고려하여 학습되도록 하기 위해 사용된다.

전술한 바와 같이 학습된 촬영 구도 인식 모델은 인공 지능 모델 DB(10)에 저장될 수 있다.

도 3은 실시예에 따른 촬영 시간 및 장소 인식 모델 생성부의 개략적인 블록 구성도이다.

도 3을 참조하면, 촬영 시간 및 장소 인식 모델 생성부(200)는, 시간/장소 학습 데이터 DB(210), 프레임 추출부(220), 촬영 구도 추출부(230), 영상 특징 추출부(240), 키프레임 추출부(250) 및 인식 모델 학습부(260)를 포함할 수 있다.

시간/장소 학습 데이터 DB(210)는, 촬영 시간 인식 모델 및 촬영 장소 인식 모델을 학습시키기 위한 학습 데이터를 저장하는 것으로, 학습 데이터는 편집 과정이 이루어지기 전 촬영본 영상과 해당 촬영본 영상에 대응하는 촬영 장소 및 촬영 시간이 태깅된 상태로 저장될 수 있다.

이때, 촬영 시간은, 예컨대, 낮, 밤, 아침 및 저녁과 같이 정의될 수 있고, 촬영 장소는, 예컨대, 사무실, 공원, 교실 등과 같이 정의될 수 있다.

따라서, 복수의 촬영본 영상들 각각은 전술한 촬영 장소 및 촬영 시간 중 하나로 태깅되어 저장될 수 있다. 예컨대, 도 3에 도시된 바와 같이, 촬영본 1은 사무실, 낮이 태깅되어 저장될 수 있고, 촬영본 2는 공원, 밤이 태깅되어 저장될 수 있다.

프레임 추출부(220)는, 촬영 시간/장소 학습 데이터 DB(210)에 저장된 촬영본 영상들 각각에 대해 소정 개수의 주요 프레임들을 추출하여 프레임 단위의 데이터를 구성한다. 따라서, 촬영 시간 인식 모델은 하나의 프레임이 입력되면, 해당 프레임이 속한 촬영본의 촬영 시간을 추정하도록 학습되고, 촬영 장소 인식 모델은 하나의 프레임이 입력되면, 해당 프레임이 속한 촬영본의 촬영 장소를 추정하도록 학습될 수 있다.

이를 위해, 추출된 프레임에서 소정 특징이 추출되어 촬영 시간 인식 모델 및 촬영 장소 인식 모델의 입력으로 사용될 수 있다. 이때, 특징은 촬영 구도, 영상 특징 및 키 프레임 중 적어도 하나일 추출될 수 있다.

촬영 구도 추출부(230)는, 촬영 구도 인식 모델 생성부(100)에 의해 생성되어 인공 지능 모델 DB(10)에 저장된 촬영 구도 인식 모델을 기반으로 추출된 프레임에서 촬영 구도를 추정해낸다.

영상 특징 추출부(240)는, 추출된 프레임에서 색상 분포를 추출해낸다. 이는 촬영 시간 및 촬영 장소에 따라 프레임의 색상 분포가 달라질 수 있기 때문이다. 예컨대, 촬영 시간이 노을이 지는 저녁일 경우 프레임의 색상 분포로 붉은색이 큰 비중을 차지될 수 있고, 촬영 장소가 바닷가인 경우 프레임의 색상 분포로 푸른 색이 큰 비중을 차지할 수 있기 때문이다.

이때, 색상 분포는, 프레임의 분할된 복수의 영역들, 예컨대 9 x 9 개의 분할 영역들 각각의 색상 분포 및 프레임 전체의 색상 분포를 추출해낸다. 이는 촬영 구도에 따라 장소 및 시간 정보가 표현되는 영역이 한정적인 경우(바스트샷, 클로즈샷, 오버 숄더샷, 니샷, 웨이스트샷 등)와 전체 프레임 영역에서 표현되는 경우(익스트림 롱샷, 롱샷, 풀샷 등)를 모두 고려하기 때문이다.

또한, 키 프레임 추출부(250)는, 추출된 프레임들 중에 대표 프레임을 특징으로 추출해낸다.

인식 모델 학습부(260)는, 촬영 구도, 프레임의 색상 분포 및 키 프레임 중 적어도 하나가 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 장소를 추정하도록 촬영 장소 인식 모델을 학습시킨다.

또한, 인식 모델 학습부(260)는, 촬영 구도, 프레임의 색상 분포 및 키 프레임 중 적어도 하나가 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 시간을 추정하도록 촬영 시간 인식 모델을 학습시킨다.

이때, 인식 모델은, 추출된 특징을 활용할 수 있는 모든 형태의 분류 모델로, Inception, Resnet 등의 알고리즘이 사용될 수 있다.

전술한 바와 같이 학습된 촬영 장소 인식 모델 및 촬영 시간 인식 모델은 인공 지능 모델 DB(10)에 저장될 수 있다.

도 4는 실시예에 따른 촬영본 영상 분석 장치의 개략적인 블록 구성도이고, 도 5는 실시예에 따른 품질 측정부에 의해 고려되는 속성들의 예시도이고, 도 6은 실시예에 따른 장소 및 시간 정보 추출부의 개략적인 블록 구성도이다.

도 4를 참조하면, 촬영본 영상 분석 장치(300)는, 프레임 추출부(310), 촬영 구도 및 위치 인식부(320), 촬영 품질 측정부(330), 장소 및 시간 정보 추출부(340), 장소 및 시간 기준 그룹화부(350) 및 정보 결합부(360)를 포함할 수 있다.

프레임 추출부(310)는, 먼저 입력된 촬영본들 각각에 대해 소정 개수의 주요 프레임을 추출할 수 있다.

촬영 구도 및 위치 인식부(320)는, 인공 지능 모델 DB(10)에 저장된 촬영 구도 인식 모델을 기반으로 추출된 프레임에 대해 촬영 구도 및 촬영 위치를 인식해낸다.

촬영 품질 측정부(330)는, 인식된 촬영 구도 및 촬영 위치 정보가 인식된 프레임이 입력됨에 따라, 다양한 요소들을 고려하여 해당 프레임의 품질을 측정한다.

이때, 촬영 품질 측정 기준이 되는 요소는, 도 5에 도시된 바와 같은 선의 방향성(331), 선예도(332) 및 기존 구도 간 유사도(333)이 포함될 수 있다.

이때, 선의 방향성(331)은, 프레임에 포함된 주요 선(line)의 방향이 일정한 정도로, 0~1.0 사이의 값으로 나타낼 수 있다.

선예도(332)는, 화상의 선명도를 나타내는 것으로, 0~1.0 사이의 값으로 나타낼 수 있다.

기존 구도 간 유사도(333)는, 사전에 구축된 촬영 구도 DB(30)로부터 검출된 촬영 구도 및 위치 데이터를 기반으로 주요 객체(사람/동물/차량 등)의 위치 및 크기, 프레임에 등장하는 모든 객체의 크기 평균 및 분산을 비교하여 측정된 최대 유사도(0~1.0 사이)일 수 있다.

따라서, 촬영 품질 측정부(330)는, 촬영 품질 측정 요소들별 점수를 합산하여 촬영 품질 점수를 매길 수 있다.

장소 및 시간 정보 추출부(340)는, 인공 지능 모델 DB(10)에 저장된 촬영 장소 인식 모델 및 촬영 시간 인식 모델을 이용하여 추출된 프레임에 대해 촬영 장소 및 촬영 시간을 인식해낸다.

도 6을 참조하면, 장소 및 시간 정보 추출부(340)는, 영상 특징 추출부(341) 및 키 프레임 추출부(342) 및 인식부(343)를 포함할 수 있다.

이를 위해, 촬영 구도 추출부(230)는, 인공 지능 모델 DB(10)에 저장된 촬영 구도 검출 모델을 기반으로 프레임의 촬영 구도를 추정해낸다.

영상 특징 추출부(240)는, 프레임의 색상 분포를 추출해낸다. 이때, 색상 분포는, 프레임의 분할된 복수의 영역들, 예컨대 9 x 9 개의 분할 영역들 각각의 색상 분포 및 프레임 전체의 색상 분포를 추출해낸다.

또한, 키 프레임 추출부(250)는, 추출된 프레임을 특징으로 사용한다.

인식부(260)는, 촬영 구도 및 위치 인식부(320)에 의해 미리 인식된 촬영 구도 및 촬영 위치, 영상 특징 추출부(341)에 의해 추출된 프레임의 색상 분포 및 키 프레임 추출부(342)에 의해 추출된 키 프레임 중 적어도 하나가 입력됨에 따라 해당 프레임의 촬영 장소 및 촬영 시간을 추정해낸다.

장소 및 시간 기준 그룹화부(350)는, 추정된 촬영 장소 및 촬영 시간을 기반으로 프레임들을 클러스터링하여 촬영 장소 및 촬영 시간이 유사한 프레임들끼리 그룹화한다. 이때, 촬영 장소 및 촬영 시간의 그룹 수는 사용자에 의해 설정될 수 있다.

정보 결합부(360)는, 프레임 단위로 인식된 결과는 각 촬영본 별로 결합하고, 결합된 정보를 촬영본에 태깅하여 촬영본 DB(20)에 저장한다.

이때, 결합되는 정보는, 촬영구도, 촬영위치, 촬영품질, 장소집합코드, 시간집합코드, 실제촬영장소 및 실제촬영시간 중 적어도 하나가 포함될 수 있다,

이때, 촬영 구도는, 촬영 품질 측정부(330)에 의해 측정된 프레임별 촬영 품질 점수를 촬영 구도별로 합하여, 가장 높은 촬영 품질 점수를 가지는 촬영 구도가 촬영본의 촬영 구도가 될 수 있다.

촬영 위치는, 촬영 품질 측정부(330)에 의해 측정된 프레임별 촬영 품질 점수를 촬영 위치별로 합하여, 가장 높은 촬영 품질 점수를 가지는 촬영 위치가 촬영본의 촬영 위치가 될 수 있다.

촬영 품질은, 선정된 촬영 구도로 인식된 프레임들의 품질 점수의 평균일 수 있다.

시간 그룹은, 프레임에 대해 장소 및 시간 기준 그룹화부(350)에 의해 결정된 그룹에서 가장 많은 프레임들이 속한 시간 그룹으로 결정될 수 있다.

장소 그룹은, 프레임에 대해 장소 및 시간 기준 그룹화부(350)에 의해 결정된 그룹에서 가장 많은 프레임들이 속한 장소 그룹으로 결정될 수 있다.

도 7은 실시예에 따른 촬영본 검색 서비스 제공 장치의 개략적인 블록 구성도이다.

도 7을 참조하면, 촬영본 검색 서비스 제공 장치(100)는, 태깅 항목 검색부(410), 촬영본 정렬부(420) 및 촬영본 제공부(430)를 포함할 수 있다.

태깅 항목 검색부(410)는, 사용자로부터 태깅 항목들 중 하나가 검색 키워드로 입력됨에 따라, 해당 검색 키워드에 상응하는 적어도 하나의 촬영본을 촬영본 DB(20)로부터 검색해낸다.

이때, 태깅 항목은, 촬영구도, 촬영위치, 실제촬영장소 및 실제촬영시간 중 적어도 하나가 포함될 수 있다.

촬영본 정렬부(420)는, 검색된 촬영본들이 복수일 경우, 검색된 촬영본들을 소정 기준에 따라 정렬할 수 있다.

일 실시예에 따라, 촬영본 정렬부(420)는, 복수의 촬영본들 각각에 태깅된 다른 태깅 항목들을 참조하여 촬영본들을 정렬할 수 있다. 예컨대, 촬영본에 태깅된 촬영 품질 순으로 촬영본들을 정렬할 수 있다.

다른 실시예에 따라, 촬영본 정렬부(420)는, 영화 문법(film grammar)을 기반으로 이전에 선택된 촬영본의 촬영 구도와 가장 자연스럽게 매칭되는 최적의 촬영 구도를 기준으로 촬영본들을 정렬할 수 있다.

이때, 영화 문법(film grammar)은 기존 영화에서 사용되는 각 장면 및 스토리 전개별 영화 문법(film grammar) 정보로, 영화 문법 DB(440)에 저장될 수 있다. 예컨대, "전화통화"라는 이름의 영화 문법(film grammar)은 바스트 샷, 일반 앵글로 촬영된 다수의 촬영본이 순차적으로 사용되며, 이때 인물이 전환됨에 따라 주요 객체의 위치가 스위칭 된다. 따라서, 사용자가 구성하려는 장면이 "전화통화" 장면이라 선택하면, 촬영본 정렬부(420)는 검색된 촬영본들을 "전화통화"라는 영화 문법 데이터를 기반으로 사용자가 직전까지 구성한 장면의 촬영 구도와 가장 자연스럽게 매칭되는 촬영 구도가 태깅된 촬영본들 순으로 정렬한다.

촬영본 출력부(430)는, 검색된 촬영본들을 출력하되, 촬영본 정렬부(420)에 의해 정렬된 순서로 촬영본들을 출력한다.

도 8은 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.

실시예에 따른 영상 콘텐츠의 촬영본 분석 기반 검색 시스템 또는 그에 포함되는 구성 요소들 각각은 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템(1000)에서 구현될 수 있다.

컴퓨터 시스템(1000)은 버스(1020)를 통하여 서로 통신하는 하나 이상의 프로세서(1010), 메모리(1030), 사용자 인터페이스 입력 장치(1040), 사용자 인터페이스 출력 장치(1050) 및 스토리지(1060)를 포함할 수 있다. 또한, 컴퓨터 시스템(1000)은 네트워크(1080)에 연결되는 네트워크 인터페이스(1070)를 더 포함할 수 있다. 프로세서(1010)는 중앙 처리 장치 또는 메모리(1030)나 스토리지(1060)에 저장된 프로그램 또는 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1030) 및 스토리지(1060)는 휘발성 매체, 비휘발성 매체, 분리형 매체, 비분리형 매체, 통신 매체, 또는 정보 전달 매체 중에서 적어도 하나 이상을 포함하는 저장 매체일 수 있다. 예를 들어, 메모리(1030)는 ROM(1031)이나 RAM(1032)을 포함할 수 있다.

이상에서 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

10 : 인식 모델 DB 20 : 촬영본 DB
100 : 촬영 구도 인식 모델 생성부
200 : 촬영 시간 및 장소 인식 모델 생성부
300 : 촬영본 영상 분석 장치
400 : 촬영본 검색 서비스 제공 장치

Claims

삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
적어도 하나의 프로그램 및 프로그램이 기록된 메모리; 및
적어도 하나의 프로그램을 실행하는 프로세서를 포함하며,
적어도 하나의 프로그램은,
촬영본으로부터 적어도 하나의 프레임을 추출하는 프레임 추출부;
미리 학습된 촬영 구도 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 구도 및 촬영 위치를 추정하는 촬영 구도 및 위치 인식부;
미리 학습된 촬영 장소 인식 모델 및 촬영 시간 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정하는 장소 및 시간 정보 추출부; 및
프레임별로 추정된 정보들을 촬영본 별로 결합하고, 결합 정보를 촬영본에 태깅하는 정보 결합부를 포함하되,
결합 정보는,
촬영본에 포함된 프레임들에 대한 촬영 구도, 촬영 위치, 촬영 장소 및 촬영 시간에 대한 정보들을 포함하는, 촬영본 영상 분석 장치.
제9항에 있어서,
추출된 프레임별로 소정 요소들을 기반으로 촬영 품질을 측정하는 촬영 품질 측정부를 더 포함하고,
정보 결합부는,
측정된 촬영 품질을 기반으로 결합 정보를 선별하는, 촬영본 영상 분석 장치.
제10항에 있어서,
결합 정보는,
촬영 구도, 촬영 위치 및 촬영 품질 중 적어도 하나를 포함하되,
정보 결합부는,
촬영 구도별로 합산된 촬영 품질 점수를 기반으로 촬영 구도를 선정하고, 촬영 위치별로 합산된 촬영 품질 점수를 기반으로 촬영 위치를 선정하고, 선정된 촬영 구도로 인식된 프레임들의 품질 점수의 평균으로 촬영 품질을 산출하여 결합 정보로 사용하는, 촬영본 영상 분석 장치.
제10항에 있어서, 소정 요소는,
프레임에 포함된 주요 선의 방향이 일정한 정도인 선의 방향성, 선의 선명한 정도인 선예도 및 사전에 구축된 촬영 구도 데이터와 프레임에 포함된 객체 정보를 비교한 유사도 중 적어도 하나를 포함하는, 촬영본 영상 분석 장치.
제12항에 있어서, 장소 및 시간 정보 추출부는,
미리 학습된 촬영 구도 검출 모델을 기반으로 추정된 프레임의 촬영 구도, 색상 분포 및 키 프레임 중 적어도 하나를 촬영 장소 인식 모델 및 촬영 시간 인식 모델에 입력하여 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정해내는, 촬영본 영상 분석 장치.
제11항에 있어서,
추정된 촬영 장소 및 촬영 시간을 기반으로 프레임들을 소정 그룹들로 클러스터링하는 장소 및 시간 기준 그룹화부를 더 포함하고,
정보 결합부는,
그룹 결과를 기반으로 결합 정보를 선별하는, 촬영본 영상 분석 장치.
제14항에 있어서,
결합 정보는,
시간 그룹 및 장소 그룹 중 적어도 하나를 포함하되,
정보 결합부는,
각 그룹들에 속한 프레임의 개수를 기반으로 결합 정보로 사용될 시간 그룹 및 장소 그룹을 결정하는, 촬영본 영상 분석 장치.
삭제
삭제
삭제
삭제
삭제