KR102605070B1 - 인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치 - Google Patents
인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치 Download PDFInfo
- Publication number
- KR102605070B1 KR102605070B1 KR1020200082871A KR20200082871A KR102605070B1 KR 102605070 B1 KR102605070 B1 KR 102605070B1 KR 1020200082871 A KR1020200082871 A KR 1020200082871A KR 20200082871 A KR20200082871 A KR 20200082871A KR 102605070 B1 KR102605070 B1 KR 102605070B1
- Authority
- KR
- South Korea
- Prior art keywords
- shooting
- frame
- time
- location
- composition
- Prior art date
Links
- 239000000203 mixture Substances 0.000 claims abstract description 122
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 12
- 238000010191 image analysis Methods 0.000 claims abstract description 12
- 238000009826 distribution Methods 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims description 16
- 238000000034 method Methods 0.000 claims description 14
- 238000005259 measurement Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 16
- 238000013473 artificial intelligence Methods 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 210000003127 knee Anatomy 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/785—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/34—Indicating arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/64—Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Abstract
촬영본 영상 분석 장치가 개시된다. 본 발명의 실시예에 따른 촬영본 영상 분석 장치는, 적어도 하나의 프로그램 및 프로그램이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은 촬영본으로부터 적어도 하나의 프레임을 추출하는 프레임 추출부, 미리 학습된 촬영 구도 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 구도 및 촬영 위치를 추정하는 촬영 구도 및 위치 인식부, 미리 학습된 촬영 장소 인식 모델 및 촬영 시간 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정하는 장소 및 시간 정보 추출부 및 프레임별로 추정된 정보들을 촬영본 별로 결합하고, 결합 정보를 촬영본에 태깅하는 정보 결합부를 포함할 수 있다.
Description
기재된 실시예는 영상 콘텐츠의 촬영본 분석 및 이를 활용한 검색 기술에 관한 것이다.
방송, 영화 등의 영상 콘텐츠는 전문적인 제작자가 참여하여 수많은 촬영본을 제작한 후, 최종 편집을 통해 완성된다. 이 과정은 영상 콘텐츠가 서비스된 지난 수십 년간 다듬어져, 다양한 제작 기법들이 제작 인력 양상 과정에서 교육이 되고 있다. 이러한 제작 기법 중, 영상의 구도는 콘텐츠의 스토리를 강조하고, 시청자가 그 흐름에 집중하도록 하는 중요한 매개체이다.
따라서 촬영 과정에서는 동일한 장면이라도 다양한 구도로 반복하여 촬영하게 되고, 최종 편집 과정에서는 전체 영상의 흐름을 고려하여 적합한 구도를 선택한다. 영상 제작에서 이 과정은 PD, 감독 등 제작자가 감당해야 하는 작업으로, 제작자가 촬영본의 정렬/검색/선택을 모두 수동으로 영상을 일일이 보고 진행하게 된다. 영화나 다큐멘터리 등 상업적으로 활용되는 대부분의 영상 콘텐츠 제작에서는 수천 개까지의 촬영본이 제작되기 때문에 모든 촬영본을 일일이 본 후에 선택하는 과정은 많은 시간이 소요되므로 그에 따른 인건비 또한 상승하게 된다.
따라서, 영상 콘텐츠의 제작시, 촬영된 촬영본을 최종 편집하여 콘텐츠를 제작하는 과정에 필요한 시간 및 인건비를 감소시키는 데 그 목적이 있다.
실시예에 따른 인식 모델 학습 장치는, 적어도 하나의 프로그램 및 프로그램이 기록된 메모리 및 적어도 하나의 프로그램을 실행하는 프로세서를 포함하며, 적어도 하나의 프로그램은, 촬영 구도 및 촬영 위치가 태깅된 촬영본을 학습 데이터로 하여 촬영 구도 및 촬영 위치를 추정하는 신경망 모델을 생성하는 촬영 구도 인식 모델 생성부 및 촬영 시간 및 촬영 장소가 태깅된 촬영본을 학습 데이터로 하여 촬영 시간 및 촬영 장소를 추정하는 신경망 모델을 생성하는 촬영 시간 및 장소 인식 모델 생성부를 포함할 수 있다.
이때, 촬영 구도 인식 모델 생성부는, 촬영본으로부터 적어도 하나의 프레임을 추출하여 프레임 단위의 데이터를 구성하는 프레임 추출부, 추출된 적어도 하나의 프레임에 포함된 객체에 관련된 영상 특징을 추출하는 영상 특징 추출부 및 추출된 영상 특징이 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 구도 및 촬영 위치를 추정하도록 신경망 모델인 촬영 구도 인식 모델을 학습시키는 인식 모델 학습부를 포함할 수 있다.
이때, 촬영 구도는, 익스트림 롱샷, 롱샷, 풀샷, 니샷, 웨이스트샷, 바스트샷, 클로즈샷, 클로즈업샷, 익스트림 클로즈업샷 및 오버 숄더샷 중 적어도 하나를 포함할 수 있다.
이때, 촬영 구도 각각은, 촬영 위치에 따라 하이 앵글 샷, 로우앵글 샷, 일반 샷 중 적어도 하나로 분류될 수 있다.
이때, 촬영 구도 인식 모델 생성부는, 촬영본으로부터 오디오 스펙트럼(audio spectrum)을 추출하는 음성 특징 추출부를 더 포함하고, 인식 모델 학습부는, 오디오 스펙트럼이 입력됨에 따라 해당 촬영본에 태깅되어 있는 촬영 구도 및 촬영 위치를 추정하도록 신경망 모델인 촬영 구도 인식 모델을 학습시킬 수 있다.
이때, 촬영 시간 및 장소 인식 모델 생성부는, 촬영본으로부터 적어도 하나의 프레임을 추출하여 프레임 단위의 데이터를 구성하는 프레임 추출부 및 추출된 프레임의 촬영 구도, 색상 분포 및 키 프레임 중 적어도 하나가 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 장소 또는 촬영 시간을 추정하도록 촬영 장소 인식 모델 또는 시간 인식 모델을 학습시키는 인식 모델 학습부를 포함할 수 있다.
이때, 프레임 추출부 및 인식 모델 학습부 사이에, 미리 학습된 촬영 구도 인식 모델을 기반으로 추출된 프레임에서 촬영 구도를 추정하는 촬영 구도 추출부, 추출된 프레임에서 색상 분포를 추출해내는 영상 특징 추출부 및 추출된 프레임들 중에 대표 프레임 추출해내는 키 프레임 추출부 중 적어도 하나를 포함할 수 있다.
이때, 영상 특징 추출부는, 프레임의 복수의 분할 영역들 각각의 색상 분포 및 프레임 전체의 색상 분포를 추출해낼 수 있다.
실시예에 따른 촬영본 영상 분석 장치는, 적어도 하나의 프로그램 및 프로그램이 기록된 메모리 및 적어도 하나의 프로그램을 실행하는 프로세서를 포함하며, 적어도 하나의 프로그램은, 촬영본으로부터 적어도 하나의 프레임을 추출하는 프레임 추출부, 미리 학습된 촬영 구도 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 구도 및 촬영 위치를 추정하는 촬영 구도 및 위치 인식부, 미리 학습된 촬영 장소 인식 모델 및 촬영 시간 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정하는 장소 및 시간 정보 추출부 및 프레임별로 추정된 정보들을 촬영본 별로 결합하고, 결합 정보를 촬영본에 태깅하는 정보 결합부를 포함할 수 있다.
실시예에 따른 촬영본 영상 분석 장치는, 추출된 프레임별로 소정 요소들을 기반으로 촬영 품질을 측정하는 촬영 품질 측정부를 더 포함하고, 정보 결합부는, 측정된 촬영 품질을 기반으로 결합 정보를 선별할 수 있다.
이때, 결합 정보는, 촬영 구도, 촬영 위치 및 촬영 품질 중 적어도 하나를 포함하되, 정보 결합부는, 촬영 구도별로 합산된 촬영 품질 점수를 기반으로 촬영 구도를 선정하고, 촬영 위치별로 합산된 촬영 품질 점수를 기반으로 촬영 위치를 선정하고, 선정된 촬영 구도로 인식된 프레임들의 품질 점수의 평균으로 촬영 품질을 산출하여 결합 정보로 사용할 수 있다.
이때, 소정 요소는, 프레임에 포함된 주요 선의 방향이 일정한 정도인 선의 방향성, 선의 선명한 정도인 선예도 및 사전에 구축된 촬영 구도 데이터와 프레임에 포함된 객체 정보를 비교한 유사도 중 적어도 하나를 포함할 수 있다.
이때, 장소 및 시간 정보 추출부는, 미리 학습된 촬영 구도 검출 모델을 기반으로 추정된 프레임의 촬영 구도, 색상 분포 및 키 프레임 중 적어도 하나를 촬영 장소 인식 모델 및 촬영 시간 인식 모델에 입력하여 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정해낼 수 있다.
실시예에 따른 촬영본 영상 분석 장치는, 추정된 촬영 장소 및 촬영 시간을 기반으로 프레임들을 소정 그룹들로 클러스터링하는 장소 및 시간 기준 그룹화부를 더 포함하고, 정보 결합부는, 그룹 결과를 기반으로 결합 정보를 선별할 수 있다.
이때, 결합 정보는, 시간 그룹 및 장소 그룹 중 적어도 하나를 포함하되, 정보 결합부는, 각 그룹들에 속한 프레임의 개수를 기반으로 결합 정보로 사용될 시간 그룹 및 장소 그룹을 결정할 수 있다.
실시예에 따른 촬영본 검색 서비스 제공 장치는, 적어도 하나의 프로그램 및 프로그램이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은, 검색 키워드가 입력됨에 따라, 해당 검색 키워드에 상응하는 적어도 하나의 항목이 태깅된 촬영본을 검색하는 태깅 항목 검색부 및 검색된 적어도 하나의 촬영본을 출력하는 촬영본 출력부를 포함할 수 있다.
이때, 항목은, 촬영구도, 촬영위치, 실제촬영장소 및 실제촬영시간 중 적어도 하나를 포함할 수 있다.
실시예에 따른 촬영본 검색 서비스 제공 장치는, 검색된 촬영본들이 복수일 경우, 검색된 촬영본들을 소정 기준에 따라 정렬하는 촬영본 정렬부를 더 포함하되, 촬영본 출력부는, 촬영본 정렬부에 의해 정렬된 순서로 촬영본들을 출력할 수 있다.
이때, 촬영본 정렬부는, 복수의 촬영본들 각각에 태깅된 다른 항목들을 참조하여 촬영본들을 정렬할 수 있다.
실시예에 따른 촬영본 검색 서비스 제공 장치는, 이미 제작된 영화에 대한 영화 문법(film grammar) 정보를 저장하는 DB를 더 포함하고, 촬영본 정렬부는, 영화 문법 정보를 기반으로 이전에 선택된 촬영본의 촬영 구도와 최적으로 매칭되는 촬영 구도가 태깅된 촬영본 순으로 정렬할 수 있다.
실시예에 따라, 수천 개의 촬영본을 제작하고 일일이 찾아야 하는 방송 및 영화 등 상업 영상 제작 환경을 개선할 수 있을 것으로 기대된다.
도 1은 실시예에 따른 영상 콘텐츠의 촬영본 분석 기반 검색 시스템의 개략적인 블록 구성도이다.
도 2는 실시예에 따른 촬영 구도 인식 모델 생성부의 블록 구성도이다.
도 3은 실시예에 따른 촬영 시간 및 장소 인식 모델 생성부의 개략적인 블록 구성도이다.
도 4는 실시예에 따른 촬영본 영상 분석 장치의 개략적인 블록 구성도이다.
도 5는 실시예에 따른 품질 측정부에 의해 고려되는 속성들의 예시도이다.
도 6은 실시예에 따른 장소 및 시간 정보 추출부의 개략적인 블록 구성도이다.
도 7은 실시예에 따른 촬영본 검색 서비스 제공 장치의 개략적인 블록 구성도이다.
도 8은 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.
도 2는 실시예에 따른 촬영 구도 인식 모델 생성부의 블록 구성도이다.
도 3은 실시예에 따른 촬영 시간 및 장소 인식 모델 생성부의 개략적인 블록 구성도이다.
도 4는 실시예에 따른 촬영본 영상 분석 장치의 개략적인 블록 구성도이다.
도 5는 실시예에 따른 품질 측정부에 의해 고려되는 속성들의 예시도이다.
도 6은 실시예에 따른 장소 및 시간 정보 추출부의 개략적인 블록 구성도이다.
도 7은 실시예에 따른 촬영본 검색 서비스 제공 장치의 개략적인 블록 구성도이다.
도 8은 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
비록 "제1" 또는 "제2" 등이 다양한 구성요소를 서술하기 위해서 사용되나, 이러한 구성요소는 상기와 같은 용어에 의해 제한되지 않는다. 상기와 같은 용어는 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용될 수 있다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.
본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소 또는 단계가 하나 이상의 다른 구성요소 또는 단계의 존재 또는 추가를 배제하지 않는다는 의미를 내포한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 해석될 수 있다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하에서는, 도 1 내지 도 8을 참조하여 실시예에 따른 장치 및 방법이 상세히 설명된다.
도 1은 실시예에 따른 영상 콘텐츠의 촬영본 분석 기반 검색 시스템의 개략적인 블록 구성도이다.
도 1을 참조하면, 영상 콘텐츠의 촬영본 분석 기반 검색 시스템은, 크게 모델 학습 장치(100, 200), 인식 모델 DB(10), 촬영본 영상 분석 장치(300), 촬영본 DB(20) 및 촬영본 검색 서비스 제공 장치(400)를 포함할 수 있다.
모델 학습 장치(100, 200)는 촬영본의 촬영 구도, 촬영 시간, 촬영 장소를 인식할 수 있는 인공 지능 인식 모델의 학습을 수행한다. 상세하게는, 촬영 구도 및 촬영 위치가 태깅된 촬영본을 학습 데이터로 하여 촬영 구도 및 촬영위치를 추정하는 신경망 모델을 생성하는 촬영 구도 인식 모델 생성부(100)(도 2 참조) 및 촬영 시간 및 촬영 장소가 태깅된 촬영본을 학습 데이터로 하여 촬영 시간 및 촬영 장소를 추정하는 신경망 모델을 생성하는 촬영 시간 및 인식 모델 생성부(200)(도 3 참조)를 포함할 수 있다.
촬영본 영상 분석 장치(300)는, 다수의 촬영본을 저장할 때, 콘텐츠 내 동일한 장소/시간 및 촬영본의 구도 정보를 추출하여 함께 저장한 후, 특정 구도의 촬영본을 쉽게 검색 및 활용할 수 있도록 하고자 한다. 즉, 촬영본 영상 분석 장치(300)는, 촬영본 영상 분석 장치(300)는, 사용자가 하나의 영상 콘텐츠 제작을 위해 촬영된 모든 촬영본들을 업로드함에 따라, 해당 촬영본들별로 촬영 구도, 촬영 위치, 촬영 장소 및 촬영 시간을 분석하고, 분석된 정보들을 해당 촬영본에 태깅하여 촬영본 DB(20)에 저장해둔다. 실시예에 따라, 촬영본의 촬영 구도 및 품질을 측정하고, 촬영본 내 영상이 표현하는 장소와 시간을 추가 분석하여 해당 내용을 태깅한다. 이에 대한 상세한 설명은 도 4 내지 6을 참조하여 후술하기로 한다.
촬영본 검색 서비스 제공 장치(400)는 제작자가 콘텐츠를 최종 편집할 때, 촬영본 DB(20)에 저장된 촬영본의 태깅된 항목을 복수의 조건을 기반으로 검색할 수 있는 기능을 제공한다. 이때, 동일 촬영 구도를 가지는 촬영본 사이에도 구도의 적합성을 판단하여 더 나은 촬영본을 검색 결과 상위에 위치하도록 하며, 이전에 제작된 장면 내 촬영 구도의 흐름을 고려하여 적합한 구도를 먼저 제안하는 것을 특징으로 한다. 예컨대, 순차적으로 촬영본을 선택할 때, 필름 문법(film grammar)에 입각한 촬영 구도 시퀀스의 분석을 통해 이전에 선택된 구도를 고려하여 현재 장면에 적합한 촬영 구도를 제안함으로써 제작자의 선택에 도움을 주고자 한다. 이에 대한 상세한 설명은 도 7을 참조하여 후술하기로 한다.
도 2는 실시예에 따른 촬영 구도 인식 모델 생성부의 블록 구성도이다.
도 2를 참조하면, 촬영 구도 인식 모델 생성부(100)는, 촬영 구도 학습 데이터 DB(110), 프레임 추출부(120), 영상 특징 추출부(130) 및 인식 모델 학습부(140)를 포함할 수 있다. 부가적으로, 음성 특징 추출부(150)를 더 포함할 수 있다.
촬영 구도 학습 데이터 DB(110)는, 촬영 구도 인식 모델을 학습시키기 위한 학습 데이터를 저장하는 것으로, 학습 데이터는 편집 과정이 이루어지기 전 촬영본 영상과 해당 촬영본 영상이 촬영된 촬영 구도 및 촬영 위치가 태깅된 상태로 저장될 수 있다.
이때, 촬영 구도는, 익스트림 롱샷, 롱샷, 풀샷, 니샷, 웨이스트샷, 바스트샷, 클로즈샷, 클로즈업샷, 익스트림 클로즈업샷 및 오버 숄더샷 중 적어도 하나로 정의될 수 있다.
또한, 촬영 구도 각각은, 촬영 위치에 따라 하이 앵글 샷, 로우앵글 샷, 일반 샷 중 적어도 하나로 분류될 수 있다.
따라서, 복수의 촬영본 영상들 각각은 전술한 촬영 구도 및 촬영 위치 중 하나로 태깅되어 저장될 수 있다. 예컨대, 도 2에 도시된 바와 같이, 촬영본 1은 와이드 샷, 하이 앵글이 태깅되어 저장될 수 있고, 촬영본 2는 숄더 샷, 일반 앵글이 태깅되어 저장될 수 있다.
프레임 추출부(120)는, 촬영 구도 학습 데이터 DB(110)에 저장된 촬영본 영상들 각각에 대해 소정 개수의 주요 프레임들을 추출하여 프레임 단위의 데이터를 구성한다. 따라서, 생성되는 촬영 구도 인식 모델은 하나의 프레임이 입력되면, 해당 프레임이 속한 촬영본의 구도 및 촬영 위치를 추정하도록 학습된다.
이를 위해, 추출된 프레임에서 특징(Feature)이 추출된다. 이때, 특징은 영상 특징 및 음향 특징이 추출될 수 있다.
영상 특징 추출부(130)는, 추출된 프레임으로부터 객체 확률, 주요 객체(사람/동물/차량 등)의 위치 및 크기, 모든 객체의 크기 평균 및 분산을 추출할 수 있다. 이는 프레임 구도가 보여지는 객체의 크기, 모습에 변화를 주는 것에 착안된 것이다. 이때, 영상 특징 추출부(130)는 CNN과 같은 영상 인식 알고리즘이 사용될 수 있다.
인식 모델 학습부(140)는, 영상 특징 추출부(130)로부터 추출된 특징이 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 구도 및 촬영 위치를 추정하도록 신경망 모델인 촬영 구도 인식 모델을 학습시킨다.
이때, 촬영 구도 인식 모델은, 추출된 특징을 활용할 수 있는 모든 형태의 분류 모델로, Inception, Resnet 등의 알고리즘이 사용될 수 있다.
부가적으로, 음성 특징 추출부(140)는, 촬영본 각각으로부터 오디오 스펙트럼(audio spectrum)을 추출할 수 있다. 이때, 음성 특징은 촬영본에서 추출된 프레임이 아닌 촬영본 별로 추출되며, 동일한 촬영본에서 추출된 프레임들은 동일한 음성 특징을 공유할 수 있다.
이때, 인식 모델 학습부(140)는, 영상 특징 추출부(130)가 추출한 영상 특징과 아울러 음성 특징을 촬영 구도 인식 모델의 입력으로 할 수 있다. 이러한 음성 특징은 등장 인물의 대화를 동반하는 경우가 많은 촬영 구도, 롱샷류의 구도가 주변 소음만을 담는 경우가 많은 촬영 구도 등과 같이 촬영 구도에 따른 오디오 상황 정보를 촬영 구도 인식 모델이 고려하여 학습되도록 하기 위해 사용된다.
전술한 바와 같이 학습된 촬영 구도 인식 모델은 인공 지능 모델 DB(10)에 저장될 수 있다.
도 3은 실시예에 따른 촬영 시간 및 장소 인식 모델 생성부의 개략적인 블록 구성도이다.
도 3을 참조하면, 촬영 시간 및 장소 인식 모델 생성부(200)는, 시간/장소 학습 데이터 DB(210), 프레임 추출부(220), 촬영 구도 추출부(230), 영상 특징 추출부(240), 키프레임 추출부(250) 및 인식 모델 학습부(260)를 포함할 수 있다.
시간/장소 학습 데이터 DB(210)는, 촬영 시간 인식 모델 및 촬영 장소 인식 모델을 학습시키기 위한 학습 데이터를 저장하는 것으로, 학습 데이터는 편집 과정이 이루어지기 전 촬영본 영상과 해당 촬영본 영상에 대응하는 촬영 장소 및 촬영 시간이 태깅된 상태로 저장될 수 있다.
이때, 촬영 시간은, 예컨대, 낮, 밤, 아침 및 저녁과 같이 정의될 수 있고, 촬영 장소는, 예컨대, 사무실, 공원, 교실 등과 같이 정의될 수 있다.
따라서, 복수의 촬영본 영상들 각각은 전술한 촬영 장소 및 촬영 시간 중 하나로 태깅되어 저장될 수 있다. 예컨대, 도 3에 도시된 바와 같이, 촬영본 1은 사무실, 낮이 태깅되어 저장될 수 있고, 촬영본 2는 공원, 밤이 태깅되어 저장될 수 있다.
프레임 추출부(220)는, 촬영 시간/장소 학습 데이터 DB(210)에 저장된 촬영본 영상들 각각에 대해 소정 개수의 주요 프레임들을 추출하여 프레임 단위의 데이터를 구성한다. 따라서, 촬영 시간 인식 모델은 하나의 프레임이 입력되면, 해당 프레임이 속한 촬영본의 촬영 시간을 추정하도록 학습되고, 촬영 장소 인식 모델은 하나의 프레임이 입력되면, 해당 프레임이 속한 촬영본의 촬영 장소를 추정하도록 학습될 수 있다.
이를 위해, 추출된 프레임에서 소정 특징이 추출되어 촬영 시간 인식 모델 및 촬영 장소 인식 모델의 입력으로 사용될 수 있다. 이때, 특징은 촬영 구도, 영상 특징 및 키 프레임 중 적어도 하나일 추출될 수 있다.
촬영 구도 추출부(230)는, 촬영 구도 인식 모델 생성부(100)에 의해 생성되어 인공 지능 모델 DB(10)에 저장된 촬영 구도 인식 모델을 기반으로 추출된 프레임에서 촬영 구도를 추정해낸다.
영상 특징 추출부(240)는, 추출된 프레임에서 색상 분포를 추출해낸다. 이는 촬영 시간 및 촬영 장소에 따라 프레임의 색상 분포가 달라질 수 있기 때문이다. 예컨대, 촬영 시간이 노을이 지는 저녁일 경우 프레임의 색상 분포로 붉은색이 큰 비중을 차지될 수 있고, 촬영 장소가 바닷가인 경우 프레임의 색상 분포로 푸른 색이 큰 비중을 차지할 수 있기 때문이다.
이때, 색상 분포는, 프레임의 분할된 복수의 영역들, 예컨대 9 x 9 개의 분할 영역들 각각의 색상 분포 및 프레임 전체의 색상 분포를 추출해낸다. 이는 촬영 구도에 따라 장소 및 시간 정보가 표현되는 영역이 한정적인 경우(바스트샷, 클로즈샷, 오버 숄더샷, 니샷, 웨이스트샷 등)와 전체 프레임 영역에서 표현되는 경우(익스트림 롱샷, 롱샷, 풀샷 등)를 모두 고려하기 때문이다.
또한, 키 프레임 추출부(250)는, 추출된 프레임들 중에 대표 프레임을 특징으로 추출해낸다.
인식 모델 학습부(260)는, 촬영 구도, 프레임의 색상 분포 및 키 프레임 중 적어도 하나가 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 장소를 추정하도록 촬영 장소 인식 모델을 학습시킨다.
또한, 인식 모델 학습부(260)는, 촬영 구도, 프레임의 색상 분포 및 키 프레임 중 적어도 하나가 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 시간을 추정하도록 촬영 시간 인식 모델을 학습시킨다.
이때, 인식 모델은, 추출된 특징을 활용할 수 있는 모든 형태의 분류 모델로, Inception, Resnet 등의 알고리즘이 사용될 수 있다.
전술한 바와 같이 학습된 촬영 장소 인식 모델 및 촬영 시간 인식 모델은 인공 지능 모델 DB(10)에 저장될 수 있다.
도 4는 실시예에 따른 촬영본 영상 분석 장치의 개략적인 블록 구성도이고, 도 5는 실시예에 따른 품질 측정부에 의해 고려되는 속성들의 예시도이고, 도 6은 실시예에 따른 장소 및 시간 정보 추출부의 개략적인 블록 구성도이다.
도 4를 참조하면, 촬영본 영상 분석 장치(300)는, 프레임 추출부(310), 촬영 구도 및 위치 인식부(320), 촬영 품질 측정부(330), 장소 및 시간 정보 추출부(340), 장소 및 시간 기준 그룹화부(350) 및 정보 결합부(360)를 포함할 수 있다.
프레임 추출부(310)는, 먼저 입력된 촬영본들 각각에 대해 소정 개수의 주요 프레임을 추출할 수 있다.
촬영 구도 및 위치 인식부(320)는, 인공 지능 모델 DB(10)에 저장된 촬영 구도 인식 모델을 기반으로 추출된 프레임에 대해 촬영 구도 및 촬영 위치를 인식해낸다.
촬영 품질 측정부(330)는, 인식된 촬영 구도 및 촬영 위치 정보가 인식된 프레임이 입력됨에 따라, 다양한 요소들을 고려하여 해당 프레임의 품질을 측정한다.
이때, 촬영 품질 측정 기준이 되는 요소는, 도 5에 도시된 바와 같은 선의 방향성(331), 선예도(332) 및 기존 구도 간 유사도(333)이 포함될 수 있다.
이때, 선의 방향성(331)은, 프레임에 포함된 주요 선(line)의 방향이 일정한 정도로, 0~1.0 사이의 값으로 나타낼 수 있다.
선예도(332)는, 화상의 선명도를 나타내는 것으로, 0~1.0 사이의 값으로 나타낼 수 있다.
기존 구도 간 유사도(333)는, 사전에 구축된 촬영 구도 DB(30)로부터 검출된 촬영 구도 및 위치 데이터를 기반으로 주요 객체(사람/동물/차량 등)의 위치 및 크기, 프레임에 등장하는 모든 객체의 크기 평균 및 분산을 비교하여 측정된 최대 유사도(0~1.0 사이)일 수 있다.
따라서, 촬영 품질 측정부(330)는, 촬영 품질 측정 요소들별 점수를 합산하여 촬영 품질 점수를 매길 수 있다.
장소 및 시간 정보 추출부(340)는, 인공 지능 모델 DB(10)에 저장된 촬영 장소 인식 모델 및 촬영 시간 인식 모델을 이용하여 추출된 프레임에 대해 촬영 장소 및 촬영 시간을 인식해낸다.
도 6을 참조하면, 장소 및 시간 정보 추출부(340)는, 영상 특징 추출부(341) 및 키 프레임 추출부(342) 및 인식부(343)를 포함할 수 있다.
이를 위해, 촬영 구도 추출부(230)는, 인공 지능 모델 DB(10)에 저장된 촬영 구도 검출 모델을 기반으로 프레임의 촬영 구도를 추정해낸다.
영상 특징 추출부(240)는, 프레임의 색상 분포를 추출해낸다. 이때, 색상 분포는, 프레임의 분할된 복수의 영역들, 예컨대 9 x 9 개의 분할 영역들 각각의 색상 분포 및 프레임 전체의 색상 분포를 추출해낸다.
또한, 키 프레임 추출부(250)는, 추출된 프레임을 특징으로 사용한다.
인식부(260)는, 촬영 구도 및 위치 인식부(320)에 의해 미리 인식된 촬영 구도 및 촬영 위치, 영상 특징 추출부(341)에 의해 추출된 프레임의 색상 분포 및 키 프레임 추출부(342)에 의해 추출된 키 프레임 중 적어도 하나가 입력됨에 따라 해당 프레임의 촬영 장소 및 촬영 시간을 추정해낸다.
장소 및 시간 기준 그룹화부(350)는, 추정된 촬영 장소 및 촬영 시간을 기반으로 프레임들을 클러스터링하여 촬영 장소 및 촬영 시간이 유사한 프레임들끼리 그룹화한다. 이때, 촬영 장소 및 촬영 시간의 그룹 수는 사용자에 의해 설정될 수 있다.
정보 결합부(360)는, 프레임 단위로 인식된 결과는 각 촬영본 별로 결합하고, 결합된 정보를 촬영본에 태깅하여 촬영본 DB(20)에 저장한다.
이때, 결합되는 정보는, 촬영구도, 촬영위치, 촬영품질, 장소집합코드, 시간집합코드, 실제촬영장소 및 실제촬영시간 중 적어도 하나가 포함될 수 있다,
이때, 촬영 구도는, 촬영 품질 측정부(330)에 의해 측정된 프레임별 촬영 품질 점수를 촬영 구도별로 합하여, 가장 높은 촬영 품질 점수를 가지는 촬영 구도가 촬영본의 촬영 구도가 될 수 있다.
촬영 위치는, 촬영 품질 측정부(330)에 의해 측정된 프레임별 촬영 품질 점수를 촬영 위치별로 합하여, 가장 높은 촬영 품질 점수를 가지는 촬영 위치가 촬영본의 촬영 위치가 될 수 있다.
촬영 품질은, 선정된 촬영 구도로 인식된 프레임들의 품질 점수의 평균일 수 있다.
시간 그룹은, 프레임에 대해 장소 및 시간 기준 그룹화부(350)에 의해 결정된 그룹에서 가장 많은 프레임들이 속한 시간 그룹으로 결정될 수 있다.
장소 그룹은, 프레임에 대해 장소 및 시간 기준 그룹화부(350)에 의해 결정된 그룹에서 가장 많은 프레임들이 속한 장소 그룹으로 결정될 수 있다.
도 7은 실시예에 따른 촬영본 검색 서비스 제공 장치의 개략적인 블록 구성도이다.
도 7을 참조하면, 촬영본 검색 서비스 제공 장치(100)는, 태깅 항목 검색부(410), 촬영본 정렬부(420) 및 촬영본 제공부(430)를 포함할 수 있다.
태깅 항목 검색부(410)는, 사용자로부터 태깅 항목들 중 하나가 검색 키워드로 입력됨에 따라, 해당 검색 키워드에 상응하는 적어도 하나의 촬영본을 촬영본 DB(20)로부터 검색해낸다.
이때, 태깅 항목은, 촬영구도, 촬영위치, 실제촬영장소 및 실제촬영시간 중 적어도 하나가 포함될 수 있다.
촬영본 정렬부(420)는, 검색된 촬영본들이 복수일 경우, 검색된 촬영본들을 소정 기준에 따라 정렬할 수 있다.
일 실시예에 따라, 촬영본 정렬부(420)는, 복수의 촬영본들 각각에 태깅된 다른 태깅 항목들을 참조하여 촬영본들을 정렬할 수 있다. 예컨대, 촬영본에 태깅된 촬영 품질 순으로 촬영본들을 정렬할 수 있다.
다른 실시예에 따라, 촬영본 정렬부(420)는, 영화 문법(film grammar)을 기반으로 이전에 선택된 촬영본의 촬영 구도와 가장 자연스럽게 매칭되는 최적의 촬영 구도를 기준으로 촬영본들을 정렬할 수 있다.
이때, 영화 문법(film grammar)은 기존 영화에서 사용되는 각 장면 및 스토리 전개별 영화 문법(film grammar) 정보로, 영화 문법 DB(440)에 저장될 수 있다. 예컨대, "전화통화"라는 이름의 영화 문법(film grammar)은 바스트 샷, 일반 앵글로 촬영된 다수의 촬영본이 순차적으로 사용되며, 이때 인물이 전환됨에 따라 주요 객체의 위치가 스위칭 된다. 따라서, 사용자가 구성하려는 장면이 "전화통화" 장면이라 선택하면, 촬영본 정렬부(420)는 검색된 촬영본들을 "전화통화"라는 영화 문법 데이터를 기반으로 사용자가 직전까지 구성한 장면의 촬영 구도와 가장 자연스럽게 매칭되는 촬영 구도가 태깅된 촬영본들 순으로 정렬한다.
촬영본 출력부(430)는, 검색된 촬영본들을 출력하되, 촬영본 정렬부(420)에 의해 정렬된 순서로 촬영본들을 출력한다.
도 8은 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.
실시예에 따른 영상 콘텐츠의 촬영본 분석 기반 검색 시스템 또는 그에 포함되는 구성 요소들 각각은 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템(1000)에서 구현될 수 있다.
컴퓨터 시스템(1000)은 버스(1020)를 통하여 서로 통신하는 하나 이상의 프로세서(1010), 메모리(1030), 사용자 인터페이스 입력 장치(1040), 사용자 인터페이스 출력 장치(1050) 및 스토리지(1060)를 포함할 수 있다. 또한, 컴퓨터 시스템(1000)은 네트워크(1080)에 연결되는 네트워크 인터페이스(1070)를 더 포함할 수 있다. 프로세서(1010)는 중앙 처리 장치 또는 메모리(1030)나 스토리지(1060)에 저장된 프로그램 또는 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1030) 및 스토리지(1060)는 휘발성 매체, 비휘발성 매체, 분리형 매체, 비분리형 매체, 통신 매체, 또는 정보 전달 매체 중에서 적어도 하나 이상을 포함하는 저장 매체일 수 있다. 예를 들어, 메모리(1030)는 ROM(1031)이나 RAM(1032)을 포함할 수 있다.
이상에서 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
10 : 인식 모델 DB 20 : 촬영본 DB
100 : 촬영 구도 인식 모델 생성부
200 : 촬영 시간 및 장소 인식 모델 생성부
300 : 촬영본 영상 분석 장치
400 : 촬영본 검색 서비스 제공 장치
100 : 촬영 구도 인식 모델 생성부
200 : 촬영 시간 및 장소 인식 모델 생성부
300 : 촬영본 영상 분석 장치
400 : 촬영본 검색 서비스 제공 장치
Claims (20)
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 적어도 하나의 프로그램 및 프로그램이 기록된 메모리; 및
적어도 하나의 프로그램을 실행하는 프로세서를 포함하며,
적어도 하나의 프로그램은,
촬영본으로부터 적어도 하나의 프레임을 추출하는 프레임 추출부;
미리 학습된 촬영 구도 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 구도 및 촬영 위치를 추정하는 촬영 구도 및 위치 인식부;
미리 학습된 촬영 장소 인식 모델 및 촬영 시간 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정하는 장소 및 시간 정보 추출부; 및
프레임별로 추정된 정보들을 촬영본 별로 결합하고, 결합 정보를 촬영본에 태깅하는 정보 결합부를 포함하되,
결합 정보는,
촬영본에 포함된 프레임들에 대한 촬영 구도, 촬영 위치, 촬영 장소 및 촬영 시간에 대한 정보들을 포함하는, 촬영본 영상 분석 장치. - 제9항에 있어서,
추출된 프레임별로 소정 요소들을 기반으로 촬영 품질을 측정하는 촬영 품질 측정부를 더 포함하고,
정보 결합부는,
측정된 촬영 품질을 기반으로 결합 정보를 선별하는, 촬영본 영상 분석 장치. - 제10항에 있어서,
결합 정보는,
촬영 구도, 촬영 위치 및 촬영 품질 중 적어도 하나를 포함하되,
정보 결합부는,
촬영 구도별로 합산된 촬영 품질 점수를 기반으로 촬영 구도를 선정하고, 촬영 위치별로 합산된 촬영 품질 점수를 기반으로 촬영 위치를 선정하고, 선정된 촬영 구도로 인식된 프레임들의 품질 점수의 평균으로 촬영 품질을 산출하여 결합 정보로 사용하는, 촬영본 영상 분석 장치. - 제10항에 있어서, 소정 요소는,
프레임에 포함된 주요 선의 방향이 일정한 정도인 선의 방향성, 선의 선명한 정도인 선예도 및 사전에 구축된 촬영 구도 데이터와 프레임에 포함된 객체 정보를 비교한 유사도 중 적어도 하나를 포함하는, 촬영본 영상 분석 장치. - 제12항에 있어서, 장소 및 시간 정보 추출부는,
미리 학습된 촬영 구도 검출 모델을 기반으로 추정된 프레임의 촬영 구도, 색상 분포 및 키 프레임 중 적어도 하나를 촬영 장소 인식 모델 및 촬영 시간 인식 모델에 입력하여 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정해내는, 촬영본 영상 분석 장치. - 제11항에 있어서,
추정된 촬영 장소 및 촬영 시간을 기반으로 프레임들을 소정 그룹들로 클러스터링하는 장소 및 시간 기준 그룹화부를 더 포함하고,
정보 결합부는,
그룹 결과를 기반으로 결합 정보를 선별하는, 촬영본 영상 분석 장치. - 제14항에 있어서,
결합 정보는,
시간 그룹 및 장소 그룹 중 적어도 하나를 포함하되,
정보 결합부는,
각 그룹들에 속한 프레임의 개수를 기반으로 결합 정보로 사용될 시간 그룹 및 장소 그룹을 결정하는, 촬영본 영상 분석 장치. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200082871A KR102605070B1 (ko) | 2020-07-06 | 2020-07-06 | 인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치 |
US17/166,444 US11886499B2 (en) | 2020-07-06 | 2021-02-03 | Apparatus for training recognition model, apparatus for analyzing video, and apparatus for providing video search service |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200082871A KR102605070B1 (ko) | 2020-07-06 | 2020-07-06 | 인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220005255A KR20220005255A (ko) | 2022-01-13 |
KR102605070B1 true KR102605070B1 (ko) | 2023-11-24 |
Family
ID=79166857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200082871A KR102605070B1 (ko) | 2020-07-06 | 2020-07-06 | 인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11886499B2 (ko) |
KR (1) | KR102605070B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115115822B (zh) * | 2022-06-30 | 2023-10-31 | 小米汽车科技有限公司 | 车端图像处理方法、装置、车辆、存储介质及芯片 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008097233A (ja) * | 2006-10-10 | 2008-04-24 | Matsushita Electric Ind Co Ltd | カメラワーク制御装置およびカメラワーク制御方法 |
WO2020054241A1 (ja) * | 2018-09-12 | 2020-03-19 | ソニー株式会社 | 画像処理装置、プログラムおよび画像処理方法 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3560670B2 (ja) * | 1995-02-06 | 2004-09-02 | 富士通株式会社 | 適応的認識システム |
AUPQ464099A0 (en) * | 1999-12-14 | 2000-01-13 | Canon Kabushiki Kaisha | Emotive editing system |
US20050104958A1 (en) * | 2003-11-13 | 2005-05-19 | Geoffrey Egnal | Active camera video-based surveillance systems and methods |
US20080019661A1 (en) * | 2006-07-18 | 2008-01-24 | Pere Obrador | Producing output video from multiple media sources including multiple video sources |
KR101582142B1 (ko) | 2008-06-06 | 2016-01-05 | 톰슨 라이센싱 | 이미지들의 유사성 검색을 위한 시스템 및 방법 |
KR101539043B1 (ko) | 2008-10-31 | 2015-07-24 | 삼성전자주식회사 | 인물 구도 제안 영상 촬영 장치 및 방법 |
CN103299324B (zh) * | 2010-11-11 | 2016-02-17 | 谷歌公司 | 使用潜在子标记来学习用于视频注释的标记 |
US9848120B2 (en) * | 2015-05-08 | 2017-12-19 | Fast Model Technology Llc | System and method for preserving video clips from a handheld device |
WO2017051064A1 (en) * | 2015-09-23 | 2017-03-30 | Nokia Technologies Oy | Video recording method and apparatus |
US10255667B2 (en) * | 2015-12-23 | 2019-04-09 | Vmware, Inc. | Quantitative visual perception quality measurement for virtual desktops |
US20180065247A1 (en) * | 2016-09-07 | 2018-03-08 | Autodesk, Inc. | Configuring a robotic camera to mimic cinematographic styles |
KR20180058380A (ko) | 2016-11-24 | 2018-06-01 | 삼성에스디에스 주식회사 | 추천 구도 기반 촬영 방법 및 시스템 |
US10679046B1 (en) * | 2016-11-29 | 2020-06-09 | MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. | Machine learning systems and methods of estimating body shape from images |
EP3565243A4 (en) | 2017-01-20 | 2020-01-01 | Huawei Technologies Co., Ltd. | METHOD AND DEVICE FOR GENERATING IMAGE RECORDING INFORMATION |
US10055644B1 (en) * | 2017-02-20 | 2018-08-21 | At&T Intellectual Property I, L.P. | On demand visual recall of objects/places |
GB2575388A (en) * | 2017-04-11 | 2020-01-08 | Tagflix Inc | Method, apparatus and system for discovering and displaying information related to video content |
US10536700B1 (en) * | 2017-05-12 | 2020-01-14 | Gopro, Inc. | Systems and methods for encoding videos based on visuals captured within the videos |
KR102438201B1 (ko) | 2017-12-01 | 2022-08-30 | 삼성전자주식회사 | 사진 촬영과 관련된 추천 정보를 제공하는 방법 및 시스템 |
KR102203109B1 (ko) * | 2018-10-18 | 2021-01-14 | 한국과학기술원 | 인공 신경망에 기반한 영상 처리 방법 및 장치 |
US20220044414A1 (en) | 2018-10-18 | 2022-02-10 | Korea Advanced Institute Of Science And Technology | Method and device for processing image on basis of artificial neural network |
KR102144978B1 (ko) * | 2018-10-19 | 2020-08-14 | 인하대학교 산학협력단 | 영상의 쇼트 분류를 이용한 사용자 맞춤형 영상 추천 시스템 |
JP7162550B2 (ja) * | 2019-02-15 | 2022-10-28 | オムロン株式会社 | モデル生成装置、予測装置、モデル生成方法、及びモデル生成プログラム |
JP7129931B2 (ja) * | 2019-02-22 | 2022-09-02 | 富士フイルム株式会社 | 画像処理装置、画像処理方法、プログラムおよび記録媒体 |
WO2020189058A1 (ja) * | 2019-03-20 | 2020-09-24 | ソニー株式会社 | 画像処理装置、画像処理方法、プログラム |
KR102201858B1 (ko) | 2019-08-26 | 2021-01-12 | 엘지전자 주식회사 | 인공지능 기반 영상 편집 방법 및 지능형 디바이스 |
US11158090B2 (en) * | 2019-11-22 | 2021-10-26 | Adobe Inc. | Enhanced video shot matching using generative adversarial networks |
-
2020
- 2020-07-06 KR KR1020200082871A patent/KR102605070B1/ko active IP Right Grant
-
2021
- 2021-02-03 US US17/166,444 patent/US11886499B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008097233A (ja) * | 2006-10-10 | 2008-04-24 | Matsushita Electric Ind Co Ltd | カメラワーク制御装置およびカメラワーク制御方法 |
WO2020054241A1 (ja) * | 2018-09-12 | 2020-03-19 | ソニー株式会社 | 画像処理装置、プログラムおよび画像処理方法 |
Also Published As
Publication number | Publication date |
---|---|
US20220004773A1 (en) | 2022-01-06 |
US11886499B2 (en) | 2024-01-30 |
KR20220005255A (ko) | 2022-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104520875B (zh) | 优选用于搜索和检索目的的从视频内容提取描述符的方法和装置 | |
Sun et al. | Photo assessment based on computational visual attention model | |
Petrovic et al. | Adaptive video fast forward | |
TW200536389A (en) | Intelligent key-frame extraction from a video | |
US9626585B2 (en) | Composition modeling for photo retrieval through geometric image segmentation | |
US7904815B2 (en) | Content-based dynamic photo-to-video methods and apparatuses | |
CN112418012B (zh) | 一种基于时空注意力模型的视频摘要生成方法 | |
Li et al. | Videography-based unconstrained video analysis | |
KR102605070B1 (ko) | 인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치 | |
Jiang et al. | Jointly learning the attributes and composition of shots for boundary detection in videos | |
CN110188625B (zh) | 一种基于多特征融合的视频精细结构化方法 | |
Tzelepis et al. | Video aesthetic quality assessment using kernel Support Vector Machine with isotropic Gaussian sample uncertainty (KSVM-IGSU) | |
Carbonneau et al. | Real-time visual play-break detection in sport events using a context descriptor | |
JP4369308B2 (ja) | 代表画像選択装置,代表画像選択方法および代表画像選択プログラム | |
CN113255423A (zh) | 从视频提取配色方案的方法及装置 | |
EP2345978A1 (en) | Detection of flash illuminated scenes in video clips and related ranking of video clips | |
Çakar et al. | Creating cover photos (thumbnail) for movies and tv series with convolutional neural network | |
Kittler et al. | Generation of semantic cues for sports video annotation | |
WO2007072347A2 (en) | System and method for processing video | |
Qiu et al. | Dual focus attention network for video emotion recognition | |
Kuzovkin et al. | Context-aware clustering and assessment of photo collections | |
Li et al. | Outdoor place recognition using compact local descriptors and multiple queries with user verification | |
Sargin et al. | Boosting video classification using cross-video signals | |
Trojahn et al. | A new multimodal deep-learning model to video scene segmentation | |
Çakar et al. | Thumbnail Selection with Convolutional Neural Network Based on Emotion Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |