KR102605070B1 - 인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치 - Google Patents

인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치 Download PDF

Info

Publication number
KR102605070B1
KR102605070B1 KR1020200082871A KR20200082871A KR102605070B1 KR 102605070 B1 KR102605070 B1 KR 102605070B1 KR 1020200082871 A KR1020200082871 A KR 1020200082871A KR 20200082871 A KR20200082871 A KR 20200082871A KR 102605070 B1 KR102605070 B1 KR 102605070B1
Authority
KR
South Korea
Prior art keywords
shooting
frame
time
location
composition
Prior art date
Application number
KR1020200082871A
Other languages
English (en)
Other versions
KR20220005255A (ko
Inventor
손정우
곽창욱
김선중
이호재
한민호
함경준
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020200082871A priority Critical patent/KR102605070B1/ko
Priority to US17/166,444 priority patent/US11886499B2/en
Publication of KR20220005255A publication Critical patent/KR20220005255A/ko
Application granted granted Critical
Publication of KR102605070B1 publication Critical patent/KR102605070B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Abstract

촬영본 영상 분석 장치가 개시된다. 본 발명의 실시예에 따른 촬영본 영상 분석 장치는, 적어도 하나의 프로그램 및 프로그램이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은 촬영본으로부터 적어도 하나의 프레임을 추출하는 프레임 추출부, 미리 학습된 촬영 구도 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 구도 및 촬영 위치를 추정하는 촬영 구도 및 위치 인식부, 미리 학습된 촬영 장소 인식 모델 및 촬영 시간 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정하는 장소 및 시간 정보 추출부 및 프레임별로 추정된 정보들을 촬영본 별로 결합하고, 결합 정보를 촬영본에 태깅하는 정보 결합부를 포함할 수 있다.

Description

인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치{Apparatus for Learning Recognition Model, Apparatus for Analyzing Video and Apparatus for Providing Video Searching Service}
기재된 실시예는 영상 콘텐츠의 촬영본 분석 및 이를 활용한 검색 기술에 관한 것이다.
방송, 영화 등의 영상 콘텐츠는 전문적인 제작자가 참여하여 수많은 촬영본을 제작한 후, 최종 편집을 통해 완성된다. 이 과정은 영상 콘텐츠가 서비스된 지난 수십 년간 다듬어져, 다양한 제작 기법들이 제작 인력 양상 과정에서 교육이 되고 있다. 이러한 제작 기법 중, 영상의 구도는 콘텐츠의 스토리를 강조하고, 시청자가 그 흐름에 집중하도록 하는 중요한 매개체이다.
따라서 촬영 과정에서는 동일한 장면이라도 다양한 구도로 반복하여 촬영하게 되고, 최종 편집 과정에서는 전체 영상의 흐름을 고려하여 적합한 구도를 선택한다. 영상 제작에서 이 과정은 PD, 감독 등 제작자가 감당해야 하는 작업으로, 제작자가 촬영본의 정렬/검색/선택을 모두 수동으로 영상을 일일이 보고 진행하게 된다. 영화나 다큐멘터리 등 상업적으로 활용되는 대부분의 영상 콘텐츠 제작에서는 수천 개까지의 촬영본이 제작되기 때문에 모든 촬영본을 일일이 본 후에 선택하는 과정은 많은 시간이 소요되므로 그에 따른 인건비 또한 상승하게 된다.
따라서, 영상 콘텐츠의 제작시, 촬영된 촬영본을 최종 편집하여 콘텐츠를 제작하는 과정에 필요한 시간 및 인건비를 감소시키는 데 그 목적이 있다.
실시예에 따른 인식 모델 학습 장치는, 적어도 하나의 프로그램 및 프로그램이 기록된 메모리 및 적어도 하나의 프로그램을 실행하는 프로세서를 포함하며, 적어도 하나의 프로그램은, 촬영 구도 및 촬영 위치가 태깅된 촬영본을 학습 데이터로 하여 촬영 구도 및 촬영 위치를 추정하는 신경망 모델을 생성하는 촬영 구도 인식 모델 생성부 및 촬영 시간 및 촬영 장소가 태깅된 촬영본을 학습 데이터로 하여 촬영 시간 및 촬영 장소를 추정하는 신경망 모델을 생성하는 촬영 시간 및 장소 인식 모델 생성부를 포함할 수 있다.
이때, 촬영 구도 인식 모델 생성부는, 촬영본으로부터 적어도 하나의 프레임을 추출하여 프레임 단위의 데이터를 구성하는 프레임 추출부, 추출된 적어도 하나의 프레임에 포함된 객체에 관련된 영상 특징을 추출하는 영상 특징 추출부 및 추출된 영상 특징이 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 구도 및 촬영 위치를 추정하도록 신경망 모델인 촬영 구도 인식 모델을 학습시키는 인식 모델 학습부를 포함할 수 있다.
이때, 촬영 구도는, 익스트림 롱샷, 롱샷, 풀샷, 니샷, 웨이스트샷, 바스트샷, 클로즈샷, 클로즈업샷, 익스트림 클로즈업샷 및 오버 숄더샷 중 적어도 하나를 포함할 수 있다.
이때, 촬영 구도 각각은, 촬영 위치에 따라 하이 앵글 샷, 로우앵글 샷, 일반 샷 중 적어도 하나로 분류될 수 있다.
이때, 촬영 구도 인식 모델 생성부는, 촬영본으로부터 오디오 스펙트럼(audio spectrum)을 추출하는 음성 특징 추출부를 더 포함하고, 인식 모델 학습부는, 오디오 스펙트럼이 입력됨에 따라 해당 촬영본에 태깅되어 있는 촬영 구도 및 촬영 위치를 추정하도록 신경망 모델인 촬영 구도 인식 모델을 학습시킬 수 있다.
이때, 촬영 시간 및 장소 인식 모델 생성부는, 촬영본으로부터 적어도 하나의 프레임을 추출하여 프레임 단위의 데이터를 구성하는 프레임 추출부 및 추출된 프레임의 촬영 구도, 색상 분포 및 키 프레임 중 적어도 하나가 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 장소 또는 촬영 시간을 추정하도록 촬영 장소 인식 모델 또는 시간 인식 모델을 학습시키는 인식 모델 학습부를 포함할 수 있다.
이때, 프레임 추출부 및 인식 모델 학습부 사이에, 미리 학습된 촬영 구도 인식 모델을 기반으로 추출된 프레임에서 촬영 구도를 추정하는 촬영 구도 추출부, 추출된 프레임에서 색상 분포를 추출해내는 영상 특징 추출부 및 추출된 프레임들 중에 대표 프레임 추출해내는 키 프레임 추출부 중 적어도 하나를 포함할 수 있다.
이때, 영상 특징 추출부는, 프레임의 복수의 분할 영역들 각각의 색상 분포 및 프레임 전체의 색상 분포를 추출해낼 수 있다.
실시예에 따른 촬영본 영상 분석 장치는, 적어도 하나의 프로그램 및 프로그램이 기록된 메모리 및 적어도 하나의 프로그램을 실행하는 프로세서를 포함하며, 적어도 하나의 프로그램은, 촬영본으로부터 적어도 하나의 프레임을 추출하는 프레임 추출부, 미리 학습된 촬영 구도 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 구도 및 촬영 위치를 추정하는 촬영 구도 및 위치 인식부, 미리 학습된 촬영 장소 인식 모델 및 촬영 시간 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정하는 장소 및 시간 정보 추출부 및 프레임별로 추정된 정보들을 촬영본 별로 결합하고, 결합 정보를 촬영본에 태깅하는 정보 결합부를 포함할 수 있다.
실시예에 따른 촬영본 영상 분석 장치는, 추출된 프레임별로 소정 요소들을 기반으로 촬영 품질을 측정하는 촬영 품질 측정부를 더 포함하고, 정보 결합부는, 측정된 촬영 품질을 기반으로 결합 정보를 선별할 수 있다.
이때, 결합 정보는, 촬영 구도, 촬영 위치 및 촬영 품질 중 적어도 하나를 포함하되, 정보 결합부는, 촬영 구도별로 합산된 촬영 품질 점수를 기반으로 촬영 구도를 선정하고, 촬영 위치별로 합산된 촬영 품질 점수를 기반으로 촬영 위치를 선정하고, 선정된 촬영 구도로 인식된 프레임들의 품질 점수의 평균으로 촬영 품질을 산출하여 결합 정보로 사용할 수 있다.
이때, 소정 요소는, 프레임에 포함된 주요 선의 방향이 일정한 정도인 선의 방향성, 선의 선명한 정도인 선예도 및 사전에 구축된 촬영 구도 데이터와 프레임에 포함된 객체 정보를 비교한 유사도 중 적어도 하나를 포함할 수 있다.
이때, 장소 및 시간 정보 추출부는, 미리 학습된 촬영 구도 검출 모델을 기반으로 추정된 프레임의 촬영 구도, 색상 분포 및 키 프레임 중 적어도 하나를 촬영 장소 인식 모델 및 촬영 시간 인식 모델에 입력하여 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정해낼 수 있다.
실시예에 따른 촬영본 영상 분석 장치는, 추정된 촬영 장소 및 촬영 시간을 기반으로 프레임들을 소정 그룹들로 클러스터링하는 장소 및 시간 기준 그룹화부를 더 포함하고, 정보 결합부는, 그룹 결과를 기반으로 결합 정보를 선별할 수 있다.
이때, 결합 정보는, 시간 그룹 및 장소 그룹 중 적어도 하나를 포함하되, 정보 결합부는, 각 그룹들에 속한 프레임의 개수를 기반으로 결합 정보로 사용될 시간 그룹 및 장소 그룹을 결정할 수 있다.
실시예에 따른 촬영본 검색 서비스 제공 장치는, 적어도 하나의 프로그램 및 프로그램이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은, 검색 키워드가 입력됨에 따라, 해당 검색 키워드에 상응하는 적어도 하나의 항목이 태깅된 촬영본을 검색하는 태깅 항목 검색부 및 검색된 적어도 하나의 촬영본을 출력하는 촬영본 출력부를 포함할 수 있다.
이때, 항목은, 촬영구도, 촬영위치, 실제촬영장소 및 실제촬영시간 중 적어도 하나를 포함할 수 있다.
실시예에 따른 촬영본 검색 서비스 제공 장치는, 검색된 촬영본들이 복수일 경우, 검색된 촬영본들을 소정 기준에 따라 정렬하는 촬영본 정렬부를 더 포함하되, 촬영본 출력부는, 촬영본 정렬부에 의해 정렬된 순서로 촬영본들을 출력할 수 있다.
이때, 촬영본 정렬부는, 복수의 촬영본들 각각에 태깅된 다른 항목들을 참조하여 촬영본들을 정렬할 수 있다.
실시예에 따른 촬영본 검색 서비스 제공 장치는, 이미 제작된 영화에 대한 영화 문법(film grammar) 정보를 저장하는 DB를 더 포함하고, 촬영본 정렬부는, 영화 문법 정보를 기반으로 이전에 선택된 촬영본의 촬영 구도와 최적으로 매칭되는 촬영 구도가 태깅된 촬영본 순으로 정렬할 수 있다.
실시예에 따라, 수천 개의 촬영본을 제작하고 일일이 찾아야 하는 방송 및 영화 등 상업 영상 제작 환경을 개선할 수 있을 것으로 기대된다.
도 1은 실시예에 따른 영상 콘텐츠의 촬영본 분석 기반 검색 시스템의 개략적인 블록 구성도이다.
도 2는 실시예에 따른 촬영 구도 인식 모델 생성부의 블록 구성도이다.
도 3은 실시예에 따른 촬영 시간 및 장소 인식 모델 생성부의 개략적인 블록 구성도이다.
도 4는 실시예에 따른 촬영본 영상 분석 장치의 개략적인 블록 구성도이다.
도 5는 실시예에 따른 품질 측정부에 의해 고려되는 속성들의 예시도이다.
도 6은 실시예에 따른 장소 및 시간 정보 추출부의 개략적인 블록 구성도이다.
도 7은 실시예에 따른 촬영본 검색 서비스 제공 장치의 개략적인 블록 구성도이다.
도 8은 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
비록 "제1" 또는 "제2" 등이 다양한 구성요소를 서술하기 위해서 사용되나, 이러한 구성요소는 상기와 같은 용어에 의해 제한되지 않는다. 상기와 같은 용어는 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용될 수 있다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.
본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소 또는 단계가 하나 이상의 다른 구성요소 또는 단계의 존재 또는 추가를 배제하지 않는다는 의미를 내포한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 해석될 수 있다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하에서는, 도 1 내지 도 8을 참조하여 실시예에 따른 장치 및 방법이 상세히 설명된다.
도 1은 실시예에 따른 영상 콘텐츠의 촬영본 분석 기반 검색 시스템의 개략적인 블록 구성도이다.
도 1을 참조하면, 영상 콘텐츠의 촬영본 분석 기반 검색 시스템은, 크게 모델 학습 장치(100, 200), 인식 모델 DB(10), 촬영본 영상 분석 장치(300), 촬영본 DB(20) 및 촬영본 검색 서비스 제공 장치(400)를 포함할 수 있다.
모델 학습 장치(100, 200)는 촬영본의 촬영 구도, 촬영 시간, 촬영 장소를 인식할 수 있는 인공 지능 인식 모델의 학습을 수행한다. 상세하게는, 촬영 구도 및 촬영 위치가 태깅된 촬영본을 학습 데이터로 하여 촬영 구도 및 촬영위치를 추정하는 신경망 모델을 생성하는 촬영 구도 인식 모델 생성부(100)(도 2 참조) 및 촬영 시간 및 촬영 장소가 태깅된 촬영본을 학습 데이터로 하여 촬영 시간 및 촬영 장소를 추정하는 신경망 모델을 생성하는 촬영 시간 및 인식 모델 생성부(200)(도 3 참조)를 포함할 수 있다.
촬영본 영상 분석 장치(300)는, 다수의 촬영본을 저장할 때, 콘텐츠 내 동일한 장소/시간 및 촬영본의 구도 정보를 추출하여 함께 저장한 후, 특정 구도의 촬영본을 쉽게 검색 및 활용할 수 있도록 하고자 한다. 즉, 촬영본 영상 분석 장치(300)는, 촬영본 영상 분석 장치(300)는, 사용자가 하나의 영상 콘텐츠 제작을 위해 촬영된 모든 촬영본들을 업로드함에 따라, 해당 촬영본들별로 촬영 구도, 촬영 위치, 촬영 장소 및 촬영 시간을 분석하고, 분석된 정보들을 해당 촬영본에 태깅하여 촬영본 DB(20)에 저장해둔다. 실시예에 따라, 촬영본의 촬영 구도 및 품질을 측정하고, 촬영본 내 영상이 표현하는 장소와 시간을 추가 분석하여 해당 내용을 태깅한다. 이에 대한 상세한 설명은 도 4 내지 6을 참조하여 후술하기로 한다.
촬영본 검색 서비스 제공 장치(400)는 제작자가 콘텐츠를 최종 편집할 때, 촬영본 DB(20)에 저장된 촬영본의 태깅된 항목을 복수의 조건을 기반으로 검색할 수 있는 기능을 제공한다. 이때, 동일 촬영 구도를 가지는 촬영본 사이에도 구도의 적합성을 판단하여 더 나은 촬영본을 검색 결과 상위에 위치하도록 하며, 이전에 제작된 장면 내 촬영 구도의 흐름을 고려하여 적합한 구도를 먼저 제안하는 것을 특징으로 한다. 예컨대, 순차적으로 촬영본을 선택할 때, 필름 문법(film grammar)에 입각한 촬영 구도 시퀀스의 분석을 통해 이전에 선택된 구도를 고려하여 현재 장면에 적합한 촬영 구도를 제안함으로써 제작자의 선택에 도움을 주고자 한다. 이에 대한 상세한 설명은 도 7을 참조하여 후술하기로 한다.
도 2는 실시예에 따른 촬영 구도 인식 모델 생성부의 블록 구성도이다.
도 2를 참조하면, 촬영 구도 인식 모델 생성부(100)는, 촬영 구도 학습 데이터 DB(110), 프레임 추출부(120), 영상 특징 추출부(130) 및 인식 모델 학습부(140)를 포함할 수 있다. 부가적으로, 음성 특징 추출부(150)를 더 포함할 수 있다.
촬영 구도 학습 데이터 DB(110)는, 촬영 구도 인식 모델을 학습시키기 위한 학습 데이터를 저장하는 것으로, 학습 데이터는 편집 과정이 이루어지기 전 촬영본 영상과 해당 촬영본 영상이 촬영된 촬영 구도 및 촬영 위치가 태깅된 상태로 저장될 수 있다.
이때, 촬영 구도는, 익스트림 롱샷, 롱샷, 풀샷, 니샷, 웨이스트샷, 바스트샷, 클로즈샷, 클로즈업샷, 익스트림 클로즈업샷 및 오버 숄더샷 중 적어도 하나로 정의될 수 있다.
또한, 촬영 구도 각각은, 촬영 위치에 따라 하이 앵글 샷, 로우앵글 샷, 일반 샷 중 적어도 하나로 분류될 수 있다.
따라서, 복수의 촬영본 영상들 각각은 전술한 촬영 구도 및 촬영 위치 중 하나로 태깅되어 저장될 수 있다. 예컨대, 도 2에 도시된 바와 같이, 촬영본 1은 와이드 샷, 하이 앵글이 태깅되어 저장될 수 있고, 촬영본 2는 숄더 샷, 일반 앵글이 태깅되어 저장될 수 있다.
프레임 추출부(120)는, 촬영 구도 학습 데이터 DB(110)에 저장된 촬영본 영상들 각각에 대해 소정 개수의 주요 프레임들을 추출하여 프레임 단위의 데이터를 구성한다. 따라서, 생성되는 촬영 구도 인식 모델은 하나의 프레임이 입력되면, 해당 프레임이 속한 촬영본의 구도 및 촬영 위치를 추정하도록 학습된다.
이를 위해, 추출된 프레임에서 특징(Feature)이 추출된다. 이때, 특징은 영상 특징 및 음향 특징이 추출될 수 있다.
영상 특징 추출부(130)는, 추출된 프레임으로부터 객체 확률, 주요 객체(사람/동물/차량 등)의 위치 및 크기, 모든 객체의 크기 평균 및 분산을 추출할 수 있다. 이는 프레임 구도가 보여지는 객체의 크기, 모습에 변화를 주는 것에 착안된 것이다. 이때, 영상 특징 추출부(130)는 CNN과 같은 영상 인식 알고리즘이 사용될 수 있다.
인식 모델 학습부(140)는, 영상 특징 추출부(130)로부터 추출된 특징이 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 구도 및 촬영 위치를 추정하도록 신경망 모델인 촬영 구도 인식 모델을 학습시킨다.
이때, 촬영 구도 인식 모델은, 추출된 특징을 활용할 수 있는 모든 형태의 분류 모델로, Inception, Resnet 등의 알고리즘이 사용될 수 있다.
부가적으로, 음성 특징 추출부(140)는, 촬영본 각각으로부터 오디오 스펙트럼(audio spectrum)을 추출할 수 있다. 이때, 음성 특징은 촬영본에서 추출된 프레임이 아닌 촬영본 별로 추출되며, 동일한 촬영본에서 추출된 프레임들은 동일한 음성 특징을 공유할 수 있다.
이때, 인식 모델 학습부(140)는, 영상 특징 추출부(130)가 추출한 영상 특징과 아울러 음성 특징을 촬영 구도 인식 모델의 입력으로 할 수 있다. 이러한 음성 특징은 등장 인물의 대화를 동반하는 경우가 많은 촬영 구도, 롱샷류의 구도가 주변 소음만을 담는 경우가 많은 촬영 구도 등과 같이 촬영 구도에 따른 오디오 상황 정보를 촬영 구도 인식 모델이 고려하여 학습되도록 하기 위해 사용된다.
전술한 바와 같이 학습된 촬영 구도 인식 모델은 인공 지능 모델 DB(10)에 저장될 수 있다.
도 3은 실시예에 따른 촬영 시간 및 장소 인식 모델 생성부의 개략적인 블록 구성도이다.
도 3을 참조하면, 촬영 시간 및 장소 인식 모델 생성부(200)는, 시간/장소 학습 데이터 DB(210), 프레임 추출부(220), 촬영 구도 추출부(230), 영상 특징 추출부(240), 키프레임 추출부(250) 및 인식 모델 학습부(260)를 포함할 수 있다.
시간/장소 학습 데이터 DB(210)는, 촬영 시간 인식 모델 및 촬영 장소 인식 모델을 학습시키기 위한 학습 데이터를 저장하는 것으로, 학습 데이터는 편집 과정이 이루어지기 전 촬영본 영상과 해당 촬영본 영상에 대응하는 촬영 장소 및 촬영 시간이 태깅된 상태로 저장될 수 있다.
이때, 촬영 시간은, 예컨대, 낮, 밤, 아침 및 저녁과 같이 정의될 수 있고, 촬영 장소는, 예컨대, 사무실, 공원, 교실 등과 같이 정의될 수 있다.
따라서, 복수의 촬영본 영상들 각각은 전술한 촬영 장소 및 촬영 시간 중 하나로 태깅되어 저장될 수 있다. 예컨대, 도 3에 도시된 바와 같이, 촬영본 1은 사무실, 낮이 태깅되어 저장될 수 있고, 촬영본 2는 공원, 밤이 태깅되어 저장될 수 있다.
프레임 추출부(220)는, 촬영 시간/장소 학습 데이터 DB(210)에 저장된 촬영본 영상들 각각에 대해 소정 개수의 주요 프레임들을 추출하여 프레임 단위의 데이터를 구성한다. 따라서, 촬영 시간 인식 모델은 하나의 프레임이 입력되면, 해당 프레임이 속한 촬영본의 촬영 시간을 추정하도록 학습되고, 촬영 장소 인식 모델은 하나의 프레임이 입력되면, 해당 프레임이 속한 촬영본의 촬영 장소를 추정하도록 학습될 수 있다.
이를 위해, 추출된 프레임에서 소정 특징이 추출되어 촬영 시간 인식 모델 및 촬영 장소 인식 모델의 입력으로 사용될 수 있다. 이때, 특징은 촬영 구도, 영상 특징 및 키 프레임 중 적어도 하나일 추출될 수 있다.
촬영 구도 추출부(230)는, 촬영 구도 인식 모델 생성부(100)에 의해 생성되어 인공 지능 모델 DB(10)에 저장된 촬영 구도 인식 모델을 기반으로 추출된 프레임에서 촬영 구도를 추정해낸다.
영상 특징 추출부(240)는, 추출된 프레임에서 색상 분포를 추출해낸다. 이는 촬영 시간 및 촬영 장소에 따라 프레임의 색상 분포가 달라질 수 있기 때문이다. 예컨대, 촬영 시간이 노을이 지는 저녁일 경우 프레임의 색상 분포로 붉은색이 큰 비중을 차지될 수 있고, 촬영 장소가 바닷가인 경우 프레임의 색상 분포로 푸른 색이 큰 비중을 차지할 수 있기 때문이다.
이때, 색상 분포는, 프레임의 분할된 복수의 영역들, 예컨대 9 x 9 개의 분할 영역들 각각의 색상 분포 및 프레임 전체의 색상 분포를 추출해낸다. 이는 촬영 구도에 따라 장소 및 시간 정보가 표현되는 영역이 한정적인 경우(바스트샷, 클로즈샷, 오버 숄더샷, 니샷, 웨이스트샷 등)와 전체 프레임 영역에서 표현되는 경우(익스트림 롱샷, 롱샷, 풀샷 등)를 모두 고려하기 때문이다.
또한, 키 프레임 추출부(250)는, 추출된 프레임들 중에 대표 프레임을 특징으로 추출해낸다.
인식 모델 학습부(260)는, 촬영 구도, 프레임의 색상 분포 및 키 프레임 중 적어도 하나가 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 장소를 추정하도록 촬영 장소 인식 모델을 학습시킨다.
또한, 인식 모델 학습부(260)는, 촬영 구도, 프레임의 색상 분포 및 키 프레임 중 적어도 하나가 입력됨에 따라 해당 프레임에 태깅되어 있는 촬영 시간을 추정하도록 촬영 시간 인식 모델을 학습시킨다.
이때, 인식 모델은, 추출된 특징을 활용할 수 있는 모든 형태의 분류 모델로, Inception, Resnet 등의 알고리즘이 사용될 수 있다.
전술한 바와 같이 학습된 촬영 장소 인식 모델 및 촬영 시간 인식 모델은 인공 지능 모델 DB(10)에 저장될 수 있다.
도 4는 실시예에 따른 촬영본 영상 분석 장치의 개략적인 블록 구성도이고, 도 5는 실시예에 따른 품질 측정부에 의해 고려되는 속성들의 예시도이고, 도 6은 실시예에 따른 장소 및 시간 정보 추출부의 개략적인 블록 구성도이다.
도 4를 참조하면, 촬영본 영상 분석 장치(300)는, 프레임 추출부(310), 촬영 구도 및 위치 인식부(320), 촬영 품질 측정부(330), 장소 및 시간 정보 추출부(340), 장소 및 시간 기준 그룹화부(350) 및 정보 결합부(360)를 포함할 수 있다.
프레임 추출부(310)는, 먼저 입력된 촬영본들 각각에 대해 소정 개수의 주요 프레임을 추출할 수 있다.
촬영 구도 및 위치 인식부(320)는, 인공 지능 모델 DB(10)에 저장된 촬영 구도 인식 모델을 기반으로 추출된 프레임에 대해 촬영 구도 및 촬영 위치를 인식해낸다.
촬영 품질 측정부(330)는, 인식된 촬영 구도 및 촬영 위치 정보가 인식된 프레임이 입력됨에 따라, 다양한 요소들을 고려하여 해당 프레임의 품질을 측정한다.
이때, 촬영 품질 측정 기준이 되는 요소는, 도 5에 도시된 바와 같은 선의 방향성(331), 선예도(332) 및 기존 구도 간 유사도(333)이 포함될 수 있다.
이때, 선의 방향성(331)은, 프레임에 포함된 주요 선(line)의 방향이 일정한 정도로, 0~1.0 사이의 값으로 나타낼 수 있다.
선예도(332)는, 화상의 선명도를 나타내는 것으로, 0~1.0 사이의 값으로 나타낼 수 있다.
기존 구도 간 유사도(333)는, 사전에 구축된 촬영 구도 DB(30)로부터 검출된 촬영 구도 및 위치 데이터를 기반으로 주요 객체(사람/동물/차량 등)의 위치 및 크기, 프레임에 등장하는 모든 객체의 크기 평균 및 분산을 비교하여 측정된 최대 유사도(0~1.0 사이)일 수 있다.
따라서, 촬영 품질 측정부(330)는, 촬영 품질 측정 요소들별 점수를 합산하여 촬영 품질 점수를 매길 수 있다.
장소 및 시간 정보 추출부(340)는, 인공 지능 모델 DB(10)에 저장된 촬영 장소 인식 모델 및 촬영 시간 인식 모델을 이용하여 추출된 프레임에 대해 촬영 장소 및 촬영 시간을 인식해낸다.
도 6을 참조하면, 장소 및 시간 정보 추출부(340)는, 영상 특징 추출부(341) 및 키 프레임 추출부(342) 및 인식부(343)를 포함할 수 있다.
이를 위해, 촬영 구도 추출부(230)는, 인공 지능 모델 DB(10)에 저장된 촬영 구도 검출 모델을 기반으로 프레임의 촬영 구도를 추정해낸다.
영상 특징 추출부(240)는, 프레임의 색상 분포를 추출해낸다. 이때, 색상 분포는, 프레임의 분할된 복수의 영역들, 예컨대 9 x 9 개의 분할 영역들 각각의 색상 분포 및 프레임 전체의 색상 분포를 추출해낸다.
또한, 키 프레임 추출부(250)는, 추출된 프레임을 특징으로 사용한다.
인식부(260)는, 촬영 구도 및 위치 인식부(320)에 의해 미리 인식된 촬영 구도 및 촬영 위치, 영상 특징 추출부(341)에 의해 추출된 프레임의 색상 분포 및 키 프레임 추출부(342)에 의해 추출된 키 프레임 중 적어도 하나가 입력됨에 따라 해당 프레임의 촬영 장소 및 촬영 시간을 추정해낸다.
장소 및 시간 기준 그룹화부(350)는, 추정된 촬영 장소 및 촬영 시간을 기반으로 프레임들을 클러스터링하여 촬영 장소 및 촬영 시간이 유사한 프레임들끼리 그룹화한다. 이때, 촬영 장소 및 촬영 시간의 그룹 수는 사용자에 의해 설정될 수 있다.
정보 결합부(360)는, 프레임 단위로 인식된 결과는 각 촬영본 별로 결합하고, 결합된 정보를 촬영본에 태깅하여 촬영본 DB(20)에 저장한다.
이때, 결합되는 정보는, 촬영구도, 촬영위치, 촬영품질, 장소집합코드, 시간집합코드, 실제촬영장소 및 실제촬영시간 중 적어도 하나가 포함될 수 있다,
이때, 촬영 구도는, 촬영 품질 측정부(330)에 의해 측정된 프레임별 촬영 품질 점수를 촬영 구도별로 합하여, 가장 높은 촬영 품질 점수를 가지는 촬영 구도가 촬영본의 촬영 구도가 될 수 있다.
촬영 위치는, 촬영 품질 측정부(330)에 의해 측정된 프레임별 촬영 품질 점수를 촬영 위치별로 합하여, 가장 높은 촬영 품질 점수를 가지는 촬영 위치가 촬영본의 촬영 위치가 될 수 있다.
촬영 품질은, 선정된 촬영 구도로 인식된 프레임들의 품질 점수의 평균일 수 있다.
시간 그룹은, 프레임에 대해 장소 및 시간 기준 그룹화부(350)에 의해 결정된 그룹에서 가장 많은 프레임들이 속한 시간 그룹으로 결정될 수 있다.
장소 그룹은, 프레임에 대해 장소 및 시간 기준 그룹화부(350)에 의해 결정된 그룹에서 가장 많은 프레임들이 속한 장소 그룹으로 결정될 수 있다.
도 7은 실시예에 따른 촬영본 검색 서비스 제공 장치의 개략적인 블록 구성도이다.
도 7을 참조하면, 촬영본 검색 서비스 제공 장치(100)는, 태깅 항목 검색부(410), 촬영본 정렬부(420) 및 촬영본 제공부(430)를 포함할 수 있다.
태깅 항목 검색부(410)는, 사용자로부터 태깅 항목들 중 하나가 검색 키워드로 입력됨에 따라, 해당 검색 키워드에 상응하는 적어도 하나의 촬영본을 촬영본 DB(20)로부터 검색해낸다.
이때, 태깅 항목은, 촬영구도, 촬영위치, 실제촬영장소 및 실제촬영시간 중 적어도 하나가 포함될 수 있다.
촬영본 정렬부(420)는, 검색된 촬영본들이 복수일 경우, 검색된 촬영본들을 소정 기준에 따라 정렬할 수 있다.
일 실시예에 따라, 촬영본 정렬부(420)는, 복수의 촬영본들 각각에 태깅된 다른 태깅 항목들을 참조하여 촬영본들을 정렬할 수 있다. 예컨대, 촬영본에 태깅된 촬영 품질 순으로 촬영본들을 정렬할 수 있다.
다른 실시예에 따라, 촬영본 정렬부(420)는, 영화 문법(film grammar)을 기반으로 이전에 선택된 촬영본의 촬영 구도와 가장 자연스럽게 매칭되는 최적의 촬영 구도를 기준으로 촬영본들을 정렬할 수 있다.
이때, 영화 문법(film grammar)은 기존 영화에서 사용되는 각 장면 및 스토리 전개별 영화 문법(film grammar) 정보로, 영화 문법 DB(440)에 저장될 수 있다. 예컨대, "전화통화"라는 이름의 영화 문법(film grammar)은 바스트 샷, 일반 앵글로 촬영된 다수의 촬영본이 순차적으로 사용되며, 이때 인물이 전환됨에 따라 주요 객체의 위치가 스위칭 된다. 따라서, 사용자가 구성하려는 장면이 "전화통화" 장면이라 선택하면, 촬영본 정렬부(420)는 검색된 촬영본들을 "전화통화"라는 영화 문법 데이터를 기반으로 사용자가 직전까지 구성한 장면의 촬영 구도와 가장 자연스럽게 매칭되는 촬영 구도가 태깅된 촬영본들 순으로 정렬한다.
촬영본 출력부(430)는, 검색된 촬영본들을 출력하되, 촬영본 정렬부(420)에 의해 정렬된 순서로 촬영본들을 출력한다.
도 8은 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.
실시예에 따른 영상 콘텐츠의 촬영본 분석 기반 검색 시스템 또는 그에 포함되는 구성 요소들 각각은 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템(1000)에서 구현될 수 있다.
컴퓨터 시스템(1000)은 버스(1020)를 통하여 서로 통신하는 하나 이상의 프로세서(1010), 메모리(1030), 사용자 인터페이스 입력 장치(1040), 사용자 인터페이스 출력 장치(1050) 및 스토리지(1060)를 포함할 수 있다. 또한, 컴퓨터 시스템(1000)은 네트워크(1080)에 연결되는 네트워크 인터페이스(1070)를 더 포함할 수 있다. 프로세서(1010)는 중앙 처리 장치 또는 메모리(1030)나 스토리지(1060)에 저장된 프로그램 또는 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1030) 및 스토리지(1060)는 휘발성 매체, 비휘발성 매체, 분리형 매체, 비분리형 매체, 통신 매체, 또는 정보 전달 매체 중에서 적어도 하나 이상을 포함하는 저장 매체일 수 있다. 예를 들어, 메모리(1030)는 ROM(1031)이나 RAM(1032)을 포함할 수 있다.
이상에서 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
10 : 인식 모델 DB 20 : 촬영본 DB
100 : 촬영 구도 인식 모델 생성부
200 : 촬영 시간 및 장소 인식 모델 생성부
300 : 촬영본 영상 분석 장치
400 : 촬영본 검색 서비스 제공 장치

Claims (20)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 적어도 하나의 프로그램 및 프로그램이 기록된 메모리; 및
    적어도 하나의 프로그램을 실행하는 프로세서를 포함하며,
    적어도 하나의 프로그램은,
    촬영본으로부터 적어도 하나의 프레임을 추출하는 프레임 추출부;
    미리 학습된 촬영 구도 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 구도 및 촬영 위치를 추정하는 촬영 구도 및 위치 인식부;
    미리 학습된 촬영 장소 인식 모델 및 촬영 시간 인식 모델을 기반으로 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정하는 장소 및 시간 정보 추출부; 및
    프레임별로 추정된 정보들을 촬영본 별로 결합하고, 결합 정보를 촬영본에 태깅하는 정보 결합부를 포함하되,
    결합 정보는,
    촬영본에 포함된 프레임들에 대한 촬영 구도, 촬영 위치, 촬영 장소 및 촬영 시간에 대한 정보들을 포함하는, 촬영본 영상 분석 장치.
  10. 제9항에 있어서,
    추출된 프레임별로 소정 요소들을 기반으로 촬영 품질을 측정하는 촬영 품질 측정부를 더 포함하고,
    정보 결합부는,
    측정된 촬영 품질을 기반으로 결합 정보를 선별하는, 촬영본 영상 분석 장치.
  11. 제10항에 있어서,
    결합 정보는,
    촬영 구도, 촬영 위치 및 촬영 품질 중 적어도 하나를 포함하되,
    정보 결합부는,
    촬영 구도별로 합산된 촬영 품질 점수를 기반으로 촬영 구도를 선정하고, 촬영 위치별로 합산된 촬영 품질 점수를 기반으로 촬영 위치를 선정하고, 선정된 촬영 구도로 인식된 프레임들의 품질 점수의 평균으로 촬영 품질을 산출하여 결합 정보로 사용하는, 촬영본 영상 분석 장치.
  12. 제10항에 있어서, 소정 요소는,
    프레임에 포함된 주요 선의 방향이 일정한 정도인 선의 방향성, 선의 선명한 정도인 선예도 및 사전에 구축된 촬영 구도 데이터와 프레임에 포함된 객체 정보를 비교한 유사도 중 적어도 하나를 포함하는, 촬영본 영상 분석 장치.
  13. 제12항에 있어서, 장소 및 시간 정보 추출부는,
    미리 학습된 촬영 구도 검출 모델을 기반으로 추정된 프레임의 촬영 구도, 색상 분포 및 키 프레임 중 적어도 하나를 촬영 장소 인식 모델 및 촬영 시간 인식 모델에 입력하여 추출된 적어도 하나의 프레임에 대해 촬영 장소 및 촬영 시간을 추정해내는, 촬영본 영상 분석 장치.
  14. 제11항에 있어서,
    추정된 촬영 장소 및 촬영 시간을 기반으로 프레임들을 소정 그룹들로 클러스터링하는 장소 및 시간 기준 그룹화부를 더 포함하고,
    정보 결합부는,
    그룹 결과를 기반으로 결합 정보를 선별하는, 촬영본 영상 분석 장치.
  15. 제14항에 있어서,
    결합 정보는,
    시간 그룹 및 장소 그룹 중 적어도 하나를 포함하되,
    정보 결합부는,
    각 그룹들에 속한 프레임의 개수를 기반으로 결합 정보로 사용될 시간 그룹 및 장소 그룹을 결정하는, 촬영본 영상 분석 장치.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
KR1020200082871A 2020-07-06 2020-07-06 인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치 KR102605070B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200082871A KR102605070B1 (ko) 2020-07-06 2020-07-06 인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치
US17/166,444 US11886499B2 (en) 2020-07-06 2021-02-03 Apparatus for training recognition model, apparatus for analyzing video, and apparatus for providing video search service

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200082871A KR102605070B1 (ko) 2020-07-06 2020-07-06 인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치

Publications (2)

Publication Number Publication Date
KR20220005255A KR20220005255A (ko) 2022-01-13
KR102605070B1 true KR102605070B1 (ko) 2023-11-24

Family

ID=79166857

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200082871A KR102605070B1 (ko) 2020-07-06 2020-07-06 인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치

Country Status (2)

Country Link
US (1) US11886499B2 (ko)
KR (1) KR102605070B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115115822B (zh) * 2022-06-30 2023-10-31 小米汽车科技有限公司 车端图像处理方法、装置、车辆、存储介质及芯片

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008097233A (ja) * 2006-10-10 2008-04-24 Matsushita Electric Ind Co Ltd カメラワーク制御装置およびカメラワーク制御方法
WO2020054241A1 (ja) * 2018-09-12 2020-03-19 ソニー株式会社 画像処理装置、プログラムおよび画像処理方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3560670B2 (ja) * 1995-02-06 2004-09-02 富士通株式会社 適応的認識システム
AUPQ464099A0 (en) * 1999-12-14 2000-01-13 Canon Kabushiki Kaisha Emotive editing system
US20050104958A1 (en) * 2003-11-13 2005-05-19 Geoffrey Egnal Active camera video-based surveillance systems and methods
US20080019661A1 (en) * 2006-07-18 2008-01-24 Pere Obrador Producing output video from multiple media sources including multiple video sources
KR101582142B1 (ko) 2008-06-06 2016-01-05 톰슨 라이센싱 이미지들의 유사성 검색을 위한 시스템 및 방법
KR101539043B1 (ko) 2008-10-31 2015-07-24 삼성전자주식회사 인물 구도 제안 영상 촬영 장치 및 방법
CN103299324B (zh) * 2010-11-11 2016-02-17 谷歌公司 使用潜在子标记来学习用于视频注释的标记
US9848120B2 (en) * 2015-05-08 2017-12-19 Fast Model Technology Llc System and method for preserving video clips from a handheld device
WO2017051064A1 (en) * 2015-09-23 2017-03-30 Nokia Technologies Oy Video recording method and apparatus
US10255667B2 (en) * 2015-12-23 2019-04-09 Vmware, Inc. Quantitative visual perception quality measurement for virtual desktops
US20180065247A1 (en) * 2016-09-07 2018-03-08 Autodesk, Inc. Configuring a robotic camera to mimic cinematographic styles
KR20180058380A (ko) 2016-11-24 2018-06-01 삼성에스디에스 주식회사 추천 구도 기반 촬영 방법 및 시스템
US10679046B1 (en) * 2016-11-29 2020-06-09 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Machine learning systems and methods of estimating body shape from images
EP3565243A4 (en) 2017-01-20 2020-01-01 Huawei Technologies Co., Ltd. METHOD AND DEVICE FOR GENERATING IMAGE RECORDING INFORMATION
US10055644B1 (en) * 2017-02-20 2018-08-21 At&T Intellectual Property I, L.P. On demand visual recall of objects/places
GB2575388A (en) * 2017-04-11 2020-01-08 Tagflix Inc Method, apparatus and system for discovering and displaying information related to video content
US10536700B1 (en) * 2017-05-12 2020-01-14 Gopro, Inc. Systems and methods for encoding videos based on visuals captured within the videos
KR102438201B1 (ko) 2017-12-01 2022-08-30 삼성전자주식회사 사진 촬영과 관련된 추천 정보를 제공하는 방법 및 시스템
KR102203109B1 (ko) * 2018-10-18 2021-01-14 한국과학기술원 인공 신경망에 기반한 영상 처리 방법 및 장치
US20220044414A1 (en) 2018-10-18 2022-02-10 Korea Advanced Institute Of Science And Technology Method and device for processing image on basis of artificial neural network
KR102144978B1 (ko) * 2018-10-19 2020-08-14 인하대학교 산학협력단 영상의 쇼트 분류를 이용한 사용자 맞춤형 영상 추천 시스템
JP7162550B2 (ja) * 2019-02-15 2022-10-28 オムロン株式会社 モデル生成装置、予測装置、モデル生成方法、及びモデル生成プログラム
JP7129931B2 (ja) * 2019-02-22 2022-09-02 富士フイルム株式会社 画像処理装置、画像処理方法、プログラムおよび記録媒体
WO2020189058A1 (ja) * 2019-03-20 2020-09-24 ソニー株式会社 画像処理装置、画像処理方法、プログラム
KR102201858B1 (ko) 2019-08-26 2021-01-12 엘지전자 주식회사 인공지능 기반 영상 편집 방법 및 지능형 디바이스
US11158090B2 (en) * 2019-11-22 2021-10-26 Adobe Inc. Enhanced video shot matching using generative adversarial networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008097233A (ja) * 2006-10-10 2008-04-24 Matsushita Electric Ind Co Ltd カメラワーク制御装置およびカメラワーク制御方法
WO2020054241A1 (ja) * 2018-09-12 2020-03-19 ソニー株式会社 画像処理装置、プログラムおよび画像処理方法

Also Published As

Publication number Publication date
US20220004773A1 (en) 2022-01-06
US11886499B2 (en) 2024-01-30
KR20220005255A (ko) 2022-01-13

Similar Documents

Publication Publication Date Title
CN104520875B (zh) 优选用于搜索和检索目的的从视频内容提取描述符的方法和装置
Sun et al. Photo assessment based on computational visual attention model
Petrovic et al. Adaptive video fast forward
TW200536389A (en) Intelligent key-frame extraction from a video
US9626585B2 (en) Composition modeling for photo retrieval through geometric image segmentation
US7904815B2 (en) Content-based dynamic photo-to-video methods and apparatuses
CN112418012B (zh) 一种基于时空注意力模型的视频摘要生成方法
Li et al. Videography-based unconstrained video analysis
KR102605070B1 (ko) 인식 모델 학습 장치, 촬영본 영상 분석 장치 및 촬영본 검색 서비스 제공 장치
Jiang et al. Jointly learning the attributes and composition of shots for boundary detection in videos
CN110188625B (zh) 一种基于多特征融合的视频精细结构化方法
Tzelepis et al. Video aesthetic quality assessment using kernel Support Vector Machine with isotropic Gaussian sample uncertainty (KSVM-IGSU)
Carbonneau et al. Real-time visual play-break detection in sport events using a context descriptor
JP4369308B2 (ja) 代表画像選択装置,代表画像選択方法および代表画像選択プログラム
CN113255423A (zh) 从视频提取配色方案的方法及装置
EP2345978A1 (en) Detection of flash illuminated scenes in video clips and related ranking of video clips
Çakar et al. Creating cover photos (thumbnail) for movies and tv series with convolutional neural network
Kittler et al. Generation of semantic cues for sports video annotation
WO2007072347A2 (en) System and method for processing video
Qiu et al. Dual focus attention network for video emotion recognition
Kuzovkin et al. Context-aware clustering and assessment of photo collections
Li et al. Outdoor place recognition using compact local descriptors and multiple queries with user verification
Sargin et al. Boosting video classification using cross-video signals
Trojahn et al. A new multimodal deep-learning model to video scene segmentation
Çakar et al. Thumbnail Selection with Convolutional Neural Network Based on Emotion Detection

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant