KR102655380B1 - 음성 인식에 기초한 멀티미디어 콘텐츠 편집 기술 - Google Patents
음성 인식에 기초한 멀티미디어 콘텐츠 편집 기술 Download PDFInfo
- Publication number
- KR102655380B1 KR102655380B1 KR1020190170029A KR20190170029A KR102655380B1 KR 102655380 B1 KR102655380 B1 KR 102655380B1 KR 1020190170029 A KR1020190170029 A KR 1020190170029A KR 20190170029 A KR20190170029 A KR 20190170029A KR 102655380 B1 KR102655380 B1 KR 102655380B1
- Authority
- KR
- South Korea
- Prior art keywords
- video
- scene
- processor
- editing device
- content
- Prior art date
Links
- 230000015654 memory Effects 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000007635 classification algorithm Methods 0.000 claims description 19
- 238000010801 machine learning Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 18
- 238000013473 artificial intelligence Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 241000287828 Gallus gallus Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000003796 beauty Effects 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47205—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
- G11B27/034—Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/44—Event detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
5G 통신 환경에서 개인 단말에 의해 촬영된 동영상을 편집할 수 있는 콘텐츠 편집 장치 및 방법이 개시된다. 본 발명의 콘텐츠 편집 장치는 프로세서와, 상기 프로세서와 동작 가능하게 연결되고 상기 프로세서에서 수행되는 적어도 하나의 코드를 저장하는 메모리와, 동영상을 수신하는 인터페이스를 포함하고, 상기 메모리는 상기 프로세서를 통해 실행될 때 상기 프로세서가 상기 동영상으로부터 설정된 기동어를 인식하고, 상기 동영상의 상기 기동어가 위치한 부분으로부터 미리 설정된 시간 내의 구간에서 인식된 편집 명령어에 기초하여 상기 동영상을 편집하도록 야기하는 코드를 저장할 수 있다.
Description
본 발명은 동영상으로부터 인식된 기동어 및 편집 명령어에 기초하여, 동영상을 편집하는 콘텐츠 편집 장치 및 방법에 관한 것이다.
콘텐츠(예컨대, 게임, 뷰티, 패션, 먹방, 쿡방 등)가 다양화되고, 콘텐츠를 유통시키는 데 기반이 되는 인터넷이 급속하게 발전함에 따라, 기존 대형 미디어만 방송할 수 있다는 통념이 해체되고, 누구나 쉽게 방송 콘텐츠를 제작해 유통할 수 있게 되어, 1인 미디어 방송이 확산되고 있다.
1인 미디어 방송의 장점은 개인이 원하는 콘텐츠를 스스로 생성하고 편집 과정을 통해 제작한 후, 제작된 콘텐츠를 개인이 인터넷 상에서 쉽게 유통할 수 있다는 것이다. 즉, 개인이 미디어에 대해 단순 소비자가 아니라 생산자로서 참여하는 것이 가능해졌다.
그러나, 개인은 소비자를 확보할 수 있는 퀄리티(quality) 높은 방송을 위한 콘텐츠 제작이 쉽지만은 않다. 이에 따라, 퀄리티 높은 방송의 콘텐츠 제작을 위해, 유명한 크리에이터(creator)는 비용을 지불하면서, 별도의 콘텐츠 편집 전문 업체에 콘텐츠의 편집을 의뢰하기도 한다.
또한, 퀄리티 높은 방송의 콘텐츠를 제작하지 않더라도, 1인 미디어 방송을 위해서는 개인이 개인 단말을 이용하여 콘텐츠를 생성하고, 생성한 콘텐츠를 개인의 스타일에 맞게 일일이 편집해야 하는 번거로움이 발생한다.
따라서, 개인이 생성한 콘텐츠를 일일이 편집할 필요없이, 일정 수준 이상의 퀄리티를 갖는 콘텐츠를 제공할 수 있는 편집 기술이 요구된다.
본 발명의 일 실시예는, 개인 단말로부터 동영상을 수신함에 따라, 상기 수신된 동영상 내 기동어 및 편집 명령어에 기초하여, 상기 동영상을 자동으로 편집함으로써, 개인이 일일이 동영상을 편집하는 불편함을 해소시킬 수 있게 하고, 일정 수준 이상의 퀄리티를 갖는 콘텐츠의 편집 비용 부담을 최소화하여 제공하는 데에 목적이 있다.
또한, 본 발명의 일 실시예는, 개인 단말로부터 수신된 동영상의 카테고리를 판단하고, 상기 판단된 카테고리에 대응하는 템플릿에 기초하여 상기 동영상을 편집하되, 상기 템플릿을 상기 개인 단말과 연관된 다른 동영상에 기초하여 생성된 템플릿에 따라 편집함으로써, 개인의 스타일에 맞춰 개인 단말에 의해 촬영된 동영상을 용이하게 편집할 수 있게 하는 것을 목적으로 한다.
본 발명의 일 실시예는, 프로세서와, 상기 프로세서와 동작 가능하게 연결되고 상기 프로세서에서 수행되는 적어도 하나의 코드를 저장하는 메모리와, 동영상을 수신하는 인터페이스를 포함하고, 상기 메모리가 상기 프로세서를 통해 실행될 때 상기 프로세서가 상기 동영상으로부터 설정된 기동어를 인식하고, 상기 동영상의 상기 기동어가 위치한 부분으로부터 미리 설정된 시간 내의 구간에서 인식된 편집 명령어에 기초하여 상기 동영상을 편집하도록 야기하는 코드를 저장하는, 콘텐츠 편집 장치일 수 있다.
본 발명의 일 실시예는, 프로세서를 포함하는 콘텐츠 편집 장치에서 수행되는 방법으로서, 상기 콘텐츠 편집 장치의 인터페이스에서, 동영상을 수신하는 단계와, 상기 프로세서에서, 상기 동영상으로부터 설정된 기동어를 인식하는 단계와, 상기 프로세서에서, 상기 동영상의 상기 기동어가 위치한 부분으로부터 미리 설정된 시간 내의 구간에서 인식된 편집 명령어에 기초하여 상기 동영상을 편집하는 단계를 포함하는, 콘텐츠 편집 방법일 수 있다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램이 저장된 컴퓨터로 판독 가능한 기록매체가 더 제공될 수 있다.
전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
본 발명에 의하면, 개인 단말로부터 동영상을 수신함에 따라, 상기 수신된 동영상 내 기동어 및 편집 명령어에 기초하여, 상기 동영상을 자동으로 편집함으로써, 개인이 일일이 동영상을 편집하는 불편함을 해소시킬 수 있게 하고, 일정 수준 이상의 퀄리티를 갖는 콘텐츠의 편집 비용 부담을 최소화하여 제공할 수 있다.
또한, 본 발명에 따르면, 개인 단말로부터 수신된 동영상의 카테고리를 판단하고, 상기 판단된 카테고리에 대응하는 템플릿에 기초하여 상기 동영상을 편집하되, 상기 템플릿을 상기 개인 단말과 연관된 다른 동영상에 기초하여 생성된 템플릿에 따라 편집함으로써, 개인의 스타일에 맞춰 개인 단말에 의해 촬영된 동영상을 용이하게 편집할 수 있게 한다.
도 1은 본 발명의 일 실시예에 따른 콘텐츠 편집 장치, 개인 단말, 콘텐츠 서버 및 이들을 서로 연결하는 네트워크를 포함하는 콘텐츠 편집 장치의 구동 환경의 예시도이다.
도 2는 본 발명의 일 실시예에 따른 콘텐츠 편집 장치의 구성을 도시한 도면이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서의 동영상에 대한 편집 일례를 설명하기 위한 도면이다.
도 5 및 도 6은 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 동영상의 카테고리를 판단하는 일례를 설명하기 위한 도면이다.
도 7 및 도 8은 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 동영상의 카테고리를 판단하는 다른 일례를 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 참조용 동영상에 대한 분석 일례를 설명하기 위한 도면이다.
도 10은 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 편집 대상용 동영상에 대한 편집 및 분석 일례를 설명하기 위한 도면이다.
도 11은 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 맞춤형 동영상 편집에 대한 일례를 설명하기 위한 도면이다.
도 12는 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 동영상을 수신하여 편집하고, 편집된 동영상을 업로드하는 과정을 설명하기 위한 도면이다.
도 13은 본 발명의 일 실시예에 따른 콘텐츠 편집 방법을 나타내는 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 콘텐츠 편집 장치의 구성을 도시한 도면이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서의 동영상에 대한 편집 일례를 설명하기 위한 도면이다.
도 5 및 도 6은 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 동영상의 카테고리를 판단하는 일례를 설명하기 위한 도면이다.
도 7 및 도 8은 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 동영상의 카테고리를 판단하는 다른 일례를 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 참조용 동영상에 대한 분석 일례를 설명하기 위한 도면이다.
도 10은 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 편집 대상용 동영상에 대한 편집 및 분석 일례를 설명하기 위한 도면이다.
도 11은 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 맞춤형 동영상 편집에 대한 일례를 설명하기 위한 도면이다.
도 12는 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 동영상을 수신하여 편집하고, 편집된 동영상을 업로드하는 과정을 설명하기 위한 도면이다.
도 13은 본 발명의 일 실시예에 따른 콘텐츠 편집 방법을 나타내는 흐름도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 설명되는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 아래에서 제시되는 실시 예들로 한정되는 것이 아니라, 서로 다른 다양한 형태로 구현될 수 있고, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 아래에 제시되는 실시 예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
이하, 본 발명에 따른 실시 예들을 첨부된 도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른 콘텐츠 편집 장치, 개인 단말, 콘텐츠 서버 및 이들을 서로 연결하는 네트워크를 포함하는 콘텐츠 편집 장치의 구동 환경의 예시도이다.
도 1을 참조하면, 콘텐츠 편집 장치의 구동 환경(100)은 개인 단말(110), 콘텐츠 편집 장치(120), 콘텐츠 서버(130) 및 네트워크(140)를 포함할 수 있다. 또한, 콘텐츠 편집 장치의 구동 환경(100)은 인공지능 서버를 더 포함할 수 있다.
개인 단말(110)은 동영상 촬영을 지원하는 장치로서, 예컨대, 캠코더, 디지털 카메라, 스마트폰, 노트북, 태블릿 PC일 수 있으나, 이에 제한되지 않는다. 또한, 개인 단말(110)은 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 단말기일 수 있다. 개인 단말(110)은 상술한 내용에 제한되지 아니하며, 콘텐츠 편집 장치(120)와 유선 또는 무선 통신이 가능한 단말기는 제한 없이 차용될 수 있다.
개인 단말(110)은 동영상을 촬영하거나, 촬영된 동영상을 네트워크(140)를 통해, 콘텐츠 편집 장치(120)에 전송할 수 있다.
콘텐츠 편집 장치(120)는 개인 단말(110)로부터 동영상을 수신하고, 개인 단말(110)을 소지한 개인의 동영상에 대한 편집 스타일에 맞춰, 상기 수신된 동영상을 편집할 수 있다. 이때, 콘텐츠 편집 장치(120)는 개인 단말(110)이 콘텐츠 서버(130)에 업로드한 다른 동영상을 수신하고, 수신된 다른 동영상에 기초하여 카테고리별 템플릿(또는, 카테고리별 템플릿 내 장면의 스타일)을 생성할 수 있다. 콘텐츠 편집 장치(120)는 상기 생성된 카테고리별 템플릿에 기초하여 개인 단말(110)로부터 수신된 동영상을 편집함으로써, 카테고리별 편집 스타일을 용이하게 적용할 수 있다. 이때, 콘텐츠 편집 장치(120)는 개인 단말(110)로부터 수신한 동영상의 카테고리를 상기 다른 동영상으로부터 설정된 복수의 카테고리에 기초하여 판단하거나, 또는 수신한 동영상에 영상 분류 알고리즘을 적용하여 상기 동영상의 카테고리를 판단하고, 판단된 카테고리에 대응하는 템플릿에 기초하여 상기 수신된 동영상을 편집할 수 있다.
한편, 콘텐츠 편집 장치(120)는 개인 단말(110)로부터 수신한 동영상을 인공지능 서버(도시 않지 않음)로 전송하고, 상기 동영상의 카테고리에 대한 판단 결과 및 상기 판단 결과에 대응하는 카테고리의 템플릿(또는, 카테고리의 템플릿 내 장면의 스타일)을 인공지능 서버로부터 수신할 수도 있다.
상기 인공지능 서버는 각종 인공 지능 알고리즘을 적용하는데 필요한 빅데이터(예컨대, 다양한 콘텐츠에 관한 동영상)와, 상기 빅테이터에 기초하여 다양한 서비스 정보를 제공하는 데이터베이스 서버일 수 있다. 이러한, 인공지능 서버는 개인 단말(110)로부터 동영상이 수신되면, 개인 단말(110)이 콘텐츠 서버(130)에 업로드한 다른 동영상을 콘텐츠 서버(130)로부터 획득하고, 획득한 다른 동영상에 기초하여, 카테고리별 템플릿(또는, 카테고리별 템플릿 내 장면의 스타일을 생성할 수 있다. 이후, 인공지능 서버는 개인 단말(110)로부터 수신한 동영상의 상기 동영상의 카테고리에 대한 판단 결과 및 상기 판단 결과에 대응하는 카테고리의 템플릿(또는, 카테고리의 템플릿 내 장면의 스타일)을 콘텐츠 편집 장치(120)에 제공하여, 콘텐츠 편집 장치(120)에서의 일부 동작을 대신 수행함으로써, 콘텐츠 편집 장치의 동작을 분산시켜, 편집 과정을 보다 신속히 수행할 수 있게 한다.
또한, 인공지능 서버는 상기 동영상의 카테고리 판단시, 상기 동영상에 영상 분류 알고리즘을 적용하여 상기 동영상의 카테고리를 판단할 수 있으며, 개인 단말(110)로부터 영상 분류 알고리즘에 대한 요청이 수신되면, 상기 요청에 대한 응답으로서, 영상 분류 알고리즘만을 제공할 수도 있다.
콘텐츠 편집 장치(120)는 상기 편집한 동영상을 개인 단말(110)에 제공하고, 상기 편집한 동영상에 대한 개인 단말(110)로부터의 상기 편집한 동영상에 대한 업로드 요청에 따라, 상기 편집된 동영상을 콘텐츠 서버(130)로 전송할 수 있다. 이때, 콘텐츠 편집 장치(120)는 개인 단말(110)에서, 상기 편집한 동영상에 대해 재편집을 수행할 수 있게 하여, 동영상의 퀄리티를 한층 높일 수 있는 환경을 마련할 수도 있다.
콘텐츠 서버(130)는 개인 단말(110)뿐 아니라, 각 개인별 복수의 개인 단말(도시하지 않음)로부터 다양한 콘텐츠에 관한 동영상을 수신할 수 있으며, 개인별로 동영상을 관리할 수 있다. 또한, 콘텐츠 서버(130)는 타 개인 단말로부터의 콘텐츠 요청에 연동하여, 상기 콘텐츠 요청과 연관된 동영상(예컨대, 개인의 개인 단말(110)에 의해 생성된 동영상)을 상기 타 개인의 개인 단말로 제공함으로써, 콘텐츠에 관한 동영상을 다른 개인들과 공유할 수 있게 한다.
네트워크(140)는 개인 단말(110), 콘텐츠 편집 장치(120), 인공지능 서버 및 콘텐츠 서버(130)를 연결하는 수행할 수 있다. 이러한 네트워크(140)는 예컨대 LANs(local area networks), WANs(Wide area networks), MANs(metropolitan area networks), ISDNs(integrated service digital networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 또한 네트워크(140)는 근거리 통신 및/또는 원거리 통신을 이용하여 정보를 송수신할 수 있다. 여기서 근거리 통신은 블루투스(bluetooth), RFID(radio frequency identification), 적외선 통신(IrDA, infrared data association), UWB(ultra-wideband), ZigBee, Wi-Fi(Wireless fidelity) 기술을 포함할 수 있고, 원거리 통신은 CDMA(code division multiple access), FDMA(frequency division multiple access), TDMA(time division multiple access), OFDMA(orthogonal frequency division multiple access), SC-FDMA(single carrier frequency division multiple access) 기술을 포함할 수 있다.
네트워크(140)는 허브, 브리지, 라우터, 스위치 및 게이트웨이와 같은 네트워크 요소들의 연결을 포함할 수 있다. 네트워크(140)는 인터넷과 같은 공용 네트워크 및 안전한 기업 사설 네트워크와 같은 사설 네트워크를 비롯한 하나 이상의 연결된 네트워크들, 예컨대 다중 네트워크 환경을 포함할 수 있다. 네트워크(140)에의 액세스는 하나 이상의 유선 또는 무선 액세스 네트워크들을 통해 제공될 수 있다. 더 나아가 네트워크(140)는 사물 등 분산된 구성 요소들 간에 정보를 주고받아 처리하는 IoT(Internet of Things, 사물인터넷) 망 및/또는 5G 통신을 지원할 수 있다.
도 2는 본 발명의 일 실시예에 따른 콘텐츠 편집 장치의 구성을 도시한 도면이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 콘텐츠 편집 장치(200)는 인터페이스(210), 프로세서(220) 및 메모리(230)를 포함할 수 있다.
인터페이스(210)는 예컨대, 개인 단말(또는, 저장 장치)로부터 동영상을 수신하고, 수신된 동영상(즉, 제1 동영상)을 프로세서(220)에 전달할 수 있다. 여기서, 동영상은 다양한 종류의 콘텐츠(예컨대, 게임, 뷰티, 패션, 먹방, 쿡방 등) 중 어느 하나의 콘텐츠에 관한 동영상일 수 있다.
또한, 인터페이스(210)는 개인 단말(예컨대, 캠코더, 디지털 카메라, 스마트폰)로부터 상기 동영상이 수신됨에 따라, 콘텐츠 서버로 상기 개인 단말(또는, 동영상)과 연관된 다른 동영상(즉, 제2 동영상)을 요청하여, 상기 콘텐츠 서버로부터 다른 동영상을 수신하고, 상기 수신된 다른 동영상을 프로세서(220)에 전달할 수 있다.
프로세서(220)는 인터페이스(210)로부터 수신된 동영상을 편집할 수 있다. 구체적으로, 프로세서(220)는 상기 동영상으로부터 설정된 기동어를 인식하고, 상기 동영상의 기동어가 위치한 부분(또는, 시점)으로부터 미리 설정된 시간(예컨대, 3초) 내의 구간에서 인식된 편집 명령어(예컨대, 영상 시작 명령어, 영상 종료 명령어, 부가 명령어)에 기초하여 상기 동영상을 편집할 수 있다. 이에 따라, 프로세서(220)는 개인이 일일이 동영상을 편집하는 불편함을 해소시킬 수 있게 하고, 일정 수준 이상의 퀄리티를 갖는 콘텐츠의 편집 비용 부담을 최소화하여 제공할 수 있다.
프로세서(220)는 상기 편집 명령어 중 영상 시작 명령어 및 영상 종료 명령어를 인식하고, 상기 동영상에서 상기 영상 시작 명령어에 대응하는 제1 시점부터 상기 영상 종료 명령어에 대응하는 제2 시점까지의 영상 프레임에 기초하여 상기 동영상을 편집할 수 있다. 즉, 프로세서(220)는 상기 영상 시작 명령어에 대응하는 제1 시점부터 상기 영상 종료 명령어에 대응하는 제2 시점까지의 영상 프레임을, 상기 수신된 동영상으로부터 획득할 수 있다. 이때, 프로세서(220)는 획득한 영상 프레임이 복수일 경우, 복수의 영상 프레임을 획득 순서(또는, 촬영 순서)에 따라 이어 재생되도록 연결함으로써, 동영상을 편집할 수 있다.
또한, 프로세서(220)는 상기 편집 명령어 중 콘텍스트(context)와 관련된 부가 명령어(예컨대, "'자동차' 등장 전부터 이어서 촬영" 또는 "'자동차' 등장 장면 모두 제거"라는 음성에서 콘텍스트인 '자동차 등장'과 부가 명령어인 '전부터 이어서 촬영', '장면 모두 제거')를 인식하고, 상기 동영상에서 상기 부가 명령어의 콘텍스트에 대응하는 적어도 하나 이상의 영상 프레임에 기초하여 상기 동영상을 편집할 수 있다. 이때, 프로세서(220)는 상기 동영상에서 상기 부가 명령어의 콘텍스트에 대응하는 적어도 하나 이상의 영상 프레임의 위치를 변경할 수 있다. 예컨대, 프로세서(220)는 동영상으로부터 획득한 복수의 영상 프레임 연결시, 콘텍스트와 관련된 부가 명령어에 기초하여, 연결 부분을 변경할 수 있다. 이에 대한 일례는 이하, 도 3 및 도 4를 참조하여 설명하기로 한다.
콘텐츠 편집 장치(200)는 콘텍스트와 관련된 영상 프레임을 판단하기 위하여, 영상 프레임에 포함된 객체, 객체의 동작, 프레임의 장면 내용 등을 인식 가능한 학습 모델을 포함할 수 있다. 객체 인식을 위한 학습 모델은 CNN 또는 R-CNN(Region based CNN), C-RNN(Convolutional Recursive Neural Network), Fast R-CNN, Faster R-CNN, R-FCN(Region based Fully Convolutional Network), YOLO(You Only Look Once) 또는 SSD(Single Shot Multibox Detector)구조의 신경망을 포함할 수 있다. 영상 프레임에서 객체의 동작 또는 프레임의 장면 내용 등을 인식 가능한 학습 모델은 CNN, RNN, LSTM(Long Short Term Memory), Faster R-CNN 구조의 신경망을 포함할 수 있다.
한편, 프로세서(220)는 인터페이스(210)로부터 수신된 동영상(또는, 기동어 및 편집 명령어에 기초하여 편집된 동영상)의 카테고리를 판단하고, 판단된 동영상의 카테고리에 대응하는 템플릿에 기초하여 상기 동영상을 편집할 수 있다.
먼저, 프로세서(220)는 인터페이스(210)로부터 전달된 상기 다른 동영상에 기초하여 상기 복수의 카테고리를 설정할 수 있다. 이때, 프로세서(220)는 상기 다른 동영상에 기초하여 상기 설정된 복수의 카테고리별로 템플릿을 생성하거나, 또는 인터페이스(210)를 통해, 인공지능 서버로부터 복수의 카테고리별 템플릿을 수신하고, 복수의 카테고리별 템플릿을 메모리(230)에 저장할 수 있다. 프로세서(220)는 동일한 카테고리로 판단된 복수의 동영상들에 기초하여 복수의 동영상들에서 공통의 콘텍스트를 가진 장면들을 추출하여 특정 카테고리의 템플릿을 생성할 수 있다.
상기 다른 동영상은 예컨대, 개인 단말이 가지는 콘텐츠에 대한 개인 계정에 따라 콘텐츠 서버에 기업로드된 동영상일 수 있다. 이에 따라, 프로세서(220)는 상기 다른 동영상에 기초하여 복수의 카테고리별 템플릿을 설정하여 메모리(230)에 저장함으로써, 개인 단말을 소지한 개인의 동영상에 대한 편집 형식에 맞춰, 상기 수신된 동영상을 편집할 수 있게 하는 환경을 마련할 수 있다.
이후, 프로세서(220)는 상기 동영상의 카테고리를 판단하고, 상기 동영상의 카테고리에 대응하는 템플릿을 메모리(230)로부터 획득하며, 상기 획득된 템플릿에 기초하여 상기 동영상을 편집함으로써, 상기 동영상이 속하는 카테고리 특성에 맞게 동영상을 편집할 수 있다.
이때, 프로세서(220)는 설정된 복수의 카테고리에 기초하여 상기 동영상이 속하는 카테고리를 판단하거나, 또는 상기 동영상에 영상 분류 알고리즘을 적용하여 상기 동영상의 카테고리를 판단할 수 있다.
프로세서(220)는 상기 동영상의 장면(scene) 구조와 상기 템플릿의 장면 구조를 비교하고, 상기 템플릿의 장면 구조에 기반하여 상기 동영상을 편집할 수 있다. 여기서, 프로세서(220)는 상기 동영상의 각 장면과 상기 템플릿의 각 장면을 비교하고, 상기 템플릿의 장면 중에서 상기 동영상의 장면과 대응되지 않는 장면의 적어도 일부를 상기 동영상 내에 삽입할 수 있다. 예컨대, 프로세서(220)는 상기 동영상의 각 장면과 상기 템플릿의 각 장면을 비교한 결과, 상기 동영상에 인트로(intro) 영상(또는, 장면) 및 엔딩(ending) 영상(또는, 장면)이 포함되지 않은 경우, 상기 템플릿 내 인트로 영상 및 엔딩 영상을 상기 동영상에 삽입하여 편집할 수 있다. 이때, 프로세서(220)는 상기 템플릿 내 인트로 영상 및 엔딩 영상의 각 위치를 참조하여, 상기 동영상에 인트로 영상 및 엔딩 영상을 삽입할 수 있다.
이때, 프로세서(220)는 상기 동영상의 각 장면과 상기 템플릿의 각 장면을 비교한 결과, 각 장면의 위치(또는, 나열 순서)가 상이한 경우, 상기 동영상의 각 장면의 위치를 상기 템플릿의 각 장면에 기초하여 변경할 수 있다.
또한, 프로세서(220)는 상기 동영상의 각 장면과 상기 템플릿의 각 장면의 대응 여부를 확인하고, 상기 동영상의 장면에 대응하는 상기 템플릿의 장면의 스타일에 기반하여 상기 동영상의 장면의 스타일을 변경할 수 있다. 구체적으로, 프로세서(220)는 상기 동영상의 장면에 대응하는 상기 템플릿의 장면의 색상, 채도, 명도, 적용된 영상 필터, 제목 스타일 및 자막 스타일 중 적어도 하나에 기반하여 상기 동영상의 장면의 스타일을 변경할 수 있다. 즉, 프로세서(220)는 개인 단말과 연관된 다른 동영상에 기초하여 생성된 템플릿에 따라 편집함으로써, 개인의 스타일에 맞춰 개인 단말에 의해 촬영된 동영상을 용이하게 편집할 수 있다.
메모리(230)는 프로세서(220)와 동작 가능하게 연결되고, 프로세서(220)에서 수행되는 동작과 연관하여 적어도 하나의 코드를 저장할 수 있다. 또한, 메모리(230)는 복수의 카테고리별 템플릿을 더 저장할 수 있다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서의 동영상에 대한 편집 일례를 설명하기 위한 도면이다.
도 3을 참조하면, 콘텐츠 편집 장치는 동영상이 수신되면, 동영상으로부터 설정된 기동어를 인식하고, 상기 동영상의 상기 기동어가 위치한 부분으로부터 미리 설정된 시간 내의 구간에서 인식된 편집 명령어에 기초하여 상기 동영상을 편집할 수 있다. 여기서, 편집 명령어는 예컨대, 영상 시작 명령어, 영상 종료 명령어 및 콘텍스트(context)와 관련된 부가 명령어 중 적어도 하나의 명령어를 포함할 수 있다.
예컨대, 콘텐츠 편집 장치는 'A' 동영상으로부터 기동어로서, 'HI LG'를 인식할 수 있으며, 3초 내의 구간에서 영상 시작 명령어로서, '큐'(310)를 인식할 수 있다. 또한, 콘텐츠 편집 장치는 'A' 동영상으로부터 기동어로서, 'HI LG'를 인식할 수 있으며, 3초 내의 구간에서 영상 종료 명령어로서, '컷'(320)을 인식할 수 있다. 이때, 콘텐츠 편집 장치는 영상 시작 명령어인 '큐'(310)에 대응하는 제1 시점(311)부터 영상 종료 명령어인 '컷'(320)에 대응하는 시점(321)까지의 제1 영상 프레임을, 'A' 동영상으로부터 획득할 수 있다.
이후, 콘텐츠 편집 장치는 'A' 동영상으로부터 기동어로서, 'HI LG'를 인식할 수 있으며, 3초 내의 구간에서 콘텍스트(context)와 관련된 부가 명령어로서, '자동차', '등장 전부터 이어서 촬영'(330)을 인식할 수 있다. 또한, 콘텐츠 편집 장치는 'A' 동영상으로부터 기동어로서, 'HI LG'를 인식할 수 있으며, 3초 내의 구간에서 영상 시작 명령어로서, '큐'(340)를 인식할 수 있다. 또한, 콘텐츠 편집 장치는 'A' 동영상으로부터 기동어로서, 'HI LG'를 인식할 수 있으며, 3초 내의 구간에서 영상 종료 명령어로서, '컷'(350)을 인식할 수 있다. 이때, 영상 시작 명령어인 '큐'(340)에 대응하는 제1 시점(341)부터 영상 종료 명령어인 '컷'(350)에 대응하는 시점(351)까지의 제2 영상 프레임을, 'A' 동영상으로부터 획득할 수 있다.
이후, 콘텐츠 편집 장치는 제1 영상 프레임 및 제2 영상 프레임을 연결하여, 제1 영상 프레임 및 제2 영상 프레임이 이어 재생되도록 편집할 수 있다. 이때, 콘텐츠 편집 장치는 상기 부가 명령어의 콘텍스트(예컨대, '자동차 등장', '강아지 등장')에 대응하는 적어도 하나 이상의 영상 프레임의 위치를 변경할 수 있다.
예컨대, 도 4에 도시된 바와 같이, 콘텐츠 편집 장치는 제1,2 영상 프레임 연결시, 제1 영상 프레임 내 '자동차가 등장하기 전'에 대응하는 시점의 영상 프레임 다음 위치에, 제2 영상 프레임을 배치시켜 연결시킴으로써, '자동차'가 등장하는 영상 프레임을 제거하면서, 제1 영상 프레임 및 제2 영상 프레임이 이어 재생될 수 있게 편집하여, 최종 동영상(410)을 획득할 수 있다.
즉, 콘텐츠 편집 장치는 콘텍스트와 관련된 부가 명령어에 기초하여, 동영상에서의 편집 위치를 조정함으로써, 개인으로 하여금 상기 부가 명령을 이용하여 편집에 부담을 갖지 않고, 동영상을 쉽게 촬영할 수 있게 한다.
도 5 및 도 6은 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 동영상의 카테고리를 판단하는 일례를 설명하기 위한 도면이다.
도 5를 참조하면, 콘텐츠 편집 장치는 개인 단말(예컨대, 디지털 카메라)로부터 제1 동영상을 수신하면, 개인 단말(또는, 제1 동영상)과 관련성이 있는 제2 동영상을 예컨대, 콘텐츠 서버로부터 수신하거나, 또는 내부의 메모리로부터 획득할 수 있다. 여기서, 제2 동영상은 개인 단말과 연관된 동영상(예컨대, 개인 단말이 가지는 콘텐츠에 대한 개인 계정에 따라 콘텐츠 서버에 기업로드된 동영상)일 수 있으며, 콘텐츠에 관한 1개 이상의 동영상일 수 있다.
콘텐츠 편집 장치는 제2 동영상의 각 장면 내 콘텍스트에 기초하여 동영상의 카테고리를 분류하도록 머신 러닝 기반의 학습 모델인, 영상 분류 알고리즘을 생성할 수 있다. 예컨대, 콘텐츠 편집 장치는 인공 지능(artificial intelligence, AI)을 구현하는 소프트웨어 모듈 또는 하드웨어 모듈(이하, 인공 지능 모듈)을 포함할 수 있다.
콘텐츠 편집 장치는 인공 지능 모듈을 통해, 제2 동영상에 대한 카테고리를 기계 학습(machine learning)하여 머신 러닝 기반의 학습 모델을 훈련시킬 수 있다. 즉, 머신 러닝 기반의 학습 모델은 동영상과 상기 동영상이 속하는 카테고리가 포함된 데이터 세트를 입력받아, 훈련될 수 있다. 구체적으로, 데이터 세트는 입력값(input)인 동영상과 레이블(label)로서, 출력값(output)인 카테고리를 포함할 수 있다.
예컨대, 콘텐츠 편집 장치의 머신 러닝 기반의 학습 모델은 콘텐츠 서버로부터 제2 동영상으로서, 제2 동영상_#1(예를 들어, 라면 먹방 동영상)(510), 제2 동영상_#2(예를 들어, A 인물의 브이로그(VLOG) 동영상)(520) 및 제2 동영상_#3(예를 들어, B 제품의 개봉기 동영상)(530)을 수신할 수 있다.
콘텐츠 편집 장치의 머신 러닝 기반의 학습 모델은 제2 동영상_#1(510)이 입력되면, 레이블로 지정된 '먹는 방송'(511)을 카테고리로서 출력하도록 스스로를 학습시키고, 제2 동영상_#2(520)이 입력되면, 레이블로 지정된 '브이로그'(521)를 카테고리로서 출력하도록 스스로를 학습시킬 수 있다. 또한, 콘텐츠 편집 장치의 머신 러닝 기반의 학습 모델은 제2 동영상_#3(530)이 입력되면, 레이블로 지정된 '제품 소개'(531)를 카테고리로서 출력하도록 스스로를 학습시킬 수 있다.
이후, 콘텐츠 편집 장치는 상기 개인 단말로부터 수신된 제1 동영상에 상기 영상 분류 알고리즘을 적용하여 상기 동영상의 카테고리를 판단할 수 있다.
예컨대, 도 6에 도시된 바와 같이, 콘텐츠 편집 장치는 개인 단말로부터 상기 제1 동영상으로서, 제1 동영상_#1(예를 들어, 김밥 먹방 동영상)(610)(또는, 제1 동영상_#1(610)을 포함하는 편집 요청)을 수신한 경우, 제1 동영상_#1(610)에 영상 분류 알고리즘을 적용하여 제1 동영상_#1(610)의 카테고리를 '먹는 방송'(611)으로 판단할 수 있다.
한편, 콘텐츠 편집 장치는 개인 단말(또는, 제1 동영상)과 관련성이 있는 상기 제2 동영상을 콘텐츠 서버로부터 수신할 수 없거나, 또는 내부의 메모리로부터 획득할 수 없는 경우, 콘텐츠 서버로부터 개인 단말(또는, 제1 동영상)과 관련성이 없으나, 다양한 카테고리에 속하는 제3 동영상을 수신할 수 있다. 콘텐츠 편집 장치는 제3 동영상을 이용하여, 영상 분류 알고리즘을 생성할 수 있다.
도 7 및 도 8은 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 동영상의 카테고리를 판단하는 다른 일례를 설명하기 위한 도면이다.
도 7을 참조하면, 콘텐츠 편집 장치는 개인 단말로부터 제1 동영상을 수신하면, 개인 단말(또는, 제1 동영상)과 관련성이 있는 제2 동영상을 예컨대, 콘텐츠 서버로부터 수신하거나, 또는 내부의 메모리로부터 획득할 수 있다. 여기서, 제2 동영상은 개인 단말과 연관된 동영상(예컨대, 개인 단말이 가지는 콘텐츠에 대한 개인 계정에 따라 콘텐츠 서버에 기업로드된 동영상)일 수 있으며, 콘텐츠에 관한 1개 이상의 동영상일 수 있다.
콘텐츠 편집 장치는 제2 동영상의 각 장면을 분석하고, 분석 결과에 기초하여 동영상이 속하는 그룹으로 분류하고, 분류된 그룹의 속성인 카테고리를 정하도록 학습하는 과정을 통해, 영상 분류 알고리즘을 생성할 수 있다.
예컨대, 콘텐츠 편집 장치는 제2 동영상_#1(예를 들어, 라면 먹방 동영상)(710)이 입력되면, 제2 동영상_#1(710) 내 장면을 분석하고, 분석 결과(예를 들면, 먹는다(80%), 라면(70%), 키워드(Key Word) = 라면, 먹다, 맛있다, 영상 스타일 A, 템플릿 A)에 기초하여 제1 그룹(740)으로 분류하고, 제1 그룹(740)의 속성인 카테고리를 '먹는 방송'으로 정할 수 있다. 이에 따라, 콘텐츠 편집 장치는 제1 그룹(740)에 속한 제2 동영상_#1(710)의 카테고리를 '먹는 방송'으로 판단할 수 있다.
또한, 콘텐츠 편집 장치는 제2 동영상_#2(예를 들어, 치킨 먹방 동영상)(720)이 입력되면, 제2 동영상_#1(720) 내 장면을 분석하고, 분석 결과(예를 들면, 먹는다(90%), 치킨(80%), 키워드 = 치킨, 먹는다, 맛있다, 영상 스타일 A, 템플릿 A)에 기초하여, 제2 동영상_#2(720)가 제1 그룹(740) 내 제2 동영상_#1(710)과의 유사도가 설정치 이상이므로, 제2 동영상_#2(720)를 제1 그룹(740)으로 분류할 수 있다. 이에 따라, 콘텐츠 편집 장치는 제1 그룹(740)에 속한 제2 동영상_#2(720)의 카테고리 또한 '먹는 방송'으로 판단할 수 있다.
한편, 콘텐츠 편집 장치는 제2 동영상_#3(예를 들어, 스마트폰 개봉기 동영상)(730)이 입력되면, 제2 동영상_#3(730) 내 장면을 분석하고, 분석 결과(예를 들면, 스마트폰(80%), 설명(70%), 키워드 = B 스마트폰, 개봉, 영상 스타일 B, 템플릿B)에 기초하여, 제2 동영상_#3(730)이 제1 그룹(740) 내 제1 동영상_#1(710) 및 제2 동영상_#2(720) 각각의 유사도가 설정치 미만이므로, 제2 동영상_#3(730)을 새로운 제2 그룹(750)으로 분류하고, 제2 그룹(750)의 속성인 카테고리를 '제품 소개'로 정할 수 있다. 이에 따라, 콘텐츠 편집 장치는 제2 그룹(750)에 속한 제2 동영상_#3(730)의 카테고리를 '제품 소개'로 판단할 수 있다.
또한, 콘텐츠 편집 장치는 다른 동영상(예컨대, 제2 동영상_#4 내지 제2 동영상_#17에 대해서도, 상기와 같은 방법으로 그룹으로 분류하고, 분류된 그룹의 속성인 카테고리를 정할 수 있다.
즉, 콘텐츠 편집 장치는 수많은 동영상 간의 유사도에 기초하여, 동영상의 카테고리를 분류하도록 하는 학습 과정을 통해, 영상 분류 알고리즘을 생성할 수 있다.
이후, 콘텐츠 편집 장치는 상기 개인 단말로부터 제1 동영상이 수신되면, 상기 제1 동영상에 상기 영상 분류 알고리즘을 적용하여 상기 동영상의 카테고리를 판단할 수 있다.
예컨대, 도 8에 도시된 바와 같이, 콘텐츠 편집 장치는 개인 단말로부터 상기 제1 동영상으로서, 제1 동영상_#1(예를 들어, 김밥 먹방 동영상)(810)(또는, 제1 동영상_#1(810)을 포함하는 편집 요청)을 수신하면, 제1 동영상_#1(810)에 영상 분류 알고리즘을 적용하여 제1 동영상_#1(810)이 속하는 제1 그룹(740)으로 분류하고, 분류된 제1 그룹(750)의 속성인 카테고리 즉, '먹는 방송'을 제1 동영상_#1(810)의 카테고리로 판단할 수 있다.
도 9는 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 참조용 동영상에 대한 분석 일례를 설명하기 위한 도면이다.
도 9를 참조하면, 콘텐츠 편집 장치는 참조용 동영상을 분석할 수 있다. 여기서, 참조용 동영상은 편집 대상의 동영상으로서, 개인 단말로부터 수신된 제1 동영상 외에, 개인 단말(또는, 제1 동영상)과 관련성이 있는 상기 제2 동영상을 의미할 수 있다.
콘텐츠 편집 장치는 예컨대, '라면' 먹방 동영상(910)이 수신되면, '라면' 먹방 동영상(910)을 복수의 장면으로 분할하고, 분할된 각 장면을 분석할 수 있다. 구체적으로, 콘텐츠 편집 장치는 제1 내지 제6 장면(shot 1 내지 shot 6)(911~916)으로 분할하고, 분할된 제1 내지 제6 장면(911~916) 각각에 대해, 각 장면을 이루는 영상 프레임 및 녹음된 음성으로부터 장면의 속성, 텍스트 및 키워드 등의 장면 정보를 추출할 수 있다. 이때, 녹음된 음성으로부터의 텍스트(또는, 키워드) 추출시, 콘텐츠 편집 장치는 STT(Speech to Text) 기술을 이용하여, 텍스트(또는, 키워드)를 추출할 수 있다.
또한, 콘텐츠 편집 장치는 라면 먹방 동영상(910) 내 제1 내지 제6 장면(911~916)에 기초하여, 라면 먹방 동영상(910)에 대한 개인의 템플릿 및 스타일을 추출할 수 있다. 예컨대, 콘텐츠 편집 장치는 개인의 템플릿으로서, 제1 장면(911)에서 타이틀 자막을 영상 프레임(또는, 녹음된 음성)으로부터 추출한 키워드의 조합('라면'+'먹다')으로 기재하고, 제2 장면(912)을 인트로(intro) 영상(예컨대, 아트워크 스타일 A)으로 구성하는 것을 추출할 수 있다. 콘텐츠 편집 장치는 제3 장면(913)을 주제 장면인, '라면' 장면으로 구성하고, 제4 장면(914)을 주제 부가 장면인, '라면'을 먹는 장면으로 구성하는 것을 추출할 수 있다. 또한, 콘텐츠 편집 장치는 제5 장면(915)을 주제 후기 장면으로 구성하면서, 영상 프레임(또는, 녹음된 음성)으로부터 추출된 키워드 자막(예컨대, 맛있다)를 기재하고, 제6 장면(916)을 엔딩(ending) 영상(예컨대, 아트워크 스타일 A')으로 구성하는 것을 추출할 수 있다.
또한, 콘텐츠 편집 장치는 개인의 스타일로서, 타이틀 자막(또는, 키워드 자막)의 폰트, 인트로 및 엔딩 영상의 스타일, 영상 필터, 색 상태(예컨대, 색온도, 색상, 채도, 명도, 대비) 등을 추출할 수 있다.
도 10은 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 편집 대상용 동영상에 대한 편집 및 분석 일례를 설명하기 위한 도면이다.
도 10을 참조하면, 콘텐츠 편집 장치는 외부 장치(예컨대, 개인 단말, 메모리 장치)로부터 편집 대상용의 동영상이 수신되면, 상기 수신된 동영상을 편집하고, 분석할 수 있다. 콘텐츠 편집 장치는 예컨대, '김밥' 먹방 동영상(1010)이 수신되면, '김밥' 먹방 동영상(1010)으로부터 기동어 및 편집 명령어를 인식하고, 인식된 기동어 및 편집 명령어에 기초하여, '김밥' 먹방 동영상(1010)을 편집할 수 있다. 기동어 및 편집 명령어에 기초한 편집 방법은 도 3 및 도 4를 참조하여, 이미 설명하였으므로, 이에 대한 설명은 생략하기로 한다.
이후, 콘텐츠 편집 장치는 상기 편집된 '김밥' 먹방 동영상을 4개의 장면(1011~1014)으로 분할할 수 있으며, 분할된 각 장면을 도 9를 참조하여, 설명한 바와 같은 방법으로, 분석할 수 있다. 이에 따라, 이에 대한 설명은 생략하기로 한다.
도 11은 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 맞춤형 동영상 편집에 대한 일례를 설명하기 위한 도면이다.
도 11을 참조하면, 콘텐츠 편집 장치는 동영상이 수신되면, 동영상의 카테고리를 판단하고, 상기 동영상의 카테고리에 대응하는 템플릿에 기초하여 상기 동영상을 편집할 수 있다.
콘텐츠 편집 장치는 예컨대, '김밥' 먹방 동영상(1110)을 수신할 수 있다. 여기서, '김밥' 먹방 동영상(1110)은 개인 단말에서 제공된 동영상이 도 10에 도시된 바와 같은, 편집 및 분석 과정을 거친 후의 결과물일 수 있다.
콘텐츠 편집 장치는 설정된 방법에 기초하여 '김밥' 먹방 동영상(1110)의 카테고리를 '먹는 방송'으로 판단할 수 있으며, '먹는 방송'에 대응하는 템플릿(1120)을 메모리로부터 획득할 수 있다. 이때, 콘텐츠 편집 장치는 '김밥' 먹방 동영상(1110)의 각 장면과 '먹는 방송'에 대응하는 템플릿(1120)의 각 장면을 비교하고, '먹는 방송'에 대응하는 템플릿(1120)의 장면 중에서 '김밥' 먹방 동영상(1110)의 장면과 대응되지 않는 장면의 적어도 일부를 '김밥' 먹방 동영상(1110) 내에 삽입할 수 있다. 즉, 콘텐츠 편집 장치는 '먹는 방송'에 대응하는 템플릿(1120)의 장면 중에서 '김밥' 먹방 동영상(1110)의 장면과 대응되지 않는 장면으로서, 인트로(intro) 영상(1121) 및 엔딩(ending) 영상(1122)을 '김밥' 먹방 동영상(1110) 내에 삽입하여, 편집된 '김밥' 먹방 동영상(1130)을 획득할 수 있다. 이때, 콘텐츠 편집 장치는 인트로 영상(1121) 및 엔딩 영상(1122)의 위치 또한, '먹는 방송'에 대응하는 템플릿(1120)에 맞춰 삽입할 수 있다.
또한, 콘텐츠 편집 장치는 '김밥' 먹방 동영상(1110) 내 각 장면의 위치(또는, 나열 순서)를 '먹는 방송'에 대응하는 템플릿(1120)에 기초하여 변경할 수 있다. 예컨대, 콘텐츠 편집 장치는 '김밥' 장면(두번째 장면)과 '김밥을 먹는 장면'(세번째 장면)이 뒤바뀐 경우(즉, '김밥을 먹는 장면' 뒤에, '김밥' 장면이 위치한 경우), '먹는 방송'에 대응하는 템플릿(1120)에 기초하여, '김밥' 장면 및 '김밥을 먹는 장면'으로 변경할 수 있다.
또한, 콘텐츠 편집 장치는 '먹는 방송'에 대응하는 템플릿(1120)의 장면의 색상, 채도, 명도, 적용된 영상 필터, 제목 스타일, 자막 스타일, 인트로 영상 스타일 및 엔딩 영상 스타일 중 적어도 하나에 기반하여, '김밥' 먹방 동영상(1110)의 장면의 스타일을 변경할 수 있다.
결과적으로, 콘텐츠 편집 장치는 상기 수신된 '김밥' 먹방 동영상(1110)을 '먹는 방송'에 대응하는 템플릿(1120)의 각 장면의 스타일에 기반하여 편집하고, 편집된 '김밥' 먹방 동영상(1130)을 출력함으로써, 개인별로 맞춤형 동영상을 생성할 수 있게 한다.
도 12는 본 발명의 일 실시예에 따른 콘텐츠 편집 장치에서 동영상을 수신하여 편집하고, 편집된 동영상을 업로드하는 과정을 설명하기 위한 도면이다.
도 12를 참조하면, 개인 단말(1210)은 제1 동영상을 촬영하고, 촬영한 제1 동영상을 예컨대, 클라우드 서버(1220)를 통해, 콘텐츠 편집 장치(1230)에 전송할 수 있다.
콘텐츠 편집 장치(1230)는 제1 동영상을 편집하고, 분석할 수 있다(1231).
콘텐츠 편집 장치(1230)는 콘텐츠 서버(1240)로부터 개인 단말(1210)과 연관된 제2 동영상(예컨대, 개인 단말(1210)이 가지는 콘텐츠에 대한 개인 계정에 따라 콘텐츠 서버(1240)에 기업로드된 동영상)을 획득할 수 있다.
콘텐츠 편집 장치(1230)는 제2 동영상에 기초하여, 제1 동영상의 카테고리를 판단할 수 있다(1232).
콘텐츠 편집 장치(1230)는 제1 동영상을 상기 판단된 카테고리에 대응하는 템플릿에 기초하여 편집할 수 있다(1233).
콘텐츠 편집 장치(1230)는 상기 편집된 제1 동영상을 클라우드 서버(1220)를 통해, 개인 단말(1210)로 전송하여, 편집 결과를 확인받을 수 있다.
콘텐츠 편집 장치(1230)는 상기 편집된 제1 동영상에 대한 업로드 요청이 클라우드 서버(1220)를 통해, 개인 단말(1210)로부터 수신되면, 상기 편집된 제1 동영상을 콘텐츠 서버(1240)에 전송하여, 업로드시킬 수 있다(1234).
여기서, 콘텐츠 편집 장치(1230)는 클라우드 서버(1220)를 통해, 개인 단말(1210)과 통신하여, 클라우드 서버(1220)에 데이터(예컨대, 제1 동영상, 편집된 제1 동영상)를 백업할 수 있으나, 이에 한정되지 않고, 개인 단말(1210)과 직접적으로 통신할 수 있다.
도 13은 본 발명의 일 실시예에 따른 콘텐츠 편집 방법을 나타내는 흐름도이다. 콘텐츠 편집 방법을 구현하는 콘텐츠 편집 장치는 인터페이스, 프로세서 및 메모리를 포함할 수 있다. 또한, 콘텐츠 편집 장치는 동영상에 적용되어 동영상의 카테고리를 판단하는 영상 분류 알고리즘을 메모리에 기저장할 수 있다. 상기 영상 분류 알고리즘은 복수의 동영상의 각 장면 내 콘텍스트에 기초하여 동영상의 카테고리를 분류하도록 미리 훈련된 머신 러닝 기반의 학습 모델일 수 있다.
도 13을 참조하면, 단계 S1310에서, 콘텐츠 편집 장치의 인터페이스는 개인 단말(예컨대, 캠코더, 디지털 카메라, 스마트폰)으로부터 동영상을 수신할 수 있다. 여기서, 동영상은 다양한 종류의 콘텐츠 중 어느 하나의 콘텐츠에 관한 동영상일 수 있다.
이때, 콘텐츠 편집 장치의 인터페이스는 개인 단말로부터 상기 동영상(제1 동영상)이 수신됨에 따라, 콘텐츠 서버로 상기 개인 단말(또는, 동영상)과 연관된 다른 동영상(제2 동영상)을 요청하여, 상기 콘텐츠 서버로부터 다른 동영상을 수신할 수 있다.
콘텐츠 편집 장치의 프로세서는 상기 수신된 다른 동영상에 기초하여 상기 복수의 카테고리를 설정하고 상기 설정된 복수의 카테고리별로 템플릿을 생성하거나, 또는 상기 인터페이스를 통해, 상기 콘텐츠 서버로부터 복수의 카테고리별 템플릿을 수신할 수 있다. 콘텐츠 편집 장치의 프로세서는 상기 복수의 카테고리별 템플릿을 메모리에 저장할 수 있다.
이후, 콘텐츠 편집 장치의 프로세서는 상기 수신된 동영상을 편집할 수 있다.
구체적으로, 단계 S1320에서, 콘텐츠 편집 장치의 프로세서는 상기 동영상으로부터 설정된 기동어를 인식할 수 있다.
단계 S1330에서, 콘텐츠 편집 장치의 프로세서는 상기 동영상의 상기 기동어가 위치한 부분(또는, 시점)으로부터 미리 설정된 시간 내의 구간에서 인식된 편집 명령어(예컨대, 영상 시작 명령어, 영상 종료 명령어, 부가 명령어)에 기초하여 상기 동영상을 편집할 수 있다.
구체적으로, 콘텐츠 편집 장치의 프로세서는 상기 편집 명령어 중 영상 시작 명령어 및 영상 종료 명령어를 인식하고, 상기 동영상에서 상기 영상 시작 명령어에 대응하는 제1 시점부터 상기 영상 종료 명령어에 대응하는 제2 시점까지의 영상 프레임에 기초하여 상기 동영상을 편집할 수 있다. 여기서, 콘텐츠 편집 장치는 획득한 영상 프레임이 복수일 경우, 복수의 영상 프레임을 획득 순서(또는, 촬영 순서)에 따라 이어 재생되도록 연결함으로써, 동영상을 편집할 수 있다.
또한, 콘텐츠 편집 장치의 프로세서는 상기 편집 명령어 중 콘텍스트와 관련된 부가 명령어를 인식하고, 상기 동영상에서 상기 부가 명령어의 콘텍스트에 대응하는 적어도 하나 이상의 영상 프레임에 기초하여 상기 동영상을 편집할 수 있다. 여기서, 콘텐츠 편집 장치의 프로세서는 상기 동영상에서 상기 부가 명령어의 콘텍스트에 대응하는 적어도 하나 이상의 영상 프레임의 위치를 변경할 수 있다. 예컨대, 콘텐츠 편집 장치의 프로세서는 상기 수신된 동영상으로부터 획득한 복수의 영상 프레임 연결시, 콘텍스트와 관련된 부가 명령어(예컨대, '강아지' 등장 전부터 이어서 촬영)에 기초하여, 연결 부분을 변경할 수 있다.
단계 S1340에서, 콘텐츠 편집 장치의 프로세서는 상기 동영상의 카테고리를 판단하고, 상기 판단된 동영상의 카테고리에 대응하는 템플릿에 기초하여 상기 동영상을 편집할 수 있다. 이때, 콘텐츠 편집 장치의 프로세서는 설정된 복수의 카테고리(예컨대, '먹는 방송', '브이로그', '제품 소개')에 기초하여 상기 동영상의 카테고리를 판단하거나, 또는 상기 동영상에 영상 분류 알고리즘을 적용하여 상기 동영상의 카테고리를 판단할 수 있다.
상기 템플릿을 이용한 동영상 편집시, 콘텐츠 편집 장치의 프로세서는 상기 기동어 및 상기 편집 명령어에 기초하여 편집된 동영상의 장면 구조와 상기 템플릿의 장면 구조를 비교하고, 상기 템플릿의 장면 구조에 기반하여 상기 동영상을 편집할 수 있다. 구체적으로, 콘텐츠 편집 장치의 프로세서는 상기 동영상의 각 장면과 상기 템플릿의 각 장면을 비교하고, 상기 템플릿의 장면 중에서 상기 동영상의 장면과 대응되지 않는 장면의 적어도 일부를 상기 동영상 내에 삽입할 수 있다. 예컨대, 콘텐츠 편집 장치의 프로세서는 상기 동영상의 각 장면과 상기 템플릿의 각 장면을 비교한 결과, 상기 동영상에 인트로 영상(또는, 장면) 및 엔딩 영상(또는, 장면)이 포함되지 않은 경우, 상기 템플릿 내 인트로 영상 및 엔딩 영상을 상기 동영상에 삽입하여 편집할 수 있다. 이때, 콘텐츠 편집 장치의 프로세서는 상기 템플릿 내 인트로 영상 및 엔딩 영상의 각 위치를 참조하여, 상기 동영상에 인트로 영상 및 엔딩 영상을 삽입할 수 있다.
또한, 콘텐츠 편집 장치의 프로세서는 상기 동영상의 각 장면과 상기 템플릿의 각 장면의 대응 여부를 확인하고, 상기 동영상의 장면에 대응하는 상기 템플릿의 장면의 스타일에 기반하여 상기 동영상의 장면의 스타일을 변경할 수 있다. 상기 스타일 변경시, 콘텐츠 편집 장치의 프로세서는 상기 동영상의 장면에 대응하는 상기 템플릿의 장면의 색상, 채도, 명도, 적용된 영상 필터, 제목 스타일 및 자막 스타일 중 적어도 하나에 기반하여 상기 동영상의 장면의 스타일을 변경함으로써, 개인의 취향에 맞게 편집할 수 있다.
이상 설명된 본 발명에 따른 실시 예는 컴퓨터 상에서 다양한 구성요소를 통하여 실행될 수 있는 컴퓨터 프로그램의 형태로 구현될 수 있으며, 이와 같은 컴퓨터 프로그램은 컴퓨터로 판독 가능한 매체에 기록될 수 있다. 이때, 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
한편, 상기 컴퓨터 프로그램은 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 프로그램의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함될 수 있다.
본 발명의 명세서(특히 특허청구범위에서)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 본 발명에서 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 적용한 발명을 포함하는 것으로서(이에 반하는 기재가 없다면), 발명의 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다.
본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다. 본 발명에서 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 인자(factor)에 따라 구성될 수 있음을 알 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시 예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.
100: 콘텐츠 편집 장치의 구동 환경
110: 개인 단말
120: 콘텐츠 편집 장치
130: 콘텐츠 서버
140: 네트워크
110: 개인 단말
120: 콘텐츠 편집 장치
130: 콘텐츠 서버
140: 네트워크
Claims (20)
- 콘텐츠 편집 장치로서,
프로세서;
상기 프로세서와 동작 가능하게 연결되고 상기 프로세서에서 수행되는 적어도 하나의 코드를 저장하는 메모리; 및
동영상을 수신하는 인터페이스를 포함하고,
상기 메모리는 상기 프로세서를 통해 실행될 때 상기 프로세서가 상기 동영상으로부터 설정된 기동어를 인식하고, 상기 동영상의 상기 기동어가 위치한 부분으로부터 미리 설정된 시간 내의 구간에서 인식된 편집 명령어에 기초하여 상기 동영상을 편집하도록 야기하는 코드를 저장하고,
상기 메모리는 상기 프로세서로 하여금,
설정된 복수의 카테고리에 기초하여 상기 동영상의 카테고리를 판단하거나, 또는 상기 동영상에 영상 분류 알고리즘을 적용하여 상기 동영상의 카테고리를 판단하고, 상기 동영상의 카테고리에 대응하는 템플릿에 기초하여 상기 동영상을 편집하도록 야기하는 코드,
상기 동영상의 장면(scene) 구조와 상기 템플릿의 장면 구조를 비교하고, 상기 템플릿의 장면 구조에 기반하여 상기 동영상을 편집하도록 야기하는 코드, 및
상기 동영상의 각 장면과 상기 템플릿의 각 장면을 비교하고, 상기 템플릿의 장면 중에서 상기 동영상의 장면과 대응되지 않는 장면의 적어도 일부를 상기 동영상 내에 삽입하도록 야기하는 코드를 더 저장하는,
콘텐츠 편집 장치. - 제1항에 있어서,
상기 메모리는 상기 프로세서로 하여금,
상기 편집 명령어 중 영상 시작 명령어 및 영상 종료 명령어를 인식하고, 상기 동영상에서 상기 영상 시작 명령어에 대응하는 제1 시점부터 상기 영상 종료 명령어에 대응하는 제2 시점까지의 영상 프레임에 기초하여 상기 동영상을 편집하도록 야기하는 코드를 더 저장하는,
콘텐츠 편집 장치. - 제1항에 있어서,
상기 메모리는 상기 프로세서로 하여금,
상기 편집 명령어 중 콘텍스트(context)와 관련된 부가 명령어를 인식하고, 상기 동영상에서 상기 부가 명령어의 콘텍스트에 대응하는 적어도 하나 이상의 영상 프레임에 기초하여 상기 동영상을 편집하도록 야기하는 코드를 더 저장하는,
콘텐츠 편집 장치. - 제3항에 있어서,
상기 메모리는 상기 프로세서로 하여금,
상기 동영상에서 상기 부가 명령어의 콘텍스트에 대응하는 적어도 하나 이상의 영상 프레임의 위치를 변경하도록 야기하는 코드를 더 저장하는,
콘텐츠 편집 장치. - 삭제
- 삭제
- 삭제
- 제1항에 있어서,
상기 메모리는 상기 프로세서로 하여금,
상기 동영상의 각 장면과 상기 템플릿의 각 장면의 대응 여부를 확인하고, 상기 동영상의 장면에 대응하는 상기 템플릿의 장면의 스타일에 기반하여 상기 동영상의 장면의 스타일을 변경하도록 야기하는 코드를 더 저장하는,
콘텐츠 편집 장치. - 제8항에 있어서,
상기 메모리는 상기 프로세서로 하여금,
상기 동영상의 장면에 대응하는 상기 템플릿의 장면의 색상, 채도, 명도, 적용된 영상 필터, 제목 스타일 및 자막 스타일 중 적어도 하나에 기반하여 상기 동영상의 장면의 스타일을 변경하도록 야기하는 코드를 더 저장하는,
콘텐츠 편집 장치. - 제1항에 있어서,
상기 메모리는 상기 인터페이스로 하여금,
개인 단말로부터 상기 동영상의 수신에 대응하여, 콘텐츠 서버로 상기 개인 단말과 연관된 다른 동영상을 요청하여, 상기 콘텐츠 서버로부터 다른 동영상을 수신하도록 야기하고,
상기 프로세서로 하여금,
상기 수신된 다른 동영상에 기초하여 상기 복수의 카테고리를 설정하고 설정된 상기 복수의 카테고리별로 템플릿을 생성하거나, 또는 상기 인터페이스를 통해, 상기 콘텐츠 서버로부터 상기 복수의 카테고리별 상기 템플릿을 수신하여 상기 메모리에 저장하도록 야기하는 코드를 더 저장하는,
콘텐츠 편집 장치. - 제1항에 있어서,
상기 영상 분류 알고리즘은,
복수의 동영상의 각 장면 내 콘텍스트에 기초하여 동영상의 카테고리를 분류하도록 미리 훈련된 머신 러닝 기반의 학습 모델인,
콘텐츠 편집 장치. - 프로세서를 포함하는 콘텐츠 편집 장치에서 수행되는 콘텐츠 편집 방법으로서,
상기 콘텐츠 편집 장치의 인터페이스에서, 동영상을 수신하는 단계;
상기 프로세서에서, 상기 동영상으로부터 설정된 기동어를 인식하는 단계; 및
상기 프로세서에서, 상기 동영상의 상기 기동어가 위치한 부분으로부터 미리 설정된 시간 내의 구간에서 인식된 편집 명령어에 기초하여 상기 동영상을 편집하는 단계를 포함하고,
상기 동영상을 편집하는 단계는,
설정된 복수의 카테고리에 기초하여 상기 동영상의 카테고리를 판단하거나, 또는 상기 동영상에 영상 분류 알고리즘을 적용하여 상기 동영상의 카테고리를 판단하는 단계; 및
상기 동영상의 카테고리에 대응하는 템플릿에 기초하여 상기 동영상을 편집하는 단계를 포함하며,
상기 템플릿에 기초하여 상기 동영상을 편집하는 단계는,
상기 동영상의 각 장면과 상기 템플릿의 각 장면을 비교하고, 상기 템플릿의 장면 중에서 상기 동영상의 장면과 대응되지 않는 장면의 적어도 일부를 상기 동영상 내에 삽입하는 단계를 포함하는,
콘텐츠 편집 방법. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190170029A KR102655380B1 (ko) | 2019-12-18 | 2019-12-18 | 음성 인식에 기초한 멀티미디어 콘텐츠 편집 기술 |
US16/810,668 US11080531B2 (en) | 2019-12-18 | 2020-03-05 | Editing multimedia contents based on voice recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190170029A KR102655380B1 (ko) | 2019-12-18 | 2019-12-18 | 음성 인식에 기초한 멀티미디어 콘텐츠 편집 기술 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210078206A KR20210078206A (ko) | 2021-06-28 |
KR102655380B1 true KR102655380B1 (ko) | 2024-04-04 |
Family
ID=76438142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190170029A KR102655380B1 (ko) | 2019-12-18 | 2019-12-18 | 음성 인식에 기초한 멀티미디어 콘텐츠 편집 기술 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11080531B2 (ko) |
KR (1) | KR102655380B1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023008599A1 (ko) * | 2021-07-28 | 2023-02-02 | 엘지전자 주식회사 | 영상 편집 장치 및 영상 편집 장치의 동작 방법 |
KR20240056031A (ko) * | 2022-10-21 | 2024-04-30 | 씨제이올리브네트웍스 주식회사 | 인공지능을 활용한 이미지 편집 서비스 제공 방법 및 이를 위한 시스템 |
CN118488263A (zh) * | 2023-02-10 | 2024-08-13 | Oppo广东移动通信有限公司 | 视频编辑方法、装置、电子设备及计算机可读介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100652763B1 (ko) * | 2005-09-28 | 2006-12-01 | 엘지전자 주식회사 | 이동 단말의 동영상 파일 편집 방법 및 장치 |
KR101959672B1 (ko) * | 2018-05-24 | 2019-07-02 | 이준호 | 사용자측 동영상 편집 장치, 작업자측 동영상 편집 장치 및 동영상 편집 서버 |
JP6603929B1 (ja) * | 2019-02-07 | 2019-11-13 | 株式会社オープンエイト | 動画編集サーバおよびプログラム |
US20190370283A1 (en) * | 2018-05-30 | 2019-12-05 | Baidu Usa Llc | Systems and methods for consolidating recorded content |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006180306A (ja) * | 2004-12-24 | 2006-07-06 | Hitachi Ltd | 動画記録再生装置 |
JP5510484B2 (ja) * | 2012-03-21 | 2014-06-04 | カシオ計算機株式会社 | 動画撮影装置、ダイジェスト再生設定装置、ダイジェスト再生設定方法、及び、プログラム |
US9361714B2 (en) * | 2013-08-05 | 2016-06-07 | Globalfoundries Inc. | Enhanced video description |
US20180276508A1 (en) * | 2015-10-28 | 2018-09-27 | Fractal Industries, Inc. | Automated visual information context and meaning comprehension system |
EP3680853A4 (en) * | 2017-09-11 | 2020-11-04 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | IMAGE PROCESSING PROCESS AND DEVICE, ELECTRONIC DEVICE AND COMPUTER READABLE INFORMATION MEDIA |
-
2019
- 2019-12-18 KR KR1020190170029A patent/KR102655380B1/ko active IP Right Grant
-
2020
- 2020-03-05 US US16/810,668 patent/US11080531B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100652763B1 (ko) * | 2005-09-28 | 2006-12-01 | 엘지전자 주식회사 | 이동 단말의 동영상 파일 편집 방법 및 장치 |
KR101959672B1 (ko) * | 2018-05-24 | 2019-07-02 | 이준호 | 사용자측 동영상 편집 장치, 작업자측 동영상 편집 장치 및 동영상 편집 서버 |
US20190370283A1 (en) * | 2018-05-30 | 2019-12-05 | Baidu Usa Llc | Systems and methods for consolidating recorded content |
JP6603929B1 (ja) * | 2019-02-07 | 2019-11-13 | 株式会社オープンエイト | 動画編集サーバおよびプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20210078206A (ko) | 2021-06-28 |
US11080531B2 (en) | 2021-08-03 |
US20210192216A1 (en) | 2021-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102655380B1 (ko) | 음성 인식에 기초한 멀티미디어 콘텐츠 편집 기술 | |
JP5697139B2 (ja) | 2次コンテンツ提供システムおよび方法 | |
US20170065889A1 (en) | Identifying And Extracting Video Game Highlights Based On Audio Analysis | |
US10885942B2 (en) | Video-log production system | |
US11315602B2 (en) | Fully automated post-production editing for movies, TV shows and multimedia contents | |
US20160004911A1 (en) | Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics | |
US11604827B2 (en) | Systems and methods for generating improved content based on matching mappings | |
US11570525B2 (en) | Adaptive marketing in cloud-based content production | |
CN104170374A (zh) | 在视频会议期间修改参与者的外观 | |
WO2022134698A1 (zh) | 视频处理方法及装置 | |
US10225621B1 (en) | Eyes free entertainment | |
US20240160843A1 (en) | Systems and methods for generating content for a screenplay | |
US20220070291A1 (en) | Customizing modifiable videos of multimedia messaging application | |
US20240171817A1 (en) | Systems and methods for applying behavioral-based parental controls for media assets | |
US12047624B2 (en) | Systems and methods for generating new content segments based on object name identification | |
KR102473475B1 (ko) | 웹툰 기반의 시나리오 제작을 위한 신 생성 방법 | |
US9678960B2 (en) | Methods and systems of dynamic content analysis | |
US11330307B2 (en) | Systems and methods for generating new content structures from content segments | |
US20240196023A1 (en) | System for cloud-based shared virtual studio | |
CN107369450B (zh) | 收录方法和收录装置 | |
KR102439599B1 (ko) | 클라우드 영상 편집 서비스 시스템 및 방법 | |
CN112995530A (zh) | 视频的生成方法、装置及设备 | |
KR102649599B1 (ko) | 배경 음원 추천 및 결합 시스템 및 방법 | |
US11894022B1 (en) | Content system with sentiment-based content modification feature | |
CN114328990B (zh) | 图像完整性识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |