KR102306538B1 - 콘텐트 편집 장치 및 방법 - Google Patents

콘텐트 편집 장치 및 방법 Download PDF

Info

Publication number
KR102306538B1
KR102306538B1 KR1020150009338A KR20150009338A KR102306538B1 KR 102306538 B1 KR102306538 B1 KR 102306538B1 KR 1020150009338 A KR1020150009338 A KR 1020150009338A KR 20150009338 A KR20150009338 A KR 20150009338A KR 102306538 B1 KR102306538 B1 KR 102306538B1
Authority
KR
South Korea
Prior art keywords
content
image
editing apparatus
controller
voice
Prior art date
Application number
KR1020150009338A
Other languages
English (en)
Other versions
KR20160089742A (ko
Inventor
선준규
방한민
신성국
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150009338A priority Critical patent/KR102306538B1/ko
Priority to US14/969,366 priority patent/US10373648B2/en
Priority to EP15879090.7A priority patent/EP3248383A4/en
Priority to CN201580074063.4A priority patent/CN107211198B/zh
Priority to PCT/KR2015/013857 priority patent/WO2016117836A1/en
Publication of KR20160089742A publication Critical patent/KR20160089742A/ko
Priority to US16/274,907 priority patent/US10971188B2/en
Application granted granted Critical
Publication of KR102306538B1 publication Critical patent/KR102306538B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/30Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording
    • G11B27/3081Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on the same track as the main recording used signal is a video-frame or a video-field (P.I.P)
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Television Signal Processing For Recording (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Processing Or Creating Images (AREA)

Abstract

콘텐트 편집 시스템 및 방법이 제공된다. 콘텐트 편집 장치가 동영상 콘텐트를 편집하는 방법은, 동영상 콘텐트를 획득하는 단계; 상기 동영상 콘텐트에 포함된 등장 인물의 이미지 및 상기 등장 인물의 스피치 데이터를 매핑하는 단계; 상기 동영상 콘텐트에 포함된 프레임들 중에서 적어도 하나를 선택하는 단계; 및 상기 매핑된 이미지 및 스피치 데이터, 및 상기 선택된 프레임을 이용하여, 상기 동영상 콘텐트의 편집 콘텐트를 생성하는 단계;를 포함한다.

Description

콘텐트 편집 장치 및 방법{APPARATUS AND METHOD FOR EDITING CONTENT}
본 개시는 콘텐트 편집 장치 및 방법에 관한 것으로서, 보다 상세하게는, 동영상 콘텐트 내의 등장 인물의 이미지 및 등장 인물의 스피치에 기초하여 콘텐트를 편집하는 장치 및 방법에 관한 것이다.
멀티 미디어 기술 및 네트워크 기술이 발전함에 따라, 사용자는 단말을 이용하여 자신이 원하는 콘텐트를 생성하거나, 다른 단말 또는 서비스 서버로부터 다양한 콘텐트를 수신하고 이용할 수 있게 되었다. 그러나, 사용자가 이용할 수 있는 콘텐트의 수가 증가함에 따라, 사용자는 자신이 이용할 콘텐트를 효과적으로 선택하기 힘든 불편함이 있었다. 이에 콘텐트의 내용을 편집 정보하여 제공하는 기술이 개발되고 있으나, 종래의 편집 정보 제공 기술은 기존 미디어의 일부를 단순히 조합하는데 그쳤으므로, 사용자가 친숙하고 편안하게 콘텐트 내용을 파악하기 힘든 문제가 있었다. 이에 따라, 사용자가 효율적으로 콘텐트의 내용을 파악할 수 있으며, 사용자가 보다 친근하게 편집 정보를 이용할 수 있도록 하는 콘텐트 편집 기술이 요구되고 있다.
일부 실시예는 동영상 콘텐트에 포함된 등장 인물의 이미지 및 스피치 데이터를 이용하여 편집 콘텐트를 생성할 수 있는 콘텐트 편집 장치 및 방법을 제공할 수 있다.
또한, 일부 실시예는 동영상 콘텐트의 음성 데이터를 이용하여 편집 콘텐트의 생성을 위한 장면 및 프레임을 선택할 수 있는 콘텐트 편집 장치 및 방법을 제공할 수 있다.
또한, 일부 실시예는 편집 콘텐트의 종류에 따라 상이한 템플릿을 이용하여 편집 콘텐트를 생성할 수 있는 콘텐트 편집 장치 및 방법을 제공할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 1 측면은, 동영상 콘텐트를 획득하는 단계; 상기 동영상 콘텐트에 포함된 등장 인물의 이미지 및 상기 등장 인물의 스피치 데이터를 매핑하는 단계; 상기 동영상 콘텐트에 포함된 프레임들 중에서 적어도 하나를 선택하는 단계; 및 상기 매핑된 이미지 및 스피치 데이터, 및 상기 선택된 프레임을 이용하여, 상기 동영상 콘텐트의 편집 콘텐트를 생성하는 단계;를 포함하는, 콘텐트 편집 장치가 동영상 콘텐트를 편집하는 방법을 제공할 수 있다.
또한, 상기 등장 인물의 이미지 및 상기 등장 인물의 스피치 데이터를 매핑하는 단계는, 상기 동영상 콘텐트 내의 등장 인물들의 얼굴 이미지들을 상기 등장 인물 별로 분류하고, 상기 분류된 얼굴 이미지들을 상기 등장 인물들의 스피치 데이터들과 매핑할 수 있다.
또한, 상기 스피치 데이터는 상기 등장 인물의 음성 데이터 및 상기 음성 데이터로부터 변환된 텍스트 데이터 중 적어도 하나를 포함할 수 있다.
또한, 상기 프레임을 선택하는 단계는, 상기 동영상 콘텐트 내의 음성 데이터를 이용하여 상기 동영상 콘텐트의 장면들 중 적어도 하나를 결정하는 단계; 및 상기 결정된 장면에 포함되는 프레임들 중 적어도 하나의 프레임을 선택하는 단계;를 포함할 수 있다.
또한, 상기 동영상 콘텐트 내의 음성 데이터의 음성 레벨의 변화량 및 주파수의 변화량에 기초하여, 상기 장면들 중 적어도 하나를 결정할 수 있다.
또한, 상기 동영상 콘텐트 내의 기설정된 음성을 검출하는 단계; 및 상기 검출된 음성의 위치를 기준으로 기설정된 조건을 만족하는 위치에 대응되는 장면을 결정할 수 있다.
또한, 상기 기설정된 음성은, 버스트 사운드(burst sound)를 포함하며, 상기 기설정된 조건을 만족하는 위치에 대응되는 장면은, 상기 버스트 사운드가 출력되는 상기 동영상 콘텐트의 부분으로부터 역방향의 소정 위치의 동영상 콘텐트 부분까지에 대응되는 장면일 수 있다.
또한, 상기 결정된 장면에 포함되는 프레임들에 포함된 노이즈의 크기에 따라, 상기 프레임들 중 적어도 하나를 선택할 수 있다.
또한, 상기 결정된 장면에 포함되는 프레임들에 포함된 등장인물 들의 시선 방향, 얼굴 방향 및 얼굴 표정 중 적어도 하나에 기초하여, 상기 프레임들 중 적어도 하나를 선택할 수 있다.
또한, 상기 편집 콘텐트를 생성하는 단계는, 상기 편집 콘텐트의 생성에 이용되는 템플릿을 결정하는 단계; 및 상기 결정된 템플릿 내에 상기 선택된 프레임의 이미지를 삽입하는 단계;를 더 포함할 수 있다.
또한, 상기 템플릿 내에 삽입된 이미지 내에는, 상기 프레임의 이미지에 포함된 등장 인물로부터 발화된 음성으로부터 변환된 텍스트가 표시될 수 있다.
또한, 상기 템플릿을 결정하는 단계는, 상기 편집 콘텐트의 종류를 결정하고 상기 결정된 종류에 대응되는 템플릿을 선택하며, 상기 템플릿 내에 삽입되는 상기 이미지는 상기 편집 콘텐트의 종류에 따라 이미지 처리된 것일 수 있다.
또한, 본 개시의 제 2 측면은, 동영상 콘텐트에 포함된 등장 인물의 이미지 및 상기 등장 인물의 스피치 데이터를 매핑하여 저장하는 저장부; 상기 동영상 콘텐트에 포함된 프레임들 중에서 적어도 하나를 선택하고, 상기 매핑된 이미지 및 스피치 데이터, 및 상기 선택된 프레임을 이용하여, 상기 동영상 콘텐트의 편집 콘텐트를 생성하는 제어부;를 포함하는, 동영상 콘텐트를 편집하는 콘텐트 편집 장치를 제공할 수 있다.
또한, 상기 제어부는, 상기 동영상 콘텐트 내의 등장 인물들의 얼굴 이미지들을 상기 등장 인물 별로 분류하고, 상기 분류된 얼굴 이미지들을 상기 등장 인물들의 스피치 데이터들과 매핑하여 상기 저장부에 저장할 수 있다.
또한, 상기 스피치 데이터는 상기 등장 인물의 음성 데이터 및 상기 음성 데이터로부터 변환된 텍스트 데이터 중 적어도 하나를 포함할 수 있다.
또한, 상기 제어부는, 상기 동영상 콘텐트 내의 음성 데이터를 이용하여 상기 동영상 콘텐트의 장면들 중 적어도 하나를 결정하고, 상기 결정된 장면에 포함되는 프레임들 중 적어도 하나의 프레임을 선택할 수 있다.
또한, 상기 제어부는, 상기 동영상 콘텐트 내의 음성 데이터의 음성 레벨의 변화량 및 주파수의 변화량에 기초하여, 상기 장면들 중 적어도 하나를 결정할 수 있다.
또한, 상기 제어부는, 상기 동영상 콘텐트 내의 기설정된 음성을 검출하고, 상기 검출된 음성의 위치를 기준으로 기설정된 조건을 만족하는 위치에 대응되는 장면을 결정할 수 있다.
또한, 상기 기설정된 음성은, 버스트 사운드(burst sound)를 포함하며, 상기 기설정된 조건을 만족하는 위치에 대응되는 장면은, 상기 버스트 사운드가 출력되는 상기 동영상 콘텐트의 부분으로부터 역방향의 소정 위치의 동영상 콘텐트 부분까지에 대응되는 장면일 수 있다.
또한, 상기 제어부는, 상기 결정된 장면에 포함되는 프레임들에 포함된 노이즈의 크기에 따라, 상기 프레임들 중 적어도 하나를 선택할 수 있다.
또한, 상기 결정된 장면에 포함되는 프레임들에 포함된 등장인물 들의 시선 방향, 얼굴 방향 및 얼굴 표정 중 적어도 하나에 기초하여, 상기 프레임들 중 적어도 하나를 선택할 수 있다.
또한, 상기 제어부는, 상기 편집 콘텐트의 생성에 이용되는 템플릿을 결정하고, 상기 결정된 템플릿 내에 상기 선택된 프레임의 이미지를 삽입할 수 있다.
또한, 상기 템플릿 내에 삽입된 이미지 내에는, 상기 프레임의 이미지에 포함된 등장 인물로부터 발화된 음성으로부터 변환된 텍스트가 표시될 수 있다.
또한, 상기 제어부는, 상기 편집 콘텐트의 종류를 결정하고 상기 결정된 종류에 대응되는 템플릿을 선택하며, 상기 템플릿 내에 삽입되는 상기 이미지는 상기 편집 콘텐트의 종류에 따라 이미지 처리된 것일 수 있다.
또한, 본 개시의 제 3 측면은, 제 1 측면의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.
도 1은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 동영상 콘텐트의 편집 콘텐트를 생성하는 방법의 개요도이다.
도 2는 일부 실시예에 따른 콘텐트 편집 장치(1000)가 디바이스(2000)로부터의 요청에 응답하여 편집 콘텐트를 디바이스(2000)에게 제공하는 일례를 나타내는 도면이다.
도 3은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 편집 콘텐트를 생성하는 방법의 흐름도이다.
도 4는 일부 실시예에 따른 콘텐트 편집 장치(1000)가 얼굴 이미지 및 스피치 데이터를 매핑하는 방법의 흐름도이다.
도 5는 일부 실시예에 따른 얼굴 이미지 DB를 생성하는 방법의 흐름도이다.
도 6은 일부 실시예에 따른 스피치 DB를 생성하는 방법의 흐름도이다.
도 7은 일부 실시예에 따른 동영상 콘텐트로부터 생성된 얼굴 이미지가 스피치 데이터에 매핑된 일례를 나타내는 도면이다.
도 8은 일부 실시예에 따른 얼굴 이미지 및 음성 데이터를 매핑하는 예시를 나타내는 도면이다.
도 9는 일부 실시예에 따른 콘텐트 편집 장치(1000)가 동영상 콘텐트 내의 장면을 선택하고 편집 콘텐트를 생성하는 방법의 흐름도이다.
도 10은 일부 실시예에 따른 콘텐트의 편집 정보가 생성되는 예시를 개괄적으로 나타내는 도면이다.
도 11은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 편집 콘텐트의 생성에 이용될 장면을 추천하고 선택하는 방법의 흐름도이다.
도 12는 일부 실시예에 따른 콘텐트 편집 장치(1000)가 동영상 콘텐트로부터 획득된 음성 신호의 음성 레벨의 변화량 및 주파수의 변화량에 기초하여 추천 장면을 결정하는 예시를 나타내는 도면이다.
도 13은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 기 설정된 음성을 검출함으로써, 추천 장면을 결정하는 예시를 나타내는 도면이다.
도 14는 일부 실시예에 따른 콘텐트 편집 장치(1000)가 선택된 장면 내의 등장 인물에 대응되는 텍스트 데이터를 검출하고 선택된 장면에 대응되는 프레임들 중 일부를 선택함으로써 콘텐트의 편집 정보를 생성하는 방법의 흐름도이다.
도 15는 일부 실시예에 따른 콘텐트 편집 장치(1000)가 선택된 장면에 포함된 복수의 프레임들 중 하나를 선택하는 예시를 나타내는 도면이다.
도 16은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 편집 콘텐트의 종류에 따라 템플릿을 획득하고 획득된 템플릿을 이용하여 편집 콘텐트를 생성하는 방법의 흐름도이다.
도 17은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 편집 콘텐트를 생성하는데 이용되는 템플릿의 레이아웃의 일례를 나타내는 도면이다.
도 18은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 템플릿 내에 삽입될 이미지를 가공하고 가공된 이미지를 템플릿 내에 삽입하는 예시를 나타내는 도면이다.
도 19 및 도 20은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 사용자의 디바이스인 경우의 콘텐트 편집 장치(1000)의 블록도이다.
도 21은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 서버인 경우의 콘텐트 편집 장치(1000)의 블록도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
또한, 본 명세서에서, 편집 콘텐트는 1차 콘텐트를 편집함으로써 생성되는 2차 콘텐트일 수 있다. 예를 들어, 편집 콘텐트는 1차 콘텐트의 내용을 요약함으로써 생성되는 2차 콘텐트일 수 있다. 예를 들어, 콘텐트 편집 장치는 동영상 콘텐트의 일부를 추출하고 추출된 일부를 이용하여 동영상 콘텐트의 내용을 요약함으로써 편집 콘텐트를 생성할 수 있다. 예를 들어, 콘텐트 편집 장치는 동영상 콘텐트의 일부를 가공하거나 동영상 콘텐트의 일부에 새로운 데이터를 추가함으로써 편집 콘텐트를 생성할 수 있다. 그러나, 이에 제한되지 않는다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 동영상 콘텐트의 편집 콘텐트를 생성하는 방법의 개요도이다.
도 1을 참조하면, 콘텐트 편집 장치(1000)는 동영상 콘텐트의 특정 장면을 나타내는 이미지들을 조합하고, 이미지 내의 등장 인물들의 대화를 나타내는 텍스트를 이미지 상에 표시함으로써, 동영상 콘텐트의 편집 정보를 생성할 수 있다. 동영상 콘텐트의 편집 정보는 동영상 콘텐트를 편집함으로써 생성되는 정보로서, 예를 들어, 동영상 콘텐트의 내용을 요약함으로써 생성될 수 있으나, 이에 제한되지 않는다.
콘텐트 편집 장치(1000)는 동영상 콘텐트로부터 동영상 콘텐트의 장면들 중에서 선택된 장면을 나타내는 이미지 및 이미지에 포함된 등장 인물의 스피치 데이터를 생성할 수 있으며, 생성된 이미지 및 스피치 데이터를 이용하여, 동영상 콘텐트의 편집 정보를 생성할 수 있다. 스피치 데이터는 등장 인물로부터 발화된 음성 데이터, 및 음성 데이터로부터 변환된 텍스트 데이터 중 적어도 하나를 포함할 수 있다. 또한, 스피치 데이터는 음성 데이터 및 텍스트 데이터에 대응되는 재생 위치 정보를 포함할 수 있다. 재생 위치 정보는, 예를 들어, 동영상 콘텐트의 전체 재생 시간 중에서, 음성 데이터 및 텍스트 데이터가 대응되는 프레임이 재생되는 재생 시각을 나타낼 수 있다.
편집 콘텐트를 생성하기 위하여, 콘텐트 편집 장치(1000)는 동영상 콘텐트의 등장 인물 별로 등장 인물의 얼굴 이미지를 분류함으로써 얼굴 이미지 DB를 생성할 수 있으며, 등장 인물에 의해 발화된 음성에 관련된 스피치 데이터를 분류함으로써 스피치 DB를 생성할 수 있다. 또한, 콘텐트 편집 장치(1000)는 얼굴 이미지 DB 내의 얼굴 이미지 및 스피치 DB 내의 스피치 데이터를 매핑할 수 있다.
콘텐트 편집 장치(1000)는 영상 처리를 할 수 있는 모든 장치를 포함할 수 있으며, 디바이스 또는 서버일 수 있다. 디바이스는, 스마트폰, 태블릿 PC, PC, 스마트 TV, 휴대폰, PDA(personal digital assistant), 랩톱, 미디어 플레이어, 마이크로 서버, GPS(global positioning system) 장치, 전자책 단말기, 디지털방송용 단말기, 네비게이션, 키오스크, MP3 플레이어, 디지털 카메라, 가전기기 및 기타 모바일 또는 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다. 또한, 디바이스는 통신 기능 및 데이터 프로세싱 기능을 구비한 시계, 안경, 헤어 밴드 및 반지 등의 웨어러블 디바이스일 수 있다. 또한, 서버는 특정 서비스를 제공하는 서비스 사업자의 서버일 수 있다. 서비스는, 예를 들어, 방송 서비스, 콘텐트 공유 서비스, 콘텐트 제공 서비스, 게임 제공 서비스, 채팅 서비스, 검색 서비스, 통화 서비스, 사진 촬영 서비스, 및 동영상 재생 서비스 등과 같이, 동영상 데이터를 이용하는 서비스를 포함할 수 있다. 그러나, 이에 제한되지 않는다.
도 2는 일부 실시예에 따른 콘텐트 편집 장치(1000)가 디바이스(2000)로부터의 요청에 응답하여 편집 콘텐트를 디바이스(2000)에게 제공하는 일례를 나타내는 도면이다.
도 2를 참조하면, 콘텐트 편집 장치(1000)는 네트워크를 통하여 디바이스(2000)와 통신 연결될 수 있다. 콘텐트 편집 장치(1000)는 디바이스(2000)로부터 동영상 콘텐트의 편집 정보를 요청받을 수 있으며, 요청된 동영상 콘텐트의 편집 콘텐트를 생성하여 디바이스(2000)에게 제공할 수 있다. 디바이스(2000)는 동영상 콘텐트의 식별 값을 콘텐트 편집 장치(1000)에게 전송하거나 동영상 콘텐트를 콘텐트 편집 장치(1000)에게 전송하면서, 동영상 콘텐트의 편집 콘텐트를 콘텐트 편집 장치(1000)에게 요청할 수 있다. 이 경우, 디바이스(2000)는 사용자 입력에 따라 콘텐트 편집 장치(1000)에게 편집 콘텐트의 제공을 요청할 수 있다.
또한, 콘텐트 편집 장치(1000)는 동영상 콘텐트 내의 장면 선택 및 편집 콘텐트의 종류 선택 등과 같이 편집 콘텐트의 생성을 위한 정보를 디바이스(2000)로부터 수신하고, 수신된 정보에 따라 편집 콘텐트를 생성할 수 있다.
또한, 콘텐트 편집 장치(1000)는 생성된 편집 콘텐트를 디바이스(2000)의 사용자의 계정에 대응되는 DB에 저장할 수 있으며, DB에 저장된 편집 콘텐트를 디바이스(2000)에게 제공할 수 있다.
도 3은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 편집 콘텐트를 생성하는 방법의 흐름도이다.
단계 S300에서 콘텐트 편집 장치(1000)는 동영상 콘텐트를 획득할 수 있다. 동영상 콘텐트는 콘텐트 편집 장치(1000)에 저장된 콘텐트일 수 있다. 콘텐트 편집 장치(1000)에 저장된 콘텐트는 콘텐트 편집 장치(1000)가 외부로부터 수신한 콘텐트 및 콘텐트 편집 장치(1000)가 생산한 콘텐트일 수 있다. 또한, 동영상 콘텐트는 콘텐트 편집 장치(1000) 또는 사용자의 디바이스(미도시)로부터 외부 서버(예를 들어, 클라우드 서버) 또는 사용자의 다른 디바이스(미도시)에 업로드된 콘텐트일 수 있다. 동영상 콘텐트는 외부 서버에 의해 재생산된 콘텐트일 수 있다.
콘텐트 편집 장치(1000)는 콘텐트 편집 장치(1000)내에 저장된 동영상 콘텐트를 추출할 수 있다. 디바이스(2000) 또는 외부 서버에 저장된 동영상 콘텐트를 디바이스(2000) 또는 외부 서버로부터 수신할 수 있다.
단계 S310에서 콘텐트 편집 장치(1000)는 동영상 콘텐트에 포함된 등장 인물의 이미지 및 스피치 데이터를 매핑할 수 있다. 콘텐트 편집 장치(1000)는 동영상 콘텐트에 포함된 등장 인물들의 얼굴 이미지들을 동영상 콘텐트의 프레임들로부터 추출할 수 있다. 콘텐트 편집 장치(1000)는 콘텐트 편집 장치(1000) 내의 미디어 데이터 포맷 변환기를 이용하여 동영상 콘텐트로부터 이미지를 생성할 수 있으며, 생성된 이미지 내의 등장 인물의 얼굴을 인식함으로써 등장 인물의 얼굴 이미지를 추출할 수 있다. 콘텐트 편집 장치(1000)는 추출된 얼굴 이미지들을 등장 인물 별로 분류할 수 있다.
또한, 콘텐트 편집 장치(1000)는 동영상 콘텐트에 포함된 등장 인물들의 스피치에 관한 음성 데이터를 동영상 콘텐트로부터 추출할 수 있으며, 추출된 음성 데이터를 텍스트 데이터로 변환할 수 있다. 콘텐트 편집 장치(1000)는 콘텐트 편집 장치(1000) 내의 미디어 데이터 추출기(미도시)를 이용하여 동영상 콘텐트로부터 음성 데이터를 추출할 수 있다. 또한, 콘텐트 편집 장치(1000)는 추출된 음성 데이터를 텍스트 데이터로 변환할 수 있다. 스피치 데이터는 추출된 음성 데이터 및 변환된 텍스트 데이터 중 적어도 하나를 포함할 수 있다. 콘텐트 편집 장치(1000)는 스피치 데이터를 화자 별로 분류할 수 있다.
또한, 콘텐트 편집 장치(1000)는 분류된 얼굴 이미지 및 분류된 스피치 데이터를 매핑할 수 있다. 콘텐트 편집 장치(1000)는 특정 등장 인물의 이미지 및 특정 등장 인물의 스피치 데이터를 매핑할 수 있다. 콘텐트 편집 장치(1000)는 얼굴 이미지 DB에 저장된 얼굴 이미지들 및 스피치 DB에 저장된 스피치 데이터들 중에서, 동일 등장 인물의 것이라고 판단되는 얼굴 이미지들 및 스피치 데이터들을 서로 매핑하거나 그룹핑할 수 있다.
또한, 콘텐트 편집 장치(1000)는 등장 인물의 이미지를 분석하여 등장 인물의 표정을 판단할 수 있으며, 음성 데이터 및 음성 데이터로부터 변환된 텍스트를 분석함으로써 등장 인물의 스피치의 내용(의미)을 판단할 수 있다.
단계 S320에서 콘텐트 편집 장치(1000)는 동영상 콘텐트에 포함된 프레임들 중에서 적어도 하나의 프레임을 선택할 수 있다. 콘텐트 편집 장치(1000)는 동영상 콘텐트에 포함된 장면들 중에서, 편집 콘텐트를 생성하는데 이용될 장면을 선택할 수 있다. 콘텐트 편집 장치(1000)는 선택된 장면에 대응되는 프레임들 중에서 적어도 하나의 프레임을 기설정된 기준에 따라 선택할 수 있다.
단계 S330에서 콘텐트 편집 장치(1000)는 선택된 프레임을 이용하여 동영상 콘텐트의 편집 콘텐트를 생성할 수 있다. 콘텐트 편집 장치(1000)는 편집 콘텐트의 템플릿을 획득하고, 선택된 프레임의 이미지를 템플릿 내에 삽입함으로써 편집 콘텐트를 생성할 수 있다. 또한, 콘텐트 편집 장치(1000)는, 선택된 프레임의 이미지 내의 등장 인물의 얼굴 이미지에 기초하여, 선택된 프레임의 이미지 내의 등장 인물의 스피치 데이터를 DB로부터 추출할 수 있다. 또한, 콘텐트 편집 장치(1000)는 추출된 스피치 데이터를 이용하여, 선택된 프레임의 이미지 상의 등장 인물의 주변에 등장 인물이 발화한 내용을 나타내는 텍스트를 삽입할 수 있다.
도 4는 일부 실시예에 따른 콘텐트 편집 장치(1000)가 얼굴 이미지 및 스피치 데이터를 매핑하는 방법의 흐름도이다.
단계 S400에서 콘텐트 편집 장치(1000)는 동영상 콘텐트 내의 등장 인물에 관한 얼굴 이미지 DB를 생성할 수 있다. 콘텐트 편집 장치(1000)는 동영상 콘텐트로부터 얼굴 이미지들을 획득하고, 획득된 얼굴 이미지들의 특성 값을 추출할 수 있다. 또한, 콘텐트 편집 장치(1000)는 추출된 특성 값에 기초하여 얼굴 이미지들을 등장 인물 별로 그룹핑함으로써, 얼굴 이미지 DB를 생성할 수 있다.
단계 S410에서 콘텐트 편집 장치(1000)는 동영상 콘텐트 내의 화자에 관한 스피치 DB를 생성할 수 있다. 콘텐트 편집 장치(1000)는 동영상 콘텐트로부터 음성 데이터를 수집하고, 수집된 음성 데이터의 특성 값을 추출할 수 있다. 또한, 콘텐트 편집 장치(1000)는 추출된 특성 값에 기초하여 음성 데이터들을 화자 별로 그룹핑할 수 있다. 또한, 콘텐트 편집 장치(1000)는 음성 데이터를 텍스트로 변환하고 음성 데이터에 매핑할 수 있다. 콘텐트 편집 장치(1000)는 음성 데이터 및 텍스트 데이터 중 적어도 하나를 포함하는 스피치 데이터를 화자 별로 분류하여 저장함으로써, 스피치 DB를 생성할 수 있다.
단계 S420에서 콘텐트 편집 장치(1000)는 얼굴 이미지 및 스피치 데이터를 매핑할 수 있다. 콘텐트 편집 장치(1000)는 특정 등장 인물의 얼굴 이미지들을, 특정 화자의 스피치 데이터와 매핑할 수 있다. 특정 등장 인물 및 특정 화자는 동일인일 수 있다. 이에 따라, 동일 인물의 것이라고 판단되는 얼굴 이미지 및 스피치 데이터가 매핑될 수 있다. 콘텐트 편집 장치(1000)는 동일 인물의 것이라고 판단되는 얼굴 이미지 및 스피치 데이터를 매핑함으로써, 매핑 테이블을 생성할 수 있다.
또한, 동영상 콘텐트 내의 등장 인물이 유명인인 경우에, 얼굴 인식 기능의 향상을 위하여, 콘텐트 편집 장치(1000)는 다양한 서비스 서버(미도시)로부터 제공되는 등장 인물의 이미지들을, 얼굴 이미지 DB에 매핑할 수 있다.
또한, 콘텐트 편집 장치(1000)는 등장 인물의 얼굴 이미지 및 스피치 데이터에 대응되는 감정 상태를 결정할 수 있다. 콘텐트 편집 장치(1000)는 등장 인물의 얼굴 이미지 및 얼굴 이미지에 대응되는 스피치 데이터를 분석함으로써, 등장 인물의 얼굴 이미지 및 스피치 데이터에 대응되는 감정 상태를 판단할 수 있다. 예를 들어, 콘텐트 편집 장치(1000)는 등장 인물의 얼굴 표정, 등장 인물의 스피치의 의미, 등장 인물의 음성의 크기 및 주파수 등을 분석함으로써, 등장 인물의 감정을 판단할 수 있다. 또한, 콘텐트 편집 장치(1000)는 판단된 감정을 나타내는 정보를, 등장 인물의 얼굴 이미지 및 스피치 데이터에 매핑하여 저장할 수 있다.
도 5는 일부 실시예에 따른 얼굴 이미지 DB를 생성하는 방법의 흐름도이다.
단계 S500에서 콘텐트 편집 장치(1000)는 동영상 콘텐트 내의 이미지 데이터를 획득할 수 있다. 콘텐트 편집 장치(1000)는 동영상 콘텐트에 포함된 프레임들로부터 이미지 데이터를 획득할 수 있다. 예를 들어, 콘텐트 편집 장치(1000)는 동영상 콘텐트에 포함된 프레임 내에 포함된 이미지 데이터를 추출함으로써 이미지 데이터를 획득할 수 있다. 또한, 예를 들어, 콘텐트 편집 장치(1000)는 동영상 콘텐트에 포함된 프레임을 이용하여 콘텐트 편집 장치(1000)의 화면 상에 디스플레이되는 이미지를 캡쳐함으로써, 이미지 데이터를 획득할 수 있다. 콘텐트 편집 장치(1000)가 이미지를 캡쳐하는 경우에, 콘텐트 편집 장치(1000)는 디스플레이를 포함하는 디바이스일 수 있다. 그러나, 콘텐트 편집 장치(1000)가 이미지 데이터를 획득하는 방법은 이에 제한되지 않는다.
단계 S510에서 콘텐트 편집 장치(1000)는 이미지 데이터로부터 등장 인물들의 얼굴 이미지를 획득할 수 있다. 콘텐트 편집 장치(1000)는 이미지 데이터를 이용하여 동영상 콘텐트의 등장 인물들의 얼굴 이미지를 획득할 수 있다. 예를 들어, 콘텐트 편집 장치(1000)는 이미지 데이터 중에서 얼굴의 속성을 가지는 이미지 데이터를 추출함으로써 얼굴 이미지를 획득할 수 있다. 예를 들어, 콘텐트 편집 장치(1000)는 얼굴 인식을 통하여 이미지 데이터로부터 얼굴 이미지를 잘라냄으로써 얼굴 이미지를 획득할 수 있다. 그러나, 이에 제한되지 않는다. 얼굴 이미지는 하나의 등장 인물의 얼굴을 나타내는 이미지일 수 있다.
단계 S520에서 콘텐트 편집 장치(1000)는 얼굴 이미지로부터 특성 값을 추출할 수 있다. 얼굴 이미지의 특성 값은 얼굴 이미지의 특성을 나타내는 값으로서, 예를 들어, 얼굴 이미지에 포함된 객체들의 형상, 색상 및 크기에 관한 특성을 나타낼 수 있다. 또한, 예를 들어, 콘텐트 편집 장치(1000)는 얼굴 이미지에 포함된 객체들의 위치 및 객체들 간의 간격 등에 관한 특성 값을 추출할 수 있다. 얼굴 이미지에 포함된 객체는, 예를 들어, 머리, 머리카락, 눈, 코, 입 및 귀 등을 포함할 수 있다. 또한, 특성 값은, 예를 들어, 특성 벡터(feature vector) 값일 수 있다. 그러나, 이에 제한되지 않는다.
단계 S530에서 콘텐트 편집 장치(1000)는 특성 값에 기초하여, 얼굴 이미지들을 분류할 수 있다. 콘텐트 편집 장치(1000)는 유사한 특성 값을 가지는 얼굴 이미지들을 그룹핑함으로써 얼굴 이미지들을 분류할 수 있다. 콘텐트 편집 장치(1000)는 얼굴 이미지들의 특성 값을 비교함으로써, 동일 인물의 얼굴을 나타내는 이미지라고 판단되는 얼굴 이미지들을 그룹핑할 수 있다. 콘텐트 편집 장치(1000)가 얼굴 이미지들이 동일 인물의 얼굴을 나타낸다고 판단하기 위한 기준이 되는, 특성 값 및 특성 값들의 유사도는 미리 설정될 수 있다.
단계 S540에서 콘텐트 편집 장치(1000)는 동영상 콘텐트 내의 등장 인물에 대한 얼굴 이미지 DB를 생성할 수 있다. 콘텐트 편집 장치(1000)는 얼굴 이미지들을 등장 인물 별로 저장함으로써 얼굴 이미지 DB를 생성할 수 있다. 얼굴 이미지 DB에는 얼굴 이미지뿐만 아니라 얼굴 이미지의 특성 값이 포함될 수 있으나, 이에 제한되지 않는다. 또한, 얼굴 이미지가 포함된 프레임의 재생 위치에 관한 정보가 얼굴 이미지 DB에 포함될 수 있다.
도 6은 일부 실시예에 따른 스피치 DB를 생성하는 방법의 흐름도이다.
단계 S600에서 콘텐트 편집 장치(1000)는 동영상 콘텐트 내의 음성 데이터를 획득할 수 있다. 콘텐트 편집 장치(1000)는 동영상 콘텐트에 포함된 프레임들로부터 음성 데이터를 획득할 수 있다. 예를 들어, 콘텐트 편집 장치(1000)는 동영상 콘텐트에 포함된 프레임 내에 포함된 음성 데이터를 추출함으로써 음성 데이터를 획득할 수 있다.
단계 S610에서 콘텐트 편집 장치(1000)는 음성 데이터로부터 특성 값을 추출할 수 있다. 예를 들어, 콘텐트 편집 장치(1000)는 음성 데이터에 관한 특성 값을 추출할 수 있다. 음성 데이터의 특성 값은 음성 데이터의 특성을 나타내는 값으로서, 예를 들어, 음성의 진폭, 음성의 주파수 및 음색 등에 관한 특성을 나타낼 수 있다. 또한, 특성 값은, 예를 들어, 특성 벡터(feature vector) 값일 수 있다. 그러나, 이에 제한되지 않는다.
단계 S620에서 콘텐트 편집 장치(1000)는 특성 값에 기초하여, 음성 데이터들을 분류할 수 있다. 콘텐트 편집 장치(1000)는 유사한 특성 값을 가지는 음성 데이터들을 그룹핑함으로써 음성 데이터들을 분류할 수 있다. 콘텐트 편집 장치(1000)는 음성 데이터들의 특성 값을 비교함으로써, 동일 화자의 음성 데이터라고 판단되는 음성 데이터들을 그룹핑할 수 있다. 콘텐트 편집 장치(1000)가 음성 데이터들이 동일 화자의 음성을 나타낸다고 판단하기 위한 기준이 되는, 특성 값 및 특성 값들의 유사도는 미리 설정될 수 있다.
단계 S630에서 콘텐트 편집 장치(1000)는 음성 데이터를 텍스트로 변환함으로써 텍스트 데이터를 생성할 수 있다. 콘텐트 편집 장치(1000)는 STT(Speech To Text) 기술을 이용하여 음성 데이터를 텍스트로 변환할 수 있다.
단계 S640에서 콘텐트 편집 장치(1000)는 동영상 콘텐트 내의 화자에 대한 스피치 DB를 생성할 수 있다. 콘텐트 편집 장치(1000)는 음성 데이터 및 텍스트 데이터 중 적어도 하나를 등장 인물 별로 저장함으로써 스피치 DB를 생성할 수 있다. 스피치 DB에는 음성 데이터 및 텍스트 데이터뿐만 아니라 음성 데이터의 특성 값이 포함될 수 있으나, 이에 제한되지 않는다. 또한, 음성 데이터 및 텍스트 데이터에 대응되는 프레임의 재생 위치에 관한 정보가 스피치 DB에 포함될 수 있다.
도 7은 일부 실시예에 따른 동영상 콘텐트로부터 생성된 얼굴 이미지가 스피치 데이터에 매핑된 일례를 나타내는 도면이다.
도 7을 참조하면, 얼굴 이미지 DB 내에는 등장 인물 A의 얼굴 이미지들, 등장 인물 B의 얼굴 이미지들 및 등장 인물 C의 얼굴 이미지들이 분류되어 저장될 수 있다. 또한, 스피치 DB 내에는 화자 A의 음성 데이터들 및 텍스트 데이터들, 화자 B의 음성 데이터들 및 텍스트 데이터들, 및 화자 C의 음성 데이터들 및 텍스트 데이터들이 분류되어 저장될 수 있다.
또한, 등장 인물 A가 화자 A에 매핑되고, 등장 인물 B가 화자 B에 매핑되고, 등장 인물 C가 화자 C에 매핑될 수 있다. 이 경우, 등장 인물 A와 화자 A는 동일인이고, 등장 인물 B와 화자 B는 동일인이고, 등장 인물 C와 화자 C는 동일인일 수 있다.
도 8은 일부 실시예에 따른 얼굴 이미지 및 음성 데이터를 매핑하는 예시를 나타내는 도면이다.
도 8을 참조하면, 콘텐트 편집 장치(1000)는 동영상 콘텐트의 제1 장면(80)에 포함된 프레임(82)으로부터 얼굴 이미지(84)를 추출할 수 있다. 또한, 콘텐트 편집 장치(1000)는 제1 장면(80)에서 출력되는 음성 데이터(86)를 추출할 수 있다. 콘텐트 편집 장치(1000)는 음성 데이터(86)를 추출하기 위하여 제 1 장면(80)에 포함된 등장 인물 A의 움직임을 분석할 수 있다. 콘텐트 편집 장치(1000)는, 예를 들어, 제1 장면(80) 내의 등장 인물 A의 입의 움직임을 분석하고, 등장 인물 A의 입이 움직이는 동안에 제1 장면(80)에서 출력되는 음성 데이터(86)를 추출할 수 있다.
또한, 콘텐트 편집 장치(1000)는 추출된 음성 데이터(86)를 추출된 얼굴 이미지(84)와 매핑할 수 있다. 또한, 콘텐트 편집 장치(1000)는 음성 데이터(86)의 화자와 추출된 얼굴 이미지(84)의 등장 인물 A가 동일인이라고 판단할 수 있다.
도 9는 일부 실시예에 따른 콘텐트 편집 장치(1000)가 동영상 콘텐트 내의 장면을 선택하고 편집 콘텐트를 생성하는 방법의 흐름도이다.
단계 S900에서 콘텐트 편집 장치(1000)는 동영상 콘텐트 내의 장면을 선택할 수 있다. 콘텐트 편집 장치(1000)는 동영상 콘텐트의 음성을 분석함으로써 편집 콘텐트의 생성에 이용될 장면을 추천할 수 있다. 콘텐트 편집 장치(1000)는 음성의 크기 및 주파수에 기초하여 음성의 특성을 분석할 수 있으며, 기 설정된 특성을 가지는 음성 데이터를 포함하는 프레임 주변의 장면을 추천할 수 있다. 콘텐트 편집 장치(1000)는 추천된 장면을 디바이스(2000)에게 제공하거나, 추천된 장면을 콘텐트 편집 장치(1000)의 화면 상에 디스플레이할 수 있다. 또한, 콘텐트 편집 장치(1000)는 사용자의 선택에 따라 추천 장면들 중 적어도 하나를 선택할 수 있다. 이에 따라, 콘텐트 편집 장치(1000)는 동영상 콘텐트 내의 하이라이트 장면을 선택할 수 있다.
단계 S910에서 콘텐트 편집 장치(1000)는 선택된 장면에 대응되는 프레임들 중 적어도 하나를 선택할 수 있다. 콘텐트 편집 장치(1000)는 선택된 장면을 구성하는 프레임들 중에서 소정의 등장 인물을 포함하고 있는 프레임을 선택할 수 있다. 또한, 콘텐트 편집 장치(1000)는 선택된 장면을 구성하는 프레임들 중에서 노이즈(noise)가 적은 프레임을 선택할 수 있다. 그러나, 이에 제한되지 않으며, 콘텐트 편집 장치(1000)는 다양한 기준에 따라 프레임을 선택할 수 있다.
단계 S920에서 콘텐트 편집 장치(1000)는 선택된 프레임을 이용하여 편집 콘텐트를 생성할 수 있다. 콘텐트 편집 장치(1000)는 편집 콘텐트를 생성하기 위하여 이용되는 템플릿을 획득하고, 획득된 템플릿 내에 선택된 프레임의 이미지를 삽입할 수 있다. 편집 콘텐트를 생성하기 위한 템플릿은, 편집 콘텐트의 종류에 따라 미리 설정될 수 있다.
또한, 콘텐트 편집 장치(1000)는 선택된 프레임 내의 등장 인물이 발화한 음성의 텍스트 데이터를 획득할 수 있다. 콘텐트 편집 장치(1000)는 선택된 프레임 내의 등장 인물의 얼굴 이미지를 프레임으로부터 추출하고, 추출된 얼굴 이미지에 대응되는 텍스트 데이터를 스피치 DB로부터 추출할 수 있다.
또한, 콘텐트 편집 장치(1000)는 추출된 텍스트 데이터를 프레임 내에 삽입된 프레임의 이미지 상에 삽입할 수 있다. 콘텐트 편집 장치(1000)는 프레임의 이미지 내의 등장 인물의 주변에 말풍선을 표시하고, 말풍선 내에 텍스트 데이터를 표시할 수 있다.
한편, 콘텐트 편집 장치(1000)는 장면에 포함된 등장 인물의 감정에 기초하여 편집 콘텐트를 생성할 수 있다. 콘텐트 편집 장치(1000)는 장면에 포함된 등장 인물의 표정 및 등장 인물의 스피치를 분석함으로써 등장 인물의 감정을 판단할 수 있다. 콘테트 편집 장치(1000)는 등장 인물의 감정에 따라 템플릿 내에 포함될 프레임의 이미지에 소정의 이미지 효과를 부여할 수 있다. 또한, 콘텐트 편집 장치(1000)는 등장 인물의 감정에 따라, 등장 인물의 주변에 표시될 말풍선의 모양 및 색상 등을 결정할 수 있다. 또한, 콘텐트 편집 장치(1000)는 등장 인물의 감정에 따라, 말풍선 내에 표시될 텍스트의 색상, 글자체 및 크기를 결정할 수 있다.
도 10은 일부 실시예에 따른 콘텐트의 편집 정보가 생성되는 예시를 개괄적으로 나타내는 도면이다.
도 10에서 이미지들(100)은 편집 콘텐트의 생성을 위하여 선택된 프레임들의 이미지들이며, 적어도 하나의 편집된 이미지들(200)은 이미지들(100)에 텍스트 데이터를 각각 삽입함으로써 생성된 이미지들이다.
도 10을 참조하면, 콘텐트 편집 장치(1000)는 이미지(101) 내에 포함된 특정 등장 인물의 얼굴 이미지(102)를 추출하고, 추출된 이미지(102)를 얼굴 이미지 DB 내의 이미지들과 비교함으로써 추출된 이미지의 카테고리(예를 들어, “등장 인물 A”)를 식별할 수 있다. 또한, 콘텐트 편집 장치(1000)는 식별된 카테고리에 매핑된 텍스트 데이터들 중에서 이미지(101)에 대응되는 프레임에 매칭된 텍스트 데이터(103)를 스피치 DB로부터 추출할 수 있다. 또한, 콘텐트 편집 장치(1000)는 추출된 텍스트 데이터(103)을 이미지(101) 내의 얼굴 이미지(102)의 주변에 말풍선을 표시하고 말풍선 내에 텍스트 데이터(103)를 표시할 수 있다.
도 11은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 편집 콘텐트의 생성에 이용될 장면을 추천하고 선택하는 방법의 흐름도이다.
단계 S1100에서 콘텐트 편집 장치(1000)는 동영상 콘텐트로부터 획득되는 음성 신호의 음성 레벨의 변화량 및 주파수의 변화량을 측정할 수 있다. 음성 신호의 음성 레벨은 음성 신호의 진폭일 수 있다.
단계 S1110에서 콘텐트 편집 장치(1000)는 음성 레벨의 변화량 및 주파수의 변화량에 기초하여, 동영상 내의 특정 장면을 추천할 수 있다. 콘텐트 편집 장치(1000)는 음성 레벨의 변화량 및/또는 주파수의 변화량이 기설정된 수치보다 큰지에 따라, 동영상 내의 특정 장면을 추천할 수 있다.
콘텐트 편집 장치(1000)는 음성 신호 중에서 음성 레벨의 변화량의 표준 편차가 기 설정된 수치보다 큰 부분을 판단할 수 있다. 이 경우, 콘텐트 편집 장치(1000)는 음성 신호 중에서 음성 레벨의 변화량의 표준 편차가 기 설정된 수치보다 큰 부분을 포함하는 장면을 추천할 수 있다.
또한, 콘텐트 편집 장치(1000)는 음성 신호 중에서 음성의 주파수의 변화량의 표준 편차가 기 설정된 수치보다 큰 부분을 판단할 수 있다. 이 경우, 콘텐트 편집 장치(1000)는 음성 신호 중에서 음성 레벨의 변화량의 표준 편차가 기 설정된 수치보다 큰 부분을 포함하는 장면을 추천할 수 있다.
그러나, 이에 제한되지 않으며, 콘텐트 편집 장치(1000)는 음성 레벨의 변화량 및 주파수의 변화량에 기초하여 다양한 기준에 따라 장면을 추천할 수 있다.
단계 S1120에서 콘텐트 편집 장치(1000)는 동영상 콘텐트 내의 기 설정된 음성을 검출할 수 있다. 콘텐트 편집 장치(1000)는 음성 레벨의 변화량 및 주파수의 변화량이 기설정된 수치보다 작은 경우에, 동영상 콘텐트 내의 기 설정된 음성을 검출할 수 있다. 예를 들어, 콘텐트 편집 장치(1000)는 동영상 콘텐트로부터 획득되는 음성 신호 중에서 웃음 소리에 해당되는 부분을 검출할 수 있다. 콘텐트 편집 장치(1000)는, 예를 들어, 기 설정된 웃음 소리의 특성 값을 동영상 콘텐트로부터 획득되는 음성 신호의 특성 값과 비교함으로써, 음성 신호 중에서 웃음 소리에 해당되는 부분을 검출할 수 있다. 그러나, 이에 제한되지 않는다.
단계 S1130에서 콘텐트 편집 장치(1000)는 검출된 음성의 위치를 기준으로 기설정된 조건을 만족하는 위치에 대응되는 장면을 추천할 수 있다. 예를 들어, 콘텐트 편집 장치(1000)는 음성 신호 중에서 웃음 소리에 해당되는 부분을 포함하는 장면 및/또는 웃음 소리에 해당되는 부분 이전의 소정의 부분을 포함하는 장면을 추천할 수 있다.
단계 S1140에서 콘텐트 편집 장치(1000)는, 사용자 입력에 따라, 추천된 특정 장면 중에서 적어도 하나를 선택할 수 있다. 콘텐트 편집 장치(1000)가 사용자의 디바이스인 경우에, 콘텐트 편집 장치(1000)는 추천 장면을 나타내는 동영상 또는 이미지를 콘텐트 편집 장치(1000)의 화면 상에 디스플레이하고, 콘텐트 편집 장치(1000)에 대한 사용자의 선택 입력에 기초하여 추천 장면 중 일부를 선택할 수 있다.
또는, 콘텐트 편집 장치(1000)가 사용자의 디바이스(2000)와 연결된 서버인 경우에, 콘텐트 편집 장치(1000)는 동영상 콘텐트에서 추천 장면이 존재하는 위치에 관한 정보, 추천 장면을 나타내는 동영상, 추천 장면을 나타내는 이미지 중 적어도 하나를 사용자의 디바이스(2000)에게 전송할 수 있다. 또한, 사용자의 디바이스(2000)는 콘텐트 편집 장치(1000)로부터 추천된 추천 장면을 디바이스(2000)의 화면 상에 디스플레이하고, 추천 장면 중 일부를 선택하는 사용자의 선택 입력을 수신할 수 있다. 사용자의 디바이스(2000)는 사용자의 선택 입력에 따라 추천 장면 중 일부를 선택하고 선택된 추천 장면의 식별 값을 콘텐트 편집 장치(1000)에게 제공할 수 있다.
도 12는 일부 실시예에 따른 콘텐트 편집 장치(1000)가 동영상 콘텐트로부터 획득된 음성 신호의 음성 레벨의 변화량 및 주파수의 변화량에 기초하여 추천 장면을 결정하는 예시를 나타내는 도면이다.
도 12를 참조하면, 콘텐트 편집 장치(1000)는 동영상 콘텐트로부터 획득된 음성 신호에서 음성 신호의 진폭 변화량 및 음성 신호의 주파수 변화량이 큰 부분에 기초하여, 음성 신호의 일부분(120)을 선택하고, 선택된 일부분(120)에 대응되는 동영상 콘텐트의 장면을 사용자에게 추천할 수 있다.
예를 들어, 음성 신호에서 주파수의 변화량이 큰 부분은, 여러 소리가 융합되는 부분일 수 있다. 또한, 예를 들어, 음성 신호에서 진폭의 변화량이 큰 경우는 소리의 크기 변화가 큰 부분일 수 있다.
이에 따라, 콘텐트 편집 장치(1000)는 음성 신호에서 주파수의 변화량 및 진폭의 변화량이 큰 부분을 선택함으로써, 여러 소리가 융합되어 큰 소리가 발생되는 장면을 추천할 수 있게 된다. 또한, 여러 소리가 융합되어 큰 소리가 발생되는 장면은 동영상 콘텐트의 하이라이트 장면일 확률이 높을 수 있다.
도 13은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 기 설정된 음성을 검출함으로써, 추천 장면을 결정하는 예시를 나타내는 도면이다.
도 13을 참조하면, 콘텐트 편집 장치(1000)는 동영상 콘텐트로부터 획득된 음성 신호에서 웃음 소리에 해당되는 부분(130)을 검출할 수 있다. 콘텐트 편집 장치(1000)는 웃음 소리의 특성 값을 음성 신호의 특성 값과 비교함으로써, 음성 신호에서 웃음 소리에 해당되는 부분(130)을 검출할 수 있다.
또한, 콘텐트 편집 장치(1000)는 웃음 소리에 해당되는 부분(130)으로부터 역방향의 소정 위치까지의 부분(132)을 선택하고, 선택된 부분(132)에 대응되는 장면을 추천 장면으로 결정할 수 있다. 예를 들어, 콘텐트 편집 장치(1000)는 웃음 소리에 해당되는 부분(130)을 기준으로 역방향으로 특정 대화가 시작되는 지점을 결정하고, 결정된 지점으로부터 웃음 소리에 해당되는 부분(130)을 포함하는 부분(132)를 선택할 수 있다.
도 13에서는, 콘텐트 편집 장치(1000)가 웃음 소리에 해당되는 부분을 검출하는 것으로 설명하였지만 이에 제한되지 않는다. 콘텐트 편집 장치(1000)는, 예를 들어, 비명 소리, 폭발음 또는 천둥 소리 등과 같은 버스트 사운드(burst sound)를 검출할 수 있다.
도 14는 일부 실시예에 따른 콘텐트 편집 장치(1000)가 선택된 장면 내의 등장 인물에 대응되는 텍스트 데이터를 검출하고 선택된 장면에 대응되는 프레임들 중 일부를 선택함으로써 콘텐트의 편집 정보를 생성하는 방법의 흐름도이다.
단계 S1400에서 콘텐트 편집 장치(1000)는 선택된 장면 내의 등장 인물을 인식할 수 있다. 콘텐트 편집 장치(1000)는 선택된 장면에 포함된 프레임을 동영상 콘텐트로부터 획득하고, 획득된 프레임의 이미지 내에 포함된 등장 인물을 인식할 수 있다. 콘텐트 편집 장치(1000)는 획득된 프레임의 이미지에서 등장 인물의 얼굴 이미지를 추출할 수 있다. 예를 들어, 콘텐트 편집 장치(1000)는 얼굴 인식 기술을 이용하여 획득된 프레임의 이미지에서 등장 인물의 얼굴을 인식하고, 인식된 얼굴의 이미지를 획득된 프레임의 이미지로부터 잘라낼 수 있다.
단계 S1410에서 콘텐트 편집 장치(1000)는 선택된 장면 및 인식된 등장 인물에 대응되는 텍스트 데이터를 검출할 수 있다. 콘텐트 편집 장치(1000)는 단계 S1400에서 획득된 얼굴 이미지에 대응되는 등장 인물을 결정할 수 있다. 콘텐트 편집 장치(1000)는 단계 S1400에서 획득된 얼굴 이미지와 동일 또는 유사한 얼굴 이미지의 등장 인물을 결정할 수 있다. 콘텐트 편집 장치(1000)는 단계 S1400에서 획득된 얼굴 이미지를 얼굴 이미지 DB에 포함된 얼굴 이미지와 비교함으로써, 획득된 얼굴 이미지에 대응되는 등장 인물을 결정할 수 있다.
또한, 콘텐트 편집 장치(1000)는 선택된 장면 및 결정된 등장 인물에 대응되는 텍스트 데이터를 추출할 수 있다. 콘텐트 편집 장치(1000)는 S1400에서 획득된 얼굴 이미지가 포함된 프레임의 재생 위치에 대응되는 텍스트 데이터를 스피치 DB로부터 검출할 수 있다. 콘텐트 편집 장치(1000)는 얼굴 이미지가 포함된 프레임의 재생 위치에서 동영상 콘텐트로부터 출력되는 음성 데이터에 대응되는 텍스트 데이터를 검출할 수 있다.
단계 S1420에서 콘텐트 편집 장치(1000)는 선택된 장면에 대응되는 프레임들 중에서 적어도 하나의 프레임을 선택할 수 있다. 콘텐트 편집 장치(1000)는 선택된 장면을 구성하는 프레임들 중에서 노이즈(noise)가 적은 프레임을 선택할 수 있다. 콘텐트 편집 장치(1000)는 선택된 장면을 구성하는 프레임들의 이미지들에 기설정된 노이즈가 얼마나 포함되어 있는지를 각각 판단할 수 있다. 콘텐트 편집 장치(1000)는 판단 결과에 기초하여, 기설정된 수치 이하의 노이즈를 가지는 프레임을 선택할 수 있다.
또한, 콘텐트 편집 장치(1000)는 등장 인물의 얼굴 방향, 시선, 표정 및 입모양 등을 고려하여, 선택된 장면에 대응되는 프레임들 중 적어도 하나를 선택할 수 있다. 예를 들어, 콘텐트 편집 장치(1000)는 프레임 내의 등장 인물의 얼굴이 정면을 향하거나, 등장 인물의 시선이 정면을 향하거나, 등장 인물의 입이 열려있는 경우에, 해당 프레임을 선택할 수 있다. 그러나, 이에 제한되지 않으며, 콘텐트 편집 장치(1000)는 다양한 기준에 따라 프레임을 선택할 수 있다.
단계 S1430에서 콘텐트 편집 장치(1000)는 검출된 텍스트 데이터 및 선택된 프레임을 이용하여, 콘텐트의 편집 정보를 생성할 수 있다. 콘텐트 편집 장치(1000)는 콘텐트의 편집 정보를 생성하기 위하여 이용되는 템플릿을 선택할 수 있다. 콘텐트 편집 장치(1000)는 선택된 템플릿 내에, 단계 S1420에서 선택된 프레임의 이미지의 전부 또는 일부를 삽입할 수 있다. 또한, 콘텐트 편집 장치(1000)는 선택된 프레임의 이미지 내에 텍스트 데이터를 포함하는 말풍선을 삽입할 수 있다.
도 15는 일부 실시예에 따른 콘텐트 편집 장치(1000)가 선택된 장면에 포함된 복수의 프레임들 중 하나를 선택하는 예시를 나타내는 도면이다. 예를 들어, 콘텐트 편집 장치(1000)는 특정 장면을 구성하는 프레임들(150, 152, 154, 156) 중에서 노이즈(noise)가 적으며 선명한 이미지를 나타내는 프레임(156)을 선택할 수 있다. 또는, 예를 들어, 콘텐트 편집 장치(1000)는 특정 장면을 구성하는 프레임들(150, 152, 154, 156) 중에서, 등장 인물의 얼굴 방향이 정면이며 등장 인물의 시선이 정면을 향하는 이미지를 포함하는 프레임(156)을 선택할 수 있다.
도 16은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 편집 콘텐트의 종류에 따라 템플릿을 획득하고 획득된 템플릿을 이용하여 편집 콘텐트를 생성하는 방법의 흐름도이다.
단계 S1600에서 콘텐트 편집 장치(1000)는 편집 콘텐트의 종류를 결정할 수 있다. 편집 콘텐트의 종류는, 예를 들어, 카툰 형식의 콘텐트, 앨범 형식의 콘텐트, 및 썸네일 형식의 콘텐트를 포함할 수 있다. 그러나, 이에 제한되지 않는다.
콘텐트 편집 장치(1000)는 편집 콘텐트의 종류를 선택하는 사용자 입력에 따라 편집 콘텐트의 종류를 결정할 수 있다. 콘텐트 편집 장치(1000)가 사용자의 디바이스인 경우, 콘텐트 편집 장치(1000)는 편집 콘텐트의 종류를 선택하기 위한 UI를 콘텐트 편집 장치(1000)의 화면 상에 디스플레이하고, 디스플레이된 UI를 통한 사용자의 선택 입력에 기초하여 편집 콘텐트의 종류를 선택할 수 있다.
또는, 콘텐트 편집 장치(1000)가 사용자의 디바이스(2000)와 연결된 서버인 경우에, 콘텐트 편집 장치(1000)는 편집 콘텐트의 종류를 선택하기 위한 UI를 사용자의 디바이스(2000)에게 전송할 수 있다. 또한, 사용자의 디바이스(2000)는 콘텐트 편집 장치(1000)로부터 수신된 편집 콘텐트의 종류를 선택하기 위한 UI을 디바이스(2000)의 화면 상에 디스플레이하고, 편집 콘텐트의 종류를 선택하는 사용자의 선택 입력을 수신할 수 있다. 사용자의 디바이스(2000)는 사용자의 선택 입력에 따라 편집 콘텐트의 종류를 선택하고 편집 콘텐트의 종류를 나타내는 식별 값을 콘텐트 편집 장치(1000)에게 제공할 수 있다.
단계 S1610에서 콘텐트 편집 장치(1000)는 편집 콘텐트의 생성에 이용될 템플릿을 획득할 수 있다. 편집 콘텐트의 종류에 따른 템플릿이 콘텐트 편집 장치(1000) 내에 미리 설정되어 저장될 수 있다. 그러나, 이에 제한되지 않으며, 콘텐트 편집 장치(1000)는 외부로부터 편집 콘텐트의 종류에 따른 템플릿을 수신할 수도 있다. 편집 콘텐트의 생성에 이용될 템플릿은, 편집 콘텐트의 종류에 따라 상이한 레이아웃을 가질 수 있다. 또한, 콘텐트 편집 장치(1000)는 복수의 템플릿을 조합함으로써, 편집 콘텐트의 생성에 이용될 레이아웃을 생성할 수 있다. 예를 들어, 콘텐트 편집 장치(1000)는 템플릿 내에 다른 템플릿을 삽입함으로써 레이아웃을 생성할 수 있다. 또한, 템플릿은 확장 가능한 포맷을 가질 수 있으며, 사용자가 적어도 하나의 템플릿을 편집함으로써 사용자가 원하는 레이아웃을 생성할 수도 있다.
단계 S1620에서 콘텐트 편집 장치(1000)는 선택된 프레임의 이미지를 가공할 수 있다. 콘텐트 편집 장치(1000)는 편집 콘텐트의 종류에 따라 프레임의 이미지의 크기를 변경하거나, 프레임의 이미지의 해상도를 변경하거나, 프레임의 이미지에 소정의 이미지 효과를 부여할 수 있다. 예를 들어, 편집 콘텐트가 카툰인 경우, 콘텐트 편집 장치(1000)는 템플릿 내에 삽입될 이미지에 특정 효과를 부여하거나, 템플릿 내에 삽입될 이미지의 크기를 변경할 수 있다. 또한, 예를 들어, 편집 콘텐트가 썸네일인 경우, 콘텐트 편집 장치(1000)는 템플릿 내에 삽입될 이미지의 크기 및 해상도를 변경할 수 있다. 또한, 예를 들어, 편집 콘텐트가 앨범인 경우, 콘텐트 편집 장치(1000)는 템플릿 내에 삽입될 이미지의 크기를 변경할 수 있다. 그러나, 이에 제한되지 않는다.
또한, 콘텐트 편집 장치(1000)는 프레임의 이미지에 소정의 필터 효과를 적용할 수 있다. 필터는, 예를 들어, 이미지에 카툰(cartoon) 효과를 부여하는 필터, 이미지를 선명하게 하는 필터, 이미지를 흐리게 하는 필터, 이미지의 색상을 변경하는 필터, 이미지의 채도를 변경하는 필터 등을 포함할 수 있으나, 이에 제한되지 않는다. 콘텐트 편집 장치(1000)는 프레임의 이미지에 소정의 동적 데이터를 결합함으로써, 편집 콘텐트에 소정의 기능을 추가할 수 있다. 그러나, 이에 제한되지 않는다.
단계 S1630에서 콘텐트 편집 장치(1000)는 가공된 이미지를 획득된 템플릿 내에 삽입할 수 있다. 콘텐트 편집 장치(1000)는 가공된 이미지에 대응되는 템플릿 내의 삽입 위치에 가공된 이미지를 삽입할 수 있다. 이미지를 템플릿에 삽입한다는 것은 템플릿으로 형성된 레이아웃 내에 이미지를 삽입하는 것을 의미할 수 있다.
단계 S1640에서 콘텐트 편집 장치(1000)는 가공된 이미지 내에 말풍선 및 텍스트 데이터를 삽입할 수 있다. 콘텐트 편집 장치(1000)는 가공된 이미지 내의 등장 인물의 주변에 말풍선을 삽입할 수 있다. 콘텐트 편집 장치(1000)는 가공된 이미지 내의 등장 인물의 주변 영역 중에서 말풍선을 표시할 영역을 결정할 수 있다. 콘텐트 편집 장치(1000)는 등장 인물의 스피치를 나타내는 텍스트의 글자수를 고려하여, 등장 인물의 주변 영역 중에서 말풍선을 표시할 영역을 결정할 수 있다. 콘텐트 편집 장치(1000)는 결정된 영역에 말풍선을 삽입할 수 있다. 또한, 콘텐트 편집 장치(1000)는 등장 인물의 스피치를 나타내는 텍스트를 말풍선 내에 삽입할 수 있다.
도 16에서는 콘텐트 편집 장치(1000)가 템플릿 내에 이미지를 삽입한 후에 말풍선 및 텍스트를 이미지에 삽입하는 것으로 설명하였지만, 말풍선 및 텍스트가 이미지 내에 삽입되는 시점은 이에 제한되지 않는다. 콘텐트 편집 장치(1000)는 이미지 내에 말풍선 및/또는 텍스트를 삽입한 이후에, 이미지를 템플릿 내에 삽입할 수도 있다.
한편, 도 16에서는 콘텐트 편집 장치(1000)가 템플릿 내에 이미지를 삽입하는 것으로 설명하였지만, 이에 제한되지 않는다. 콘텐트 편집 장치(1000)는 템플릿 내에 소정 장면을 나타내는 동영상을 삽입할 수도 있다. 이 경우, 콘텐트 편집 장치(1000)는 소정 장면을 구성하는 프레임들을 포함하는 동영상을 생성하고 생성된 동영상을 템플릿 내에 삽입할 수 있다. 또한, 콘텐트 편집 장치(1000)는 동영상 내에 등장 인물의 스피치를 나타내는 텍스트를 삽입할 수도 있다. 또한, 콘텐트 편집 장치(1000)는 이미지 및 동영상을 함께 템플릿 내에 삽입할 수도 있다. 또한, 콘텐트 편집 장치(1000)는 복수의 이미지를 결합하고 결합된 이미지들이 슬라이드 쇼처럼 순차적으로 표시되도록 하는 동영상을 생성하여 템플릿 내에 삽입할 수도 있다.
도 17은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 편집 콘텐트를 생성하는데 이용되는 템플릿의 레이아웃의 일례를 나타내는 도면이다.
도 17을 참조하면, 편집 콘텐트의 종류에 따라 특정 레이아웃을 가지는 템플릿이 미리 설정될 수 있다. 편집 콘텐트의 종류에 따라 적어도 하나의 템플릿이 미리 설정될 수 있으며, 콘텐트 편집 장치(1000)는 편집 콘텐트의 종류에 따라 서로 상이한 템플릿을 이용하여 편집 콘텐트를 생성할 수 있다.
도 18은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 템플릿 내에 삽입될 이미지를 가공하고 가공된 이미지를 템플릿 내에 삽입하는 예시를 나타내는 도면이다.
도 18을 참조하면, 콘텐트 편집 장치(1000)는 템플릿에 삽입될 이미지(180)에 소정의 이미지 효과를 부여함으로써, 이미지(182)를 생성할 수 있다. 또한, 이미지 효과가 부여된 이미지(182)를 템플릿 내에 삽입할 수 있다.
도 19 및 도 20은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 사용자의 디바이스인 경우의 콘텐트 편집 장치(1000)의 블록도이다.
도 19에 도시된 바와 같이, 콘텐트 편집 장치(1000)가 사용자의 디바이스인 경우에, 일부 실시예에 따른 콘텐트 편집 장치(1000)는, 사용자 입력부(1100), 출력부(1200), 제어부(1300), 및 통신부(1500)를 포함할 수 있다. 그러나, 도 19에 도시된 구성 요소 모두가 콘텐트 편집 장치(1000)의 필수 구성 요소인 것은 아니다. 도 19에 도시된 구성 요소보다 많은 구성 요소에 의해 콘텐트 편집 장치(1000)가 구현될 수도 있고, 도 19에 도시된 구성 요소보다 적은 구성 요소에 의해 콘텐트 편집 장치(1000)가 구현될 수도 있다.
예를 들어, 도 20에 도시된 바와 같이, 일부 실시예에 따른 콘텐트 편집 장치(1000)는, 사용자 입력부(1100), 출력부(1200), 제어부(1300), 및 통신부(1500) 이외에 센싱부(1400), A/V 입력부(1600), 및 메모리(1700)를 더 포함할 수도 있다. 또한, 메모리(1700)는 DB일 수 있다.
사용자 입력부(1100)는, 사용자가 콘텐트 편집 장치(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
사용자 입력부(1100)는, 편집 콘텐트의 생성을 위한 사용자 입력을 수신할 수 있다. 예를 들어, 사용자 입력부(1100)는 추천된 장면들 중 적어도 하나를 선택하는 사용자 입력, 장면에 포함되는 프레임들 중 적어도 하나를 선택하는 사용자 입력, 및 편집 콘텐트의 종류를 선택하는 사용자 입력을 수신할 수 있으나, 이에 제한되지 않는다.
출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.
디스플레이부(1210)는 콘텐트 편집 장치(1000)에서 처리되는 정보를 표시 출력한다. 예를 들어, 디스플레이부(1210)는, 편집 콘텐트를 생성하기 위한 사용자 인터페이스를 디스플레이할 수 있다. 편집 콘텐트를 생성하기 위한 사용자 인터페이스는, 예를 들어, 추천된 장면들 중 적어도 하나를 선택하고, 장면에 포함되는 프레임들 중 적어도 하나를 선택하고, 편집 콘텐트의 종류를 선택하기 위하여 이용될 수 있다.
한편, 디스플레이부(1210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1210)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 콘텐트 편집 장치(1000)의 구현 형태에 따라 콘텐트 편집 장치(1000)는 디스플레이부(1210)를 2개 이상 포함할 수도 있다. 이때, 2개 이상의 디스플레이부(1210)는 힌지(hinge)를 이용하여 마주보게 배치될 수 있다.
음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다. 또한, 음향 출력부(1220)는 콘텐트 편집 장치(1000)에서 수행되는 기능(예를 들어, 호신호 수신음, 메시지 수신음, 알림음)과 관련된 음향 신호를 출력한다. 이러한 음향 출력부(1220)에는 스피커(speaker), 버저(Buzzer) 등이 포함될 수 있다.
진동 모터(1230)는 진동 신호를 출력할 수 있다. 예를 들어, 진동 모터(1230)는 오디오 데이터 또는 비디오 데이터(예컨대, 호신호 수신음, 메시지 수신음 등)의 출력에 대응하는 진동 신호를 출력할 수 있다. 또한, 진동 모터(1230)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다.
제어부(1300)는, 통상적으로 콘텐트 편집 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 제어부(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다.
또한, 제어부(1300)는 도 1 내지 도 18에서의 콘텐트 편집 장치(1000)의 기능을 실행함으로써, 동영상 콘텐트 내의 등장 인물의 이미지 및 스피치 데이터에 관한 DB를 구축하고, 동영상 콘텐트의 편집 콘텐트를 생성할 수 있다.
구체적으로, 제어부(1300)는, 동영상 콘텐트를 획득할 수 있다. 제어부(1300)는 콘텐트 편집 장치(1000)내에 저장된 동영상 콘텐트를 추출할 수 있다. 제어부(1300)는 디바이스(2000) 또는 외부 서버에 저장된 동영상 콘텐트를 디바이스(2000) 또는 외부 서버로부터 수신할 수 있다.
제어부(1300)는 동영상 콘텐트에 포함된 등장 인물의 이미지 및 스피치 데이터를 매핑할 수 있다. 제어부(1300)는 동영상 콘텐트에 포함된 등장 인물들의 얼굴 이미지들을 동영상 콘텐트의 프레임들로부터 추출할 수 있다. 제어부(1300)는 추출된 얼굴 이미지들을 등장 인물 별로 분류할 수 있다.
또한, 제어부(1300)는 동영상 콘텐트에 포함된 등장 인물들의 스피치에 관한 음성 데이터를 동영상 콘텐트로부터 추출할 수 있으며, 추출된 음성 데이터를 텍스트 데이터로 변환할 수 있다. 스피치 데이터는 추출된 음성 데이터 및 변환된 텍스트 데이터 중 적어도 하나를 포함할 수 있다. 제어부(1300)는 스피치 데이터를 화자 별로 분류할 수 있다.
제어부(1300)는 동영상 콘텐트 내의 등장 인물에 관한 얼굴 이미지 DB를 생성할 수 있다. 제어부(1300)는 동영상 콘텐트로부터 얼굴 이미지들을 획득하고, 획득된 얼굴 이미지들의 특성 값을 추출할 수 있다. 또한, 제어부(1300)는 추출된 특성 값에 기초하여 얼굴 이미지들을 등장 인물 별로 그룹핑함으로써, 얼굴 이미지 DB를 생성할 수 있다.
구체적으로, 제어부(1300)는 동영상 콘텐트 내의 이미지 데이터를 획득할 수 있다. 제어부(1300)는 동영상 콘텐트에 포함된 프레임들로부터 이미지 데이터를 획득할 수 있다. 예를 들어, 제어부(1300)는 동영상 콘텐트에 포함된 프레임 내에 포함된 이미지 데이터를 추출함으로써 이미지 데이터를 획득할 수 있다. 또한, 예를 들어, 제어부(1300)는 동영상 콘텐트에 포함된 프레임을 이용하여 콘텐트 편집 장치(1000)의 화면 상에 디스플레이되는 이미지를 캡쳐함으로써, 이미지 데이터를 획득할 수 있다. 제어부(1300)는 이미지 데이터로부터 등장 인물들의 얼굴 이미지를 획득할 수 있다. 제어부(1300)는 이미지 데이터를 이용하여 동영상 콘텐트의 등장 인물들의 얼굴 이미지를 획득할 수 있다. 예를 들어, 제어부(1300)는 이미지 데이터 중에서 얼굴의 속성을 가지는 이미지 데이터를 추출함으로써 얼굴 이미지를 획득할 수 있다. 예를 들어, 제어부(1300)는 얼굴 인식을 통하여 이미지 데이터로부터 얼굴 이미지를 잘라냄으로써 얼굴 이미지를 획득할 수 있다. 그러나, 이에 제한되지 않는다. 얼굴 이미지는 하나의 등장 인물의 얼굴을 나타내는 이미지일 수 있다.
제어부(1300)는 얼굴 이미지로부터 특성 값을 추출할 수 있다. 얼굴 이미지의 특성 값은 얼굴 이미지의 특성을 나타내는 값으로서, 예를 들어, 얼굴 이미지에 포함된 객체들의 형상, 색상 및 크기에 관한 특성을 나타낼 수 있다. 또한, 예를 들어, 제어부(1300)는 얼굴 이미지에 포함된 객체들의 위치 및 객체들 간의 간격 등에 관한 특성 값을 추출할 수 있다. 얼굴 이미지에 포함된 객체는, 예를 들어, 머리, 머리카락, 눈, 코, 입 및 귀 등을 포함할 수 있다. 또한, 특성 값은, 예를 들어, 특성 벡터(feature vector) 값일 수 있다. 그러나, 이에 제한되지 않는다. 제어부(1300)는 특성 값에 기초하여, 얼굴 이미지들을 분류할 수 있다. 제어부(1300)는 유사한 특성 값을 가지는 얼굴 이미지들을 그룹핑함으로써 얼굴 이미지들을 분류할 수 있다. 제어부(1300)는 얼굴 이미지들의 특성 값을 비교함으로써, 동일 인물의 얼굴을 나타내는 이미지라고 판단되는 얼굴 이미지들을 그룹핑할 수 있다. 제어부(1300)가 얼굴 이미지들이 동일 인물의 얼굴을 나타낸다고 판단하기 위한 기준이 되는, 특성 값 및 특성 값들의 유사도는 미리 설정될 수 있다.
제어부(1300)는 동영상 콘텐트 내의 등장 인물에 대한 얼굴 이미지 DB를 생성할 수 있다. 제어부(1300)는 얼굴 이미지들을 등장 인물 별로 저장함으로써 얼굴 이미지 DB를 생성할 수 있다. 얼굴 이미지 DB에는 얼굴 이미지뿐만 아니라 얼굴 이미지의 특성 값이 포함될 수 있으나, 이에 제한되지 않는다. 또한, 얼굴 이미지가 포함된 프레임의 재생 위치에 관한 정보가 얼굴 이미지 DB에 포함될 수 있다.
또한, 제어부(1300)는 동영상 콘텐트 내의 화자에 관한 스피치 DB를 생성할 수 있다. 제어부(1300)는 동영상 콘텐트로부터 음성 데이터를 수집하고, 수집된 음성 데이터의 특성 값을 추출할 수 있다. 또한, 제어부(1300)는 추출된 특성 값에 기초하여 음성 데이터들을 화자 별로 그룹핑할 수 있다. 또한, 제어부(1300)는 음성 데이터를 텍스트로 변환하고 음성 데이터에 매핑할 수 있다. 제어부(1300)는 음성 데이터 및 텍스트 데이터 중 적어도 하나를 포함하는 스피치 데이터를 화자 별로 분류하여 저장함으로써, 스피치 DB를 생성할 수 있다.
제어부(1300)는 동영상 콘텐트 내의 음성 데이터를 획득할 수 있다. 제어부(1300)는 동영상 콘텐트에 포함된 프레임들로부터 음성 데이터를 획득할 수 있다. 예를 들어, 제어부(1300)는 동영상 콘텐트에 포함된 프레임 내에 포함된 음성 데이터를 추출함으로써 음성 데이터를 획득할 수 있다.
제어부(1300)는 음성 데이터로부터 특성 값을 추출할 수 있다. 예를 들어, 제어부(1300)는 음성 데이터에 관한 특성 값을 추출할 수 있다. 음성 데이터의 특성 값은 음성 데이터의 특성을 나타내는 값으로서, 예를 들어, 음성의 진폭, 음성의 주파수 및 음색 등에 관한 특성을 나타낼 수 있다. 또한, 특성 값은, 예를 들어, 특성 벡터(feature vector) 값일 수 있다. 그러나, 이에 제한되지 않는다.
제어부(1300)는 특성 값에 기초하여, 음성 데이터들을 분류할 수 있다. 제어부(1300)는 유사한 특성 값을 가지는 음성 데이터들을 그룹핑함으로써 음성 데이터들을 분류할 수 있다. 제어부(1300)는 음성 데이터들의 특성 값을 비교함으로써, 동일 화자의 음성 데이터라고 판단되는 음성 데이터들을 그룹핑할 수 있다. 제어부(1300)가 음성 데이터들이 동일 화자의 음성을 나타낸다고 판단하기 위한 기준이 되는, 특성 값 및 특성 값들의 유사도는 미리 설정될 수 있다.
제어부(1300)는 음성 데이터를 텍스트로 변환함으로써 텍스트 데이터를 생성할 수 있다. 제어부(1300)는 STT(Speech To Text) 기술을 이용하여 음성 데이터를 텍스트로 변환할 수 있다.
제어부(1300)는 동영상 콘텐트 내의 화자에 대한 스피치 DB를 생성할 수 있다. 제어부(1300)는 음성 데이터 및 텍스트 데이터 중 적어도 하나를 등장 인물 별로 저장함으로써 스피치 DB를 생성할 수 있다. 스피치 DB에는 음성 데이터 및 텍스트 데이터뿐만 아니라 음성 데이터의 특성 값이 포함될 수 있으나, 이에 제한되지 않는다. 또한, 음성 데이터 및 텍스트 데이터에 대응되는 프레임의 재생 위치에 관한 정보가 스피치 DB에 포함될 수 있다.
또한, 제어부(1300)는 분류된 얼굴 이미지 및 분류된 스피치 데이터를 매핑할 수 있다. 제어부(1300)는 특정 등장 인물의 이미지 및 특정 등장 인물의 스피치 데이터를 매핑할 수 있다.
제어부(1300)는 얼굴 이미지 및 스피치 데이터를 매핑할 수 있다. 제어부(1300)는 특정 등장 인물의 얼굴 이미지들을, 특정 화자의 스피치 데이터와 매핑할 수 있다. 특정 등장 인물 및 특정 화자는 동일인일 수 있다. 이에 따라, 동일 인물의 것이라고 판단되는 얼굴 이미지 및 스피치 데이터가 매핑될 수 있다. 제어부(1300)는 동일 인물의 것이라고 판단되는 얼굴 이미지 및 스피치 데이터를 매핑함으로써, 매핑 테이블을 생성할 수 있다.
또한, 동영상 콘텐트 내의 등장 인물이 유명인인 경우에, 얼굴 인식 기능의 향상을 위하여, 제어부(1300)는 다양한 서비스 서버(미도시)로부터 제공되는 등장 인물의 이미지들을, 얼굴 이미지 DB에 매핑할 수 있다.
또한, 제어부(1300)는 등장 인물의 얼굴 이미지 및 스피치 데이터에 대응되는 감정 상태를 결정할 수 있다. 제어부(1300)는 등장 인물의 얼굴 이미지 및 얼굴 이미지에 대응되는 스피치 데이터를 분석함으로써, 등장 인물의 얼굴 이미지 및 스피치 데이터에 대응되는 감정 상태를 판단할 수 있다. 예를 들어, 제어부(1300)는 등장 인물의 얼굴 표정, 등장 인물의 스피치의 의미, 등장 인물의 음성의 크기 및 주파수 등을 분석함으로써, 등장 인물의 감정을 판단할 수 있다. 또한, 제어부(1300)는 판단된 감정을 나타내는 정보를, 등장 인물의 얼굴 이미지 및 스피치 데이터에 매핑하여 저장할 수 있다.
한편, 제어부(1300)는 동영상 콘텐트에 포함된 프레임들 중에서 적어도 하나의 프레임을 선택할 수 있다. 제어부(1300)는 동영상 콘텐트에 포함된 장면들 중에서, 편집 콘텐트를 생성하는데 이용될 장면을 선택할 수 있다. 제어부(1300)는 선택된 장면에 대응되는 프레임들 중에서 적어도 하나의 프레임을 기설정된 기준에 따라 선택할 수 있다.
제어부(1300)는 동영상 콘텐트로부터 획득되는 음성 신호의 음성 레벨의 변화량 및 주파수의 변화량을 측정할 수 있다. 음성 신호의 음성 레벨은 음성 신호의 진폭일 수 있다.
제어부(1300)는 음성 레벨의 변화량 및 주파수의 변화량에 기초하여, 동영상 내의 특정 장면을 추천할 수 있다. 제어부(1300)는 음성 레벨의 변화량 및/또는 주파수의 변화량이 기설정된 수치보다 큰지에 따라, 동영상 내의 특정 장면을 추천할 수 있다.
제어부(1300)는 음성 신호 중에서 음성 레벨의 변화량의 표준 편차가 기 설정된 수치보다 큰 부분을 판단할 수 있다. 이 경우, 제어부(1300)는 음성 신호 중에서 음성 레벨의 변화량의 표준 편차가 기 설정된 수치보다 큰 부분을 포함하는 장면을 추천할 수 있다.
또한, 제어부(1300)는 음성 신호 중에서 음성의 주파수의 변화량의 표준 편차가 기 설정된 수치보다 큰 부분을 판단할 수 있다. 이 경우, 제어부(1300)는 음성 신호 중에서 음성 레벨의 변화량의 표준 편차가 기 설정된 수치보다 큰 부분을 포함하는 장면을 추천할 수 있다. 그러나, 이에 제한되지 않으며, 제어부(1300)는 음성 레벨의 변화량 및 주파수의 변화량에 기초하여 다양한 기준에 따라 장면을 추천할 수 있다.
제어부(1300)는 동영상 콘텐트 내의 기 설정된 음성을 검출할 수 있다. 제어부(1300)는 음성 레벨의 변화량 및 주파수의 변화량이 기설정된 수치보다 작은 경우에, 동영상 콘텐트 내의 기 설정된 음성을 검출할 수 있다. 예를 들어, 제어부(1300)는 동영상 콘텐트로부터 획득되는 음성 신호 중에서 웃음 소리에 해당되는 부분을 검출할 수 있다. 제어부(1300)는, 예를 들어, 기 설정된 웃음 소리의 특성 값을 동영상 콘텐트로부터 획득되는 음성 신호의 특성 값과 비교함으로써, 음성 신호 중에서 웃음 소리에 해당되는 부분을 검출할 수 있다. 그러나, 이에 제한되지 않는다.
제어부(1300)는 검출된 음성의 위치를 기준으로 기설정된 조건을 만족하는 위치에 대응되는 장면을 추천할 수 있다. 예를 들어, 제어부(1300)는 음성 신호 중에서 웃음 소리에 해당되는 부분을 포함하는 장면 및/또는 웃음 소리에 해당되는 부분 이전의 소정의 부분을 포함하는 장면을 추천할 수 있다.
제어부(1300)는, 사용자 입력에 따라, 추천된 특정 장면 중에서 적어도 하나를 선택할 수 있다. 제어부(1300)는 추천 장면을 나타내는 동영상 또는 이미지를 콘텐트 편집 장치(1000)의 화면 상에 디스플레이하고, 콘텐트 편집 장치(1000)에 대한 사용자의 선택 입력에 기초하여 추천 장면 중 일부를 선택할 수 있다.
제어부(1300)는 선택된 장면 내의 등장 인물을 인식할 수 있다. 제어부(1300)는 선택된 장면에 포함된 프레임을 동영상 콘텐트로부터 획득하고, 획득된 프레임의 이미지 내에 포함된 등장 인물을 인식할 수 있다. 제어부(1300)는 획득된 프레임의 이미지에서 등장 인물의 얼굴 이미지를 추출할 수 있다. 예를 들어, 제어부(1300)는 얼굴 인식 기술을 이용하여 획득된 프레임의 이미지에서 등장 인물의 얼굴을 인식하고, 인식된 얼굴의 이미지를 획득된 프레임의 이미지로부터 잘라낼 수 있다.
제어부(1300)는 선택된 장면 및 인식된 등장 인물에 대응되는 텍스트 데이터를 검출할 수 있다. 제어부(1300)는 획득된 얼굴 이미지에 대응되는 등장 인물을 결정할 수 있다. 제어부(1300)는 획득된 얼굴 이미지와 동일 또는 유사한 얼굴 이미지의 등장 인물을 결정할 수 있다. 제어부(1300)는 획득된 얼굴 이미지를 얼굴 이미지 DB에 포함된 얼굴 이미지와 비교함으로써, 획득된 얼굴 이미지에 대응되는 등장 인물을 결정할 수 있다.
또한, 제어부(1300)는 선택된 장면 및 결정된 등장 인물에 대응되는 텍스트 데이터를 추출할 수 있다. 제어부(1300)는 획득된 얼굴 이미지가 포함된 프레임의 재생 위치에 대응되는 텍스트 데이터를 스피치 DB로부터 검출할 수 있다. 제어부(1300)는 얼굴 이미지가 포함된 프레임의 재생 위치에서 동영상 콘텐트로부터 출력되는 음성 데이터에 대응되는 텍스트 데이터를 검출할 수 있다.
제어부(1300)는 선택된 장면에 대응되는 프레임들 중에서 적어도 하나의 프레임을 선택할 수 있다. 제어부(1300)는 선택된 장면을 구성하는 프레임들 중에서 노이즈(noise)가 적은 프레임을 선택할 수 있다. 제어부(1300)는 선택된 장면을 구성하는 프레임들의 이미지들에 기설정된 노이즈가 얼마나 포함되어 있는지를 각각 판단할 수 있다. 제어부(1300)는 판단 결과에 기초하여, 기설정된 수치 이하의 노이즈를 가지는 프레임을 선택할 수 있다.
또한, 제어부(1300)는 등장 인물의 얼굴 방향, 시선, 표정 및 입모양 등을 고려하여, 선택된 장면에 대응되는 프레임들 중 적어도 하나를 선택할 수 있다. 예를 들어, 제어부(1300)는 프레임 내의 등장 인물의 얼굴이 정면을 향하거나, 등장 인물의 시선이 정면을 향하거나, 등장 인물의 입이 열려있는 경우에, 해당 프레임을 선택할 수 있다. 그러나, 이에 제한되지 않으며, 제어부(1300)는 다양한 기준에 따라 프레임을 선택할 수 있다.
제어부(1300)는 선택된 프레임을 이용하여 동영상 콘텐트의 편집 콘텐트를 생성할 수 있다. 제어부(1300)는 편집 콘텐트의 템플릿을 획득하고, 선택된 프레임의 이미지를 템플릿 내에 삽입함으로써 편집 콘텐트를 생성할 수 있다. 또한, 제어부(1300)는, 선택된 프레임의 이미지 내의 등장 인물의 얼굴 이미지에 기초하여, 선택된 프레임의 이미지 내의 등장 인물의 스피치 데이터를 DB로부터 추출할 수 있다. 또한, 제어부(1300)는 추출된 스피치 데이터를 이용하여, 선택된 프레임의 이미지 상의 등장 인물의 주변에 등장 인물이 발화한 내용을 나타내는 텍스트를 삽입할 수 있다.
제어부(1300)는 편집 콘텐트의 종류를 결정할 수 있다. 편집 콘텐트의 종류는, 예를 들어, 카툰 형식의 콘텐트, 앨범 형식의 콘텐트, 및 썸네일 형식의 콘텐트를 포함할 수 있다. 그러나, 이에 제한되지 않는다.
제어부(1300)는 편집 콘텐트의 종류를 선택하는 사용자 입력에 따라 요?m 콘텐트의 종류를 결정할 수 있다. 제어부(1300)는 편집 콘텐트의 종류를 선택하기 위한 UI를 화면 상에 디스플레이하고, 디스플레이된 UI를 통한 사용자의 선택 입력에 기초하여 편집 콘텐트의 종류를 선택할 수 있다.
제어부(1300)는 편집 콘텐트의 생성에 이용될 템플릿을 획득할 수 있다. 편집 콘텐트의 종류에 따른 템플릿이 콘텐트 편집 장치(1000) 내에 미리 설정되어 저장될 수 있다. 그러나, 이에 제한되지 않으며, 제어부(1300)는 외부로부터 편집 콘텐트의 종류에 따른 템플릿을 수신할 수도 있다. 편집 콘텐트의 생성에 이용될 템플릿은, 편집 콘텐트의 종류에 따라 상이한 레이아웃을 가질 수 있다.
제어부(1300)는 선택된 프레임의 이미지를 가공할 수 있다. 제어부(1300)는 편집 콘텐트의 종류에 따라 프레임의 이미지의 크기를 변경하거나, 프레임의 이미지의 해상도를 변경하거나, 프레임의 이미지에 소정의 이미지 효과를 부여할 수 있다. 예를 들어, 편집 콘텐트가 카툰인 경우, 제어부(1300)는 템플릿 내에 삽입될 이미지에 특정 효과를 부여하거나, 템플릿 내에 삽입될 이미지의 크기를 변경할 수 있다. 또한, 예를 들어, 편집 콘텐트가 썸네일인 경우, 제어부(1300)는 템플릿 내에 삽입될 이미지의 크기 및 해상도를 변경할 수 있다. 또한, 예를 들어, 편집 콘텐트가 앨범인 경우, 제어부(1300)는 템플릿 내에 삽입될 이미지의 크기를 변경할 수 있다. 그러나, 이에 제한되지 않는다.
또한, 제어부(1300)는 프레임의 이미지에 소정의 필터 효과를 적용할 수 있다. 제어부(1300)는 프레임의 이미지에 소정의 동적 데이터를 결합함으로써, 편집 콘텐트에 소정의 기능을 추가할 수 있다. 그러나, 이에 제한되지 않는다.
제어부(1300)는 가공된 이미지를 획득된 템플릿 내에 삽입할 수 있다. 제어부(1300)는 가공된 이미지에 대응되는 템플릿 내의 삽입 위치에 가공된 이미지를 삽입할 수 있다.
제어부(1300)는 가공된 이미지 내에 말풍선 및 텍스트 데이터를 삽입할 수 있다. 제어부(1300)는 가공된 이미지 내의 등장 인물의 주변에 말풍선을 삽입할 수 있다. 제어부(1300)는 가공된 이미지 내의 등장 인물의 주변 영역 중에서 말풍선을 표시할 영역을 결정할 수 있다. 제어부(1300)는 등장 인물의 스피치를 나타내는 텍스트의 글자수를 고려하여, 등장 인물의 주변 영역 중에서 말풍선을 표시할 영역을 결정할 수 있다. 제어부(1300)는 결정된 영역에 말풍선을 삽입할 수 있다. 또한, 제어부(1300)는 등장 인물의 스피치를 나타내는 텍스트를 말풍선 내에 삽입할 수 있다.
센싱부(1400)는, 콘텐트 편집 장치(1000)의 상태 또는 콘텐트 편집 장치(1000) 주변의 상태를 감지하고, 감지된 정보를 제어부(1300)로 전달할 수 있다.
센싱부(1400)는, 지자기 센서(Magnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 각 센서들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있으므로, 구체적인 설명은 생략하기로 한다.
통신부(1500)는, 콘텐트 편집 장치(1000)와 외부 간의 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(151)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 콘텐트 편집 장치(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.
또한, 통신부(1500)는, 동영상 콘텐트의 편집 콘텐트를 생성하기 위하여 필요한 정보를, 외부 기기 또는 외부 서버와 송수신할 수 있다.
A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)은 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 제어부(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.
카메라(1610)에서 처리된 화상 프레임은 메모리(1700)에 저장되거나 통신부(1500)를 통하여 외부로 전송될 수 있다. 카메라(1610)는 단말기의 구성 태양에 따라 2개 이상이 구비될 수도 있다.
마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 마이크로폰(1620)은 외부 디바이스 또는 화자로부터 음향 신호를 수신할 수 있다. 마이크로폰(1620)는 외부의 음향 신호를 입력 받는 과정에서 발생 되는 잡음(noise)를 제거하기 위한 다양한 잡음 제거 알고리즘을 이용할 수 있다.
메모리(1700)는, 제어부(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 콘텐트 편집 장치(1000)로 입력되거나 콘텐트 편집 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다.
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다.
UI 모듈(1710)은, 애플리케이션 별로 콘텐트 편집 장치(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 제어부(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
터치스크린의 터치 또는 근접 터치를 감지하기 위해 터치스크린의 내부 또는 근처에 다양한 센서가 구비될 수 있다. 터치스크린의 터치를 감지하기 위한 센서의 일례로 촉각 센서가 있다. 촉각 센서는 사람이 느끼는 정도로 또는 그 이상으로 특정 물체의 접촉을 감지하는 센서를 말한다. 촉각 센서는 접촉면의 거칠기, 접촉 물체의 단단함, 접촉 지점의 온도 등의 다양한 정보를 감지할 수 있다.
또한, 터치스크린의 터치를 감지하기 위한 센서의 일례로 근접 센서가 있다.
근접 센서는 소정의 검출면에 접근하는 물체, 혹은 근방에 존재하는 물체의 유무를 전자계의 힘 또는 적외선을 이용하여 기계적 접촉이 없이 검출하는 센서를 말한다. 근접 센서의 예로는 투과형 광전 센서, 직접 반사형 광전 센서, 미러 반사형 광전 센서, 고주파 발진형 근접 센서, 정전용량형 근접 센서, 자기형 근접 센서, 적외선 근접 센서 등이 있다. 사용자의 터치 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭, 스와이프 등이 있을 수 있다.
알림 모듈(1730)은 콘텐트 편집 장치(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다. 콘텐트 편집 장치(1000)에서 발생되는 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력, 일정 알림 등이 있다. 알림 모듈(1730)은 디스플레이부(1210)를 통해 비디오 신호 형태로 알림 신호를 출력할 수도 있고, 음향 출력부(1220)를 통해 오디오 신호 형태로 알림 신호를 출력할 수도 있고, 진동 모터(1230)를 통해 진동 신호 형태로 알림 신호를 출력할 수도 있다.
도 21은 일부 실시예에 따른 콘텐트 편집 장치(1000)가 서버인 경우의 콘텐트 편집 장치(1000)의 블록도이다.
도 21을 참조하면, 콘텐트 편집 장치(1000)는 통신부(1010), DB(1020) 및 제어부(1030)를 포함하며, DB(1020)는 얼굴 이미지 DB(1021) 및 스피치 DB(1022)를 포함할 수 있다.
통신부(1010)는, 콘텐트 편집 장치(1000)와 외부 간의 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1010)는, 근거리 통신부, 이동 통신부, 및 방송 수신부를 포함할 수 있으나, 이에 제한되지 않는다. 근거리 통신부(short-range wireless communication unit) 는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다. 이동 통신부는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다. 방송 수신부는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다.
또한, 통신부(1500)는, 동영상 콘텐트의 편집 콘텐트를 생성하기 위하여 필요한 정보를, 외부 기기 또는 외부 서버와 송수신할 수 있다.
DB(1020)는 동영상 콘텐트 내의 등장 인물의 얼굴 이미지 및 등장 인물의 스피치 데이터를 저장할 수 있다.
얼굴 이미지 DB(1021)는 동영상 콘텐트 내의 얼굴 이미지들을 등장 인물 별로 저장할 수 있다. 얼굴 이미지 DB(1021)에는 얼굴 이미지뿐만 아니라 얼굴 이미지의 특성 값이 저장될 수 있으나, 이에 제한되지 않는다. 또한, 얼굴 이미지가 포함된 프레임의 재생 위치에 관한 정보가 얼굴 이미지 DB(1021)에 포함될 수 있다.
스피치 DB(1022)는 동영상 콘텐트 내의 등장 인물의 스피치 데이터를 저장할 수 있다. 스피치 데이터는 음성 데이터 및 텍스트 데이터 중 적어도 하나를 포함할 수 있다. 스피치 DB(1022)에는 음성 데이터 및 텍스트 데이터뿐만 아니라 음성 데이터의 특성 값이 포함될 수 있으나, 이에 제한되지 않는다. 또한, 음성 데이터 및 텍스트 데이터에 대응되는 프레임의 재생 위치에 관한 정보가 스피치 DB(1022)에 포함될 수 있다.
DB(1020)에는 분류된 얼굴 이미지 및 분류된 스피치 데이터의 매핑 값이 저장될 수 있다. 특정 등장 인물의 이미지 및 특정 등장 인물의 스피치 데이터가 서로 매핑될 수 있으며, 어떤 이미지가 어떤 스피치 데이터에 매핑되었는지를 나타내는 매핑 값이 DB(1020)에 저장될 수 있다.
제어부(1030)는, 통상적으로 콘텐트 편집 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 제어부(1030)는, DB(1020)에 저장된 프로그램들을 실행함으로써, 통신부(1010) 및 DB(1020) 등을 전반적으로 제어할 수 있다.
또한, 제어부(1030)는 도 1 내지 도 18에서의 콘텐트 편집 장치(1000)의 기능을 실행함으로써, 동영상 콘텐트 내의 등장 인물의 이미지 및 스피치 데이터에 관한 DB를 구축하고, 동영상 콘텐트의 편집 콘텐트를 생성할 수 있다.
구체적으로, 제어부(1030)는, 동영상 콘텐트를 획득할 수 있다. 제어부(1030)는 콘텐트 편집 장치(1000)내에 저장된 동영상 콘텐트를 추출할 수 있다. 제어부(1030)는 디바이스(2000) 또는 외부 서버에 저장된 동영상 콘텐트를 디바이스(2000) 또는 외부 서버로부터 수신할 수 있다.
제어부(1030)는 동영상 콘텐트에 포함된 등장 인물의 이미지 및 스피치 데이터를 매핑할 수 있다. 제어부(1030)는 동영상 콘텐트에 포함된 등장 인물들의 얼굴 이미지들을 동영상 콘텐트의 프레임들로부터 추출할 수 있다. 제어부(1030)는 추출된 얼굴 이미지들을 등장 인물 별로 분류할 수 있다.
또한, 제어부(1030)는 동영상 콘텐트에 포함된 등장 인물들의 스피치에 관한 음성 데이터를 동영상 콘텐트로부터 추출할 수 있으며, 추출된 음성 데이터를 텍스트 데이터로 변환할 수 있다. 스피치 데이터는 추출된 음성 데이터 및 변환된 텍스트 데이터 중 적어도 하나를 포함할 수 있다. 제어부(1030)는 스피치 데이터를 화자 별로 분류할 수 있다.
제어부(1030)는 동영상 콘텐트 내의 등장 인물에 관한 얼굴 이미지 DB를 생성할 수 있다. 제어부(1030)는 동영상 콘텐트로부터 얼굴 이미지들을 획득하고, 획득된 얼굴 이미지들의 특성 값을 추출할 수 있다. 또한, 제어부(1030)는 추출된 특성 값에 기초하여 얼굴 이미지들을 등장 인물 별로 그룹핑함으로써, 얼굴 이미지 DB를 생성할 수 있다.
구체적으로, 제어부(1030)는 동영상 콘텐트 내의 이미지 데이터를 획득할 수 있다. 제어부(1030)는 동영상 콘텐트에 포함된 프레임들로부터 이미지 데이터를 획득할 수 있다. 예를 들어, 제어부(1030)는 동영상 콘텐트에 포함된 프레임 내에 포함된 이미지 데이터를 추출함으로써 이미지 데이터를 획득할 수 있다. 제어부(1030)는 이미지 데이터로부터 등장 인물들의 얼굴 이미지를 획득할 수 있다. 제어부(1030)는 이미지 데이터를 이용하여 동영상 콘텐트의 등장 인물들의 얼굴 이미지를 획득할 수 있다. 예를 들어, 제어부(1030)는 이미지 데이터 중에서 얼굴의 속성을 가지는 이미지 데이터를 추출함으로써 얼굴 이미지를 획득할 수 있다. 예를 들어, 제어부(1030)는 얼굴 인식을 통하여 이미지 데이터로부터 얼굴 이미지를 잘라냄으로써 얼굴 이미지를 획득할 수 있다. 그러나, 이에 제한되지 않는다. 얼굴 이미지는 하나의 등장 인물의 얼굴을 나타내는 이미지일 수 있다.
제어부(1030)는 얼굴 이미지로부터 특성 값을 추출할 수 있다. 얼굴 이미지의 특성 값은 얼굴 이미지의 특성을 나타내는 값으로서, 예를 들어, 얼굴 이미지에 포함된 객체들의 형상, 색상 및 크기에 관한 특성을 나타낼 수 있다. 또한, 예를 들어, 제어부(1030)는 얼굴 이미지에 포함된 객체들의 위치 및 객체들 간의 간격 등에 관한 특성 값을 추출할 수 있다. 얼굴 이미지에 포함된 객체는, 예를 들어, 머리, 머리카락, 눈, 코, 입 및 귀 등을 포함할 수 있다. 또한, 특성 값은, 예를 들어, 특성 벡터(feature vector) 값일 수 있다. 그러나, 이에 제한되지 않는다.
제어부(1030)는 특성 값에 기초하여, 얼굴 이미지들을 분류할 수 있다. 제어부(1030)는 유사한 특성 값을 가지는 얼굴 이미지들을 그룹핑함으로써 얼굴 이미지들을 분류할 수 있다. 제어부(1030)는 얼굴 이미지들의 특성 값을 비교함으로써, 동일 인물의 얼굴을 나타내는 이미지라고 판단되는 얼굴 이미지들을 그룹핑할 수 있다. 제어부(1030)가 얼굴 이미지들이 동일 인물의 얼굴을 나타낸다고 판단하기 위한 기준이 되는, 특성 값 및 특성 값들의 유사도는 미리 설정될 수 있다.
제어부(1030)는 동영상 콘텐트 내의 등장 인물에 대한 얼굴 이미지 DB를 생성할 수 있다. 제어부(1030)는 얼굴 이미지들을 등장 인물 별로 저장함으로써 얼굴 이미지 DB를 생성할 수 있다. 얼굴 이미지 DB에는 얼굴 이미지뿐만 아니라 얼굴 이미지의 특성 값이 포함될 수 있으나, 이에 제한되지 않는다. 또한, 얼굴 이미지가 포함된 프레임의 재생 위치에 관한 정보가 얼굴 이미지 DB에 포함될 수 있다.
또한, 제어부(1030)는 동영상 콘텐트 내의 화자에 관한 스피치 DB를 생성할 수 있다. 제어부(1030)는 동영상 콘텐트로부터 음성 데이터를 수집하고, 수집된 음성 데이터의 특성 값을 추출할 수 있다. 또한, 제어부(1030)는 추출된 특성 값에 기초하여 음성 데이터들을 화자 별로 그룹핑할 수 있다. 또한, 제어부(1030)는 음성 데이터를 텍스트로 변환하고 음성 데이터에 매핑할 수 있다. 제어부(1030)는 음성 데이터 및 텍스트 데이터 중 적어도 하나를 포함하는 스피치 데이터를 화자 별로 분류하여 저장함으로써, 스피치 DB를 생성할 수 있다.
제어부(1030)는 동영상 콘텐트 내의 음성 데이터를 획득할 수 있다. 제어부(1030)는 동영상 콘텐트에 포함된 프레임들로부터 음성 데이터를 획득할 수 있다. 예를 들어, 제어부(1030)는 동영상 콘텐트에 포함된 프레임 내에 포함된 음성 데이터를 추출함으로써 음성 데이터를 획득할 수 있다.
제어부(1030)는 음성 데이터로부터 특성 값을 추출할 수 있다. 예를 들어, 제어부(1030)는 음성 데이터에 관한 특성 값을 추출할 수 있다. 음성 데이터의 특성 값은 음성 데이터의 특성을 나타내는 값으로서, 예를 들어, 음성의 진폭, 음성의 주파수 및 음색 등에 관한 특성을 나타낼 수 있다. 또한, 특성 값은, 예를 들어, 특성 벡터(feature vector) 값일 수 있다. 그러나, 이에 제한되지 않는다.
제어부(1030)는 특성 값에 기초하여, 음성 데이터들을 분류할 수 있다. 제어부(1030)는 유사한 특성 값을 가지는 음성 데이터들을 그룹핑함으로써 음성 데이터들을 분류할 수 있다. 제어부(1030)는 음성 데이터들의 특성 값을 비교함으로써, 동일 화자의 음성 데이터라고 판단되는 음성 데이터들을 그룹핑할 수 있다. 제어부(1030)가 음성 데이터들이 동일 화자의 음성을 나타낸다고 판단하기 위한 기준이 되는, 특성 값 및 특성 값들의 유사도는 미리 설정될 수 있다.
제어부(1030)는 음성 데이터를 텍스트로 변환함으로써 텍스트 데이터를 생성할 수 있다. 제어부(1030)는 STT(Speech To Text) 기술을 이용하여 음성 데이터를 텍스트로 변환할 수 있다.
제어부(1030)는 동영상 콘텐트 내의 화자에 대한 스피치 DB를 생성할 수 있다. 제어부(1030)는 음성 데이터 및 텍스트 데이터 중 적어도 하나를 등장 인물 별로 저장함으로써 스피치 DB를 생성할 수 있다. 스피치 DB에는 음성 데이터 및 텍스트 데이터뿐만 아니라 음성 데이터의 특성 값이 포함될 수 있으나, 이에 제한되지 않는다. 또한, 음성 데이터 및 텍스트 데이터에 대응되는 프레임의 재생 위치에 관한 정보가 스피치 DB에 포함될 수 있다.
또한, 제어부(1030)는 분류된 얼굴 이미지 및 분류된 스피치 데이터를 매핑할 수 있다. 제어부(1030)는 특정 등장 인물의 이미지 및 특정 등장 인물의 스피치 데이터를 매핑할 수 있다.
제어부(1030)는 얼굴 이미지 및 스피치 데이터를 매핑할 수 있다. 제어부(1030)는 특정 등장 인물의 얼굴 이미지들을, 특정 화자의 스피치 데이터와 매핑할 수 있다. 특정 등장 인물 및 특정 화자는 동일인일 수 있다. 이에 따라, 동일 인물의 것이라고 판단되는 얼굴 이미지 및 스피치 데이터가 매핑될 수 있다. 제어부(1030)는 동일 인물의 것이라고 판단되는 얼굴 이미지 및 스피치 데이터를 매핑함으로써, 매핑 테이블을 생성할 수 있다.
또한, 동영상 콘텐트 내의 등장 인물이 유명인인 경우에, 얼굴 인식 기능의 향상을 위하여, 제어부(1030)는 다양한 서비스 서버(미도시)로부터 제공되는 등장 인물의 이미지들을, 얼굴 이미지 DB에 매핑할 수 있다.
한편, 제어부(1030)는 동영상 콘텐트에 포함된 프레임들 중에서 적어도 하나의 프레임을 선택할 수 있다. 제어부(1030)는 동영상 콘텐트에 포함된 장면들 중에서, 편집 콘텐트를 생성하는데 이용될 장면을 선택할 수 있다. 제어부(1030)는 선택된 장면에 대응되는 프레임들 중에서 적어도 하나의 프레임을 기설정된 기준에 따라 선택할 수 있다.
제어부(1030)는 동영상 콘텐트로부터 획득되는 음성 신호의 음성 레벨의 변화량 및 주파수의 변화량을 측정할 수 있다. 음성 신호의 음성 레벨은 음성 신호의 진폭일 수 있다.
제어부(1030)는 음성 레벨의 변화량 및 주파수의 변화량에 기초하여, 동영상 내의 특정 장면을 추천할 수 있다. 제어부(1030)는 음성 레벨의 변화량 및/또는 주파수의 변화량이 기설정된 수치보다 큰지에 따라, 동영상 내의 특정 장면을 추천할 수 있다.
제어부(1030)는 음성 신호 중에서 음성 레벨의 변화량의 표준 편차가 기 설정된 수치보다 큰 부분을 판단할 수 있다. 이 경우, 제어부(1030)는 음성 신호 중에서 음성 레벨의 변화량의 표준 편차가 기 설정된 수치보다 큰 부분을 포함하는 장면을 추천할 수 있다.
또한, 제어부(1030)는 음성 신호 중에서 음성의 주파수의 변화량의 표준 편차가 기 설정된 수치보다 큰 부분을 판단할 수 있다. 이 경우, 제어부(1030)는 음성 신호 중에서 음성 레벨의 변화량의 표준 편차가 기 설정된 수치보다 큰 부분을 포함하는 장면을 추천할 수 있다. 그러나, 이에 제한되지 않으며, 제어부(1030)는 음성 레벨의 변화량 및 주파수의 변화량에 기초하여 다양한 기준에 따라 장면을 추천할 수 있다.
제어부(1030)는 동영상 콘텐트 내의 기 설정된 음성을 검출할 수 있다. 제어부(1030)는 음성 레벨의 변화량 및 주파수의 변화량이 기설정된 수치보다 작은 경우에, 동영상 콘텐트 내의 기 설정된 음성을 검출할 수 있다. 예를 들어, 제어부(1030)는 동영상 콘텐트로부터 획득되는 음성 신호 중에서 웃음 소리에 해당되는 부분을 검출할 수 있다. 제어부(1030)는, 예를 들어, 기 설정된 웃음 소리의 특성 값을 동영상 콘텐트로부터 획득되는 음성 신호의 특성 값과 비교함으로써, 음성 신호 중에서 웃음 소리에 해당되는 부분을 검출할 수 있다. 그러나, 이에 제한되지 않는다.
제어부(1030)는 검출된 음성의 위치를 기준으로 기설정된 조건을 만족하는 위치에 대응되는 장면을 추천할 수 있다. 예를 들어, 제어부(1030)는 음성 신호 중에서 웃음 소리에 해당되는 부분을 포함하는 장면 및/또는 웃음 소리에 해당되는 부분 이전의 소정의 부분을 포함하는 장면을 추천할 수 있다.
제어부(1030)는, 사용자 입력에 따라, 추천된 특정 장면 중에서 적어도 하나를 선택할 수 있다. 제어부(1030)는 동영상 콘텐트에서 추천 장면이 존재하는 위치에 관한 정보, 추천 장면을 나타내는 동영상, 추천 장면을 나타내는 이미지 중 적어도 하나를 사용자의 디바이스(2000)에게 전송할 수 있다. 또한, 사용자의 디바이스(2000)는 콘텐트 편집 장치(1000)로부터 추천된 추천 장면을 디바이스(2000)의 화면 상에 디스플레이하고, 추천 장면 중 일부를 선택하는 사용자의 선택 입력을 수신할 수 있다. 사용자의 디바이스(2000)는 사용자의 선택 입력에 따라 추천 장면 중 일부를 선택하고 선택된 추천 장면의 식별 값을 콘텐트 편집 장치(1000)에게 제공할 수 있다.
제어부(1030)는 선택된 장면 내의 등장 인물을 인식할 수 있다. 제어부(1030)는 선택된 장면에 포함된 프레임을 동영상 콘텐트로부터 획득하고, 획득된 프레임의 이미지 내에 포함된 등장 인물을 인식할 수 있다. 제어부(1030)는 획득된 프레임의 이미지에서 등장 인물의 얼굴 이미지를 추출할 수 있다. 예를 들어, 제어부(1030)는 얼굴 인식 기술을 이용하여 획득된 프레임의 이미지에서 등장 인물의 얼굴을 인식하고, 인식된 얼굴의 이미지를 획득된 프레임의 이미지로부터 잘라낼 수 있다.
제어부(1030)는 선택된 장면 및 인식된 등장 인물에 대응되는 텍스트 데이터를 검출할 수 있다. 제어부(1030)는 획득된 얼굴 이미지에 대응되는 등장 인물을 결정할 수 있다. 제어부(1030)는 획득된 얼굴 이미지와 동일 또는 유사한 얼굴 이미지의 등장 인물을 결정할 수 있다. 제어부(1030)는 획득된 얼굴 이미지를 얼굴 이미지 DB에 포함된 얼굴 이미지와 비교함으로써, 획득된 얼굴 이미지에 대응되는 등장 인물을 결정할 수 있다.
또한, 제어부(1030)는 선택된 장면 및 결정된 등장 인물에 대응되는 텍스트 데이터를 추출할 수 있다. 제어부(1030)는 획득된 얼굴 이미지가 포함된 프레임의 재생 위치에 대응되는 텍스트 데이터를 스피치 DB로부터 검출할 수 있다. 제어부(1030)는 얼굴 이미지가 포함된 프레임의 재생 위치에서 동영상 콘텐트로부터 출력되는 음성 데이터에 대응되는 텍스트 데이터를 검출할 수 있다.
제어부(1030)는 선택된 장면에 대응되는 프레임들 중에서 적어도 하나의 프레임을 선택할 수 있다. 제어부(1030)는 선택된 장면을 구성하는 프레임들 중에서 노이즈(noise)가 적은 프레임을 선택할 수 있다. 제어부(1030)는 선택된 장면을 구성하는 프레임들의 이미지들에 기설정된 노이즈가 얼마나 포함되어 있는지를 각각 판단할 수 있다. 제어부(1030)는 판단 결과에 기초하여, 기설정된 수치 이하의 노이즈를 가지는 프레임을 선택할 수 있다.
또한, 제어부(1030)는 등장 인물의 얼굴 방향, 시선, 표정 및 입모양 등을 고려하여, 선택된 장면에 대응되는 프레임들 중 적어도 하나를 선택할 수 있다. 예를 들어, 제어부(1030)는 프레임 내의 등장 인물의 얼굴이 정면을 향하거나, 등장 인물의 시선이 정면을 향하거나, 등장 인물의 입이 열려있는 경우에, 해당 프레임을 선택할 수 있다. 그러나, 이에 제한되지 않으며, 제어부(1030)는 다양한 기준에 따라 프레임을 선택할 수 있다.
제어부(1030)는 선택된 프레임을 이용하여 동영상 콘텐트의 편집 콘텐트를 생성할 수 있다. 제어부(1030)는 편집 콘텐트의 템플릿을 획득하고, 선택된 프레임의 이미지를 템플릿 내에 삽입함으로써 편집 콘텐트를 생성할 수 있다. 또한, 제어부(1030)는, 선택된 프레임의 이미지 내의 등장 인물의 얼굴 이미지에 기초하여, 선택된 프레임의 이미지 내의 등장 인물의 스피치 데이터를 DB로부터 추출할 수 있다. 또한, 제어부(1030)는 추출된 스피치 데이터를 이용하여, 선택된 프레임의 이미지 상의 등장 인물의 주변에 등장 인물이 발화한 내용을 나타내는 텍스트를 삽입할 수 있다.
제어부(1030)는 편집 콘텐트의 종류를 결정할 수 있다. 편집 콘텐트의 종류는, 예를 들어, 카툰 형식의 콘텐트, 앨범 형식의 콘텐트, 및 썸네일 형식의 콘텐트를 포함할 수 있다. 그러나, 이에 제한되지 않는다.
제어부(1030)는 편집 콘텐트의 종류를 선택하는 사용자 입력에 따라 편집 콘텐트의 종류를 결정할 수 있다. 제어부(1030)는 편집 콘텐트의 종류를 선택하기 위한 UI를 사용자의 디바이스(2000)에게 전송할 수 있다. 또한, 사용자의 디바이스(2000)는 콘텐트 편집 장치(1000)로부터 수신된 편집 콘텐트의 종류를 선택하기 위한 UI을 디바이스(2000)의 화면 상에 디스플레이하고, 편집 콘텐트의 종류를 선택하는 사용자의 선택 입력을 수신할 수 있다. 사용자의 디바이스(2000)는 사용자의 선택 입력에 따라 편집 콘텐트의 종류를 선택하고 편집 콘텐트의 종류를 나타내는 식별 값을 콘텐트 편집 장치(1000)에게 제공할 수 있다.
제어부(1030)는 편집 콘텐트의 생성에 이용될 템플릿을 획득할 수 있다. 편집 콘텐트의 종류에 따른 템플릿이 콘텐트 편집 장치(1000) 내에 미리 설정되어 저장될 수 있다. 그러나, 이에 제한되지 않으며, 제어부(1030)는 외부로부터 편집 콘텐트의 종류에 따른 템플릿을 수신할 수도 있다. 편집 콘텐트의 생성에 이용될 템플릿은, 편집 콘텐트의 종류에 따라 상이한 레이아웃을 가질 수 있다.
제어부(1030)는 선택된 프레임의 이미지를 가공할 수 있다. 제어부(1030)는 편집 콘텐트의 종류에 따라 프레임의 이미지의 크기를 변경하거나, 프레임의 이미지의 해상도를 변경하거나, 프레임의 이미지에 소정의 이미지 효과를 부여할 수 있다. 예를 들어, 편집 콘텐트가 카툰인 경우, 제어부(1030)는 템플릿 내에 삽입될 이미지에 특정 효과를 부여하거나, 템플릿 내에 삽입될 이미지의 크기를 변경할 수 있다. 또한, 예를 들어, 편집 콘텐트가 썸네일인 경우, 제어부(1030)는 템플릿 내에 삽입될 이미지의 크기 및 해상도를 변경할 수 있다. 또한, 예를 들어, 편집 콘텐트가 앨범인 경우, 제어부(1030)는 템플릿 내에 삽입될 이미지의 크기를 변경할 수 있다. 그러나, 이에 제한되지 않는다.
또한, 제어부(1030)는 프레임의 이미지에 소정의 필터 효과를 적용할 수 있다. 제어부(1030)는 프레임의 이미지에 소정의 동적 데이터를 결합함으로써, 편집 콘텐트에 소정의 기능을 추가할 수 있다. 그러나, 이에 제한되지 않는다.
제어부(1030)는 가공된 이미지를 획득된 템플릿 내에 삽입할 수 있다. 제어부(1030)는 가공된 이미지에 대응되는 템플릿 내의 삽입 위치에 가공된 이미지를 삽입할 수 있다.
제어부(1030)는 가공된 이미지 내에 말풍선 및 텍스트 데이터를 삽입할 수 있다. 제어부(1030)는 가공된 이미지 내의 등장 인물의 주변에 말풍선을 삽입할 수 있다. 제어부(1030)는 가공된 이미지 내의 등장 인물의 주변 영역 중에서 말풍선을 표시할 영역을 결정할 수 있다. 제어부(1030)는 등장 인물의 스피치를 나타내는 텍스트의 글자수를 고려하여, 등장 인물의 주변 영역 중에서 말풍선을 표시할 영역을 결정할 수 있다. 제어부(1030)는 결정된 영역에 말풍선을 삽입할 수 있다. 또한, 제어부(1030)는 등장 인물의 스피치를 나타내는 텍스트를 말풍선 내에 삽입할 수 있다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (25)

  1. 콘텐트 편집 장치가 동영상 콘텐트를 편집하는 방법에 있어서,
    동영상 콘텐트를 획득하는 단계;
    상기 동영상 콘텐트에 포함된 등장 인물의 이미지 및 상기 등장 인물의 스피치 데이터를 매핑하는 단계;
    상기 동영상 콘텐트에 포함된 프레임들 중에서 적어도 하나를 선택하는 단계; 및
    상기 매핑된 이미지 및 스피치 데이터, 및 상기 선택된 프레임을 이용하여, 상기 동영상 콘텐트의 편집 콘텐트를 생성하는 단계;
    를 포함하며,
    상기 프레임을 선택하는 단계는, 상기 동영상 콘텐트 내의 음성 데이터를 이용하여 상기 동영상 콘텐트의 장면들 중 적어도 하나를 결정하는 단계; 및 상기 결정된 장면에 포함되는 프레임들 중 적어도 하나의 프레임을 선택하는 단계;를 포함하며,
    상기 장면을 결정하는 단계는, 상기 동영상 콘텐트 내의 음성 데이터의 음성 레벨의 변화량 및 주파수의 변화량에 기초하여, 상기 장면들 중 적어도 하나를 결정하며,
    상기 장면을 결정하는 단계는, 상기 동영상 콘텐트 내의 기설정된 음성을 검출하는 단계; 및 상기 검출된 음성의 위치를 기준으로 기설정된 조건을 만족하는 위치에 대응되는 장면을 결정하는 단계;를 포함하며,
    상기 기설정된 음성은, 버스트 사운드(burst sound)를 포함하며, 상기 기설정된 조건을 만족하는 위치에 대응되는 장면은, 상기 버스트 사운드가 출력되는 상기 동영상 콘텐트의 부분으로부터 역방향의 소정 위치의 동영상 콘텐트 부분까지에 대응되는 장면인 것인, 방법.
  2. 제 1 항에 있어서,
    상기 등장 인물의 이미지 및 상기 등장 인물의 스피치 데이터를 매핑하는 단계는,
    상기 동영상 콘텐트 내의 등장 인물들의 얼굴 이미지들을 상기 등장 인물 별로 분류하고,
    상기 분류된 얼굴 이미지들을 상기 등장 인물들의 스피치 데이터들과 매핑하는 것인, 방법.
  3. 제 2 항에 있어서,
    상기 스피치 데이터는 상기 등장 인물의 음성 데이터 및 상기 음성 데이터로부터 변환된 텍스트 데이터 중 적어도 하나를 포함하는 것인, 방법.
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 제 1 항에 있어서,
    상기 프레임을 선택하는 단계는,
    상기 결정된 장면에 포함되는 프레임들에 포함된 노이즈의 크기에 따라, 상기 프레임들 중 적어도 하나를 선택하는 것인, 방법.
  9. 제 1 항에 있어서,
    상기 프레임을 선택하는 단계는,
    상기 결정된 장면에 포함되는 프레임들에 포함된 등장인물 들의 시선 방향, 얼굴 방향 및 얼굴 표정 중 적어도 하나에 기초하여, 상기 프레임들 중 적어도 하나를 선택하는 것인, 방법.
  10. 제 1 항에 있어서,
    상기 편집 콘텐트를 생성하는 단계는,
    상기 편집 콘텐트의 생성에 이용되는 템플릿을 결정하는 단계; 및
    상기 결정된 템플릿 내에 상기 선택된 프레임의 이미지를 삽입하는 단계;
    를 더 포함하는 것인, 방법.
  11. 제 10 항에 있어서,
    상기 템플릿 내에 삽입된 이미지 내에는, 상기 프레임의 이미지에 포함된 등장 인물로부터 발화된 음성으로부터 변환된 텍스트가 표시되는 것인, 방법.
  12. 제 10 항에 있어서,
    상기 템플릿을 결정하는 단계는, 상기 편집 콘텐트의 종류를 결정하고 상기 결정된 종류에 대응되는 템플릿을 선택하며,
    상기 템플릿 내에 삽입되는 상기 이미지는 상기 편집 콘텐트의 종류에 따라 이미지 처리된 것인, 방법.
  13. 동영상 콘텐트를 편집하는 콘텐트 편집 장치에 있어서,
    동영상 콘텐트에 포함된 등장 인물의 이미지 및 상기 등장 인물의 스피치 데이터를 매핑하여 저장하는 저장부;
    상기 동영상 콘텐트에 포함된 프레임들 중에서 적어도 하나를 선택하고, 상기 매핑된 이미지 및 스피치 데이터, 및 상기 선택된 프레임을 이용하여, 상기 동영상 콘텐트의 편집 콘텐트를 생성하는 제어부;
    를 포함하며,
    상기 제어부는, 상기 동영상 콘텐트 내의 음성 데이터를 이용하여 상기 동영상 콘텐트의 장면들 중 적어도 하나를 결정하고, 상기 결정된 장면에 포함되는 프레임들 중 적어도 하나의 프레임을 선택하며,
    상기 제어부는, 상기 동영상 콘텐트 내의 음성 데이터의 음성 레벨의 변화량 및 주파수의 변화량에 기초하여, 상기 장면들 중 적어도 하나를 결정하며,
    상기 제어부는, 상기 동영상 콘텐트 내의 기설정된 음성을 검출하고, 상기 검출된 음성의 위치를 기준으로 기설정된 조건을 만족하는 위치에 대응되는 장면을 결정하며,
    상기 기설정된 음성은, 버스트 사운드(burst sound)를 포함하며, 상기 기설정된 조건을 만족하는 위치에 대응되는 장면은, 상기 버스트 사운드가 출력되는 상기 동영상 콘텐트의 부분으로부터 역방향의 소정 위치의 동영상 콘텐트 부분까지에 대응되는 장면인 것인, 콘텐트 편집 장치.
  14. 제 13 항에 있어서,
    상기 제어부는, 상기 동영상 콘텐트 내의 등장 인물들의 얼굴 이미지들을 상기 등장 인물 별로 분류하고, 상기 분류된 얼굴 이미지들을 상기 등장 인물들의 스피치 데이터들과 매핑하여 상기 저장부에 저장하는 것인, 콘텐트 편집 장치.
  15. 제 14 항에 있어서,
    상기 스피치 데이터는 상기 등장 인물의 음성 데이터 및 상기 음성 데이터로부터 변환된 텍스트 데이터 중 적어도 하나를 포함하는 것인, 콘텐트 편집 장치.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 제 13 항에 있어서,
    상기 제어부는,
    상기 결정된 장면에 포함되는 프레임들에 포함된 노이즈의 크기에 따라, 상기 프레임들 중 적어도 하나를 선택하는 것인, 콘텐트 편집 장치.
  21. 제 13 항에 있어서,
    상기 제어부는,
    상기 결정된 장면에 포함되는 프레임들에 포함된 등장인물 들의 시선 방향, 얼굴 방향 및 얼굴 표정 중 적어도 하나에 기초하여, 상기 프레임들 중 적어도 하나를 선택하는 것인, 콘텐트 편집 장치.
  22. 제 13 항에 있어서,
    상기 제어부는,
    상기 편집 콘텐트의 생성에 이용되는 템플릿을 결정하고, 상기 결정된 템플릿 내에 상기 선택된 프레임의 이미지를 삽입하는 것인, 콘텐트 편집 장치.
  23. 제 22 항에 있어서,
    상기 템플릿 내에 삽입된 이미지 내에는, 상기 프레임의 이미지에 포함된 등장 인물로부터 발화된 음성으로부터 변환된 텍스트가 표시되는 것인, 콘텐트 편집 장치.
  24. 제 22 항에 있어서,
    상기 제어부는, 상기 편집 콘텐트의 종류를 결정하고 상기 결정된 종류에 대응되는 템플릿을 선택하며,
    상기 템플릿 내에 삽입되는 상기 이미지는 상기 편집 콘텐트의 종류에 따라 이미지 처리된 것인, 콘텐트 편집 장치.
  25. 제 1 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020150009338A 2015-01-20 2015-01-20 콘텐트 편집 장치 및 방법 KR102306538B1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020150009338A KR102306538B1 (ko) 2015-01-20 2015-01-20 콘텐트 편집 장치 및 방법
US14/969,366 US10373648B2 (en) 2015-01-20 2015-12-15 Apparatus and method for editing content
EP15879090.7A EP3248383A4 (en) 2015-01-20 2015-12-17 Apparatus and method for editing content
CN201580074063.4A CN107211198B (zh) 2015-01-20 2015-12-17 用于编辑内容的装置和方法
PCT/KR2015/013857 WO2016117836A1 (en) 2015-01-20 2015-12-17 Apparatus and method for editing content
US16/274,907 US10971188B2 (en) 2015-01-20 2019-02-13 Apparatus and method for editing content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150009338A KR102306538B1 (ko) 2015-01-20 2015-01-20 콘텐트 편집 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20160089742A KR20160089742A (ko) 2016-07-28
KR102306538B1 true KR102306538B1 (ko) 2021-09-29

Family

ID=56408323

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150009338A KR102306538B1 (ko) 2015-01-20 2015-01-20 콘텐트 편집 장치 및 방법

Country Status (5)

Country Link
US (2) US10373648B2 (ko)
EP (1) EP3248383A4 (ko)
KR (1) KR102306538B1 (ko)
CN (1) CN107211198B (ko)
WO (1) WO2016117836A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6063971B2 (ja) * 2015-01-29 2017-01-18 京セラドキュメントソリューションズ株式会社 画像処理装置
RU2596062C1 (ru) 2015-03-20 2016-08-27 Автономная Некоммерческая Образовательная Организация Высшего Профессионального Образования "Сколковский Институт Науки И Технологий" Способ коррекции изображения глаз с использованием машинного обучения и способ машинного обучения
CN114143495A (zh) 2016-01-05 2022-03-04 瑞尔D斯帕克有限责任公司 多视角图像的注视校正
JP6727413B2 (ja) * 2016-08-22 2020-07-22 スノー コーポレーション メッセージ共有方法及びコンピュータプログラム
JP6863391B2 (ja) * 2016-12-12 2021-04-21 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
US10845956B2 (en) * 2017-05-31 2020-11-24 Snap Inc. Methods and systems for voice driven dynamic menus
EP4293574A3 (en) * 2017-08-08 2024-04-03 RealD Spark, LLC Adjusting a digital representation of a head region
CN108255377B (zh) * 2018-01-30 2020-05-26 维沃移动通信有限公司 一种信息处理方法及移动终端
US11017575B2 (en) 2018-02-26 2021-05-25 Reald Spark, Llc Method and system for generating data to provide an animated visual representation
US11082752B2 (en) * 2018-07-19 2021-08-03 Netflix, Inc. Shot-based view files for trick play mode in a network-based video delivery system
WO2021058116A1 (en) * 2019-09-27 2021-04-01 Huawei Technologies Co., Ltd. Mood based multimedia content summarization
KR102081364B1 (ko) 2019-11-27 2020-02-25 (주)비디오몬스터 클라우드 기반 가변형 분산 렌더링 시스템 및 방법
CN113051427A (zh) * 2019-12-10 2021-06-29 华为技术有限公司 一种表情制作方法和装置
US11468658B2 (en) * 2020-07-14 2022-10-11 Adobe Inc. Systems and methods for generating typographical images or videos
CN112101461B (zh) * 2020-09-16 2022-02-25 北京邮电大学 一种基于hrtf-pso-fcm的无人机侦察视觉信息可听化方法
KR102318111B1 (ko) * 2020-11-17 2021-10-27 주식회사 일루니 사용자의 얼굴을 캐릭터에 반영하는 스티커 제공 스토리북 생성 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100182501A1 (en) * 2009-01-20 2010-07-22 Koji Sato Information processing apparatus, information processing method, and program
KR101244789B1 (ko) * 2011-05-11 2013-03-18 (주)판도라티비 3차원 재구성을 이용한 디지털 만화 콘텐츠 생성 방법

Family Cites Families (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5031228A (en) * 1988-09-14 1991-07-09 A. C. Nielsen Company Image recognition system and method
US5461697A (en) * 1988-11-17 1995-10-24 Sekisui Kagaku Kogyo Kabushiki Kaisha Speaker recognition system using neural network
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
JP3745403B2 (ja) * 1994-04-12 2006-02-15 ゼロックス コーポレイション オーディオデータセグメントのクラスタリング方法
US6278451B1 (en) * 1995-05-10 2001-08-21 Casio Computer Co., Ltd. Image processor
US5734794A (en) * 1995-06-22 1998-03-31 White; Tom H. Method and system for voice-activated cell animation
JP3711418B2 (ja) 1996-02-21 2005-11-02 カシオ計算機株式会社 顔画像表示装置及び顔画像通信システム
US20030093790A1 (en) * 2000-03-28 2003-05-15 Logan James D. Audio and video program recording, editing and playback systems using metadata
US5864807A (en) * 1997-02-25 1999-01-26 Motorola, Inc. Method and apparatus for training a speaker recognition system
US7295752B1 (en) * 1997-08-14 2007-11-13 Virage, Inc. Video cataloger system with audio track extraction
US6463444B1 (en) * 1997-08-14 2002-10-08 Virage, Inc. Video cataloger system with extensibility
US6363380B1 (en) * 1998-01-13 2002-03-26 U.S. Philips Corporation Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser
US6112172A (en) * 1998-03-31 2000-08-29 Dragon Systems, Inc. Interactive searching
AUPP340798A0 (en) * 1998-05-07 1998-05-28 Canon Kabushiki Kaisha Automated video interpretation system
US6833865B1 (en) * 1998-09-01 2004-12-21 Virage, Inc. Embedded metadata engines in digital capture devices
WO2000016243A1 (en) * 1998-09-10 2000-03-23 Mate - Media Access Technologies Ltd. Method of face indexing for efficient browsing and searching ofp eople in video
EP1081960B1 (en) * 1999-01-29 2007-12-19 Sony Corporation Signal processing method and video/voice processing device
US6710822B1 (en) * 1999-02-15 2004-03-23 Sony Corporation Signal processing method and image-voice processing apparatus for measuring similarities between signals
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
US6535639B1 (en) * 1999-03-12 2003-03-18 Fuji Xerox Co., Ltd. Automatic video summarization using a measure of shot importance and a frame-packing method
US7356830B1 (en) * 1999-07-09 2008-04-08 Koninklijke Philips Electronics N.V. Method and apparatus for linking a video segment to another segment or information source
US6453284B1 (en) * 1999-07-26 2002-09-17 Texas Tech University Health Sciences Center Multiple voice tracking system and method
GB2354104A (en) * 1999-09-08 2001-03-14 Sony Uk Ltd An editing method and system
WO2001028238A2 (en) * 1999-10-08 2001-04-19 Sarnoff Corporation Method and apparatus for enhancing and indexing video and audio signals
AUPQ464099A0 (en) * 1999-12-14 2000-01-13 Canon Kabushiki Kaisha Emotive editing system
US6816858B1 (en) * 2000-03-31 2004-11-09 International Business Machines Corporation System, method and apparatus providing collateral information for a video/audio stream
EP1187476A4 (en) * 2000-04-10 2005-08-10 Sony Corp SYSTEM AND METHOD FOR THE MANAGEMENT OF ASSETS
US6567775B1 (en) * 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
JP4683253B2 (ja) * 2000-07-14 2011-05-18 ソニー株式会社 Av信号処理装置および方法、プログラム、並びに記録媒体
US7548565B2 (en) * 2000-07-24 2009-06-16 Vmark, Inc. Method and apparatus for fast metadata generation, delivery and access for live broadcast program
WO2002019147A1 (en) * 2000-08-28 2002-03-07 Emotion, Inc. Method and apparatus for digital media management, retrieval, and collaboration
CA2426913A1 (en) * 2000-10-20 2002-05-23 Wavexpress, Inc. Broadcast browser including multi-media tool overlay and method of providing a coverged multi-media display including user-enhanced data
US6973256B1 (en) * 2000-10-30 2005-12-06 Koninklijke Philips Electronics N.V. System and method for detecting highlights in a video program using audio properties
US6925455B2 (en) * 2000-12-12 2005-08-02 Nec Corporation Creating audio-centric, image-centric, and integrated audio-visual summaries
US20020186235A1 (en) * 2001-05-25 2002-12-12 Koninklijke Philips Electronics N.V. Compact visual summaries using superhistograms and frame signatures
US7327891B2 (en) * 2001-07-17 2008-02-05 Yesvideo, Inc. Automatic selection of a visual image or images from a collection of visual images, based on an evaluation of the quality of the visual images
JP4226237B2 (ja) * 2001-09-11 2009-02-18 日本放送協会 漫画生成装置及び漫画生成プログラム
KR100411437B1 (ko) * 2001-12-28 2003-12-18 엘지전자 주식회사 지능형 뉴스 비디오 브라우징 시스템
US20030154084A1 (en) * 2002-02-14 2003-08-14 Koninklijke Philips Electronics N.V. Method and system for person identification using video-speech matching
CA2664732C (en) * 2002-04-12 2013-07-02 Mitsubishi Denki Kabushiki Kaisha An apparatus to edit, reproduce, deliver, search and re-generate condition settings for metadata
US7073193B2 (en) * 2002-04-16 2006-07-04 Microsoft Corporation Media content descriptions
JP2004126786A (ja) * 2002-09-30 2004-04-22 Konami Co Ltd 通信装置、プログラム、ならびに通信方法
US7386799B1 (en) * 2002-11-21 2008-06-10 Forterra Systems, Inc. Cinematic techniques in avatar-centric communication during a multi-user online simulation
US7298930B1 (en) * 2002-11-29 2007-11-20 Ricoh Company, Ltd. Multimodal access of meeting recordings
US20050044500A1 (en) * 2003-07-18 2005-02-24 Katsunori Orimoto Agent display device and agent display method
GB2404299A (en) * 2003-07-24 2005-01-26 Hewlett Packard Development Co Method and apparatus for reviewing video
JP2005101931A (ja) * 2003-09-25 2005-04-14 Fuji Photo Film Co Ltd 画像プリント装置
GB2429597B (en) * 2004-02-06 2009-09-23 Agency Science Tech & Res Automatic video event detection and indexing
US20060059120A1 (en) * 2004-08-27 2006-03-16 Ziyou Xiong Identifying video highlights using audio-visual objects
JP4593314B2 (ja) 2005-02-28 2010-12-08 富士フイルム株式会社 画像再生装置、プログラム及び方法、並びにフォトムービー作成装置、プログラム及び方法
WO2006095292A1 (en) * 2005-03-10 2006-09-14 Koninklijke Philips Electronics N.V. Summarization of audio and/or visual data
JP4599244B2 (ja) * 2005-07-13 2010-12-15 キヤノン株式会社 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
JP2007097090A (ja) * 2005-09-30 2007-04-12 Fujifilm Corp 画像表示装置および方法ならびにプログラム、さらに写真プリント注文受付装置
US8180826B2 (en) * 2005-10-31 2012-05-15 Microsoft Corporation Media sharing and authoring on the web
US9697230B2 (en) * 2005-11-09 2017-07-04 Cxense Asa Methods and apparatus for dynamic presentation of advertising, factual, and informational content using enhanced metadata in search-driven media applications
US20070118873A1 (en) * 2005-11-09 2007-05-24 Bbnt Solutions Llc Methods and apparatus for merging media content
JP4346613B2 (ja) * 2006-01-11 2009-10-21 株式会社東芝 映像要約装置及び映像要約方法
US7711145B2 (en) * 2006-01-27 2010-05-04 Eastman Kodak Company Finding images with multiple people or objects
JP2007241942A (ja) * 2006-03-13 2007-09-20 Sharp Corp コンテンツ再生装置、コンテンツ再生方法、コンテンツ再生プログラム、および記録媒体
US7716376B1 (en) * 2006-03-28 2010-05-11 Amazon Technologies, Inc. Synchronized video session with integrated participant generated commentary
JP4765732B2 (ja) 2006-04-06 2011-09-07 オムロン株式会社 動画編集装置
US8699806B2 (en) * 2006-04-12 2014-04-15 Google Inc. Method and apparatus for automatically summarizing video
KR100771244B1 (ko) * 2006-06-12 2007-10-29 삼성전자주식회사 동영상 데이터 처리 방법 및 장치
US8229156B1 (en) * 2006-08-08 2012-07-24 Google Inc. Using curve invariants to automatically characterize videos
JP5022370B2 (ja) * 2006-09-12 2012-09-12 パナソニック株式会社 コンテンツ撮影装置
JP2008078713A (ja) * 2006-09-19 2008-04-03 Sony Corp 記録装置および方法、プログラム、並びに再生装置および方法
KR100834813B1 (ko) * 2006-09-26 2008-06-05 삼성전자주식회사 휴대용 단말기의 멀티미디어 컨텐트 관리 장치 및 방법
US8375302B2 (en) * 2006-11-17 2013-02-12 Microsoft Corporation Example based video editing
JP4264663B2 (ja) * 2006-11-21 2009-05-20 ソニー株式会社 撮影装置、画像処理装置、および、これらにおける画像処理方法ならびに当該方法をコンピュータに実行させるプログラム
JP4274233B2 (ja) * 2006-11-30 2009-06-03 ソニー株式会社 撮影装置、画像処理装置、および、これらにおける画像処理方法ならびに当該方法をコンピュータに実行させるプログラム
US20100131571A1 (en) * 2008-11-25 2010-05-27 Reuveni Yoseph Method application and system for characterizing multimedia content
JP2010171797A (ja) * 2009-01-23 2010-08-05 Nikon Corp 撮像装置及びプログラム
US20100238323A1 (en) * 2009-03-23 2010-09-23 Sony Ericsson Mobile Communications Ab Voice-controlled image editing
US9113124B2 (en) * 2009-04-13 2015-08-18 Linkedin Corporation Method and system for still image capture from video footage
US20130166303A1 (en) * 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
JP2011123529A (ja) * 2009-12-08 2011-06-23 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US9502073B2 (en) * 2010-03-08 2016-11-22 Magisto Ltd. System and method for semi-automatic video editing
JP2011223097A (ja) * 2010-04-05 2011-11-04 Sony Corp 画像処理装置、画像処理方法及び画像処理プログラム
JP5656456B2 (ja) * 2010-05-28 2015-01-21 富士通テン株式会社 車載用表示装置および表示方法
JP5676147B2 (ja) * 2010-05-28 2015-02-25 富士通テン株式会社 車載用表示装置、表示方法および情報表示システム
JP5353835B2 (ja) 2010-06-28 2013-11-27 ブラザー工業株式会社 情報処理プログラムおよび情報処理装置
JP2012039522A (ja) * 2010-08-10 2012-02-23 Sony Corp 動画像処理装置、動画像処理方法およびプログラム
US9659313B2 (en) * 2010-09-27 2017-05-23 Unisys Corporation Systems and methods for managing interactive features associated with multimedia content
JP5674450B2 (ja) * 2010-12-22 2015-02-25 富士フイルム株式会社 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、該ビューワプログラムが記録された記録媒体ならびに電子コミックの表示方法
JP2012133659A (ja) * 2010-12-22 2012-07-12 Fujifilm Corp ファイルフォーマット、サーバ、電子コミックのビューワ装置および電子コミック生成装置
US8737817B1 (en) 2011-02-08 2014-05-27 Google Inc. Music soundtrack recommendation engine for videos
US9064538B2 (en) * 2011-04-07 2015-06-23 Infosys Technologies, Ltd. Method and system for generating at least one of: comic strips and storyboards from videos
JP2012249211A (ja) * 2011-05-31 2012-12-13 Casio Comput Co Ltd 画像ファイル生成装置、画像ファイル生成プログラム及び画像ファイル生成方法
MX2013014269A (es) * 2011-06-08 2014-02-19 Sling Media Pvt Ltd Aparatos, sistemas y metodos para presentar un resumen de un evento de contenido de medios.
US20130031479A1 (en) * 2011-07-25 2013-01-31 Flowers Harriett T Web-based video navigation, editing and augmenting apparatus, system and method
US8447165B1 (en) * 2011-08-22 2013-05-21 Google Inc. Summarizing video data
JP5817400B2 (ja) * 2011-09-30 2015-11-18 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP5439455B2 (ja) * 2011-10-21 2014-03-12 富士フイルム株式会社 電子コミック編集装置、方法及びプログラム
JP2013089198A (ja) * 2011-10-21 2013-05-13 Fujifilm Corp 電子コミック編集装置、方法及びプログラム
JP5439454B2 (ja) * 2011-10-21 2014-03-12 富士フイルム株式会社 電子コミック編集装置、方法及びプログラム
JP5437340B2 (ja) * 2011-10-21 2014-03-12 富士フイルム株式会社 ビューワ装置、サーバ装置、表示制御方法、電子コミック編集方法及びプログラム
WO2013070802A1 (en) * 2011-11-07 2013-05-16 Finitiv Corporation System and method for indexing and annotation of video content
KR101951761B1 (ko) * 2012-01-27 2019-02-25 라인 가부시키가이샤 모바일 환경에서 제공되는 서비스에서 아바타를 제공하는 아바타 서비스 시스템 및 방법
KR20130102368A (ko) 2012-03-07 2013-09-17 삼성전자주식회사 동영상 특징 정보를 가이드하기 위한 동영상 편집 장치 및 방법
JP2013196661A (ja) * 2012-03-23 2013-09-30 Nintendo Co Ltd 入力制御プログラム、入力制御装置、入力制御システム、および入力制御方法
US20130308922A1 (en) * 2012-05-15 2013-11-21 Microsoft Corporation Enhanced video discovery and productivity through accessibility
US20140075335A1 (en) * 2012-09-11 2014-03-13 Lucid Software, Inc. Image editing and sharing
US9966075B2 (en) * 2012-09-18 2018-05-08 Qualcomm Incorporated Leveraging head mounted displays to enable person-to-person interactions
US8983836B2 (en) * 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
WO2014056112A1 (en) * 2012-10-10 2014-04-17 Broadbandtv, Corp. Intelligent video thumbnail selection and generation
US8983150B2 (en) * 2012-12-17 2015-03-17 Adobe Systems Incorporated Photo importance determination
US9116924B2 (en) * 2013-01-14 2015-08-25 Xerox Corporation System and method for image selection using multivariate time series analysis
JP2016517640A (ja) * 2013-03-06 2016-06-16 トムソン ライセンシングThomson Licensing ビデオの画像サマリ
US9436357B2 (en) * 2013-03-08 2016-09-06 Nook Digital, Llc System and method for creating and viewing comic book electronic publications
KR20140114238A (ko) * 2013-03-18 2014-09-26 삼성전자주식회사 오디오와 결합된 이미지 표시 방법
US9823824B2 (en) * 2013-08-19 2017-11-21 Kodak Alaris Inc. Context sensitive adaptable user interface
US20150058708A1 (en) * 2013-08-23 2015-02-26 Adobe Systems Incorporated Systems and methods of character dialog generation
US9342487B2 (en) * 2013-09-04 2016-05-17 Adobe Systems Incorporated Method for layout of speech bubbles associated with characters in an image
WO2015054627A1 (en) * 2013-10-10 2015-04-16 The Trustees Of Columbia University In The City Of New York Methods and systems for aggregation and organization of multimedia data acquired from a plurality of sources
KR102161764B1 (ko) * 2013-10-31 2020-10-05 삼성전자주식회사 카툰 이미지를 이용한 메신저 대화창 표시 방법 및 컴퓨터 판독 가능한 기록 매체
US20170093785A1 (en) * 2014-06-06 2017-03-30 Sony Corporation Information processing device, method, and program
US20170270930A1 (en) * 2014-08-04 2017-09-21 Flagler Llc Voice tallying system
EP3192273A4 (en) * 2014-09-08 2018-05-23 Google LLC Selecting and presenting representative frames for video previews
CN105631914A (zh) * 2014-10-31 2016-06-01 鸿富锦精密工业(武汉)有限公司 漫画创作系统及方法
CN105138962A (zh) * 2015-07-28 2015-12-09 小米科技有限责任公司 图像显示方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100182501A1 (en) * 2009-01-20 2010-07-22 Koji Sato Information processing apparatus, information processing method, and program
KR101244789B1 (ko) * 2011-05-11 2013-03-18 (주)판도라티비 3차원 재구성을 이용한 디지털 만화 콘텐츠 생성 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Meng Wang et. al., "Movie2Comics: Towards a Lively Video Content Presentation", IEEE Transactions on Multimedia, Vol., 14, No.3, 1 June 2012, Pages 858-870, XP011443959, ISSN: 1520-9210 1부.*

Also Published As

Publication number Publication date
US10971188B2 (en) 2021-04-06
EP3248383A1 (en) 2017-11-29
WO2016117836A1 (en) 2016-07-28
US20190180788A1 (en) 2019-06-13
US10373648B2 (en) 2019-08-06
KR20160089742A (ko) 2016-07-28
CN107211198B (zh) 2020-07-17
US20160211001A1 (en) 2016-07-21
EP3248383A4 (en) 2018-01-10
CN107211198A (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
KR102306538B1 (ko) 콘텐트 편집 장치 및 방법
US10733716B2 (en) Method and device for providing image
US10685059B2 (en) Portable electronic device and method for generating a summary of video data
KR102621114B1 (ko) 사용자 맞춤형 콘텐트를 제공하는 시스템 및 방법
CN108353103B (zh) 用于推荐响应消息的用户终端设备及其方法
EP3195601B1 (en) Method of providing visual sound image and electronic device implementing the same
KR102402511B1 (ko) 영상 검색 방법 및 이를 위한 장치
KR102657519B1 (ko) 음성을 기반으로 그래픽 데이터를 제공하는 전자 장치 및 그의 동작 방법
CN104133956B (zh) 处理图片的方法及装置
CN105302315A (zh) 图片处理方法及装置
KR101709427B1 (ko) 정보를 선택하는 방법 및 디바이스
KR20180109499A (ko) 사용자의 음성 입력에 대한 답변을 제공하는 방법 및 장치
KR102374584B1 (ko) 영상을 디스플레이 하는 방법 및 디바이스
KR20160031226A (ko) 동영상 내 객체 관련 정보 검색 방법 및 동영상 재생 장치
KR20160065670A (ko) 컨텐트를 제공하는 방법 및 디바이스
KR102219910B1 (ko) 컨텐트를 표시하는 방법 및 디바이스
TWI637347B (zh) 提供影像的方法與裝置
JPWO2016052501A1 (ja) ユーザインタフェース装置、プログラム及びコンテンツの通知方法
WO2019082606A1 (ja) コンテンツ管理機器、コンテンツ管理システム、および、制御方法
CN116257159A (zh) 多媒体内容的分享方法、装置、设备、介质及程序产品
KR20150083404A (ko) 디바이스 이용 정보를 제공하는 시스템 및 방법
KR20150026120A (ko) 객체 편집 방법 및 이를 위한 전자 기기

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant