KR102148006B1 - 동영상에 특수 이펙트를 제공하는 방법 및 장치 - Google Patents

동영상에 특수 이펙트를 제공하는 방법 및 장치 Download PDF

Info

Publication number
KR102148006B1
KR102148006B1 KR1020190050862A KR20190050862A KR102148006B1 KR 102148006 B1 KR102148006 B1 KR 102148006B1 KR 1020190050862 A KR1020190050862 A KR 1020190050862A KR 20190050862 A KR20190050862 A KR 20190050862A KR 102148006 B1 KR102148006 B1 KR 102148006B1
Authority
KR
South Korea
Prior art keywords
special effect
feature
video
background music
effect
Prior art date
Application number
KR1020190050862A
Other languages
English (en)
Inventor
김수지
서영욱
Original Assignee
주식회사 카카오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 카카오 filed Critical 주식회사 카카오
Priority to KR1020190050862A priority Critical patent/KR102148006B1/ko
Priority to US16/861,213 priority patent/US11563902B2/en
Application granted granted Critical
Publication of KR102148006B1 publication Critical patent/KR102148006B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2621Cameras specially adapted for the electronic generation of special effects during image pickup, e.g. digital cameras, camcorders, video cameras having integrated special effects capability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing

Abstract

특수 이펙트 제공 방법은 동영상(video)에 적용될 배경음악의 선택에 반응하여, 배경음악으로부터 추출된 제1 특징 및 동영상으로부터 추출된 제2 특징에 기초하여 배경음악 및 배경음악과 관련된 특수 이펙트를 동영상에 적용하는 단계들을 포함한다.

Description

동영상에 특수 이펙트를 제공하는 방법 및 장치{METHOD AND APPARATUS FOR PROVIDING SPECIAL EFFECTS TO VIDEO}
아래 실시예들은 동영상에 특수 이펙트를 제공하는 방법 및 장치에 관한 것이다.
동영상 촬영 및 편집 기능을 구비한 스마트폰이 폭발적으로 보급됨에 따라, 스마트폰을 이용하여 동영상을 촬영하고, 촬영된 동영상을 디스플레이하는 것이 일반화되어 있다.
그런데, 종래의 경우에는 사용자가 동영상을 촬영하는 경우 촬영하기 전에 설정한 효과가 하나의 동영상에 대한 촬영이 끝나기 전까지 계속 유지되거나 혹은 사용자가 필요한 시점에 효과를 직접 변경해야 한다. 이와 같이 종래의 경우에는 동영상 촬영 기능에 익숙하지 못한 사용자가 자신의 취향에 맞는 보다 다양한 동영상을 만들고 싶은 욕구를 충족시킬 수 없는 문제점이 있다.
일 실시예에 따른 특수 이펙트 제공 방법은 동영상(video)에 적용될 배경음악을 선택하는 입력을 수신하는 단계; 상기 배경음악으로부터 제1 특징을 추출하는 단계; 상기 동영상으로부터 제2 특징을 추출하는 단계; 및 상기 제1 특징 및 상기 제2 특징에 기초하여, 상기 배경음악 및 상기 배경음악과 관련된 특수 이펙트를 상기 동영상에 적용하는 단계를 포함한다.
상기 적용하는 단계는 상기 제1 특징 및 상기 제2 특징의 조합에 기초하여 상기 특수 이펙트를 결정하는 단계; 상기 동영상에 상기 배경음악 및 상기 특수 이펙트를 부가하는 단계를 포함할 수 있다.
상기 특수 이펙트를 결정하는 단계는 상기 제1 특징 및 상기 제2 특징의 조합에 기초하여, 상기 특수 이펙트의 유형을 결정하는 단계를 포함할 수 있다.
일 실시예에 따른 특수 이펙트 제공 방법은 상기 특수 이펙트를 결정하는 단계는 상기 제1 특징 및 상기 제2 특징의 조합에 기초하여, 상기 결정된 유형에 대응하는 적어도 하나의 파라미터를 결정하는 단계를 더 포함할 수 있다.
상기 적용하는 단계는 상기 특수 이펙트를 획득하는 단계; 상기 동영상에 상기 배경음악을 부가하는 단계; 및 상기 제1 특징 및 상기 제2 특징의 조합에 기초하여 상기 동영상에 상기 특수 이펙트를 부가하는 단계를 포함할 수 있다.
상기 특수 이펙트를 부가하는 단계는 상기 제1 특징 및 상기 제2 특징의 조합에 기초하여, 상기 특수 이펙트를 상기 동영상에 적용하기 위한 시간적 정보(temporal information) 및 공간적 정보(spatial information) 중 적어도 하나를 결정하는 단계를 포함할 수 있다.
상기 제1 특징을 추출하는 단계는 상기 배경음악으로부터 시간 도메인의 청각적 특징을 추출하는 단계; 및 고속 푸리에 변환(FFT; Fast Fourier Transform)을 통해 상기 배경음악의 도메인을 상기 시간 도메인으로부터 주파수 도메인으로 변환함으로써, 상기 배경음악으로부터 상기 주파수 도메인의 청각적 특징을 추출하는 단계 중 적어도 하나를 포함할 수 있다.
상기 제1 특징은 상기 배경음악의 청각적 특징 이외에 상기 배경음악과 관련된 적어도 하나의 특징을 포함할 수 있다.
상기 제2 특징은 상기 동영상의 전경으로부터 추출된 특징; 및 상기 동영상의 배경으로부터 추출된 특징 중 적어도 하나를 포함할 수 있다.
상기 제2 특징은 상기 동영상의 신택틱(syntactic) 정보에 기초하여 추출된 특징; 및 상기 동영상의 시멘틱(semantic) 정보에 기초하여 추출된 특징 중 적어도 하나를 포함할 수 있다.
상기 시멘틱 정보는 객체 탐지 기술에 기초하여 상기 동영상으로부터 탐지된 적어도 하나의 객체와 관련된 정보를 포함할 수 있다.
상기 동영상은 실시간으로 촬영 중인 동영상을 포함할 수 있다.
일 실시예에 따른 특수 이펙트 제공 방법은 상기 배경음악 및 상기 특수 이펙트가 적용된 동영상을 재생하는 단계를 더 포함할 수 있다.
상기 특수 이펙트의 유형은 파티클 이펙트, 모자이크 이펙트, 블러 이펙트, 색채 조절 이펙트, 스티커 이펙트 및 줌(zoom) 이펙트 중 적어도 하나를 포함할 수 있다.
상기 제1 특징을 추출하는 단계는 미리 학습된 분류기에 상기 배경음악을 입력하여, 상기 배경음악의 장르를 결정하는 단계를 포함하고, 상기 적용하는 단계는 상기 장르에 따라 결정되는 적어도 하나의 특수 이펙트의 집합으로부터 상기 특수 이펙트를 선택하는 단계를 포함할 수 있다.
상기 적용하는 단계는 상기 제1 특징 및 상기 제2 특징 중 적어도 상기 제2 특징에 기초하여, 상기 배경음악에 부가될 청각적 특수 이펙트를 결정하는 단계; 및 상기 제1 특징 및 상기 제2 특징 중 적어도 상기 제2 특징에 기초하여, 상기 청각적 특수 이펙트의 적용 스킴을 결정하는 단계 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 특수 이펙트 제공 장치는 동영상(video)에 적용될 배경음악을 선택하는 입력을 수신하고, 상기 배경음악으로부터 제1 특징을 추출하고, 상기 동영상으로부터 제2 특징을 추출하며, 상기 제1 특징 및 상기 제2 특징에 기초하여 상기 배경음악 및 상기 배경음악과 관련된 특수 이펙트를 상기 동영상에 적용하는 적어도 하나의 프로세서를 포함한다.
상기 프로세서는 상기 제1 특징 및 상기 제2 특징의 조합에 기초하여 상기 특수 이펙트를 결정하고, 상기 동영상에 상기 배경음악 및 상기 특수 이펙트를 부가할 수 있다.
상기 프로세서는 상기 특수 이펙트를 획득하고, 상기 동영상에 상기 배경음악을 부가하며, 상기 제1 특징 및 상기 제2 특징의 조합에 기초하여 상기 동영상에 상기 특수 이펙트를 부가할 수 있다.
상기 프로세서는 상기 제1 특징 및 상기 제2 특징의 조합에 기초하여, 상기 특수 이펙트를 상기 동영상에 적용하기 위한 시간적 정보(temporal information) 및 공간적 정보(spatial information) 중 적어도 하나를 결정할 수 있다.
상기 프로세서는 미리 학습된 분류기에 상기 배경음악을 입력하여 상기 배경음악의 장르를 결정하고, 상기 장르에 따라 결정되는 적어도 하나의 특수 이펙트의 집합으로부터 상기 특수 이펙트를 선택하는 단계를 포함할 수 있다.
실시예들은 배경음악과 특수 이펙트를 동영상에 자동으로 적용하여 동영상의 품질을 높이고, 다양한 사용자 경험을 제공할 수 있다. 예를 들어, 실시예들은 배경음악의 청각적 특징과 동영상의 시각적 특징에 기초하여 특수 이펙트를 동영상에 적용할 수 있다. 또한, 실시예들은 동영상 촬영 중에도 실시간으로 배경음악과 특수 이펙트를 동영상에 자동으로 적용할 수 있다.
도 1은 일 실시예에 따른 네트워크 시스템을 도시한 도면이다.
도 2는 일 실시예에 따른 특수 이펙트 제공 방법을 설명하기 위한 순서도이다.
도 3은 일 실시예에 따른 일 실시예에 따른 특수 이펙트를 결정하는 방법을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 특수 이펙트 적용 스킴(scheme)을 결정하는 방법을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 특수 이펙트를 동영상에 적용하기 위한 시간적 정보 및 공간적 정보 중 적어도 하나를 결정하는 방법을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 동영상 어플리케이션의 화면을 설명하기 위한 도면이다.
도 7은 실시예들에 따른 동영상에 특수 이펙트가 적용되는 예시들을 설명하기 위한 도면이다.
본 명세서에서 개시되어 있는 특정한 구조적 또는 기능적 설명들은 단지 기술적 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실시예들은 다양한 다른 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.
제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~간의에"와 "바로~간의에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일 실시예에 따른 네트워크 시스템을 도시한 도면이다.
도 1을 참조하면, 일 실시예에 따른 네트워크 시스템은 서비스 서버(100) 및 사용자 단말(110)을 주체로 포함한다. 도 1은 발명의 일례를 설명하기 위한 것으로 사용자 단말이나 서비스 서버가 도 1에 도시된 사항과 같이 한정되는 것은 아니다.
사용자 단말(110)은 컴퓨터 장치로 구현되는 이동형 단말이거나 고정형 단말일 수 있다. 사용자 단말(110)은 예를 들어, 컴퓨터, UMPC(Ultra Mobile PC), 넷북(net-book), PDA(Personal Digital Assistants), 포터블(portable) 컴퓨터, 웹 타블렛(web tablet), 무선 전화기(wireless phone), 모바일 폰(mobile phone), 스마트폰(smart phone), 휴대용 게임기, 네비게이션(navigation) 장치, 블랙 박스(black box) 또는 디지털 카메라(digital camera) 같은 전자 장치의 다양한 구성 요소들 중 하나일 수 있다. 사용자 단말(110)은 서비스 서버(100)와 관련된 동영상 서비스 전용 어플리케이션(이하, '동영상 어플리케이션'이라 칭함)의 설치 및 실행이 가능한 모든 사용자 장치를 의미할 수 있다. 이때, 사용자 장치는 동영상 어플리케이션의 제어 하에 서비스 화면의 구성, 데이터 입력, 데이터 송수신, 데이터 저장 등 서비스 전반의 동작을 수행할 수 있다. 아래에서 설명하는 사용자 단말의 동작은 동영상 어플리케이션에 의하여 수행되는 것으로 이해될 수 있다.
서비스 서버(100)는 사용자 단말(110)과 네트워크를 통해 통신하여 명령, 코드, 파일, 컨텐츠, 서비스 등을 제공하는 컴퓨터 장치 또는 복수의 컴퓨터 장치들로 구현될 수 있다. 서비스 서버(100)는, 동영상 어플리케이션을 실행한 사용자 단말(110)로 해당 어플리케이션에 연계된 서비스를 제공할 수 있다. 예를 들어, 서비스 서버(100)는 동영상에 적용될 배경음악을 제공하는 서비스, 특수 효과가 적용된 동영상의 공유를 위한 서비스 등을 제공할 수 있다. 서비스 서버(100)가 제공하는 서비스는 위 예시에 제한되지 않고, 동영상 어플리케이션에 연계된 다양한 서비스를 포함할 수 있다.
서비스 서버(100)와 사용자 단말(110)의 통신 방식은 제한되지 않으며, 네트워크가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
아래에서 상세하게 설명하겠으나, 일 실시예에 따른 사용자 단말(110)은 동영상 어플리케이션의 제어 하에 배경음악과 특수 이펙트를 동영상에 자동으로 적용하는 기법을 제공한다. 특수 이펙트는 원본 동영상을 시각적으로(visually) 변형하는 것으로, 예를 들어 원본 동영상에 가상의 객체를 합성하거나, 원본 동영상에 포함된 객체나 배경의 외형 또는 색채를 변경하는 것 등과 같이 동영상에 적용되는 시각적 영상 효과 등을 포함할 수 있다.
일 실시예에 따르면, 사용자 단말(110)은 배경음악에 따라 특수 이펙트가 미리 결정되는 템플릿 기반 특수 이펙트 적용 방법에서 더 나아가, 배경음악의 특징 및 동영상의 특징에 반응하여 특수 이펙트를 동영상에 자동으로 적용할 수 있다. 일 실시예에 따른 특수 이펙트 적용 방법에 의하면, 배경음악의 특징 뿐만 아니라, 동영상의 특징을 함께 고려하여 특수 이펙트가 적용되기 때문에 같은 배경음악이 적용되더라도, 동영상의 시각적 정보에 따라서 다른 특수 이펙트가 적용될 수 있다.
또한, 사용자 단말(110)은 기 생성된 동영상 뿐만 아니라, 동영상 촬영 중에도 실시간으로 배경음악과 특수 이펙트를 동영상에 자동으로 적용할 수 있다.
동영상 어플리케이션은 PC 환경은 물론 모바일 환경에서 사용 가능하도록 구현되며, 독립적으로 동작하는 프로그램 형태로 구현되거나 혹은 특정 어플리케이션의 인-앱(in-app) 형태로 구성되어 특정 어플리케이션 상에서 동작이 가능하도록 구현될 수 있다.
도 2는 일 실시예에 따른 특수 이펙트 제공 방법을 설명하기 위한 순서도이다.
도 2를 참조하면, 일 실시예에 따른 단계들(210 내지 240)은 도 1을 참조하여 전술된 사용자 단말(110)에 의해 수행될 수 있다.
단계(210)에서, 사용자 단말(110)은 사용자로부터 동영상에 적용될 배경음악을 선택하는 입력을 수신한다. 일 실시예에 따르면, 배경음악은 사용자 단말(110)에 미리 저장될 수 있고, 사용자는 배경음악을 선택할 수 있다. 또는, 사용자 단말(110)은 서버(100)로부터 배경음악 리스트를 제공받을 수 있고, 사용자는 사용자 단말(110)을 통해 동영상에 적용될 배경음악을 선택할 수 있다. 또는, 동영상을 촬영 중인 경우, 사용자는 촬영 중 녹음되는 음을 배경음악으로 선택할 수도 있다.
단계(220)에서, 사용자 단말(110)은 배경음악으로부터 제1 특징을 추출한다. 제1 특징은 배경음악의 청각적 특징을 포함할 수 있다. 청각적 특징은 배경음악이 갖는 소리에 관한 고유의 정보로, 배경음악에 포함된 음의 특징(예를 들어, 음의 높이, 음의 크기, 또는 음색 등), 배경음악에 포함된 악기의 종류, 또는 배경음악에 포함된 소리의 종류(예를 들어, 사람 소리, 동물 소리, 또는 기계 소리 등) 등을 포함할 수 있다. 또는, 제1 특징은 청각적 특징 이외에 배경음악과 관련된 다른 특징으로, 배경음악의 장르(예를 들어, 발라드 또는 락 등), 배경음악의 가사의 특징(예를 들어, 계절 또는 사랑 등), 배경음악을 선택하는 사용자의 특성(예를 들어, 성별, 거주지(국가), 또는 나이 등) 등을 포함할 수 있다.
일 실시예에 따르면, 청각적 특징은 시간 도메인의 청각적 특징과 주파수 도메인의 청각적 특징으로 구분될 수 있다.
시간 도메인의 청각적 특징은 배경음악의 리듬 정보와 멜로디 정보를 포함할 수 있다. 리듬 정보는 배경음악의 박자나 빠르기 정보를 의미하고, 멜로디 정보는 연속되는 음들의 연결에서 음이 올라가는 패턴 혹은 내려가는 패턴과 같은 음의 변화 정보를 의미할 수 있다.
주파수 도메인의 청각적 특징은 고속 푸리에 변환(FFT; Fast Fourier Transform)을 통해 획득된 주파수 도메인 정보일 수 있다. 주파수 도메인 정보는 고속 푸리에 변환으로 획득된 주파수 스펙트럼을 포함할 수 있고, 주파수 스펙트럼은 각 주파수 대역에 대응하는 진폭 정보를 포함할 수 있다. 일 실시예에 따르면, 미리 정해진 시간 윈도우를 이용하여, 배경음악 내 해당 윈도우에 포함된 시간 도메인 데이터를 주파수 스펙트럼으로 변환할 수 있다.
단계(230)에서, 사용자 단말(110)은 동영상으로부터 제2 특징을 추출한다. 제2 특징은 동영상의 시각적 특징을 포함할 수 있다. 시각적 특징은 동영상의 장면(scene)에 포함된 시각적 정보로, 동영상은 복수 개의 장면들의 집합일 수 있다.
일 실시예에 따르면, 시각적 특징은 동영상의 전경으로부터 추출된 특징 및 동영상의 배경(혹은 후경)으로부터 추출된 특징을 포함할 수 있다. 동영상의 경계선을 접하는 두 영역이 있는 장면에서 지각의 대상이 되는 부분은 전경, 그 밖의 나머지 부분은 배경일 수 있다. 예를 들어, 동영상을 찍는 대상이 되는 객체(예를 들어, 사람, 동물, 차량 등의 의미 있는 피사체)는 전경, 그 밖의 나머지 부분은 배경일 수 있다.
전경으로부터 추출된 특징은 전경으로 인식된 영역의 시각적 정보, 예를 들어 전경으로 인식된 영역에 포함된 픽셀들의 각각의 픽셀 값, 혹은 픽셀 값들로부터 추출된 특징 정보를 포함할 수 있다. 마찬가지로, 배경으로부터 추출된 특징은 배경으로 인식된 영역의 시각적 정보, 예를 들어 배경으로 인식된 영역에 포함된 픽셀들의 각각의 픽셀 값, 혹은 픽셀 값들로부터 추출된 특징 정보를 포함할 수 있다.
설명의 편의를 위하여 동영상을 전경과 배경으로 구분하는 실시예를 설명하였으나, 동영상을 근경, 중경 및 원경으로 구분하는 등 동영상으로부터 시각적 정보를 추출하는 방식은 다양하게 변형될 수 있다.
일 실시예에 따르면, 시각적 특징은 동영상의 신택틱(syntactic) 정보 및 동영상의 시멘틱(semantic) 정보를 포함할 수 있다.
동영상의 신택틱 정보는 동영상의 장면에 포함된 형식적 정보일 수 있다. 예를 들어, 신택틱 정보는 장면의 색채 정보, 명암 정보 등을 포함할 수 있다. 시멘틱 정보는 동영상의 장면에 포함된 의미론적 정보일 수 있다. 예를 들어, 시멘틱 정보는 장면의 상황인식 정보 및/또는 객체인식 정보를 포함할 수 있다. 일 실시예에 따르면, 동영상으로부터 객체의 종류(예를 들어, 사람, 동물 또는 차량 등을 의미하는 클래스)와 그 위치(예를 들어, 바운딩 박스)를 검출하는 객체 탐지(object detection) 기술에 기초하여, 시멘틱 정보에 해당하는 객체인식 정보가 생성될 수 있다.
실시예에 따라, 전경과 배경을 구분하여, 신택틱 정보 및 시멘틱 정보가 추출될 수 있다. 예를 들어, 동영상으로부터 전경의 신택틱 정보로 객체인식 정보가 추출되고, 배경의 시멘틱 정보로 장면의 전반적인 색채 정보가 추출될 수 있다.
단계(240)에서, 사용자 단말(110)은 제1 특징 및 제2 특징에 기초하여, 배경음악 및 배경음악과 관련된 특수 이펙트를 동영상에 적용한다.
예를 들어, 사용자 단말(110)은 배경음악으로부터 추출된 제1 특징과 동영상으로부터 추출된 제2 특징의 조합에 기초하여, 특수 이펙트를 결정할 수 있다. 특수 이펙트를 결정하는 방법은, 아래에서 도 3을 참조하여 상세히 설명된다. 또는, 사용자 단말(110)은 배경음악으로부터 추출된 제1 특징과 동영상으로부터 추출된 제2 특징의 조합에 기초하여, 특수 이펙트를 동영상에 적용할 수 있다. 특수 이펙트의 적용 스킴(scheme)을 결정하는 방법은, 아래에서 도 4를 참조하여 상세히 설명된다.
일 실시예에 따르면, 동영상으로부터 객체인식 정보가 추출된 경우, 인식된 객체의 수에 따라 특수 이펙트가 변경(예를 들면, 객체 수가 많아질수록 이펙트가 변화하는 등)될 수 있다. 또는, 인식된 객체의 움직임, 위치, 및/또는 색상 등의 변화에 따라 특수 이펙트 혹은 특수 이펙트의 적용 스킴이 변경될 수 있다.
일 실시예에 따르면, 동영상으로부터 추출된 제2 특징에 기초하여 배경음악에 부가될 청각적 특수 이펙트가 결정될 수 있다. 예를 들어, 제2 특징으로 동영상의 장면 인식 정보를 추출하고, 추출된 장면 인식 정보에 대응하여 배경음악의 템포가 자동으로 조절될 수 있다.
또는, 동영상으로부터 추출된 제2 특징 및 배경음악으로부터 추출된 제1 특징의 조합에 기초하여 배경음악에 부가될 청각적 특수 이펙트가 결정될 수 있다. 예를 들어, 제2 특징으로 동영상의 객체 인식 정보를 추출하고, 제1 특징으로 배경음악의 장르를 추출한 뒤, 객체 인식 정보와 배경음악의 장르의 조합에 따라 청각적 특수 이펙트에 활용될 악기가 결정될 수 있다. 이 경우, 청각적 특수 이펙트가 결정된 악기의 소리로 부가될 수 있다.
또는, 제2 특징, 또는 제1 특징과 제2 특징의 조합에 기초하여 청각적 특수 이펙트의 적용 스킴이 결정될 수도 있다. 청각적 특수 이펙트의 적용 스킴으로 예를 들어, 청각적 특수 이펙트가 적용되는 시점이나 청각적 특수 이펙트의 강도 등이 결정될 수 있다.
나아가, 사용자 단말(110)은 배경음악 및 특수 이펙트가 적용된 동영상을 재생할 수 있다.
이상에서 사용자 단말(110)에 의하여 도 2의 단계들이 수행되는 실시예들을 설명하였으나, 도 2의 단계들 중 적어도 일부가 서버(100)에 의하여 수행되도록 구현될 수 있다. 예를 들어, 단계(210)에서 사용자 단말(110)은 배경음악의 선택 입력을 서버(100)로 전송할 수 있다. 이후, 단계(220) 내지 단계(230)이 서버(100)에 의하여 수행된 뒤, 배경음악 및 추출 특징이 사용자 단말(110)로 전송될 수 있다. 또는, 단계(240)까지 서버(100)에 의하여 수행된 뒤, 최종 동영상이 사용자 단말(110)로 전송될 수도 있다.
도 3은 일 실시예에 따른 일 실시예에 따른 특수 이펙트를 결정하는 방법을 설명하기 위한 도면이다.
도 3을 참조하면, 일 실시예에 따른 사용자 단말(110)은 배경음악(310)으로부터 추출한 제1 특징(320)과, 동영상(315)으로부터 추출한 제2 특징(325)의 조합에 기초하여 특수 이펙트를 결정(330)할 수 있다.
특수 이펙트는 제1 특징 및 제2 특징의 조합에 기초하여 결정되기 때문에, 같은 배경음악이 적용되더라도 동영상에 따라서 다른 특수 이펙트가 결정될 수 있다. 또한, 마찬가지로 같은 동영상이라도 배경음악에 따라서 다른 특수 이펙트가 결정될 수 있다.
일 실시예에 따르면, 특수 이펙트를 결정(330)하는 동작은 특수 이펙트의 유형(type)을 결정(335)하고, 결정된 유형에 대응하는 적어도 하나의 파라미터를 결정(340)하는 동작을 통해 수행될 수 있다.
구체적으로, 사용자 단말(110)은 제1 특징 및 제2 특징의 조합에 기초하여 특수 이펙트의 유형을 결정(335)할 수 있다. 특수 이펙트의 유형은 파티클 이펙트, 모자이크 이펙트, 블러(blur) 이펙트, 색채 조절 이펙트, 스티커 이펙트 및 줌(zoom) 이펙트(예를 들어, 줌인아웃 이펙트) 중 적어도 하나를 포함할 수 있다. 예를 들어, 배경 음악의 주파수가 미리 정해진 특정 주파수 대역에 해당하고, 동영상의 전경에 인물이 인식되는 경우 특수 이펙트의 유형으로 블러 이펙트가 결정될 수 있다. 다만, 전술한 특수 이펙트의 유형은 예시적인 사항일 뿐, 특수 이펙트의 유형이 이러한 예시에 한정되는 것은 아니며 다른 다양한 특수 이펙트의 유형이 적용될 수 있다.
사용자 단말(110)은 제1 특징 및 제2 특징의 조합에 기초하여 결정된 특수 이펙트 유형에 대응하는 적어도 하나의 파라미터를 결정(340)할 수 있다. 특수 이펙트 파라미터는 색채, 크기, 빈도, 방향, 속도와 같은 특수 이펙트의 구성 요소일 수 있다. 예를 들어, 특수 이펙트 유형으로 블러 이펙트가 결정된 경우, 특정 주파수 대역의 크기 정보에 비례하여 블러 이펙트의 크기 또는 속도를 결정할 수 있다. 이 경우, 배경음악 내 해당 주파수 대역의 크기가 큰 경우에는 번지는 영역의 크기가 넓고, 해당 주파수 대역의 크기가 작은 경우에는 번지는 영역의 크기가 좁을 수 있다.
사용자 단말(110)은 배경음악(310)을 동영상(315)에 적용하면서, 단계(330)에서 결정된 특수 이펙트도 함께 동영상(315)에 적용할 수 있다.
도 4는 일 실시예에 따른 특수 이펙트 적용 스킴(scheme)을 결정하는 방법을 설명하기 위한 도면이다.
도 4를 참조하면, 일 실시예에 따른 사용자 단말(110)은 배경음악(310)으로부터 추출한 제1 특징(320)과, 동영상(315)으로부터 추출한 제2 특징(325)의 조합에 기초하여 특수 이펙트 적용 스킴(scheme)(430)을 결정할 수 있다. 특수 이펙트 적용 스킴(430)은 동영상에 특수 이펙트(305)를 적용하기 위한 시간적 정보(temporal information)(445) 및/또는 공간적 정보(spatial information)(450)를 포함할 수 있다. 시간적 정보는 동영상에 특수 이펙트(305)가 적용되는 시점 정보를 포함하고, 공간적 정보는 동영상에 특수 이펙트(305)가 적용되는 위치 또는 영역 정보를 포함할 수 있다. 도 4의 실시예에서, 특수 이펙트(305)는 도 3의 실시예를 통하여 결정될 수 있고, 또는 배경음악(310)과 매칭되어 미리 정해질 수도 있다.
특수 이펙트 적용 스킴(430)은 제1 특징 및 제2 특징의 조합에 기초하여 결정되기 때문에, 같은 배경음악이 적용되더라도, 동영상에 따라서 특수 이펙트(305)가 적용되는 시점 또는 위치가 상이할 수 있다. 또한, 마찬가지로 같은 동영상이라도 배경음악에 따라서 특수 이펙트(305)가 적용되는 시점 또는 위치가 상이할 수 있다. 이를 통해 보다 다양한 동영상 컨텐츠를 생성할 수 있다.
특수 이펙트 적용 스킴(430)에 포함된 시간적 정보(445) 및 공간적 정보(450) 중 적어도 하나를 결정하는 동작은 아래에서 도 5를 참조하여 상세히 설명된다.
사용자 단말(110)은 배경음악(310)을 동영상(315)에 적용하면서, 특수 이펙트(305)를 적용 스킴(430)에 따라 동영상(315)에 적용할 수 있다.
도 5는 일 실시예에 따른 특수 이펙트를 동영상에 적용하기 위한 시간적 정보 및 공간적 정보 중 적어도 하나를 결정하는 방법을 설명하기 위한 도면이다.
도 5를 참조하면, 일 실시예에 따른 사용자 단말(110)은 제1 특징 및 제2 특징의 조합에 기초하여, 특수 이펙트를 동영상에 적용하기 위한 시간적 정보 및 공간적 정보 중 적어도 하나를 결정할 수 있다.
도면(510)을 참조하면, 사용자 단말(110)은 배경음악(310)으로부터 추출한 제1 특징(320)과, 동영상(315)으로부터 추출한 제2 특징(325)의 조합에 기초하여 시간적 정보를 결정(511)할 수 있다. 예를 들어, 사용자 단말(110)은 배경 음악의 주파수가 미리 정해진 특정 주파수 대역에 해당하고, 동영상의 전경에 인물이 인식되는 시점에 특수 이펙트를 동영상에 적용할 수 있다.
또는, 도면(520)을 참조하면, 사용자 단말(110)은 배경음악(310)으로부터 추출한 제1 특징(320)과, 동영상(315)으로부터 추출한 제2 특징(325)의 조합에 기초하여 공간적 정보를 결정(521)할 수 있다. 예를 들어, 사용자 단말(110)은 배경 음악의 주파수가 미리 정해진 특정 주파수 대역에 해당하고, 동영상의 전경에 인물이 인식되는 경우, 인식된 인물의 위치에 특수 이펙트를 적용할 수 있다.
또는, 도면(530)을 참조하면, 사용자 단말(110)은 배경음악(310)으로부터 추출한 제1 특징(320)에 기초하여 시간적 정보를 결정(531)하고, 동영상(315)으로부터 추출한 제2 특징(325) 에 기초하여 공간적 정보를 결정(532)할 수 있다. 예를 들어, 사용자 단말(110)은 배경 음악의 주파수가 미리 정해진 특정 주파수 대역에 해당하는 시점에 특수 이펙트를 동영상에 적용하고, 동영상의 전경에 인물이 인식되는 경우, 인식된 인물의 위치에 특수 이펙트를 적용할 수 있다.
또는, 도면(540)을 참조하면, 사용자 단말(110)은 배경음악(310)으로부터 추출한 제1 특징(320)에 기초하여 공간적 정보를 결정(541)하고, 동영상(315)으로부터 추출한 제2 특징(325) 에 기초하여 시간적 정보를 결정 (542)할 수 있다. 예를 들어, 사용자 단말(110)은 배경 음악의 주파수가 미리 정해진 특정 주파수 대역에 해당하는 경우, 미리 정해진 위치에 특수 이펙트를 적용하고, 동영상의 전경에 인물이 인식되는 시점에 특수 이펙트를 동영상에 적용할 수 있다.
도 6은 일 실시예에 따른 동영상 어플리케이션의 화면을 설명하기 위한 도면이다.
도 6을 참조하면, 일 실시예에 따른 사용자 단말(110)은 동영상 어플리케이션의 제어 하에 서비스 화면의 구성, 데이터 입력, 데이터 송수신, 데이터 저장 등 서비스 전반의 동작을 수행할 수 있다. 동영상 어플리케이션은 동영상 촬영 중에도 실시간으로 배경음악과 특수 이펙트를 동영상에 자동으로 적용하는 동작을 제공할 수 있다.
동영상 어플리케이션의 촬영 모드 화면(610)은 음악 아이콘(611)을 포함할 수 있다. 일례로, 음악 아이콘(611)은 음표 모양일 수 있고, 촬영 모드 화면(610)의 상단 중앙에 위치할 수 있다. 음악 아이콘(611)이 선택되는 경우, 동영상(video)에 적용될 배경음악 리스트를 제공하는 음악 선택 화면(620)이 제공될 수 있다.
배경음악 리스트는 배경음악 별로 썸네일, 타이틀, 아티스트 정보를 제공하는 형태로 제공될 수 있고, 썸네일은 동영상 형태를 포함할 수 있다. 또한, 도시하지는 않았지만 음악 선택 화면(620)은 배경음악을 검색할 수 있는 기능을 제공하는 검색 아이콘을 포함할 수 있다.
일 실시예에 따르면, 음악 선택 화면(620)은 사용자 단말(110)에 미리 저장된 배경음악 리스트를 제공할 수 있다.
다른 실시예에 따르면, 서버(100)가 음악 선택 화면(620)에 배경음악 리스트를 제공할 수도 있다. 서버(100)가 배경음악 리스트를 제공하는 경우, 배경음악 리스트는 음악 장르 별로 제공될 수 있고, 인기 순으로 정렬될 수도 있다.
다른 실시예에 따르면, 음악 선택 화면(620)은 사용자 단말(110)에 미리 저장된 제1 배경음악 리스트와 서버(100)가 제공하는 제2 배경음악 리스트를 모두 제공할 수 있다. 이 경우, 음악 선택 화면(620)은 제1 배경음악 리스트를 제공하는 영역과 제2 배경음악 리스트를 제공하는 영역을 분리할 수 있다. 예를 들어, 음악 선택 화면(620)의 상단 영역에서는 제1 배경음악 리스트를, 하단 영역에서는 제2 배경음악 리스트를 제공할 수 있다.
배경음악 선택이 완료되는 경우, 배경음악을 적용한 동영상 촬영 모드 화면(630)이 제공될 수 있다. 동영상 촬영 모드 화면(630)은 배경음악 정보 영역(631)과 촬영 아이콘(632)을 포함할 수 있다. 배경음악 정보 영역(631)에서 음표 아이콘, 선택된 배경음악의 타이틀, 아티스트 정보를 제공할 수 있다. 촬영 아이콘(632)을 선택 시 배경음악과 특수 이펙트가 적용된 상태로 동영상이 촬영될 수 있다.
도 7은 실시예들에 따른 동영상에 특수 이펙트가 적용되는 예시들을 설명하기 위한 도면이다.
도 7a의 도면(710)을 참조하면, 일 실시예에 따른 동영상에 블러 이펙트가 적용될 수 있다. 예를 들어, 배경 음악의 주파수가 미리 정해진 특정 주파수 대역에 해당하고, 동영상의 전경에 인물이 인식되는 경우 특수 이펙트의 유형으로 블러 이펙트가 결정될 수 있다. 또한, 특수 이펙트 유형으로 블러 이펙트가 결정된 경우, 특정 주파수 대역의 크기 정보에 비례하여 블러 이펙트의 크기 또는 속도를 결정할 수 있다. 결정된 블러 이펙트를, 배경 음악의 주파수가 미리 정해진 특정 주파수 대역에 해당하는 시점에 적용하고, 인물 영역에서 적용할 수 있다.
도 7b 의 도면(720)을 참조하면, 일 실시예에 따른 동영상에 눈 내리는 효과 이펙트가 적용될 수 있다. 예를 들어, 배경음악의 멜로디가 미리 정해진 특정 패턴의 멜로디에 해당하고, 동영상의 전경에 여성이 인식되는 경우 특수 이펙트의 유형으로 눈 내리는 효과 이펙트가 결정될 수 있다. 또한, 특수 이펙트 유형으로 눈 내리는 효과 이펙트가 결정된 경우, 배경음악의 크기 정보에 비례하여 눈 내리는 속도를 결정할 수 있다. 결정된 눈 내리는 효과 이펙트를, 배경 음악의 멜로디가 미리 정해진 특정 패턴의 멜로디에 해당하고, 동영상의 전경에 여성이 인식되는 시점에 적용할 수 있다.
도 7c의 도면(730)을 참조하면, 일 실시예에 따른 동영상에 눈 내리는 색채 조절 이펙트 가 적용될 수 있다. 예를 들어, 배경 음악의 리듬이 미리 정해진 특정 패턴의 리듬에 해당하고, 동영상의 지배적인 색상이 차지하는 비율이 미리 정해진 비율 이상인 경우, 특수 이펙트의 유형으로 색채 조절 이펙트가 결정될 수 있다. 또한, 특수 이펙트 유형으로 색채 조절 이펙트가 결정된 경우, 색상이 차지하는 비율에 비례하여 이펙트 명도를 결정할 수 있다. 배경 음악의 리듬이 미리 정해진 특정 패턴의 리듬에 해당하고, 동영상의 지배적인 색상이 차지하는 비율이 미리 정해진 비율 이상이 되는 시점에 적용할 수 있다.
도 7d의 도면(740)을 참조하면, 일 실시예에 따른 스티커 이펙트가 적용될 수 있다. 예를 들어, 주파수가 미리 정해진 특정 주파수 대역에 해당하고, 동영상의 전경에 인물이 인식되는 경우, 특수 이펙트의 유형으로 스티커 이펙트가 결정될 수 있다. 또한, 특수 이펙트 유형으로 스티커 이펙트가 결정된 경우, 특정 주파수 대역의 크기 정보에 비례하여 스티커 이펙트의 형상을 결정할 수 있다. 크기가 임계치 보다 작은 경우 씨앗에서 새싹이 자라나는 형상이, 크기가 임계치 이상인 경우 식물이 자라나는 형상이 결정될 수 있다. 결정된 스티커 이펙트를, 배경 음악의 주파수가 미리 정해진 특정 주파수 대역에 해당하는 시점에 적용하고, 인물 영역에서 적용할 수 있다.
도 7의 도면(750)을 참조하면, 일 실시예에 따른 동영상에 파티클 이펙트가 적용될 수 있다. 예를 들어, 배경음악의 멜로디가 미리 정해진 특정 패턴의 멜로디에 해당하고, 동영상에 움직이는 객체가 인식되는 경우 특수 이펙트의 유형으로 파티클 이펙트가 결정될 수 있다. 또한, 특수 이펙트 유형으로 파티클 이펙트가 결정된 경우, 배경음악 소리의 크기 정보에 비례하여 파티클의 크기를 결정할 수 있다. 결정된 파티클 이펙트를, 배경음악의 멜로디가 미리 정해진 특정 패턴의 멜로디에 해당하는 시점에 적용하고, 움직이는 객체 영역에만 적용할 수 있다.
도면에 도시하지 않았으나, 일 실시예에 따른 사용자 단말(110)은 미리 학습된 분류기에 배경음악을 입력하여, 배경음악의 장르를 결정할 수 있다. 장르가 결정되면, 사용자 단말(110)은 장르에 따라 결정되는 적어도 하나의 특수 이펙트의 집합으로부터 특수 이펙트를 선택할 수 있다. 장르에 따라 어울리는 특수 이펙트 집합을 따로 제공함으로서 보다 자연스럽고 다양한 동영상을 생성할 수 있다.
일 실시예에 따른 특수 이펙트 제공 장치는 동영상(video)에 적용될 배경음악을 선택하는 입력을 수신하고, 배경음악으로부터 청각적 특징을 추출하고, 동영상으로부터 시각적 특징을 추출하고, 청각적 특징 및 시각적 특징에 기초하여, 배경음악 및 배경음악과 관련된 특수 이펙트를 동영상에 적용하는 프로세서를 포함한다.
또한, 프로세서는 청각적 특징 및 시각적 특징의 조합에 기초하여 특수 이펙트를 결정하고, 배경음악에 기초하여 동영상에 청각적 효과를 부가하고, 특수 이펙트에 기초하여 동영상에 시각적 효과를 부가할 수 있다. 프로세서는 특수 이펙트를 획득하고, 배경음악에 기초하여 동영상에 청각적 효과를 부가하고, 청각적 특징 및 시각적 특징의 조합에 기초하여 동영상에 시각적 효과를 부가할 수 있다. 프로세서는 청각적 특징 및 시각적 특징의 조합에 기초하여, 특수 이펙트를 동영상에 적용하기 위한 시간적 정보(temporal information) 및 공간적 정보(spatial information) 중 적어도 하나를 결정할 수 있다. 프로세서는 미리 학습된 분류기에 배경음악을 입력하여, 배경음악의 장르를 결정하고, 장르에 따라 결정되는 특수 이펙트 집합으로부터 특수 이펙트를 선택할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (22)

  1. 동영상(video)에 적용될 배경음악을 선택하는 입력을 수신하는 단계;
    상기 배경음악으로부터 제1 특징을 추출하는 단계;
    상기 동영상으로부터 제2 특징을 추출하는 단계;
    상기 제1 특징 및 상기 제2 특징의 조합에 기초하여, 상기 배경음악과 관련된 특수 이펙트를 결정하는 단계; 및
    상기 동영상에 상기 배경음악 및 상기 특수 이펙트를 적용하는 단계
    를 포함하고,
    상기 적용하는 단계는
    상기 제1 특징 및 상기 제2 특징의 조합에 기초하여, 상기 특수 이펙트를 상기 동영상에 적용하기 위한 시간적 정보(temporal information)를 결정하는 단계
    를 포함하고,
    상기 제2 특징은
    상기 동영상의 신택틱(syntactic) 정보에 기초하여 추출된 특징을 포함하는 특수 이펙트 제공 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 특수 이펙트를 결정하는 단계는
    상기 제1 특징 및 상기 제2 특징의 조합에 기초하여, 상기 특수 이펙트의 유형을 결정하는 단계
    를 포함하는, 특수 이펙트 제공 방법,
  4. 제3항에 있어서,
    상기 특수 이펙트를 결정하는 단계는
    상기 제1 특징 및 상기 제2 특징의 조합에 기초하여, 상기 결정된 유형에 대응하는 적어도 하나의 파라미터를 결정하는 단계
    를 더 포함하는, 특수 이펙트 제공 방법,
  5. 제1항에 있어서,
    상기 적용하는 단계는
    상기 특수 이펙트를 획득하는 단계;
    상기 동영상에 상기 배경음악을 부가하는 단계; 및
    상기 제1 특징 및 상기 제2 특징의 조합에 기초하여 상기 동영상에 상기 특수 이펙트를 부가하는 단계
    를 포함하는, 특수 이펙트 제공 방법,
  6. 제5항에 있어서,
    상기 특수 이펙트를 부가하는 단계는
    상기 제1 특징 및 상기 제2 특징의 조합에 기초하여, 상기 특수 이펙트를 상기 동영상에 적용하기 위한 공간적 정보(spatial information) 를 결정하는 단계
    를 포함하는, 특수 이펙트 제공 방법.
  7. 제1항에 있어서,
    상기 제1 특징을 추출하는 단계는
    상기 배경음악으로부터 시간 도메인의 청각적 특징을 추출하는 단계; 및
    고속 푸리에 변환(FFT; Fast Fourier Transform)을 통해 상기 배경음악의 도메인을 상기 시간 도메인으로부터 주파수 도메인으로 변환함으로써, 상기 배경음악으로부터 상기 주파수 도메인의 청각적 특징을 추출하는 단계
    중 적어도 하나를 포함하는, 특수 이펙트 제공 방법.
  8. 제1항에 있어서,
    상기 제1 특징은
    상기 배경음악의 청각적 특징 이외에 상기 배경음악과 관련된 적어도 하나의 특징을 포함하는, 특수 이펙트 제공 방법.
  9. 제1항에 있어서,
    상기 제2 특징은
    상기 동영상의 전경으로부터 추출된 특징; 및
    상기 동영상의 배경으로부터 추출된 특징
    중 적어도 하나를 포함하는, 특수 이펙트 제공 방법,
  10. 제1항에 있어서,
    상기 제2 특징은
    상기 동영상의 시멘틱(semantic) 정보에 기초하여 추출된 특징
    을 포함하는, 특수 이펙트 제공 방법,
  11. 제10항에 있어서,
    상기 시멘틱 정보는
    객체 탐지 기술에 기초하여 상기 동영상으로부터 탐지된 적어도 하나의 객체와 관련된 정보를 포함하는, 특수 이펙트 제공 방법.
  12. 제1항에 있어서,
    상기 동영상은
    실시간으로 촬영 중인 동영상을 포함하는, 특수 이펙트 제공 방법,
  13. 제1항에 있어서,
    상기 배경음악 및 상기 특수 이펙트가 적용된 동영상을 재생하는 단계
    를 더 포함하는, 특수 이펙트 제공 방법.
  14. 제3항에 있어서,
    상기 특수 이펙트의 유형은
    파티클 이펙트, 모자이크 이펙트, 블러 이펙트, 색채 조절 이펙트, 스티커 이펙트 및 줌(zoom) 이펙트 중 적어도 하나를 포함하는, 특수 이펙트 제공 방법.
  15. 제1항에 있어서,
    상기 제1 특징을 추출하는 단계는 미리 학습된 분류기에 상기 배경음악을 입력하여, 상기 배경음악의 장르를 결정하는 단계를 포함하고,
    상기 적용하는 단계는 상기 장르에 따라 결정되는 적어도 하나의 특수 이펙트의 집합으로부터 상기 특수 이펙트를 선택하는 단계를 포함하는, 특수 이펙트 제공 방법.
  16. 제1항에 있어서,
    상기 결정하는 단계는
    상기 제1 특징 및 상기 제2 특징 중 적어도 상기 제2 특징에 기초하여, 상기 배경음악에 부가될 청각적 특수 이펙트를 결정하는 단계; 및
    상기 제1 특징 및 상기 제2 특징 중 적어도 상기 제2 특징에 기초하여, 상기 청각적 특수 이펙트의 적용 스킴을 결정하는 단계
    중 적어도 하나를 포함하는, 특수 이펙트 제공 방법.
  17. 하드웨어와 결합되어 제1항, 제3항 내지 제16항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  18. 동영상(video)에 적용될 배경음악을 선택하는 입력을 수신하고, 상기 배경음악으로부터 제1 특징을 추출하며, 상기 동영상으로부터 제2 특징을 추출하고, 상기 제1 특징 및 상기 제2 특징의 조합에 기초하여 상기 배경음악과 관련된 특수 이펙트를 결정하며, 상기 제1 특징 및 상기 제2 특징의 조합에 기초하여, 상기 특수 이펙트를 상기 동영상에 적용하기 위한 시간적 정보(temporal information)를 결정하고, 상기 동영상에 상기 배경음악 및 상기 특수 이펙트를 적용하는 적어도 하나의 프로세서
    를 포함하고,
    상기 제2 특징은
    상기 동영상의 신택틱(syntactic) 정보에 기초하여 추출된 특징을 포함하는 특수 이펙트 제공 장치.
  19. 삭제
  20. 제18항에 있어서,
    상기 프로세서는
    상기 특수 이펙트를 획득하고, 상기 동영상에 상기 배경음악을 부가하며, 상기 제1 특징 및 상기 제2 특징의 조합에 기초하여 상기 동영상에 상기 특수 이펙트를 부가하는, 특수 이펙트 제공 장치.
  21. 제18항에 있어서,
    상기 프로세서는
    상기 제1 특징 및 상기 제2 특징의 조합에 기초하여, 상기 특수 이펙트를 상기 동영상에 적용하기 위한 시간적 정보(temporal information) 및 공간적 정보(spatial information) 중 적어도 하나를 결정하는, 특수 이펙트 제공 장치.
  22. 제18항에 있어서,
    상기 프로세서는
    미리 학습된 분류기에 상기 배경음악을 입력하여 상기 배경음악의 장르를 결정하고, 상기 장르에 따라 결정되는 적어도 하나의 특수 이펙트의 집합으로부터 상기 특수 이펙트를 선택하는, 특수 이펙트 제공 장치.
KR1020190050862A 2019-04-30 2019-04-30 동영상에 특수 이펙트를 제공하는 방법 및 장치 KR102148006B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190050862A KR102148006B1 (ko) 2019-04-30 2019-04-30 동영상에 특수 이펙트를 제공하는 방법 및 장치
US16/861,213 US11563902B2 (en) 2019-04-30 2020-04-29 Method and apparatus for providing special effects to video

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190050862A KR102148006B1 (ko) 2019-04-30 2019-04-30 동영상에 특수 이펙트를 제공하는 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102148006B1 true KR102148006B1 (ko) 2020-08-25

Family

ID=72242155

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190050862A KR102148006B1 (ko) 2019-04-30 2019-04-30 동영상에 특수 이펙트를 제공하는 방법 및 장치

Country Status (2)

Country Link
US (1) US11563902B2 (ko)
KR (1) KR102148006B1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11403787B2 (en) * 2019-10-24 2022-08-02 Baobab Studios Inc. Systems and methods for creating a 2D film from immersive content
CN113315924A (zh) * 2020-02-27 2021-08-27 北京字节跳动网络技术有限公司 图像特效处理方法及装置
CN112380379B (zh) * 2020-11-18 2023-05-02 抖音视界有限公司 歌词特效展示方法、装置、电子设备及计算机可读介质
CN114697742A (zh) * 2020-12-25 2022-07-01 华为技术有限公司 一种视频录制方法及电子设备
US11955142B1 (en) * 2021-03-15 2024-04-09 Gopro, Inc. Video editing using music characteristics
CN113115099B (zh) * 2021-05-14 2022-07-05 北京市商汤科技开发有限公司 一种视频录制方法、装置、电子设备以及存储介质
CN113709548B (zh) * 2021-08-09 2023-08-25 北京达佳互联信息技术有限公司 基于图像的多媒体数据合成方法、装置、设备及存储介质
CN113923517A (zh) * 2021-09-30 2022-01-11 北京搜狗科技发展有限公司 一种背景音乐生成方法、装置及电子设备
CN116074619A (zh) * 2021-10-22 2023-05-05 北京字跳网络技术有限公司 一种视频生成方法、装置、设备及存储介质
CN114630057B (zh) * 2022-03-11 2024-01-30 北京字跳网络技术有限公司 确定特效视频的方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013090095A (ja) * 2011-10-17 2013-05-13 Olympus Imaging Corp 撮像装置、撮像方法、およびプログラム
KR101579229B1 (ko) * 2014-07-31 2015-12-21 경북대학교 산학협력단 영상 출력 장치 및 그 제어 방법
KR20160015727A (ko) * 2014-07-31 2016-02-15 삼성전자주식회사 음악 정보 시각화 방법 및 장치
KR101894956B1 (ko) * 2017-06-21 2018-10-24 주식회사 미디어프론트 실시간 증강 합성 기술을 이용한 영상 생성 서버 및 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180300100A1 (en) * 2017-04-17 2018-10-18 Facebook, Inc. Audio effects based on social networking data
US10708633B1 (en) * 2019-03-19 2020-07-07 Rovi Guides, Inc. Systems and methods for selective audio segment compression for accelerated playback of media assets

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013090095A (ja) * 2011-10-17 2013-05-13 Olympus Imaging Corp 撮像装置、撮像方法、およびプログラム
KR101579229B1 (ko) * 2014-07-31 2015-12-21 경북대학교 산학협력단 영상 출력 장치 및 그 제어 방법
KR20160015727A (ko) * 2014-07-31 2016-02-15 삼성전자주식회사 음악 정보 시각화 방법 및 장치
KR101894956B1 (ko) * 2017-06-21 2018-10-24 주식회사 미디어프론트 실시간 증강 합성 기술을 이용한 영상 생성 서버 및 방법

Also Published As

Publication number Publication date
US11563902B2 (en) 2023-01-24
US20200351450A1 (en) 2020-11-05

Similar Documents

Publication Publication Date Title
KR102148006B1 (ko) 동영상에 특수 이펙트를 제공하는 방법 및 장치
KR101535579B1 (ko) 증강 현실 인터액션 구현 방법 및 시스템
US20190373311A1 (en) Media Content Identification on Mobile Devices
US9436875B2 (en) Method and apparatus for semantic extraction and video remix creation
US20170140260A1 (en) Content filtering with convolutional neural networks
US8984406B2 (en) Method and system for annotating video content
US11438510B2 (en) System and method for editing video contents automatically technical field
CN112822563A (zh) 生成视频的方法、装置、电子设备和计算机可读介质
CN104618446A (zh) 一种实现多媒体推送的方法和装置
CN104853091B (zh) 一种拍照的方法及移动终端
US11140439B2 (en) Media content identification on mobile devices
KR102550305B1 (ko) 머신 러닝 기반의 영상 자동 편집 방법 및 시스템
JP7338627B2 (ja) 情報処理装置および方法、並びにプログラム
US20230290382A1 (en) Method and apparatus for matching music with video, computer device, and storage medium
JP2022552333A (ja) 動画ファイルの生成方法、装置、端末及び記憶媒体
US20230368461A1 (en) Method and apparatus for processing action of virtual object, and storage medium
CN111767828A (zh) 证件图像翻拍识别方法、装置、电子设备和存储介质
CN109408672A (zh) 一种文章生成方法、装置、服务器及存储介质
CN106101576A (zh) 一种增强现实照片的拍摄方法、装置及移动终端
CN113313797A (zh) 虚拟形象驱动方法、装置、电子设备和可读存储介质
JP2022541358A (ja) ビデオ処理方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム
JP2006140559A (ja) 画像再生装置及び画像再生方法
KR102550528B1 (ko) 고화질 카메라를 이용한 분할영상 선택 시스템 및 그 방법
CN105989000B (zh) 音视频拷贝检测方法及装置
US20230260527A1 (en) Audio data processing method and apparatus, device, and medium

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant