KR20180080642A - 음원과 동기화되는 동영상을 편집하는 방법 - Google Patents

음원과 동기화되는 동영상을 편집하는 방법 Download PDF

Info

Publication number
KR20180080642A
KR20180080642A KR1020170001583A KR20170001583A KR20180080642A KR 20180080642 A KR20180080642 A KR 20180080642A KR 1020170001583 A KR1020170001583 A KR 1020170001583A KR 20170001583 A KR20170001583 A KR 20170001583A KR 20180080642 A KR20180080642 A KR 20180080642A
Authority
KR
South Korea
Prior art keywords
sound source
computer device
moving picture
time
moving
Prior art date
Application number
KR1020170001583A
Other languages
English (en)
Inventor
김광균
김산하
주하영
최혁진
Original Assignee
주식회사 바로
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 바로 filed Critical 주식회사 바로
Priority to KR1020170001583A priority Critical patent/KR20180080642A/ko
Publication of KR20180080642A publication Critical patent/KR20180080642A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device

Abstract

음원과 동기화 되는 동영상을 편집하는 방법은 컴퓨터 장치가 서로 다른 시점으로 객체를 촬영한 복수의 동영상 및 음원을 획득하는 단계, 상기 컴퓨터 장치가 상기 음원의 마디(bar)의 개수를 기준으로 상기 복수의 동영상을 각각 분할하여 복수의 동영상 단편을 생성하는 단계 및 상기 컴퓨터 장치가 상기 마디의 전체 개수 및 상기 음원의 빠르기를 사전에 학습한 신경망 네트워크에 적용하여 상기 음원의 전체 재생 구간에서 시간의 흐름에 따라 동영상을 전환하는 시점에 대한 정보를 생성하는 단계를 포함한다.

Description

음원과 동기화되는 동영상을 편집하는 방법{VIDEO EDITING METHOD WITH MUSIC SOURCE}
이하 설명하는 기술은 음원과 동기화 되는 동영상을 편집하는 방법에 관한 것이다.
음악 공연 영상이나 뮤직비디오를 제작하기 위해서 다수의 카메라가 다각도로 밴드 전체, 개별 악기(기타, 건반, 드럼 등), 가수 및 관객을 다 같이 촬영한다. 편집자는 촬영한 모든 동영상을 살펴보면서 음원에서 가장 어울리는 화면을 비춰주며 음악이 흘러갈 때마다 화면 전환을 시키도록 동영상을 편집한다.
대부분의 뮤직비디오는 음원을 구성하는 마디를 단위로 동영상이 전환된다. 예를 들어, 빠른 BPM(beats per minute)을 가지고 있는 밴드의 뮤직비디오를 살펴보면, 음악이 시작되는 첫 마디동안 밴드 전체를 촬영하는 동영상이 재생되고, 두 번째 마디부터 보컬, 기타, 드럼, 건반의 연주 동영상이 한 마디씩 보여주면서 동영상이 전환되기도 한다. 또 BPM의 크기에 따라서 장면이 전환되는 속도가 다르다. 빠른 BPM을 가지고 있는 곡의 경우, 장면이 전환되는 속도는 빨라서 보통 한, 두 마디에 장면이 바뀌고, 느린 BPM을 가지고 있는 경우 네 마디가 지나야 장면이 바꾸기도 한다. 곡 구성에 따라서도 장면 전환의 속도는 다르다. 처음의 잔잔한 경우는 정면 전환이 느리고, 후렴구에서는 전환 속도가 빠르다.
한국공개특허 제10-2013-0089976호
전술한 공연 영상이나 뮤직 비디오는 결국 편집자가 복수의 동영상 수작업으로 편집해야 하는 불편함이 있었다. 이하 설명하는 기술은 공연 영상이나 뮤직비디오를 제작하기 위한 복수의 동영상을 자동으로 편집하는 방법을 제공하고자 한다.
음원과 동기화 되는 동영상을 편집하는 방법은 컴퓨터 장치가 서로 다른 시점으로 객체를 촬영한 복수의 동영상 및 음원을 획득하는 단계, 상기 컴퓨터 장치가 상기 음원의 마디(bar)의 개수를 기준으로 상기 복수의 동영상을 각각 분할하여 복수의 동영상 단편을 생성하는 단계 및 상기 컴퓨터 장치가 상기 마디의 전체 개수 및 상기 음원의 빠르기를 사전에 학습한 신경망 네트워크에 적용하여 상기 음원의 전체 재생 구간에서 시간의 흐름에 따라 동영상을 전환하는 시점에 대한 정보를 생성하는 단계를 포함한다.
음원과 동기화 되는 동영상을 편집하는 방법은 컴퓨터 장치가 서로 다른 시점으로 객체를 촬영한 복수의 동영상 및 음원을 획득하는 단계, 상기 컴퓨터 장치가 상기 음원의 마디(bar)의 개수를 기준으로 상기 복수의 동영상을 각각 분할하여 복수의 동영상 단편을 생성하는 단계, 상기 컴퓨터 장치가 상기 마디의 전체 개수 및 상기 음원의 빠르기를 사전에 학습한 신경망 네트워크에 적용하여 상기 음원의 전체 재생 구간에서 시간의 흐름에 따라 상기 복수의 동영상 단편 중 어느 하나를 선택한 순서 정보를 생성하는 단계 및 상기 컴퓨터 장치가 상기 순서 정보에 따라 상기 동영상 단편을 연결하여 상기 복수의 동영상을 하나의 동영상으로 편집하는 단계를 포함한다.
이하 설명하는 기술은 공연 영상이나 뮤직비디오를 손쉽게 편집하게 한다.
도 1은 음원과 동기화되는 동영상을 편집하는 장치에 대한 예이다.
도 2는 음원과 동기화 되는 동영상을 편집하는 방법에 대한 순서도의 예이다.
도 3은 음원과 동기화 되는 동영상을 편집하는 과정에 대한 예이다.
도 4는 음원과 동기화 되는 동영상을 편집하는 방법에 대한 순서도의 다른 예이다.
도 5는 음원과 동기화 되는 동영상을 편집하는 과정에 대한 다른 예이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하 설명하는 기술은 공연 영상 또는 뮤직 비디오를 편집하는 기법 내지 장치에 관한 것이다. 설명의 편의를 위해 이하 컴퓨터 장치가 편집을 수행한다고 설명한다.
도 1은 음원과 동기화되는 동영상을 편집하는 장치에 대한 예이다. 도 1은 음악 공연 영상을 편집하는 예이다. 복수의 카메라(10)는 음악 공연 현장에서 서로 다른 시점으로 영상을 획득한다. 예컨대, 도 1과 같이 복수의 카메라(10)는 서로 다른 객체(연주자 또는 가수)를 촬영할 수 있다. 이와 같이 음악 공연과 같은 무대에서는 일반적으로 복수의 카메라(10)를 사용하여 동일한 시점에 다양한 객체를 촬영한 영상을 획득한다. 복수의 카메라(10)가 획득한 영상을 이하 소스 영상이라고 한다.
복수의 카메라(10)가 획득한 영상은 영상 DB(30)에 저장될 수 있다. 영상 DB(30)는 컴퓨터 장치(50)와 직적 연결된 장치일 수도 있고, 네트워크에 존재하는 별도의 장치일 수도 있다.
컴퓨터 장치(50)는 영상 DB(30)에 저장된 복수의 동영상을 음원의 진행에 따라 편집한다. 이때 컴퓨터 장치(50)는 어느 하나의 동영상이 다른 동영상으로 전환되는 시점 등을 결정해야 한다. 이를 위해 컴퓨터 장치(50)는 딥 러닝(deep learning)과 같은 기법을 활용할 수 있다. 널리 알려진 바와 같이 딥 러닝은 사람의 사고방식을 컴퓨터에게 학습시키는 기계학습의 한 분야이다. 딥 러닝은 신경망이라는 구조를 사용한다. 신경망은 DNN (Deep Neural Network), CDD (Convolutional Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network) 등이 있다. 딥 러닝을 위한 신경망 구축 등에 대한 상세한 설명은 생략한다.
학습 DB(55)는 신경망 학습을 위한 학습 데이터를 저장한다. 학습 데이터는 상용 뮤직 비디오, 편집된 공연 실황 동영상 등이 될 수 있다.
한편 뮤직 비디오 같은 경우 소스 영상이 음원이 재생되는 장면뿐만 아니라, 다른 다양한 장면이 사용될 수 있다. 뮤직 비디오는 영화같은 스토리를 갖기도 하기 때문에 배우의 연기, CG 장면 등이 포함되기도 한다. 따라서 뮤직 비디오를 편집하는 경우 보다 다양한 소스 영상이 사용될 수 있다.
도 2는 음원과 동기화 되는 동영상을 편집하는 방법(100)에 대한 순서도의 예이다. 컴퓨터 장치(50)는 서로 다른 시점으로 객체를 촬영한 복수의 동영상(소스 영상) 및 음원을 획득한다(110).
컴퓨터 장치(50)는 음원의 마디의 개수를 기준으로 복수의 소스 영상을 각각 분할한다(120). 컴퓨터 장치(50)는 각 소스 영상이 음원의 마디의 개수와 같은 단편(fragment)을 갖도록 소스 영상을 분할할 수 있다. 경우에 따라서 컴퓨터 장치(50)는 소스 영상이 음원의 마디의 개수/n 개의 단편을 갖도록 소스 영상을 분할할 수도 있다. n은 2이상의 자연수이다.
컴퓨터 장치(50)는 음원 전체의 마디의 개수를 별도로 입력받을 수 있다. 나아가 컴퓨터 장치(50)는 BPM과 같은 정보를 기준으로 음원의 전체 마디 개수를 확인할 수 있다. BPM은 음원의 빠르기를 나타내는 지표로 음원의 속도가 1분에 4분 음표가 몇 개로 이루어져있는지 알 수 있는 정보이다. 따라서 컴퓨터 장치(50)는 해당 음원의 BPM과 음원이 한 마디에 몇 박자로 구성되는지에 대한 정보를 기준으로 음원의 구성하는 전체 마디의 개수를 알 수 있다. 예컨대, 음원의 한 마디에 4분 음표가 4개 들어가고, BPM이 40이라면 1분에 10마디가 진행되는 것이다. 따라서 컴퓨터 장치(50)는 음원의 전체 길이(재생시간)를 기준으로 전체 마디 개수를 파악할 수 있다.
컴퓨터 장치(50)는 BPM 및 한 마디의 박자 수를 별도도 입력받을 수 있다. 나아가 컴퓨터 장치(50)는 음원을 분석하여 BPM 및 한 마디의 박자 수를 추정할 수도 있다.
컴퓨터 장치(50)는 신경망 네트워크에 일정한 정보를 입력하여, 음원 전체 구간에서 시간의 흐름에 따라 동영상을 전환하는 시점에 대한 정보를 생성할 수 있다(130). 컴퓨터 장치(50)는 BPM 및 음원 전체의 마디 개수를 입력하여 상기 시점에 대한 정보를 추출할 수 있다. 이 경우 신경망 네트워크는 뮤직 비디오 등으로 사전에 학습되어 BPM 및 전체 마디 개수를 기준으로 동영상이 전환되는 시점을 산출할 수 있어야 한다. 동영상을 전환하는 시점은 마디를 기준으로 정의할 수 있다. 예컨대, 2마디 - 1마디 - 3마디 - 2마디 ...와 같이 음원의 시작을 기준으로 진행되는 마디에 따라 동영상이 전환되어야 하는 시점을 나타낼 수 있다.
컴퓨터 장치(50)는 동영상이 전환되어야 하는 시점에 사용자로부터 동영상 단편을 선택하는 입력을 받을 수 있다. 컴퓨터 장치(50)는 입력받은 동영상 단편을 연결하여 결국 복수의 동영상을 하나의 동영상으로 편집할 수 있다(140). 도 2는 동영상을 전환하는 시점에 대한 정보까지만 자동으로 산출하고, 해당 시점에 사용될 동영상은 편집자가 결정하는 방식이다.
도 3은 음원과 동기화 되는 동영상을 편집하는 과정에 대한 예이다. 도 3은 도 2에서 설명한 동영상 편집 방법에 대한 예이다.
(1) 동영상 분할
컴퓨터 장치(50)는 음원 및 복수의 소스 영상(제1 영상, 제2 영상 및 제3 영상)을 획득한다. 컴퓨터 장치(50)는 음원의 전체 마디 개수를 파악하고, 음원의 마디 개수에 따라 소스 영상을 분할한다. 도 3은 소스 영상 각각에 대해 음원의 마디 개수와 동일한 동영상 단편을 생성한 예이다. 도 3은 예시적으로 8개의 단편을 생성한 예를 도시하였다. 컴퓨터 장치(50)는 생성한 단편(8 × 3 = 24개)을 영상 DB(30)에 저장할 수 있다. 물론 컴퓨터 장치(50)는 다른 저장 매체에 단편들을 저장할 수도 있다.
(2) 전환시점 결정
컴퓨터 장치(50)는 BPM 및 전체 마디 개수를 신경망 네트워크에 입력하여 영상 전환 시점에 대한 정보를 추출할 수 있다. 신경망 네트워크는 뮤직 비디오 등을 이용하여 전환 시점을 추출할 수 있도록 사전에 학습한 것이다. 컴퓨터 장치(50)는 "2마디 - 1마디 - 2마디 - 1마디 - 1마디 - 1마디"와 같은 전환 시점 정보를 생성했다고 가정한다.
(3) 동영상 편집
컴퓨터 장치(50)는 영상 전환 시점에 사용할 동영상 단편을 입력받고, 입력받은 영상을 해당 시점에 배치하는 방식으로 동영상을 편집한다. 편집된 동영상은 "2마디(a) - 1마디(b) - 2마디(c) - 1마디(b) - 1마디(a) - 1마디(b)"이다. a는 제1 영상, b는 제2 영상, c는 제3 영상을 의미한다. 나아가 사용자로부터 동영상 단편을 입력받지 않아도, 컴퓨터 장치(50)는 임의로 해당 마디 순서에 맞는 동영상 중 하나를 선택하여 동영상을 편집할 수도 있다.
도 4는 음원과 동기화 되는 동영상을 편집하는 방법(200)에 대한 순서도의 다른 예이다. 도 4는 도 2와 달리 동영상 편집 과정까지 모두 자동으로 수행되는 예이다. 컴퓨터 장치(50)는 서로 다른 시점으로 객체를 촬영한 복수의 동영상(소스 영상) 및 음원을 획득한다(210).
컴퓨터 장치(50)는 음원의 마디의 개수를 기준으로 복수의 소스 영상을 각각 분할한다(220). 컴퓨터 장치(50)는 각 소스 영상이 음원의 마디의 개수와 같은 단편(fragment)을 갖도록 소스 영상을 분할할 수 있다. 경우에 따라서 컴퓨터 장치(50)는 소스 영상이 음원의 마디의 개수/n 개의 단편을 갖도록 소스 영상을 분할할 수도 있다. n은 2이상의 자연수이다.
컴퓨터 장치(50)는 음원 전체의 마디의 개수를 별도로 입력받을 수 있다. 나아가 컴퓨터 장치(50)는 BPM과 같은 정보를 기준으로 음원의 전체 마디 개수를 확인할 수 있다. 컴퓨터 장치(50)는 BPM 및 한 마디의 박자 수를 별도도 입력받을 수 있다. 나아가 컴퓨터 장치(50)는 음원을 분석하여 BPM 및 한 마디의 박자 수를 추정할 수도 있다.
컴퓨터 장치(50)는 신경망 네트워크에 일정한 정보를 입력하여, 음원 전체 구간에서 시간의 흐름에 따라 편집에 사용될 동영상의 순서 정보를 생성할 수 있다(130). 컴퓨터 장치(50)는 BPM 및 음원 전체의 마디 개수를 입력하여 상기 순서 정보를 추출할 수 있다. 이 경우 신경망 네트워크는 뮤직 비디오 등으로 사전에 학습되어 BPM 및 전체 마디 개수를 기준으로 동영상이 전환되는 시점 및 사용된 종류의 동영상을 산출할 수 있어야 한다. 동영상을 전환하는 시점은 마디를 기준으로 정의할 수 있다. 예컨대, 2마디 - 1마디 - 3마디 - 2마디 ...와 같이 음원의 시작을 기준으로 진행되는 마디에 따라 동영상이 전환되어야 하는 시점을 나타낼 수 있다.
나아가 컴퓨터 장치(50)가 신경망 네트워크로 특정한 종류의 동영상 단편을 선택하기 위하여 동영상 종류에 대한 정보를 추가로 신경망 네트워크에 입력할 수 있다. 이 경우 신경망 네트워크는 동영상 종류에 대한 정보를 추가로 학습하여 일정한 시점에 특정한 종류의 동영상 단편을 결정해야 한다. 동영상 종류는 동영상에 포함되는 개체에 대한 정보에 따라 다를 수 있다. 예컨대, 악기의 종류, 사람의 포함 여부, 관객의 포함 여부 등에 따라 동영상의 종류를 구분할 수 있다.
컴퓨터 장치(50)는 신경만 네트워크가 산출한 시점(마디)에 특정한 종류의 동영상 단편을 연결하여 결국 복수의 동영상을 하나의 동영상으로 편집할 수 있다(240).
도 5는 음원과 동기화 되는 동영상을 편집하는 과정에 대한 다른 예이다. 도 5는 도 4에서 설명한 동영상 편집 방법에 대한 예이다.
(1) 동영상 분할
컴퓨터 장치(50)는 음원 및 복수의 소스 영상(제1 영상, 제2 영상 및 제3 영상)을 획득한다. 컴퓨터 장치(50)는 음원의 전체 마디 개수를 파악하고, 음원의 마디 개수에 따라 소스 영상을 분할한다. 도 3은 소스 영상 각각에 대해 음원의 마디 개수와 동일한 동영상 단편을 생성한 예이다. 도 3은 예시적으로 8개의 단편을 생성한 예를 도시하였다. 컴퓨터 장치(50)는 생성한 단편(8 × 3 = 24개)을 영상 DB(30)에 저장할 수 있다. 물론 컴퓨터 장치(50)는 다른 저장 매체에 단편들을 저장할 수도 있다.
(2) 전환시점 및 동영상 단편 결정
컴퓨터 장치(50)는 BPM, 전체 마디 개수 및 영상의 종류를 신경망 네트워크에 입력하여 영상 전환 시점에 대한 정보를 추출할 수 있다. 신경망 네트워크는 뮤직 비디오 등을 이용하여 전환 시점 및 영상의 종류를 추출할 수 있도록 사전에 학습한 것이다. 컴퓨터 장치(50)는 "1마디(b) - 1마디(a) - 1마디(b) - 1마디(c) - 1마디(a) - 1마디(b) - 1마디(a) - 1마디(c)"와 같은 전환 시점 정보를 생성했다고 가정한다. a는 제1 영상, b는 제2 영상, c는 제3 영상을 나타내는 식별 정보를 의미한다.
(3) 동영상 편집
컴퓨터 장치(50)는 특정 영상 전환 시점에 사용할 동영상 단편을 불러오고, 수신한은 영상을 해당 시점에 배치하는 방식으로 동영상을 편집한다. 편집된 동영상은 "1마디(b) - 1마디(a) - 1마디(b) - 1마디(c) - 1마디(a) - 1마디(b) - 1마디(a) - 1마디(c)"이다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.
10 : 카메라
30 : 영상 DB
50 : 컴퓨터 장치
55 : 학습 DB

Claims (11)

  1. 컴퓨터 장치가 서로 다른 시점으로 객체를 촬영한 복수의 동영상 및 음원을 획득하는 단계;
    상기 컴퓨터 장치가 상기 음원의 마디(bar)의 개수를 기준으로 상기 복수의 동영상을 각각 분할하여 복수의 동영상 단편을 생성하는 단계; 및
    상기 컴퓨터 장치가 상기 마디의 전체 개수 및 상기 음원의 빠르기를 사전에 학습한 신경망 네트워크에 적용하여 상기 음원의 전체 재생 구간에서 시간의 흐름에 따라 동영상을 전환하는 시점에 대한 정보를 생성하는 단계를 포함하는 음원과 동기화 되는 동영상을 편집하는 방법.
  2. 제1항에 있어서,
    상기 컴퓨터 장치가 상기 전체 개수 또는 상기 전체 개수를 기준값으로 나눈값으로 상기 복수의 동영상을 각각 분할하여 상기 복수의 동영상 단편을 생성하는 음원과 동기화 되는 동영상을 편집하는 방법.
  3. 제1항에 있어서,
    상기 컴퓨터 장치는 상기 음원의 BPM(beats per minute)과 상기 음원의 한 마디에 포함된 박자를 기준으로 상기 음원의 전체 재생 시간을 고려하여 상기 마디의 전체 개수를 결정하는 음원과 동기화 되는 동영상을 편집하는 방법.
  4. 제1항에 있어서,
    상기 복수의 동영상은 상기 음원이 재생되는 시간 동안 서로 다른 시점으로 상기 음원이 재생되는 현장을 촬영한 동영상인 음원과 동기화 되는 동영상을 편집하는 방법.
  5. 제1항에 있어서,
    상기 컴퓨터 장치가 상기 정보에 따라 상기 동영상 단편을 전환하는 시점에 상기 복수의 동영상 단편 중 어느 하나를 선택하는 명령을 입력받아 상기 복수의 동영상을 하나의 동영상으로 편집하는 단계를 더 포함하는 음원과 동기화 되는 동영상을 편집하는 방법.
  6. 제1항에 있어서,
    상기 신경망 네트워크는 음원의 마디 개수 및 음원의 빠르기를 기준으로 복수의 뮤직 비디오 및 복수의 편집된 음악 공연 영상에서 중 적어도 하나를 학습하여 동영상의 시점이 전환되는 패턴을 학습한 모델인 음원과 동기화 되는 동영상을 편집하는 방법.
  7. 컴퓨터 장치가 서로 다른 시점으로 객체를 촬영한 복수의 동영상 및 음원을 획득하는 단계;
    상기 컴퓨터 장치가 상기 음원의 마디(bar)의 개수를 기준으로 상기 복수의 동영상을 각각 분할하여 복수의 동영상 단편을 생성하는 단계;
    상기 컴퓨터 장치가 상기 마디의 전체 개수 및 상기 음원의 빠르기를 사전에 학습한 신경망 네트워크에 적용하여 상기 음원의 전체 재생 구간에서 시간의 흐름에 따라 상기 복수의 동영상 단편 중 어느 하나를 선택한 순서 정보를 생성하는 단계; 및
    상기 컴퓨터 장치가 상기 순서 정보에 따라 상기 동영상 단편을 연결하여 상기 복수의 동영상을 하나의 동영상으로 편집하는 단계를 포함하는 음원과 동기화 되는 동영상을 편집하는 방법.
  8. 제7항에 있어서,
    상기 컴퓨터 장치가 상기 전체 개수 또는 상기 전체 개수를 기준값으로 나눈값으로 상기 복수의 동영상을 각각 분할하여 상기 복수의 동영상 단편을 생성하는 음원과 동기화 되는 동영상을 편집하는 방법.
  9. 제7항에 있어서,
    상기 신경망 네트워크는 음원의 마디 개수 및 음원의 빠르기를 기준으로 복수의 뮤직 비디오 및 복수의 편집된 음악 공연 영상에서 중 적어도 하나를 학습하여 동영상 편집에 대한 패턴을 학습한 음원과 동기화 되는 동영상을 편집하는 방법.
  10. 제8항에 있어서,
    상기 패턴은 동영상에서 영상이 전환되는 시점 및 상기 시점에 사용되는 영상의 종류를 포함하는 음원과 동기화 되는 동영상을 편집하는 방법.
  11. 제7항에 있어서,
    상기 복수의 동영상은 상기 음원이 재생되는 시간 동안 서로 다른 시점으로 상기 음원이 재생되는 현장을 촬영한 동영상인 음원과 동기화 되는 동영상을 편집하는 방법.
KR1020170001583A 2017-01-04 2017-01-04 음원과 동기화되는 동영상을 편집하는 방법 KR20180080642A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170001583A KR20180080642A (ko) 2017-01-04 2017-01-04 음원과 동기화되는 동영상을 편집하는 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170001583A KR20180080642A (ko) 2017-01-04 2017-01-04 음원과 동기화되는 동영상을 편집하는 방법

Publications (1)

Publication Number Publication Date
KR20180080642A true KR20180080642A (ko) 2018-07-12

Family

ID=62919832

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170001583A KR20180080642A (ko) 2017-01-04 2017-01-04 음원과 동기화되는 동영상을 편집하는 방법

Country Status (1)

Country Link
KR (1) KR20180080642A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188236A (zh) * 2019-04-22 2019-08-30 北京达佳互联信息技术有限公司 一种音乐的推荐方法、装置及系统
KR102308369B1 (ko) 2020-12-18 2021-10-06 주식회사 스파크엑스 (SPARKX Co.,Ltd.) 인공지능 음원 분석을 통한 동영상 자동 편집 시스템
KR102308372B1 (ko) 2020-12-18 2021-10-06 주식회사 스파크엑스 (SPARKX Co.,Ltd.) Vfx 서비스 제공 및 협업 기능을 갖는 하이브리드 클라우드 시스템
KR102417373B1 (ko) 2022-01-20 2022-07-06 홍성래 사운드 편집 시스템

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10161654A (ja) * 1996-11-27 1998-06-19 Sanyo Electric Co Ltd 音楽ジャンル判定装置
KR20070121213A (ko) * 2006-06-21 2007-12-27 삼성전자주식회사 음악 특성을 반영한 이미지 변환 장치 및 방법
KR20110094010A (ko) * 2008-12-10 2011-08-19 뮤비 테크놀로지스 피티이 엘티디. 여러 개 비디오 클립을 인터커팅하여 새로운 비디오 제작 생성기

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10161654A (ja) * 1996-11-27 1998-06-19 Sanyo Electric Co Ltd 音楽ジャンル判定装置
KR20070121213A (ko) * 2006-06-21 2007-12-27 삼성전자주식회사 음악 특성을 반영한 이미지 변환 장치 및 방법
KR20110094010A (ko) * 2008-12-10 2011-08-19 뮤비 테크놀로지스 피티이 엘티디. 여러 개 비디오 클립을 인터커팅하여 새로운 비디오 제작 생성기

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188236A (zh) * 2019-04-22 2019-08-30 北京达佳互联信息技术有限公司 一种音乐的推荐方法、装置及系统
KR102308369B1 (ko) 2020-12-18 2021-10-06 주식회사 스파크엑스 (SPARKX Co.,Ltd.) 인공지능 음원 분석을 통한 동영상 자동 편집 시스템
KR102308372B1 (ko) 2020-12-18 2021-10-06 주식회사 스파크엑스 (SPARKX Co.,Ltd.) Vfx 서비스 제공 및 협업 기능을 갖는 하이브리드 클라우드 시스템
KR102417373B1 (ko) 2022-01-20 2022-07-06 홍성래 사운드 편집 시스템

Similar Documents

Publication Publication Date Title
KR101516850B1 (ko) 여러 개 비디오 클립을 인터커팅하여 새로운 비디오 제작 생성기
US10681408B2 (en) Systems and methods for creating composite videos
US20160336039A1 (en) Systems and methods for creating music videos synchronized with an audio track
KR20180080642A (ko) 음원과 동기화되는 동영상을 편집하는 방법
JP2016119600A (ja) 編集装置及び編集方法
KR102161080B1 (ko) 동영상의 배경음악 생성 장치, 방법 및 프로그램
JP2013171070A (ja) 楽曲情報処理装置及び楽曲情報処理方法
WO2023040520A1 (zh) 视频配乐方法、装置、计算机设备和存储介质
JP2008123672A (ja) 編集システム
KR102054116B1 (ko) 맞춤형 무대 영상 제공 시스템
US20100306701A1 (en) Creation, Previsualization, Communication, and Documentation of Choreographed Movement
JP6110731B2 (ja) ジェスチャーによるコマンド入力識別システム
JP6058991B2 (ja) 歌唱音声に対応する歌唱動画選択システム
JP6177050B2 (ja) 通信カラオケシステム
Collins et al. klipp av: Live algorithmic splicing and audiovisual event capture
Bloomberg Making Musical Magic Live
Cremer et al. Machine-assisted editing of user-generated content
WO2023210388A1 (ja) 情報処理装置および方法、並びにプログラム
KR102625045B1 (ko) 영상 편집 장치, 영상 편집 방법 및 컴퓨터 프로그램
JP2023174364A (ja) カラオケ装置
JP2020043454A (ja) 動画コンテンツ生成方法および生成プログラム
JP6121139B2 (ja) カラオケ歌唱映像の歌唱音声選択システム
JP2004354583A (ja) 音楽生成装置および音楽生成方法
WO2022209648A1 (ja) 情報処理装置、情報処理方法および非一時的なコンピュータ可読記憶媒体
US11521390B1 (en) Systems and methods for autodirecting a real-time transmission

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right