KR20190108027A

KR20190108027A - 영상과 어울리는 음악을 생성하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체

Info

Publication number: KR20190108027A
Application number: KR1020180109076A
Authority: KR
Inventors: 권재의; 장세용
Original assignee: 주식회사 루나르트
Priority date: 2018-03-13
Filing date: 2018-09-12
Publication date: 2019-09-23

Abstract

본 발명의 일 태양에 따르면, 영상과 어울리는 음악을 생성하는 방법으로서, 획득되는 영상에 포함된 이미지에 기초하여 상기 영상과 연관되는 적어도 하나의 상황(context) 정보를 특정하는 단계, 상기 특정되는 적어도 하나의 상황 정보에 기초하여, 상기 적어도 하나의 상황 정보와 매칭되는 음원 및 상기 음원에 적용될 템포 중 적어도 하나에 관한 정보를 결정하는 단계, 및 상기 결정되는 정보 및 상기 영상의 길이를 참조하여 상기 영상에 적용될 음악을 생성하는 단계를 포함하는 방법이 제공된다.

Description

영상과 어울리는 음악을 생성하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체{METHOD, SYSTEM AND NON-TRANSITORY COMPUTER-READABLE RECORDING MEDIUM FOR GENERATING MUSIC ASSOCIATED WITH A VIDEO}

본 발명은 영상과 어울리는 음악을 생성하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체에 관한 것이다.

인터넷과 영상 기술의 발달로 누구나 쉽게 영상을 제작할 수 있게 되었고, 근래에는 유투브 크리에이터(youtube creator)라는 신조어까지 생겨나는 등 영상 제작이 대중화되고 있다.

하지만, 영상에 대한 전달력 또는 호소력을 극대화시키기 위하여 해당 영상과 어울리는 배경 음악(background music)이 필요하였는데, 수많은 음악을 일일이 들어보고 영상에 적합한 음악을 찾아내는 것은 번거로운 작업일 뿐만 아니라 상당한 시간이 요구되었다.

이에, 영상 제작자가 영상에 어울리는 음악을 쉽게 찾을 수 있도록 지원하는 여러 가지 기술들이 등장하였다.

이에 관한 종래 기술의 일 예로서, 한국등록특허공보 제916310호에 개시된 기술을 예로 들 수 있는데, 이에 따르면, 음악 및 동영상 파일에 대한 메타 정보 및 오디오 핑거 프린트 정보를 수록하고 있는 멀티미디어 데이터베이스, 검색어를 입력받아 메타 정보 기반으로 상기 멀티미디어 데이터베이스를 조회하여 검색어와 연관된 멀티미디어 검색 결과를 제공하는 메타 검색부, 상기 멀티미디어 검색 결과에 포함된 특정 음악 또는 동영상에 대한 추천 검색 요청을 접수받아 해당 음악 또는 동영상의 오디오 핑거 프린트를 획득하는 핑거 프린트 획득부, 및 멀티미디어 데이터베이스로부터 상기 추천 검색 요청이 된 음악 또는 동영상에 대한 오디오 핑거 프린트의 일부 또는 전부를 포함하고 있는 다른 형식으로 구성된 음악 또는 동영상의 오디오 핑거 프린트를 식별하고, 식별된 오디오 핑거 프린트에 대응되는 다른 형식으로 구성된 음악 또는 동영상 정보를 사용자에게 추천하는 멀티미디어 추천부를 포함하여 음악에 대하여 추천 검색 요청을 받으면 동영상을 추천하고, 동영상에 대하여 추천 검색 요청을 받으면 음악을 추천하는 것을 특징으로 하는 오디오 신호 처리 기반의 음악 및 동영상 간의 교차 추천 시스템이 제공된다.

하지만, 위와 같은 종래 기술을 비롯하여 지금까지 소개된 기술에 의하면, 영상 제작자가 영상으로부터 떠오르는 단어(또는 느낌)를 음악 데이터베이스에 입력하는 경우에 그 입력된 단어(또는 느낌)와 연관되는 음악이 제공되는 것일 뿐이었다. 즉, 영상에 어울리는 적합한 단어(또는 느낌)가 제공되지 않으면, 영상 제작자가 원하는 음악이 제공되기가 어려웠고, 특히, 영상 분량이 많은 경우에는 연관된 단어를 영상 제작자가 일일이 입력하여 음악을 찾아야 했기 때문에 그 과정에서 상당한 시간이 소요될 수밖에 없었다. 또한, 음악 데이터베이스 내에 존재하는 음악을 단순 제공할 뿐이었기 때문에, 영상 제작자에게 제공되는 음악의 다양성은 해당 데이터베이스에 존재하는 음악의 종류, 길이, 수 등에 크게 의존될 수밖에 없었다.

이에 본 발명자(들)는, 영상에 포함되는 이미지로부터 상황 정보를 특정하고, 그 특정되는 상황 정보에 기초하여 해당 영상에 어울리는 음악을 생성(예를 들어, 편곡, 작곡 등)할 수 있는 기술을 제안하는 바이다.

본 발명은, 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.

또한, 본 발명은, 영상에 포함되는 이미지에 기초하여 해당 영상에 어울리는 음악을 작곡 또는 편곡하는 것을 또 다른 목적으로 한다.

또한, 본 발명은, 사용자의 음악 선호도를 반영하여 영상에 어울리는 음악을 생성하는 것을 또 다른 목적으로 한다.

또한, 본 발명은, 영상에 어울리는 음악을 쉽고 빠르게 생성할 수 있는 것을 또 다른 목적으로 한다.

상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.

본 발명의 다른 태양에 따르면, 영상과 어울리는 음악을 생성하는 시스템으로서, 획득되는 영상에 포함된 이미지에 기초하여 상기 영상과 연관되는 적어도 하나의 상황(context) 정보를 특정하는 상황 정보 특정부, 상기 특정되는 적어도 하나의 상황 정보에 기초하여, 상기 적어도 하나의 상황 정보와 매칭되는 음원 및 상기 음원에 적용될 템포 중 적어도 하나에 관한 정보를 결정하는 작곡 파라미터 결정부, 및 상기 결정되는 정보 및 상기 영상의 길이를 참조하여 상기 영상에 적용될 음악을 생성하는 음악 생성부를 포함하는 시스템이 제공된다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 비일시성의 컴퓨터 판독 가능한 기록 매체가 더 제공된다.

본 발명에 의하면, 영상에 포함되는 이미지에 기초하여 해당 영상에 어울리는 음악을 작곡 또는 편곡할 수 있게 된다.

또한, 본 발명에 의하면, 사용자의 음악 선호도를 반영하여 영상에 어울리는 음악을 생성할 수 있게 된다.

또한, 본 발명에 의하면, 영상에 어울리는 음악을 쉽고 빠르게 생성할 수 있게 된다.

도 1은 본 발명의 일 실시예에 따라 영상과 어울리는 음악을 생성하기 위한 전체 시스템의 구성을 개략적으로 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 음악 생성 시스템의 내부 구성을 예시적으로 나타내는 도면이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 화성학적 진행 방식에 따라 빈번하게 사용되는 코드 진행 방식을 예시적으로 나타낸 도면이다.
도 5 및 도 6은 본 발명의 일 실시예에 따라 영상에 어울리는 음악이 생성되는 과정을 예시적으로 나타내는 도면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

전체 시스템의 구성

도 1은 본 발명의 일 실시예에 따라 영상과 어울리는 음악을 생성하기 위한 전체 시스템의 구성을 개략적으로 나타내는 도면이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 전체 시스템은 통신망(100), 음악 생성 시스템(200) 및 디바이스(300)를 포함할 수 있다.

먼저, 본 발명의 일 실시예에 따르면, 통신망(100)은 유선 통신이나 무선 통신과 같은 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN; Local Area Network), 도시권 통신망(MAN; Metropolitan Area Network), 광역 통신망(WAN; Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 바람직하게는, 본 명세서에서 말하는 통신망(100)은 공지의 인터넷 또는 월드와이드웹(WWW; World Wide Web)일 수 있다. 그러나, 통신망(100)은, 굳이 이에 국한될 필요 없이, 공지의 유무선 데이터 통신망, 공지의 전화망 또는 공지의 유무선 텔레비전 통신망을 그 적어도 일부에 있어서 포함할 수도 있다.

예를 들면, 통신망(100)은 무선 데이터 통신망으로서, 와이파이(WiFi) 통신, 와이파이 다이렉트(WiFi-Direct) 통신, 롱텀 에볼루션(LTE, Long Term Evolution) 통신, 블루투스 통신(더 구체적으로는, 저전력 블루투스(BLE; Bluetooth Low Energy)), 적외선 통신, 초음파 통신 등과 같은 종래의 통신 방법을 적어도 그 일부분에 있어서 구현하는 것일 수 있다.

다음으로, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 통신망(100)을 통하여 후술할 디바이스(300)와 통신을 수행할 수 있고, 영상에 포함된 이미지에 기초하여 해당 영상과 연관되는 적어도 하나의 상황(context) 정보를 특정하고, 그 특정되는 적어도 하나의 상황 정보에 기초하여, 위의 적어도 하나의 상황 정보와 매칭되는 음원(sound source) 및 그 음원에 적용될 템포(tempo) 중 적어도 하나에 관한 정보를 결정하고, 그 결정되는 정보 및 해당 영상의 길이를 참조하여 해당 영상에 적용될 음악(music)을 생성하는 기능을 수행할 수 있다. 예를 들어, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 서버 시스템일 수 있다.

음악 생성 시스템(200)의 기능에 관하여는 아래에서 더 자세하게 알아보기로 한다. 한편, 음악 생성 시스템(200)에 관하여 위와 같이 설명되었으나, 이러한 설명은 예시적인 것이고, 음악 생성 시스템(200)에 요구되는 기능이나 구성요소의 적어도 일부가 필요에 따라 후술할 디바이스(300) 내에서 실현되거나 외부 시스템(미도시됨) 내에 포함될 수도 있음은 당업자에게 자명하다.

다음으로, 본 발명의 일 실시예에 따른 디바이스(300)는 통신망(100)을 통해 음악 생성 시스템(200)에 접속한 후 통신할 수 있도록 하는 기능을 포함하는 디지털 기기로서, 스마트폰, 태블릿 PC 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 디바이스(300)로서 채택될 수 있다.

한편, 본 발명의 일 실시예에 따르면, 디바이스(300)에는 본 발명에 따른 음악 생성을 지원하기 위한 애플리케이션이 포함되어 있을 수 있다. 이와 같은 애플리케이션은 음악 생성 시스템(200) 또는 외부의 애플리케이션 배포 서버(미도시됨)로부터 다운로드된 것일 수 있다.

음악 생성 시스템의 구성

이하에서는, 본 발명의 구현을 위하여 중요한 기능을 수행하는 음악 생성 시스템(200)의 내부 구성 및 각 구성요소의 기능에 대하여 살펴보기로 한다.

도 2는 본 발명의 일 실시예에 따른 음악 생성 시스템(200)의 내부 구성을 예시적으로 나타내는 도면이다.

도 2를 참조하면, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 상황 정보 특정부(210), 작곡 파라미터 결정부(220), 음악 생성부(230), 통신부(240) 및 제어부(250)를 포함할 수 있다. 본 발명의 일 실시예에 따르면, 상황 정보 특정부(210), 작곡 파라미터 결정부(220), 통신부(240) 및 제어부(250)는 그 중 적어도 일부가 외부 시스템(미도시됨)과 통신하는 프로그램 모듈들일 수 있다. 이러한 프로그램 모듈들은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 음악 생성 시스템(200)에 포함될 수 있으며, 물리적으로는 여러 가지 공지의 기억 장치 상에 저장될 수 있다. 또한, 이러한 프로그램 모듈들은 음악 생성 시스템(200)과 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈들은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.

먼저, 본 발명의 일 실시예에 따른 상황 정보 특정부(210)는 음악이 적용될 영상에 관한 정보를 획득할 수 있고, 그 영상에 포함된 이미지에 기초하여 해당 영상과 연관되는 적어도 하나의 상황(context) 정보를 특정할 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 상황 정보 특정부(210)는 영상으로부터 복수의 이미지를 추출할 수 있고, 그 추출되는 복수의 이미지 각각에 대응되는 상황 정보를 특정할 수 있다. 본 발명의 일 실시예에 따르면, 이러한 상황 정보는, 육안으로 어떤 이미지를 보게 되는 경우에 그 이미지에 대하여 통계학적으로 높은 확률로 인지될 수 있는 느낌 또는 분위기에 관한 정보를 포함할 수 있다. 한편, 본 발명의 일 실시예에 따르면, 이러한 느낌 또는 분위기에 관한 정보는 적어도 하나 이상의 키워드 또는 수치(예를 들어, 키워드를 나타내는 강도)로 표현될 수 있다.

보다 구체적으로, 본 발명의 일 실시예에 따른 상황 정보 특정부(210)는 영상을 복수의 구간으로 구분하여(예를 들어, 기-승-전-결) 그 구간별로 이미지를 추출할 수 있고, 그 추출되는 이미지 각각에 대응되는 상황 정보를 특정할 수 있다.

한편, 본 발명의 일 실시예에 따른 상황 정보 특정부(210)는 영상에 포함되는 복수의 이미지에 대응되는 상황 정보를 특정하기 위하여, 복수의 이미지 각각에 대응되는 상황 정보에 관한 데이터베이스 또는 룩업 테이블을 참조할 수 있다. 또한, 본 발명의 일 실시예에 따른 상황 정보 특정부(210)는 위의 데이터베이스 또는 룩업 테이블에 위의 영상에 포함되는 제1 이미지와 동일한 이미지가 없는 경우에, 위의 데이터베이스 또는 룩업 테이블에 존재 또는 연관되는 이미지 중에 위의 제1 이미지와 소정 수준 이상 유사한 제2 이미지를 특정하고, 그 제2 이미지에 대응되는 상황 정보를 참조하여 위의 제1 이미지에 대응되는 상황 정보를 특정할 수 있다.

또한, 본 발명의 일 실시예에 따른 상황 정보 특정부(210)는 기계 학습(machine learning)을 통해 복수의 이미지 각각에 대응하여 특정될 수 있는 상황 정보에 관하여 학습을 수행할 수 있고, 그 학습을 기반으로 영상에 포함되는 이미지에 대응되는 상황 정보를 특정할 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 상황 정보 특정부(210)는 복수의 사용자로부터 육안으로 이미지를 보고 나서 인지되는 느낌에 관한 피드백을 획득하여 심층 학습 또는 강화 학습을 수행할 수 있고, 그 학습을 기반으로 위의 이미지에 대응되는 상황 정보를 특정할 수 있게 된다.

한편, 본 발명의 일 실시예에 따르면, 나이브 베이즈 분류(naive bayes), 서포트 벡터 머신(SVM; Support Vector Machine), 인공 신경망(ANN; Artificial Neural Network), 히든 마코브 모델(HMM; Hidden Markov Model) 등 공지의 학습 알고리즘이 위의 기계 학습에 활용될 수 있다.

다음으로, 본 발명의 일 실시예에 따른 작곡 파라미터 결정부(220)는 상황 정보 특정부(210)에 의하여 특정되는 적어도 하나의 상황 정보에 기초하여 그 적어도 하나의 상황 정보와 매칭되는 음원에 관한 정보를 결정할 수 있다. 본 발명의 일 실시예에 따르면, 이러한 음원은 멜로디, 효과음, 악기(예를 들어, 현악기, 타악기, 관악기, 전자 악기, 전기 악기 등) 등 다양한 종류의 음원을 포함할 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 작곡 파라미터 결정부(220)는 위의 상황 정보와 연관되는 복수의 음원을 특정하고, 그 특정되는 복수의 음원의 우선 순위(priority)에 관한 정보를 참조하여 그 복수의 음원 중 위의 상황 정보와 매칭되는 음원을 결정할 수 있다. 본 발명의 일 실시예에 따르면, 이러한 우선 순위는 위의 상황 정보와의 유사 정도(similarity)에 따른 우선 순위, 사용자의 음악 선호도(preference)에 따른 우선 순위 등에 기초하여 결정될 수 있다.

또한, 본 발명의 일 실시예에 따른 작곡 파라미터 결정부(220)는 위의 상황 정보 특정부(210)에 의하여 특정되는 적어도 하나의 상황 정보에 기초하여 위의 결정되는 음원에 적용될 템포에 관한 정보를 결정할 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 작곡 파라미터 결정부(220)는 상황 정보별 템포에 관한 데이터베이스 또는 룩업 테이블(예를 들어, 상황 정보가 댄스인 경우에 125~140 BPM(Beats Per Minute))을 참조하여, 적어도 하나의 상황 정보와 연관되는 템포를 결정할 수 있다.

또한 본 발명의 일 실시예에 따른 작곡 파라미터 결정부(220)는, 기계 학습(machine learning)을 통해 복수의 상황 정보 각각에 대응하여 결정될 수 있는 음원을 학습함으로써, 상황 정보 특정부(210)에 의하여 특정되는 적어도 하나의 상황 정보와 매칭되는 음원을 결정할 수 있게 된다.

예를 들어, 본 발명의 일 실시예에 따른 작곡 파라미터 결정부(220)는 푸리에 변환(FT; Fourier Transform)을 통해 학습의 대상이 되는 음원을 시간 영역에서 주파수 영역으로 변환할 수 있고, 그 변환되는 위의 주파수 영역에서 소정 수준(또는 강도) 이상으로 나타나는 주파수 대역을 주요 라인(main line)(예를 들어, 보컬이 주요 라인인 경우에 주파수 대역은 80Hz~1.2kHz)으로 특정할 수 있다. 또한, 본 발명의 일 실시예에 따른 작곡 파라미터 결정부(220)는, 복수의 사용자로부터 위의 주요 라인을 듣고 나서(또는 청각적으로) 인지되는 느낌에 관한 피드백(예를 들어, 꽉 찬 느낌, 먹먹한 느낌, 깨끗한 느낌, 존재감, 차가운 느낌, 따뜻한 느낌, 박시함, 크리스피함, 풍부함 등)을 획득할 수 있고, 그 피드백을 학습함으로써, 상황 정보 특정부(210)에 의하여 특정되는 적어도 하나의 상황 정보에 매칭되는 음원을 결정할 수 있다. 한편, 본 발명의 일 실시예에 따르면, 위의 느낌의 강도(즉, 청각적으로 인지되는 느낌의 정도)에 관한 정보가 위의 피드백으로서 더 획득될 수 있고, 이러한 정보는 음원의 우선 순위를 결정하는데 활용될 수 있다.

한편, 본 발명의 일 실시예에 따른 작곡 파라미터 결정부(220)는, 위의 학습의 대상이 되는 음원을 소정 시간 단위(예를 들어, 1분 단위) 또는 소정 상황 정보 단위(예를 들어, 음원의 분위기가 즐거움->슬픔으로 바뀌는 경우에, 상황 정보는 2개)로 구분하여 제1 내지 제N 음원으로 생성할 수 있고, 그 제1 내지 제N 음원 각각에 대하여 학습을 수행할 수 있다. 즉, 하나의 음원이 N개의 음원으로 분리 생성되도록 함으로써, 음원 데이터베이스를 풍부하게 할 수 있고, 각 상황 정보에 매칭되는 음원이 보다 정교하게 결정될 수 있게 된다.

다음으로, 본 발명의 일 실시예에 따른 음악 생성부(230)는 위의 결정되는 정보(즉, 적어도 하나의 상황 정보와 매칭되는 음원 및 그 음원에 적용될 템포) 및 영상의 길이 중 적어도 하나를 참조하여 해당 영상에 적용될 음악을 생성할 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 음악 생성부(230)는 작곡 파라미터 결정부(220)에 의해 상황 정보에 매칭되는 음원이 결정되면, 영상의 길이 및 음원의 우선 순위 중 적어도 하나를 참조하여 위의 결정된 음원이 배열될(또는 재생될) 순서를 결정할 수 있다. 그 다음에, 본 발명의 일 실시예에 따른 음악 생성부(230)는 위의 결정된 음원을 위의 결정된 우선 순서에 따라 배열하고, 위의 템포를 해당 음원에 적용함으로써, 영상에 적용될 음악을 생성할 수 있다.

또한, 본 발명의 일 실시예에 따른 음악 생성부(230)는 작곡 파라미터 결정부(220)에 의해 상황 정보에 매칭되는 복수의 음원이 결정되면, 그 복수의 음원 각각에 대응되는 코드(chords)를 획득할 수 있고, 그 코드를 참조하여, 위의 복수의 음원의 재생 순서를 기준으로 하여 서로 인접한 음원 사이의 멜로디(melody) 조화 여부를 판단할 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 음악 생성부(230)는 화성학적 코드 진행 방식을 참조하여, 위의 복수의 음원의 재생 순서를 기준으로 서로 인접한 음원 사이의 멜로디(melody) 조화 여부를 판단할 수 있다.

보다 구체적으로, 본 발명의 일 실시예에 따른 음악 생성부(230)는 제1 음원 및 제2 음원이 인접하여 배열되고(예를 들어, 제1 음원-제2 음원 순), 제1 음원의 마지막 멜로디가 C 코드이고, 제2 음원의 시작 멜로디가 F 코드인 경우에, 다른 음악에서 빈번하게 사용되는 화성학적 코드 진행 방식을 참조하여, 서로 인접한 제1 음원 및 제2 음원 사이의 멜로디가 조화되지 않는다고 판단할 수 있다. 도 3 및 도 4는 본 발명의 일 실시예에 따른 복수의 음악에서 빈번하게 사용되는 화성학적 코드 진행 방식을 예시적으로 나타낸 도면이다. 한편, 본 발명의 일 실시예에 따르면, 이러한 화성학적 진행 방식은 시대적(또는 시간적) 또는 유행 흐름에 따라 변경될 수 있다.

또한, 본 발명의 일 실시예에 따른 음악 생성부(230)는 복수의 음원의 재생 순서를 기준으로 서로 인접한 음원 사이의 멜로디가 조화되지 않는 것으로 판단되면, 그 서로 인접한 음원 사이에 소정의 코드를 삽입함으로써 위의 서로 인접한 음원 사이의 멜로디가 조화되도록 보정할 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 음악 생성부(230)는, 앞서 살펴본 예(즉, 제1 음원 및 제2 음원이 인접하여 배열되고, 제1 음원의 마지막 멜로디가 C 코드이고, 제2 음원의 시작 멜로디가 F 코드인 경우)에서 멜로디가 조화되지 않는 것으로 판단되면, 화성학적 코드 진행 방식(도 3의 310)을 참조하여 제1 음원과 제2 음원 사이에 G-Am을 삽입함으로써, C-G-Am-F로 보정할 수 있다.

한편, 본 발명의 일 실시예에 따르면, 상황 정보와 매칭되는 음원의 길이와 영상의 길이가 서로 매칭되지 않을 수 있는데, 음악 생성부(230)는 위의 매칭된 음원의 소정 구간에 대하여 보정을 수행함으로써, 위의 음원의 길이와 위의 영상의 길이를 서로 매칭시킬 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 음악 생성부(230)는 상황 정보와 매칭되는 복수의 음원의 길이의 합이 영상의 길이보다 긴 경우에, 위의 상황 정보와 매칭되는 복수의 음원의 재생 순서를 기준으로 마지막에 위치되는 음원의 소정 구간에 대하여 페이드 아웃(fade out)하는 보정을 수행할 수 있다.

다른 예를 들어, 본 발명의 일 실시예에 따른 작곡 파라미터 결정부(220)는 상황 정보와 매칭되는 복수의 음원의 길이의 합이 영상의 길이보다 긴 경우에, 위의 상황 정보와 매칭되는 복수의 음원의 재생 순서를 기준으로 마지막에 위치되는 음원의 소정 구간을 제거하고, 소정의 마무리 코드를 삽입하는 보정을 수행할 수 있다. 본 발명의 일 실시예에 따르면, 이러한 마무리 코드는 화성학적 진행 방식을 참조하여 결정될 수 있다.

또 다른 예를 들어, 본 발명의 일 실시예에 따른 작곡 파라미터 결정부(220)는 상황 정보와 매칭되는 복수의 음원의 길이의 합이 영상의 길이보다 짧은 경우에, 위의 복수의 음원의 재생 순서를 기준으로 마지막에 위치되는 음원의 소정 구간을 소정 수만큼 반복하는 보정을 수행할 수 있다.

또한, 본 발명의 일 실시예에 따른 음악 생성부(230)는 사용자의 음악 선호도(preference) 정보를 더 참조하여 음악을 생성할 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 음악 생성부(230)는 사용자의 다른 음악 생성 이력 정보를 참조하여 해당 사용자가 선호하는 음악 장르, 음악 비트, 분위기, 느낌 등에 관한 정보를 특정할 수 있고, 그 특정되는 정보를 참조하여 음원의 우선 순위(또는 음원의 배열) 또는 음원에 적용될 템포를 조정함으로써, 영상에 적용될 음악을 생성할 수 있다.

한편, 본 발명의 일 실시예에 따른 음악 생성부(230)는, 사용자의 음악 선호도 정보를 획득하기 위하여, 해당 사용자의 문자 대화, 메신저(messenger), SNS(Social Networking Service) 대화, 이메일, 음악 어플리케이션 중 적어도 하나에 관한 문맥 정보를 참조하여 해당 사용자의 음악 선호도 정보를 획득할 수 있다.

다음으로, 본 발명의 일 실시예에 따르면, 통신부(240)는 상황 정보 특정부(210), 작곡 파라미터 결정부(220) 및 음악 생성부(230)로부터의/로의 데이터 송수신이 가능하도록 하는 기능을 수행할 수 있다.

마지막으로, 본 발명의 일 실시예에 따르면, 제어부(250)는 상황 정보 특정부(210), 작곡 파라미터 결정부(220), 음악 생성부(230) 및 통신부(240) 간의 데이터의 흐름을 제어하는 기능을 수행할 수 있다. 즉, 본 발명에 따른 제어부(250)는 음악 생성 시스템(200)의 외부로부터의/로의 데이터 흐름 또는 음악 생성 시스템(200)의 각 구성요소 간의 데이터 흐름을 제어함으로써, 상황 정보 특정부(210), 작곡 파라미터 결정부(220), 음악 생성부(230) 및 통신부(240)에서 각각 고유 기능을 수행하도록 제어할 수 있다.

도 5 및 도 6은 본 발명의 일 실시예에 따라 영상에 어울리는 음악이 생성되는 과정을 예시적으로 나타내는 도면이다.

먼저, 도 5를 참조하면, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 음원 데이터베이스(미도시됨) 내에 존재하는 음원 또는 학습에 사용될 음원에 관한 정보(예를 들어, 음원의 비트에 관한 정보, 음원에 포함되는 악기에 관한 정보 등)를 획득(또는 분석)할 수 있다.

예를 들어, 본 발명의 일 실시예에 따르면, 음악 생성 시스템(200)은, 주파수 영역에서 나타나는 음원의 주파수 특성의 패턴 또는 주기를 분석함으로써, 해당 음원의 비트에 관한 정보를 획득할 수 있다.

다른 예를 들어, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은, 악기별 주파수 대역에 관한 정보를 기준으로 하여 음원의 주파수 영역에서 나타나는 주파수를 분석함으로써, 해당 음원에 포함되는 악기에 관한 정보를 획득할 수 있다. 도 6은 본 발명의 일 실시예에 따라 악기별 주파수 대역을 예시적으로 나타내는 도면이다.

그 다음에, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 복수의 이미지(510) 및 복수의 음원(520)에 대하여 복수의 사용자로부터 피드백(530)을 획득할 수 있고, 그 피드백(530)을 기반으로 복수의 이미지에 대응하여 특정될 수 있는 상황 정보 및 복수의 상황 정보에 대응하여 결정될 수 있는 음원에 관하여 학습을 수행할 수 있다.

한편, 본 발명의 일 실시예에 따르면, 음원을 분석하거나 학습을 수행하는데 많은 연산 처리 능력이 요구되어 시스템에 과부하가 걸릴 수 있는데(예를 들어, 3분 정도의 길이의 음원을 분석하기 위해서는 약 8백만번 정도의 샘플링이 요구됨.), 음악 생성 시스템(200)은 시간 영역이 아닌 주파수 영역에서 주파수 파형을 기준으로 하여 음원 분석 또는 학습을 수행함으로써, 연산 처리의 효율성을 높일 수 있다.

또한, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 음원을 복수의 구간으로 구분한 후에, 각 구간에 대응되는 상황 정보를 특정하고, 그 특정된 상황 정보의 빈도를 참조하여 해당 음원의 전체 구간에 대응되는 상황 정보를 특정함으로써, 효율적인 연산 처리를 수행할 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 음원의 길이가 총 5분인 경우에, 1분을 기준으로 복수의 구간으로 구분(즉, 제1 구간 내지 제5 구간)한 후에, 제1 구간 내지 제3 구간에 대응되는 상황 정보가 쓸쓸함이고, 제4 구간에 대응되는 상황 정보가 행복함이고, 제5 구간에 대응되는 상황 정보가 즐거움으로 특정할 수 있다. 이 경우에, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 위의 상황 정보 중 가장 빈도가 높은 쓸쓸함을 해당 음원 전체 구간에 대응되는 상황 정보로 특정할 수 있다. 즉, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 전체 구간을 모두 분석하지 않고 과반수 이상의 구간(즉, 제1 구간 내지 제3 구간)에 대응되는 상황 정보만을 분석하고, 전체 구간의 상황 정보를 쓸쓸함으로 특정할 수 있게 된다.

그 다음에, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 사용자(예를 들어, 영상 제작자)(300)로부터 획득되는 영상에 포함된 이미지에 기초하여 해당 영상과 연관되는 적어도 하나의 상황(context) 정보를 특정할 수 있다.

그 다음에, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 위의 특정되는 적어도 하나의 상황 정보에 기초하여, 위의 적어도 하나의 상황 정보와 매칭되는 음원 및 음원에 적용될 템포 중 적어도 하나에 관한 정보를 결정할 수 있다.

또한, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 해당 사용자(300)의 음악 선호도 정보를 더 참조하여 위의 적어도 하나의 상황 정보와 매칭되는 음원을 결정할 수 있다.

그 다음에, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 위의 결정되는 정보 및 위의 영상의 길이를 참조하여 위의 영상에 적용될 음악을 생성할 수 있다.

그 다음에, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 위의 생성되는 음악을 해당 사용자(300)에게 제공할 수 있다.

그 다음에, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 위의 제공되는 음악에 대한 해당 사용자(300)의 피드백을 반영하여 새로운 음악을 생성할 수 있다.

예를 들어, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 해당 사용자(300)로부터 위의 제공되는 음악 중 소정 부분의 박자, 음원 및 템포를 해당 사용자(300)가 원하는 다른 박자, 다른 음원 및 다른 템포로 변경해달라는 피드백을 획득할 수 있고, 해당 피드백을 반영하여 새로운 음악을 생성할 수 있다.

그 다음에, 본 발명의 일 실시예에 따른 음악 생성 시스템(200)은 위의 생성되는 새로운 음악을 위의 영상과 결합하여(즉, 인코딩하여) 해당 사용자(300)에게 제공할 수 있다.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

100: 통신망
200: 음악 생성 시스템
210: 상황 정보 특정부
220: 작곡 파라미터 결정부
230: 음악 생성부
240: 통신부
250: 제어부
300: 디바이스

Claims

영상과 어울리는 음악을 생성하는 방법으로서,
획득되는 영상에 포함된 이미지에 기초하여 상기 영상과 연관되는 적어도 하나의 상황(context) 정보를 특정하는 단계,
상기 특정되는 적어도 하나의 상황 정보에 기초하여, 상기 적어도 하나의 상황 정보와 매칭되는 음원 및 상기 음원에 적용될 템포 중 적어도 하나에 관한 정보를 결정하는 단계, 및
상기 결정되는 정보 및 상기 영상의 길이를 참조하여 상기 영상에 적용될 음악을 생성하는 단계를 포함하는
방법.
제1항에 있어서,
상기 결정 단계에서, 상기 사용자의 음악 선호도 정보를 더 참조하여 상기 적어도 하나의 상황 정보와 매칭되는 음원에 관한 정보를 결정하는
방법.
제1항에 있어서,
상기 생성 단계는,
상기 적어도 하나의 상황 정보와 매칭되는 복수의 음원 각각의 코드(chords)를 획득하는 단계,
상기 획득되는 코드를 참조하여, 상기 복수의 음원의 재생 순서를 기준으로 서로 인접한 음원 사이의 멜로디(melody) 조화 여부를 판단하는 단계, 및
상기 멜로디가 조화되지 않는 것으로 판단되면, 상기 서로 인접한 음원 사이에 소정의 코드를 삽입함으로써 상기 서로 인접한 음원 사이의 멜로디가 조화되도록 보정하는 단계를 포함하는
방법.
제1항에 있어서,
상기 생성 단계에서, 상기 적어도 하나의 상황 정보와 매칭되는 복수의 음원의 전체 길이의 합이 상기 영상의 길이보다 긴 경우에, 상기 복수의 음원의 재생 순서를 기준으로 마지막에 위치되는 음원의 소정 구간에 대하여 페이드 아웃(fade out) 처리하는
방법.
제1항에 있어서,
상기 생성 단계에서, 상기 적어도 하나의 상황 정보와 매칭되는 복수의 음원의 전체 길이의 합이 상기 영상의 길이보다 긴 경우에, 상기 복수의 음원의 재생 순서를 기준으로 마지막에 위치되는 음원의 소정 구간을 제거하고, 기설정된 마무리 코드를 삽입하는
방법.
제1항에 있어서,
상기 생성 단계에서, 상기 적어도 하나의 상황 정보와 매칭되는 복수의 음원의 전체 길이의 합이 상기 영상의 길이보다 짧은 경우에, 상기 복수의 음원의 재생 순서를 기준으로 마지막에 위치되는 음원의 소정 구간을 반복하는
방법.
제1항에 있어서,
상기 생성 단계에서, 사용자의 음악 선호도 정보를 더 참조하여 상기 영상에 적용될 음악을 생성하는
방법.
제1항에 있어서,
상기 생성되는 음악에 대한 사용자의 피드백을 반영하여 새로운 음악을 생성하는
방법.
제1항에 있어서,
상기 생성되는 음악을 상기 영상과 결합하여 사용자에게 제공하는 단계를 더 포함하는
방법.
제1항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 비일시성의 컴퓨터 판독 가능한 기록 매체.
영상과 어울리는 음악을 생성하는 시스템으로서,
획득되는 영상에 포함된 이미지에 기초하여 상기 영상과 연관되는 적어도 하나의 상황(context) 정보를 특정하는 상황 정보 특정부,
상기 특정되는 적어도 하나의 상황 정보에 기초하여, 상기 적어도 하나의 상황 정보와 매칭되는 음원 및 상기 음원에 적용될 템포 중 적어도 하나에 관한 정보를 결정하는 작곡 파라미터 결정부, 및
상기 결정되는 정보 및 상기 영상의 길이를 참조하여 상기 영상에 적용될 음악을 생성하는 음악 생성부를 포함하는
시스템.