KR20150072597A

KR20150072597A - 멀티미디어 장치 및 이의 음악 작곡 방법, 그리고 노래 보정 방법

Info

Publication number: KR20150072597A
Application number: KR1020130159906A
Authority: KR
Inventors: 전상배; 김선민; 손상모
Original assignee: 삼성전자주식회사
Priority date: 2013-12-20
Filing date: 2013-12-20
Publication date: 2015-06-30
Also published as: EP3066662A1; EP3066662A4; WO2015093744A1; US9607594B2; US20150179157A1

Abstract

멀티미디어 장치 및 이의 음악 작곡 방법, 그리고 노래 보정 방법이 제공된다. 본 음악 작곡 방법은 사용자 입력에 따라 미디 데이터의 유형을 설정하고, 사용자 인터렉션을 감지하며, 감지된 사용자 인터렉션을 분석하여 박자 및 음 높이를 결정하고 설정된 미디 데이터의 유형 및 결정된 박자 및 음 높이를 이용하여 미디 데이터를 생성한다.

Description

멀티미디어 장치 및 이의 음악 작곡 방법, 그리고 노래 보정 방법{Multimedia apparatus, Method for composition of music, and Method for correction of song thereof}

본 발명은 멀티미디어 장치 및 이의 음악 작곡 방법, 그리고 노래 보정 방법에 관한 것으로, 더욱 상세하게는 사용자 인터렉션에 따라 음악을 작곡하고, 사용자가 부른 노래를 보정하는 멀티미디어 장치 및 이의 음악 작곡 방법, 그리고 노래 보정 방법에 관한 것이다.

근래에는 스마트 폰을 중심으로 한 멀티미디어 장치의 음악 컨텐츠 제작 시장이 급성장하고 있다.

한편, 종래의 음악 컨텐츠 제작 방법은 미디 인터페이스 등과 같이, 전문가들만이 이용할 수 있는 어려운 인터페이스였다. 즉, 사용자는 미디 인터페이스 를 이용하여 음악을 제작하기 위해서는 음악 지식 및 미디 인터페이스 지식이 모두 필요해야만 했다.

또한, 기존에는 사용자의 음성만을 이용하여 노래를 작곡하는 한계가 존재하였다. 즉, 사용자의 음성이 아닌 다른 인터렉션을 통해 노래를 작곡하는 것에는 한계가 존재하였다.

따라서, 다양한 사용자 인터렉션을 이용하여 더욱 쉽고 용이하게 음악을 작곡할 수 있는 방안의 모색이 요청된다.

본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 다양한 사용자 인터렉션 및 동영상 데이터 중 적어도 하나를 이용하여 음악을 작곡할 수 있는 멀티미디어 장치 및 이의 음악 작곡 방법을 제공함에 있다.

본 발명의 또 다른 목적은 사용자가 부른 노래를 검색하고, 검색된 노래에 맞게 사용자가 부른 노래를 보정할 수 있는 멀티미디어 장치의 노래 보정 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 멀티미디어 장치의 악 작곡 방법은 사용자 입력에 따라 미디 데이터의 유형을 설정하는 단계; 사용자 인터렉션을 감지하는 단계; 상기 감지된 사용자 인터렉션을 분석하여 박자 및 음 높이를 결정하는 단계; 및 상기 설정된 미디 데이터의 유형 및 상기 결정된 박자 및 음 높이를 이용하여 미디(MIDI) 데이터를 생성하는 단계;를 포함한다.

그리고, 상기 설정하는 단계는, 상기 미디 데이터의 장르, 스타일, BPM, 복잡도(complexity) 중 적어도 하나를 설정할 수 있다.

또한, 영상을 입력받는 단계; 상기 입력된 영상의 색 정보, 움직임 정보, 공간 정보 중 적어도 하나를 이용하여 감정 정보를 획득하는 단계;를 더 포함하며, 상기 생성하는 단계는, 상기 감정 정보를 이용하여 미디 데이터를 생성할 수 있다.

그리고, 날씨, 온도, 습도 및 조명 중 적어도 하나를 감지하는 단계; 및 상기 감지된 날씨, 온도, 습도 및 조명 중 적어도 하나를 이용하여 감정 정보를 생성하는 단계;를 더 포함하며, 상기 생성하는 단계는, 상기 감정 정보를 이용하여 미디 데이터를 생성할 수 있다.

또한, 상기 결정된 박자 및 음 높이를 이용하여 악보를 생성하는 단계; 및 상기 생성된 악보를 디스플레이하는 단계;를 더 포함할 수 있다.

그리고, 상기 디스플레이된 악보를 이용하여 상기 미디 데이터를 수정하는 단계;를 포함할 수 있다.

또한, 상기 생성된 미디 데이터를 이용하여 상기 생성된 미디 데이터의 앞 마디 미디 데이터 및 상기 미디 데이터의 뒷 마디 미디 데이터를 생성하는 단계; 및 상기 생성된 미디 데이터, 상기 생성된 앞 마디 미디 데이터, 상기 생성된 뒷 마디 미디 데이터를 이용하여 음악 파일을 생성하는 단계;를 더 포함할 수 있다.

그리고, 상기 사용자 인터렉션은 사용자 허밍(humming), 사용자 터치, 사용자 모션 중 하나일 수 있다.

또한, 상기 사용자 인터렉션이 사용자 허밍인 경우, 상기 미디 데이터에 상기 사용자 허밍을 믹싱하여 출력하는 단계;를 포함할 수 있다.

한편, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 멀티미디어 장치는 미디 데이터의 유형을 설정하기 위한 사용자 명령을 입력받는 입력부; 사용자 인터렉션을 감지하는 감지부; 및 상기 감지된 사용자 인터렉션을 분석하여 박자 및 음 높이를 결정하고, 상기 설정된 미디 데이터의 유형 및 상기 결정된 박자 및 음 높이를 이용하여 미디(MIDI) 데이터를 생성하는 제어부;를 포함한다.

그리고, 상기 입력부는, 상기 미디 데이터의 장르, 스타일, BPM, 복잡도(complexity) 중 적어도 하나를 설정하기 위한 사용자 명령을 입력받을 수 있다.

또한, 영상을 입력받는 영상 입력부;를 더 포함하고, 상기 제어부는, 상기 영상 입력부를 통해 입력된 영상의 색 정보, 움직임 정보, 공간 정보 중 적어도 하나를 이용하여 감정 정보를 획득하고, 상기 감정 정보를 이용하여 미디 데이터를 생성할 수 있다.

그리고, 날씨, 온도, 습도 및 조명 중 적어도 하나를 감지하는 환경 감지부; 및 상기 제어부는, 상기 환경 감지부에 의해 감지된 날씨, 온도, 습도 및 조명 중 적어도 하나를 이용하여 감정 정보를 생성하고, 상기 감정 정보를 이용하여 미디 데이터를 생성할 수 있다.

또한, 디스플레이부;를 더 포함하고, 상기 제어부는, 상기 결정된 박자 및 음 높이를 이용하여 악보를 생성하고, 상기 생성된 악보를 디스플레이하도록 상기 디스플레이부를 제어할 수 있다.

그리고, 상기 제어부는, 상기 디스플레이된 악보에 입력된 사용자 명령에 따라 상기 미디 데이터를 수정할 수 있다.

또한, 상기 제어부는, 상기 생성된 미디 데이터를 이용하여 상기 생성된 미디 데이터의 앞 마디 미디 데이터 및 상기 미디 데이터의 뒷 마디 미디 데이터를 생성하고, 상기 생성된 미디 데이터, 상기 생성된 앞 마디 미디 데이터, 상기 생성된 뒷 마디 미디 데이터를 이용하여 음악 파일을 생성할 수 있다.

또한, 오디오 출력부;를 더 포함하고, 상기 제어부는, 상기 사용자 인터렉션이 사용자 허밍인 경우, 상기 미디 데이터에 상기 사용자 허밍을 믹싱하여 출력하도록 상기 오디오 출력부를 제어할 수 있다.

한편, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 멀티미디어 장치의 음악 작곡 방법은, 동영상 데이터를 입력받는 단계; 상기 입력된 동영상 데이터를 분석하여 작곡 파라미터를 결정하는 단계; 및 상기 분석된 작곡 파라미터를 이용하여 미디(MIDI) 데이터를 생성하는 단계;를 포함한다.

그리고, 상기 결정하는 단계는, 상기 입력 동영상 데이터의 색 정보를 이용하여 코드 진행을 결정하며, 상기 입력 동영상 데이터의 화면 모션 정보를 이용하여 드럼 패턴을 결정하며, 상기 동영상 데이터의 오브젝트 모션 정보를 이용하여 BPM을 결정하며, 상기 동영상 데이터의 공간 정보를 이용하여 음상의 넓이 파라미터를 결정할 수 있다.

또한, 상기 생성된 미디 데이터를 상기 동영상 데이터와 함께 실행하는 단계;를 포함할 수 있다.

한편, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 노래 보정 방법은 사용자 노래를 입력받는 단계; 상기 사용자 노래를 분석하여 상기 사용자 노래와 매칭되는 악보를 획득하는 단계; 상기 사용자 노래와 상기 악보를 동기화하는 단계; 및 상기 동기화된 악보를 바탕으로 상기 사용자 노래를 보정하는 단계;를 포함할 수 있다.

그리고, 상기 획득하는 단계는, 상기 사용자 노래의 음높이 및 박자를 분석하고, 상기 분석된 음높이 및 박자를 바탕으로 악보를 획득할 수 있다.

또한, 상기 분석된 음높이 및 박자를 바탕으로 가상 악보를 생성하고, 데이터베이스에 저장된 악보들 중 상기 가상 악보가 일치할 확률이 가장 높은 악보를 사용자 노래에 대응되는 악보로 획득할 수 있다.

그리고, 상기 사용자 노래와 일치하는 음원을 검색하는 단계; 상기 검색된 음원으로부터 반주음을 추출하는 단계; 상기 보정된 사용자 노래와 상기 추출된 반주음을 믹싱하여 출력하는 단계;를 포함할 수 있다.

상술한 바와 같은 본 발명의 다양한 실시예에 의해, 음악적 지식이 많지 않고, 노래를 잘 부르지 못하는 일반 사용자가 더욱 쉽고 편리하게 음악 컨텐츠를 생성하거나 노래를 보정할 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른, 멀티미디어 장치의 구성을 간략히 도시한 블럭도,
도 2는 본 발명의 일 실시예에 따른, 멀티미디어 장치의 구성을 상세히 도시한 블럭도,
도 3은 본 발명의 일 실시예에 따른, 음악 작곡을 위한 다양한 모듈을 도시한 도면,
도 4는 본 발명의 일 실시예에 따른, 미디 데이터의 유형을 설정하기 위한 UI를 도시한 도면,
도 5는 본 발명의 일 실시예에 따른, 사용자 인터렉션에 따라 생성된 악보를 도시한 도면,
도 6은 본 발명의 일 실시예에 따른, 사용자 인터렉션에 따라 음악을 작곡하는 방법을 설명하기 위한 흐름도,
도 7은 본 발명의 일 실시예에 따른, 동영상 데이터를 이용하여 음악을 작곡하기 위한 복수의 모듈을 도시한 도면,
도 8은 본 발명의 다른 실시예에 따른, 동영상 데이터에 따라 음악을 작곡하는 방법을 설명하기 위한 흐름도,
도 9는 본 발명의 또 다른 실시예에 따른, 노래를 보정하기 위한 복수의 모듈을 도시한 도면, 그리고,
도 10은 본 발명의 또 다른 실시예에 따른, 노래 보정 방법을 상세히 설명하기 위한 흐름도이다.

이하에서는 도면을 참조하여 본 발명에 대해 더욱 상세히 설명하도록 한다. 도 1은 본 발명의 일 실시예에 따른, 멀티미디어 장치의 구성을 간략히 도시한 블럭도이다. 도 1에 도시된 바와 같이, 멀티미디어 장치(100)는 입력부(110), 감지부(120) 및 제어부(130)를 포함한다.

입력부(110)는 멀티미디어 장치(100)의 전반적인 동작을 제어하기 위한 사용자 명령을 입력받는다. 특히, 입력부(110)는 사용자가 작곡하고자 하는 미디 데이터의 유형을 설정하기 위한 사용자 명령을 입력받을 수 있다. 이때, 미디 데이터의 유형에는 미디 데이터의 장르, 스타일, BPM, 복잡도(complexity) 중 적어도 하나가 포함될 수 있다.

감지부(120)는 음악을 작곡하기 위한 사용자 인터렉션을 감지한다. 이때, 감지부(120)는 사용자 허밍을 감지하기 위한 마이크, 사용자의 모션을 감지하기 위한 모션 센서, 사용자의 터치를 감지하기 위한 터치 센서 중 적어도 하나를 포함할 수 있다.

제어부(130)는 입력부(110)를 통해 입력된 사용자 명령에 따라 멀티미디어 장치(100)를 제어한다. 특히, 제어부(130)는 감지된 사용자 인터렉션을 분석하여 박자 및 음 높이를 결정하고, 설정된 미디 데이터의 유형 및 결정된 박자 및 음 높이를 이용하여 미디(MIDI) 데이터를 생성한다.

제어부(130)는 입력부(110)를 통해 설정된 미디 데이터의 유형을 판단할 수 있다. 구체적으로, 제어부(130)는 입력부(110)를 통해 설정된 미디 데이터의 장르, 스타일, BPM, 복잡도 중 적어도 하나를 판단할 수 있다.

그리고, 제어부(130)는 감지부(120)를 통해 감지된 사용자 허밍, 사용자의 모션 및 사용자의 터치 중 하나를 이용하여 박자 및 음 높이를 결정한다. 예를 들어, 마이크를 통해 사용자 허밍이 입력된 경우, 제어부(130)는 Harmonic ceptrum regularity(HCR) 방법을 이용하여 사용자 허밍의 박자를 결정하고, Correntropy pitch detection을 이용하여 사용자 허밍의 음 높이를 결정할 수 있다. 또 다른 예로, 모션 센서를 통해 사용자 모션이 입력된 경우, 제어부(130)는 사용자 모션의 속도를 이용하여 박자를 결정하고, 모션의 거리를 이용하여 음 높이를 결정할 수 있다. 또 다른 예로, 터치 센서를 통해 사용자 터치가 입력된 경우, 제어부(130)는 사용자가 터치하는 시간을 산출하여 박자를 결정하고, 사용자가 터치하는 압력을 산출하여 음 높이를 결정할 수 있다.

그리고, 제어부(130)는 입력부(110)를 통해 결정된 미디 데이터의 유형 및 결정된 음 높이 및 박자를 이용하여 미디 데이터를 생성할 수 있다.

또한, 제어부(130)는 영상 입력부(미도시)를 통해 입력된 영상의 색 정보, 움직임 정보, 공간 정보 중 적어도 하나를 이용하여 감정 정보를 획득하고, 감정 정보를 이용하여 미디 데이터를 생성할 수 있다. 이때, 감정 정보라 함은 사용자가 작곡하고자 하는 곡의 분위기에 대한 정보로서, 코드 진행, 드럼 패턴, BPM, 공간감 정보를 결정할 수 있는 정보가 포함될 수 있다. 구체적으로, 제어부(130)는 입력된 영상의 색 정보를 이용하여 미디 데이터의 코드 진행을 결정할 수 있으며, 입력된 영상의 움직임 정보를 이용하여 미디 데이터의 드럼 패턴이나 BPM을 결정할 수 있으며, 입력된 오디오 신호에서 추출된 공간 정보를 이용하여 미디 데이터의 공간감 정보를 획득할 수 있다.

또 다른 실시예로, 제어부(130)는 환경 감지부(미도시)에 의해 감지된 날씨, 온도, 습도 및 조명 중 적어도 하나를 이용하여 감정 정보를 생성하고, 감정 정보를 이용하여 미디 데이터를 생성할 수 있다.

또한, 제어부(130)는 결정된 박자 및 음 높이를 이용하여 악보를 생성하고, 생성된 악보를 디스플레이할 수 있다. 이때, 제어부(130)는 디스플레이된 악보에 입력된 사용자 명령에 따라 미디 데이터를 수정할 수 있다.

또한, 제어부(130)는 생성된 미디 데이터를 이용하여 생성된 미디 데이터의 앞 마디 미디 데이터 및 미디 데이터의 뒷 마디 미디 데이터를 생성하고, 생성된 미디 데이터, 생성된 앞 마디 미디 데이터, 생성된 뒷 마디 미디 데이터를 이용하여 음악 파일을 생성할 수 있다. 구체적으로, 현재 C-B-A-G의 코드 구성을 갖는 4개의 마디가 생성된 경우, 다음 마디는 F-E-D-C, F-E-D-E 등의 코드가 나올 확률이 높고, 반대로 F-E-D-C의 앞에는 C-B-A-G의 코드진행이 나올 확률이 높은 화성학적 특징을 활용하여 음악 마디를 확장할 수 있다.

한편, 사용자 인터렉션이 사용자 허밍인 경우, 제어부(130)는 미디 데이터에 사용자 허밍을 믹싱하여 출력할 수 있다. 또한, 동영상이 입력된 경우, 제어부(130)는 미디 데이터를 동영상에 동기화시켜 출력할 수 있다.

상술한 바와 같은 멀티미디어 장치(100)에 의해, 음악적 지식이 많지 않고, 노래를 잘 부르지 못하는 일반 사용자라도 더욱 쉽고 편리하게 음악 컨텐츠를 생성할 수 있게 된다.

도 2는 본 발명의 일 실시예에 따른, 멀티미디어 장치(200)의 구성을 상세히 도시한 블럭도이다. 도 2에 도시된 바와 같이, 멀티미디어 장치(200)는 입력부(210), 영상 입력부(220), 환경 감지부(230), 디스플레이부(240), 오디오 출력부(250), 감지부(260), 저장부(270) 및 통신부(280)를 포함한다.

한편, 도 2에 개시된 멀티미디어 장치(200)는 음악 작곡 기능, 노래 보정 기능 등과 같은 다양한 기능을 수행하기 위한 멀티미디어 장치(200)이다. 따라서, 다른 기능이 추가되거나 기능이 변경된다면, 구성 역시 추가되거나 변경될 수 있다.

입력부(210)는 멀티미디어 장치(200)를 제어하기 위한 사용자의 명령을 입력받는다. 특히, 입력부(210)는 미디 데이터의 유형을 설정하기 위한 사용자 명령을 입력받을 수 있다. 구체적으로, 입력부(210)는 사용자가 작곡하고자 하는 음악의 장르, 스타일, BPM, 복잡도(Complexity) 등과 같은 미디 데이터의 유형을 설정하기 위한 사용자 명령을 입력받을 수 있다. 이때, 사용자는 입력부(210)를 통해 락(rock), 발라드(ballad), 랩(rap), 재즈(jazz) 등과 같은 음악의 장르를 선택할 수 있다. 또한, 사용자는 입력부(210)를 통해 우울함, 밝음, 헤비함, 몽환적임 등과 같은 스타일을 선택할 수 있다. 또한, 사용자는 입력부(210)를 통해 악기 및 트랙 개수가 적거나 악기 및 트랙 개수가 많아지도록 복잡도를 조절할 수 있다. 또한, 사용자는 입력부(210)를 통해 1분간 4분음표의 수인 BPM을 조절할 수 있다. 또한, 사용자는 입력부(210)를 통해 4분음표, 2분음표, 온음표의 비율인 템포를 조절할 수 있다.

영상 입력부(220)는 외부로부터 영상 데이터를 입력받는다. 구체적으로, 영상 입력부(220)는 외부의 방송국으로부터 방송 영상 데이터를 입력받을 수 있으며, 외부의 서버로부터 스트리밍 영상 데이터를 입력받을 수 있으며, 외부 기기(예를 들어, DVD 플레이어 등)로부터 영상 데이터를 입력받을 수 있다. 뿐만 아니라, 영상 입력부(220)는 사용자가 직접 기록한 홈 비디오(Home video)와 같은 퍼스널 컨텐츠의 입력도 포함한다. 특히, 스마트 폰과 같은 기기에 구현될 경우, 사용자의 비디오 라이브러리(video library)로부터 수신하는 경우도 포함할 수 있다.

환경 감지부(230)는 외부의 환경을 감지한다. 구체적으로, 환경 감지부는 외부로부터 날씨 정보를 획득할 수 있으며, 온도 센서를 통해 멀티미디어 장치(200)가 위치하는 영역의 온도 정보를 획득할 수 있으며, 습도 센서를 통해 멀티미디어 장치(200)가 위치하는 영역의 습도 정보를 획득할 수 있으며, 조도 센서를 통해 멀티미디어 장치(200)가 위치하는 영역의 조명 정보를 획득할 수 있다. 또한, 환경 감지부(230)는 사용자의 위치 정보를 활용하여 인터넷 서비스와의 연계로 날씨 및 시간 정보를 획득할 수 있다.

디스플레이부(240)는 제어부(290)의 제어에 의해 다양한 영상 데이터를 디스플레이할 수 있다. 특히, 디스플레이부(240)는 영상 입력부(220)를 통해 입력된 영상 데이터를 디스플레이할 수 있다.

또한, 디스플레이부(240)는 멀티미디어 장치(200)를 제어하기 위한 다양한 UI를 디스플레이할 수 있다. 예를 들어, 디스플레이부(240)는 도 4에 도시된 바와 같은, 미디 데이터의 유형을 설정하기 위한 UI를 디스플레이할 수 있다.

또한, 디스플레이부(240)는 사용자 인터렉션에 따라 결정된 음 높이 및 박자를 가지는 악보를 디스플레이할 수 있다. 예를 들어, 디스플레이부(250)는 도 5에 도시된 바와 같은 악보를 디스플레이할 수 있다.

오디오 출력부(250)는 오디오 데이터를 출력할 수 있다. 이때, 오디오 출력부(250)는 외부로부터 입력된 오디오 데이터를 출력할 수 있을 뿐만 아니라, 사용자 인터렉션에 의해 따라 생성된 미디 데이터를 출력할 수 있다.

감지부(260)는 사용자 인터렉션을 감지한다. 특히, 감지부(260)는 사용자가 음악을 작곡하고자 하는 사용자 인터렉션을 감지할 수 있다. 특히, 감지부(260)는 사용자가 작곡하고자 하는 음악의 박자 및 음 높이를 결정하기 위한 다양한 사용자 인터렉션을 감지할 수 있다. 예를 들어, 감지부(260)는 마이크를 이용하여 사용자 허밍을 감지할 수 있으며, 모션 센서를 이용하여 사용자 모션을 감지할 수 있으며, 터치 센서를 이용하여 사용자 터치를 감지할 수 있다.

저장부(270)는 멀티미디어 장치(200)를 구동하기 위한 다양한 모듈을 저장한다. 예를 들어, 저장부(270)에는 베이스 모듈, 센싱 모듈, 통신 모듈, 프리젠테이션 모듈, 웹 브라우저 모듈, 서비스 모듈을 포함하는 소프트웨어가 저장될 수 있다. 이때, 베이스 모듈은 멀티미디어 장치(200)에 포함된 각 하드웨어들로부터 전달되는 신호를 처리하여 상위 레이어 모듈로 전달하는 기초 모듈이다. 센싱 모듈은 각종 센서들로부터 정보를 수집하고, 수집된 정보를 분석 및 관리하는 모듈로서, 얼굴 인식 모듈, 음성 인식 모듈, 모션 인식 모듈, NFC 인식 모듈 등을 포함할 수도 있다. 프리젠테이션 모듈은 디스플레이 화면을 구성하기 위한 모듈로서, 멀티미디어 컨텐츠를 재생하여 출력하기 위한 멀티미디어 모듈, UI 및 그래픽 처리를 수행하는 UI 렌더링 모듈을 포함할 수 있다. 통신 모듈은 외부와 통신을 수행하기 위한 모듈이다. 웹 브라우저 모듈은 웹 브라우징을 수행하여 웹 서버에 액세스하는 모듈을 의미한다. 서비스 모듈은 다양한 서비스를 제공하기 위한 각종 어플리케이션을 포함하는 모듈이다.

또한, 저장부(270)는 사용자 인터렉션에 따라 음악을 작곡하기 위한 다양한 모듈을 포함할 수 있다. 이에 대해서는 도 3을 참조하여 설명하기로 한다. 사용자 인터렉션에 따라 음악을 작곡하기 위한 모듈은 도 3에 도시된 바와 같이, 미디 데이터 유형 설정 모듈(271), 인터렉션 입력 모듈(272), 분석 모듈(273), 동영상 입력 모듈(274), 감성 분석 모듈(275), 작곡물 생성 모듈(276) 및 믹싱 모듈(277)을 포함한다.

미디 데이터 유형 설정 모듈(271)은 입력부(210)를 통해 입력된 사용자 입력에 따라 미디 데이터의 유형을 설정할 수 있다. 구체적으로, 미디 데이터 유형 설정 모듈(271)은 미디 데이터의 장르, BPM, 스타일, 복잡도 등과 같은 다양한 미디 데이터의 유형을 설정할 수 있다.

인터렉션 입력 모듈(272)은 감지부(260)를 통해 감지된 사용자 인터렉션을 입력받는다. 구체적으로, 인터렉션 입력 모듈(272)은 사용자 허밍, 사용자 모션, 사용자 터치 중 적어도 하나의 사용자 인터렉션을 입력받을 수 있다.

분석 모듈(273)은 인터렉션 입력 모듈(272)을 통해 입력된 사용자 인터렉션을 분석하여 음 높이 및 박자를 결정할 수 있다. 예를 들어, 마이크를 통해 사용자 허밍이 입력된 경우, 분석 모듈(273)은 Harmonic ceptrum regularity(HCR) 방법을 이용하여 사용자 허밍의 박자를 결정하고, Correntropy pitch detection을 이용하여 사용자 허밍의 음 높이를 결정할 수 있다. 또 다른 예로, 모션 센서를 통해 사용자 모션이 입력된 경우, 분석 모듈(273)은 사용자 모션의 속도를 이용하여 박자를 결정하고, 모션의 거리를 이용하여 음 높이를 결정할 수 있다. 또 다른 예로, 터치 센서를 통해 사용자 터치가 입력된 경우, 분석 모듈(273)은 사용자가 터치하는 시간을 산출하여 박자를 결정하고, 사용자가 터치하는 터치 스크린상에서의 위치를 산출하여 음 높이를 결정할 수 있다.

동영상 입력 모듈(274)은 영상 입력부(220)로부터 입력된 동영상 데이터를 입력받아 감성 분석 모듈(275)로 출력한다.

감성 분석 모듈(275)은 입력된 동영상 데이터를 분석하여 미디 데이터의 감성 정보를 결정할 수 있다. 이때, 미디 데이터의 감정 정보라 함은 사용자가 작곡하고자 하는 곡의 분위기에 대한 정보로서, 코드 진행, 드럼 패턴, BPM, 공간감 정보 등과 같은 정보가 포함될 수 있다. 구체적으로, 감성 분석 모듈(275)은 입력된 영상의 색 정보를 이용하여 미디 데이터의 코드 진행을 결정할 수 있다. 예를 들어 감성 분석 모듈(275)은 명도나 채도가 높은 경우 밝은 장조 코드진행으로 결정하고 명도나 채도가 낮은 경우 어두운 단조 코드진행으로 결정할 수 있다. 또 다른 예로, 감성 분석 모듈(275)은 입력된 영상의 움직임 정보를 이용하여 미디 데이터의 드럼 패턴이나 BPM을 결정할 수 있다. 예를 들어, 감성 분석 모듈(275)은 전체 클립의 움직임 정도로부터 BPM을 추정하고, 영상의 움직임이 많은 부분에서 드럼 패턴의 복잡도를 늘릴 수 있다. 또 다른 예로, 감성 분석 모듈(275)은 입력된 동영상의 공간 정보를 이용하여 미디 데이터의 공간감 정보를 획득할 수 있고, 해당 공간감은 멀티채널 오디오 생성시 공간감 형성에 사용될 수 있다.

작곡물 생성 모듈(270)은 미디 데이터 유형 설정 모듈(271)에 의해 설정된 미디 데이터의 유형, 분석 모듈(273)에 의해 결정된 음 높이 및 박자, 감성 분석 모듈(274)에 의해 결정된 감성 정보를 바탕으로 작곡물인 미디 데이터를 생성한다.

이때, 작곡물 생성 모듈(270)은 생성된 미디 데이터에 대응되는 악보 영상 역시 생성할 수 있다.

또한, 작곡물 생성 모듈(270)은 사용자 설정에 따라 생성된 미디 데이터를 이용하여 생성된 미디 데이터의 앞 마디 미디 데이터 및 미디 데이터의 뒷 마디 미디 데이터를 생성할 수 있다. 구체적으로, 작곡 생성 모듈(270)은 사용자가 기존에 작곡하던 패턴, 사용자에 의해 설정된 미디 데이터의 유형이나, 감정 분석 모듈(275)에 의해 결정된 코드 진행 등을 바탕으로 생성된 미디 데이터의 앞 마디 미디 데이터 및 뒷 마디 미디 데이터를 생성할 수 있다.

믹싱 모듈(277)은 입력된 미디 데이터에 사용자 허밍 또는 동영상 데이터를 믹싱하여 출력한다.

한편, 상술한 모듈 이외에 음악을 작곡하기 위한 다양한 모듈이 추가되거나 변경될 수 있다. 예를 들어, 환경 감지부(230)에 의해 감지된 주변의 환경 정보를 입력받는 환경 정보 입력 모듈을 더 포함할 수 있다.

다시 도 2에 대해 설명하면, 통신부(280)는 다양한 장르의 통신방식에 따라 다양한 장르의 외부 기기와 통신을 수행하는 구성이다. 통신부(280)는 와이파이 칩, 블루투스 칩, NFC칩, 무선 통신 칩 등과 같은 다양한 통신 칩을 포함할 수 있다. 이때, 와이파이 칩, 블루투스 칩, NFC 칩은 각각 WiFi 방식, 블루투스 방식, NFC 방식으로 통신을 수행한다. 이 중 NFC 칩은 135kHz, 13.56MHz, 433MHz, 860~960MHz, 2.45GHz 등과 같은 다양한 RF-ID 주파수 대역들 중에서 13.56MHz 대역을 사용하는 NFC(Near Field Communication) 방식으로 동작하는 칩을 의미한다. 와이파이 칩이나 블루투스 칩을 이용하는 경우에는 SSID 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다. 무선 통신 칩은 IEEE, 지그비, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다.

제어부(290)는 도 2에 도시된 바와 같이, RAM(291), ROM(292), 그래픽 처리부(293), 메인 CPU(294), 제1 내지 n 인터페이스(295-1 ~ 295-n), 버스(296)를 포함한다. 이때, RAM(291), ROM(292), 그래픽 처리부(293), 메인 CPU(294), 제1 내지 n 인터페이스(295-1 ~ 295-n) 등은 버스(296)를 통해 서로 연결될 수 있다.

ROM(292)에는 시스템 부팅을 위한 명령어 세트 등이 저장된다. 턴 온 명령이 입력되어 전원이 공급되면, 메인 CPU(294)는 ROM(292)에 저장된 명령어에 따라 저장부(250)에 저장된 O/S를 RAM(291)에 복사하고, O/S를 실행시켜 시스템을 부팅시킨다. 부팅이 완료되면, 메인 CPU(294)는 저장부(270)에 저장된 각종 어플리케이션 프로그램을 RAM(291)에 복사하고, RAM(291)에 복사된 어플리케이션 프로그램을 실행시켜 각종 동작을 수행한다.

그래픽 처리부(293)는 연산부(미도시) 및 렌더링부(미도시)를 이용하여 아이콘, 이미지, 텍스트 등과 같은 다양한 객체를 포함하는 화면을 생성한다. 연산부는 입력부(210)로부터 수신된 제어 명령을 이용하여 화면의 레이아웃에 따라 각 객체들이 표시될 좌표값, 형태, 크기, 컬러 등과 같은 속성값을 연산한다. 렌더링부는 연산부에서 연산한 속성값에 기초하여 객체를 포함하는 다양한 레이아웃의 화면을 생성한다. 렌더링부에서 생성된 화면은 디스플레이부(240)의 디스플레이 영역 내에 표시된다.

메인 CPU(294)는 저장부(270)에 액세스하여, 저장부(270)에 저장된 O/S를 이용하여 부팅을 수행한다. 그리고, 메인 CPU(294)는 저장부(270)에 저장된 각종 프로그램, 컨텐츠, 데이터 등을 이용하여 다양한 동작을 수행한다.

제1 내지 n 인터페이스(295-1 내지 295-n)는 상술한 각종 구성요소들과 연결된다. 인터페이스들 중 하나는 네트워크를 통해 외부 장치와 연결되는 네트워크 인터페이스가 될 수도 있다.

특히, 제어부(290)는 감지된 사용자 인터렉션을 분석하여 박자 및 음 높이를 결정하고, 입력부(110)를 통해 입력된 사용자 명령에 따라 설정된 미디 데이터의 유형 및 결정된 박자 및 음 높이를 이용하여 미디 데이터를 생성할 수 있다.

구체적으로, 음악을 작곡하기 위한 음악 어플리케이션 실행 명령이 이 입력되면, 제어부(290)는 도 4에 도시된 바와 같은, 미디 데이터의 유형을 설정하기 위한 UI(400)를 디스플레이하도록 디스플레이부(240)를 제어할 수 있다. 제어부(290)는 도 4에 도시된 UI(400)를 통해 입력된 사용자 명령에 따라 장르, 스타일, 복잡도, BPM, 템포 등과 같은 다양한 미디 데이터의 유형을 설정할 수 있다.

미디 데이터의 유형이 설정된 후 감지부(260)를 통해 사용자 인터렉션이 감지되면, 제어부(290)는 사용자 인터렉션을 분석하여 음 높이와 박자를 결정할 수 있다.

구체적으로, 마이크를 통해 사용자 허밍이 입력된 경우, 제어부(290)는 Harmonic ceptrum regularity(HCR) 방법을 이용하여 사용자 허밍의 박자를 결정하고, Correntropy pitch detection을 이용하여 사용자 허밍의 음 높이를 결정할 수 있다. 더욱 구체적으로, 온셋이 발생하는 지점에서는 harmonic structure가 급격이 바뀌게 된다. 따라서, 제어부(290)는 Harmonic ceptrum regularity(HCR) 방법을 이용하여 온셋(onset)이 발생한 지점을 판단하여 박자를 결정할 수 있다. 또한, 제어부(290)는 Correntropy pitch detection에 따라 온셋 사이에 신호를 이용하여 음 높이를 결정할 수 있다.

또 다른 예로, 모션 센서를 통해 사용자 모션이 입력된 경우, 제어부(290)는 사용자 모션의 속도를 이용하여 박자를 결정하고, 모션의 거리를 이용하여 음 높이를 결정할 수 있다. 즉, 제어부(290)는 사용자 모션의 속도가 빠를수록 박자를 빠르게 결정하고, 사용자 모션의 속도가 느릴수록 박자를 느리게 결정할 수 있다. 도한, 제어부(290)는 모션의 거리가 작을수록 음 높이를 낮게 결정하며, 모션의 거리가 높을수록 음 높이를 높게 결정할 수 있다.

또 다른 예로, 터치 센서를 통해 사용자 터치가 입력된 경우, 분석 모듈(273)은 사용자가 터치하는 시간을 산출하여 박자를 결정하고, 사용자가 터치하는 터치 스크린상에서의 위치를 산출하여 음 높이를 결정할 수 있다. 즉, 제어부(290)는 사용자가 터치하는 시간이 길어질수록 박자를 느리게 결정하고, 사용자가 터치하는 시간이 짧아질수록 박자를 빠르게 결정할 수 있다. 또한, 제어부(290)는 사용자의 터치 영역에 따라 음 높이를 결정할 수 있다.

제어부(290)는 입력되는 동양상 데이터 또는 감지된 주변의 환경 정보를 바탕으로 감정 정보를 결정할 수 있다. 이때, 미디 데이터의 감정 정보라 함은 사용자가 작곡하고자 하는 곡의 분위기에 대한 정보로서, 코드 진행, 드럼 패턴, BPM, 공간감 정보 등과 같은 정보가 포함될 수 있다.

구체적으로, 제어부(290)는 영상 입력부(220)를 통해 입력된 영상의 색 정보, 움직임 정보, 공간 정보 중 적어도 하나를 이용하여 감정 정보를 획득할 수 있다. 예를 들어, 제어부(290)는 입력된 영상의 색 정보를 이용하여 미디 데이터의 코드 진행을 결정할 수 있다. 예를 들어, 입력된 영상에 밝은 색이 많이 포함된 경우, 제어부(290)는 미디 데이터의 코드를 장조로 결정할 수 있으며, 입력된 영상에 어두운 색이 많이 포함된 경우, 제어부(290)는 미디 데이터의 코드를 단조로 결정할 수 있다. 또 다른 예로, 제어부(290)는 입력된 영상의 움직임 정보를 이용하여 미디 데이터의 드럼 패턴이나 BPM을 결정할 수 있다. 구체적으로, 제어부(290)는 입력된 영상에 움직임이 많은 경우, BPM을 증가시킬 수 있으며, 입력된 영상에 움직임이 적은 경우, BPM을 감소시킬 수 있다. 또 다른 예로, 제어부(290)는 입력된 동영상의 공간 정보를 이용하여 미디 데이터의 공간감 정보를 획득할 수 있다. 구체적으로, 제어부(290)는 입력된 동영상의 공간 정보를 이용하여 작곡물 결과의 음상의 넓이 파라미터를 추출할 수 있다.

또한, 제어부(290)는 환경 감지부(230)를 통해 감지된 주변의 환경 정보를 바탕으로 감정 정보를 획득할 수 있다. 예를 들어, 주변의 날씨가 맑거나 주변의 기온이 따뜻하거나 조명의 밝기가 밝은 경우, 제어부(290)는 미디 데이터의 코드를 장조로 결정할 수 있다. 주변의 날씨가 어둡거나 주변의 기온이 춥거나 조명의 밝기가 어두운 경우, 제어부(290)는 미디 데이터의 코드를 단조로 결정할 수 있다.

한편, 사용자에 의해 미디 데이터의 유형이 설정되지 않은 경우, 제어부(290)는 주변 환경 정보 또는 동영상 데이터를 이용하여 미디 데이터의 유형을 결정할 수 있다. 예를 들어, 날씨가 맑은 경우, 제어부(290)는 미디 데이터의 장르를 댄스로 설정할 수 있다.

또한, 제어부(290)는 결정된 박자 및 음 높이를 이용하여 악보를 생성하고, 생성된 악보를 디스플레이하도록 디스플레이부(240)를 제어할 수 있다. 구체적으로, 제어부(290)는 도 5에 도시된 바와 같이, 사용자 인터렉션에 따라 결정된 박자 및 음 높이를 이용하여 악보를 생성할 수 있다. 이때, 도 5에 도시된 바와 같이, 악보에는 사용자 인터렉션에 따라 결정된 악보뿐만 아니라, 음악 파일을 생성하기 위한 다양한 아이콘(510,520,530)을 포함할 수 있다. 예를 들어, 제어부(290)는 도 5에 도시된 바와 같이, 현재 생성된 미디 데이터의 앞 마디 미디 데이터를 생성하는 제1 아이콘(510), 현재 생성된 미디 데이터의 뒷 마디 미디 데이터를 생성하는 제2 아이콘(520) 및 현재 생성된 미디 데이터를 반복하기 위한 제3 아이콘(530)이 포함될 수 있다.

이때, 제어부(290)는 현재 생성된 미디 데이터의 뒷 마디 미디 데이터 또는 앞 마디 미디 데이터를 기존의 데이터베이스를 통해 생성할 수 있다. 즉, 제어부(290)는 사용자가 작곡하는 패턴을 데이터베이스에 저장하고, 저장된 사용자 작곡 패턴을 바탕으로 현재 생성된 미디 데이터의 뒷 마디 또는 앞 마디를 예측하여 생성할 수 있다. 예를 들어, 4개의 마디의 코드가 C-B-A-G의 구성을 가질 경우, 제어부(290)는 저장된 데이터베이스를 바탕으로 현재 생성된 미디 데이터의 뒷 마디의 코드로 C-D-G-C 또는 F-E-D-C 등을 설정할 수 있다. 또한, 4개의 마디의 코드가 C-D-G-C인 경우, 제어부(290)는 저장된 데이터베이스를 바탕으로 현재 생성된 미디 데이터의 앞 마디의 코드로 C-B-A-G를 설정할 수 있다.

또한, 제어부(290)는 디스플레이된 악보에 입력된 사용자 명령에 따라 미디 데이터를 수정할 수 있다. 특히, 디스플레이부(240)에 터치 패널이 포함된 경우, 제어부(290)는 도 5에 도시된 악보에 입력된 사용자 터치를 이용하여 미디 데이터를 수정할 수 있다. 예를 들어, 음표를 터치하여 드래그하는 사용자 명령이 입력된 경우, 제어부(290)는 터치된 음표의 음 높이를 수정할 수 있으며, 기설정된 시간 이상 터치하는 사용자 명령이 입력된 경우, 제어부(290)는 박자를 수정할 수 있다. 그러나, 이는 일 실시예에 불과할 뿐, 제어부(290)는 다른 사용자 명령을 통해 다양한 작곡 파라미터를 수정할 수 있다.

또한, 사용자 인터렉션이 사용자 허밍인 경우, 제어부(290)는 미디 데이터에 사용자 허밍을 믹싱하여 출력하도록 오디오 출력부(250)를 제어할 수 있다. 또한, 영상 입력부(220)를 통해 동영상 데이터가 입력된 경우, 제어부(290)는 입력된 동영상과 미디 데이터를 믹싱하여 출력하도록 오디오 출력부(250) 및 디스플레이부(240)를 제어할 수 있다.

도 6은 본 발명의 일 실시예에 따른, 사용자 인터렉션에 따라 음악을 작곡하는 방법을 설명하기 위한 흐름도이다.

우선, 멀티미디어 장치(200)는 사용자 입력에 따라 미디 데이터의 유형을 설정한다(S610). 이때, 미디 데이터의 유형은 미디 데이터의 장르, 스타일, 템포, BPM, 복잡도 중 적어도 하나를 포함할 수 있다.

그리고, 멀티미디어 장치(200)는 사용자 인터렉션을 감지한다(S620). 이때, 사용자 인터렉션은 사용자 허밍, 사용자 터치, 사용자 모션 중 적어도 하나를 포함할 수 있다.

그리고, 멀티미디어 장치(200)는 사용자 인터렉션을 분석하여 박자 및 음 높이를 결정한다(S630). 구체적으로, 마이크를 통해 사용자 허밍이 입력된 경우, 멀티미디어 장치(200)는 HCR 방법을 이용하여 사용자 허밍의 박자를 결정하고, Correntropy pitch detection을 이용하여 사용자 허밍의 음 높이를 결정할 수 있다. 또 다른 예로, 모션 센서를 통해 사용자 모션이 입력된 경우, 멀티미디어 장치(200)는 사용자 모션의 속도를 이용하여 박자를 결정하고, 모션의 거리를 이용하여 음 높이를 결정할 수 있다. 또 다른 예로, 터치 센서를 통해 사용자 터치가 입력된 경우, 멀티미디어 장치(200)는 사용자가 터치하는 시간을 산출하여 박자를 결정하고, 사용자가 터치하는 위치를 산출하여 음 높이를 결정할 수 있다.

그리고, 멀티미디어 장치(200)는 설정된 미디 데이터의 유형 및 결정된 음 높이, 박자를 이용하여 미디 데이터를 생성한다(S640). 이때, 멀티미디어 장치(200)는 생성된 미디 데이터를 악보화하여 디스플레이할 수 있으며, 입력된 사용자 허밍 또는 동영상 데이터와 믹싱하여 출력할 수 있다.

상술한 바와 같은 멀티미디어 장치에 의해, 사용자는 더욱 쉽고 편리하게 자신이 작곡하고자 하는 음악에 대한 미디 데이터를 생성할 수 있다.

한편, 상술한 실시예에서는 사용자 허밍을 마이크를 이용해서 감지하는 것으로 설명하였으나, 이는 일 실시예에 불과할 뿐, 사용자 허밍이 녹음된 오디오 데이터를 입력받을 수 있다.

한편, 상술한 실시예에서는 사용자 인터렉션이 입력된 경우, 음악을 작곡하는 방법에 대해 설명하였으나, 이는 일 실시예에 불과할 뿐, 동영상 데이터를 이용하여 음악을 작곡할 수 있다. 이에 대해서는 도 7 및 도 8을 참조하여 설명하기로 한다.

우선, 도 7은 본 발명의 일 실시예에 따른, 동영상 데이터를 이용하여 음악을 작곡하기 위한 복수의 모듈을 도시한 도면이다. 도 7에 도시된 바와 같이, 저장부(270)는 동영상 데이터를 이용하여 음악을 작곡하기 위해, 동영상 입력 모듈(710), 동영상 정보 분석 모듈(720), 파라미터 결정 모듈(730), 반주 생성 모듈(740) 및 믹싱 모듈(750)을 포함한다.

동영상 입력 모듈(710)은 영상 입력부(220)를 통해 동영상 데이터를 입력받는다.

동영상 정보 분석 모듈(720)은 입력된 동영상 데이터에 대한 정보를 분석한다. 구체적으로, 정보 분석 모듈(720)은 전체 영상의 색 정보, 카메라 위치에 따른 화면 모션 정보, 동영상 내의 오브젝트 모션 정보 및 오디오 입력 신호에서 추출된 공간 정보를 분석할 수 있다.

파라미터 결정 모듈(730)은 분석된 동영상 정보를 바탕으로 작곡 파라미터를 결정한다. 구체적으로, 파라미터 결정 모듈(730)은 분석된 색 정보를 이용하여 코드 진행을 결정할 수 있다. 예를 들어, 분석된 색 정보가 밝거나 따뜻한 색인 경우, 파라미터 결정 모듈(730)은 코드 진행을 장조로 판단할 수 있으며, 분석된 색 정보가 어둡거나 차가운 색인 경우, 파라미터 결정 모듈(730)은 코드 진행을 단조로 판단할 수 있다. 또한, 파라미터 결정 모듈(730)은 화면 모션 정보를 이용하여 드럼 패턴을 결정할 수 있다. 예를 들어, 화면 모션이 빠른 경우, 파라미터 결정 모듈(730)은 드럼 패턴을 빠르게 결정할 수 있으며, 화면 모션이 고정된 경우, 파라미터 결정 모듈(730)은 드럼 패턴을 느리게 진행할 수 있다. 또한, 파라미터 결정 모듈(730)은 오브젝트 모션 정보를 이용하여 BPM을 결정할 수 있다. 예를 들어, 오브젝트 모션이 느린 경우, 파라미터 결정 모듈(730)은 BPM을 작게 결정할 수 있으며, 오브젝트 모션이 빠른 경우, 파라미터 결정 모듈(730)은 BPM을 크게 결정할 수 있다. 또한, 파라미터 결정 모듈(730)은 공간 정보를 이용하여 음장 길이를 조절할 수 있다. 예를 들어, 오디오 신호의 공간이 넓은 경우, 파라미터 결정 모듈(730)은 음상의 넓이를 넓게 결정하며, 오디오 신호의 공간이 좁은 경우, 파라미터 결정 모듈(730)은 음상의 넓이를 좁게 결정할 수 있다.

반주 생성 모듈(740)은 파라미터 결정 모듈(730)에 의해 결정된 작곡 파라미터를 활용하여 미디 데이터를 생성한다. 구체적으로, 반주 생성 모듈(740)은 파라미터 결정부(730)에서 결정된 작곡 파라미터를 이용하여 멜로디 악기(예를 들어, 피아노, 기타, 키보드 등), 타악기(예를 들어, 드럼 등), 베이스 리듬 악기(예를 들어, 베이스 등)의 미디 트랙을 각각 생성한다. 그리고, 반주 생성 모듈(740)는 생성된 각각의 멜로디 악기의 미디 트랙, 타악기의 미디 트랙 및 베이스 리듬 악기의 미디 트랙을 이용하여 완성된 미디 데이터를 생성할 수 있다.

믹싱 모듈(750)은 생성된 미디 데이터에 동영상을 믹싱할 수 있다. 특히, 믹싱 모듈(750)은 동영상 데이터에 포함된 오디오 신호의 공간 정보에 대응되도록 음상을 정위시키고, 동영상 데이터에 포함된 오디오 신호의 공간 정보에 따라 비상관기(Decorrelator)로 공간감을 생성할 수 있다.

제어부(290)는 도 7에 도시된 모듈(710 내지 750)을 이용하여 입력된 동영상 데이터에 따라 음악을 작곡할 수 있다. 구체적으로, 영상 입력부(220)를 통해 동영상이 입력된 경우, 제어부(290)는 입력된 동영상 데이터를 분석하여 작곡 파라미터를 결정하고, 분석된 작곡 파라미터를 이용하여 미디(MIDI) 데이터를 생성할 수 있다. 이때, 작곡 파라미터는 음악을 작곡하기 위한 파라미터로서, 코드 진행, 드럼 패턴, BPM, 넓이 파라미터 등과 같은 파라미터일 수 있다.

특히, 제어부(290)는 입력 동영상 데이터의 색 정보를 이용하여 코드 진행을 결정할 수 있다. 구체적으로, 입력된 동영상의 전체 영상의 색이 밝은 색인 경우, 제어부(290)는 미디 데이터의 코드 진행을 장조로 결정할 수 있다. 입력된 동영상의 전체 영상의 색이 어두운 색인 경우, 제어부(290)는 미디 데이터의 코드 진행을 단조로 결정할 수 있다.

또한, 제어부(290)는 입력된 동영상 데이터의 화면 모션 정보를 이용하여 드럼 패턴을 결정할 수 있다. 구체적으로, 입력된 영상 내에 화면 모션이 빠른 경우, 제어부(290)는 드럼 패턴을 빠르게 결정할 수 있다. 또한, 입력된 영상 내에 화면 모션이 고정된 경우, 제어부(290)는 드럼 패턴을 느리게 진행할 수 있다.

또한, 제어부(290)는 입력된 동영상 데이터의 오브젝트 모션 정보를 이용하여 BPM을 결정할 수 있다. 구체적으로, 입력된 영상 내에 특정 오브젝트의 모션이 느린 경우, 제어부(290)는 BPM을 작게 결정할 수 있다. 또한, 입력된 영상 내에 특정 오브젝트의 모션이 빠른 경우, 제어부(290)는 BPM을 크게 결정할 수 있다.

또한, 제어부(290)는 입력된 동영상 데이터에 포함된 오디오 시호의 공간 정보를 이용하여 음장 길이를 조절할 수 있다. 예를 들어, 오디오 신호의 공간이 넓은 경우, 제어부(290)는 음상의 넓이를 넓게 결정다. 또한, 오디오 신호의 공간이 좁은 경우, 제어부(290)는 음상의 넓이를 좁게 결정할 수 있다.

제어부(290)는 결정된 파라미터를 이용하여 미디 데이터를 생성할 수 있다. 구체적으로, 제어부(290)는 결정된 코드 진행 및 사용자에 의해 설정된 장르를 바탕으로 템플릿을 활용한 멜로디 악기(예를 들어, 피아노, 기타, 키보드 등)의 미디 트랙을 생성하고, 드럼 패턴을 통해 타악기(예를 들어, 드럼 등)의 미디 트랙을 생성하며, 코드 진행, 장르, 드럼 패턴 등을 통해 베이스 리듬 악기(예를 들어, 베이스 등)의 미디 트랙을 생성한다. 그리고, 제어부(290)는 생성된 각각의 멜로디 악기의 미디 트랙, 타악기의 미디 트랙 및 베이스 리듬 악기의 미디 트랙을 이용하여 완성된 미디 데이터를 생성할 수 있다.

그리고, 제어부(290)는 생성된 미디 데이터를 동영상 데이터와 함께 실행할 수 있다. 즉, 제어부(290)는 생성된 미디 데이터를 동영상 데이터와 믹싱하여 출력할 수 있다. 이때, 제어부(290)는 동영상 데이터에 포함된 오디오 신호와 동기화하여 출력할 수 있다.

도 8은 본 발명의 다른 실시예에 따른, 동영상 데이터에 따라 음악을 작곡하는 방법을 설명하기 위한 흐름도이다.

우선, 멀티미디어 장치(200)는 동영상 데이터를 입력받는다(S810). 이때, 멀티미디어 장치(200)는 외부 장치로부터 동영상 데이터를 입력받을 수 있으며, 기 저장된 동영상 데이터를 입력받을 수 있다.

그리고, 멀티미디어 장치(200)는 입력된 동영상을 분석하여 작곡 파라미터를 결정한다(S820). 이때, 작곡 파라미터는 음악을 작곡하기 위한 파라미터로서, 코드 진행, 드럼 패턴, BPM, 넓이 파라미터 등과 같은 파라미터일 수 있다. 구체적으로, 멀티미디어 장치(200)는 분석된 색 정보를 이용하여 코드 진행을 결정할 수 있다. 또한, 멀티미디어 장치(200)는 동영상 데이터의 화면 모션 정보를 이용하여 드럼 패턴을 결정할 수 있다. 또한, 멀티미디어 장치(200)는 동영상 데이터의 오브젝트 모션 정보를 이용하여 BPM을 결정할 수 있다. 또한, 멀티미디어 장치(200)는 공간 정보를 이용하여 음장 길이를 조절할 수 있다.

그리고, 멀티미디어 장치(200)는 작곡 파라미터를 이용하여 미디 데이터를 생성한다(S830). 구체적으로, 멀티미디어 장치(200)는 작곡 파라미터를 이용하여 멜로디 악기, 타악기, 베이스 리듬 악기에 대한 미디 트랙을 생성하고, 생성된 각각의 미디 트랙을 믹싱하여 미디 데이터를 생성할 수 있다. 그리고, 멀티미디어 장치(200)는 생성된 미디 데이터를 동영상 데이터와 함께 실행할 수 있다.

상술한 바와 같이, 동영상 데이터를 이용하여 미디 데이터를 생성함으로써, 사용자는 동영상 데이터의 분위기에 맞는 음악을 작곡할 수 있게 된다.

한편, 상술한 실시예에서는 사용자 허밍를 바탕으로 검출된 음 높이 및 박자를 이용하여 음악을 작곡하는 실시예에 대해 설명하였으나, 이는 일 실시예에 불과할 뿐, 사용자 노래를 바탕으로 음 높이 및 박자를 검출하고, 검출된 음 높이 및 박자를 바탕으로 사용자가 부른 노래를 검색하여 사용자 노래를 보정하는 실시예 역시 본 발명의 기술적 사상이 적용될 수 있다.

도 9는 본 발명의 또 다른 실시예에 따른, 노래를 보정하기 위한 복수의 모듈을 도시한 도면이다. 도 9에 도시된 바와 같이, 멀티미디어 장치(200)의 저장부(270)는 사용자가 부른 노래를 보정하기 위하여, 노래 입력 모듈(910), 노래 분석 모듈(920), 가상 악보 생성 모듈(930), 악보 획득 모듈(940), 노래/악보 동기화 모듈(950), 노래 보정 모듈(960), 음원 획득 모듈(970), 반주 분리 모듈(980) 및 믹싱 모듈(990)을 포함한다.

노래 입력 모듈(910)은 사용자의 노래를 입력받는다. 이때, 노래 입력 모듈(910)은 마이크를 통해 입력된 사용자 노래 또는 오디오 데이터에 포함된 사용자 노래를 입력받을 수 있다.

노래 분석 모듈(920)은 사용자가 부른 노래의 박자 및 음 높이를 분석한다. 구체적으로, 노래 분석 모듈(920)은 Harmonic ceptrum regularity(HCR) 방법을 이용하여 사용자 노래의 박자를 결정하고, Correntropy pitch detection을 이용하여 사용자 노래의 음 높이를 결정할 수 있다.

가상 악보 생성 모듈(930)은 노래 분석 모듈(920)에 의해 분석된 음 높이 및 박자를 바탕으로 가상 악보를 생성한다.

악보 획득 모듈(940)은 가상 악보 생성 모듈(930)을 이용하여 사용자가 부른 노래에 대한 악보를 획득한다. 이때, 악보 획득 모듈(940)은 데이터베이스에 저장된 악보와 가상 악보를 비교하여 사용자가 부른 노래에 대한 악보를 획득할 수 있다. 또 다른 실시예로, 악보 획득 모듈(940)은 인쇄되어 있는 악보를 카메라를 이용하여 촬영한 후, 촬영된 영상을 분석하여 악보를 획득할 수 있다. 또 다른 실시예로, 악보 획득 모듈(940)은 디스플레이부(240)에 디스플레이된 오선지에 사용자가 직접 입력한 음표를 이용하여 악보를 획득할 수 있다. 또 다른 실시예로, 악보 획득 모듈(940)은 사용자가 부른 노래와 기 저장된 음악으로부터 추출된 보컬 트랙을 비교하여 악보를 획득할 수 있다. 또한, 악보 획득 모듈(940)은 가상 악보 생성 모듈(940)에서 생성된 가상 악보를 사용자가 부른 노래에 대한 악보로 획득할 수 있다. 또한, 악보 획득 모듈(940)은 입력된 노래 상의 주파수 특성에 근거하여 온셋/오프셋(onset/offset) 패턴 및 음고의 분포를 확률적으로 추정하여 악보를 생성할 수 있다. 여기에서 악보 추정 모듈(940)은 입력된 노래에서 HCR 방법과 Correntropy pitch detection과 같은 방법을 통하여 박자와 음높이를 추정하고, 추출된 박자와 음높이의 분포로부터 가장 확률적으로 적합한 BPM 및 Chord를 추출한 후, 악보를 생성할 수 있다.

노래/ 악보 동기화 모듈(950)은 사용자가 부른 노래와 악보 획득 모듈(940)로부터 획득된 악보를 동기화한다. 이때, 노래/악보 동기화 모듈(950)은 dynamic time warping(DTW) 방법을 이용하여 사용자가 부른 노래와 악보 획득 모듈(940)로부터 획득된 악보를 동기화할 수 있다. 여기서, DTW 방법은 두 개의 시퀀스 사이에 유사성을 비교하여 최적의 warping path를 찾는 알고리즘이다.

노래 보정 모듈(960)은 악보와 비교하여 사용자가 잘못 부른 부분(예를 들어, 음정이 틀린 부분, 박자가 틀린 부분 등)에 대한 노래를 보정한다. 구체적으로, 노래 보정 모듈(960)은 time stretching과 Frequency shift를 적용하여 사용자가 부른 노래를 악보에 대응되도록 보정할 수 있다.

음원 획득 모듈(970)은 사용자가 부른 노래에 대한 음원을 획득한다(S970). 이때, 음원 획득 모듈(970)은 악보 획득 모듈(940)에 의해 획득된 악보를 이용하여 음원을 획득할 수 있다.

반주 분리 모듈(980)은 획득된 음원으로부터 보컬 트랙과 반주 트랙을 분리하고, 분리된 반주 트랙을 믹싱 모듈(990)에 출력한다.

믹싱 모듈(990)은 반주 분리 모듈(980)로부터 분리된 반주 트랙과 노래 보정 모듈(960)로부터 획득된 보정된 사용자 노래를 믹싱하여 출력한다.

제어부(290)는 도 9에 도시된 다양한 모듈을 이용하여 사용자가 부른 노래를 보정할 수 있다.

구체적으로, 사용자 노래가 입력된 경우, 제어부(290)는 사용자 노래를 분석하여 사용자 노래와 매칭되는 악보를 획득한다. 구체적으로, 제어부(290)는 HCR 방법을 이용하여 사용자 노래의 박자를 분석하고, Correntropy pitch detection을 이용하여 사용자 노래의 음 높이를 분석할 수 있다. 그리고, 제어부(290)는 분석된 박자 및 음 높이를 바탕으로 가상 악보를 생성하고, 데이터베이스에 저장된 악보들 중 가상 악보와 일치할 확률이 가장 높은 악보를 사용자 노래에 대응되는 악보로 획득할 수 있다. 다른 실시예로, 제어부(290)는 사용자 입력에 의해 악보를 획득할 수 있으며, 촬영된 악보 영상을 통해 악보를 획득할 수 있고, 기 저장된 음원 중 분리된 보컬 트랙으로부터 악보를 획득할 수 있으며, 기존의 가상 악보를 사용자가 부른 노래에 대응되는 악보로 이용할 수 있다.

악보가 획득된 경우, 제어부(290)는 생성된 악보와 사용자가 부른 노래를 동기화한다. 이때, 제어부(290)는 dynamic time warping(DTW) 방법을 이용하여 사용자가 부른 노래와 획득된 악보를 동기화할 수 있다.

그리고, 제어부(290)는 동기화된 악보를 바탕으로 사용자 노래를 보정한다. 구체적으로, 제어부(290)는 time stretching과 Frequency shift를 적용하여 사용자가 부른 노래의 음 높이 및 박자를 보정함으로써, 악보에 대응되도록 보정할 수 있다.

그리고, 제어부(290)는 보정된 사용자 노래를 출력하도록 오디오 출력부(250)를 제어할 수 있다.

또 다른 실시예로, 제어부(290)는 사용자가 부른 노래와 일치하는 음원을 검색할 수 있다. 이때, 제어부(290)는 악보를 이용하여 음원을 검색할 수 있으며, 사용자 입력에 따라 음원을 검색할 수 있다. 음원이 검색된 경우, 제어부(290)는 검색된 음원을 입력받을 수 있다. 이때, 검색된 음원은 기 저장될 수 있으며, 통신부(280)를 통해 외부로부터 다운로드 받을 수 있다. 그리고, 제어부(290)는 검색된 음원으로부터 반주음을 추출한다. 제어부(290)는 보정된 사용자 노래와 추출된 반주음을 믹싱하여 출력하도록 오디오 출력부(250)를 제어할 수 있다.

도 10은 본 발명의 또 다른 실시예에 따른, 노래 보정 방법을 상세히 설명하기 위한 흐름도이다.

우선, 멀티미디어 장치(200)는 사용자 노래를 입력받는다(S1010). 이때, 멀티미디어 장치(200)는 마이크를 통해 사용자가 부른 노래를 입력받을 수 있으며, 외부로부터 전송된 자오디오 데이터를 통해 사용자가 부른 노래를 입력받을 수 있다.

그리고, 멀티미디어 장치(200)는 사용자가 부른 노래를 분석한다(S1020). 이때, 멀티미디어 장치(200)는 사용자가 부른 노래의 음 높이 및 박자를 분석할 수 있다.

그리고, 멀티미디어 장치(200)는 사용자 노래와 매칭되는 악보를 획득한다(S1030). 구체적으로, 멀티미디어 장치(200)는 분석된 음 높이 및 박자를 이용하여 가상 악보를 획득할 수 있다. 그리고, 멀티미디어 장치(200)는 데이터베이스에 저장된 악보들과 가상 악보를 비교하여, 가상 악보와 일치할 확률이 가장 높은 악보를 사용자 노래와 매칭되는 악보로 판단할 수 있다.

그리고, 멀티미디어 장치(200)는 노래와 악보를 동기화한다.(S1040). 구체적으로, 멀티미디어 장치(200)는 DTW 방법으로 사용자가 부른 노래를 획득된 악보에 동기화할 수 있다.

그리고, 멀티미디어 장치(200)는 획득된 악보를 바탕으로 사용자 노래를 보정한다(S1050). 구체적으로, 멀티미디어 장치(200)는 time stretching과 Frequency shift를 적용하여 사용자가 부른 노래의 음 높이 및 박자를 악보에 대응되도록 보정할 수 있다.

상술한 바와 같은 노래 보정 방법에 의해, 노래를 잘 부르지 못하는 일반 사용자라고 더욱 쉽고 편리하게 자신이 부른 노래를 자신이 부르고자하는 노래를 맞게 보정할 수 있게 된다.

한편, 상술한 다양한 실시 예에 따른 음악 작곡 방법 또는 노래 보정 방법은 프로그램으로 구현되어 디스플레이 장치에 제공될 수 있다. 이때, 음악 작곡 방법 또는 노래 보정 방법을 포함하는 프로그램은 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)를 통해 제공될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

110, 210: 입력부 120, 260: 감지부
130, 290: 제어부 220: 영상 입력부
230: 환경 감지부 240: 디스플레이부
250: 오디오 출력부 270: 저장부
280: 통신부

Claims

사용자 입력에 따라 미디 데이터의 유형을 설정하는 단계;
사용자 인터렉션을 감지하는 단계;
상기 감지된 사용자 인터렉션을 분석하여 박자 및 음 높이를 결정하는 단계; 및
상기 설정된 미디 데이터의 유형 및 상기 결정된 박자 및 음 높이를 이용하여 미디(MIDI) 데이터를 생성하는 단계;를 포함하는 음악 작곡 방법.
제1항에 있어서,
상기 설정하는 단계는,
상기 미디 데이터의 장르, 스타일, BPM, 복잡도(complexity) 중 적어도 하나를 설정하는 것을 특징으로 하는 음악 작곡 방법.
제1항에 있어서,
영상을 입력받는 단계;
상기 입력된 영상의 색 정보, 움직임 정보, 공간 정보 중 적어도 하나를 이용하여 감정 정보를 획득하는 단계;를 더 포함하며,
상기 생성하는 단계는,
상기 감정 정보를 이용하여 미디 데이터를 생성하는 것을 특징으로 하는 음악 작곡 방법.
제1항에 있어서,
날씨, 온도, 습도 및 조명 중 적어도 하나를 감지하는 단계; 및
상기 감지된 날씨, 온도, 습도 및 조명 중 적어도 하나를 이용하여 감정 정보를 생성하는 단계;를 더 포함하며,
상기 생성하는 단계는,
상기 감정 정보를 이용하여 미디 데이터를 생성하는 것을 특징으로 하는 음악 작곡 방법.
제1항에 있어서,
상기 결정된 박자 및 음 높이를 이용하여 악보를 생성하는 단계; 및
상기 생성된 악보를 디스플레이하는 단계;를 더 포함하는 것을 특징으로 음악 작곡 방법.
제5항에 있어서,
상기 디스플레이된 악보를 이용하여 상기 미디 데이터를 수정하는 단계;를 포함하는 음악 작곡 방법.
제1항에 있어서,
상기 생성된 미디 데이터를 이용하여 상기 생성된 미디 데이터의 앞 마디 미디 데이터 및 상기 미디 데이터의 뒷 마디 미디 데이터를 생성하는 단계; 및
상기 생성된 미디 데이터, 상기 생성된 앞 마디 미디 데이터, 상기 생성된 뒷 마디 미디 데이터를 이용하여 음악 파일을 생성하는 단계;를 더 포함하는 음악 작곡 방법.
제1항에 있어서,
상기 사용자 인터렉션은 사용자 허밍(humming), 사용자 터치, 사용자 모션 중 하나인 것을 특징으로 하는 음악 작곡 방법.
제6항에 있어서,
상기 사용자 인터렉션이 사용자 허밍인 경우,
상기 미디 데이터에 상기 사용자 허밍을 믹싱하여 출력하는 단계;를 포함하는 음악 작곡 방법.
미디 데이터의 유형을 설정하기 위한 사용자 명령을 입력받는 입력부;
사용자 인터렉션을 감지하는 감지부; 및
상기 감지된 사용자 인터렉션을 분석하여 박자 및 음 높이를 결정하고, 상기 설정된 미디 데이터의 유형 및 상기 결정된 박자 및 음 높이를 이용하여 미디(MIDI) 데이터를 생성하는 제어부;를 포함하는 멀티미디어 장치.
제10항에 있어서,
상기 입력부는,
상기 미디 데이터의 장르, 스타일, BPM, 복잡도(complexity) 중 적어도 하나를 설정하기 위한 사용자 명령을 입력받는 것을 특징으로 하는 멀티미디어 장치.
제10항에 있어서,
영상을 입력받는 영상 입력부;를 더 포함하고,
상기 제어부는,
상기 영상 입력부를 통해 입력된 영상의 색 정보, 움직임 정보, 공간 정보 중 적어도 하나를 이용하여 감정 정보를 획득하고, 상기 감정 정보를 이용하여 미디 데이터를 생성하는 것을 특징으로 하는 멀티미디어 장치.
제10항에 있어서,
날씨, 온도, 습도 및 조명 중 적어도 하나를 감지하는 환경 감지부; 및
상기 제어부는,
상기 환경 감지부에 의해 감지된 날씨, 온도, 습도 및 조명 중 적어도 하나를 이용하여 감정 정보를 생성하고, 상기 감정 정보를 이용하여 미디 데이터를 생성하는 것을 특징으로 하는 멀티미디어 장치.
제10항에 있어서,
디스플레이부;를 더 포함하고,
상기 제어부는,
상기 결정된 박자 및 음 높이를 이용하여 악보를 생성하고, 상기 생성된 악보를 디스플레이하도록 상기 디스플레이부를 제어하는 것을 특징으로 하는 멀티미디어 장치.
제14항에 있어서,
상기 제어부는,
상기 디스플레이된 악보에 입력된 사용자 명령에 따라 상기 미디 데이터를 수정하는 것을 특징으로 하는 멀티미디어 장치.
제10항에 있어서,
상기 제어부는,
상기 생성된 미디 데이터를 이용하여 상기 생성된 미디 데이터의 앞 마디 미디 데이터 및 상기 미디 데이터의 뒷 마디 미디 데이터를 생성하고, 상기 생성된 미디 데이터, 상기 생성된 앞 마디 미디 데이터, 상기 생성된 뒷 마디 미디 데이터를 이용하여 음악 파일을 생성하는 것을 특징으로 하는 멀티미디어 장치.
제10항에 있어서,
상기 사용자 인터렉션은 사용자 허밍(humming), 사용자 터치, 사용자 모션 중 하나인 것을 특징으로 하는 멀티미디어 장치.
제17항에 있어서,
오디오 출력부;를 더 포함하고,
상기 제어부는,
상기 사용자 인터렉션이 사용자 허밍인 경우, 상기 미디 데이터에 상기 사용자 허밍을 믹싱하여 출력하도록 상기 오디오 출력부를 제어하는 멀티미디어 장치.
동영상 데이터를 입력받는 단계;
상기 입력된 동영상 데이터를 분석하여 작곡 파라미터를 결정하는 단계; 및
상기 분석된 작곡 파라미터를 이용하여 미디(MIDI) 데이터를 생성하는 단계;를 포함하는 음악 작곡 방법.
제19항에 있어서,
상기 결정하는 단계는,
상기 입력 동영상 데이터의 색 정보를 이용하여 코드 진행을 결정하며, 상기 입력 동영상 데이터의 화면 모션 정보를 이용하여 드럼 패턴을 결정하며, 상기 동영상 데이터의 오브젝트 모션 정보를 이용하여 BPM을 결정하며, 상기 동영상 데이터의 공간 정보를 이용하여 음상의 넓이 파라미터를 결정하는 것을 특징으로 하는 음악 작곡 방법.
제19항에 있어서,
상기 생성된 미디 데이터를 상기 동영상 데이터와 함께 실행하는 단계;를 포함하는 음악 작곡 방법.
사용자 노래를 입력받는 단계;
상기 사용자 노래를 분석하여 상기 사용자 노래와 매칭되는 악보를 획득하는 단계;
상기 사용자 노래와 상기 악보를 동기화하는 단계;
상기 동기화된 악보를 바탕으로 상기 사용자 노래를 보정하는 단계;를 포함하는 노래 보정 방법.
제22항에 있어서,
상기 획득하는 단계는,
상기 사용자 노래의 음높이 및 박자를 분석하고, 상기 분석된 음높이 및 박자를 바탕으로 악보를 획득하는 것을 특징으로 하는 노래 보정 방법.
제23항에 있어서,
상기 분석된 음높이 및 박자를 바탕으로 가상 악보를 생성하고, 데이터베이스에 저장된 악보들 중 상기 가상 악보가 일치할 확률이 가장 높은 악보를 사용자 노래에 대응되는 악보로 획득하는 것을 특징으로 하는 노래 보정 방법.
제24항에 있어서,
상기 사용자 노래와 일치하는 음원을 검색하는 단계;
상기 검색된 음원으로부터 반주음을 추출하는 단계;
상기 보정된 사용자 노래와 상기 추출된 반주음을 믹싱하여 출력하는 단계;를 포함하는 노래 보정 방법.