KR101504522B1 - 음악 저장/검색 장치 및 방법 - Google Patents
음악 저장/검색 장치 및 방법 Download PDFInfo
- Publication number
- KR101504522B1 KR101504522B1 KR1020080001833A KR20080001833A KR101504522B1 KR 101504522 B1 KR101504522 B1 KR 101504522B1 KR 1020080001833 A KR1020080001833 A KR 1020080001833A KR 20080001833 A KR20080001833 A KR 20080001833A KR 101504522 B1 KR101504522 B1 KR 101504522B1
- Authority
- KR
- South Korea
- Prior art keywords
- melody
- lyrics
- storage unit
- melodies
- user
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/061—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/071—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2220/00—Input/output interfacing specifically adapted for electrophonic musical tools or instruments
- G10H2220/005—Non-interactive screen display of musical or status data
- G10H2220/011—Lyrics displays, e.g. for karaoke applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/141—Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrophonic Musical Instruments (AREA)
Abstract
본 발명은 사용자가 질의를 하여 음악을 검색할 수 있는 데이터베이스를 생성하여 저장하고 사용자의 질의에 대응하는 음악을 검색하는 장치 및 방법에 관한 것으로, 가사에서 끊어 읽기를 해야 하는 지점을 기준으로 복수의 멜로디들을 분할하여 저장하고, 분할하여 저장된 멜로디들 가운데 사용자로부터 입력받은 질의와 유사한 멜로디를 검출한다.
Description
본 발명은 음악을 검색하는 장치 및 방법에 관한 것으로, 보다 상세하게는 사용자가 허밍(humming) 또는 노래(singing)와 같은 질의로 음악을 검색하기 위한 데이터베이스(database)를 생성하는 장치 및 방법과 사용자가 질의하여 음악을 검색할 수 있는 방법 및 장치에 관한 것이다.
사용자가 소정의 음악을 특정 장소에서 들었지만 곡 명을 알지 못하는 경우 사용자가 가사 또는 곡 명을 알지 못해도 허밍(humming) 또는 노래(singing)만으로 음악을 검색할 수 있는 서비스가 있다. 예를 들어, 사용자가 허밍 또는 노래를 마이크와 같은 입력장치를 통해 질의하면 핸드폰 또는 PC(Personal Computer)에 입력된다. 여기서 입력된 음성은 인터넷 또는 무선 통신을 통해 전송되어 서버에 전달된다. 이렇게 전송된 음성과 유사한 음악을 서버에 저장된 데이터베이스(database)에서 검색하여 최종 결과인 음악의 정보가 사용자에게 제공되고 있다.
본 발명이 이루고자 하는 기술적 과제는, 사용자가 질의를 하여 음악을 검색 할 수 있는 데이터베이스를 생성하여 저장하고 사용자의 질의에 대응하는 음악을 검색하는 장치 및 방법을 제공하는 것이다.
상기의 과제를 이루기 위한 본 발명에 의한 음악 검색 장치는, 가사에서 끊어 읽기를 해야 하는 지점을 기준으로 복수의 멜로디들을 분할하여 저장하는 멜로디 저장부; 및 상기 분할하여 저장된 멜로디들 가운데 사용자로부터 입력받은 질의와 유사한 멜로디를 검출하는 멜로디 검출부를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 음악 저장 장치는, 가사에서 끊어 읽기를 해야 하는 지점을 기준으로 복수의 멜로디들을 분할하는 분할부; 및 상기 분할된 멜로디들을 저장하는 멜로디 저장부를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 음악 검색 방법은, 사용자로부터 질의를 입력받는 단계; 및 가사에서 끊어 읽기를 해야 하는 부분을 기준으로 분할하여 저장된 복수의 멜로디들 가운데 상기 입력받은 질의와 유사한 멜로디를 검출하는 단계를 포함하는 것을 특징으로 한다.
상기의 과제를 이루기 위한 본 발명에 의한 음악 저장 방법은, 가사에서 끊어 읽기를 해야 하는 부분을 기준으로 복수의 멜로디들을 분할하는 단계; 및 상기 분할된 멜로디들을 저장하는 단계를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 음악 저장 장치 및 방법과 음악 검색 장치 및 방법의 실시예에 대해 상세히 설명한다.
도 1은 본 발명에 의한 음악 저장 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 음악 저장 장치는 마디 추출부(100), 어절 예측부(110), 멜로디 분할부(120), 분류부(130), 멜로디 저장부(140) 및 가사 저장부(150)를 포함하여 이루어진다.
마디 추출부(100)는 입력단자 IN 1을 통해 미디 파일(midi file)을 입력받아 멜로디에 마련된 마디(bar)의 정보를 추출한다. 마디 추출부(100)에서 멜로디의 마디를 추출하는 예로 3/4 박자 또는 4/4 박자 등과 같은 멜로디의 박자 정보를 이용하여 멜로디 내에서 마디를 예측할 수 있다. 예를 들어, 마디 추출부(100)에서는 멜로디 박자 정보를 이용하여 도 11, 13 및 14에 "Bar"로 도시된 단위와 같이 마디의 정보를 추출할 수 있다. 도 11에 마련된 멜로디 가운데 식별번호 1100에 해당하는 부분인 도 12a에 도시된 가사를 도 12b에 도시된 바와 같이 "B"로 표시된 지점을 경계로 하여 멜로디 내에서 마디를 예측할 수 있다.
끊어읽기 예측부(110)는 입력단자 IN 2를 통해 가사를 입력받아 가사의 각 어절 다음에서 끊어 읽기를 해야 하는 정도를 예측한다. 예를 들어, 끊어읽기 예측부(110)에서는 문장의 구문 구조, 품사 정보, 어절의 위치 정보 등을 이용하여 각 어절 다음에 끊어 읽기의 정도를 예측할 수 있다.
끊어읽기 예측부(110)에서 끊어 읽기의 정도를 예측할 수 있는 방식의 실시예로 PBI(Prosodic Break Index)가 있다. PBI는 음성 합성 시스템인 TTS(Text-To-Speech) 시스템에서 자연스러운 합성음을 생성하는 데 이용되는 기술로서 HMM(Hidden Markov Model), NN(Neural Network), CART(Classification and Regression Tree) 방식 등을 주로 사용한다. PBI에서는 각 어절의 다음에서 끊어 읽기의 정도에 따라 쉼 없이 다음 어절과 바로 연결되는 NP(Non Phrase), 악센트가 있는 구인 AP(Accentual Phrase), 억양구인 IP(Intonational Phrase) 등으로 어절 사이를 분할하고 각 어절 다음에서 끊어 읽는 정도를 예측한다. 예를 들어, 도 11에 마련된 멜로디 가운데 식별번호 1100에 해당하는 부분인 도 12a에 도시된 가사를 도 12c에 도시된 바와 같이 가사에서 끊어 읽기를 해야 하는 지점을 예측할 수 있다.
멜로디 분할부(120)는 마디 추출부(100)에서 추출된 마디의 정보와 끊어읽기 예측부(110)에서 예측된 각 어절 다음에서 끊어 읽는 정도를 이용하여 멜로디를 분할한다. 또한, 멜로디 분할부(120)에서는 음표의 길이까지 이용하여 멜로디를 분할할 수 있다. 예를 들어, 멜로디 분할부(120)는 어절의 마지막 음표의 길이에 따라 멜로디를 분할할 수 있다.
이와 같이 마디 추출부(100)에서 추출된 마디의 정보만으로 멜로디를 분할하면 가사에서 한 어절 내에서도 마디가 시작되는 경우가 있기 때문에 사용자가 질의하는 멜로디의 마디가 상이하여 검색 성능을 저하시키는 문제점을 갖는다. 그러나 끊어읽기 예측부(110)에서 예측된 각 어절 다음에서의 쉼 정도인 PBI를 고려하여 멜로디를 분할한다면 분할된 멜로디의 시작점과 사용자가 질의하는 멜로디의 시작점이 일치하기 때문에 보다 효율적이고 신속하게 검색할 수 있는 효과를 갖는다.
도 2는 멜로디 분할부(120)에 대한 보다 상세한 일 실시예를 블록도로 도시한 것으로서, 멜로디 분할부(120)는 마디 판단부(200), IP어절 판단부(210), AP어절 판단부(220), 음표길이 판단부(230) 및 NP어절 판단부(240)를 포함하여 이루어 진다.
마디 판단부(200)는 마디 추출부(100)에서 추출된 마디 가운데 어절 내에 마련된 마디에서 멜로디를 분할하지 않는 것으로 결정한다. 도 12b를 예를 들어 설명하면, 마디 판단부(200)는 "아름다 B 운" 및 "이야 B 기"와 같이 어절 사이에 마련된 "B" 부분인 마디에서는 도 12e에서 멜로디를 분할하는 지점인 "MS"로 표시되지 않은 것과 같이 멜로디를 분할하지 않는 것으로 결정한다.
IP어절 판단부(210)는 어절 예측부(110)에서 가사의 어절이 IP와 같이 억양구로 예측되면 해당 어절 다음에서 끊어 노래할 확률이 높기 때문에 해당 어절의 끝에서 멜로디를 분할하는 것으로 결정한다. 도 12c를 예를 들어 설명하면, IP어절 판단부(210)는 "오 IP 아름다운" 및 "같은 IP 우리들의"와 같이 어절 사이에 마련된 "IP" 지점에서는 도 12e에서 멜로디를 분할하는 지점인 "MS"로 표시된 것과 같이 멜로디를 분할하는 것으로 결정한다.
AP어절 판단부(220)는 어절 예측부(110)에서 가사의 어절이 AP와 같이 악센트가 있는 구로 예측되면 해당 어절 다음에 끊어서 노래할 확률이 IP어절에서 보다 낮아 해당 어절의 마지막 음절에 대한 음표 길이를 반영하여 멜로디 분할 여부를 결정한다.
음표길이 판단부(230)는 AP어절 판단부(220)에서 AP를 갖는 어절 가운데 어절의 마지막 음절에 대한 음표의 길이가 기 설정된 길이 보다 긴 어절에 한하여 해당 어절의 끝에서 멜로디를 분할하는 것으로 결정한다. 이와 달리 해당 어절의 마지막 음절의 음표 길이가 기 설정된 길이 보다 짧은 경우에는 해당 어절의 끝에서 멜로디를 분할하지 않는 것으로 결정한다.
도 12c를 예를 들어 설명하면, AP어절 판단부(220)는 "아름다운 AP 음악". "우리의 AP 사랑의" 및 "사랑의 AP 이야기들은"과 같이 어절 사이에 마련된 "AP" 지점에서는 음표길이 판단부(230)에 의해 멜로디를 분할할 것인지를 결정한다. 음표길이 판단부(230)는 "아름다운 AP 음악". "우리의 AP 사랑의" 및 "사랑의 AP 이야기들은" 가운데 도 12d에 도시된 바와 같이 어절의 마지막에 마련된 음표의 길이가 기 설정된 음표의 길이인 1/2를 초과하는 어절인지 여부를 판단하고, 어절의 마지막에 마련된 음표의 길이가 1/2를 초과하는 어절인 "아름다운 AP 음악" 및 "우리의 AP 사랑의"에 대하여 도 12e에서 멜로디를 분할하는 지점인 "MS"로 표시된 지점과 같이 멜로디를 분할하는 것으로 결정한다.
NP어절 판단부(240)는 어절 예측부(110)에서 어절이 NP와 같이 구에 해당하지 않는 어절로 예측되면 어절 사이에 끊어 읽기를 하지 않을 확률이 가장 낮기 때문에 해당 어절의 끝에서 멜로디를 분할하지 않는 것으로 결정한다.
분할부(250)는 어절내 마디 판단부(200), IP어절 판단부(210), AP어절 판단부(220), 음표길이 판단부(230) 및 NP어절 판단부(240)에서 결정된 각 마디와 어절 사이의 멜로디를 분할할지 여부에 따라 입력단자 IN 1을 통해 입력받은 미디 파일의 멜로디를 분할하고 출력단자 OUT 1을 통해 출력한다. 예를 들어, 도 12a에 도시된 가사를 도 12b에 도시된 마디, 도 12c에 도시된 가사가 어절로 분할되어 각 어절의 특성이 예측된 결과 및 도 12d에 도시된 각 어절의 마지막에 마련된 음표의 길이를 이용하여 도 12e에 도시된 결과와 같이 분할할 수 있다. 예를 들어, 분할 부(250)는 도 11, 13 및 14에 "New Bar"로 도시된 단위와 같이 멜로디를 분할할 수 있다.
다시 도 1에 도시된 실시예를 설명하면, 분류부(130)는 멜로디 분할부(120)에서 분할된 멜로디들을 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디와 사용자가 검색할 가능성이 낮은 부분의 멜로디로 분류한다. 사용자가 자주 검색할 것으로 예측되는 부분의 예로 각 곡의 처음에 마련된 소절들, 곡 내에서 빈번하게 반복되는 멜로디, 각 곡의 후렴구 등이 있다.
분류부(130)에서는 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디는 제1 멜로디 저장부(143)에 기입하고 해당 멜로디의 가사는 제1 가사 저장부(153)에 기입한다. 그러나 분류부(130)는 사용자가 검색할 가능성이 낮은 부분의 멜로디는 제2 멜로디 저장부(146)에 기입하고 해당 멜로디의 가사는 제2 가사 저장부(156)에 기입한다.
도 3은 분류부(130)에 대한 보다 상세한 일 실시예를 블록도로 도시한 것으로서,
첫소절 추출부(300)는 멜로디 분할부(120)에서 분할된 멜로디들 가운데 각 곡의 처음에 마련된 소절들 가운데 기 설정된 소절만큼 추출하여 출력단자 OUT 2'로 출력하며 해당 소절(들)에 대응하는 가사(들)를 추출하여 출력단자 OUT 4'로 출력한다.
반복멜로디 추출부(310)는 멜로디 분할부(120)에서 분할된 멜로디들 가운데 각 곡 내에서 기 설정된 횟수 이상으로 반복되는 멜로디(들)를 추출하여 출력단자 OUT 2''로 출력하며 해당 멜로디(들)에 대응하는 가사(들)를 추출하여 출력단자 OUT 4''로 출력한다.
후렴구 추출부(320)는 멜로디 분할부(120)에서 분할된 멜로디들 가운데 각 곡의 후렴구에 해당하는 멜로디(들)를 추출하여 출력단자 OUT 2'''로 출력하며 해당 멜로디(들)에 대응하는 가사(들)를 추출하여 출력단자 OUT 4'''로 출력한다.
첫소절 추출부(300), 반복멜로디 추출부(310) 및 후렴구 추출부(320)에서 추출된 멜로디(들)은 제1 멜로디 저장부(143)에 기입되며, 해당 멜로디(들)의 가사(들)는 제1 가사 저장부(153)에 기입된다. 그러나 첫소절 추출부(300), 반복멜로디 추출부(310) 및 후렴구 추출부(320)에서 추출되지 않은 멜로디(들)은 제2 멜로디 저장부(153)에 기입되며, 해당 멜로디(들)의 가사(들)는 제2 가사 저장부(156)에 기입된다.
다시 도 1에 도시된 실시예를 설명하면, 멜로디 저장부(140)는 멜로디 분할부(120)에서 분할된 멜로디들을 저장한다.
여기서, 멜로디 저장부(140)는 제1 멜로디 저장부(143) 및 제2 멜로디 저장부(146)를 포함하여 실시할 수 있다.
제1 멜로디 저장부(143)는 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디를 저장한다. 이러한 제1 멜로디 저장부(143)는 도 4에 도시된 블록도와 같이 첫소절 멜로디 저장부(400), 반복 멜로디 저장부(410) 및 후렴구 멜로디 저장부(420)을 포함하여 실시할 수 있다. 첫소절 멜로디 저장부(400)는 첫소절 추출부(300)에서 추출된 각 곡의 처음에 마련된 소절들을 저장한다. 반복 멜로디 저장 부(410)는 반복 멜로디 추출부(310)에서 추출된 각 곡 내에서 기 설정된 횟수 이상으로 반복되는 멜로디(들)를 저장한다. 후렴구 멜로디 저장부(420)는 후렴구 추출부(320)에서 추출된 각 곡의 후렴구에 해당하는 멜로디(들)를 저장한다.
제2 멜로디 저장부(146)는 사용자가 검색할 가능성이 낮은 부분의 멜로디를 저장한다.
가사 저장부(150)는 멜로디 분할부(120)에서 분할된 멜로디들에 대응하여 멜로디와 동일한 지점에서 분할된 가사를 저장한다. 여기서, 가사 저장부(150)는 제1 가사 저장부(153) 및 제2 가사 저장부(156)를 포함하여 실시할 수 있다. 제1 가사 저장부(153)는 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디에 대응하는 가사를 저장한다. 이러한 제1 가사 저장부(153)는 도 5에 도시된 블록도와 같이 첫소절 저장부(500), 반복 멜로디 가사 저장부(510) 및 후렴구 저장부(520)를 포함하여 실시할 수 있다. 첫소절 저장부(500)는 첫소절 추출부(500)에서 추출된 각 곡의 처음에 마련된 소절들에 대응하는 가사를 저장한다. 반복 멜로디 가사 저장부(510)는 반복 멜로디 추출부(310)에서 추출된 각 곡 내에서 기 설정된 횟수 이상으로 반복되는 멜로디(들)에 대응하는 가사를 저장한다. 후렴구 저장부(520)는 후렴구 추출부(320)에서 추출된 각 곡의 후렴구에 해당하는 가사(들)를 저장한다.
제2 가사 저장부(156)는 사용자가 검색할 가능성이 낮은 부분의 멜로디에 대응하는 가사를 저장한다.
도 6은 본 발명에 의한 음악 검색 장치에 대한 일 실시예를 블록도로 도시한 것으로서, 음악 검색 장치는 입력부(600), 멜로디 추출부(610), 멜로디 저장 부(140), 멜로디 검출부(620), 음성 인식부(630), 가사 저장부(150) 및 가사 검출부(650)를 포함하여 이루어진다. 본 발명에 의한 음악 검색 장치의 실시예인 도 6은 본 발명에 의한 음악 저장 장치의 실시예인 도 1에서 소정의 기준으로 분할하여 저장된 멜로디들과 가사들을 사용자로부터 입력받은 사용자 질의와 비교하여 음악을 검색한다.
입력부(600)는 사용자가 부르는 노래(singing) 또는 허밍(humming)과 같은 사용자 질의를 입력단자 IN을 통해 입력받는다. 여기서, 사용자 질의의 예로 사용자가 발성하는 소리 또는 핸드폰과 같은 디바이스에서 재생되는 소리가 있다.
멜로디 추출부(610)는 입력부(600)에서 입력받은 사용자 질의 가운데 멜로디만 추출한다.
멜로디 저장부(140)는 도 1의 실시예에서 전술한 멜로디 저장부(140)와 동일한 멜로디 저장부(140)이다. 멜로디 저장부(140)는 멜로디에서 추출한 마디의 정보, 가사에서 예측한 각 어절의 특성 및 음표의 길이 가운데 적어도 하나 이상을 기준으로 하여 분할된 멜로디를 저장한다. 멜로디 저장부(140)는 음표의 길이를 기준으로 분할된 멜로디를 저장할 경우 어절의 마지막 음표의 길이에 따라 멜로디가 분할되어 저장될 수 있다. 멜로디 저장부(140)에서 멜로디를 분할하는 기술적 내용과 관련하여 보다 상세한 내용은 도 1의 실시예에 기술되어 있다.
또한, 멜로디 저장부(140)는 도 1에 도시된 바와 같이 제1 멜로디 저장부(143) 및 제2 멜로디 저장부(146)를 포함하여 실시할 수 있다.
제1 멜로디 저장부(143)는 사용자가 자주 검색할 것으로 예측되는 부분의 멜 로디를 저장한다. 이러한 제1 멜로디 저장부(143)는 도 4에 도시된 블록도와 같이 첫소절 멜로디 저장부(400), 반복 멜로디 저장부(410) 및 후렴구 멜로디 저장부(420)를 포함하여 실시할 수 있다. 첫소절 멜로디 저장부(400)는 각 곡의 처음에 마련된 소절들을 저장한다. 반복 멜로디 저장부(410)는 각 곡 내에서 기 설정된 횟수 이상으로 반복되는 멜로디(들)를 저장한다. 후렴구 멜로디 저장부(420)는 각 곡의 후렴구에 해당하는 멜로디(들)를 저장한다.
제2 멜로디 저장부(146)는 사용자가 검색할 가능성이 낮은 부분의 멜로디를 저장한다.
멜로디 검출부(620)는 멜로디에서 추출한 마디의 정보, 가사에서 예측한 각 어절의 특성 및 음표의 길이 가운데 적어도 하나 이상을 기준으로 분할하여 멜로디 저장부(140)에 저장된 복수의 멜로디들 가운데 멜로디 추출부(610)에서 추출된 멜로디와 유사한 기 설정된 개수의 멜로디(들)를 검출한다. 멜로디 검출부(620)에서 검출하는 순서는 우선 제1 멜로디 저장부(143)에서 멜로디를 검색한 후 기 설정된 개수에 해당하는 멜로디를 검출하지 못하였다면 제2 멜로디 저장부(146)에서 멜로디를 검색한다. 다시 말하면, 멜로디 검출부(620)는 첫 소절 멜로디, 반복 멜로디. 후렴구 멜로디 등과 같이 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디들이 저장된 제1 멜로디 저장부(143)를 먼저 검색한 후 사용자가 검색할 가능성이 낮은 부분의 멜로디들이 저장된 제2 멜로디 저장부(146)를 검색한다.
멜로디 검출부(620)에서 검출된 멜로디들이 멜로디 추출부(610)에서 추출된 멜로디와 유사도가 기 설정된 임계값 보다 높은 경우 더 이상 음악을 검색하지 않 고 종료한다. 예를 들어, 유사도는 특정한 멜로디와 일치할 확률로 나타낼 수 있으며, 이 경우 기 설정된 임계값으로 0.7을 설정할 수 있으나 이에 한정해야 하는 것은 아니며 가변적이다. 또한, 이 경우 멜로디 추출부(610)는 검출된 멜로디들에 대응하는 후보 음악들의 정보를 출력단자 OUT 1을 통해 출력한다.
음성 인식부(630)는 입력부(600)에서 입력받은 사용자 질의 가운데 음성만 인식한다. 음성 인식부(630)에서는 멜로디 검출부(620)에서 검출된 멜로디들에 대응하여 가사 저장부(650)에 저장된 가사들에 포함된 단어만을 대상으로 입력부(600)에서 입력받은 사용자 질의에 대하여 음성을 인식한다.
가사 저장부(150)는 도 1의 실시예에서 전술한 가사 저장부(150)와 동일한 가사 저장부(140)이다. 가사 저장부(150)는 멜로디에서 추출한 마디의 정보, 가사에서 예측한 각 어절의 특성 및 음표의 길이 가운데 적어도 하나 이상을 기준으로 하여 분할된 멜로디에 대응하여 분할된 가사들을 저장한다. 가사 저장부(150)는 음표의 길이를 기준으로 분할된 멜로디에 대응하여 분할된 가사들을 저장할 경우 어절의 마지막 음표의 길이에 따라 분할된 멜로디에 대응하여 분할된 가사들이 저장될 수 있다. 가사 저장부(150)에서 가사를 분할하여 저장하는 기술적 내용과 관련하여 보다 상세한 내용은 도 1의 실시예에 기술되어 있다.
또한, 가사 저장부(150)는 도 1에 도시된 바와 같이 제1 가사 저장부(153) 및 제2 가사 저장부(156)를 포함하여 실시할 수 있다.
제1 가사 저장부(153)는 사용자가 자주 검색할 것으로 예측되는 부분의 가사 또는 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디에 대응하는 부분의 가 사를 저장한다. 이러한 제1 가사 저장부(153)는 도 5에 도시된 블록도와 같이 첫소절 저장부(500), 반복 멜로디 가사 저장부(510) 및 후렴구 저장부(520)를 포함하여 실시할 수 있다. 첫소절 저장부(500)는 각 곡의 처음에 마련된 소절들에 대응하는 가사를 저장한다. 반복 멜로디 가사 저장부(510)는 각 곡 내에서 기 설정된 횟수 이상으로 반복되는 멜로디(들)에 대응하는 가사를 저장한다. 후렴구 저장부(520)는 각 곡의 후렴구에 해당하는 가사(들)를 저장한다.
제2 가사 저장부(156)는 사용자가 검색할 가능성이 낮은 부분의 가사 또는 사용자가 검색할 가능성이 낮은 부분의 멜로디에 대응하는 가사를 저장한다.
가사 검출부(650)는 멜로디 검출부(620)에서 검출된 멜로디들에 대응하여 가사 저장부(150)에 저장된 가사들 가운데 음성 인식부(630)에서 인식된 음성과 유사한 기 설정된 개수에 해당하는 가사(들)을 검출한다. 가사 검출부(650)에서 기 설정된 개수는 멜로디 검출부(620)에서 기 설정된 개수 보다 현저히 적게 설정할 수 있다.
가사 검출부(650)에서 검출하는 순서는 우선 제1 가사 저장부(153)에서 가사를 검색한 후 기 설정된 개수에 해당하는 가사를 검출하지 못하였다면 제2 가사 저장부(156)에서 가사를 검색한다. 다시 말하면, 가사 검출부(650)는 첫 소절 멜로디, 반복 멜로디. 후렴구 멜로디 등과 같이 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디들에 대응하는 가사 또는 사용자가 자주 검색할 것으로 예측되는 부분의 가사들이 저장된 제1 가사 저장부(153)를 먼저 검색한 후 사용자가 검색할 가능성이 낮은 부분의 멜로디들이 저장된 제2 가사 저장부(156)를 검색한다. 가사 검출부(650)는 가사들을 검출한 후 검출된 가사들에 대응하는 후보 음악들의 정보를 출력단자 OUT 2를 통해 출력한다.
도 7은 본 발명에 의한 음악 저장 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
먼저, 미디 파일(midi file)을 입력받아 멜로디에 마련된 마디(bar)의 정보를 추출한다(제700단계). 여기서, 어절 단위는 문장을 끊어 읽기를 해야 하는 지점에서 분할하는 단위를 말한다. 제700단계에서 멜로디의 마디를 추출하는 예로 3/4 박자 또는 4/4 박자 등과 같은 멜로디의 박자 정보를 이용하여 멜로디 내에서 마디를 예측할 수 있다. 예를 들어, 제700단계에서는 멜로디 박자 정보를 이용하여 도 11, 13 및 14에 "Bar"로 도시된 단위와 같이 마디의 정보를 추출할 수 있다. 도 11에 마련된 멜로디 가운데 식별번호 1100에 해당하는 부분인 도 12a에 도시된 가사를 도 12b에 도시된 바와 같이 "B"로 표시된 지점을 경계로 하여 멜로디 내에서 마디를 예측할 수 있다.
제700단계 후에, 가사를 입력받아 가사의 각 어절 다음에서 끊어 읽기를 해야 하는 정도를 예측한다(제710단계). 예를 들어, 제710단계에서는 문장의 구문 구조, 품사 정보, 어절의 위치 정보 등을 이용하여 각 어절 다음에 끊어 읽기의 정도를 예측할 수 있다.
제710단계에서 끊어 읽기의 정도를 예측할 수 있는 방식의 실시예로 PBI(Prosodic Break Index)가 있다. PBI는 음성 합성 시스템인 TTS(Text-To-Speech) 시스템에서 자연스러운 합성음을 생성하는 데 이용되는 기술로서 HMM(Hidden Markov Model), NN(Neural Network), CART(Classification and Regression Tree) 방식 등을 주로 사용한다. PBI에서는 문장을 구에 해당하지 않는 어절인 NP(Non Phrase), 악센트가 있는 구인 AP(Accentual Phrase), 억양구인 IP(Intonational Phrase) 등으로 어절 사이를 분할하고 각 어절 다음에서 끊어 읽는 정도를 예측한다. 예를 들어, 도 11에 마련된 멜로디 가운데 식별번호 1100에 해당하는 부분인 도 12a에 도시된 가사를 도 12c에 도시된 바와 같이 가사 에서 끊어 읽기를 해야 하는 지점을 예측할 수 있다.
제700단계에서 추출된 마디의 정보와 제710단계에서 예측된 각 어절 다음에서 끊어 읽는 정도를 이용하여 멜로디를 분할한다(제720단계). 또한, 제720단계에서는 음표의 길이까지 이용하여 멜로디를 분할할 수 있다. 예를 들어, 제720단계에서는 어절의 마지막 음표의 길이에 따라 멜로디를 분할할 수 있다.
도 8은 제720단계에 대한 보다 상세한 일 실시예를 흐름도로 도시한 것이다.
제700단계에서 추출된 마디 가운데 어절 내에 마련된 마디인지 여부를 판단한다(제800단계). 제700단계에서 추출된 마디가 어절 내에 마련된 마디라고 제800단계에서 판단된 마디에서는 멜로디를 분할하지 않는 것으로 결정한다(제860단계). 도 12b를 예를 들어 설명하면, "아름다 B 운" 및 "이야 B 기"와 같이 어절 사이에 마련된 "B" 부분인 마디에서는 도 12e에서 멜로디를 분할하는 지점인 "MS"로 표시되지 않은 것과 같이 멜로디를 분할하지 않는 것으로 결정한다.
제710단계에서 어절이 IP와 같이 억양구로 예측되는 어절이 있는지 여부를 판단한다(제810단계). 제810단계에서 억양구로 판단된 어절(들) 다음에서 끊어 노 래할 할 확률이 높기 때문에 해당 어절의 끝에서 멜로디를 분할하는 것으로 결정한다(제850단계). 도 12c를 예를 들어 설명하면, "오 IP 아름다운" 및 "같은 IP 우리들의"와 같이 어절 사이에 마련된 "IP" 지점에서는 도 12e에서 멜로디를 분할하는 지점인 "MS"로 표시된 것과 같이 멜로디를 분할하는 것으로 결정한다.
제710단계에서 어절이 AP와 같이 악센트가 있는 구로 예측된 어절이 있는지 여부를 판단한다(제820단계).
만일 제820단계에서 악센트가 있는 구로 예측된 어절들 가운데 어절의 마지막에 마련된 음표의 길이가 기 설정된 길이 보다 긴 어절에 해당하는지 여부를 판단한다(제830단계). 만일 제820단계에서 악센트가 있는 구로 판단된 어절들 가운데 제830단계에서 어절의 마지막에 마련된 음표의 길이가 기 설정된 길이 보다 긴 어절로 판단된 어절은 해당 어절의 끝에서 멜로디를 분할하는 것으로 결정한다(제850단계). 그러나 제820단계에서 악센트가 있는 구로 예측된 어절들 가운데 제830단계에서 어절의 마지막에 마련된 음표의 길이가 기 설정된 길이 보다 짧은 어절로 판단된 어절은 해당 어절의 끝에서 멜로디를 분할하지 않는 것으로 결정한다(제860단계).
도 12c를 예를 들어 설명하면, "아름다운 AP 음악". "우리의 AP 사랑의" 및 "사랑의 AP 이야기들은"과 같이 어절 사이에 마련된 "AP" 지점에서는 멜로디를 분할하지 않는 것으로 결정한다. 그러나 "아름다운 AP 음악". "우리의 AP 사랑의" 및 "사랑의 AP 이야기들은" 가운데 도 12d에 도시된 바와 같이 어절의 마지막에 마련된 음표의 길이가 기 설정된 음표의 길이인 1/2를 초과하는 어절인지 여부를 판 단하고, 어절의 마지막에 마련된 음표의 길이가 1/2를 초과하는 어절인 "아름다운 AP 음악" 및 "우리의 AP 사랑의"에 대하여 도 12e에서 멜로디를 분할하는 지점인 "MS"로 표시된 지점과 같이 멜로디를 분할하는 것으로 결정한다.
제710단계에서 어절이 NP와 같이 구에 해당하지 않는 어절로 예측된 어절이 있는지 여부를 판단한다(제840단계). 제840단계에서 구에 해당하지 않는 어절로 예측된 어절은 어절 사이에 끊어 읽기를 하지 않을 확률이 가장 낮기 때문에 해당 어절의 끝에서 멜로디를 분할하지 않는 것으로 결정한다(제860단계).
다시 도 7에 도시된 실시예를 설명하면, 제850단계 또는 제860단계에서 결정된 멜로디를 분할하는 지점에 따라 제700단계에서 입력받은 미디 파일의 멜로디를 분할한다(제720단계). 예를 들어, 도 12a에 도시된 가사를 도 12b에 도시된 마디, 도 12c에 도시된 가사가 어절로 분할되어 각 어절의 특성이 예측된 결과 및 도 12d에 도시된 각 어절의 마지막에 마련된 음표의 길이를 이용하여 도 12e에 도시된 결과와 같이 분할할 수 있다. 예를 들어, 도 11, 13 및 14에 "New Bar"로 도시된 단위와 같이 멜로디를 분할할 수 있다.
제720단계에서 분할된 멜로디들을 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디와 사용자가 검색할 가능성이 낮은 부분의 멜로디로 분류한다(제730단계). 사용자가 자주 검색할 것으로 예측되는 부분의 예로 각 곡의 처음에 마련된 소절들, 곡 내에서 빈번하게 반복되는 멜로디, 후렴구 등이 있다.
제730단계에서는 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디를 제1 멜로디 저장 영역에 기입하고 해당 멜로디의 가사를 제1 가사 저장 영역에 기입 한다. 그러나 제730단계에서는 사용자가 검색할 가능성이 낮은 부분의 멜로디를 제2 멜로디 저장 영역에 기입하고 해당 멜로디의 가사는 제2 가사 저장 영역에 기입한다. 여기서, 제1 멜로디 저장 영역은 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디를 저장하고, 제1 가사 저장 영역은 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디에 대응하는 가사를 저장한다.
도 9는 제730단계에 대한 보다 상세한 일 실시예를 흐름도로 도시한 것이다.
제720단계에서 분할된 멜로디들 가운데 각 곡의 처음에 마련된 소절들 가운데 기 설정된 소절만큼 추출하여 제1 멜로디 저장 영역에 별도로 마련된 첫소절 멜로디 저장 영역에 저장하고 해당 멜로디(들)의 가사(들)를 추출하여 제1 가사 저장 영역에 별도로 마련된 첫소절 저장 영역에 저장한다(제900단계).
제720단계에서 분할된 멜로디들 가운데 각 곡 내에서 기 설정된 횟수 이상으로 반복되는 멜로디(들)를 추출하여 제1 멜로디 저장 영역에 별도로 마련된 반복 멜로디 저장 영역에 저장하고 해당 멜로디(들)의 가사(들)를 추출하여 제1 가사 저장 영역에 별도로 마련된 반복 멜로디 가사 저장 영역에 저장한다(제910단계).
제720단계에서 분할된 멜로디들 가운데 각 곡의 후렴구에 해당하는 멜로디(들)를 추출하여 제1 멜로디 저장 영역에 별도로 마련된 후렴구 멜로디 저장 영역에 저장하고 해당 멜로디(들)에 대응하는 가사(들)를 추출하여 제1 가사 저장 영역에 별도로 마련된 후렴구 저장 영역 저장한다(제920단계).
제900단계 내지 제920단계에서 추출되지 않은 멜로디(들)를 제2 멜로디 저장 영역에 저장하고, 제900단계 내지 제920단계에서 추출되지 않은 가사(들)를 제2 가 사 저장 영역에 저장한다(제930단계). 여기서, 제2 멜로디 저장 영역은 사용자가 검색할 가능성이 낮은 부분의 멜로디를 저장하고, 제2 가사 저장 영역은 사용자가 검색할 가능성이 낮은 부분의 멜로디에 대응하는 가사를 저장한다.
도 10은 본 발명에 의한 음악 검색 방법에 대한 일 실시예를 흐름도로 도시한 것이다. 본 발명에 의한 음악 검색 방법의 실시예인 도 10은 본 발명에 의한 음악 저장 방법의 실시예인 도 7에서 소정의 기준으로 분할하여 저장된 멜로디들과 가사들을 사용자로부터 입력받은 사용자 질의와 비교하여 음악을 검색한다.
먼저, 사용자가 부르는 노래(singing) 또는 허밍(humming)과 같은 사용자 질의를 입력받는다(제1000단계). 여기서, 사용자 질의의 예로 사용자가 발성하는 소리 또는 핸드폰과 같은 디바이스에서 재생되는 소리가 있다.
제1000단계에서 입력받은 사용자 질의 가운데 멜로디만 추출한다(제1010단계).
멜로디에서 추출한 마디의 정보, 가사에서 예측한 각 어절의 특성 및 음표의 길이 가운데 적어도 하나 이상을 기준으로 분할하여 제1 및 제2 멜로디 저장 영역에 저장된 복수의 멜로디들 가운데 제1010단계에서 추출된 멜로디와 유사한 기 설정된 개수의 멜로디(들)를 검출한다(제1020단계). 여기서, 제1 및 제2 멜로디 저장 영역은 도 7의 실시예에서 전술한 멜로디 저장 영역과 동일한 저장 영역이다. 제1 및 제2 멜로디 저장 영역은 멜로디에서 추출한 마디의 정보, 가사에서 예측한 각 어절의 특성 및 음표의 길이 가운데 적어도 하나 이상을 기준으로 하여 분할된 멜로디를 저장한다. 제1 및 제2 멜로디 저장 영역은 음표의 길이를 기준으로 분할 된 멜로디를 저장할 경우 어절의 마지막 음표의 길이에 따라 멜로디가 분할되어 저장될 수 있다. 제1 및 제2 멜로디 저장 영역에서 멜로디를 분할하는 기술적 내용과 관련하여 보다 상세한 내용은 도 7의 실시예에 기술되어 있다.
여기서, 제1 멜로디 저장 영역은 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디를 저장한다. 이러한 제1 멜로디 저장 영역은 도 9의 실시예를 설명하면서 전술한 바와 같이 첫소절 멜로디 저장 영역, 반복 멜로디 저장 영역 및 후렴구 멜로디 저장 영역을 포함하여 실시할 수 있다. 첫소절 멜로디 저장 영역은 처음에 마련된 소절들을 저장한다. 반복 멜로디 저장 영역은 기 설정된 횟수 이상으로 반복되는 멜로디(들)를 저장한다. 후렴구 멜로디 저장 영역은 후렴구에 해당하는 멜로디(들)를 저장한다. 그리고 제2 멜로디 저장 영역은 사용자가 검색할 가능성이 낮은 부분의 멜로디를 저장한다.
제1020단계에서 멜로디를 검출하는 순서는 우선 제1 멜로디 저장 영역에서 멜로디를 검색한 후 기 설정된 개수에 해당하는 멜로디를 검출하지 못하였다면 제2 멜로디 저장 영역에서 멜로디를 검색한다. 다시 말하면, 제1020단계에서는 첫 소절 멜로디, 반복 멜로디. 후렴구 멜로디 등과 같이 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디들이 저장된 제1 멜로디 저장 영역을 먼저 검색한 후 사용자가 검색할 가능성이 낮은 부분의 멜로디들이 저장된 제2 멜로디 저장 영역을 검색한다.
제1020단계에서 검출된 멜로디들이 제1010단계에서 추출된 멜로디와 유사도가 기 설정된 임계값 보다 큰지 여부를 판단한다(제1030단계). 예를 들어, 유사도 는 특정한 멜로디와 일치할 확률로 나타낼 수 있으며, 이 경우 기 설정된 임계값으로 0.7을 설정할 수 있으나 이에 한정해야 하는 것은 아니며 가변적이다.
만일 제1020단계에서 검출된 멜로디들이 제1010단계에서 추출된 멜로디와 유사도가 기 설정된 임계값 보다 크다고 제1030단계에서 판단되면, 더 이상 음악을 검색하지 않고 종료하며 제1020단계에서 검출된 멜로디들에 대응하는 후보 음악들의 정보를 출력한다(제1060단계).
만일 제1020단계에서 검출된 멜로디들이 제1010단계에서 추출된 멜로디와 유사도가 기 설정된 임계값 보다 작다고 제1030단계에서 판단되면, 제1000단계에서 입력받은 사용자 질의 가운데 음성만 인식한다(제1040단계). 제1040단계에서는 제1020단계에서 검출된 멜로디들에 대응하여 제1 및 제2 가사 저장 영역에 저장된 가사들에 포함된 단어만을 대상으로 음성을 인식한다. 여기서, 제1 및 제2 가사 저장 영역은 도 7의 실시예에서 전술한 가사 저장 영역과 동일한 저장 영역이다. 제1 및 제2 가사 저장 영역은 멜로디에서 추출한 마디의 정보, 가사에서 예측한 각 어절의 특성 및 음표의 길이 가운데 적어도 하나 이상을 기준으로 하여 분할된 멜로디에 대응하여 분할된 가사들을 저장한다. 제1 및 제2 가사 저장 영역은 음표의 길이를 기준으로 분할된 멜로디에 대응하여 분할된 가사들을 저장할 경우 어절의 마지막 음표의 길이에 따라 분할된 멜로디에 대응하여 분할된 가사들이 저장될 수 있다. 제1 및 제2 가사 저장 영역에서 가사를 분할하여 저장하는 기술적 내용과 관련하여 보다 상세한 내용은 도 7의 실시예에 기술되어 있다.
여기서, 제1 가사 저장 영역은 사용자가 자주 검색할 것으로 예측되는 부분 의 가사 또는 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디에 대응하는 부분의 가사를 저장한다. 이러한 제1 가사 저장 영역은 도 9의 실시예에서 전술한 바와 같이 첫소절 저장 영역, 반복 멜로디 가사 저장 영역 및 후렴구 저장 영역을 포함하여 실시할 수 있다. 첫소절 저장 영역은 처음에 마련된 소절들에 대응하는 가사를 저장한다. 반복 멜로디 가사 저장 영역은 기 설정된 횟수 이상으로 반복되는 멜로디(들)에 대응하는 가사를 저장한다. 후렴구 저장 영역은 후렴구에 해당하는 가사(들)를 저장한다.
제2 가사 저장 영역은 사용자가 검색할 가능성이 낮은 부분의 가사 또는 사용자가 검색할 가능성이 낮은 부분의 멜로디에 대응하는 가사를 저장한다.
제1020단계에서 검출된 멜로디들에 대응하여 가사 저장 영역에 저장된 가사들 가운데 제1030단계에서 인식된 음성과 유사한 기 설정된 개수에 해당하는 가사(들)을 검출한다(제1050단계). 제1050단계에서 검출하는 순서는 우선 제1 가사 저장 영역에서 가사를 검색한 후 기 설정된 개수에 해당하는 가사를 검출하지 못하였다면 제2 가사 저장 영역에서 가사를 검색한다. 다시 말하면, 제1050단계에서는 첫 소절 멜로디, 반복 멜로디. 후렴구 멜로디 등과 같이 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디들에 대응하는 가사 또는 사용자가 자주 검색할 것으로 예측되는 부분의 가사들이 저장된 제1 가사 저장 영역을 먼저 검색한 후 사용자가 검색할 가능성이 낮은 부분의 멜로디들이 저장된 제2 가사 저장 영역을 검색한다.
제1050단계에서 검출된 가사들에 대응하는 후보 음악들의 정보를 출력한다 (제1060단계).
이러한 본 발명에 대한 이해를 돕기 위하여 도면에 도시된 실시예를 참고로 설명되었으나, 이는 예시적인 것에 불과하며, 당해 분야에서 통상적 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위에 의해 정해져야 할 것이다.
또한, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장 장치 등이 있다.
도 1은 본 발명에 의한 음악 저장 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 2는 멜로디 분할부(120)에 대한 보다 상세한 일 실시예를 블록도로 도시한 것이다.
도 3은 분류부(130)에 대한 보다 상세한 일 실시예를 블록도로 도시한 것이다.
도 4는 제1 멜로디 저장부(143)에 대한 보다 상세한 일 실시예를 블록도로 도시한 것이다.
도 5는 제1 가사 저장부(153)에 대한 보다 상세한 일 실시예를 블록도로 도시한 것이다.
도 6은 본 발명에 의한 음악 검색 장치에 대한 일 실시예를 블록도로 도시한 것이다.
도 7은 본 발명에 의한 음악 저장 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 8은 제720단계에 대한 보다 상세한 일 실시예를 흐름도로 도시한 것이다.
도 9는 제730단계에 대한 보다 상세한 일 실시예를 흐름도로 도시한 것이다.
도 10은 본 발명에 의한 음악 검색 방법에 대한 일 실시예를 흐름도로 도시한 것이다.
도 11, 13 및 14는 각 곡을 마디 단위로 분할하고 본 발명에 의한 음악 저장 방법 및 장치에서 분할한 결과에 대한 일 실시예를 개념도로 도시한 것이다.
도 12a는 도 11에 마련된 멜로디 가운데 식별번호 1100에 해당하는 부분의 가사만 도시한 것이다.
도 12b는 도 11에 마련된 멜로디 가운데 식별번호 1100에 해당하는 부분의 가사를 마디 단위로 분할한 결과를 도시한 것이다.
도 12c는 도 11에 마련된 멜로디 가운데 식별번호 1100에 해당하는 부분의 가사를 어절 단위로 분할하고 각 어절의 특성을 도시한 것이다.
도 12d는 도 11에 마련된 멜로디 가운데 식별번호 1100에 해당하는 부분의 가사를 각 어절의 마지막에 마련된 음표의 길이를 도시한 것이다.
도 12e는 도 11에 마련된 멜로디 가운데 식별번호 1100에 해당하는 부분의 가사를 본 발명에 의한 음악 저장 방법 및 장치에서 분할한 결과에 대한 일 실시예를 도시한 것이다.
〈도면의 주요 부호에 대한 간단한 설명〉
100: 마디 추출부 110: 끊어읽기 예측부
120: 멜로디 분할부 130: 분류부
140: 멜로디 저장부 150: 가사 저장부
Claims (25)
- 음악 검색 장치에 있어서,사용자 및 디바이스 중 적어도 하나에 의해 생성된 소리를 포함하는 사용자 질의를 수신하는 입력부;상기 수신된 질의에 포함된 상기 소리로부터 멜로디를 추출하는 멜로디 추출부; 및멜로디 저장부에 저장된 복수의 멜로디들을 분할하는 기준인 가사의 끊어 읽기 지점들에 기초하여 상기 추출된 멜로디와 상기 저장된 복수의 멜로디들을 비교함으로써 상기 추출된 멜로디에 대응되는 음악을 검출하고, 상기 검출된 음악에 대한 정보를 출력하는 멜로디 검출부를 포함하고,상기 가사의 끊어 읽기 지점들은 문장의 구문 구조, 품사 정보, 어절의 위치 정보 중 적어도 하나를 이용하여 예측되는 것을 특징으로 하는 음악 검색 장치.
- 제1항에 있어서, 상기 멜로디 저장부에서상기 멜로디들을 분할하는 기준에 음표의 길이를 추가하는 것을 특징으로 하는 음악 검색 장치.
- 제1항에 있어서, 상기 멜로디 저장부에서상기 멜로디들을 분할하는 기준에 멜로디에 마련된 마디를 추가하는 것을 특징으로 하는 음악 검색 장치.
- 제1항에 있어서,상기 분할된 멜로디들에 대응하는 가사들을 상기 분할된 멜로디들과 동일하게 분할하여 저장하는 가사 저장부; 및상기 검출된 멜로디들에 대응하여 상기 저장된 가사들 가운데 상기 질의와 유사한 가사를 검출하는 가사 검출부를 더 포함하는 음악 검색 장치.
- 제4항에 있어서, 상기 가사 검출부는상기 검출된 멜로디들에 대응하여 상기 저장된 가사들에 포함된 단어만을 대상으로 상기 수신된 사용자 질의에 대해 음성 인식을 수행함으로써 상기 검출된 멜로디들에 대응하여 상기 저장된 가사들 가운데 상기 사용자 질의와 유사한 가사를 검출하는 것을 특징으로 하는 음악 검색 장치.
- 제1항에 있어서, 상기 멜로디 저장부는사용자가 자주 검색할 것으로 예측되는 부분의 멜로디를 저장하는 제1 멜로디 저장부; 및사용자가 검색할 가능성이 낮은 부분의 멜로디를 저장하는 제2 멜로디 저장부를 포함하는 음악 검색 장치.
- 제6항에 있어서, 상기 제1 멜로디 저장부는각 곡의 처음에 마련된 소절들에 해당하는 멜로디들을 저장하는 첫소절 멜로디 저장부;각 곡 내에서 기 설정된 횟수 이상으로 반복되는 멜로디(들)를 저장하는 반복 멜로디 저장부; 및각 곡의 후렴구에 해당하는 멜로디(들)를 저장하는 후렴구 멜로디 저장부를 포함하는 음악 검색 장치.
- 제6항에 있어서, 상기 멜로디 검출부는상기 제1 멜로디 저장부를 검색한 후 상기 제2 멜로디 저장부를 검색하는 것을 특징으로 하는 음악 검색 장치.
- 제4항에 있어서, 상기 가사 저장부는사용자가 자주 검색할 것으로 예측되는 부분의 가사 또는 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디에 대응하는 부분의 가사를 저장하는 제1 가사 저장부; 및사용자가 검색할 가능성이 낮은 부분의 가사 또는 사용자가 검색할 가능성이 낮은 부분의 멜로디에 대응하는 가사를 저장하는 제2 가사 저장부를 포함하는 음악 검색 장치.
- 제9항에 있어서, 상기 제1 가사 저장부는각 곡의 처음에 마련된 소절들에 대응하는 가사를 저장하는 첫소절 저장부;각 곡 내에서 기 설정된 횟수 이상으로 반복되는 멜로디(들)에 대응하는 가사 또는 기 설정된 횟수 이상으로 반복되는 가사를 저장하는 반복 멜로디 가사 저장부; 및각 곡의 후렴구에 해당하는 가사(들)를 저장하는 후렴구 저장부를 포함하는 음악 검색 장치.
- 제9항에 있어서, 상기 가사 검출부는상기 제1 가사 저장부를 검색한 후 상기 제2 가사 저장부를 검색하는 것을 특징으로 하는 음악 검색 장치.
- 음악 저장 장치에 있어서,멜로디들을 수신하고, 상기 수신된 멜로디들의 마디들을 추출하는 마디 추출부;상기 수신된 멜로디들에 대해 가사의 끊어 읽기 지점들을 예측하는 끊어 읽기 예측부;상기 마디 추출부에 의해 추출된 마디들과 상기 끊어 읽기 예측부에 의해 예측된 상기 가사의 끊어 읽기 지점들에 기초하여 상기 수신된 멜로디들을 분할하는 분할부; 및상기 분할된 멜로디들을 저장하는 멜로디 저장부를 포함하고,상기 끊어 읽기 예측부는 문장의 구문 구조, 품사 정보, 어절의 위치 정보 중 적어도 하나를 이용하여 상기 가사의 끊어 읽기 지점들을 예측하는 것을 특징으로 하는 음악 저장 장치.
- 제12항에 있어서, 상기 분할부에서상기 멜로디들을 분할하는 기준에 음표의 길이를 추가하는 것을 특징으로 하는 음악 저장 장치.
- 제12항에 있어서, 상기 분할부에서상기 멜로디들을 분할하는 기준에 마디를 추가하는 것을 특징으로 하는 음악 저장 장치.
- 제14항에 있어서, 상기 분할부에서어절 내에 마련된 마디에서 멜로디를 분할하지 않는 것을 특징으로 하는 음 악 저장 장치.
- 제12항에 있어서, 상기 분할부에서억양구로 예측되는 어절의 끝에서 멜로디를 분할하는 것을 특징으로 하는 음악 저장 장치.
- 제12항에 있어서, 상기 분할부에서악센트가 있는 구로 예측되는 어절의 끝에서 해당 어절의 마지막 음절의 음표 길이에 따라 멜로디를 분할 여부를 결정하는 음악 저장 장치.
- 제13항에 있어서, 상기 분할부에서어절의 마지막에 마련된 음표의 길이가 기 설정된 길이 보다 긴 어절의 끝에서 멜로디를 분할하는 것을 특징으로 하는 음악 저장 장치.
- 제12항에 있어서,상기 분할된 멜로디들에 대응하는 가사들을 상기 분할된 멜로디들과 동일하게 분할하여 저장하는 가사 저장부를 더 포함하는 음악 저장 장치.
- 제12항에 있어서,상기 분할된 멜로디들을 사용자가 자주 검색할 것으로 예측되는 부분의 멜로 디와 사용자가 검색할 가능성이 낮은 부분의 멜로디로 분류하는 분류부를 더 포함하고,상기 멜로디 저장부는사용자가 자주 검색할 것으로 예측되는 부분의 멜로디를 저장하는 제1 멜로디 저장부; 및사용자가 검색할 가능성이 낮은 부분의 멜로디를 저장하는 제2 멜로디 저장부를 포함하는 음악 저장 장치.
- 제20항에 있어서, 상기 제1 멜로디 저장부는각 곡의 처음에 마련된 소절들에 해당하는 멜로디, 각 곡 내에서 기 설정된 횟수 이상으로 반복되는 멜로디(들) 및 각 곡의 후렴구에 해당하는 멜로디(들) 중 적어도 어느 하나 이상을 분류하여 각각 별도로 저장하는 것을 특징으로 하는 음악 저장 장치.
- 제19항에 있어서, 상기 가사 저장부는사용자가 자주 검색할 것으로 예측되는 부분의 가사 또는 사용자가 자주 검색할 것으로 예측되는 부분의 멜로디에 대응하는 부분의 가사를 저장하는 제1 가사 저장부; 및사용자가 검색할 가능성이 낮은 부분의 가사 또는 사용자가 검색할 가능성이 낮은 부분의 멜로디에 대응하는 가사를 저장하는 제2 가사 저장부를 포함하는 음악 저장 장치.
- 제22항에 있어서, 상기 제1 가사 저장부는각 곡의 처음에 마련된 소절들에 대응하는 가사, 각 곡 내에서 기 설정된 횟수 이상으로 반복되는 멜로디(들)에 대응하는 가사 또는 각 곡 내에서 기 설정된 횟수 이상으로 반복되는 가사, 각 곡의 후렴구에 해당하는 가사(들) 중 적어도 어느 하나 이상을 각각 별도로 분류하여 저장하는 것을 특징으로 하는 음악 저장 장치.
- 삭제
- 삭제
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080001833A KR101504522B1 (ko) | 2008-01-07 | 2008-01-07 | 음악 저장/검색 장치 및 방법 |
US12/081,410 US9012755B2 (en) | 2008-01-07 | 2008-04-15 | Method and apparatus for storing/searching for music |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080001833A KR101504522B1 (ko) | 2008-01-07 | 2008-01-07 | 음악 저장/검색 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090076083A KR20090076083A (ko) | 2009-07-13 |
KR101504522B1 true KR101504522B1 (ko) | 2015-03-23 |
Family
ID=40843548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080001833A KR101504522B1 (ko) | 2008-01-07 | 2008-01-07 | 음악 저장/검색 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9012755B2 (ko) |
KR (1) | KR101504522B1 (ko) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE440334T1 (de) * | 2006-02-10 | 2009-09-15 | Harman Becker Automotive Sys | System für sprachgesteuerte auswahl einer audiodatei und verfahren dafür |
JP5135931B2 (ja) * | 2007-07-17 | 2013-02-06 | ヤマハ株式会社 | 楽曲加工装置およびプログラム |
US9280598B2 (en) * | 2010-05-04 | 2016-03-08 | Soundhound, Inc. | Systems and methods for sound recognition |
CN103324698A (zh) * | 2013-06-08 | 2013-09-25 | 北京航空航天大学 | 一种基于数据级并行gpu加速的大规模哼唱旋律匹配系统 |
KR101476549B1 (ko) * | 2013-08-14 | 2014-12-24 | 이화여자대학교 산학협력단 | 첫머리 선율을 이용한 음악 검색 방법 및 첫머리 선율을 이용한 음악 검색 시스템 |
JP6291913B2 (ja) * | 2014-03-04 | 2018-03-14 | ヤマハ株式会社 | 楽曲生成システム |
US10133537B2 (en) * | 2014-09-25 | 2018-11-20 | Honeywell International Inc. | Method of integrating a home entertainment system with life style systems which include searching and playing music using voice commands based upon humming or singing |
US9792889B1 (en) * | 2016-11-03 | 2017-10-17 | International Business Machines Corporation | Music modeling |
CN107452361B (zh) * | 2017-08-08 | 2020-07-07 | 腾讯音乐娱乐(深圳)有限公司 | 歌曲分句方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060020114A (ko) * | 2004-08-31 | 2006-03-06 | 주식회사 코난테크놀로지 | 음악 검색 서비스 제공 시스템 및 방법 |
KR100678923B1 (ko) * | 2005-11-21 | 2007-02-05 | 삼성전자주식회사 | 음악 파일 편집 장치 및 방법 |
JP2007183921A (ja) * | 2005-11-09 | 2007-07-19 | Sony Deutsche Gmbh | 3d検索アルゴリズムを用いる楽曲情報検索 |
JP2007316692A (ja) | 2006-05-23 | 2007-12-06 | Nec System Technologies Ltd | メロディ検索装置及びこれに対する入力装置並びにメロディ検索方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3890692B2 (ja) | 1997-08-29 | 2007-03-07 | ソニー株式会社 | 情報処理装置及び情報配信システム |
GB9918611D0 (en) * | 1999-08-07 | 1999-10-13 | Sibelius Software Ltd | Music database searching |
JP3661539B2 (ja) * | 2000-01-25 | 2005-06-15 | ヤマハ株式会社 | メロディデータ生成装置及び記録媒体 |
US6823084B2 (en) | 2000-09-22 | 2004-11-23 | Sri International | Method and apparatus for portably recognizing text in an image sequence of scene imagery |
FI20002161A (fi) * | 2000-09-29 | 2002-03-30 | Nokia Mobile Phones Ltd | Menetelmä ja järjestelmä melodian tunnistamiseksi |
JP4067762B2 (ja) * | 2000-12-28 | 2008-03-26 | ヤマハ株式会社 | 歌唱合成装置 |
KR100468971B1 (ko) | 2002-06-25 | 2005-01-29 | 엘지전자 주식회사 | 멜로디 기반 검색이 가능한 음악 재생장치 |
JP2004287099A (ja) * | 2003-03-20 | 2004-10-14 | Sony Corp | 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置 |
KR20050053903A (ko) | 2003-12-03 | 2005-06-10 | 학교법인 영남학원 | 허밍과 음성인식을 이용한 음악정보검색방법 |
KR20050102696A (ko) | 2004-04-21 | 2005-10-27 | 주식회사 허드슨 텔레콤 | 음성인식 선곡기능을 갖는 노래방기기 |
KR100542854B1 (ko) | 2004-05-03 | 2006-01-20 | 에스케이텔레콤 주식회사 | 이동통신망에서의 주문형 음악 서비스 장치 및 방법 |
JP2008537180A (ja) * | 2005-04-18 | 2008-09-11 | エルジー エレクトロニクス インコーポレーテッド | 音楽作曲装置の運用方法 |
US7605322B2 (en) * | 2005-09-26 | 2009-10-20 | Yamaha Corporation | Apparatus for automatically starting add-on progression to run with inputted music, and computer program therefor |
KR100705176B1 (ko) | 2006-01-09 | 2007-04-06 | 엘지전자 주식회사 | 모바일 단말기에서의 음악 파일 생성방법 |
KR20070078029A (ko) | 2006-01-25 | 2007-07-30 | 서동욱 | 무선 통신을 이용한 원격 음악 및 노래 검색 선곡장치 및서비스 시스템 |
KR20070080481A (ko) | 2006-02-07 | 2007-08-10 | 삼성전자주식회사 | 노래 가사를 이용하여 하이라이트 구간을 검색하는 장치 및그 방법 |
US7977562B2 (en) * | 2008-06-20 | 2011-07-12 | Microsoft Corporation | Synthesized singing voice waveform generator |
-
2008
- 2008-01-07 KR KR1020080001833A patent/KR101504522B1/ko not_active IP Right Cessation
- 2008-04-15 US US12/081,410 patent/US9012755B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060020114A (ko) * | 2004-08-31 | 2006-03-06 | 주식회사 코난테크놀로지 | 음악 검색 서비스 제공 시스템 및 방법 |
JP2007183921A (ja) * | 2005-11-09 | 2007-07-19 | Sony Deutsche Gmbh | 3d検索アルゴリズムを用いる楽曲情報検索 |
KR100678923B1 (ko) * | 2005-11-21 | 2007-02-05 | 삼성전자주식회사 | 음악 파일 편집 장치 및 방법 |
JP2007316692A (ja) | 2006-05-23 | 2007-12-06 | Nec System Technologies Ltd | メロディ検索装置及びこれに対する入力装置並びにメロディ検索方法 |
Also Published As
Publication number | Publication date |
---|---|
US9012755B2 (en) | 2015-04-21 |
KR20090076083A (ko) | 2009-07-13 |
US20090173214A1 (en) | 2009-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101504522B1 (ko) | 음악 저장/검색 장치 및 방법 | |
US11270685B2 (en) | Speech based user recognition | |
US11062694B2 (en) | Text-to-speech processing with emphasized output audio | |
JP6705008B2 (ja) | 話者照合方法及びシステム | |
US20080177543A1 (en) | Stochastic Syllable Accent Recognition | |
US20140207457A1 (en) | False alarm reduction in speech recognition systems using contextual information | |
Lu | Indexing and retrieval of audio: A survey | |
CN111552777B (zh) | 一种音频识别方法、装置、电子设备及存储介质 | |
US10515637B1 (en) | Dynamic speech processing | |
JP2006215499A (ja) | 音声処理装置 | |
JP4769098B2 (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
US8423354B2 (en) | Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method | |
JP2006277676A (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
JP5201053B2 (ja) | 合成音声判別装置、方法及びプログラム | |
JP2005257954A (ja) | 音声検索装置、音声検索方法および音声検索プログラム | |
JP4270732B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3472101B2 (ja) | 音声入力解釈装置及び音声入力解釈方法 | |
JP2010054574A (ja) | 話者交替推定装置、話者識別装置、及びコンピュータプログラム | |
Kruspe et al. | Retrieval of song lyrics from sung queries | |
JP3934556B2 (ja) | 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間領域信号を参照する方法及びその装置 | |
KR100842754B1 (ko) | 조음 특징의 신뢰도를 이용한 음성 인식 방법 및 장치 | |
KR101302568B1 (ko) | 허밍 질의 기반 음원 검색 고속화 시스템 및 그 방법 | |
JP5136621B2 (ja) | 情報検索装置及び方法 | |
JP4621936B2 (ja) | 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム | |
KR100930248B1 (ko) | 소리로부터 얻은 정보를 이용하여 인터넷을 검색하는 장치및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
J201 | Request for trial against refusal decision | ||
B701 | Decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20180227 Year of fee payment: 4 |
|
LAPS | Lapse due to unpaid annual fee |